Rumah >Peranti teknologi >AI >Mahkota GPT-4 sudah tiada! Keputusan pengundian manusia arena Claude 3 dikeluarkan: hanya menduduki tempat ketiga
Claude 3's Arena Ranking akhirnya di sini:
Dalam masa 3 hari sahaja, 20,000 undian telah dibuat, mendorong trafik ranking ke tahap yang tidak pernah berlaku sebelum ini.
Akhirnya, model Opus "cawan besar" terkuat Claude 3 mendapat 1233, menjadi pemain pertama yang bersaing dengan GPT-4-Turbo.
Sonet "cawan sederhana" juga agak bagus, setanding dengan dua versi lama GPT-4.
Gambar
Tetapi secara keseluruhan, siri GPT-4 mempunyai kelebihan.
Prestasi Claude 3 berbeza sedikit daripada promosi. Seperti yang dirumuskan oleh netizen:
GPT-4 masih menjadi raja model besar!
Walau bagaimanapun, "cawan sederhana" percuma Claude 3 (Sonnet) lebih bernilai untuk wang.
Gambar
Apabila Claude 3 dikeluarkan, publisiti rasmi ialah ia mengatasi GPT-4 dalam semua aspek, tetapi ia tidak menyebut versi GPT-4 yang manakah itu.
Gambar
Kemas kini terkini Papan Pendahulu Arena (Papan Pendahulu Arena Chatbot LMSYS) membantu kami mengetahui.
Jom lihat butirannya.
Mendahului senarai ialah GPT-4 Turbo yang dilancarkan oleh OpenAI pada November tahun lepas, iaitu:
GPT-4-1106-pratonton.
Ia lebih berkuasa dan lebih murah, mempunyai konteks 128k, dan data latihan telah dikemas kini dari September 2021 hingga April 2023.
Terikat untuk tempat pertama ialah versi terkini GPT-4 Turbo, dikeluarkan pada Januari tahun ini:
GPT-4-0125-pratonton.
Data latihannya lebih luas, berlanjutan hingga Disember 2023.
Kedua-duanya mencapai markah 1251.
Kemudian datang Claude 3 (data latihan tamat pada Ogos 2023).
Versi terkuatnya, Opus, mendapat 1233, iaitu 18 mata lebih rendah daripada GPT-4 Turbo.
Gambar
Jurang ini tidak terlalu besar jika dibandingkan, lihat lebih jauh ke bawah:
Masing-masing 48 mata dan 72 mata daripada dua versi GPT-4 (0314 dan 0613).
Bagi prestasi kelas pertengahan Claude 3 Sonnet, ia berada di kedudukan ke-6, antara dua versi GPT-4:
Tetapi ia hanya 5 mata lebih rendah daripada versi 0314, dan mempunyai potensi besar untuk mengatasinya dalam satu kejadian. .
Gambar
Jadi secara umumnya, promosi rasmi bukanlah masalah besar, mengatasi versi lama GPT-4 dalam semua aspek, tetapi ia masih jauh sedikit dari GPT-4 Turbo, walaupun ia tidak terlalu besar.
——Berdasarkan mekanisme penilaian senarai ini, hasilnya cukup diiktiraf oleh industri.
Ia dimulakan oleh pasukan pengarang "Vicuna".
Tetapi majistret bukanlah "alpaca kecil", apatah lagi GPT-4, tetapi berdasarkan pilihan manusia.
Untuk lebih spesifik, kami secara rawak bertanya sebarang soalan kepada dua model tanpa nama, kemudian menilai jawapan masing-masing dan mengundi yang lebih baik.
Gambar
Jika kita tidak boleh mengundi dalam satu pusingan, kita boleh memilih untuk terus bertanya. Jika model secara tidak sengaja mendedahkan identiti mereka semasa sembang, undian akan menjadi tidak sah.
Istimewanya, peraturan pemarkahan menggunakan mekanisme Elo untuk memastikan keadilan (semua rakan yang bermain Honor of Kings sudah biasa dengannya).
Contohnya: Jika model tertentu kalah, markahnya tidak semestinya rendah kerana ia adalah lemah.
Setakat ini, senarai ini boleh dikatakan sangat popular 73 model dari seluruh dunia telah menyertai cabaran tersebut, dan sebanyak 370,000+ undian telah diterima daripada netizen.
Selain Claude 3, mari kita lihat pemain lain yang beraksi dengan baik.
Perkara pertama yang perlu disebutkan ialah Bard, yang berdasarkan Gemini Pro, menduduki tempat keempat, di belakang GPT-4Turbo dan Claude 3.
Gambar
boleh dikatakan agak memeranjatkan.
Netizen bergurau:
Google telah membuka "lubang" dalam ranking.
Dan pantas menelefon Jeff Dean dan orang yang bertanggungjawab di DeepMind: Hei, bekerja lebih keras (Wang Chai)
Gambar
Kemudian saya ingin bercakap tentang Ali Tongyi Qianwen (versi 1.5, dikeluarkan bulan lepas).
Ia tersepit ke dalam sepuluh teratas dan terikat di tempat kesembilan dalam ranking ini, dan merupakan pemain terbaik dalam kalangan pemain domestik.
Gambar
Ditinggalkan olehnya, sebagai tambahan kepada pemain domestik lain, Claude 2, Gemini Pro, GPT-3.5, dsb.
Senarai penuh:https://www.php.cn/link/e39505ef839c38f61139ae78da3f7615
Pautan rujukan:https://www.php.cn/link/30637f61139ae78da3f7615
Atas ialah kandungan terperinci Mahkota GPT-4 sudah tiada! Keputusan pengundian manusia arena Claude 3 dikeluarkan: hanya menduduki tempat ketiga. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!