Rumah >Peranti teknologi >AI >CMU menjalankan kajian perbandingan terperinci dan mendapati GPT-3.5 lebih unggul daripada Gemini Pro, memastikan prestasi yang adil, telus dan boleh dihasilkan semula

CMU menjalankan kajian perbandingan terperinci dan mendapati GPT-3.5 lebih unggul daripada Gemini Pro, memastikan prestasi yang adil, telus dan boleh dihasilkan semula

PHPz
PHPzke hadapan
2023-12-21 08:13:38845semak imbas

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Apakah kekuatan Google Gemini? Carnegie Mellon University menjalankan perbandingan pihak ketiga yang profesional dan objektif

Untuk memastikan keadilan, semua model menggunakan gesaan dan parameter penjanaan yang sama, serta menyediakan kod yang boleh dihasilkan semula dan hasil yang telus sepenuhnya.

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

tidak akan menggunakan CoT@32 untuk membandingkan 5-shot seperti sidang akhbar rasmi Google.

Hasil dalam satu ayat: Versi Gemini Pro hampir tetapi lebih rendah sedikit daripada GPT-3.5 Turbo, dan GPT-4 masih jauh di hadapan.

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Dalam analisis yang mendalam, kami juga mendapati beberapa ciri aneh Gemini, seperti Saya suka memilih D untuk soalan aneka pilihan...

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Ramai penyelidik berkata bahawa Gemini telah dijalankan dengan sangat terperinci hanya beberapa hari selepas dikeluarkan Ini adalah pencapaian yang sangat luar biasa

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Pengujian mendalam terhadap enam tugasan utama

Ujian ini secara khusus membandingkan 6 tugasan yang berbeza, dan memilih set data yang sepadan untuk setiap tugasan

  • Soal Jawab: MMLU
  • Inferens: BIG-Bench Hard
  • Math: GSM8k, SVAMP, ASDIV, MAWPS
  • Kod: HumanEval, ODEX
  • Terjemahan: FLORES
  • Penterjemahan: FLORES🜎
Trivia: Suka D

Berdasarkan keputusan Dapat dilihat bahawa menggunakan gesaan rantaian pemikiran dalam jenis tugasan ini tidak semestinya meningkatkan kesan Dalam set data MMLU, semua soalan adalah soalan aneka pilihan. Selepas menganalisis hasilnya, fenomena aneh ditemui: Gemini lebih suka pilihan D. Pengagihan siri GPT di antara empat pilihan adalah lebih seimbang Pasukan mencadangkan bahawa ini mungkin kerana Gemini tidak memberikan banyak arahan untuk berbilang -soalan pilihan

disebabkan oleh penalaan halus.

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Selain itu, penapisan keselamatan Gemini sangat ketat. Apabila ia datang kepada soalan etika, ia hanya menjawab 85% daripada soalan. Apabila ia datang kepada soalan yang berkaitan dengan seksualiti manusia, ia hanya boleh menjawab 28% daripada soalan

Gemini Pro mengatasi GPT-3.5 dalam penyelidikan keselamatan dan mikroekonomi sekolah menengah, tetapi jurangnya tidak besar, kata pasukan itu Boleh' t mencari sesuatu yang istimewa

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Penaakulan: Masalah yang panjang tidak bagus untuk

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Siri GPT berprestasi lebih baik apabila menangani masalah yang lebih panjang dan lebih kompleks, berbanding, Gemini Pro berprestasi kurang baik Cemerlang

Terutamanya pada masalah bentuk, GPT-4 Turbo hampir tidak mempunyai kemerosotan prestasi, yang menunjukkan bahawa ia mempunyai keupayaan yang kuat untuk memahami masalah yang kompleksGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Analisis berdasarkan jenis masalah, Gemini sangat baik dalam "menjejaki item pertukaran" Ia melakukan kurang baik dalam masalah yang melibatkan orang bertukar barang dan akhirnya memerlukan AI untuk menentukan item yang dimiliki setiap orangGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Tugas yang Gemini mahir termasuk memahami pelbagai pengetahuan sukan dunia, memanipulasi timbunan simbol, menyusun perkataan dalam susunan abjad dan menghuraikan jadual

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Matematik: Tugasan yang kompleks mengatasi

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

terlalu panjang, menyebabkan Prestasi Gemini Pro dan GPT-3.5 menurun pada masa yang sama, dan hanya GPT-4 dapat mengekalkan tahap yang konsisten

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Apabila panjang rantaian pemikiran mencapai yang paling lama, Gemini melepasi GPT- 3.5

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Kod: Pandai dalam matplotlib

Untuk soalan kod, Gemini tidak berprestasi baik pada soalan dengan jawapan rujukan yang panjang

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Keluarga GPT lebih berkuasa dalam kebanyakan jenis matplotlib, tetapi berprestasi rendah sepenuhnya

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Terjemahan: Jawab sahaja, kualitinya sangat tinggi

Dalam tugas terjemahan, Gemini enggan menjawab 12 jenis soalan, tetapi kualiti terjemahan yang dijawab semuanya sangat baik, dan prestasi keseluruhan melebihi GPT -4

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini enggan menterjemah Bahasa terutamanya melibatkan Latin dan Arab

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Navigasi Rangkaian: Pandai melayari rentas tapak

WebArena mensimulasikan persekitaran Internet untuk AI, termasuk e-dagang, termasuk e-dagang forum, pembangunan kolaboratif GitLab, sistem pengurusan kandungan dan peta dalam talian. AI perlu mencari maklumat dalam persekitaran ini atau menyelesaikan tugas merentas tapak

Gemini tidak berprestasi sebaik GPT-3.5 Turbo secara keseluruhan, tetapi melakukan lebih baik sedikit pada tugas merentas berbilang tapak.

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Netizen: Tetapi ia percuma

Akhirnya, profesor madya CMU Graham Newbig mengakui beberapa batasan kajian

  • Tingkah laku model berasaskan API mungkin berubah pada bila-bila masa sahaja
  • perkataan pantas untuk model yang berbeza mungkin berbeza
  • Adalah mustahil untuk mengawal sama ada set ujian itu bocor

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Zhou Dengyong, ketua pasukan inferens model besar Google, menegaskan bahawa menetapkan suhu Gemini kepada 0 tin meningkatkannya sebanyak 5 -10 mata peratusan, yang sangat membantu untuk tugasan inferens

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Dalam ujian ini, sebagai tambahan kepada siri Gemini dan GPT, model MoE sumber terbuka yang diterima baru-baru ini Mixtral turut diperkenalkan

Walau bagaimanapun, pengukuhan pakar pembelajaran Noam Brown percaya Hasil Mixtral boleh diabaikan kerana ia menggunakan API pihak ketiga dan bukannya pelaksanaan rasmi

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

🎜

Pengasas Mistral AI telah menyediakan pasukan akses kepada versi rasmi, yang dia percaya akan membawa hasil yang lebih baik

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Walaupun Gemini Pro tidak sebaik GPT-3.5, kelebihannya ialah ia boleh dipanggil tidak lebih daripada 60 kali seminit Ia boleh digunakan secara percuma

Oleh itu, ramai pembangun individu telah menukar kem

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Pada masa ini versi tertinggi Gemini, versi Ultra, masih belum dikeluarkan, dan pasukan CMU juga berhasrat untuk meneruskan penyelidikan ini pada masa itu

Adakah anda fikir Gemini Ultra boleh mencapai GPT- Tahap 4?

Artikel ini memperincikan kertas: https://arxiv.org/abs/2312.11444

Pautan rujukan:
[1]https://twitter.com/81ubig3710.2014

🎜

Atas ialah kandungan terperinci CMU menjalankan kajian perbandingan terperinci dan mendapati GPT-3.5 lebih unggul daripada Gemini Pro, memastikan prestasi yang adil, telus dan boleh dihasilkan semula. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam