Rumah >Peranti teknologi >AI >Laporan teknikal Google Gemini 1.5: Buktikan soalan Olimpik Matematik dengan mudah, versi Flash adalah 5 kali lebih pantas daripada GPT-4 Turbo
Pada bulan Februari tahun ini, Google melancarkan model besar berbilang mod Gemini1.5, yang telah meningkatkan prestasi dan kelajuan dengan sangat baik melalui pengoptimuman kejuruteraan dan infrastruktur, seni bina MoE dan strategi lain. Dengan konteks yang lebih panjang, keupayaan penaakulan yang lebih kukuh dan pengendalian kandungan merentas modal yang lebih baik.
Jumaat ini, Google DeepMind secara rasmi mengeluarkan laporan teknikal Gemini 1.5, yang merangkumi versi Flash dan peningkatan terkini yang lain Dokumen itu sepanjang 153 halaman.
Pautan laporan teknikal: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
Dalam laporan ini, Google memperkenalkan model siri Gemini.1.5 Ia mewakili generasi seterusnya model besar berbilang modal yang sangat cekap dari segi pengiraan, yang mampu mengingat maklumat terperinci dan penaakulan daripada konteks berjuta-juta token, termasuk berbilang dokumen panjang dan jam video. Model siri Gemini 1.5 mempunyai pelbagai bahasa dan keupayaan penaakulan visual, menjadikannya digunakan secara meluas dalam bidang pemprosesan bahasa semula jadi dan penglihatan komputer. Model ini mampu mengekstrak maklumat penting daripada teks dan melakukan inferens, serta analisis komprehensif berbilang dokumen panjang. Selain itu, ia menyokong pemprosesan sejumlah besar data visual dan mampu memproses sejumlah besar data visual dalam beberapa jam
Siri ini termasuk dua model baharu:
Mengenai versi Flash yang disebut pada persidangan Google I/O minggu ini, laporan tersebut menyatakan Gemini 1.5 Flash ialah model penyahkod Transformer dengan konteks 2M+ dan keupayaan berbilang modal yang sama seperti Gemini 1.5 Pro. Menggunakan unit pemprosesan tensor (TPU) dengan cekap dan mempunyai kependaman penyajian model rendah. Contohnya, Gemini 1.5 Flash boleh mengira komponen perhatian dan suapan ke hadapan secara selari, dan juga merupakan model Gemini 1.5 Pro dengan keupayaan pengekstrakan dalam talian rangkaian yang lebih besar. Ia dilatih menggunakan kaedah prapemprosesan peringkat tinggi untuk meningkatkan kualiti.
Laporan menilai purata masa setiap aksara keluaran untuk pertanyaan Inggeris, Cina, Jepun dan Perancis yang diambil daripada Gemini 1.5 dan Vertex AI Streaming API.
Masa setiap aksara keluaran (ms) untuk jawapan bahasa Inggeris, Cina, Jepun dan Perancis, dengan input 10,000 aksara, Gemini 1.5 Flash mencapai penjanaan terpantas semua bahasa yang diuji kelajuan.
Hasil penilaian model Gemini 1.5 Pro, 1.5 Flash dan Gemini 1.0 pada pengekodan standard, berbilang bahasa dan matematik, sains dan penanda aras penaakulan. Semua nombor untuk 1.5 Pro dan 1.5 Flash diperoleh selepas pelarasan arahan.
Gemini 1.5 Pro berbanding Gemini 1.0 Pro dan Ultra pada tanda aras pemahaman video.
Perbandingan Gemini 1.5 Pro dengan USM, Whisper, Gemini 1.0 Pro dan Gemini 1.0 Ultra pada tugas pemahaman audio.
Model Gemini 1.5 mencapai ingatan yang hampir sempurna pada tugas pencarian konteks panjang silang mod, meningkatkan tahap optimum QA dokumen panjang, QA video panjang dan ASR konteks panjang, dan sepadan atau melebihi keadaan penghantaran Gemini 1.0 Ultra -prestasi seni yang merentasi pelbagai penanda aras. Selain itu, Google turut menyatakan setakat Mei tahun ini, prestasi Gemini 1.5 telah meningkat dengan ketara berbanding Februari.
Gemini 1.5 Pro (Mei) berbanding keluaran awal (Februari) pada berbilang penanda aras. Gemini 1.5 Pro terbaharu memberikan peningkatan merentas semua inferens, pengekodan, penglihatan dan penanda aras video, manakala prestasi audio dan terjemahan kekal tidak berubah. Ambil perhatian bahawa untuk FLEURS, markah yang lebih rendah adalah lebih baik.
Oriol Vinyals, naib presiden Google DeepMind dan ketua bersama projek Gemini, membuat kesimpulan bahawa Gemini 1.5 Pro > 1.0 Ultra, 1.5 Flash (kini model terpantas) ~= 1.0 Ultra.
Dengan mengkaji had keupayaan konteks panjang Gemini 1.5, kita boleh melihat peningkatan berterusan dalam ramalan token seterusnya dan perolehan hampir sempurna (>99%). Lonjakan generasi ke atas model sedia ada seperti Claude 3.0 (200k) dan GPT-4 Turbo (128k).
Dalam bab ketujuh laporan, Google memperkenalkan penanda aras versi dipertingkatkan matematik Gemini 1.5 Pro, yang berprestasi baik dalam masalah matematik peringkat persaingan, termasuk pada penanda aras MATH Hendryck tanpa menggunakan alatan sebanyak 91.1%.
Berikut adalah beberapa contoh model yang menyelesaikan masalah Asia Pacific Mathematics Olympiad (APMO) yang model terdahulu jelas tidak dapat menyelesaikannya. Oriol Vinyals mengatakan jawapan ini bagus kerana ia adalah bukti (bukan pengiraan), penyelesaiannya adalah tepat, dan ia "cantik."
Akhirnya, Google menyerlahkan kes penggunaan dunia sebenar untuk model besar, seperti Gemini 1.5, yang berfungsi dengan profesional untuk menyelesaikan tugas dan mencapai matlamat, menjimatkan 26-75% dalam masa merentas 10 kategori pekerjaan yang berbeza
Model bahasa besar yang canggih ini juga menunjukkan beberapa ciri baharu yang mengejutkan. Apabila diberikan manual tatabahasa untuk Kalamang, bahasa yang dituturkan oleh kurang daripada 200 orang di barat Papua New Guinea, model itu boleh belajar menterjemah bahasa Inggeris ke dalam Kalamang pada tahap yang sama dengan manusia yang belajar daripada kandungan yang sama.
Atas ialah kandungan terperinci Laporan teknikal Google Gemini 1.5: Buktikan soalan Olimpik Matematik dengan mudah, versi Flash adalah 5 kali lebih pantas daripada GPT-4 Turbo. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!