Rumah > Artikel > Peranti teknologi > Pasukan Byte mencadangkan model Lynx: pemahaman LLM berbilang modal dan senarai penjanaan kognitif SoTA
Model Bahasa Besar (LLM) semasa seperti GPT4 telah menunjukkan keupayaan pelbagai mod yang sangat baik dalam mengikuti arahan terbuka yang diberikan imej. Walau bagaimanapun, prestasi model ini sangat bergantung pada pilihan struktur rangkaian, data latihan, dan strategi latihan, tetapi pilihan ini tidak dibincangkan secara meluas dalam literatur sebelumnya. Di samping itu, pada masa ini terdapat kekurangan penanda aras yang sesuai untuk menilai dan membandingkan model ini, yang mengehadkan pembangunan LLM multimodal.
Gambar
Berdasarkan kesimpulan eksperimen, penulis mencadangkan Lynx, yang menunjukkan pemahaman multi-modal yang paling tepat sambil mengekalkan multi-modaliti terbaik berbanding model gaya GPT4 sumber terbuka yang sedia ada Keupayaan Generatif.
Skema penilaian
multimodal Untuk menyelesaikan masalah ini, penulis mencadangkan Open-VQA penanda aras baharu termasuk data video dan imej, dan menjalankan penilaian menyeluruh terhadap model sumber terbuka semasa. Secara khusus, dua skim penilaian kuantitatif diguna pakai:
Kumpul set ujian Menjawab Soalan Visual Terbuka (Open-VQA), yang mengandungi maklumat tentang objek, OCR, pengiraan, penaakulan, pengecaman masa dan tindakan. . dan lain-lain kategori soalan. Tidak seperti set data VQA yang mempunyai jawapan standard, jawapan Open-VQA adalah
open-endedPengarang mencadangkan Lynx (猞猁) -model gaya dengan penalaan awalan. Pada peringkat pertama, kira-kira 120M pasangan teks imej digunakan untuk menyelaraskan pembenaman visual dan bahasa pada peringkat kedua, 20 imej atau video digunakan untuk tugasan berbilang modal dan data pemprosesan bahasa semula jadi (NLP) untuk melaraskan model; keupayaan mengikut arahan.
Gambar
Struktur keseluruhan model Lynx ditunjukkan dalam Rajah 1 di atas.
Input visual diproses oleh pengekod visual untuk mendapatkan token visual (token) $$W_v$$ Selepas pemetaan, ia disambungkan dengan token arahan $$W_l$$ sebagai input LLM Ini struktur dipanggil dalam artikel ini Ia adalah "prefix-finetuning" untuk membezakannya daripada struktur cross-attention yang digunakan oleh Flamingo [3].
Selain itu, penulis mendapati bahawa kos latihan boleh dikurangkan lagi dengan menambah Adapter selepas lapisan tertentu LLM beku.
Pengarang menilai prestasi model LLM berbilang modal sumber terbuka sedia ada pada Penilaian manual Open-VQA, Mme [4] dan OwlEval (keputusan ditunjukkan dalam carta di bawah, dan penilaian butiran ada dalam kertas). Ia boleh dilihat bahawa model Lynx telah mencapai prestasi terbaik dalam tugas pemahaman imej dan video Open-VQA, penilaian manual OwlEval dan tugas Persepsi Mme. Antaranya, InstructBLIP juga mencapai prestasi tinggi dalam kebanyakan tugas, tetapi balasannya terlalu pendek Sebagai perbandingan, dalam kebanyakan kes, model Lynx memberikan alasan ringkas untuk menyokong jawapan berdasarkan memberikan jawapan yang betul. mesra (lihat bahagian paparan Kes di bawah untuk beberapa kes).
1. Keputusan penunjuk pada set ujian imej Open-VQA ditunjukkan dalam Jadual 1 di bawah:
Gambar
2 Keputusan penunjuk pada set ujian video Terbuka dalam Jadual 1 di bawah 2 ditunjukkan.
gambar
3 Pilih model dengan skor tertinggi dalam Open-VQA untuk menjalankan penilaian kesan manual pada set penilaian OwlEval. Dapat dilihat daripada hasil penilaian manual bahawa model Lynx mempunyai prestasi penjanaan bahasa yang terbaik.
Gambar
4. Dalam ujian penanda aras Mme, Tugas kelas persepsi mencapai prestasi terbaik, antaranya 7 daripada 14 subtugas kelas menunjukkan prestasi terbaik. (Lihat lampiran kertas untuk keputusan terperinci)
Kes gambar VQA terbuka
Kes video VQA terbuka
🎜 🎜🎜🎜🎜 🎜Ringkasan🎜🎜🎜🎜Dalam artikel ini, melalui eksperimen ke atas lebih daripada dua puluh varian LLM berbilang mod, penulis menentukan model Lynx dengan penalaan awalan sebagai struktur utama dan memberikan pelan penilaian Open-VQA dengan jawapan terbuka. Keputusan eksperimen menunjukkan bahawa model Lynx melakukan ketepatan pemahaman pelbagai mod yang paling tepat sambil mengekalkan keupayaan penjanaan pelbagai mod yang terbaik. 🎜🎜Atas ialah kandungan terperinci Pasukan Byte mencadangkan model Lynx: pemahaman LLM berbilang modal dan senarai penjanaan kognitif SoTA. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!