Rumah > Artikel > Peranti teknologi > mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4
Model besar teks tulen berada dalam tahap menaik, dan kerja model besar multimodal telah mula muncul dalam medan multimodal GPT-4, yang paling kuat di permukaan, mempunyai keupayaan multimodal untuk membaca imej, tetapi ia belum lagi terbuka kepada orang ramai untuk pengalaman, jadi komuniti penyelidik Hu mula menyelidik dan sumber terbuka ke arah ini. Tidak lama selepas kemunculan MiniGPT-4 dan LLaVA, Alibaba DAMO Academy melancarkan mPLUG-Owl, model besar berbilang modal berdasarkan pelaksanaan modular.
mPLUG-Owl ialah karya terbaharu siri mPLUG Alibaba Damo Academy Ia meneruskan idea latihan modular siri mPLUG dan menaik taraf LLM kepada model berbilang modal yang besar. Dalam siri kerja mPLUG, E2E-VLP, mPLUG dan mPLUG-2 sebelumnya telah diterima oleh ACL2021, EMNLP2022 dan ICML2023, antaranya, kerja mPLUG mendahului senarai VQA dengan hasil luar biasa.
Apa yang saya ingin perkenalkan hari ini ialah mPLUG-Owl Kerja ini bukan sahaja menunjukkan keupayaan pelbagai modal yang sangat baik melalui sejumlah besar kes, tetapi juga mencadangkan set ujian komprehensif untuk pemahaman arahan berkaitan penglihatan. buat pertama kalinya. OwlEval membandingkan model sedia ada melalui penilaian manual, termasuk LLaVA, MiniGPT-4, BLIP-2 dan MM-REACT berasaskan sistem. modal Prestasi cemerlang dalam keupayaan pemahaman perintah dinamik, keupayaan dialog berbilang pusingan, keupayaan penaakulan pengetahuan, dll. >Pautan kertas: https://arxiv.org/abs/2304.14178
Pautan kod: https://github.com/X-PLUG /mPLUG-Owl
Alamat pengalaman ModelScope:
https://modelscope cn/studios/damo/mPLUG-Owl/summary
Alamat pengalaman HuggingFace:
https://huggingface.co/spaces/MAGAer13/mPLUG-Owl
Berbilang -demonstrasi keupayaan modalKami menggabungkan mPLUG-Owl dengan sedia ada Bandingkan kerja untuk merasai kesan pelbagai mod mPLUG-Owl Perlu dinyatakan bahawa sampel ujian yang dinilai dalam kerja ini pada asasnya daripada kerja sedia ada, mengelakkan masalah petik ceri.
Rajah 6 di bawah menunjukkan keupayaan dialog pelbagai pusingan kuat mPLUG-Owl.
Seperti yang dapat dilihat daripada Rajah 7, mPLUG-Owl mempunyai keupayaan penaakulan yang kukuh.
Rajah 9 menunjukkan beberapa contoh penjelasan jenaka.
Dalam kerja ini, sebagai tambahan kepada penilaian dan perbandingan, pasukan penyelidik juga memerhatikan bahawa mPLUG-Owl pada mulanya menunjukkan beberapa minat Keupayaan yang tidak dijangka, seperti perkaitan berbilang imej, berbilang bahasa, pengecaman teks dan pemahaman dokumen.
Seperti yang ditunjukkan dalam Rajah 10, walaupun data korelasi berbilang graf tidak dilatih semasa fasa latihan, mPLUG-Owl telah menunjukkan keupayaan korelasi berbilang graf tertentu.
Seperti yang ditunjukkan dalam Rajah 11, walaupun mPLUG-Owl hanya menggunakan data Bahasa Inggeris dalam fasa latihan, ia menunjukkan Dibangunkan menarik keupayaan berbilang bahasa. Ini mungkin kerana model bahasa dalam mPLUG-Owl menggunakan LLaMA, mengakibatkan fenomena ini.
Walaupun mPLUG-Owl tidak dilatih pada data dokumen beranotasi, ia masih menunjukkan pengecaman teks dan pemahaman dokumen tertentu, keputusan ujian ditunjukkan dalam Rajah 12.
Seni bina keseluruhan mPLUG-Owl yang dicadangkan dalam kerja ini ditunjukkan dalam Rajah 2 Tunjukkan.
Struktur model: Ia terdiri daripada modul asas visual
(sumber terbuka ViT-L), modul abstraksi visual
dan model bahasa pra-latihan
( LLaMA-7B). Modul abstraksi visual meringkaskan ciri imej yang lebih panjang dan berbutir halus kepada sejumlah kecil Token yang boleh dipelajari, dengan itu mencapai pemodelan maklumat visual yang cekap. Token visual yang dijana dimasukkan ke dalam model bahasa bersama-sama dengan pertanyaan teks untuk menjana respons yang sepadan.
Latihan model: menggunakan kaedah latihan dua peringkat
Peringkat pertama: tujuan utama adalah terlebih dahulu Mempelajari pertentangan antara modaliti visual dan lisan. Berbeza daripada kerja sebelumnya, mPLUG-Owl mencadangkan bahawa membekukan modul asas visual akan mengehadkan keupayaan model untuk mengaitkan pengetahuan visual dan pengetahuan teks. Oleh itu, mPLUG-Owl hanya membekukan parameter LLM pada peringkat pertama dan menggunakan LAION-400M, COYO-700M, CC dan MSCOCO untuk melatih modul asas visual dan modul ringkasan visual.
Peringkat kedua: Meneruskan penemuan bahawa latihan campuran modaliti yang berbeza dalam mPLUG dan mPLUG-2 bermanfaat antara satu sama lain, Owl juga menggunakan latihan tulen dalam peringkat kedua pengajaran halus- latihan penalaan. Data arahan tekstual (52k daripada Alpaca+90k daripada Vicuna+50k daripada Baize) dan data arahan berbilang mod (150k daripada LLaVA). Melalui eksperimen ablasi yang terperinci, penulis mengesahkan faedah yang dibawa oleh pengenalan penalaan halus arahan teks tulen dalam aspek seperti pemahaman arahan. Pada peringkat kedua, parameter modul asas visual, modul ringkasan visual dan LLM asal dibekukan Merujuk kepada LoRA, hanya struktur penyesuai dengan sejumlah kecil parameter dimasukkan ke dalam LLM untuk penalaan halus arahan.
Perbandingan SOTA
Untuk membandingkan keupayaan pelbagai mod bagi model yang berbeza, Kerja ini membina set penilaian arahan berbilang modal OwlEval. Memandangkan tiada penunjuk automatik yang sesuai pada masa ini, rujuk Self-Intruct untuk penilaian manual bagi jawapan model: A="Betul dan memuaskan" B="Sesetengah ketidaksempurnaan, tetapi boleh diterima"; arahan tetapi terdapat ralat yang jelas dalam respons"; D="Respons tidak relevan atau tidak betul sama sekali".
Hasil perbandingan ditunjukkan dalam Rajah 3 di bawah Eksperimen membuktikan bahawa Owl lebih baik daripada OpenFlamingo, BLIP-2, LLaVA dan MiniGPT-4 yang sedia ada dalam tugas tindak balas arahan berkaitan visual. .
Perbandingan keupayaan berbilang dimensi
Tugas tindak balas perintah berbilang mod melibatkan pelbagai kebolehan, seperti pemahaman arahan, pemahaman visual, pemahaman teks pada gambar dan penaakulan. Untuk meneroka tahap keupayaan berbeza model dengan cara yang terperinci, artikel ini mentakrifkan 6 keupayaan utama dalam senario berbilang modal dan secara manual menganotasi setiap arahan ujian OwlEval dengan keperluan keupayaan yang berkaitan dan respons yang ditunjukkan dalam model. Apakah kebolehan yang telah diperolehi.
Keputusan ditunjukkan dalam Jadual 6 di bawah dalam bahagian eksperimen ini, penulis bukan sahaja menjalankan eksperimen ablasi Burung Hantu untuk mengesahkan keberkesanan strategi latihan dan denda arahan pelbagai mod. -penalaan data, tetapi juga Garis asas yang berprestasi terbaik dalam percubaan sebelumnya—MiniGPT4—dibandingkan, dan keputusan menunjukkan bahawa Owl lebih unggul daripada MiniGPT4 dalam semua aspek keupayaan.
Atas ialah kandungan terperinci mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!