mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4-AI-php.cn

Rumah

Peranti teknologi

mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 17, 2023 am 08:28 AM

aiModel

Model besar teks tulen berada dalam tahap menaik, dan kerja model besar multimodal telah mula muncul dalam medan multimodal GPT-4, yang paling kuat di permukaan, mempunyai keupayaan multimodal untuk membaca imej, tetapi ia belum lagi terbuka kepada orang ramai untuk pengalaman, jadi komuniti penyelidik Hu mula menyelidik dan sumber terbuka ke arah ini. Tidak lama selepas kemunculan MiniGPT-4 dan LLaVA, Alibaba DAMO Academy melancarkan mPLUG-Owl, model besar berbilang modal berdasarkan pelaksanaan modular.

mPLUG-Owl ialah karya terbaharu siri mPLUG Alibaba Damo Academy Ia meneruskan idea latihan modular siri mPLUG dan menaik taraf LLM kepada model berbilang modal yang besar. Dalam siri kerja mPLUG, E2E-VLP, mPLUG dan mPLUG-2 sebelumnya telah diterima oleh ACL2021, EMNLP2022 dan ICML2023, antaranya, kerja mPLUG mendahului senarai VQA dengan hasil luar biasa.

Apa yang saya ingin perkenalkan hari ini ialah mPLUG-Owl Kerja ini bukan sahaja menunjukkan keupayaan pelbagai modal yang sangat baik melalui sejumlah besar kes, tetapi juga mencadangkan set ujian komprehensif untuk pemahaman arahan berkaitan penglihatan. buat pertama kalinya. OwlEval membandingkan model sedia ada melalui penilaian manual, termasuk LLaVA, MiniGPT-4, BLIP-2 dan MM-REACT berasaskan sistem. modal Prestasi cemerlang dalam keupayaan pemahaman perintah dinamik, keupayaan dialog berbilang pusingan, keupayaan penaakulan pengetahuan, dll. >Pautan kertas: https://arxiv.org/abs/2304.14178

mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4

Pautan kod: https://github.com/X-PLUG /mPLUG-Owl

Alamat pengalaman ModelScope:

https://modelscope cn/studios/damo/mPLUG-Owl/summary

Alamat pengalaman HuggingFace:

https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

Berbilang -demonstrasi keupayaan modalKami menggabungkan mPLUG-Owl dengan sedia ada Bandingkan kerja untuk merasai kesan pelbagai mod mPLUG-Owl Perlu dinyatakan bahawa sampel ujian yang dinilai dalam kerja ini pada asasnya daripada kerja sedia ada, mengelakkan masalah petik ceri.

Rajah 6 di bawah menunjukkan keupayaan dialog pelbagai pusingan kuat mPLUG-Owl.

Seperti yang dapat dilihat daripada Rajah 7, mPLUG-Owl mempunyai keupayaan penaakulan yang kukuh.

mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4

Rajah 9 menunjukkan beberapa contoh penjelasan jenaka.

mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4

Dalam kerja ini, sebagai tambahan kepada penilaian dan perbandingan, pasukan penyelidik juga memerhatikan bahawa mPLUG-Owl pada mulanya menunjukkan beberapa minat Keupayaan yang tidak dijangka, seperti perkaitan berbilang imej, berbilang bahasa, pengecaman teks dan pemahaman dokumen.

Seperti yang ditunjukkan dalam Rajah 10, walaupun data korelasi berbilang graf tidak dilatih semasa fasa latihan, mPLUG-Owl telah menunjukkan keupayaan korelasi berbilang graf tertentu.

mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4

Seperti yang ditunjukkan dalam Rajah 11, walaupun mPLUG-Owl hanya menggunakan data Bahasa Inggeris dalam fasa latihan, ia menunjukkan Dibangunkan menarik keupayaan berbilang bahasa. Ini mungkin kerana model bahasa dalam mPLUG-Owl menggunakan LLaMA, mengakibatkan fenomena ini.

mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4

Walaupun mPLUG-Owl tidak dilatih pada data dokumen beranotasi, ia masih menunjukkan pengecaman teks dan pemahaman dokumen tertentu, keputusan ujian ditunjukkan dalam Rajah 12.

mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4

Pengenalan kaedah

Seni bina keseluruhan mPLUG-Owl yang dicadangkan dalam kerja ini ditunjukkan dalam Rajah 2 Tunjukkan.

mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4

Struktur model: Ia terdiri daripada modul asas visual

mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4

(sumber terbuka ViT-L), modul abstraksi visual

mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4

dan model bahasa pra-latihan

mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4

( LLaMA-7B). Modul abstraksi visual meringkaskan ciri imej yang lebih panjang dan berbutir halus kepada sejumlah kecil Token yang boleh dipelajari, dengan itu mencapai pemodelan maklumat visual yang cekap. Token visual yang dijana dimasukkan ke dalam model bahasa bersama-sama dengan pertanyaan teks untuk menjana respons yang sepadan.

Latihan model: menggunakan kaedah latihan dua peringkat

Peringkat pertama: tujuan utama adalah terlebih dahulu Mempelajari pertentangan antara modaliti visual dan lisan. Berbeza daripada kerja sebelumnya, mPLUG-Owl mencadangkan bahawa membekukan modul asas visual akan mengehadkan keupayaan model untuk mengaitkan pengetahuan visual dan pengetahuan teks. Oleh itu, mPLUG-Owl hanya membekukan parameter LLM pada peringkat pertama dan menggunakan LAION-400M, COYO-700M, CC dan MSCOCO untuk melatih modul asas visual dan modul ringkasan visual.

Peringkat kedua: Meneruskan penemuan bahawa latihan campuran modaliti yang berbeza dalam mPLUG dan mPLUG-2 bermanfaat antara satu sama lain, Owl juga menggunakan latihan tulen dalam peringkat kedua pengajaran halus- latihan penalaan. Data arahan tekstual (52k daripada Alpaca+90k daripada Vicuna+50k daripada Baize) dan data arahan berbilang mod (150k daripada LLaVA). Melalui eksperimen ablasi yang terperinci, penulis mengesahkan faedah yang dibawa oleh pengenalan penalaan halus arahan teks tulen dalam aspek seperti pemahaman arahan. Pada peringkat kedua, parameter modul asas visual, modul ringkasan visual dan LLM asal dibekukan Merujuk kepada LoRA, hanya struktur penyesuai dengan sejumlah kecil parameter dimasukkan ke dalam LLM untuk penalaan halus arahan.

Hasil eksperimen

Perbandingan SOTA

Untuk membandingkan keupayaan pelbagai mod bagi model yang berbeza, Kerja ini membina set penilaian arahan berbilang modal OwlEval. Memandangkan tiada penunjuk automatik yang sesuai pada masa ini, rujuk Self-Intruct untuk penilaian manual bagi jawapan model: A="Betul dan memuaskan" B="Sesetengah ketidaksempurnaan, tetapi boleh diterima"; arahan tetapi terdapat ralat yang jelas dalam respons"; D="Respons tidak relevan atau tidak betul sama sekali".

Hasil perbandingan ditunjukkan dalam Rajah 3 di bawah Eksperimen membuktikan bahawa Owl lebih baik daripada OpenFlamingo, BLIP-2, LLaVA dan MiniGPT-4 yang sedia ada dalam tugas tindak balas arahan berkaitan visual. .

mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4

Perbandingan keupayaan berbilang dimensi

Tugas tindak balas perintah berbilang mod melibatkan pelbagai kebolehan, seperti pemahaman arahan, pemahaman visual, pemahaman teks pada gambar dan penaakulan. Untuk meneroka tahap keupayaan berbeza model dengan cara yang terperinci, artikel ini mentakrifkan 6 keupayaan utama dalam senario berbilang modal dan secara manual menganotasi setiap arahan ujian OwlEval dengan keperluan keupayaan yang berkaitan dan respons yang ditunjukkan dalam model. Apakah kebolehan yang telah diperolehi.

Keputusan ditunjukkan dalam Jadual 6 di bawah dalam bahagian eksperimen ini, penulis bukan sahaja menjalankan eksperimen ablasi Burung Hantu untuk mengesahkan keberkesanan strategi latihan dan denda arahan pelbagai mod. -penalaan data, tetapi juga Garis asas yang berprestasi terbaik dalam percubaan sebelumnya—MiniGPT4—dibandingkan, dan keputusan menunjukkan bahawa Owl lebih unggul daripada MiniGPT4 dalam semua aspek keupayaan.

mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4

Atas ialah kandungan terperinci mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Carta 10 kuasa bi yang paling banyak digunakan - Analytics VidhyaApr 16, 2025 pm 12:05 PM

Memanfaatkan kekuatan visualisasi data dengan carta Microsoft Power BI Dalam dunia yang didorong oleh data hari ini, dengan berkesan menyampaikan maklumat yang rumit kepada penonton bukan teknikal adalah penting. Visualisasi data jambatan jurang ini, mengubah data mentah i

Sistem Pakar di AIApr 16, 2025 pm 12:00 PM

Sistem Pakar: menyelam yang mendalam ke dalam kuasa membuat keputusan AI Bayangkan mempunyai akses kepada nasihat pakar mengenai apa -apa, dari diagnosis perubatan kepada perancangan kewangan. Itulah kuasa sistem pakar dalam kecerdasan buatan. Sistem ini meniru pro

Tiga coder getaran terbaik memecahkan revolusi AI ini dalam kodApr 16, 2025 am 11:58 AM

Pertama sekali, jelas bahawa ini berlaku dengan cepat. Pelbagai syarikat bercakap mengenai perkadaran kod mereka yang kini ditulis oleh AI, dan ini semakin meningkat pada klip pesat. Terdapat banyak anjakan pekerjaan

Runway AI's Gen-4: Bagaimanakah montaj AI boleh melampaui kebodohanApr 16, 2025 am 11:45 AM

Industri filem, bersama semua sektor kreatif, dari pemasaran digital ke media sosial, berdiri di persimpangan teknologi. Sebagai kecerdasan buatan mula membentuk semula setiap aspek bercerita visual dan mengubah landskap hiburan

Bagaimana untuk mendaftar selama 5 hari kursus percuma ISRO AI? - Analytics VidhyaApr 16, 2025 am 11:43 AM

Kursus Online AI/ML percuma ISRO: Gerbang ke Inovasi Teknologi Geospatial Pertubuhan Penyelidikan Angkasa India (ISRO), melalui Institut Pengesan Jauh India (IIRS), menawarkan peluang yang hebat untuk pelajar dan profesional

Algoritma Carian Tempatan di AIApr 16, 2025 am 11:40 AM

Algoritma Carian Tempatan: Panduan Komprehensif Merancang acara berskala besar memerlukan pengagihan beban kerja yang cekap. Apabila pendekatan tradisional gagal, algoritma carian tempatan menawarkan penyelesaian yang kuat. Artikel ini meneroka pendakian bukit dan simul

Terbuka beralih fokus dengan GPT-4.1, mengutamakan pengekodan dan kecekapan kosApr 16, 2025 am 11:37 AM

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Prompt: CHATGPT menjana pasport palsuApr 16, 2025 am 11:35 AM

Gergasi Chip Nvidia berkata pada hari Isnin ia akan memulakan pembuatan superkomputer AI - mesin yang boleh memproses sejumlah besar data dan menjalankan algoritma kompleks - sepenuhnya dalam A.S. untuk kali pertama. Pengumuman itu datang selepas Presiden Trump Si

See all articles