


mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4
Model besar teks tulen berada dalam tahap menaik, dan kerja model besar multimodal telah mula muncul dalam medan multimodal GPT-4, yang paling kuat di permukaan, mempunyai keupayaan multimodal untuk membaca imej, tetapi ia belum lagi terbuka kepada orang ramai untuk pengalaman, jadi komuniti penyelidik Hu mula menyelidik dan sumber terbuka ke arah ini. Tidak lama selepas kemunculan MiniGPT-4 dan LLaVA, Alibaba DAMO Academy melancarkan mPLUG-Owl, model besar berbilang modal berdasarkan pelaksanaan modular.
mPLUG-Owl ialah karya terbaharu siri mPLUG Alibaba Damo Academy Ia meneruskan idea latihan modular siri mPLUG dan menaik taraf LLM kepada model berbilang modal yang besar. Dalam siri kerja mPLUG, E2E-VLP, mPLUG dan mPLUG-2 sebelumnya telah diterima oleh ACL2021, EMNLP2022 dan ICML2023, antaranya, kerja mPLUG mendahului senarai VQA dengan hasil luar biasa.
Apa yang saya ingin perkenalkan hari ini ialah mPLUG-Owl Kerja ini bukan sahaja menunjukkan keupayaan pelbagai modal yang sangat baik melalui sejumlah besar kes, tetapi juga mencadangkan set ujian komprehensif untuk pemahaman arahan berkaitan penglihatan. buat pertama kalinya. OwlEval membandingkan model sedia ada melalui penilaian manual, termasuk LLaVA, MiniGPT-4, BLIP-2 dan MM-REACT berasaskan sistem. modal Prestasi cemerlang dalam keupayaan pemahaman perintah dinamik, keupayaan dialog berbilang pusingan, keupayaan penaakulan pengetahuan, dll. >Pautan kertas: https://arxiv.org/abs/2304.14178
Alamat pengalaman ModelScope:
https://modelscope cn/studios/damo/mPLUG-Owl/summary
Alamat pengalaman HuggingFace:
https://huggingface.co/spaces/MAGAer13/mPLUG-Owl
Berbilang -demonstrasi keupayaan modalKami menggabungkan mPLUG-Owl dengan sedia ada Bandingkan kerja untuk merasai kesan pelbagai mod mPLUG-Owl Perlu dinyatakan bahawa sampel ujian yang dinilai dalam kerja ini pada asasnya daripada kerja sedia ada, mengelakkan masalah petik ceri.
Rajah 6 di bawah menunjukkan keupayaan dialog pelbagai pusingan kuat mPLUG-Owl.
Seperti yang dapat dilihat daripada Rajah 7, mPLUG-Owl mempunyai keupayaan penaakulan yang kukuh.
Seperti yang ditunjukkan dalam Rajah 10, walaupun data korelasi berbilang graf tidak dilatih semasa fasa latihan, mPLUG-Owl telah menunjukkan keupayaan korelasi berbilang graf tertentu.
Seperti yang ditunjukkan dalam Rajah 11, walaupun mPLUG-Owl hanya menggunakan data Bahasa Inggeris dalam fasa latihan, ia menunjukkan Dibangunkan menarik keupayaan berbilang bahasa. Ini mungkin kerana model bahasa dalam mPLUG-Owl menggunakan LLaMA, mengakibatkan fenomena ini.
Walaupun mPLUG-Owl tidak dilatih pada data dokumen beranotasi, ia masih menunjukkan pengecaman teks dan pemahaman dokumen tertentu, keputusan ujian ditunjukkan dalam Rajah 12.
Pengenalan kaedah
Seni bina keseluruhan mPLUG-Owl yang dicadangkan dalam kerja ini ditunjukkan dalam Rajah 2 Tunjukkan.
Struktur model: Ia terdiri daripada modul asas visual
(sumber terbuka ViT-L), modul abstraksi visual
dan model bahasa pra-latihan
( LLaMA-7B). Modul abstraksi visual meringkaskan ciri imej yang lebih panjang dan berbutir halus kepada sejumlah kecil Token yang boleh dipelajari, dengan itu mencapai pemodelan maklumat visual yang cekap. Token visual yang dijana dimasukkan ke dalam model bahasa bersama-sama dengan pertanyaan teks untuk menjana respons yang sepadan.
Latihan model: menggunakan kaedah latihan dua peringkat
Peringkat pertama: tujuan utama adalah terlebih dahulu Mempelajari pertentangan antara modaliti visual dan lisan. Berbeza daripada kerja sebelumnya, mPLUG-Owl mencadangkan bahawa membekukan modul asas visual akan mengehadkan keupayaan model untuk mengaitkan pengetahuan visual dan pengetahuan teks. Oleh itu, mPLUG-Owl hanya membekukan parameter LLM pada peringkat pertama dan menggunakan LAION-400M, COYO-700M, CC dan MSCOCO untuk melatih modul asas visual dan modul ringkasan visual.
Peringkat kedua: Meneruskan penemuan bahawa latihan campuran modaliti yang berbeza dalam mPLUG dan mPLUG-2 bermanfaat antara satu sama lain, Owl juga menggunakan latihan tulen dalam peringkat kedua pengajaran halus- latihan penalaan. Data arahan tekstual (52k daripada Alpaca+90k daripada Vicuna+50k daripada Baize) dan data arahan berbilang mod (150k daripada LLaVA). Melalui eksperimen ablasi yang terperinci, penulis mengesahkan faedah yang dibawa oleh pengenalan penalaan halus arahan teks tulen dalam aspek seperti pemahaman arahan. Pada peringkat kedua, parameter modul asas visual, modul ringkasan visual dan LLM asal dibekukan Merujuk kepada LoRA, hanya struktur penyesuai dengan sejumlah kecil parameter dimasukkan ke dalam LLM untuk penalaan halus arahan.
Hasil eksperimen
Perbandingan SOTA
Untuk membandingkan keupayaan pelbagai mod bagi model yang berbeza, Kerja ini membina set penilaian arahan berbilang modal OwlEval. Memandangkan tiada penunjuk automatik yang sesuai pada masa ini, rujuk Self-Intruct untuk penilaian manual bagi jawapan model: A="Betul dan memuaskan" B="Sesetengah ketidaksempurnaan, tetapi boleh diterima"; arahan tetapi terdapat ralat yang jelas dalam respons"; D="Respons tidak relevan atau tidak betul sama sekali".
Hasil perbandingan ditunjukkan dalam Rajah 3 di bawah Eksperimen membuktikan bahawa Owl lebih baik daripada OpenFlamingo, BLIP-2, LLaVA dan MiniGPT-4 yang sedia ada dalam tugas tindak balas arahan berkaitan visual. .
Perbandingan keupayaan berbilang dimensi
Tugas tindak balas perintah berbilang mod melibatkan pelbagai kebolehan, seperti pemahaman arahan, pemahaman visual, pemahaman teks pada gambar dan penaakulan. Untuk meneroka tahap keupayaan berbeza model dengan cara yang terperinci, artikel ini mentakrifkan 6 keupayaan utama dalam senario berbilang modal dan secara manual menganotasi setiap arahan ujian OwlEval dengan keperluan keupayaan yang berkaitan dan respons yang ditunjukkan dalam model. Apakah kebolehan yang telah diperolehi.
Keputusan ditunjukkan dalam Jadual 6 di bawah dalam bahagian eksperimen ini, penulis bukan sahaja menjalankan eksperimen ablasi Burung Hantu untuk mengesahkan keberkesanan strategi latihan dan denda arahan pelbagai mod. -penalaan data, tetapi juga Garis asas yang berprestasi terbaik dalam percubaan sebelumnya—MiniGPT4—dibandingkan, dan keputusan menunjukkan bahawa Owl lebih unggul daripada MiniGPT4 dalam semua aspek keupayaan.
Atas ialah kandungan terperinci mPLUG-Owl DAMO Academy diperkenalkan: model besar berbilang modal modular, mengejar keupayaan berbilang modal GPT-4. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Memanfaatkan kekuatan visualisasi data dengan carta Microsoft Power BI Dalam dunia yang didorong oleh data hari ini, dengan berkesan menyampaikan maklumat yang rumit kepada penonton bukan teknikal adalah penting. Visualisasi data jambatan jurang ini, mengubah data mentah i

Sistem Pakar: menyelam yang mendalam ke dalam kuasa membuat keputusan AI Bayangkan mempunyai akses kepada nasihat pakar mengenai apa -apa, dari diagnosis perubatan kepada perancangan kewangan. Itulah kuasa sistem pakar dalam kecerdasan buatan. Sistem ini meniru pro

Pertama sekali, jelas bahawa ini berlaku dengan cepat. Pelbagai syarikat bercakap mengenai perkadaran kod mereka yang kini ditulis oleh AI, dan ini semakin meningkat pada klip pesat. Terdapat banyak anjakan pekerjaan

Industri filem, bersama semua sektor kreatif, dari pemasaran digital ke media sosial, berdiri di persimpangan teknologi. Sebagai kecerdasan buatan mula membentuk semula setiap aspek bercerita visual dan mengubah landskap hiburan

Kursus Online AI/ML percuma ISRO: Gerbang ke Inovasi Teknologi Geospatial Pertubuhan Penyelidikan Angkasa India (ISRO), melalui Institut Pengesan Jauh India (IIRS), menawarkan peluang yang hebat untuk pelajar dan profesional

Algoritma Carian Tempatan: Panduan Komprehensif Merancang acara berskala besar memerlukan pengagihan beban kerja yang cekap. Apabila pendekatan tradisional gagal, algoritma carian tempatan menawarkan penyelesaian yang kuat. Artikel ini meneroka pendakian bukit dan simul

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Gergasi Chip Nvidia berkata pada hari Isnin ia akan memulakan pembuatan superkomputer AI - mesin yang boleh memproses sejumlah besar data dan menjalankan algoritma kompleks - sepenuhnya dalam A.S. untuk kali pertama. Pengumuman itu datang selepas Presiden Trump Si


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

MantisBT
Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

Penyesuai Pelayan SAP NetWeaver untuk Eclipse
Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

SublimeText3 versi Inggeris
Disyorkan: Versi Win, menyokong gesaan kod!

ZendStudio 13.5.1 Mac
Persekitaran pembangunan bersepadu PHP yang berkuasa