Rumah >Tutorial Perkakasan >Kajian perkakasan >Tonton filem 2 jam dalam 4 saat! Alibaba mengeluarkan model besar multi-modal universal mPLUG-Owl3
Selepas menonton filem 2 jam dalam 4 saat, pencapaian baharu pasukan Alibaba telah diumumkan secara rasmi -
melancarkan model besar pelbagai mod am mPLUG-Owl3, yang digunakan khas untuk memahami berbilang gambar dan video panjang.
Secara khusus, menggunakan LLaVA-Next-Interleave sebagai penanda aras, mPLUG-Owl3 mengurangkan Kependaman Token Pertama model sebanyak 6 kali, dan bilangan imej yang boleh dimodelkan oleh A100 tunggal meningkat sebanyak 8 kali, mencapai 400 Dengan hanya satu gambar, anda boleh menonton filem 2 jam dalam masa 4 saat sahaja.
Dalam erti kata lain, kecekapan penaakulan model telah banyak dipertingkatkan.
Dan tanpa mengorbankan ketepatan model.
mPLUG-Owl3 juga telah mencapai SOTA pada banyak Penanda Aras dalam pelbagai senario yang melibatkan model besar berbilang modal, termasuk medan imej tunggal, berbilang imej dan video. . -modal model bahasa besar asas mPLUG -Siri Burung Hantu
Pangkalan Pemahaman Dokumen mPLUG-Siri DocOwl
Mari ketahui teknologi hitam keluaran mPLUG-Owl3 ini. Buka Kunci Main PermainanPasukan menunjukkan beberapa kegunaan biasa mPLUG-Owl3. Peningkatan perolehan berbilang modal Secara umumnya, ia adalah amalan biasa untuk menambah pengetahuan yang model itu tidak belajar melalui sistem perolehan semula. Ini memerlukan model untuk memahami dengan tepat pengetahuan pelbagai modal yang masuk dan menggunakannya untuk menjawab soalan. Dalam contoh berikut, mPLUG-Owl3 bukan sahaja boleh bertindak balas dengan betul berdasarkan pengetahuan yang diperoleh, tetapi juga memberikan pertimbangan berdasarkan pengetahuan yang mana ia berdasarkan, dan menyediakan asas terperinci untuk penghakiman. Ini sangat mesra kepada kakitangan R&D hiliran untuk pembangunan dan penyahpepijatan. Bahagian perolehan semula: Berikut adalah beberapa pengetahuan pelbagai modal yang diperoleh untuk anda membuat keputusan. Soalan: Berdasarkan pemerhatian anda terhadap empat gambar anjing di atas, bolehkah anda mengelaskan anjing dalam gambar 5? Beri alasan. Jawapan: Berdasarkan pemerhatian terhadap empat gambar anjing, anjing dalam gambar 5 boleh diklasifikasikan sebagai Irish Terrier. Anjing dalam gambar 1 digambarkan sebagai Irish Terrier, dan anjing dalam gambar 5 mempunyai ciri-ciri fizikal yang serupa dengan anjing dalam gambar 1...Penaakulan berbilang gambar
Ini sering berlaku dalam Situasi kehidupan -
Ramai pengguna bukan sahaja mengadakan perbualan di sekitar satu gambar, tetapi pengguna mungkin mempunyai beberapa bahan, dan model perlu dapat memahami dengan betul hubungan antara kandungan dalam bahan yang berbeza.
Dalam contoh di bawah, mPLUG-Owl3 boleh mengaktifkan pengetahuan akal model bahasa melalui apa yang dilihatnya dalam dua imej, dan membuat inferens di sekitar dua gambar.
Soalan: Bolehkah haiwan di sebelah kiri bertahan dalam persekitaran di sebelah kanan? Jawapan dan penjelasan diperlukan. Jawapan (jawapan yang betul ditanda hijau): Idea umum ialah ia tidak dapat bertahan kerana persekitaran terlalu sejuk.Dalam contoh lain, mPLUG-Owl3 bukan sahaja dapat mengesan perbezaan gaya antara dua gambar, tetapi juga menyedari bahawa walaupun watak dalam kedua-dua gambar mempunyai gaya yang berbeza, mereka sebenarnya adalah watak yang sama.
Soalan kali pertama: Apakah gaya seni yang digambarkan dalam gambar dan bagaimana ia berbeza?
Jawapan: Gambar pertama dalam gaya piksel, gambar kedua dalam gaya kartun...(beri sebab)
Soalan kedua: Siapa yang muncul dalam kedua-dua gambar? Apakah ciri-ciri mereka?
Jawapan: Dalam kedua-dua lukisan, seorang lelaki memakai topi koboi muncul, dan dia digambarkan dalam dua gaya berbeza. . mPLUG-Owl3 boleh menonton filem 2 jam dan mula menjawab soalan pengguna dalam masa 4 saat. Sama ada pengguna bertanya soalan tentang klip yang sangat terperinci pada permulaan, tengah dan akhir filem, mPLUG-Owl3 boleh menjawabnya dengan lancar.Bagaimana anda melakukannya?
Tidak seperti model tradisional, mPLUG-Owl3 tidak perlu menyambung jujukan visual ke dalam urutan teks model bahasa terlebih dahulu.
Dalam erti kata lain, tidak kira apa pun input (berpuluh-puluh gambar atau jam video), ia tidak menduduki kapasiti jujukan model bahasa, yang mengelakkan overhed pengkomputeran yang besar dan penggunaan memori video yang disebabkan oleh jujukan visual yang panjang. Sesetengah orang mungkin bertanya, bagaimanakah maklumat visual disepadukan ke dalam model bahasa?Untuk mencapai matlamat ini, pasukan mencadangkan modul Hyper Attention yang ringan, yang boleh memanjangkan Blok Transformer sedia ada yang hanya boleh memodelkan teks kepada satu yang boleh melakukan interaksi ciri grafik dan teks serta pembinaan teks modul baharu.
Dengan jarang memanjangkan 4 Blok Transformer ke seluruh model bahasa, mPLUG-Owl3 boleh menaik taraf LLM kepada LLM berbilang modal pada kos yang sangat kecil.
Selepas ciri visual diekstrak daripada pengekod visual, dimensi diselaraskan dengan dimensi model bahasa melalui pemetaan linear yang mudah.
Seterusnya, ciri visual hanya akan berinteraksi dengan teks dalam 4 lapisan Blok Transformer ini Memandangkan token visual tidak mengalami sebarang pemampatan, maklumat terperinci boleh disimpan.
Mari kita lihat bagaimana Hyper Attention direka.
Perhatian Hiper Untuk membolehkan model bahasa melihat ciri visual, operasi Perhatian Silang diperkenalkan, menggunakan ciri visual sebagai Kunci dan Nilai, dan menggunakan keadaan tersembunyi model bahasa sebagai Pertanyaan untuk mengekstrak ciri visual.
Dalam beberapa tahun kebelakangan ini, penyelidikan lain juga telah mempertimbangkan untuk menggunakan Cross-Attention untuk gabungan pelbagai mod, seperti Flamingo dan IDEFICS, tetapi kerja-kerja ini gagal mencapai prestasi yang baik.
Dalam laporan teknikal mPLUG-Owl3, pasukan membandingkan reka bentuk Flamingo untuk menerangkan lebih lanjut perkara teknikal utama Hyper Attention:
Pertama sekali, Hyper Attention tidak menggunakan reka bentuk Cross-Attention dan Lata Perhatian Diri , tetapi tertanam dalam blok Perhatian Diri.
Kelebihannya ialah ia mengurangkan bilangan parameter baharu tambahan yang diperkenalkan, menjadikan model lebih mudah untuk dilatih, dan kecekapan latihan dan inferens boleh dipertingkatkan lagi.
Kedua, Hyper Attention memilih LayerNorm yang berkongsi model bahasa, kerana output pengedaran oleh LayerNorm adalah betul-betul taburan yang lapisan Attention telah dilatih untuk menstabilkan lapisan ini adalah penting untuk pembelajaran yang stabil bagi Cross-Attention yang baru diperkenalkan.
Malah, Hyper Attention menggunakan strategi Perhatian Silang dan Perhatian Kendiri selari, menggunakan Pertanyaan dikongsi untuk berinteraksi dengan ciri visual, dan menggabungkan kedua-dua ciri itu melalui Pintu Adaptif.
Ini membolehkan Query memilih secara selektif ciri visual yang berkaitan dengannya berdasarkan semantiknya sendiri.
Pasukan mendapati bahawa kedudukan relatif imej dan teks dalam konteks asal adalah sangat penting untuk model untuk lebih memahami input berbilang modal.
Untuk memodelkan sifat ini, mereka memperkenalkan pengekodan kedudukan putaran berjalin berbilang mod MI-Rope untuk memodelkan maklumat kedudukan bagi Kunci visual.
Secara khusus, mereka telah merakam maklumat kedudukan setiap gambar dalam teks asal, dan akan menggunakan kedudukan ini untuk mengira pembenaman Tali yang sepadan, dan setiap tampung gambar yang sama akan berkongsi pembenaman ini.
Selain itu, mereka juga memperkenalkan topeng Attention dalam Cross-Attention, supaya teks sebelum imej dalam konteks asal tidak dapat melihat ciri yang sepadan dengan imej berikutnya.
Ringkasnya, titik reka bentuk Hyper Attention ini telah membawa peningkatan kecekapan selanjutnya kepada mPLUG-Owl3 dan memastikan ia masih boleh mempunyai keupayaan pelbagai mod kelas pertama.
Hasil eksperimen
Dengan menjalankan percubaan pada pelbagai set data, mPLUG-Owl3 boleh mencapai hasil SOTA dalam kebanyakan Penanda Aras berbilang mod imej tunggal, malah mengatasi yang mempunyai saiz model yang lebih besar dalam banyak ujian .
Pada masa yang sama, dalam penilaian berbilang imej, mPLUG-Owl3 turut mengatasi LLAVA-Next-Interleave dan Mantis, yang dioptimumkan khas untuk senario berbilang imej.
Selain itu, ia mengatasi model sedia ada di LongVideoBench (52.1 mata), senarai yang secara khusus menilai pemahaman model tentang video panjang.
Pasukan R&D juga mencadangkan kaedah penilaian jujukan visual panjang yang menarik.
Seperti yang kita sedia maklum, dalam senario interaksi manusia-komputer yang sebenar, tidak semua gambar melayan masalah pengguna Konteks sejarah akan dipenuhi dengan kandungan berbilang modal yang tidak relevan dengan masalah tersebut ialah.
Untuk menilai keupayaan anti-gangguan model dalam input jujukan visual yang panjang, mereka membina set data penilaian baharu berdasarkan MMBench-dev.
Perkenalkan gambar yang tidak berkaitan untuk setiap sampel penilaian kitaran MMBench dan ganggu susunan gambar, dan kemudian tanya soalan tentang gambar asal untuk melihat sama ada model boleh bertindak balas dengan betul dan stabil. (Untuk soalan yang sama, 4 sampel dengan susunan pilihan yang berbeza dan gambar gangguan akan dibina, dan hanya satu jawapan yang betul akan direkodkan jika semua jawapan adalah betul.)
Percubaan dibahagikan kepada beberapa peringkat mengikut bilangan input gambar.
Dapat dilihat bahawa model tanpa latihan berbilang graf seperti Qwen-VL dan mPLUG-Owl2 dengan cepat gagal.
LLAVA-Next-Interleave dan Mantis, yang telah dilatih pada berbilang imej, boleh mengekalkan lengkung pereputan yang serupa dengan mPLUG-Owl3 pada mulanya, tetapi apabila bilangan imej mencapai tahap 50, model ini boleh tidak lagi dijawab dengan betul.
Dan mPLUG-Owl3 boleh mengekalkan ketepatan 40% walaupun dengan 400 gambar.
Namun, ada satu perkara yang perlu diperkatakan Walaupun mPLUG-Owl3 mengatasi model sedia ada, ketepatannya jauh dari tahap yang sangat baik Hanya boleh dikatakan bahawa kaedah penilaian ini mendedahkan keupayaan anti-gangguan semua model di bawah jujukan panjang. perlu dipertingkatkan lagi pada masa hadapan.
Untuk butiran lanjut, sila rujuk kertas dan kod.
Kertas: https://arxiv.org/abs/2408.04840
Kod: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
demo (peluk muka) : https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
demo (Komuniti Ajaib): https://modelscope.cn/studios/iic/mPLUG-Owl3
7B model (muka berpeluk): https:// /huggingface.co/mPLUG/mPLUG-Owl3-7B-240728
Model 7B (Komuniti Ajaib) https://modelscope.cn/models/iic/mPLUG-Owl3-7B-240728
— Tamat—
hantarTolong e-mel kepada:
ai@qbitai.com
Nyatakan tajuk dan beritahu kami:
Siapa anda, dari mana anda, kandungan penyerahan anda
Lampirkan pautan ke halaman utama kertas/projek, dan hubungi maklumat
Kami akan membalas anda dalam masa (cuba yang terbaik)
Klik di sini untuk mengikuti saya dan ingat untuk membintangi~
"Kongsi", "Suka" dan "Tonton" dengan tiga klik
Jumpa anda setiap hari di kemajuan sains dan teknologi yang canggih ~
Atas ialah kandungan terperinci Tonton filem 2 jam dalam 4 saat! Alibaba mengeluarkan model besar multi-modal universal mPLUG-Owl3. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!