cari
RumahPeranti teknologiAIVersi berbilang modal Llama2 dalam talian, Meta mengeluarkan AnyMAL

Menyegarkan prestasi sifar pukulan terbaik industri dalam berbilang ujian penanda aras.

Model bersatu yang boleh memahami kandungan input modal yang berbeza (teks, imej, video, audio, data penderia gerakan IMU) dan menjana tindak balas teks Teknologi ini berdasarkan Llama 2 dan datang daripada Meta.

Semalam, penyelidikan ke atas model besar berbilang modal AnyMAL menarik perhatian komuniti penyelidik AI.

Model Bahasa Besar (LLM) terkenal dengan saiz dan kerumitannya yang besar, yang sangat meningkatkan keupayaan mesin untuk memahami dan menyatakan bahasa manusia. Kemajuan dalam LLM telah membolehkan kemajuan ketara dalam bidang bahasa visual, merapatkan jurang antara pengekod imej dan LLM, menggabungkan keupayaan inferens mereka. Penyelidikan LLM multimodal sebelumnya telah memfokuskan pada model yang menggabungkan teks dengan modaliti lain, seperti model teks dan imej, atau pada model bahasa proprietari yang bukan sumber terbuka.

Jika ada cara yang lebih baik untuk mencapai kefungsian pelbagai mod dan membenamkan pelbagai modaliti dalam LLM, adakah ini akan membawa kita pengalaman yang berbeza?

Versi berbilang modal Llama2 dalam talian, Meta mengeluarkan AnyMAL

                                                                                                                                                                                                                                                                                                                                        letak contoh

Untuk menyelesaikan masalah ini, penyelidik dari Meta baru-baru ini melancarkan AnyMAL (Any-Modality Augmented Language Model). Ini ialah koleksi pengekod berbilang modal yang dilatih untuk menukar data daripada pelbagai modaliti (termasuk imej, video, audio dan data penderia gerakan IMU) ke dalam ruang pembenaman teks LLM

Versi berbilang modal Llama2 dalam talian, Meta mengeluarkan AnyMAL

Alamat kertas: https://huggingface. co/papers/2309.16058

Menurut huraian, sumbangan utama penyelidikan ini adalah seperti berikut:

  • Penyelesaian yang cekap dan berskala dicadangkan untuk membina LLM pelbagai modal. Artikel ini menyediakan lapisan unjuran yang dipralatih pada set data besar yang mengandungi pelbagai modaliti (cth., 200 juta imej, 2.2 juta segmen audio, 500,000 siri masa IMU, 28 juta segmen video), semuanya Semua sejajar dengan model besar yang sama (LLaMA-2- 70B-chat), mendayakan isyarat kontekstual berbilang modal berjalin.

  • Kajian ini memperhalusi model menggunakan set arahan berbilang modal merentas tiga modaliti (imej, video dan audio), meliputi pelbagai tugas tanpa had melangkaui domain menjawab soalan mudah (QA). Set data ini mengandungi data arahan yang dikumpul manusia berkualiti tinggi, jadi kajian ini menggunakannya sebagai penanda aras untuk tugas inferens pelbagai mod yang kompleks

  • Model terbaik dalam kertas ini mencapai keputusan yang baik dalam penilaian automatik dan manusia pada pelbagai tugas dan modaliti Berbanding dengan model dalam literatur sedia ada, ketepatan relatif VQAv2 meningkat sebanyak 7.0%, CIDEr bagi sari kata imej COCO ralat sifar meningkat sebanyak 8.4%, dan CIDEr AudioCaps meningkat sebanyak 14.5%. SOTA

kaedah

Versi berbilang modal Llama2 dalam talian, Meta mengeluarkan AnyMAL                                                                                                                                                    Gambaran keseluruhan kaedah

Diperlukan untuk disemak

dengan menggunakan data multimodal berpasangan termasuk isyarat modal khusus dan naratif teks), kajian ini telah melatih LLM untuk mencapai pelbagai -keupayaan pemahaman modal, seperti yang ditunjukkan dalam Rajah 2. Khususnya, kami melatih penyesuai ringan untuk setiap modaliti yang menayangkan isyarat input ke dalam ruang pembenaman token teks LLM tertentu. Dengan cara ini, ruang pembenaman token teks LLM menjadi ruang pembenaman token bersama, di mana token boleh mewakili teks atau modaliti lain

Berkenaan kajian penjajaran imej, kami menggunakan subset bersih set data LAION-2B, Kaedah CAT digunakan untuk penapisan dan mana-mana muka yang boleh dikesan adalah kabur. Untuk kajian penjajaran audio, set data AudioSet (2.1M), AudioCaps (46K) dan CLOTHO (5K) telah digunakan. Selain itu, kami juga menggunakan set data Ego4D untuk IMU dan penjajaran teks (528K)

Untuk set data yang besar, penskalaan pra-latihan kepada model parameter 70B memerlukan banyak sumber, selalunya memerlukan penggunaan pembungkus FSDP pada berbilang GPU Model dipecahkan. Untuk meningkatkan skala latihan dengan berkesan, kami melaksanakan strategi pengkuantitian (4-bit dan 8-bit) dalam tetapan berbilang modal, di mana bahagian LLM model dibekukan dan hanya tokenizer modal boleh dilatih. Pendekatan ini mengurangkan keperluan memori mengikut urutan magnitud. Oleh itu, 70B AnyMAL boleh melengkapkan latihan pada GPU VRAM 80GB tunggal dengan saiz kelompok 4. Berbanding dengan FSDP, kaedah pengkuantitian yang dicadangkan dalam artikel ini hanya menggunakan separuh daripada sumber GPU, tetapi mencapai daya pemprosesan yang sama🎜
Versi berbilang modal Llama2 dalam talian, Meta mengeluarkan AnyMAL

Menggunakan set data arahan berbilang mod untuk penalaan halus bermakna menggunakan set data arahan berbilang mod untuk penalaan halus

Untuk meningkatkan lagi keupayaan model untuk mengikuti arahan untuk modaliti input yang berbeza, kami mengkaji penggunaan set data arahan berbilang modal Penalaan halus tambahan telah dilakukan pada set data penalaan arahan (MM-IT) terkini. Secara khusus, kami menggabungkan input sebagai [Versi berbilang modal Llama2 dalam talian, Meta mengeluarkan AnyMAL] supaya sasaran tindak balas adalah berdasarkan kedua-dua arahan teks dan input modal. Penyelidikan dijalankan ke atas dua situasi berikut: (1) melatih lapisan unjuran tanpa mengubah parameter LLM atau (2) menggunakan penyesuaian tahap rendah (Penyesuaian Peringkat Rendah) untuk melaraskan lagi tingkah laku LM. Kajian ini menggunakan set data tertala arahan yang dikumpul secara manual dan data sintetik.

Eksperimen dan keputusan

Penjanaan kapsyen imej ialah teknologi kecerdasan buatan yang digunakan untuk menjana kapsyen yang sepadan secara automatik untuk imej. Teknologi ini menggabungkan penglihatan komputer dan kaedah pemprosesan bahasa semula jadi untuk menghasilkan kapsyen deskriptif yang berkaitan dengan imej dengan menganalisis kandungan dan ciri imej, serta memahami semantik dan sintaks. Penjanaan kapsyen imej mempunyai aplikasi yang luas dalam banyak bidang, termasuk carian imej, anotasi imej, pengambilan imej, dsb. Dengan menjana tajuk secara automatik, kefahaman imej dan ketepatan enjin carian boleh dipertingkatkan, memberikan pengguna mendapatkan semula imej dan pengalaman menyemak imbas yang lebih baik

Jadual 2 menunjukkan keputusan dalam COCO dan tugasan yang ditandakan dengan "Penerangan Terperinci" (MM- Prestasi penjanaan kapsyen imej tangkapan sifar pada subset set data MM-IT daripada IT-Cap). Seperti yang dapat dilihat, varian AnyMAL menunjukkan prestasi yang lebih baik daripada garis dasar pada kedua-dua set data. Terutama, tiada jurang yang ketara dalam prestasi antara varian AnyMAL-13B dan AnyMAL-70B. Keputusan ini menunjukkan bahawa keupayaan LLM asas untuk penjanaan kapsyen imej ialah teknik kecerdasan buatan yang digunakan untuk menjana kapsyen yang sepadan secara automatik untuk imej. Teknologi ini menggabungkan penglihatan komputer dan kaedah pemprosesan bahasa semula jadi untuk menghasilkan kapsyen deskriptif yang berkaitan dengan imej dengan menganalisis kandungan dan ciri imej, serta memahami semantik dan sintaks. Penjanaan kapsyen imej mempunyai aplikasi yang luas dalam banyak bidang, termasuk carian imej, anotasi imej, pengambilan imej, dsb. Dengan mengautomasikan penjanaan kapsyen, kefahaman imej dan ketepatan enjin carian boleh dipertingkatkan, memberikan pengguna mendapatkan semula imej dan pengalaman menyemak imbas Tugas ini kurang memberi kesan, tetapi banyak bergantung pada saiz data dan kaedah pendaftaran.

Versi berbilang modal Llama2 dalam talian, Meta mengeluarkan AnyMAL

Penulisan semula yang diperlukan ialah: Penilaian manusia terhadap tugas inferens pelbagai mod

Rajah 3 menunjukkan AnyMAL membandingkan dengan garis dasar (LLaVA: 34.4% kadar kemenangan dan prestasi MiniGPT4: 27) kukuh dan jurang dengan sampel beranotasi manusia sebenar adalah kecil (41.1% kadar kemenangan). Terutamanya, model yang diperhalusi dengan set arahan penuh menunjukkan kadar kemenangan keutamaan tertinggi, menunjukkan pemahaman visual dan keupayaan penaakulan yang setanding dengan respons beranotasi manusia. Perlu juga diperhatikan bahawa BLIP-2 dan InstructBLIP berprestasi buruk pada pertanyaan terbuka ini (masing-masing 4.1% dan 16.7% kadar kemenangan keutamaan), walaupun mereka berprestasi baik pada penanda aras VQA awam (lihat Jadual 4).

Versi berbilang modal Llama2 dalam talian, Meta mengeluarkan AnyMAL

Penanda Aras VQA

Dalam Jadual 4, kami menunjukkan prestasi pukulan sifar pada dataset Meme Kebencian, VQAv2, TextVQA, ScienceQA, VizWiz dan tanda aras yang dilaporkan dalam OKVQA masing-masing. keputusan sampel telah dibandingkan. Penyelidikan kami menumpukan pada penilaian sifar pukulan untuk menganggarkan prestasi model dengan paling tepat pada pertanyaan terbuka pada masa inferens penanda aras QA video.

Versi berbilang modal Llama2 dalam talian, Meta mengeluarkan AnyMAL

Menjana semula sari kata audio

Jadual 5 menunjukkan hasil penjanaan semula sari kata audio pada set data penanda aras AudioCaps. AnyMAL dengan ketara mengatasi model sari kata audio tercanggih lain dalam kesusasteraan (cth., CIDEr +10.9pp, SPICE +5.8pp), menunjukkan bahawa kaedah yang dicadangkan bukan sahaja terpakai untuk penglihatan tetapi juga untuk pelbagai modaliti. Model teks 70B menunjukkan kelebihan yang jelas berbanding dengan varian 7B dan 13B.

Versi berbilang modal Llama2 dalam talian, Meta mengeluarkan AnyMAL

Menariknya, berdasarkan kaedah, jenis dan masa penyerahan kertas AnyMAL, Meta nampaknya merancang untuk mengumpul data berbilang modal melalui set kepala realiti campuran/metaverse yang baru dilancarkan. Hasil penyelidikan ini mungkin disepadukan ke dalam barisan produk Metaverse Meta, atau tidak lama lagi digunakan untuk aplikasi pengguna

Sila baca artikel asal untuk mendapatkan butiran lanjut.

Atas ialah kandungan terperinci Versi berbilang modal Llama2 dalam talian, Meta mengeluarkan AnyMAL. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:机器之心. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Openai ' s O1-Preview vs O1-Mini: Langkah ke hadapan ke AGIOpenai ' s O1-Preview vs O1-Mini: Langkah ke hadapan ke AGIApr 12, 2025 am 10:04 AM

Pengenalan Pada 12 September, OpenAI mengeluarkan kemas kini bertajuk "Pembelajaran untuk Alasan dengan LLMS." Mereka memperkenalkan model O1, yang dilatih menggunakan pembelajaran tetulang untuk menangani tugas -tugas pemikiran yang kompleks. Apa yang menetapkan mod ini

Bagaimana untuk membina permainan dengan Openai O1? - Analytics VidhyaBagaimana untuk membina permainan dengan Openai O1? - Analytics VidhyaApr 12, 2025 am 10:03 AM

Pengenalan Keluarga model Openai O1 secara signifikan memajukan kuasa penalaran dan prestasi ekonomi, terutamanya dalam sains, pengekodan, dan penyelesaian masalah. Matlamat Openai adalah untuk mencipta AI yang lebih maju, dan model O1

Alat ejen LLM yang popular untuk pengurusan pertanyaan pelangganAlat ejen LLM yang popular untuk pengurusan pertanyaan pelangganApr 12, 2025 am 10:01 AM

Pengenalan Hari ini, dunia pengurusan pertanyaan pelanggan bergerak pada kadar yang tidak pernah berlaku sebelum ini, dengan alat -alat baru membuat tajuk utama setiap hari. Ejen Model Bahasa Besar (LLM) adalah inovasi terkini dalam konteks ini, meningkatkan CU

Pelan Pelaksanaan AI Generatif 100 Hari untuk PerusahaanPelan Pelaksanaan AI Generatif 100 Hari untuk PerusahaanApr 12, 2025 am 09:56 AM

Pengenalan Mengguna pakai AI generatif boleh menjadi perjalanan transformatif untuk mana -mana syarikat. Walau bagaimanapun, proses pelaksanaan GueLy sering boleh menjadi rumit dan mengelirukan. Rajendra Singh Pawar, Pengerusi dan Pengasas Bersama Niit Lim

Pixtral 12b vs qwen2-vl-72bPixtral 12b vs qwen2-vl-72bApr 12, 2025 am 09:52 AM

Pengenalan Revolusi AI telah menimbulkan era kreativiti baru, di mana model teks-ke-imej telah mentakrifkan semula persimpangan seni, reka bentuk, dan teknologi. Pixtral 12b dan qwen2-vl-72b adalah dua pasukan perintis drivin

Apakah Paperqa dan bagaimana ia membantu dalam penyelidikan saintifik?Apakah Paperqa dan bagaimana ia membantu dalam penyelidikan saintifik?Apr 12, 2025 am 09:51 AM

Pengenalan Dengan kemajuan AI, penyelidikan saintifik telah melihat transformasi besar -besaran. Berjuta -juta kertas diterbitkan setiap tahun pada teknologi dan sektor yang berbeza. Tetapi, menavigasi lautan maklumat ini ke geser

Datagemma: LLM Grounding Against Hallucinations - Analytics VidhyaDatagemma: LLM Grounding Against Hallucinations - Analytics VidhyaApr 12, 2025 am 09:46 AM

Pengenalan Model bahasa yang besar dengan cepat mengubah industri-hari ini, mereka menguasai segala-galanya dari perkhidmatan pelanggan yang diperibadikan dalam perbankan ke terjemahan bahasa masa nyata dalam komunikasi global. Mereka boleh menjawab usaha

Bagaimana Membina Sistem Multi-Agen dengan Crewai dan Ollama?Bagaimana Membina Sistem Multi-Agen dengan Crewai dan Ollama?Apr 12, 2025 am 09:44 AM

Pengenalan Tidak mahu membelanjakan wang untuk API, atau adakah anda prihatin terhadap privasi? Atau adakah anda hanya mahu menjalankan LLMs secara tempatan? Jangan risau; Panduan ini akan membantu anda membina ejen dan kerangka multi-agen dengan LLMS tempatan t

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Muat turun versi mac editor Atom

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

MantisBT

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

EditPlus versi Cina retak

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

SecLists

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.