cari
RumahPeranti teknologiAIMemperkasakan AI dengan Deria: Perjalanan ke LLM Multimodal Bahagian 1

model bahasa besar multimodal (LLMS): merapatkan jurang antara teks dan penglihatan

Dunia kita berpengalaman melalui pelbagai deria - bahasa, penglihatan, bau, dan sentuhan - membolehkan kita memahami persekitaran kita. Manusia sangat mahir dalam penalaran linguistik dan memori visual. Sebagai model generatif AI (genai), penyelidik memberi tumpuan kepada menggabungkan multimodaliti untuk mengembangkan keupayaan mereka. Model bahasa besar tradisional (LLM) terhad kepada input dan output teks, mengabaikan modaliti lain seperti imej, video, atau audio. Walaupun LLMS cemerlang dalam tugas -tugas seperti menjawab soalan, ringkasan, terjemahan, dan penjanaan kod, mengintegrasikan modaliti lain (mewujudkan LLM multimodal) membuka potensi yang besar. Sebagai contoh, menggabungkan data teks dan imej membolehkan aplikasi seperti menjawab soalan visual, segmentasi imej, dan pengesanan objek. Menambah video meningkatkan keupayaan untuk analisis media canggih.

Jadual Kandungan

  • Pengenalan kepada Multimodal LLMS
  • dataset dan preprocessing
  • Aplikasi Multimodal LLMS
    • Captioning Image
    • Pengekstrakan maklumat
    • Tafsiran Visual dan Penalaran
    • Pengiktirafan Watak Optik (OCR)
    • Pengesanan dan Segmentasi Objek
  • Senibina model bahasa penglihatan yang besar (LVLMS)
    • dua menara VLMS
    • Dua kaki VLMS
    • vlms dengan pengekod imej, pengekod teks & decoder
    • VLMS dengan arsitektur pengekod-decoder
  • Kesimpulan

Pengenalan kepada Multimodal LLMS

Genai merangkumi model pembelajaran mesin yang mampu menghasilkan kandungan baru. Model teks-ke-teks, sebagai contoh, menjana teks dari input teks. Walau bagaimanapun, memperluaskan LLM dengan modaliti lain membuka pintu kepada teks-ke-ke-video, teks-video, teks-ke-ucapan, imej-ke-imej, dan aplikasi imej-ke-video. Ini dikenali sebagai model multimodal besar (LLM multimodal). Latihan model ini melibatkan dataset besar yang mengandungi teks dan modaliti lain, membolehkan algoritma mempelajari hubungan antara semua jenis input. Secara asasnya, model -model ini tidak terhad kepada jenis input/output tunggal; Mereka menyesuaikan diri dengan pelbagai modaliti. Ini menyediakan sistem dengan pemahaman yang lebih kaya tentang input deria.

Artikel ini dibahagikan kepada dua bahagian: yang pertama meneroka aplikasi dan seni bina LLM multimodal, sementara yang kedua (tidak termasuk di sini) memperincikan latihan model penglihatan yang lebih kecil.

dataset dan preprocessing

Menggabungkan jenis data yang berbeza untuk membuat LLM multimodal memberikan cabaran, terutamanya apabila mengendalikan data 1D, 2D, dan 3D secara serentak. Ini memerlukan pendekatan berturut-turut, langkah demi langkah dengan kurasi data yang teliti untuk mengoptimumkan prestasi model.

Perbincangan ini memberi tumpuan kepada teks dan imej. Imej dan video, tidak seperti teks, bervariasi dalam saiz dan resolusi, yang memerlukan pra -proses yang mantap untuk menyeragamkan input. Imej, video, arahan, dan metadata mesti bersedia untuk memudahkan proses pemikiran yang koheren dan konsistensi logik semasa kesimpulan. Model yang dilatih dalam teks, imej, dan data video dipanggil model bahasa penglihatan yang besar (LVLMS).

Aplikasi Multimodal LLMS

Imej berikut (dari kertas QWEN2-VL) menggambarkan model penglihatan berdasarkan QWEN2 LLM, mampu mengendalikan pelbagai tugas visual.

Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

Rajah di bawah menunjukkan bagaimana model bahasa multimodal (MMLM) memproses imej, teks, audio, dan data video untuk mencapai pelbagai objektif. MMLM teras mengintegrasikan modaliti ini untuk pemprosesan gabungan.

Empowering AI with Senses: A Journey into Multimodal LLMs Part 1 Bahagian berikut terperinci aplikasi khusus (contoh kod yang ditinggalkan untuk keringkasan):

1. Tajuk Imej: Menjana Penerangan Teks Imej.

2. Pengekstrakan maklumat: Mendapatkan ciri khusus atau titik data dari imej (mis., Warna objek, teks).

3. Tafsiran & Penalaran Visual: Menganalisis imej dan melaksanakan tugas penalaran berdasarkan maklumat visual.

4. Pengiktirafan watak optik (OCR): Mengekstrak teks dari imej.

5. Pengesanan & Segmentasi Objek: Mengenalpasti dan mengklasifikasikan objek dalam imej, berpotensi membahagikannya ke kawasan yang berbeza.

Senibina model bahasa penglihatan yang besar (LVLMS)

Matlamat LVLMS adalah untuk menyatukan ciri dari imej, video, dan teks. Beberapa seni bina sedang diterokai untuk pra-latihan:

1. Dua menara VLM: Imej dan teks dikodkan secara berasingan dan dilatih dengan objektif bersama untuk menyelaraskan maklumat dari kedua-dua modaliti.

2. VLM dua kaki: Sama seperti dua menara, tetapi termasuk lapisan gabungan untuk menggabungkan ciri-ciri imej dan teks sebelum objektif bersama. Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

3. VLMS dengan Pengekod Imej - Pengekod Teks & Decoder: Pengekod imej memproses imej, manakala data teks diproses oleh encoder dan penyahkod yang berasingan, yang membolehkan interaksi yang lebih kompleks.

Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

4. VLMS dengan arsitektur pengekod-decoder: Imej diproses oleh pengekod, teks oleh penyahkod, dengan ciri-ciri yang digabungkan (melalui concatenation atau silang) sebelum penyahkodan.

Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

Kesimpulan

LLM multimodal, terutamanya VLM, dilatih pada dataset teks imej untuk merapatkan jurang antara data visual dan teks. Mereka cemerlang dalam tugas visual, tetapi mencapai prestasi tinggi memerlukan dataset yang besar dan sumber pengiraan. Walaupun mampu banyak tugas visual, batasan kekal dalam penalaran kompleks dan pengekstrakan data. Penyelidikan dan pembangunan lebih lanjut adalah penting untuk mengatasi batasan -batasan ini dan membuka kunci potensi penuh LLM multimodal.

rujukan (senarai yang disediakan dalam teks asal)

Atas ialah kandungan terperinci Memperkasakan AI dengan Deria: Perjalanan ke LLM Multimodal Bahagian 1. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tesla's Robovan adalah permata tersembunyi pada penggoda Robotaxi 2024Tesla's Robovan adalah permata tersembunyi pada penggoda Robotaxi 2024Apr 22, 2025 am 11:48 AM

Sejak tahun 2008, saya telah memperjuangkan van yang dikongsi bersama-pada masa yang digelar "Robotjitney," kemudian "Vansit" -dan masa depan pengangkutan bandar. Saya meramalkan kenderaan ini sebagai penyelesaian transit generasi akan datang abad ke-21, Surpas

Pertaruhan Kelab Sam di AI untuk menghapuskan cek resit dan meningkatkan runcitPertaruhan Kelab Sam di AI untuk menghapuskan cek resit dan meningkatkan runcitApr 22, 2025 am 11:29 AM

Merevolusikan pengalaman checkout Sistem "Just Go" inovatif Sam Club membina teknologi "imbasan & pergi" yang sedia ada AI yang sedia ada, yang membolehkan ahli mengimbas pembelian melalui aplikasi Sam's Club semasa perjalanan membeli-belah mereka.

AI Omniverse Nvidia berkembang di GTC 2025AI Omniverse Nvidia berkembang di GTC 2025Apr 22, 2025 am 11:28 AM

Predictability dan barisan produk baru NVIDIA di GTC 2025 Nvidia, pemain utama dalam infrastruktur AI, memberi tumpuan kepada peningkatan ramalan untuk pelanggannya. Ini melibatkan penghantaran produk yang konsisten, memenuhi jangkaan prestasi, dan

Meneroka keupayaan model Google ' s Gemma 2Meneroka keupayaan model Google ' s Gemma 2Apr 22, 2025 am 11:26 AM

Google's Gemma 2: Model bahasa yang kuat dan cekap Model Bahasa Gemma Google, yang disambut untuk kecekapan dan prestasi, telah berkembang dengan kedatangan Gemma 2. Siaran terbaru ini terdiri daripada dua model: parameter 27 bilion ver

Gelombang Seterusnya: Perspektif dengan Dr. Kirk Borne - Analytics VidhyaGelombang Seterusnya: Perspektif dengan Dr. Kirk Borne - Analytics VidhyaApr 22, 2025 am 11:21 AM

Ini memimpin dengan episod data yang menampilkan Dr Kirk Borne, seorang saintis data terkemuka, astrofizik, dan pembesar suara TEDX. Pakar terkenal dalam Big Data, AI, dan Pembelajaran Mesin, Dr. Borne menawarkan pandangan yang tidak ternilai ke dalam keadaan semasa dan masa depan Traje

AI untuk pelari dan atlet: kami membuat kemajuan yang sangat baikAI untuk pelari dan atlet: kami membuat kemajuan yang sangat baikApr 22, 2025 am 11:12 AM

Terdapat beberapa perspektif yang sangat berwawasan dalam maklumat ini mengenai maklumat mengenai kejuruteraan yang menunjukkan kepada kita mengapa kecerdasan buatan sangat baik untuk menyokong latihan fizikal orang. Saya akan menggariskan idea teras dari setiap perspektif penyumbang untuk menunjukkan tiga aspek reka bentuk yang merupakan bahagian penting dalam penerokaan penerokaan kecerdasan buatan dalam sukan. Peranti tepi dan data peribadi mentah Idea ini mengenai kecerdasan buatan sebenarnya mengandungi dua komponen -satu yang berkaitan dengan di mana kita meletakkan model bahasa yang besar dan yang lain berkaitan dengan perbezaan antara bahasa manusia dan bahasa yang kita tanda -tanda penting kita "menyatakan" apabila diukur dalam masa nyata. Alexander Amini tahu banyak tentang berlari dan tenis, tetapi dia masih

Jamie Engstrom mengenai Teknologi, Bakat dan Transformasi di CaterpillarJamie Engstrom mengenai Teknologi, Bakat dan Transformasi di CaterpillarApr 22, 2025 am 11:10 AM

Ketua Pegawai Maklumat Caterpillar dan Naib Presiden Kanan IT, Jamie Engstrom, mengetuai pasukan global lebih dari 2,200 profesional IT di 28 negara. Dengan 26 tahun di Caterpillar, termasuk empat setengah tahun dalam peranannya sekarang, Engst

Kemas kini foto Google baru menjadikan sebarang foto pop dengan kualiti ultra HDRKemas kini foto Google baru menjadikan sebarang foto pop dengan kualiti ultra HDRApr 22, 2025 am 11:09 AM

Alat HDR Ultra baru Google Photos: Panduan Cepat Tingkatkan foto anda dengan alat Ultra HDR baru Google Photos, mengubah imej standard ke dalam karya-karya bertenaga, tinggi dinamik. Sesuai untuk media sosial, alat ini meningkatkan kesan foto,

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

Muat turun versi mac editor Atom

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

EditPlus versi Cina retak

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

SecLists

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.