cari
RumahPeranti teknologiAILebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca 'imej padat teks'

Arah aliran yang jelas pada masa ini adalah ke arah membina model yang lebih besar dan lebih kompleks dengan puluhan/ratusan bilion parameter yang mampu menjana output bahasa yang mengagumkan

Walau bagaimanapun, model bahasa besar sedia ada Terutamanya tertumpu pada maklumat teks dan tidak dapat memahami maklumat visual.

Jadi kemajuan dalam bidang Multimodal Large Language Models (MLLMs) bertujuan untuk menangani had ini, MLLMs menggabungkan maklumat visual dan tekstual ke dalam satu model berasaskan Transformer, membolehkan model menyesuaikan diri dengan kedua-dua modaliti Belajar dan menjana kandungan.

MLLM menunjukkan potensi dalam pelbagai aplikasi praktikal, termasuk pemahaman imej semula jadi dan pemahaman imej teks. Model ini memanfaatkan pemodelan bahasa sebagai antara muka biasa untuk mengendalikan masalah berbilang modal, membolehkan mereka memproses dan menjana respons berdasarkan input teks dan visual

Walau bagaimanapun, pada masa ini tumpuan utama adalah pada MLLM imej semula jadi dengan resolusi rendah, yang padat untuk teks Terdapat sedikit kajian mengenai imej. Oleh itu, menggunakan sepenuhnya pra-latihan pelbagai mod berskala besar untuk memproses imej teks telah menjadi hala tuju penting penyelidikan MLLM

Dengan memasukkan imej teks ke dalam proses latihan dan membangunkan model berdasarkan maklumat teks dan visual, kami boleh membuka jalan baharu yang melibatkan resolusi tinggi Kemungkinan baharu untuk aplikasi pelbagai mod imej padat teks. . dibangunkan di KOSMOS- Dibangunkan berdasarkan 2, ia menyerlahkan keupayaan membaca dan memahami pelbagai mod imej intensif teks (Model Celik Pelbagai Modal).

Cadangan model ini menyerlahkan prestasi cemerlangnya dalam memahami imej intensif teks, merapatkan jurang antara penglihatan dan teksLebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca imej padat teks

Pada masa yang sama, ia juga menandakan evolusi paradigma tugas daripada pengekodan sebelumnya Beralih daripada seni bina penyahkod-penyahkod kepada seni bina penyahkod tulen

Matlamat KOSMOS-2.5 adalah untuk membolehkan pemprosesan data visual dan tekstual yang lancar dalam imej kaya teks untuk memahami kandungan imej dan menjana penerangan teks berstruktur. . Tugas pertama melibatkan penjanaan blok teks sedar ruang, iaitu menjana kandungan dan bingkai koordinat blok teks secara serentak. Apa yang perlu ditulis semula ialah: Tugas pertama melibatkan penjanaan blok teks sedar ruang, iaitu, menjana kandungan blok teks dan kotak koordinat secara serentak

Tugas kedua melibatkan penjanaan output teks berstruktur menggunakan format Markdown, dan menangkap pelbagai gaya dan struktur

Rajah 2: Kosmos-2.5 Rajah Senibina

Seperti yang ditunjukkan dalam Rajah 2, kedua-dua tugas menggunakan seni bina pengubah bersama dan petunjuk khusus tugas

Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca imej padat teks Kosmos-2.5 menggabungkan pengekod visual berdasarkan ViT (Pengubah Penglihatan) dengan penyahkod berdasarkan seni bina Transformer, disambungkan melalui modul pensampelan semula.

Rajah 3: Set data pralatihan

Untuk melatih model ini, penulis menyediakan set data yang besar dengan saiz 324.4M, seperti ditunjukkan dalam Rajah 3

Rajah 4: Contoh sampel latihan untuk baris teks dengan kotak sempadan

Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca imej padat teks

Rajah 5: Contoh sampel latihan dalam format Markdown

ini mengandungi pelbagai jenis imej padat teks tersebut dengan baris Teks dengan kotak sempadan dan teks biasa dalam format Markdown Rajah 4 dan 5 adalah contoh visualisasi latihan.

Kaedah latihan pelbagai tugas ini meningkatkan keupayaan pelbagai mod keseluruhan KOSMOS-2.5

Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca imej padat teks. 2.5 Ia dinilai berdasarkan dua tugas: pengecaman teks peringkat dokumen hujung ke hujung dan penjanaan teks berformat Markdown daripada imej.

Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca imej padat teksKOSMOS-2.5 berfungsi dengan baik dalam memproses tugasan imej intensif teks, dan keputusan percubaan menunjukkan perkara ini

Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca imej padat teks

Rajah 8: Paparan sampel input dan output KOSMOS-2.5

Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca imej padat teks

keupayaan yang menjanjikan dalam kedua-dua senario pembelajaran beberapa pukulan dan pembelajaran sifar pukulan, menjadikannya alat serba boleh untuk aplikasi praktikal dalam memproses imej kaya teks. Ia boleh dianggap sebagai alat serba boleh yang boleh mengendalikan imej kaya teks dengan berkesan dan menunjukkan keupayaan yang menjanjikan dalam kes pembelajaran beberapa pukulan dan pembelajaran sifar pukulan

Pengarang menunjukkan bahawa penalaan halus arahan adalah sangat menjanjikan. Kaedah prospek boleh mencapai keupayaan aplikasi yang lebih luas bagi model.

Dalam bidang penyelidikan yang lebih luas, hala tuju penting terletak pada mengembangkan lagi keupayaan untuk mengembangkan parameter model.

Memandangkan skop dan kerumitan tugas terus berkembang, model penskalaan untuk mengendalikan jumlah data yang lebih besar adalah penting untuk pembangunan model berbilang modal intensif teks.

Matlamat utama adalah untuk membangunkan model yang boleh mentafsir data visual dan teks dengan berkesan dan berjaya membuat generalisasi kepada tugasan pelbagai mod yang lebih intensif teks.

Apabila menulis semula kandungan, ia perlu ditulis semula ke dalam bahasa Cina, dan ayat asal tidak perlu muncul

https://arxiv.org/abs/2309.11419

Atas ialah kandungan terperinci Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca 'imej padat teks'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Cara Membina Pembantu AI Peribadi Anda Dengan Huggingface SmollmCara Membina Pembantu AI Peribadi Anda Dengan Huggingface SmollmApr 18, 2025 am 11:52 AM

Memanfaatkan kuasa AI di peranti: Membina CLI Chatbot Peribadi Pada masa lalu, konsep pembantu AI peribadi kelihatan seperti fiksyen sains. Bayangkan Alex, seorang peminat teknologi, bermimpi seorang sahabat AI yang pintar, yang tidak bergantung

AI untuk Kesihatan Mental dianalisis dengan penuh perhatian melalui inisiatif baru yang menarik di Stanford UniversityAI untuk Kesihatan Mental dianalisis dengan penuh perhatian melalui inisiatif baru yang menarik di Stanford UniversityApr 18, 2025 am 11:49 AM

Pelancaran AI4MH mereka berlaku pada 15 April, 2025, dan Luminary Dr. Tom Insel, M.D., pakar psikiatri yang terkenal dan pakar neurosains, berkhidmat sebagai penceramah kick-off. Dr. Insel terkenal dengan kerja cemerlangnya dalam penyelidikan kesihatan mental dan techno

Kelas Draf WNBA 2025 memasuki liga yang semakin meningkat dan melawan gangguan dalam talianKelas Draf WNBA 2025 memasuki liga yang semakin meningkat dan melawan gangguan dalam talianApr 18, 2025 am 11:44 AM

"Kami mahu memastikan bahawa WNBA kekal sebagai ruang di mana semua orang, pemain, peminat dan rakan kongsi korporat, berasa selamat, dihargai dan diberi kuasa," kata Engelbert, menangani apa yang telah menjadi salah satu cabaran sukan wanita yang paling merosakkan. Anno

Panduan Komprehensif untuk Struktur Data Terbina Python - Analytics VidhyaPanduan Komprehensif untuk Struktur Data Terbina Python - Analytics VidhyaApr 18, 2025 am 11:43 AM

Pengenalan Python cemerlang sebagai bahasa pengaturcaraan, terutamanya dalam sains data dan AI generatif. Manipulasi data yang cekap (penyimpanan, pengurusan, dan akses) adalah penting apabila berurusan dengan dataset yang besar. Kami pernah meliputi nombor dan st

Tayangan pertama dari model baru Openai berbanding dengan alternatifTayangan pertama dari model baru Openai berbanding dengan alternatifApr 18, 2025 am 11:41 AM

Sebelum menyelam, kaveat penting: Prestasi AI adalah spesifik yang tidak ditentukan dan sangat digunakan. Dalam istilah yang lebih mudah, perbatuan anda mungkin berbeza -beza. Jangan ambil artikel ini (atau lain -lain) sebagai perkataan akhir -sebaliknya, uji model ini pada senario anda sendiri

AI Portfolio | Bagaimana untuk membina portfolio untuk kerjaya AI?AI Portfolio | Bagaimana untuk membina portfolio untuk kerjaya AI?Apr 18, 2025 am 11:40 AM

Membina portfolio AI/ML yang menonjol: Panduan untuk Pemula dan Profesional Mewujudkan portfolio yang menarik adalah penting untuk mendapatkan peranan dalam kecerdasan buatan (AI) dan pembelajaran mesin (ML). Panduan ini memberi nasihat untuk membina portfolio

AI AI apa yang boleh dimaksudkan untuk operasi keselamatanAI AI apa yang boleh dimaksudkan untuk operasi keselamatanApr 18, 2025 am 11:36 AM

Hasilnya? Pembakaran, ketidakcekapan, dan jurang yang melebar antara pengesanan dan tindakan. Tak satu pun dari ini harus datang sebagai kejutan kepada sesiapa yang bekerja dalam keselamatan siber. Janji Agentic AI telah muncul sebagai titik perubahan yang berpotensi. Kelas baru ini

Google Versus Openai: AI berjuang untuk pelajarGoogle Versus Openai: AI berjuang untuk pelajarApr 18, 2025 am 11:31 AM

Impak segera berbanding perkongsian jangka panjang? Dua minggu yang lalu Openai melangkah ke hadapan dengan tawaran jangka pendek yang kuat, memberikan akses kepada pelajar A.S. dan Kanada.

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Versi Mac WebStorm

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna

Muat turun versi mac editor Atom

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

SublimeText3 versi Inggeris

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)