


Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca 'imej padat teks'
Arah aliran yang jelas pada masa ini adalah ke arah membina model yang lebih besar dan lebih kompleks dengan puluhan/ratusan bilion parameter yang mampu menjana output bahasa yang mengagumkan
Walau bagaimanapun, model bahasa besar sedia ada Terutamanya tertumpu pada maklumat teks dan tidak dapat memahami maklumat visual.
Jadi kemajuan dalam bidang Multimodal Large Language Models (MLLMs) bertujuan untuk menangani had ini, MLLMs menggabungkan maklumat visual dan tekstual ke dalam satu model berasaskan Transformer, membolehkan model menyesuaikan diri dengan kedua-dua modaliti Belajar dan menjana kandungan.
MLLM menunjukkan potensi dalam pelbagai aplikasi praktikal, termasuk pemahaman imej semula jadi dan pemahaman imej teks. Model ini memanfaatkan pemodelan bahasa sebagai antara muka biasa untuk mengendalikan masalah berbilang modal, membolehkan mereka memproses dan menjana respons berdasarkan input teks dan visual
Walau bagaimanapun, pada masa ini tumpuan utama adalah pada MLLM imej semula jadi dengan resolusi rendah, yang padat untuk teks Terdapat sedikit kajian mengenai imej. Oleh itu, menggunakan sepenuhnya pra-latihan pelbagai mod berskala besar untuk memproses imej teks telah menjadi hala tuju penting penyelidikan MLLM
Dengan memasukkan imej teks ke dalam proses latihan dan membangunkan model berdasarkan maklumat teks dan visual, kami boleh membuka jalan baharu yang melibatkan resolusi tinggi Kemungkinan baharu untuk aplikasi pelbagai mod imej padat teks. . dibangunkan di KOSMOS- Dibangunkan berdasarkan 2, ia menyerlahkan keupayaan membaca dan memahami pelbagai mod imej intensif teks (Model Celik Pelbagai Modal).
Cadangan model ini menyerlahkan prestasi cemerlangnya dalam memahami imej intensif teks, merapatkan jurang antara penglihatan dan teks
Seperti yang ditunjukkan dalam Rajah 2, kedua-dua tugas menggunakan seni bina pengubah bersama dan petunjuk khusus tugas
Kosmos-2.5 menggabungkan pengekod visual berdasarkan ViT (Pengubah Penglihatan) dengan penyahkod berdasarkan seni bina Transformer, disambungkan melalui modul pensampelan semula.
Untuk melatih model ini, penulis menyediakan set data yang besar dengan saiz 324.4M, seperti ditunjukkan dalam Rajah 3
Rajah 4: Contoh sampel latihan untuk baris teks dengan kotak sempadan
Rajah 5: Contoh sampel latihan dalam format Markdown
ini mengandungi pelbagai jenis imej padat teks tersebut dengan baris Teks dengan kotak sempadan dan teks biasa dalam format Markdown Rajah 4 dan 5 adalah contoh visualisasi latihan. Kaedah latihan pelbagai tugas ini meningkatkan keupayaan pelbagai mod keseluruhan KOSMOS-2.5 keupayaan yang menjanjikan dalam kedua-dua senario pembelajaran beberapa pukulan dan pembelajaran sifar pukulan, menjadikannya alat serba boleh untuk aplikasi praktikal dalam memproses imej kaya teks. Ia boleh dianggap sebagai alat serba boleh yang boleh mengendalikan imej kaya teks dengan berkesan dan menunjukkan keupayaan yang menjanjikan dalam kes pembelajaran beberapa pukulan dan pembelajaran sifar pukulan Pengarang menunjukkan bahawa penalaan halus arahan adalah sangat menjanjikan. Kaedah prospek boleh mencapai keupayaan aplikasi yang lebih luas bagi model. Dalam bidang penyelidikan yang lebih luas, hala tuju penting terletak pada mengembangkan lagi keupayaan untuk mengembangkan parameter model. Memandangkan skop dan kerumitan tugas terus berkembang, model penskalaan untuk mengendalikan jumlah data yang lebih besar adalah penting untuk pembangunan model berbilang modal intensif teks. Matlamat utama adalah untuk membangunkan model yang boleh mentafsir data visual dan teks dengan berkesan dan berjaya membuat generalisasi kepada tugasan pelbagai mod yang lebih intensif teks. Apabila menulis semula kandungan, ia perlu ditulis semula ke dalam bahasa Cina, dan ayat asal tidak perlu muncul https://arxiv.org/abs/2309.11419. 2.5 Ia dinilai berdasarkan dua tugas: pengecaman teks peringkat dokumen hujung ke hujung dan penjanaan teks berformat Markdown daripada imej.
KOSMOS-2.5 berfungsi dengan baik dalam memproses tugasan imej intensif teks, dan keputusan percubaan menunjukkan perkara ini
Atas ialah kandungan terperinci Lebih banyak perkataan dalam dokumen, lebih teruja model itu! KOSMOS-2.5: Model bahasa besar berbilang modal untuk membaca 'imej padat teks'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Memanfaatkan kuasa AI di peranti: Membina CLI Chatbot Peribadi Pada masa lalu, konsep pembantu AI peribadi kelihatan seperti fiksyen sains. Bayangkan Alex, seorang peminat teknologi, bermimpi seorang sahabat AI yang pintar, yang tidak bergantung

Pelancaran AI4MH mereka berlaku pada 15 April, 2025, dan Luminary Dr. Tom Insel, M.D., pakar psikiatri yang terkenal dan pakar neurosains, berkhidmat sebagai penceramah kick-off. Dr. Insel terkenal dengan kerja cemerlangnya dalam penyelidikan kesihatan mental dan techno

"Kami mahu memastikan bahawa WNBA kekal sebagai ruang di mana semua orang, pemain, peminat dan rakan kongsi korporat, berasa selamat, dihargai dan diberi kuasa," kata Engelbert, menangani apa yang telah menjadi salah satu cabaran sukan wanita yang paling merosakkan. Anno

Pengenalan Python cemerlang sebagai bahasa pengaturcaraan, terutamanya dalam sains data dan AI generatif. Manipulasi data yang cekap (penyimpanan, pengurusan, dan akses) adalah penting apabila berurusan dengan dataset yang besar. Kami pernah meliputi nombor dan st

Sebelum menyelam, kaveat penting: Prestasi AI adalah spesifik yang tidak ditentukan dan sangat digunakan. Dalam istilah yang lebih mudah, perbatuan anda mungkin berbeza -beza. Jangan ambil artikel ini (atau lain -lain) sebagai perkataan akhir -sebaliknya, uji model ini pada senario anda sendiri

Membina portfolio AI/ML yang menonjol: Panduan untuk Pemula dan Profesional Mewujudkan portfolio yang menarik adalah penting untuk mendapatkan peranan dalam kecerdasan buatan (AI) dan pembelajaran mesin (ML). Panduan ini memberi nasihat untuk membina portfolio

Hasilnya? Pembakaran, ketidakcekapan, dan jurang yang melebar antara pengesanan dan tindakan. Tak satu pun dari ini harus datang sebagai kejutan kepada sesiapa yang bekerja dalam keselamatan siber. Janji Agentic AI telah muncul sebagai titik perubahan yang berpotensi. Kelas baru ini

Impak segera berbanding perkongsian jangka panjang? Dua minggu yang lalu Openai melangkah ke hadapan dengan tawaran jangka pendek yang kuat, memberikan akses kepada pelajar A.S. dan Kanada.


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Versi Mac WebStorm
Alat pembangunan JavaScript yang berguna

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

DVWA
Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

SublimeText3 versi Inggeris
Disyorkan: Versi Win, menyokong gesaan kod!

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)