


Bytedance Doubao dan Universiti Wuhan mencadangkan CAL: meningkatkan kesan penjajaran pelbagai mod melalui token berkaitan visual

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
- boleh terus bersarang ke dalam proses latihan tanpa peringkat pra-latihan tambahan.
- telah mencapai peningkatan ketara dalam penanda aras OCR dan Kapsyen Daripada visualisasi, didapati bahawa CAL menjadikan penjajaran modal imej lebih baik.
- Motivasi penyelidikan
- Pada masa ini, model bahasa visual bergantung pada penjajaran modaliti imej, dan bagaimana untuk melakukan penjajaran. Kaedah arus perdana semasa adalah untuk melakukan penjajaran tersirat melalui autoregresi teks, tetapi sumbangan setiap token teks kepada penjajaran imej adalah sangat perlu untuk membezakan token teks ini.
: Token ini tidak konsisten dengan maklumat imej malah mungkin memberikan maklumat yang mengelirukan, menjejaskan proses penjajaran pelbagai mod secara negatif.
-
标 Rajah 1: Tanda hijau berkaitan dengan Token berkaitan tinggi, merah adalah bertentangan dengan kandungan, dan tidak berwarna ialah Token neutral Semasa proses latihan, dua jenis terakhir token sebenarnya sebenarnya menduduki bahagian yang lebih besar, tetapi kerana ia tidak terlalu bergantung pada imej, ia mempunyai sedikit kesan pada penjajaran modal imej. Oleh itu, untuk mencapai penjajaran yang lebih baik, adalah perlu untuk meningkatkan berat jenis pertama token teks, iaitu, token yang sangat berkaitan dengan imej. Bagaimana untuk mencari bahagian token ini telah menjadi kunci untuk menyelesaikan masalah ini. KaedahMencari token yang sangat berkaitan dengan imej Masalah ini boleh diselesaikan dengan kontrastif keadaan. Untuk setiap pasangan imej-teks dalam data latihan, jika tiada input imej, logit pada setiap token teks mewakili anggaran LLM tentang kejadian situasi ini berdasarkan konteks dan nilai pengetahuan sedia ada. - Jika anda menambah input imej di hadapan, ia sama dengan memberikan maklumat kontekstual tambahan Dalam kes ini, logit setiap token teks akan dilaraskan berdasarkan situasi baharu. Perubahan logit dalam kedua-dua kes ini mewakili kesan keadaan baharu gambar pada setiap token teks.
- Secara khusus, semasa proses latihan, CAL memasukkan urutan imej dan teks dan urutan teks individu ke dalam model bahasa besar (LLM) masing-masing untuk mendapatkan logit setiap token teks. Dengan mengira perbezaan logit antara kedua-dua kes, kita boleh mengukur kesan imej pada setiap token. Lebih besar perbezaan logit, lebih besar kesan imej pada token, jadi token lebih relevan dengan imej. Rajah di bawah menunjukkan carta alir kaedah perbezaan logit dan CAL untuk token teks.对 Rajah 2: Gambar kiri ialah visualisasi token logit diff dalam dua situasi Gambar di sebelah kanan ialah visualisasi proses kaedah CAL
Cal dalam Llava Pengesahan eksperimen dijalankan pada dua. model arus perdana: MGM dan MGM, dan peningkatan prestasi dicapai dalam model saiz yang berbeza.
Mengandungi empat bahagian pengesahan berikut: (1) Model menggunakan CAL berprestasi lebih baik pada pelbagai penunjuk penanda aras. (2) Cipta kumpulan data hingar (imej-teks tidak padan) dengan menukar teks secara rawak dalam dua pasangan teks imej dalam perkadaran, dan gunakannya untuk latihan model membuat proses latihan Mempunyai prestasi anti-bunyi data yang lebih kukuh.度 Rajah 3: Dalam kes latihan hingar pada intensiti yang berbeza, prestasi CAL dan garis dasar (3) mengira skor perhatian token gambar dalam bahagian jawapan Kes QA, Dan memplotkannya pada imej asal, model terlatih CAL mempunyai peta pengedaran perhatian yang lebih jelas. C Rajah 4: Garis dasar dan Peta Perhatian CAL boleh digambarkan Bahagian kanan setiap pasangan ialah CAL(4) kepada token teks kepada token teks dalam perbendaharaan kata LLM yang paling serupa imej asal, kandungan pemetaan model yang dilatih oleh CAL lebih dekat dengan kandungan imej. ByteDance Beanbag Pasukan model telah ditubuhkan pada 2023 dan komited untuk membangunkan teknologi model besar AI yang paling maju dalam industri, menjadi pasukan penyelidikan bertaraf dunia, dan menyumbang kepada pembangunan teknologi dan sosial. Pasukan Doubao Big Model mempunyai visi dan keazaman jangka panjang dalam bidang AI Arah penyelidikannya meliputi NLP, CV, ucapan, dsb., dan ia mempunyai makmal dan jawatan penyelidikan di China. Singapura, Amerika Syarikat dan tempat-tempat lain. Bergantung pada data yang mencukupi, pengkomputeran dan sumber lain, pasukan itu terus melabur dalam bidang berkaitan yang telah melancarkan model besar umum yang dibangunkan sendiri untuk menyediakan keupayaan berbilang modal. dan Jimeng, dan terbuka kepada orang ramai melalui pelanggan Korporat. Pada masa ini, Doubao APP telah menjadi aplikasi AIGC dengan bilangan pengguna terbesar di pasaran China. Selamat datang untuk menyertai pasukan model ByteDance Beanbao.
Atas ialah kandungan terperinci Bytedance Doubao dan Universiti Wuhan mencadangkan CAL: meningkatkan kesan penjajaran pelbagai mod melalui token berkaitan visual. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Pengenalan Bayangkan perlu mengenal pasti wakil jualan syarikat anda dari beribu -ribu transaksi dan banyak faktor penyumbang. Kaedah tradisional menjadi rumit. Fungsi ranking SQL menawarkan penyelesaian yang efisien untuk bersuara

Dewan Perwakilan dan Senat kedua -duanya bersetuju dengan kerangka anggaran pada hujung minggu. Rangka kerja memerlukan pemotongan perbelanjaan untuk membayar pemotongan cukai yang tidak seimbang pergi ke kaya dan dana untuk mengelakkan defisit yang semakin meningkat sementara juga meningkat

"AI tidak sepatutnya menjadi bang besar," kata Ketua Pegawai Eksekutif Snowflake kepada saya di tempat duduk. "Ia harus menjadi satu siri projek kecil yang menunjukkan nilai setiap langkah." Tetapi seperti yang dinyatakan oleh Ramaswamy, sementara itu mungkin terdengar seperti berhati -hati, itu sebenarnya strategi. Dalam Inter

"AI menjana kandungan terus membanjiri platform streaming seperti Deezer, dan kami tidak melihat tanda -tanda perlahan," kata Aurelien Herault, ketua pegawai inovasi Deezer dalam satu kenyataan. Walaupun tidak ada tanda -tanda banjir yang merosot, Deezer ada

Dan transformasi ini tidak lagi teoritis. Kumpulan Kraft - pemilik New England Patriots, New England Revolution, dan Stadium Gillette - baru saja mengumumkan perkongsian strategik dengan NWN untuk memodenkan dan mengubah teknologi merentasi KR

Rantaian soalan: merevolusikan kejuruteraan segera Bayangkan perbualan dengan AI di mana setiap soalan dibina pada yang sebelumnya, yang membawa kepada jawapan yang semakin mendalam. Ini adalah kekuatan rantai soalan (Coq) dalam kejuruteraan segera

Mistral Nemo: LLM berbilang bahasa yang kuat dan terbuka Usaha kolaborasi Mistral AI dan Nvidia, Mistral Nemo, adalah model bahasa besar yang canggih, sumber terbuka (LLM) yang menyampaikan pemprosesan bahasa semulajadi yang canggih. Ini 12 bilion par

Menguasai fungsi bulat Microsoft Excel untuk data berangka yang tepat Nombor adalah asas kepada spreadsheet, tetapi mencapai ketepatan dan kebolehbacaan sering memerlukan lebih daripada sekadar data mentah. Fungsi bulat Microsoft Excel adalah alat yang berkuasa untuk TRA


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Versi Mac WebStorm
Alat pembangunan JavaScript yang berguna

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

EditPlus versi Cina retak
Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft