cari
RumahPeranti teknologiAIBytedance Doubao dan Universiti Wuhan mencadangkan CAL: meningkatkan kesan penjajaran pelbagai mod melalui token berkaitan visual

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Model bahasa visual arus perdana (VLM) terutamanya berdasarkan model bahasa besar (LLM) untuk penalaan lebih lanjut. Oleh itu, adalah perlu untuk memetakan imej ke ruang benam LLM dalam pelbagai cara, dan kemudian menggunakan kaedah autoregresif untuk meramalkan jawapan berdasarkan token imej.

Dalam proses ini, penjajaran modal dilaksanakan secara tersirat melalui token teks Cara menyelaraskan langkah ini dengan baik adalah sangat kritikal.

Sebagai tindak balas kepada masalah ini, penyelidik dari Universiti Wuhan, Pasukan Model Besar ByteDance Beanbao dan Akademi Sains Universiti China mencadangkan kaedah saringan token teks (CAL) berdasarkan pembelajaran kontras untuk menyaring Token teks yang sangat berkaitan dengan imej dinaikkan dalam berat fungsi kehilangan untuk mencapai penjajaran berbilang modal yang lebih tepat. Pautan kertas: https://arxiv.org/pdf/2405.17871
CAL mempunyai sorotan berikut:

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

  • boleh terus bersarang ke dalam proses latihan tanpa peringkat pra-latihan tambahan.
  • telah mencapai peningkatan ketara dalam penanda aras OCR dan Kapsyen Daripada visualisasi, didapati bahawa CAL menjadikan penjajaran modal imej lebih baik.
CAL menjadikan proses latihan lebih tahan terhadap data bising.


    Motivasi penyelidikan
  • Pada masa ini, model bahasa visual bergantung pada penjajaran modaliti imej, dan bagaimana untuk melakukan penjajaran. Kaedah arus perdana semasa adalah untuk melakukan penjajaran tersirat melalui autoregresi teks, tetapi sumbangan setiap token teks kepada penjajaran imej adalah sangat perlu untuk membezakan token teks ini.
CAL mencadangkan bahawa dalam data latihan model bahasa visual (VLM) sedia ada, token teks boleh dibahagikan kepada tiga kategori:

Teks yang sangat berkaitan dengan gambar Seperti orang, haiwan, objek), kuantiti, warna, teks, dll. Token ini secara langsung sepadan dengan maklumat imej dan penting untuk penjajaran berbilang modal.
Teks dengan korelasi rendah dengan gambar
: Seperti perkataan atau kandungan berikut yang boleh disimpulkan daripada teks sebelumnya. Token ini sebenarnya digunakan terutamanya untuk melatih keupayaan teks biasa VLM.
Teks yang bercanggah dengan kandungan imej
: Token ini tidak konsisten dengan maklumat imej malah mungkin memberikan maklumat yang mengelirukan, menjejaskan proses penjajaran pelbagai mod secara negatif.
  • 标 Rajah 1: Tanda hijau berkaitan dengan Token berkaitan tinggi, merah adalah bertentangan dengan kandungan, dan tidak berwarna ialah Token neutral
    Semasa proses latihan, dua jenis terakhir token sebenarnya sebenarnya menduduki bahagian yang lebih besar, tetapi kerana ia tidak terlalu bergantung pada imej, ia mempunyai sedikit kesan pada penjajaran modal imej. Oleh itu, untuk mencapai penjajaran yang lebih baik, adalah perlu untuk meningkatkan berat jenis pertama token teks, iaitu, token yang sangat berkaitan dengan imej. Bagaimana untuk mencari bahagian token ini telah menjadi kunci untuk menyelesaikan masalah ini.

    Kaedah

    Mencari token yang sangat berkaitan dengan imej Masalah ini boleh diselesaikan dengan kontrastif keadaan.
    Untuk setiap pasangan imej-teks dalam data latihan, jika tiada input imej, logit pada setiap token teks mewakili anggaran LLM tentang kejadian situasi ini berdasarkan konteks dan nilai pengetahuan sedia ada.
    • Jika anda menambah input imej di hadapan, ia sama dengan memberikan maklumat kontekstual tambahan Dalam kes ini, logit setiap token teks akan dilaraskan berdasarkan situasi baharu. Perubahan logit dalam kedua-dua kes ini mewakili kesan keadaan baharu gambar pada setiap token teks.
    • Secara khusus, semasa proses latihan, CAL memasukkan urutan imej dan teks dan urutan teks individu ke dalam model bahasa besar (LLM) masing-masing untuk mendapatkan logit setiap token teks. Dengan mengira perbezaan logit antara kedua-dua kes, kita boleh mengukur kesan imej pada setiap token. Lebih besar perbezaan logit, lebih besar kesan imej pada token, jadi token lebih relevan dengan imej. Rajah di bawah menunjukkan carta alir kaedah perbezaan logit dan CAL untuk token teks.对 Rajah 2: Gambar kiri ialah visualisasi token logit diff dalam dua situasi Gambar di sebelah kanan ialah visualisasi proses kaedah CAL

    字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果Cal dalam Llava Pengesahan eksperimen dijalankan pada dua. model arus perdana: MGM dan MGM, dan peningkatan prestasi dicapai dalam model saiz yang berbeza.
    Mengandungi empat bahagian pengesahan berikut:

    (1) Model menggunakan CAL berprestasi lebih baik pada pelbagai penunjuk penanda aras.


    (2) Cipta kumpulan data hingar (imej-teks tidak padan) dengan menukar teks secara rawak dalam dua pasangan teks imej dalam perkadaran, dan gunakannya untuk latihan model membuat proses latihan Mempunyai prestasi anti-bunyi data yang lebih kukuh.度 Rajah 3: Dalam kes latihan hingar pada intensiti yang berbeza, prestasi CAL dan garis dasar

    (3) mengira skor perhatian token gambar dalam bahagian jawapan Kes QA, Dan memplotkannya pada imej asal, model terlatih CAL mempunyai peta pengedaran perhatian yang lebih jelas.

    字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

    C Rajah 4: Garis dasar dan Peta Perhatian CAL boleh digambarkan Bahagian kanan setiap pasangan ialah CAL
    (4) kepada token teks kepada token teks dalam perbendaharaan kata LLM yang paling serupa imej asal, kandungan pemetaan model yang dilatih oleh CAL lebih dekat dengan kandungan imej.

    字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果                                                                                                                                                                                                                                                                                                                                                                                                                                               
    ByteDance Beanbag Pasukan model telah ditubuhkan pada 2023 dan komited untuk membangunkan teknologi model besar AI yang paling maju dalam industri, menjadi pasukan penyelidikan bertaraf dunia, dan menyumbang kepada pembangunan teknologi dan sosial.

    Pasukan Doubao Big Model mempunyai visi dan keazaman jangka panjang dalam bidang AI Arah penyelidikannya meliputi NLP, CV, ucapan, dsb., dan ia mempunyai makmal dan jawatan penyelidikan di China. Singapura, Amerika Syarikat dan tempat-tempat lain. Bergantung pada data yang mencukupi, pengkomputeran dan sumber lain, pasukan itu terus melabur dalam bidang berkaitan yang telah melancarkan model besar umum yang dibangunkan sendiri untuk menyediakan keupayaan berbilang modal. dan Jimeng, dan terbuka kepada orang ramai melalui pelanggan Korporat. Pada masa ini, Doubao APP telah menjadi aplikasi AIGC dengan bilangan pengguna terbesar di pasaran China. Selamat datang untuk menyertai pasukan model ByteDance Beanbao.

Atas ialah kandungan terperinci Bytedance Doubao dan Universiti Wuhan mencadangkan CAL: meningkatkan kesan penjajaran pelbagai mod melalui token berkaitan visual. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Fungsi pangkat dalam SQLFungsi pangkat dalam SQLApr 17, 2025 am 11:20 AM

Pengenalan Bayangkan perlu mengenal pasti wakil jualan syarikat anda dari beribu -ribu transaksi dan banyak faktor penyumbang. Kaedah tradisional menjadi rumit. Fungsi ranking SQL menawarkan penyelesaian yang efisien untuk bersuara

Potensi Medicaid Potongan mengancam penjagaan kesihatan ibuPotensi Medicaid Potongan mengancam penjagaan kesihatan ibuApr 17, 2025 am 11:18 AM

Dewan Perwakilan dan Senat kedua -duanya bersetuju dengan kerangka anggaran pada hujung minggu. Rangka kerja memerlukan pemotongan perbelanjaan untuk membayar pemotongan cukai yang tidak seimbang pergi ke kaya dan dana untuk mengelakkan defisit yang semakin meningkat sementara juga meningkat

Ketua Pegawai Eksekutif Snowflake mengatakan AI ROI bermula dengan mendapatkan data yang betulKetua Pegawai Eksekutif Snowflake mengatakan AI ROI bermula dengan mendapatkan data yang betulApr 17, 2025 am 11:13 AM

"AI tidak sepatutnya menjadi bang besar," kata Ketua Pegawai Eksekutif Snowflake kepada saya di tempat duduk. "Ia harus menjadi satu siri projek kecil yang menunjukkan nilai setiap langkah." Tetapi seperti yang dinyatakan oleh Ramaswamy, sementara itu mungkin terdengar seperti berhati -hati, itu sebenarnya strategi. Dalam Inter

20,000 lagu yang dihasilkan Ai dimuat naik ke Deezer setiap hari20,000 lagu yang dihasilkan Ai dimuat naik ke Deezer setiap hariApr 17, 2025 am 11:11 AM

"AI menjana kandungan terus membanjiri platform streaming seperti Deezer, dan kami tidak melihat tanda -tanda perlahan," kata Aurelien Herault, ketua pegawai inovasi Deezer dalam satu kenyataan. Walaupun tidak ada tanda -tanda banjir yang merosot, Deezer ada

Dari stadium ke luar: Bagaimana AI mencipta semula masa depan sukanDari stadium ke luar: Bagaimana AI mencipta semula masa depan sukanApr 17, 2025 am 11:10 AM

Dan transformasi ini tidak lagi teoritis. Kumpulan Kraft - pemilik New England Patriots, New England Revolution, dan Stadium Gillette - baru saja mengumumkan perkongsian strategik dengan NWN untuk memodenkan dan mengubah teknologi merentasi KR

Apakah rantaian soalan dalam kejuruteraan segera? - Analytics VidhyaApakah rantaian soalan dalam kejuruteraan segera? - Analytics VidhyaApr 17, 2025 am 11:06 AM

Rantaian soalan: merevolusikan kejuruteraan segera Bayangkan perbualan dengan AI di mana setiap soalan dibina pada yang sebelumnya, yang membawa kepada jawapan yang semakin mendalam. Ini adalah kekuatan rantai soalan (Coq) dalam kejuruteraan segera

Mengakses Nemo Mistral: Ciri, Aplikasi, dan ImplikasiMengakses Nemo Mistral: Ciri, Aplikasi, dan ImplikasiApr 17, 2025 am 11:04 AM

Mistral Nemo: LLM berbilang bahasa yang kuat dan terbuka Usaha kolaborasi Mistral AI dan Nvidia, Mistral Nemo, adalah model bahasa besar yang canggih, sumber terbuka (LLM) yang menyampaikan pemprosesan bahasa semulajadi yang canggih. Ini 12 bilion par

Apakah fungsi bulat dalam Excel? - Analytics VidhyaApakah fungsi bulat dalam Excel? - Analytics VidhyaApr 17, 2025 am 10:56 AM

Menguasai fungsi bulat Microsoft Excel untuk data berangka yang tepat Nombor adalah asas kepada spreadsheet, tetapi mencapai ketepatan dan kebolehbacaan sering memerlukan lebih daripada sekadar data mentah. Fungsi bulat Microsoft Excel adalah alat yang berkuasa untuk TRA

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Arahan sembang dan cara menggunakannya
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Versi Mac WebStorm

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

EditPlus versi Cina retak

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft