Untuk mencapai pemahaman multi-modal peringkat serantau ketepatan tinggi, kertas kerja ini mencadangkan skema resolusi dinamik untuk mensimulasikan sistem kognitif visual manusia.
Pengarang artikel ini adalah daripada Makmal LAMP Akademi Sains Universiti Cina Pengarang pertama Zhao Yuzhong ialah pelajar kedoktoran Universiti Akademi Sains Cina pada tahun 2023, dan pengarang bersama Liu. Feng ialah pelajar kedoktoran langsung Universiti Akademi Sains Cina pada tahun 2020. Arah penyelidikan utama mereka ialah model bahasa visual dan persepsi objek visual.
DynRefer meningkatkan dengan ketara keupayaan pengecaman pelbagai mod peringkat serantau dengan mensimulasikan proses kognitif visual manusia. Dengan memperkenalkan mekanisme resolusi dinamik mata manusia, DynRefer boleh menyelesaikan secara serentak tugas-tugas pengecaman wilayah, pengesanan atribut wilayah dan kapsyen peringkat wilayah dengan model tunggal dan mencapai prestasi SOTA dalam semua tugas di atas. Antaranya, 115.7 CIDEr telah dicapai pada tugasan kapsyen peringkat rantau bagi set data RefCOCOg, yang jauh lebih tinggi daripada kaedah CVPR 2024 seperti RegionGPT, GlaMM, Osprey, Alpha-CLIP dan sebagainya.
- Tajuk kertas: DynRefer: Menyelidiki Tugasan Pelbagai Modaliti peringkat Wilayah melalui Resolusi Dinamik
- Pautan kertas: https://arxiv.org/abs/2401
https://arxiv.org/abs/071- https://kod. ://github.com/callsys/DynRefer
Tugas multimodal peringkat rantau dikhaskan untuk menukar perihalan kawasan imej preference manusia yang konsisten kepada bahasa yang ditetapkan. Manusia mempunyai keupayaan penyesuaian resolusi apabila menyelesaikan tugas multi-modal peringkat wilayah, iaitu kawasan yang diminati adalah resolusi tinggi dan kawasan yang tidak diberi perhatian adalah resolusi rendah. Walau bagaimanapun, model bahasa besar berbilang mod peringkat wilayah semasa sering menggunakan skema pengekodan resolusi tetap, iaitu, pengekodan keseluruhan imej, dan kemudian mengekstrak ciri serantau melalui Penjajaran RoI. Pendekatan ini tidak mempunyai keupayaan penyesuaian resolusi dalam sistem kognitif visual manusia, dan mempunyai kecekapan pengekodan yang rendah dan keupayaan untuk bidang yang diminati. Untuk mencapai pemahaman pelbagai mod peringkat serantau ketepatan tinggi, kami mencadangkan skema resolusi dinamik untuk mensimulasikan sistem kognitif visual manusia, seperti yang ditunjukkan dalam rajah di bawah. 区 Rajah 1: Perbandingan kaedah multi-modal serantau tradisional (kiri) dan kaedah Dynrefer (kanan).
1. Simulasikan imej resolusi dinamik (Pembinaan berbilang paparan). Memandangkan model bahasa visual pra-latihan arus perdana (CLIP) hanya boleh menerima input resolusi seragam, kami mensimulasikan imej resolusi dinamik dengan membina berbilang paparan resolusi seragam. Imej mempunyai resolusi tinggi dalam kawasan rujukan dan resolusi rendah dalam kawasan bukan rujukan. Proses khusus ditunjukkan dalam Rajah 2. Imej asal x dipangkas dan diubah saiz menjadi berbilang paparan calon. Kawasan tanaman dikira sebagai
, di mana . Di sini mewakili kotak sempadan kawasan rujukan, mewakili saiz keseluruhan imej, dan t mewakili pekali interpolasi. Semasa latihan, kami memilih n paparan secara rawak daripada paparan calon untuk mensimulasikan imej yang dijana disebabkan oleh pandangan dan pergerakan mata yang pantas. N pandangan ini sepadan dengan pekali interpolasi t, iaitu . Kami mengekalkan paparan yang mengandungi hanya kawasan rujukan (iaitu ). Pandangan ini telah terbukti secara eksperimen untuk membantu mengekalkan butiran serantau, yang penting untuk semua tugasan pelbagai mod serantau. Rajah 2: Latihan DynRefer (atas) dan inferens (bawah). 2. Proses khusus ditunjukkan dalam Rajah 3. Paparan n sampel dikodkan ke dalam ciri spatial melalui CLIP beku dan kemudian diproses oleh modul RoI-Align untuk mendapatkan benam wilayah, iaitu, . Ini ditunjukkan di sebelah kiri Rajah 3. Pembenaman rantau ini tidak dijajarkan secara spatial disebabkan oleh ralat spatial yang diperkenalkan oleh pemangkasan, saiz semula dan Penjajaran RoI. Diilhamkan oleh operasi lilitan boleh ubah bentuk, kami mencadangkan modul penjajaran untuk mengurangkan bias dengan menjajarkan ke , dengan ialah pembenaman rantau pengekodan paparan yang mengandungi hanya rantau rujukan. Untuk setiap pembenaman rantau , ia mula-mula digabungkan dengan dan kemudian peta mengimbangi 2D dikira melalui lapisan konvolusi. Ciri spatial kemudiannya disampel semula berdasarkan offset 2D. Akhir sekali, benam kawasan yang dijajarkan disatukan di sepanjang dimensi saluran dan digabungkan melalui lapisan linear. Output dimampatkan lagi melalui modul pensampelan semula visual, iaitu Q-bekas, dengan itu mengekstrak perwakilan serantau bagi rantau rujukan imej asal x ( dalam Rajah 3).
Perwakilan rantau yang dikira oleh modul benam berbilang paparan stokastik dinyahkod oleh tiga penyahkod seperti ditunjukkan dalam Rajah 3 (kanan), masing-masing diselia oleh tiga tugas berbilang modal:
) generasi. Kami menggunakan penyahkod pengecaman berasaskan pertanyaan yang ringan untuk penjanaan label rantau. Penyahkod ditunjukkan dalam Rajah 3 (kanan). Proses penandaan dilengkapkan dengan mengira keyakinan teg yang dipratentukan menggunakan teg sebagai pertanyaan, sebagai kunci dan nilai. Kami menghuraikan label daripada sari kata dasar untuk mengawasi penyahkod pengecaman. ii) Pembelajaran kontrastif teks wilayah. Sama seperti penyahkod teg rantau, penyahkod
ditakrifkan sebagai penyahkod pengecaman berasaskan pertanyaan. Penyahkod mengira skor persamaan antara sari kata dan ciri rantau, diselia menggunakan kehilangan SigLIP. iii) Permodelan bahasa. Kami menggunakan model bahasa besar yang telah dilatih untuk menukar perwakilan wilayah
kepada huraian bahasa. Rajah 4: Prestasi model dwi-pandangan (n=2) DynRefer pada tugasan pelbagai mod peringkat rantau. Di bawah pekali interpolasi yang berbeza t, . Paparan satu ditetapkan (), paparan dua dipilih atau ditetapkan secara rawak. 4 Semasa proses inferens, model DynRefer terlatih melaksanakan tugas berbilang modal pada imej dengan resolusi dinamik. Dengan melaraskan pekali interpolasi daripada sampel n pandangan, kita boleh mendapatkan perwakilan serantau dengan ciri resolusi dinamik. Untuk menilai sifat pada resolusi dinamik yang berbeza, kami melatih model DynRefer dwi-pandangan (n=2) dan menilainya pada empat tugas berbilang modal. Seperti yang dapat dilihat daripada lengkung dalam Rajah 4, pengesanan atribut mencapai hasil yang lebih baik untuk paparan tanpa maklumat kontekstual (). Ini boleh dijelaskan oleh fakta bahawa tugas sedemikian sering memerlukan maklumat serantau yang terperinci. Untuk tugasan kapsyen peringkat Wilayah dan Kapsyen padat, paparan kaya konteks () diperlukan untuk memahami sepenuhnya kawasan rujukan. Adalah penting untuk ambil perhatian bahawa pandangan dengan terlalu banyak konteks () merendahkan prestasi pada semua tugasan kerana ia memperkenalkan terlalu banyak maklumat yang tidak berkaitan wilayah. Apabila jenis tugasan diketahui, kita boleh mencuba pandangan yang sesuai berdasarkan ciri tugasan. Apabila jenis tugasan tidak diketahui, kami mula-mula membina satu set pandangan calon di bawah pekali interpolasi yang berbeza t, . Daripada set calon, n paparan diambil melalui algoritma carian tamak. Fungsi objektif carian ditakrifkan sebagai: di mana mewakili pekali interpolasi bagi pandangan ke-i, mewakili pandangan ke-i, pHASH (・) mewakili fungsi cincang imej persepsi dan mewakili XOR operasi. Untuk membandingkan maklumat pandangan daripada perspektif global, kami menggunakan fungsi "pHASH (・)" untuk menukar paparan daripada domain spatial kepada domain kekerapan dan kemudian mengekodnya ke dalam kod cincang. Untuk item ini , kami mengurangkan berat paparan kaya konteks untuk mengelakkan daripada memperkenalkan terlalu banyak maklumat berlebihan.
dalam tugas subtitle regional, Dynrefer menggunakan model yang lebih kecil (4.2b vs 7B) pada kedua-dua dataset Refcocog dan VG Penunjuk METEOR dan CIDEr, ia dengan ketara mengatasi banyak kaedah dalam CVPR 2024, seperti RegionGPT, GlaMM, Alpha-CLIP dan Osprey, dsb., menunjukkan kelebihan prestasi besar DynRefer.
Dalam tugas penjanaan sari kata yang padat, dalam set data VG1.2, DynRefer meningkatkan 7.1% mAP berbanding kaedah SOTA GRiT sebelumnya. Pengesanan Atribut Perbendaharaan Kata Terbuka
Dalam tugas pengesanan atribut serantau, DynRefer juga mencapai prestasi SOTA. Pengiktirafan Wilayah Perbendaharaan Kata Terbuka
Dalam tugasan pengiktirafan wilayah, DynRefer meningkatkan 15% mAP dan 8.8% Ketepatan 125GPT dan 8.8% CVSM berbanding dengan Region 5GPT dan 2% CVSM .
- Baris 1-6: Berbilang paparan dinamik rawak adalah lebih baik daripada paparan tetap.
- Baris 6-10: Lihat pilihan dengan memaksimumkan maklumat adalah lebih baik daripada memilih paparan secara rawak.
- Baris 10-13: Latihan pelbagai tugas boleh mempelajari perwakilan wilayah yang lebih baik. .
Atas ialah kandungan terperinci Melangkaui kaedah CVPR 2024, DynRefer mencapai berbilang SOTA dalam tugas pengecaman pelbagai mod peringkat serantau. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!
Kenyataan:Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn