Rumah  >  Artikel  >  Peranti teknologi  >  Melangkaui kaedah CVPR 2024, DynRefer mencapai berbilang SOTA dalam tugas pengecaman pelbagai mod peringkat serantau

Melangkaui kaedah CVPR 2024, DynRefer mencapai berbilang SOTA dalam tugas pengecaman pelbagai mod peringkat serantau

WBOY
WBOYasal
2024-06-20 20:31:51542semak imbas

Untuk mencapai pemahaman multi-modal peringkat serantau ketepatan tinggi, kertas kerja ini mencadangkan skema resolusi dinamik untuk mensimulasikan sistem kognitif visual manusia.

Pengarang artikel ini adalah daripada Makmal LAMP Akademi Sains Universiti Cina Pengarang pertama Zhao Yuzhong ialah pelajar kedoktoran Universiti Akademi Sains Cina pada tahun 2023, dan pengarang bersama Liu. Feng ialah pelajar kedoktoran langsung Universiti Akademi Sains Cina pada tahun 2020. Arah penyelidikan utama mereka ialah model bahasa visual dan persepsi objek visual.

Pengenalan

DynRefer meningkatkan dengan ketara keupayaan pengecaman pelbagai mod peringkat serantau dengan mensimulasikan proses kognitif visual manusia. Dengan memperkenalkan mekanisme resolusi dinamik mata manusia, DynRefer boleh menyelesaikan secara serentak tugas-tugas pengecaman wilayah, pengesanan atribut wilayah dan kapsyen peringkat wilayah dengan model tunggal dan mencapai prestasi SOTA dalam semua tugas di atas. Antaranya, 115.7 CIDEr telah dicapai pada tugasan kapsyen peringkat rantau bagi set data RefCOCOg, yang jauh lebih tinggi daripada kaedah CVPR 2024 seperti RegionGPT, GlaMM, Osprey, Alpha-CLIP dan sebagainya.

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

  • Tajuk kertas: DynRefer: Menyelidiki Tugasan Pelbagai Modaliti peringkat Wilayah melalui Resolusi Dinamik
  • Pautan kertas: https://arxiv.org/abs/2401
  • https://arxiv.org/abs/071
  • https://kod. ://github.com/callsys/DynRefer

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Motivation

Tugas multimodal peringkat rantau dikhaskan untuk menukar perihalan kawasan imej preference manusia yang konsisten kepada bahasa yang ditetapkan. Manusia mempunyai keupayaan penyesuaian resolusi apabila menyelesaikan tugas multi-modal peringkat wilayah, iaitu kawasan yang diminati adalah resolusi tinggi dan kawasan yang tidak diberi perhatian adalah resolusi rendah. Walau bagaimanapun, model bahasa besar berbilang mod peringkat wilayah semasa sering menggunakan skema pengekodan resolusi tetap, iaitu, pengekodan keseluruhan imej, dan kemudian mengekstrak ciri serantau melalui Penjajaran RoI. Pendekatan ini tidak mempunyai keupayaan penyesuaian resolusi dalam sistem kognitif visual manusia, dan mempunyai kecekapan pengekodan yang rendah dan keupayaan untuk bidang yang diminati. Untuk mencapai pemahaman pelbagai mod peringkat serantau ketepatan tinggi, kami mencadangkan skema resolusi dinamik untuk mensimulasikan sistem kognitif visual manusia, seperti yang ditunjukkan dalam rajah di bawah.

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

区 Rajah 1: Perbandingan kaedah multi-modal serantau tradisional (kiri) dan kaedah Dynrefer (kanan).

Kaedah

1. Simulasikan imej resolusi dinamik (Pembinaan berbilang paparan).
Memandangkan model bahasa visual pra-latihan arus perdana (CLIP) hanya boleh menerima input resolusi seragam, kami mensimulasikan imej resolusi dinamik dengan membina berbilang paparan resolusi seragam. Imej mempunyai resolusi tinggi dalam kawasan rujukan dan resolusi rendah dalam kawasan bukan rujukan. Proses khusus ditunjukkan dalam Rajah 2. Imej asal x dipangkas dan diubah saiz menjadi berbilang paparan calon. Kawasan tanaman dikira sebagai
, di mana . Di sini mewakili kotak sempadan kawasan rujukan, 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA mewakili saiz keseluruhan imej, dan t mewakili pekali interpolasi. Semasa latihan, kami memilih n paparan secara rawak daripada paparan calon untuk mensimulasikan imej yang dijana disebabkan oleh pandangan dan pergerakan mata yang pantas. N pandangan ini sepadan dengan pekali interpolasi t, iaitu 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA. Kami mengekalkan paparan yang mengandungi hanya kawasan rujukan (iaitu 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA). Pandangan ini telah terbukti secara eksperimen untuk membantu mengekalkan butiran serantau, yang penting untuk semua tugasan pelbagai mod serantau. 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
                                          Rajah 2: Latihan DynRefer (atas) dan inferens (bawah).

2. Proses khusus ditunjukkan dalam Rajah 3. Paparan n sampel dikodkan ke dalam ciri spatial melalui CLIP beku dan kemudian diproses oleh modul RoI-Align untuk mendapatkan benam wilayah, iaitu, 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA. Ini ditunjukkan di sebelah kiri Rajah 3. Pembenaman rantau ini tidak dijajarkan secara spatial disebabkan oleh ralat spatial yang diperkenalkan oleh pemangkasan, saiz semula dan Penjajaran RoI. Diilhamkan oleh operasi lilitan boleh ubah bentuk, kami mencadangkan modul penjajaran untuk mengurangkan bias dengan menjajarkan 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA ke 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA, dengan Melangkaui kaedah CVPR 2024, DynRefer mencapai berbilang SOTA dalam tugas pengecaman pelbagai mod peringkat serantau ialah pembenaman rantau pengekodan paparan yang mengandungi hanya rantau rujukan. Untuk setiap pembenaman rantau 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA, ia mula-mula digabungkan dengan 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA dan kemudian peta mengimbangi 2D dikira melalui lapisan konvolusi. Ciri spatial 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA kemudiannya disampel semula berdasarkan offset 2D. Akhir sekali, benam kawasan yang dijajarkan disatukan di sepanjang dimensi saluran dan digabungkan melalui lapisan linear. Output dimampatkan lagi melalui modul pensampelan semula visual, iaitu Q-bekas, dengan itu mengekstrak perwakilan serantau bagi rantau rujukan 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA imej asal x (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA dalam Rajah 3).

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

                                                                                                                                                                                                                                                                                                                                                           Perwakilan rantau yang dikira oleh modul benam berbilang paparan stokastik dinyahkod oleh tiga penyahkod
seperti ditunjukkan dalam Rajah 3 (kanan), masing-masing diselia oleh tiga tugas berbilang modal:

)超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA generasi. Kami menggunakan penyahkod pengecaman berasaskan pertanyaan yang ringan untuk penjanaan label rantau. Penyahkod 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA ditunjukkan dalam Rajah 3 (kanan). Proses penandaan dilengkapkan dengan mengira keyakinan teg yang dipratentukan menggunakan teg sebagai pertanyaan,
sebagai kunci dan nilai. Kami menghuraikan label daripada sari kata dasar untuk mengawasi penyahkod pengecaman. ii) Pembelajaran kontrastif teks wilayah. Sama seperti penyahkod teg rantau, penyahkod
ditakrifkan sebagai penyahkod pengecaman berasaskan pertanyaan. Penyahkod mengira skor persamaan antara sari kata dan ciri rantau, diselia menggunakan kehilangan SigLIP. iii) Permodelan bahasa. Kami menggunakan model bahasa besar yang telah dilatih untuk menukar perwakilan wilayah
kepada huraian bahasa.
超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
Rajah 4: Prestasi model dwi-pandangan (n=2) DynRefer pada tugasan pelbagai mod peringkat rantau. Di bawah pekali interpolasi yang berbeza t, 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA. Paparan satu ditetapkan (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA), paparan dua dipilih atau ditetapkan secara rawak.

4 Semasa proses inferens, model DynRefer terlatih melaksanakan tugas berbilang modal pada imej dengan resolusi dinamik. Dengan melaraskan pekali interpolasi 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA daripada sampel n pandangan, kita boleh mendapatkan perwakilan serantau dengan ciri resolusi dinamik. Untuk menilai sifat pada resolusi dinamik yang berbeza, kami melatih model DynRefer dwi-pandangan (n=2) dan menilainya pada empat tugas berbilang modal. Seperti yang dapat dilihat daripada lengkung dalam Rajah 4, pengesanan atribut mencapai hasil yang lebih baik untuk paparan tanpa maklumat kontekstual (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA). Ini boleh dijelaskan oleh fakta bahawa tugas sedemikian sering memerlukan maklumat serantau yang terperinci. Untuk tugasan kapsyen peringkat Wilayah dan Kapsyen padat, paparan kaya konteks (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) diperlukan untuk memahami sepenuhnya kawasan rujukan. Adalah penting untuk ambil perhatian bahawa pandangan dengan terlalu banyak konteks (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) merendahkan prestasi pada semua tugasan kerana ia memperkenalkan terlalu banyak maklumat yang tidak berkaitan wilayah. Apabila jenis tugasan diketahui, kita boleh mencuba pandangan yang sesuai berdasarkan ciri tugasan. Apabila jenis tugasan tidak diketahui, kami mula-mula membina satu set pandangan calon di bawah pekali interpolasi yang berbeza t, 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA. Daripada set calon, n paparan diambil melalui algoritma carian tamak. Fungsi objektif carian ditakrifkan sebagai:

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTAdi mana 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA mewakili pekali interpolasi bagi pandangan ke-i, 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA mewakili pandangan ke-i, pHASH (・) mewakili fungsi cincang imej persepsi dan 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA mewakili XOR operasi. Untuk membandingkan maklumat pandangan daripada perspektif global, kami menggunakan fungsi "pHASH (・)" untuk menukar paparan daripada domain spatial kepada domain kekerapan dan kemudian mengekodnya ke dalam kod cincang. Untuk item ini 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA, kami mengurangkan berat paparan kaya konteks untuk mengelakkan daripada memperkenalkan terlalu banyak maklumat berlebihan.

Experiment

Region Level Captioning

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

dalam tugas subtitle regional, Dynrefer menggunakan model yang lebih kecil (4.2b vs 7B) pada kedua-dua dataset Refcocog dan VG Penunjuk METEOR dan CIDEr, ia dengan ketara mengatasi banyak kaedah dalam CVPR 2024, seperti RegionGPT, GlaMM, Alpha-CLIP dan Osprey, dsb., menunjukkan kelebihan prestasi besar DynRefer.

Kapsyen Padat

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Dalam tugas penjanaan sari kata yang padat, dalam set data VG1.2, DynRefer meningkatkan 7.1% mAP berbanding kaedah SOTA GRiT sebelumnya.

Pengesanan Atribut Perbendaharaan Kata Terbuka

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Dalam tugas pengesanan atribut serantau, DynRefer juga mencapai prestasi SOTA.

Pengiktirafan Wilayah Perbendaharaan Kata Terbuka

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Dalam tugasan pengiktirafan wilayah, DynRefer meningkatkan 15% mAP dan 8.8% Ketepatan 125GPT dan 8.8% CVSM berbanding dengan Region 5GPT dan 2% CVSM .

Percubaan Ablasi

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

  • Baris 1-6: Berbilang paparan dinamik rawak adalah lebih baik daripada paparan tetap.
  • Baris 6-10: Lihat pilihan dengan memaksimumkan maklumat adalah lebih baik daripada memilih paparan secara rawak.
  • Baris 10-13: Latihan pelbagai tugas boleh mempelajari perwakilan wilayah yang lebih baik. .

Atas ialah kandungan terperinci Melangkaui kaedah CVPR 2024, DynRefer mencapai berbilang SOTA dalam tugas pengecaman pelbagai mod peringkat serantau. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn