Rumah >Peranti teknologi >AI >CVPR 2024 |. Pandai memproses adegan kompleks dan ekspresi bahasa, Tsinghua & Bosch mencadangkan seni bina rangkaian pembahagian contoh baharu

CVPR 2024 |. Pandai memproses adegan kompleks dan ekspresi bahasa, Tsinghua & Bosch mencadangkan seni bina rangkaian pembahagian contoh baharu

WBOY
WBOYke hadapan
2024-04-26 18:10:01751semak imbas

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.

Merujuk Segmentasi Imej (RIS) ialah tugas pelbagai mod yang sangat mencabar, yang memerlukan algoritma untuk dapat memahami bahasa manusia halus dan maklumat imej visual pada masa yang sama, dan untuk mengklasifikasikan ayat dalam imej objek yang dirujuk dibahagikan pada tahap piksel. Kejayaan dalam teknologi RIS dijangka membawa perubahan revolusioner dalam banyak bidang seperti interaksi manusia-komputer, penyuntingan imej dan pemanduan autonomi. Ia boleh meningkatkan kecekapan dan pengalaman kerjasama manusia-mesin. Walaupun algoritma RIS terkini yang terkini telah mencapai kemajuan yang ketara, ia masih menghadapi masalah jurang modaliti, iaitu pengedaran ciri imej dan teks tidak sejajar sepenuhnya. Masalah ini amat meruncing apabila berurusan dengan ungkapan bahasa rujukan yang kompleks dan konteks yang jarang berlaku.

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

Rajah 1: Gambar rajah skema tentang kepentingan keupayaan penjajaran imej bahasa yang terperinci kepada RIS. Topeng merah ialah hasil ramalan LAVT, salah satu algoritma RIS yang paling maju pada masa ini, manakala kotak bertitik kuning ialah anotasi yang betul.

Penyelidikan RIS semasa tertumpu terutamanya pada mereka bentuk fungsi kehilangan novel atau memperkenalkan seni bina/modul rangkaian yang inovatif untuk meningkatkan penjajaran pengedaran imej bahasa. Walaupun terdapat kemajuan yang ketara, masih terdapat dua isu asas yang membawa kepada ketidakcukupan mereka dalam asas visual yang terperinci:

1 Kaedah ini bergantung terutamanya pada tahap ayat Ciri bahasa melakukan penjajaran imej-bahasa, mengakibatkan kelemahannya keupayaan penjajaran imej-bahasa pada peringkat teks.
2 Kaedah ini sering kekurangan isyarat penyeliaan yang jelas semasa proses latihan dan tidak dapat mengajar model dengan berkesan untuk melakukan penjajaran halus, mengakibatkan prestasinya yang lemah dalam memproses bahasa rujukan yang kompleks.法 Rajah 2: Kelemahan algoritma yang sedia ada

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

Dalam kerja CVPR 2024 baru-baru ini, pasukan penyelidik bersama dari Jabatan Automasi Universiti Tsinghua dan Institut Penyelidikan Pusat Bosch mereka bentuk baru The Auxiliary Task Mask Grounding . Tugas ini bertujuan untuk mengajar model secara eksplisit untuk mempelajari korespondensi terperinci antara teks dan objek visual dengan menutup bahagian perkataan teks secara rawak dan membiarkan algoritma belajar untuk meramalkan identiti sebenar mereka. Di samping itu, mereka juga mencadangkan Modul Penjajaran rentas mod baru dan fungsi kehilangan penjajaran rentas mod (Kehilangan Penjajaran Cross-modal) untuk mengurangkan lagi jurang mod antara bahasa dan imej secara menyeluruh. Berdasarkan teknologi ini, mereka mereka bentuk seni bina rangkaian pembahagian contoh baharu Rangkaian Berasaskan Topeng (MagNet).

Tajuk kertas: Mask Grounding untuk Merujuk Pembahagian Imej

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

Alamat kertas: https://arxiv.org/abs/2312.12198
  • COCO + dan G-Ref On set data, MagNet dengan ketara mengatasi semua algoritma optimum sebelumnya, meningkatkan dengan ketara penunjuk teras nisbah persilangan-lebih-kesatuan (oIoU) dengan ketara sebanyak 2.48 mata peratusan. Hasil visualisasi juga mengesahkan bahawa MagNet mempunyai prestasi cemerlang dalam memproses adegan kompleks dan ungkapan bahasa.
  • Kaedah


MagNet terdiri daripada 3 modul bebas dan pelengkap, iaitu Mask Grounding, Cross-Modal Alignment Module dan Cross-Modal Alignment Module
1.Pembukaan Topeng
                                                                                                                                                                                                       … Seperti yang ditunjukkan dalam Rajah 3, memandangkan imej input, ungkapan rujukan yang sepadan dan topeng segmentasi, pengarang secara rawak memilih beberapa perbendaharaan kata ayat dan menggantikannya dengan token topeng khas yang boleh dipelajari. Model tersebut kemudiannya dilatih untuk meramalkan identiti sebenar perkataan yang diganti ini. Dengan berjaya meramalkan identiti token bertopeng, model ini dapat memahami perkataan dalam teks yang sepadan dengan bahagian imej yang mana, mempelajari keupayaan penjajaran imej-bahasa yang halus dalam proses itu. Untuk melaksanakan tugas tambahan ini, koordinat tengah kawasan topeng mula-mula diekstrak dan dihantar ke MLP 2 lapisan untuk mengekodkan ciri topeng segmentasi. Pada masa yang sama, lapisan linear digunakan untuk memetakan ciri bahasa kepada dimensi yang sama dengan ciri imej. Kemudian, ciri ini diproses bersama menggunakan peramal token topeng yang dicadangkan, dan modul mekanisme perhatian digunakan untuk ramalan token topeng. Walaupun Mask Grounding memerlukan laluan hadapan tambahan melalui pengekod bahasa untuk memproses ungkapan bertopeng, kos pengiraan keseluruhan hampir boleh diabaikan kerana pengekod bahasa adalah sangat kecil. Cross-modal Alignment Module (CAM)

Seperti yang ditunjukkan dalam Rajah 4, untuk meningkatkan lagi prestasi Model, penulis juga mencadangkan modul penjajaran silang mod (CAM) untuk meningkatkan kesan penjajaran imej bahasa dengan menyuntik konteks global sebelum ke dalam ciri imej sebelum melakukan gabungan imej bahasa. CAM mula-mula menjana peta ciri K bagi skala piramid yang berbeza menggunakan operasi pengumpulan dengan saiz tetingkap yang berbeza. Kemudian, setiap peta ciri dilalui melalui MLP 3 lapisan untuk mengekstrak maklumat global dengan lebih baik dan melakukan operasi merentas perhatian dengan modaliti lain. Seterusnya, semua ciri output ditambah sampel kepada saiz peta ciri asal dengan interpolasi dwilinear dan digabungkan dalam dimensi saluran. Selepas itu, MLP 2 lapisan digunakan untuk mengurangkan bilangan saluran ciri bercantum kembali kepada dimensi asal. Untuk mengelakkan isyarat multimodal daripada mengatasi isyarat asal, unit berpagar dengan ketaklinearan Tanh digunakan untuk memodulasi keluaran akhir. Akhir sekali, ciri berpagar ini ditambah semula pada ciri input dan dihantar ke peringkat seterusnya bagi pengekod imej atau bahasa. Dalam pelaksanaan pengarang, CAM ditambah pada akhir setiap peringkat pengekod imej dan bahasa.
3.Cross-modal Alignment Loss (CAL)

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

                                                                    formula

Untuk menyelia model agar menyelaraskan ciri bahasa dan imej, pengarang A fungsi kehilangan penjajaran rentas modal baru (CAL) dicadangkan. Rajah 5 menunjukkan formula matematik bagi fungsi kehilangan ini. Tidak seperti kerja sebelumnya, CAL mempertimbangkan kedua-dua penjajaran piksel-ke-Pixel (P2P) dan piksel-ke-teks (P2T). Penjajaran piksel ke piksel yang tepat memastikan model boleh membahagikan dan mengeluarkan topeng segmentasi dengan bentuk dan sempadan yang tepat, manakala penjajaran piksel ke teks yang tepat membolehkan model mengaitkan perihalan teks dengan betul dengan kawasan imej yang dipadankan.
Eksperimen

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

Dalam Jadual 1, pengarang menggunakan metrik oIoU untuk menilai MagNet dan membandingkan prestasinya dengan algoritma terkini yang sedia ada. Data ujian ialah RefCOCO, RefCOCO + dan G-Ref. Dalam kedua-dua tetapan set data tunggal dan berbilang/tambahan, prestasi MagNet adalah SOTA pada set data ini.

Jadual 1: Hasil eksperimen 视 Hasil visualisasi
CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
Rajah 6: Hasil visualisasi magnet
Dalam Rajah 6, kita dapat melihat bahawa visualisasi magnet hasilnya juga luar biasa , mengatasi prestasi LAVT asas dalam banyak senario yang sukar.

Ringkasan
Artikel ini mengupas cabaran dan isu semasa dalam bidang segmentasi rujukan (RIS), terutamanya kelemahan dalam penjajaran imej bahasa yang halus. Sebagai tindak balas kepada masalah ini, penyelidik dari Universiti Tsinghua dan Institut Penyelidikan Pusat Bosch mencadangkan kaedah baharu yang dipanggil MagNet, yang mempertingkatkan bahasa secara menyeluruh dengan memperkenalkan Mask Grounding tugas tambahan, modul penjajaran silang modal dan fungsi kehilangan penjajaran silang modal kesan penjajaran antara imej. Eksperimen membuktikan bahawa MagNet mencapai prestasi yang jauh lebih baik pada set data RefCOCO, RefCOCO+ dan G-Ref, mengatasi algoritma terkini yang terkini dan menunjukkan keupayaan generalisasi yang kukuh. Hasil visualisasi juga mengesahkan keunggulan MagNet dalam memproses adegan kompleks dan ungkapan bahasa. Penyelidikan ini memberikan inspirasi yang berguna untuk pembangunan selanjutnya dalam bidang pembahagian rujukan dan dijangka akan menggalakkan kejayaan yang lebih besar dalam bidang ini.

Pengenalan pasukan
Kertas kerja ini datang dari Jabatan Automasi Universiti Tsinghua (https://www.au.tsinghua.edu.cn) dan Institut Penyelidikan Pusat Bosch (https:// www.bosch .com/research/). Salah seorang pengarang pertama kertas kerja itu, Zhuang Rongxian, ialah pelajar kedoktoran di Universiti Tsinghua dan merupakan seorang pelatih di Bosch Academia Sinica, ketua projek ialah Dr. Qiu Xuchong, seorang saintis R&D kanan di Bosch Academia Sinica; Profesor Huang Gao dari Jabatan Automasi, Universiti Tsinghua.

Atas ialah kandungan terperinci CVPR 2024 |. Pandai memproses adegan kompleks dan ekspresi bahasa, Tsinghua & Bosch mencadangkan seni bina rangkaian pembahagian contoh baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam