CVPR 2024 |. Pandai memproses adegan kompleks dan ekspresi bahasa, Tsinghua & Bosch mencadangkan seni bina rangkaian pembahagian contoh baharu-AI-php.cn

CVPR 2024 |. Pandai memproses adegan kompleks dan ekspresi bahasa, Tsinghua & Bosch mencadangkan seni bina rangkaian pembahagian contoh baharu

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 26, 2024 pm 06:10 PM

projekpembahagian rujukan

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.

Merujuk Segmentasi Imej (RIS) ialah tugas pelbagai mod yang sangat mencabar, yang memerlukan algoritma untuk dapat memahami bahasa manusia halus dan maklumat imej visual pada masa yang sama, dan untuk mengklasifikasikan ayat dalam imej objek yang dirujuk dibahagikan pada tahap piksel. Kejayaan dalam teknologi RIS dijangka membawa perubahan revolusioner dalam banyak bidang seperti interaksi manusia-komputer, penyuntingan imej dan pemanduan autonomi. Ia boleh meningkatkan kecekapan dan pengalaman kerjasama manusia-mesin. Walaupun algoritma RIS terkini yang terkini telah mencapai kemajuan yang ketara, ia masih menghadapi masalah jurang modaliti, iaitu pengedaran ciri imej dan teks tidak sejajar sepenuhnya. Masalah ini amat meruncing apabila berurusan dengan ungkapan bahasa rujukan yang kompleks dan konteks yang jarang berlaku.

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

^{Rajah 1: Gambar rajah skema tentang kepentingan keupayaan penjajaran imej bahasa yang terperinci kepada RIS. Topeng merah ialah hasil ramalan LAVT, salah satu algoritma RIS yang paling maju pada masa ini, manakala kotak bertitik kuning ialah anotasi yang betul.}

Penyelidikan RIS semasa tertumpu terutamanya pada mereka bentuk fungsi kehilangan novel atau memperkenalkan seni bina/modul rangkaian yang inovatif untuk meningkatkan penjajaran pengedaran imej bahasa. Walaupun terdapat kemajuan yang ketara, masih terdapat dua isu asas yang membawa kepada ketidakcukupan mereka dalam asas visual yang terperinci:

1 Kaedah ini bergantung terutamanya pada tahap ayat Ciri bahasa melakukan penjajaran imej-bahasa, mengakibatkan kelemahannya keupayaan penjajaran imej-bahasa pada peringkat teks.

2 Kaedah ini sering kekurangan isyarat penyeliaan yang jelas semasa proses latihan dan tidak dapat mengajar model dengan berkesan untuk melakukan penjajaran halus, mengakibatkan prestasinya yang lemah dalam memproses bahasa rujukan yang kompleks.法 Rajah 2: Kelemahan algoritma yang sedia ada

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

^{Dalam kerja CVPR 2024 baru-baru ini, pasukan penyelidik bersama dari Jabatan Automasi Universiti Tsinghua dan Institut Penyelidikan Pusat Bosch mereka bentuk baru The Auxiliary Task Mask Grounding . Tugas ini bertujuan untuk mengajar model secara eksplisit untuk mempelajari korespondensi terperinci antara teks dan objek visual dengan menutup bahagian perkataan teks secara rawak dan membiarkan algoritma belajar untuk meramalkan identiti sebenar mereka. Di samping itu, mereka juga mencadangkan Modul Penjajaran rentas mod baru dan fungsi kehilangan penjajaran rentas mod (Kehilangan Penjajaran Cross-modal) untuk mengurangkan lagi jurang mod antara bahasa dan imej secara menyeluruh. Berdasarkan teknologi ini, mereka mereka bentuk seni bina rangkaian pembahagian contoh baharu Rangkaian Berasaskan Topeng (MagNet).}

Tajuk kertas: Mask Grounding untuk Merujuk Pembahagian Imej

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

Alamat kertas: https://arxiv.org/abs/2312.12198

COCO + dan G-Ref On set data, MagNet dengan ketara mengatasi semua algoritma optimum sebelumnya, meningkatkan dengan ketara penunjuk teras nisbah persilangan-lebih-kesatuan (oIoU) dengan ketara sebanyak 2.48 mata peratusan. Hasil visualisasi juga mengesahkan bahawa MagNet mempunyai prestasi cemerlang dalam memproses adegan kompleks dan ungkapan bahasa.

MagNet terdiri daripada 3 modul bebas dan pelengkap, iaitu Mask Grounding, Cross-Modal Alignment Module dan Cross-Modal Alignment Module

1.Pembukaan Topeng

^… Seperti yang ditunjukkan dalam Rajah 3, memandangkan imej input, ungkapan rujukan yang sepadan dan topeng segmentasi, pengarang secara rawak memilih beberapa perbendaharaan kata ayat dan menggantikannya dengan token topeng khas yang boleh dipelajari. Model tersebut kemudiannya dilatih untuk meramalkan identiti sebenar perkataan yang diganti ini. Dengan berjaya meramalkan identiti token bertopeng, model ini dapat memahami perkataan dalam teks yang sepadan dengan bahagian imej yang mana, mempelajari keupayaan penjajaran imej-bahasa yang halus dalam proses itu. Untuk melaksanakan tugas tambahan ini, koordinat tengah kawasan topeng mula-mula diekstrak dan dihantar ke MLP 2 lapisan untuk mengekodkan ciri topeng segmentasi. Pada masa yang sama, lapisan linear digunakan untuk memetakan ciri bahasa kepada dimensi yang sama dengan ciri imej. Kemudian, ciri ini diproses bersama menggunakan peramal token topeng yang dicadangkan, dan modul mekanisme perhatian digunakan untuk ramalan token topeng. Walaupun Mask Grounding memerlukan laluan hadapan tambahan melalui pengekod bahasa untuk memproses ungkapan bertopeng, kos pengiraan keseluruhan hampir boleh diabaikan kerana pengekod bahasa adalah sangat kecil. Cross-modal Alignment Module (CAM)

Seperti yang ditunjukkan dalam Rajah 4, untuk meningkatkan lagi prestasi Model, penulis juga mencadangkan modul penjajaran silang mod (CAM) untuk meningkatkan kesan penjajaran imej bahasa dengan menyuntik konteks global sebelum ke dalam ciri imej sebelum melakukan gabungan imej bahasa. CAM mula-mula menjana peta ciri K bagi skala piramid yang berbeza menggunakan operasi pengumpulan dengan saiz tetingkap yang berbeza. Kemudian, setiap peta ciri dilalui melalui MLP 3 lapisan untuk mengekstrak maklumat global dengan lebih baik dan melakukan operasi merentas perhatian dengan modaliti lain. Seterusnya, semua ciri output ditambah sampel kepada saiz peta ciri asal dengan interpolasi dwilinear dan digabungkan dalam dimensi saluran. Selepas itu, MLP 2 lapisan digunakan untuk mengurangkan bilangan saluran ciri bercantum kembali kepada dimensi asal. Untuk mengelakkan isyarat multimodal daripada mengatasi isyarat asal, unit berpagar dengan ketaklinearan Tanh digunakan untuk memodulasi keluaran akhir. Akhir sekali, ciri berpagar ini ditambah semula pada ciri input dan dihantar ke peringkat seterusnya bagi pengekod imej atau bahasa. Dalam pelaksanaan pengarang, CAM ditambah pada akhir setiap peringkat pengekod imej dan bahasa.

3.Cross-modal Alignment Loss (CAL)

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

formula

Untuk menyelia model agar menyelaraskan ciri bahasa dan imej, pengarang A fungsi kehilangan penjajaran rentas modal baru (CAL) dicadangkan. Rajah 5 menunjukkan formula matematik bagi fungsi kehilangan ini. Tidak seperti kerja sebelumnya, CAL mempertimbangkan kedua-dua penjajaran piksel-ke-Pixel (P2P) dan piksel-ke-teks (P2T). Penjajaran piksel ke piksel yang tepat memastikan model boleh membahagikan dan mengeluarkan topeng segmentasi dengan bentuk dan sempadan yang tepat, manakala penjajaran piksel ke teks yang tepat membolehkan model mengaitkan perihalan teks dengan betul dengan kawasan imej yang dipadankan.

Eksperimen

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

^{Dalam Jadual 1, pengarang menggunakan metrik oIoU untuk menilai MagNet dan membandingkan prestasinya dengan algoritma terkini yang sedia ada. Data ujian ialah RefCOCO, RefCOCO + dan G-Ref. Dalam kedua-dua tetapan set data tunggal dan berbilang/tambahan, prestasi MagNet adalah SOTA pada set data ini.}

Jadual 1: Hasil eksperimen 视 Hasil visualisasi

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

Rajah 6: Hasil visualisasi magnet

Dalam Rajah 6, kita dapat melihat bahawa visualisasi magnet hasilnya juga luar biasa , mengatasi prestasi LAVT asas dalam banyak senario yang sukar.

Ringkasan

Artikel ini mengupas cabaran dan isu semasa dalam bidang segmentasi rujukan (RIS), terutamanya kelemahan dalam penjajaran imej bahasa yang halus. Sebagai tindak balas kepada masalah ini, penyelidik dari Universiti Tsinghua dan Institut Penyelidikan Pusat Bosch mencadangkan kaedah baharu yang dipanggil MagNet, yang mempertingkatkan bahasa secara menyeluruh dengan memperkenalkan Mask Grounding tugas tambahan, modul penjajaran silang modal dan fungsi kehilangan penjajaran silang modal kesan penjajaran antara imej. Eksperimen membuktikan bahawa MagNet mencapai prestasi yang jauh lebih baik pada set data RefCOCO, RefCOCO+ dan G-Ref, mengatasi algoritma terkini yang terkini dan menunjukkan keupayaan generalisasi yang kukuh. Hasil visualisasi juga mengesahkan keunggulan MagNet dalam memproses adegan kompleks dan ungkapan bahasa. Penyelidikan ini memberikan inspirasi yang berguna untuk pembangunan selanjutnya dalam bidang pembahagian rujukan dan dijangka akan menggalakkan kejayaan yang lebih besar dalam bidang ini.

Pengenalan pasukan

Kertas kerja ini datang dari Jabatan Automasi Universiti Tsinghua (https://www.au.tsinghua.edu.cn) dan Institut Penyelidikan Pusat Bosch (https:// www.bosch .com/research/). Salah seorang pengarang pertama kertas kerja itu, Zhuang Rongxian, ialah pelajar kedoktoran di Universiti Tsinghua dan merupakan seorang pelatih di Bosch Academia Sinica, ketua projek ialah Dr. Qiu Xuchong, seorang saintis R&D kanan di Bosch Academia Sinica; Profesor Huang Gao dari Jabatan Automasi, Universiti Tsinghua.

Atas ialah kandungan terperinci CVPR 2024 |. Pandai memproses adegan kompleks dan ekspresi bahasa, Tsinghua & Bosch mencadangkan seni bina rangkaian pembahagian contoh baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:机器之心. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Carta 10 kuasa bi yang paling banyak digunakan - Analytics VidhyaApr 16, 2025 pm 12:05 PM

Memanfaatkan kekuatan visualisasi data dengan carta Microsoft Power BI Dalam dunia yang didorong oleh data hari ini, dengan berkesan menyampaikan maklumat yang rumit kepada penonton bukan teknikal adalah penting. Visualisasi data jambatan jurang ini, mengubah data mentah i

Sistem Pakar di AIApr 16, 2025 pm 12:00 PM

Sistem Pakar: menyelam yang mendalam ke dalam kuasa membuat keputusan AI Bayangkan mempunyai akses kepada nasihat pakar mengenai apa -apa, dari diagnosis perubatan kepada perancangan kewangan. Itulah kuasa sistem pakar dalam kecerdasan buatan. Sistem ini meniru pro

Tiga coder getaran terbaik memecahkan revolusi AI ini dalam kodApr 16, 2025 am 11:58 AM

Pertama sekali, jelas bahawa ini berlaku dengan cepat. Pelbagai syarikat bercakap mengenai perkadaran kod mereka yang kini ditulis oleh AI, dan ini semakin meningkat pada klip pesat. Terdapat banyak anjakan pekerjaan

Runway AI's Gen-4: Bagaimanakah montaj AI boleh melampaui kebodohanApr 16, 2025 am 11:45 AM

Industri filem, bersama semua sektor kreatif, dari pemasaran digital ke media sosial, berdiri di persimpangan teknologi. Sebagai kecerdasan buatan mula membentuk semula setiap aspek bercerita visual dan mengubah landskap hiburan

Bagaimana untuk mendaftar selama 5 hari kursus percuma ISRO AI? - Analytics VidhyaApr 16, 2025 am 11:43 AM

Kursus Online AI/ML percuma ISRO: Gerbang ke Inovasi Teknologi Geospatial Pertubuhan Penyelidikan Angkasa India (ISRO), melalui Institut Pengesan Jauh India (IIRS), menawarkan peluang yang hebat untuk pelajar dan profesional

Algoritma Carian Tempatan di AIApr 16, 2025 am 11:40 AM

Algoritma Carian Tempatan: Panduan Komprehensif Merancang acara berskala besar memerlukan pengagihan beban kerja yang cekap. Apabila pendekatan tradisional gagal, algoritma carian tempatan menawarkan penyelesaian yang kuat. Artikel ini meneroka pendakian bukit dan simul

Terbuka beralih fokus dengan GPT-4.1, mengutamakan pengekodan dan kecekapan kosApr 16, 2025 am 11:37 AM

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Prompt: CHATGPT menjana pasport palsuApr 16, 2025 am 11:35 AM

Gergasi Chip Nvidia berkata pada hari Isnin ia akan memulakan pembuatan superkomputer AI - mesin yang boleh memproses sejumlah besar data dan menjalankan algoritma kompleks - sepenuhnya dalam A.S. untuk kali pertama. Pengumuman itu datang selepas Presiden Trump Si

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Arahan sembang dan cara menggunakannya

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.