Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Pengarang pertama artikel ini, An Zhaochong, sedang menuntut PhD di Universiti Copenhagen, di bawah seliaan Serge Belongie. Beliau lulus dengan ijazah sarjana dari ETH Zurich Semasa ijazah sarjananya, beliau mengambil bahagian dalam pelbagai projek penyelidikan di makmal mentornya Luc Van Gool. Minat penyelidikan utamanya termasuk pemahaman adegan, pembelajaran beberapa pukulan, dan pembelajaran pelbagai mod.
Pemahaman pemandangan 3D membolehkan robot humanoid untuk "melihat" pemandangan sekeliling, membolehkan fungsi pemanduan autonomi kereta untuk melihat situasi yang mungkin berlaku semasa pemanduan dalam masa nyata, dengan itu membuat gelagat dan tindak balas yang lebih bijak. Semua ini memerlukan anotasi terperinci bagi sejumlah besar adegan 3D, yang meningkatkan kos masa dan pelaburan sumber secara mendadak.
Baru-baru ini, ETH Zurich dan pasukan lain mencadangkan kaedah pembelajaran beberapa pukulan, yang telah menambah baik had ini, mengkaji semula tugas FS-PCS semasa dan memperkenalkan penanda aras baharu dalam bidang persepsi pemandangan 3D untuk menyediakan asas yang baik untuk masa hadapan. Reka bentuk dan pembangunan model membuka landasan baharu.
- Pautan kertas: https://arxiv.org/abs/2403.00592
- Pautan kod: https://github.com/ZhaochongAn/COSeg
Contoh hasil segmentasi beberapa tangkapan 3DPemahaman adegan 3D memainkan peranan penting dalam bidang seperti pemanduan autonomi dan membolehkan tiga peranti pintar mereka -dunia berdimensi. Walaupun model pembelajaran tradisional yang diselia sepenuhnya berprestasi baik pada pengiktirafan kategori tertentu, model ini selalunya terhad untuk mengenal pasti kategori yang telah ditetapkan ini. Ini bermakna apabila kategori objek baharu perlu dikenali, sejumlah besar data pemandangan 3D mesti dikumpul dan diberi penjelasan secara terperinci Proses ini bukan sahaja memakan masa dan intensif buruh, tetapi juga sangat mengehadkan penggunaan penyeliaan sepenuhnya. model dalam dunia sebenar keluasan dan fleksibiliti. Namun, dengan bantuan kaedah pembelajaran beberapa pukulan, keadaan ini telah bertambah baik dengan ketara. Pembelajaran beberapa pukulan ialah teknik yang memerlukan sangat sedikit sampel berlabel untuk menyesuaikan diri dengan cepat kepada kategori baharu. Ini bermakna model itu boleh belajar dengan cepat dan menyesuaikan diri dengan persekitaran baharu dengan sebilangan kecil contoh, sekali gus mengurangkan kos pengumpulan dan pemprosesan data. Kaedah pembelajaran pantas dan fleksibel ini menjadikan teknologi pemahaman pemandangan 3D lebih mudah disesuaikan dengan dunia sebenar yang berubah dengan pantas, membuka kemungkinan baharu untuk pelbagai senario aplikasi seperti pemanduan autonomi dan sistem robotik lanjutan. Oleh itu, mengkaji model 3D beberapa pukulan secara berkesan boleh mempromosikan aplikasi praktikal banyak tugas penting di dunia yang lebih luas. Khususnya, untuk tugas Segmentasi semantik awan titik 3D (FS-PCS) Sedikit pukulan, input model termasuk awan titik sokongan dan anotasi kategori baharu (topeng sokongan) dan awan titik pertanyaan. Model perlu mendapatkan pengetahuan tentang kategori baharu dengan menggunakan awan titik sokongan dan topeng sokongan dan menggunakannya pada awan titik pertanyaan segmentasi untuk meramalkan label kategori baharu ini. Kategori sasaran yang digunakan semasa latihan dan ujian model tidak bertindih untuk memastikan kategori yang digunakan semasa ujian adalah semua kategori baharu dan belum pernah dilihat oleh model semasa latihan.审 Pemeriksaan semula dan pembetulan tugas Rajah 1. Visualisasi dua babak (prospek adalah Pintu dan PAPAN)
W Jadual 1. Kewujudan (W/FG) dan prestasi model lepas apabila tiada kebocoran prospek (W/O FG)
Artikel ini mengkaji semula tugas FS-PCS semasa. Didapati bahawa tetapan tugas semasa mempunyai dua masalah penting:
kebocoran latar depan
: Tugasan 3D biasanya mencontohi titik tumpat secara seragam dalam awan titik pemandangan sebagai input model. Walau bagaimanapun, kaedah pensampelan yang digunakan oleh FS-PCS bukan pensampelan seragam Sebaliknya, ia akan mengambil sampel lebih banyak mata untuk kategori sasaran (kawasan latar depan) dan sampel lebih sedikit untuk kawasan bukan sasaran (kawasan latar belakang yang diperolehi). dengan cara ini Akan terdapat pengagihan mata yang lebih padat di latar depan, mengakibatkan masalah kebocoran latar depan. Seperti yang ditunjukkan dalam Rajah 1, awan titik input dalam lajur keempat dan keenam datang daripada persampelan pincang semasa dan menunjukkan taburan titik yang lebih padat di kawasan latar depan (pintu atau papan) daripada latar belakang, manakala awan titik input dalam ketiga dan lajur kelima Input menggunakan pensampelan ketekalan yang diperbetulkan, menunjukkan taburan ketumpatan titik seragam. Masalah ini menyebabkan maklumat kelas baharu dibocorkan oleh pengagihan ketumpatan awan titik, membenarkan model mengeksploitasikan perbezaan ketumpatan dalam awan titik input dan meramalkan kawasan yang lebih padat sebagai latar depan untuk mencapai prestasi beberapa pukulan yang baik. Ia tidak bergantung pada pembelajaran keupayaan untuk memindahkan pengetahuan daripada sokongan kepada pertanyaan. Oleh itu, penilaian semasa - penanda aras tidak dapat menggambarkan prestasi sebenar model lepas. Seperti yang ditunjukkan dalam Jadual 1, selepas membetulkan kebocoran latar depan dalam tetapan semasa, model lepas menunjukkan penurunan prestasi yang besar, menunjukkan bahawa model lepas sangat bergantung pada perbezaan ketumpatan untuk mencapai prestasi beberapa pukulan yang kelihatan unggul. . Seperti yang ditunjukkan dalam Rajah 1, pada baris pertama dan lajur kelima, sukar bagi mata manusia untuk membezakan pintu kategori semantik di kawasan itu daripada dinding kategori sekeliling. Untuk baris kedua, sukar juga untuk membezakan sama ada kawasan sasaran adalah kelas papan atau kelas lain seperti tingkap. Awan titik input yang jarang ini mempunyai maklumat semantik yang sangat terhad , memperkenalkan kekaburan yang ketara dan mengehadkan keupayaan model untuk melombong semantik dalam adegan dengan berkesan.
- Oleh itu, untuk membetulkan masalah ini, penulis mencadangkan tetapan baru untuk menyeragamkan tugas FS-PCS, menggunakan pensampelan seragam dan meningkatkan bilangan titik pensampelan 10 kali ganda kepada 20480 mata. Seperti yang ditunjukkan dalam lajur ketiga Rajah 1, input di bawah tetapan baharu mempunyai pengedaran titik yang konsisten dan maklumat semantik yang lebih jelas, menjadikan tugasan lebih dekat dengan senario aplikasi sebenar. Model baharu COSeg
Di bawah tetapan yang baru diperbetulkan, penulis memperkenalkan model baharu yang dipanggil Correlation Optimization Segmentation (COSeg). Kaedah sebelumnya adalah berdasarkan paradigma pengoptimuman ciri
, memfokuskan pada mengoptimumkan ciri sokongan atau pertanyaan, dan memasukkan ciri yang dipertingkatkan ke dalam modul ramalan bebas parameter untuk mendapatkan hasil ramalan, yang boleh dianggap sebagai pemodelan tersirat antara sokongan dan pertanyaan Korelasi . Sebaliknya, ia tidak menumpukan pada mengoptimumkan ciri Artikel ini mencadangkan paradigma pengoptimuman korelasi
, yang secara langsung memasukkan korelasi antara sokongan dan pertanyaan ke dalam modul dengan parameter, dan
mengoptimumkan korelasi secara jelas, membenarkan model membentuk secara langsung korelasi antara pertanyaan dan hubungan sokongan, yang meningkatkan keupayaan generalisasi model.
Dalam COSeg, mula-mula hitung Korelasi Berbilang prototaip Khusus Kelas antara setiap titik pertanyaan dan prototaip sokongan, dirujuk sebagai CMC, yang bermaksud
setiap titik dan semua Hubungan antara prototaip kategori . CMC kemudiannya dimasukkan ke dalam modul Hyper Correlation Augmentation (HCA) seterusnya.
Modul HCA menggunakan dua potensi hubungan untuk mengoptimumkan korelasi. Pertama, mata pertanyaan semuanya berkaitan antara satu sama lain, jadi ia juga berkaitan dengan korelasi antara prototaip kategori Daripada ini, kita boleh mendapatkan hubungan antara
mata dan mata , yang sepadan dengan separuh pertama HCA pada korelasi. dalam dimensi titik. Kedua, mengelaskan titik pertanyaan ke dalam kelas latar depan atau latar belakang bergantung pada korelasi relatif antara prototaip latar depan dan latar belakang titik Daripada ini, kita boleh mendapatkan hubungan antara latar depan dan latar belakang, yang sepadan dengan separuh kedua HCA . Korelasi memberi perhatian dalam dimensi kategori.
Selain itu, kerana model few-shot dilatih pada kategori asas dan diuji pada kategori novel. Model-model ini akan mudah diganggu oleh kategori asas biasa yang sedia ada dalam adegan ujian, yang menjejaskan pembahagian kategori novel. Untuk menyelesaikan masalah ini, artikel bercadang untuk mempelajari prototaip bebas parameter untuk kategori asas (dipanggil prototaip asas). Apabila membahagikan kelas baharu
,
mata pertanyaan kepunyaan kelas asas harus diramalkan sebagai latar belakang . Oleh itu, menggunakan prototaip asas, penulis memperkenalkan modul Penentukuran Prototaip Asas (BPC) di dalam lapisan HCA untuk melaraskan korelasi antara kategori titik dan latar belakang, dengan itu mengurangkan gangguan yang disebabkan oleh kelas asas.
penanda aras, dan terbukti Prestasi unggul kaedah COSeg mencapai hasil terbaik dalam pelbagai tugasan beberapa pukulan. Visualisasi juga jelas menunjukkan bahawa COSeg mencapai hasil pembahagian yang lebih baik. Selain itu, penulis juga menyediakan eksperimen ablasi yang meluas bagi membuktikan keberkesanan reka bentuk dan keunggulan paradigma pengoptimuman korelasi. Ringkasan
Sumbangan kajian artikel ini dalam bidang FS-PCS adalah seperti berikut.
Pertama, pengarang mengenal pasti dua isu utama dalam tetapan FS-PCS semasa (kebocoran latar depan dan pengagihan titik jarang
), yang mengurangkan ketepatan penanda aras penilaian terhadap kaedah terdahulu. Untuk menyelesaikan masalah dalam tetapan sebelumnya, artikel tersebut memperkenalkan tetapan piawai dan penanda aras penilaian yang baharu.
Selain itu, di bawah tetapan FS-PCS yang diseragamkan, penulis mencadangkan paradigma pengoptimuman korelasi baharu, yang meningkatkan prestasi generalisasi model pada tugasan beberapa pukulan dengan ketara. Model dalam artikel ini COSeg menggabungkan HCA untuk melombong maklumat korelasi awan titik yang berkesan dan BPC untuk melaraskan ramalan latar belakang, mencapai prestasi terbaik pada semua tugasan beberapa pukulan. . pembangunan.
. Sebagai penanda aras baharu dalam bidang FS-PCS, kerja ini dijangka memberi inspirasi kepada lebih ramai penyelidik untuk meneroka dan mengembangkan sempadan pemahaman adegan 3D sampel kecil.
Sebagai rujukan, perkara berikut boleh digunakan sebagai hala tuju penyelidikan yang berpotensi untuk menggalakkan lagi pembangunan bidang ini: Di bawah tetapan baharu dalam artikel, walaupun COSeg mencapai prestasi terbaik, Masih terdapat banyak ruang untuk penambahbaikan Model boleh dipertingkatkan untuk mencapai generalisasi beberapa pukulan yang lebih baik: seperti menambah baik kaedah pengekstrakan prototaip [1, 2], menambah baik modul pengoptimuman korelasi [3], dan menyasarkan setiap beberapa. -tugasan latihan seksual[4]. Menyelesaikan masalah gangguan kategori Base juga merupakan faktor utama yang mempengaruhi prestasi Few-shot Ia boleh dioptimumkan dari perspektif latihan atau reka bentuk model [5,6] untuk mengurangkan gangguan kategori Base dengan lebih baik. Tingkatkan latihan dan kecekapan inferens model [7], terutamanya apabila digunakan untuk aplikasi praktikal, kecekapan model juga merupakan pertimbangan utama.
- Ringkasnya, bidang ini mempunyai prospek yang sangat luas, dan ia masih dalam peringkat baru muncul Bagi majoriti penyelidik, ia sudah pasti bidang penyelidikan yang penuh dengan harapan dan peluang.
Pautan rujukan:
[1] Lang, Chunbo, et al )
[3] Zhang, Canyu, et al "Segmentasi semantik awan 3d titik melalui rangkaian transformer berasaskan perhatian khusus berstrata." .
[4] Bodiaf, Malik, et al. "Segmentasi beberapa pukulan tanpa pembelajaran meta: Inferens transduktif yang baik adalah semua yang anda perlukan?." pengiktirafan. 2021. [5] Wang, Jiahui, et al ). IEEE, 2023.[6] Lang, Chunbo, et al pengecaman corak 2022.[7] Sun, Yanpeng, et al ): 37484-37496.Atas ialah kandungan terperinci CVPR 24|ETH Zurich dan pasukan lain: Mentakrifkan semula tugas pembahagian 3D sampel kecil, penanda aras baharu membuka potensi luas untuk penambahbaikan!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!