Rumah  >  Artikel  >  Peranti teknologi  >  UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!

UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!

王林
王林ke hadapan
2023-09-16 20:29:10589semak imbas

Tajuk asal: UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering

Sila klik pautan berikut untuk melihat kertas: https://arxiv.org/pdf/2306.09117.pdf

UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!

idea:

Dalam laporan teknikal ini, kami mencadangkan penyelesaian yang dipanggil UniOCC untuk trajektori ramalan penghunian 3D bertumpu penglihatan dalam Cabaran Set Data Terbuka CVPR 2023 nuScenes. Kaedah ramalan penghunian sedia ada tertumpu terutamanya pada penggunaan label penghunian 3D untuk mengoptimumkan ciri unjuran ruang volumetrik 3D. Walau bagaimanapun, proses penjanaan label ini sangat kompleks dan mahal (bergantung pada anotasi semantik 3D), dan dihadkan oleh resolusi voxel dan tidak dapat memberikan semantik spatial yang terperinci. Untuk menangani had ini, kami mencadangkan kaedah ramalan penghunian bersatu (UniOcc) baharu yang secara eksplisit mengenakan kekangan geometri spatial dan menambah penyeliaan semantik yang terperinci dengan pemaparan sinar volum. Kaedah kami meningkatkan prestasi model dengan ketara dan menunjukkan potensi yang baik dalam mengurangkan kos anotasi manual. Memandangkan kepayahan menganotasi penghunian 3D, kami seterusnya mencadangkan rangka kerja Guru Pelajar (DTS) yang sedar mendalam untuk meningkatkan ketepatan ramalan menggunakan data tidak berlabel. Penyelesaian kami mencapai 51.27% mIoU pada ranking rasmi model tunggal, menduduki tempat ketiga dalam cabaran ini

Reka Bentuk Rangkaian:

Dalam cabaran ini, kertas kerja ini mencadangkan UniOcc, yang merupakan penyelesaian umum yang memanfaatkan pemaparan volum untuk menyatukan penyeliaan perwakilan 2D dan 3D, menambah baik model ramalan penghunian berbilang kamera. Kertas kerja ini tidak mereka bentuk seni bina model baharu, tetapi menumpukan pada mempertingkat model sedia ada [3, 18, 20] dengan cara yang serba boleh dan pasang dan main.

Ditulis semula seperti berikut: Kertas kerja ini melaksanakan fungsi menjana peta semantik dan kedalaman 2D menggunakan pemaparan volum dengan menaik taraf perwakilan kepada perwakilan gaya NeRF [1, 15, 21]. Ini membolehkan penyeliaan terperinci pada tahap piksel 2D. Dengan pensampelan sinar voxel tiga dimensi, semantik dan maklumat kedalaman piksel dua dimensi yang dihasilkan boleh diperolehi. Dengan menyepadukan secara eksplisit hubungan oklusi geometri dan kekangan konsistensi semantik, makalah ini menyediakan panduan yang jelas untuk model dan memastikan pematuhan dengan kekangan ini Perlu dinyatakan bahawa UniOcc mempunyai potensi untuk mengurangkan pergantungan pada anotasi semantik 3D yang mahal. Sekiranya tiada label penghunian 3D, model yang dilatih menggunakan hanya penyeliaan pemaparan volum kami berprestasi lebih baik daripada model yang dilatih menggunakan penyeliaan label 3D. Ini menyerlahkan potensi menarik untuk mengurangkan pergantungan pada anotasi semantik 3D yang mahal, kerana perwakilan pemandangan boleh dipelajari terus daripada label segmentasi 2D yang mampu dimiliki. Di samping itu, kos anotasi segmentasi 2D boleh dikurangkan lagi dengan menggunakan teknologi canggih seperti SAM [6] dan [14,19].

Artikel ini juga memperkenalkan rangka kerja Depth Sensing Teacher-Student (DTS), kaedah latihan yang diselia sendiri. Berbeza daripada Guru Min klasik, DTS meningkatkan ramalan mendalam model guru, mencapai latihan yang stabil dan berkesan sambil menggunakan data tidak berlabel. Di samping itu, kertas kerja ini menggunakan beberapa teknik yang mudah tetapi berkesan untuk meningkatkan prestasi model. Ini termasuk menggunakan topeng yang boleh dilihat dalam latihan, menggunakan rangkaian tulang belakang pra-latihan yang lebih kukuh, meningkatkan resolusi voxel dan melaksanakan penambahan data masa ujian (TTA)

UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!

Berikut ialah gambaran keseluruhan rangka kerja UniOcc: Gambar 1

UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!

Gambar 2. Rangka kerja Guru-Pelajar yang sedar mendalam.

Hasil eksperimen:

UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!

UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!

Petikan:

Pan, M., Liu, L., Liu, J., Wang L., J., Wang L., J., Wang L., P. , Xu, S., Lai, Z., Yang, K. (2023). UniOcc: Menyatukan pemaparan geometri dan semantik dengan ramalan penghunian 3D bertumpu penglihatan. ArXiv. / abs / 2306.09117

UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!

Pautan asal: https://mp.weixin.qq.com/s/iLPHMtLzc5z0f4bg_W1vIg

Atas ialah kandungan terperinci UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam