Rumah > Artikel > Peranti teknologi > SupFusion: Meneroka cara menyelia rangkaian pengesanan 3D gabungan Lidar-Camera dengan berkesan?
Pengesanan 3D berdasarkan gabungan kamera lidar ialah tugas utama untuk pemanduan autonomi. Dalam beberapa tahun kebelakangan ini, banyak kaedah gabungan kamera LiDAR telah muncul dan mencapai prestasi yang baik, tetapi kaedah ini sentiasa kekurangan proses gabungan yang direka bentuk dengan baik dan diselia dengan berkesan
Kertas kerja ini memperkenalkan strategi latihan baharu yang dipanggil SupFusion, yang menyediakan laser Radar-camera fusion menyediakan penyeliaan peringkat ciri tambahan dan meningkatkan prestasi pengesanan dengan ketara. Kaedah ini termasuk kaedah penambahan data Persampelan Kutub untuk menyulitkan sasaran yang jarang dan melatih model tambahan untuk menjana ciri berkualiti tinggi untuk penyeliaan. Ciri ini digunakan untuk melatih model gabungan kamera lidar dan mengoptimumkan ciri bercantum untuk mensimulasikan penjanaan ciri berkualiti tinggi. Tambahan pula, modul gabungan dalam yang mudah tetapi berkesan dicadangkan, yang secara berterusan mencapai prestasi unggul berbanding kaedah gabungan sebelumnya menggunakan strategi SupFusion. Kaedah dalam kertas kerja ini mempunyai kelebihan berikut: Pertama, SupFusion memperkenalkan penyeliaan peringkat ciri tambahan, yang boleh meningkatkan prestasi pengesanan kamera lidar tanpa meningkatkan kos inferens tambahan. Kedua, gabungan dalam yang dicadangkan boleh terus meningkatkan keupayaan pengesan. Modul SupFusion dan gabungan mendalam yang dicadangkan adalah plug-and-play, dan kertas kerja ini menunjukkan keberkesanannya melalui eksperimen yang meluas. Dalam penanda aras KITTI untuk pengesanan 3D berdasarkan berbilang kamera lidar, kira-kira 2% peningkatan mAP 3D telah dicapai!
Rajah 1: Atas, model pengesanan 3D kamera lidar sebelumnya, modul gabungan dioptimumkan oleh kehilangan pengesanan. Bawah: SupFusion yang dicadangkan dalam artikel ini memperkenalkan penyeliaan tambahan melalui ciri berkualiti tinggi yang disediakan oleh model tambahan.
Pengesanan 3D berdasarkan gabungan kamera lidar ialah tugas kritikal dan mencabar dalam pemanduan autonomi dan robotik Kaedah sebelumnya sentiasa menayangkan input kamera ke ruang BEV atau voxel lidar melalui parameter intrinsik dan ekstrinsik, untuk menjajarkan ciri lidar dan kamera. Kemudian, penggabungan atau penjumlahan mudah digunakan untuk mendapatkan ciri bercantum untuk pengesanan akhir. Tambahan pula, beberapa kaedah gabungan berasaskan pembelajaran mendalam telah mencapai prestasi yang menjanjikan. Walau bagaimanapun, kaedah gabungan sebelumnya sentiasa mengoptimumkan pengekstrakan ciri 3D/2D dan modul gabungan secara langsung melalui kehilangan pengesanan, yang tidak mempunyai reka bentuk yang teliti dan penyeliaan yang berkesan pada peringkat ciri, mengehadkan prestasinya.
Dalam beberapa tahun kebelakangan ini, kaedah penyulingan telah menunjukkan peningkatan yang hebat dalam penyeliaan peringkat ciri untuk pengesanan 3D. Sesetengah kaedah menyediakan ciri lidar untuk membimbing tulang belakang 2D untuk menganggar maklumat kedalaman berdasarkan input kamera. Selain itu, beberapa kaedah menyediakan keupayaan gabungan kamera lidar untuk mengawasi tulang belakang lidar untuk mempelajari perwakilan global dan kontekstual daripada input lidar. Dengan memperkenalkan penyeliaan tambahan peringkat ciri dengan mensimulasikan ciri yang lebih mantap dan berkualiti tinggi, pengesan boleh menggalakkan peningkatan kecil. Diilhamkan oleh ini, penyelesaian semula jadi untuk mengendalikan gabungan ciri kamera lidar adalah untuk menyediakan ciri yang lebih kukuh dan berkualiti tinggi dan memperkenalkan penyeliaan tambahan untuk pengesanan 3D kamera lidar!
Untuk meningkatkan prestasi pengesanan 3D bercantum berdasarkan kamera lidar, artikel ini mencadangkan kaedah gabungan kamera lidar diselia yang dipanggil SupFusion. Kaedah ini mencapai matlamat ini dengan menjana ciri berkualiti tinggi dan menyediakan penyeliaan yang berkesan untuk proses gabungan dan pengekstrakan ciri. Pertama, kami melatih model tambahan untuk menyediakan ciri berkualiti tinggi. Tidak seperti kaedah sebelumnya yang mengeksploitasi model yang lebih besar atau data tambahan, kami mencadangkan kaedah penambahan data baharu yang dipanggil Persampelan Kutub. Persampelan Kutub secara dinamik meningkatkan ketumpatan sasaran daripada data lidar yang jarang, menjadikannya lebih mudah untuk mengesan dan meningkatkan kualiti ciri, seperti hasil pengesanan yang tepat. Kami kemudiannya hanya melatih pengesan berdasarkan gabungan kamera lidar dan memperkenalkan penyeliaan peringkat ciri tambahan. Dalam langkah ini, kami memasukkan lidar mentah dan input kamera ke dalam tulang belakang 3D/2D dan modul gabungan untuk mendapatkan ciri bercantum. Ciri bercantum dimasukkan ke dalam kepala pengesanan untuk ramalan akhir, manakala penyeliaan tambahan memodelkan ciri bercantum kepada ciri berkualiti tinggi. Ciri-ciri ini diperoleh melalui model tambahan terlatih dan data lidar yang dipertingkatkan. Dengan cara ini, penyeliaan peringkat ciri yang dicadangkan boleh membolehkan modul gabungan menjana ciri yang lebih mantap dan meningkatkan lagi prestasi pengesanan. Untuk menggabungkan ciri lidar dan kamera dengan lebih baik, kami mencadangkan modul gabungan dalam yang mudah dan berkesan, yang terdiri daripada blok MLP bertindan dan blok gabungan dinamik. SupFusion boleh memanfaatkan sepenuhnya keupayaan modul gabungan dalam dan terus meningkatkan ketepatan pengesanan!
Sumbangan utama artikel ini:
Proses penjanaan ciri berkualiti tinggi ditunjukkan dalam rajah di bawah , Sasaran jarang disulitkan dengan tampalan kutub, tampalan kutub mengira arah dan putaran untuk menanya sasaran padat daripada pangkalan data, dan mata tambahan ditambah untuk sasaran jarang dengan menampal. Kertas kerja ini mula-mula melatih model tambahan dengan data yang dipertingkatkan dan menyuapkan data lidar yang dipertingkatkan ke dalam model tambahan untuk menjana ciri berkualiti tinggi f* selepas penumpuannya.
Untuk menyediakan penyeliaan peringkat ciri Model tambahan diguna pakai untuk menangkap ciri berkualiti tinggi daripada data tambahan, seperti yang ditunjukkan dalam Rajah 3. Pertama, model tambahan dilatih untuk menyediakan ciri berkualiti tinggi. Untuk mana-mana sampel dalam D, data lidar yang jarang ditambah untuk mendapatkan data yang dipertingkatkan dengan menampal kutub, yang menyulitkan sasaran ganti dengan menambah set titik yang dijana dalam kumpulan kutub. Kemudian, selepas model tambahan menumpu, sampel yang dipertingkatkan dimasukkan ke dalam model tambahan yang dioptimumkan untuk menangkap ciri berkualiti tinggi untuk melatih model pengesanan 3D kamera lidar. Untuk memohon dengan lebih baik pada pengesan kamera lidar yang diberikan dan menjadikannya lebih mudah untuk dilaksanakan, di sini kami hanya menggunakan pengesan cawangan lidar sebagai model tambahan!
Untuk mana-mana pengesan kamera lidar tertentu, model dilatih menggunakan penyeliaan tambahan yang dicadangkan pada peringkat ciri . Diberi sampel , , lidar dan kamera dimasukkan pertama ke dalam pengekod 3D dan 2D dan untuk menangkap ciri yang sepadan dan ciri ini dimasukkan ke dalam model gabungan untuk menjana ciri gabungan dan mengalir ke dalam kepala pengesanan untuk ramalan akhir. Tambahan pula, penyeliaan tambahan yang dicadangkan digunakan untuk mensimulasikan ciri bercantum dengan ciri berkualiti tinggi yang dihasilkan daripada model tambahan terlatih dan data lidar yang dipertingkatkan. Proses di atas boleh dirumuskan sebagai:
#🎜🎜 #Polar Grouping
Pertama, keseluruhan set data dicari, sudut kutub dikira untuk semua sasaran mengikut kedudukan dan putaran disediakan dalam penanda aras. Kedua, bahagikan sasaran kepada kumpulan berdasarkan sudut kutubnya. Bahagikan arah dan putaran secara manual kepada kumpulan N Untuk sebarang set titik sasaran l, anda boleh memasukkannya ke dalam kumpulan yang sepadan mengikut indeks:
.Seperti yang ditunjukkan dalam Rajah 2, Polar Penampalan digunakan untuk meningkatkan spare untuk melatih model tambahan dan menjana ciri berkualiti tinggi. Memandangkan sampel LiDAR ,,,, mengandungi sasaran, untuk mana-mana sasaran, orientasi dan putaran yang sama seperti dalam proses pengumpulan boleh dikira dan sasaran padat boleh disoal dari B berdasarkan label dan indeks, yang boleh diperolehi daripada Dalam E.q.6, semua sasaran dalam sampel yang dipertingkatkan diperoleh dan data yang dipertingkatkan diperolehi.
Untuk mensimulasikan ciri lidar berkualiti tinggi yang dihasilkan daripada data lidar berkualiti tinggi model gabungan bertujuan untuk mengekstrak maklumat yang hilang bagi objek jarang daripada warna yang kaya dan ciri kontekstual dalam input kamera. Untuk tujuan ini, kertas kerja ini mencadangkan modul gabungan mendalam untuk menggunakan ciri imej dan demonstrasi lidar yang lengkap. Gabungan mendalam yang dicadangkan terutamanya terdiri daripada pelajar 3D dan pelajar 2D-3D. Pelajar 3D ialah lapisan konvolusi mudah yang digunakan untuk memindahkan pemaparan 3D ke dalam ruang 2D. Kemudian, untuk menyambungkan ciri 2D dan pemaparan 3D (cth., dalam ruang 2D), pelajar 2D-3D digunakan untuk menggabungkan ciri kamera LiDAR. Akhir sekali, ciri bercantum ditimbang oleh MLP dan fungsi pengaktifan, yang ditambah kembali kepada ciri lidar asal sebagai output modul gabungan dalam. Pelajar 2D-3D terdiri daripada blok MLP kedalaman K yang disusun dan belajar untuk memanfaatkan ciri kamera untuk melengkapkan perwakilan lidar bagi sasaran yang jarang untuk mensimulasikan ciri berkualiti tinggi bagi sasaran lidar padat.
Hasil eksperimen (mAP@R40%). Disenaraikan di sini adalah tiga kategori kes mudah, sederhana (mod.) dan keras, serta prestasi keseluruhan. Di sini L, LC, LC* mewakili pengesan lidar yang sepadan, pengesan gabungan kamera lidar dan keputusan cadangan kertas ini. Δ mewakili peningkatan. Keputusan terbaik ditunjukkan dalam huruf tebal, di mana L dijangka menjadi model tambahan dan diuji pada set pengesahan tambahan. MVXNet dilaksanakan semula berdasarkan mmdetection3d. PV-RCNN-LC dan Voxel RCNN LC dilaksanakan semula berdasarkan kod sumber terbuka VFF.
Kandungan ditulis semula: Prestasi keseluruhan. Mengikut keputusan perbandingan dalam Jadual 1, perbandingan 3DmAP@R40 berdasarkan tiga pengesan menunjukkan prestasi keseluruhan setiap kategori dan setiap bahagian kesukaran. Ia boleh diperhatikan dengan jelas bahawa dengan memperkenalkan input kamera tambahan, kaedah kamera lidar (LC) mengatasi prestasi pengesan berasaskan lidar (L). Dengan memperkenalkan pensampelan kutub, model tambahan (L†) menunjukkan prestasi yang mengagumkan pada set pengesahan tambahan (cth., melebihi 90% mAP). Dengan penyeliaan tambahan dengan ciri berkualiti tinggi dan modul gabungan dalam yang dicadangkan, cadangan kami terus meningkatkan ketepatan pengesanan. Sebagai contoh, berbanding model garis dasar (LC), cadangan kami masing-masing mencapai +1.54% dan +1.24% peningkatan mAP 3D pada sasaran sederhana dan keras. Selain itu, kami juga menjalankan eksperimen pada penanda aras nuScenes berdasarkan SECOND-LC Seperti yang ditunjukkan dalam Jadual 2, NDS dan mAP masing-masing telah meningkat sebanyak +2.01% dan +1.38% #
analisis penambahbaikan persepsi. Berbanding dengan model garis dasar, SupFusion dan gabungan mendalam bukan sahaja meningkatkan prestasi keseluruhan tetapi juga meningkatkan prestasi pengesanan setiap kategori termasuk Pejalan Kaki Membandingkan peningkatan purata merentas tiga kategori (cth. kes sederhana), pemerhatian berikut boleh dibuat: Penunggang basikal melihat. peningkatan terbesar (+2.41%), manakala pejalan kaki dan kereta menyaksikan peningkatan masing-masing sebanyak +1.35% dan +0.86%. Sebabnya jelas: (1) Kereta lebih mudah dikesan dan mendapat hasil terbaik daripada pejalan kaki dan penunggang basikal, dan oleh itu lebih sukar untuk diperbaiki. (2) Penunggang basikal mendapat lebih banyak peningkatan berbanding pejalan kaki kerana pejalan kaki bukan grid dan menjana sasaran yang kurang padat daripada penunggang basikal dan oleh itu memperoleh peningkatan prestasi yang lebih rendah! Sila klik pautan berikut untuk melihat kandungan asal: https://mp.weixin .qq. com/s/vWew2p9TrnzK256y-A4UFwAtas ialah kandungan terperinci SupFusion: Meneroka cara menyelia rangkaian pengesanan 3D gabungan Lidar-Camera dengan berkesan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!