Rumah >Peranti teknologi >AI >AAAI2024: Far3D - Idea inovatif untuk secara langsung mencapai pengesanan sasaran 3D visual 150m
Saya baru-baru ini membaca penyelidikan terkini tentang persepsi keliling visual tulen pada Arxiv Penyelidikan ini berdasarkan siri kaedah PETR dan memfokuskan pada menyelesaikan masalah persepsi visual tulen pengesanan sasaran jarak jauh, memanjangkan julat persepsi kepada 150 meter. Kaedah dan keputusan kertas ini mempunyai nilai rujukan yang hebat untuk kami, jadi saya cuba mentafsirkannya
Tajuk asal: Far3D: Expanding the Horizon for Surround-view 3D Object Detection
Pautan kertas: https:/ /arxiv.org/abs /2308.09616
Gabungan pengarang: Institut Teknologi Beijing & Teknologi Megvii
Pengesanan objek tiga dimensi memainkan peranan penting dalam memahami ciri-ciri pemanduan tiga dimensi, prese dan presenya. mencari dan mengelaskan objek di sekeliling kenderaan. Kaedah persepsi keliling visual tulen mempunyai kelebihan kos rendah dan kebolehgunaan luas, dan telah mencapai kemajuan yang ketara. Walau bagaimanapun, kebanyakannya menumpukan pada penderiaan jarak dekat (contohnya, jarak penderiaan nuScenes adalah kira-kira 50 meter), dan medan pengesanan jarak jauh kurang diterokai. Mengesan objek jauh adalah penting untuk mengekalkan jarak selamat semasa pemanduan sebenar, terutamanya pada kelajuan tinggi atau dalam keadaan jalan yang kompleks.
Baru-baru ini, kemajuan ketara telah dicapai dalam pengesanan objek 3D daripada imej pandangan sekeliling, yang agak murah untuk digunakan. Walau bagaimanapun, kebanyakan kajian tertumpu terutamanya pada julat penderiaan jarak dekat, dan terdapat sedikit kajian tentang pengesanan jarak jauh. Memanjangkan kaedah sedia ada secara langsung untuk meliputi jarak jauh akan menghadapi cabaran seperti kos pengiraan yang tinggi dan penumpuan yang tidak stabil. Untuk menangani batasan ini, kertas kerja ini mencadangkan rangka kerja berasaskan pertanyaan jarang baharu yang dipanggil Far3D.
Mengikut perwakilan perantaraan, kaedah penderiaan lihat-sekitar yang sedia ada boleh dibahagikan secara kasar kepada dua kategori: kaedah berdasarkan perwakilan BEV dan kaedah berdasarkan perwakilan pertanyaan jarang. Kaedah berdasarkan perwakilan BEV memerlukan jumlah pengiraan yang sangat besar kerana keperluan untuk pengiraan intensif ciri BEV, menjadikannya sukar untuk diperluaskan kepada senario jarak jauh. Kaedah berdasarkan perwakilan pertanyaan jarang akan mempelajari pertanyaan 3D global daripada data latihan, amaun pengiraan agak kecil, dan ia mempunyai kebolehskalaan yang kuat. Walau bagaimanapun, ia juga mempunyai beberapa kelemahan Walaupun ia boleh mengelakkan pertumbuhan persegi bilangan pertanyaan, pertanyaan tetap global tidak mudah untuk menyesuaikan diri dengan adegan dinamik, dan sasaran sering terlepas dalam pengesanan jarak jauh set data, Perbandingan Prestasi 3D antara pengesanan dan pengesanan 2D.
Dalam pengesanan jarak jauh, kaedah berdasarkan perwakilan pertanyaan jarang mempunyai dua cabaran utama.
Pertama ialah prestasi panggil balik yang lemah. Disebabkan oleh pengedaran pertanyaan yang jarang dalam ruang 3D, hanya sebilangan kecil pertanyaan positif yang sepadan boleh dijana dalam julat jarak jauh. Seperti yang ditunjukkan dalam rajah di atas, kadar ingatan semula pengesanan 3D adalah lebih rendah, manakala kadar ingat semula pengesanan 2D sedia ada adalah lebih tinggi, meninggalkan jurang prestasi yang jelas antara kedua-duanya. Oleh itu, menggunakan objek 2D berkualiti tinggi sebelum menambah baik pertanyaan 3D ialah kaedah yang menjanjikan, yang bermanfaat untuk mencapai kedudukan tepat dan liputan objek yang komprehensif.
Kedua, memperkenalkan hasil pengesanan 2D secara langsung untuk membantu pengesanan 3D akan menghadapi masalah penyebaran ralat. Seperti yang ditunjukkan dalam rajah di bawah, dua sumber utama ialah 1) ralat kedudukan objek disebabkan oleh ramalan kedalaman yang tidak tepat 2) ralat kedudukan 3D dalam perubahan frustum meningkat dengan jarak. Pertanyaan bising ini akan menjejaskan kestabilan latihan dan memerlukan kaedah denoising yang berkesan untuk mengoptimumkan. Tambahan pula, semasa latihan, model akan menunjukkan kecenderungan untuk terlalu muat pada objek dekat yang berpenduduk padat sambil mengabaikan objek jauh yang diedarkan jarang.
Untuk memperkenalkan ciri berbilang skala kepada model pengesanan jarak jauh, artikel ini menggunakan perhatian boleh ubah bentuk spatial 3D. Ia mula-mula melakukan pensampelan mengimbangi berhampiran kedudukan 3D yang sepadan dengan pertanyaan, dan kemudian mengagregatkan ciri imej melalui transformasi paparan 3D-2D. Kelebihan kaedah ini dan bukannya perhatian global dalam siri PETR ialah kerumitan pengiraan boleh dikurangkan dengan ketara. Khususnya, untuk setiap titik rujukan pertanyaan dalam ruang 3D, model mempelajari offset pensampelan M di sekelilingnya dan menayangkan titik offset ini ke dalam ciri paparan 2D yang berbeza.
Selepas itu, pertanyaan 3D berinteraksi dengan ciri sampel yang diperoleh melalui unjuran. Dengan cara ini, pelbagai ciri daripada perspektif dan skala yang berbeza akan disatukan ke dalam pertanyaan tiga dimensi dengan mempertimbangkan kepentingan relatifnya.
Pertanyaan 3D dengan jarak berbeza mempunyai kesukaran regresi yang berbeza, yang berbeza daripada kaedah Denoising 2D sedia ada (seperti DN-DETR, pertanyaan 2D yang biasanya dilayan sama). Perbezaan dalam kesukaran datang daripada ketumpatan padanan pertanyaan dan penyebaran ralat. Di satu pihak, darjah padanan pertanyaan yang sepadan dengan objek jauh adalah lebih rendah daripada objek berdekatan. Sebaliknya, apabila memperkenalkan prior 2D dalam pertanyaan penyesuaian 3D, ralat kecil dalam kotak objek 2D akan dikuatkan, apatah lagi kesan ini akan meningkat apabila jarak objek meningkat. Oleh itu, beberapa pertanyaan berhampiran kotak GT boleh dianggap sebagai pertanyaan positif, sementara yang lain dengan sisihan yang jelas harus dianggap sebagai pertanyaan negatif. Kertas kerja ini mencadangkan kaedah Denoising 3D yang bertujuan untuk mengoptimumkan sampel positif tersebut dan terus membuang sampel negatif.
Secara khusus, pengarang membina pertanyaan bising berasaskan GT dengan menambahkan kumpulan sampel positif dan negatif secara serentak. Untuk kedua-dua jenis, hingar rawak digunakan berdasarkan lokasi dan saiz objek untuk memudahkan pembelajaran denoising dalam persepsi jarak jauh. Secara khusus, sampel positif ialah titik rawak dalam kotak 3D, manakala sampel negatif mengenakan offset yang lebih besar pada GT, dan julat offset berubah mengikut jarak objek. Kaedah ini boleh mensimulasikan sampel positif dan positif palsu calon yang bising semasa latihan
Far3D mencapai prestasi tertinggi pada Argoverse 2 dengan julat penderiaan 150m. Dan selepas model dipertingkatkan, ia boleh mencapai prestasi beberapa kaedah berasaskan Lidar, menunjukkan potensi kaedah visual tulen.
Untuk mengesahkan prestasi generalisasi, pengarang juga menjalankan eksperimen pada set data nuScenes, menunjukkan bahawa ia mencapai prestasi SoTA pada kedua-dua set pengesahan dan set ujian.
Selepas eksperimen ablasi, kami sampai pada kesimpulan berikut: pertanyaan penyesuaian 3D, pengagregatan sedar perspektif dan penolakan 3D terlaras julat masing-masing mempunyai keuntungan tertentu
di atas kertas
Apakah kebaharuan artikel ini?
J: Kebaharuan utama adalah untuk menyelesaikan masalah persepsi adegan jarak jauh. Terdapat banyak masalah dalam melanjutkan kaedah sedia ada kepada senario jarak jauh, termasuk kos pengiraan dan kesukaran penumpuan. Penulis kertas ini mencadangkan rangka kerja yang cekap untuk tugasan ini. Walaupun setiap modul kelihatan biasa secara individu, semuanya berfungsi untuk pengesanan sasaran yang jauh dan mempunyai matlamat yang jelas.
S: Berbanding dengan BevFormer v2, apakah perbezaan antara MV2D?
A: MV2D terutamanya bergantung pada sauh 2D untuk mendapatkan ciri yang sepadan untuk mengikat 3D, tetapi tidak ada anggaran kedalaman yang jelas, jadi ketidakpastian akan menjadi agak besar untuk objek jauh, dan kemudian ia akan menjadi sukar untuk menumpu terutamanya BevFormer v2 It menyelesaikan jurang domain antara tulang belakang 2D dan adegan tugas 3D Secara amnya, tulang belakang yang telah dilatih pada tugas pengecaman 2D mempunyai keupayaan yang tidak mencukupi untuk mengesan pemandangan 3D, dan tidak meneroka masalah dalam tugasan jarak jauh.
S: Bolehkah masa dipertingkatkan, seperti penyebaran pertanyaan ditambah penyebaran ciri?
J: Ia boleh dilaksanakan secara teori, tetapi pertukaran kecekapan prestasi harus dipertimbangkan dalam aplikasi praktikal.
S: Adakah terdapat mana-mana kawasan yang memerlukan penambahbaikan? J: Kedua-dua isu panjang dan penunjuk penilaian jarak jauh patut diperbaiki. Pada sasaran 26 kelas seperti Argoverse 2, model tidak menunjukkan prestasi yang baik pada kelas ekor panjang dan akhirnya mengurangkan ketepatan purata, yang masih belum diterokai. Sebaliknya, menggunakan metrik bersatu untuk menilai objek jauh dan dekat mungkin tidak sesuai, yang menekankan keperluan untuk kriteria penilaian dinamik praktikal yang boleh disesuaikan dengan senario yang berbeza dalam dunia nyata.
🎜🎜Pautan asal: https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg🎜Atas ialah kandungan terperinci AAAI2024: Far3D - Idea inovatif untuk secara langsung mencapai pengesanan sasaran 3D visual 150m. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!