Rumah >Peranti teknologi >AI >AAAI2024: Far3D - Idea inovatif untuk secara langsung mencapai pengesanan sasaran 3D visual 150m

AAAI2024: Far3D - Idea inovatif untuk secara langsung mencapai pengesanan sasaran 3D visual 150m

PHPzke hadapan: 2023-12-15 13:54:531154semak imbas

Saya baru-baru ini membaca penyelidikan terkini tentang persepsi keliling visual tulen pada Arxiv Penyelidikan ini berdasarkan siri kaedah PETR dan memfokuskan pada menyelesaikan masalah persepsi visual tulen pengesanan sasaran jarak jauh, memanjangkan julat persepsi kepada 150 meter. Kaedah dan keputusan kertas ini mempunyai nilai rujukan yang hebat untuk kami, jadi saya cuba mentafsirkannya

Tajuk asal: Far3D: Expanding the Horizon for Surround-view 3D Object Detection
Pautan kertas: https:/ /arxiv.org/abs /2308.09616
Gabungan pengarang: Institut Teknologi Beijing & Teknologi Megvii

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

Latar belakang tugas

Pengesanan objek tiga dimensi memainkan peranan penting dalam memahami ciri-ciri pemanduan tiga dimensi, prese dan presenya. mencari dan mengelaskan objek di sekeliling kenderaan. Kaedah persepsi keliling visual tulen mempunyai kelebihan kos rendah dan kebolehgunaan luas, dan telah mencapai kemajuan yang ketara. Walau bagaimanapun, kebanyakannya menumpukan pada penderiaan jarak dekat (contohnya, jarak penderiaan nuScenes adalah kira-kira 50 meter), dan medan pengesanan jarak jauh kurang diterokai. Mengesan objek jauh adalah penting untuk mengekalkan jarak selamat semasa pemanduan sebenar, terutamanya pada kelajuan tinggi atau dalam keadaan jalan yang kompleks.

Baru-baru ini, kemajuan ketara telah dicapai dalam pengesanan objek 3D daripada imej pandangan sekeliling, yang agak murah untuk digunakan. Walau bagaimanapun, kebanyakan kajian tertumpu terutamanya pada julat penderiaan jarak dekat, dan terdapat sedikit kajian tentang pengesanan jarak jauh. Memanjangkan kaedah sedia ada secara langsung untuk meliputi jarak jauh akan menghadapi cabaran seperti kos pengiraan yang tinggi dan penumpuan yang tidak stabil. Untuk menangani batasan ini, kertas kerja ini mencadangkan rangka kerja berasaskan pertanyaan jarang baharu yang dipanggil Far3D.

Idea tesis

Mengikut perwakilan perantaraan, kaedah penderiaan lihat-sekitar yang sedia ada boleh dibahagikan secara kasar kepada dua kategori: kaedah berdasarkan perwakilan BEV dan kaedah berdasarkan perwakilan pertanyaan jarang. Kaedah berdasarkan perwakilan BEV memerlukan jumlah pengiraan yang sangat besar kerana keperluan untuk pengiraan intensif ciri BEV, menjadikannya sukar untuk diperluaskan kepada senario jarak jauh. Kaedah berdasarkan perwakilan pertanyaan jarang akan mempelajari pertanyaan 3D global daripada data latihan, amaun pengiraan agak kecil, dan ia mempunyai kebolehskalaan yang kuat. Walau bagaimanapun, ia juga mempunyai beberapa kelemahan Walaupun ia boleh mengelakkan pertumbuhan persegi bilangan pertanyaan, pertanyaan tetap global tidak mudah untuk menyesuaikan diri dengan adegan dinamik, dan sasaran sering terlepas dalam pengesanan jarak jauh set data, Perbandingan Prestasi 3D antara pengesanan dan pengesanan 2D.

Dalam pengesanan jarak jauh, kaedah berdasarkan perwakilan pertanyaan jarang mempunyai dua cabaran utama. AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

Pertama ialah prestasi panggil balik yang lemah. Disebabkan oleh pengedaran pertanyaan yang jarang dalam ruang 3D, hanya sebilangan kecil pertanyaan positif yang sepadan boleh dijana dalam julat jarak jauh. Seperti yang ditunjukkan dalam rajah di atas, kadar ingatan semula pengesanan 3D adalah lebih rendah, manakala kadar ingat semula pengesanan 2D sedia ada adalah lebih tinggi, meninggalkan jurang prestasi yang jelas antara kedua-duanya. Oleh itu, menggunakan objek 2D berkualiti tinggi sebelum menambah baik pertanyaan 3D ialah kaedah yang menjanjikan, yang bermanfaat untuk mencapai kedudukan tepat dan liputan objek yang komprehensif.

Kedua, memperkenalkan hasil pengesanan 2D secara langsung untuk membantu pengesanan 3D akan menghadapi masalah penyebaran ralat. Seperti yang ditunjukkan dalam rajah di bawah, dua sumber utama ialah 1) ralat kedudukan objek disebabkan oleh ramalan kedalaman yang tidak tepat 2) ralat kedudukan 3D dalam perubahan frustum meningkat dengan jarak. Pertanyaan bising ini akan menjejaskan kestabilan latihan dan memerlukan kaedah denoising yang berkesan untuk mengoptimumkan. Tambahan pula, semasa latihan, model akan menunjukkan kecenderungan untuk terlalu muat pada objek dekat yang berpenduduk padat sambil mengabaikan objek jauh yang diedarkan jarang.

Untuk menangani masalah yang dinyatakan di atas, artikel ini menggunakan pelan reka bentuk berikut:

Selain pertanyaan global 3D yang dipelajari daripada set data, pertanyaan penyesuaian 3D yang dijana daripada hasil pengesanan 2D juga diperkenalkan. Khususnya, pengesan 2D dan rangkaian ramalan kedalaman mula-mula digunakan untuk mendapatkan kotak 2D dan kedalaman yang sepadan, dan kemudian diunjurkan ke dalam ruang 3D melalui transformasi spatial sebagai permulaan pertanyaan penyesuaian 3D.
Untuk menyesuaikan diri dengan skala objek yang berbeza pada jarak yang berbeza, Aggergation Sedar Perspektif direka bentuk. Ia membolehkan pertanyaan 3D berinteraksi dengan ciri skala yang berbeza, yang bermanfaat untuk menampilkan penangkapan objek pada jarak yang berbeza. Sebagai contoh, objek jauh memerlukan ciri resolusi besar, manakala objek dekat memerlukan ciri yang berbeza. Reka bentuk ini membolehkan model berinteraksi secara adaptif dengan ciri.
Merangka strategi yang dipanggil Range-modulated 3D Denoising untuk mengurangkan masalah penyebaran ralat pertanyaan dan penumpuan perlahan. Memandangkan kesukaran regresi pertanyaan pada jarak berbeza adalah berbeza, pertanyaan bising dilaraskan mengikut jarak dan skala kotak sebenar. Masukkan berbilang set pertanyaan bising berhampiran GT ke dalam penyahkod untuk membina semula kotak sebenar 3D (untuk sampel positif) dan buang sampel negatif masing-masing.

Sumbangan Utama

Kertas kerja ini mencadangkan rangka kerja pengesanan berasaskan pertanyaan jarang baharu, yang menggunakan objek 2D berkualiti tinggi sebelum menjana pertanyaan penyesuaian 3D, dengan itu mengembangkan julat persepsi pengesanan 3D.
Artikel ini mereka bentuk modul Pengagregatan Sedar Perspektif, yang mengagregatkan ciri visual daripada skala dan perspektif yang berbeza, dan strategi Denoising 3D berdasarkan jarak sasaran untuk menyelesaikan masalah penyebaran ralat pertanyaan dan masalah penumpuan rangka kerja.
Hasil eksperimen pada set data Argoverse 2 jarak jauh menunjukkan bahawa Far3D mengatasi kaedah lihat sekeliling sebelumnya dan mengatasi beberapa kaedah berasaskan lidar. Dan keumumannya disahkan pada set data nuScenes.

Reka bentuk model

Gambaran keseluruhan proses Far3D:

Masukkan imej sekeliling ke dalam rangkaian tulang belakang dan lapisan FPN, mengekodkan ciri imej 2D dan mengekodkannya dengan parameter kamera.
Menggunakan pengesan 2D dan rangkaian ramalan kedalaman untuk menjana kotak objek 2D yang boleh dipercayai dan kedalaman sepadannya, yang kemudiannya ditayangkan ke dalam ruang 3D melalui transformasi kamera.
Pertanyaan penyesuaian 3D yang dijana digabungkan dengan pertanyaan global 3D awal dan diregres secara berulang oleh lapisan penyahkod untuk meramalkan kotak objek 3D. Tambahan pula, model boleh melaksanakan pemodelan siri masa melalui penyebaran pertanyaan jangka panjang.

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

Penggabungan Sedar Perspektif:

Untuk memperkenalkan ciri berbilang skala kepada model pengesanan jarak jauh, artikel ini menggunakan perhatian boleh ubah bentuk spatial 3D. Ia mula-mula melakukan pensampelan mengimbangi berhampiran kedudukan 3D yang sepadan dengan pertanyaan, dan kemudian mengagregatkan ciri imej melalui transformasi paparan 3D-2D. Kelebihan kaedah ini dan bukannya perhatian global dalam siri PETR ialah kerumitan pengiraan boleh dikurangkan dengan ketara. Khususnya, untuk setiap titik rujukan pertanyaan dalam ruang 3D, model mempelajari offset pensampelan M di sekelilingnya dan menayangkan titik offset ini ke dalam ciri paparan 2D yang berbeza.

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

Selepas itu, pertanyaan 3D berinteraksi dengan ciri sampel yang diperoleh melalui unjuran. Dengan cara ini, pelbagai ciri daripada perspektif dan skala yang berbeza akan disatukan ke dalam pertanyaan tiga dimensi dengan mempertimbangkan kepentingan relatifnya.

Range-modulated 3D Denoising:

Pertanyaan 3D dengan jarak berbeza mempunyai kesukaran regresi yang berbeza, yang berbeza daripada kaedah Denoising 2D sedia ada (seperti DN-DETR, pertanyaan 2D yang biasanya dilayan sama). Perbezaan dalam kesukaran datang daripada ketumpatan padanan pertanyaan dan penyebaran ralat. Di satu pihak, darjah padanan pertanyaan yang sepadan dengan objek jauh adalah lebih rendah daripada objek berdekatan. Sebaliknya, apabila memperkenalkan prior 2D dalam pertanyaan penyesuaian 3D, ralat kecil dalam kotak objek 2D akan dikuatkan, apatah lagi kesan ini akan meningkat apabila jarak objek meningkat. Oleh itu, beberapa pertanyaan berhampiran kotak GT boleh dianggap sebagai pertanyaan positif, sementara yang lain dengan sisihan yang jelas harus dianggap sebagai pertanyaan negatif. Kertas kerja ini mencadangkan kaedah Denoising 3D yang bertujuan untuk mengoptimumkan sampel positif tersebut dan terus membuang sampel negatif.

Secara khusus, pengarang membina pertanyaan bising berasaskan GT dengan menambahkan kumpulan sampel positif dan negatif secara serentak. Untuk kedua-dua jenis, hingar rawak digunakan berdasarkan lokasi dan saiz objek untuk memudahkan pembelajaran denoising dalam persepsi jarak jauh. Secara khusus, sampel positif ialah titik rawak dalam kotak 3D, manakala sampel negatif mengenakan offset yang lebih besar pada GT, dan julat offset berubah mengikut jarak objek. Kaedah ini boleh mensimulasikan sampel positif dan positif palsu calon yang bising semasa latihan

Hasil eksperimen

Far3D mencapai prestasi tertinggi pada Argoverse 2 dengan julat penderiaan 150m. Dan selepas model dipertingkatkan, ia boleh mencapai prestasi beberapa kaedah berasaskan Lidar, menunjukkan potensi kaedah visual tulen.

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

Untuk mengesahkan prestasi generalisasi, pengarang juga menjalankan eksperimen pada set data nuScenes, menunjukkan bahawa ia mencapai prestasi SoTA pada kedua-dua set pengesahan dan set ujian.

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

Selepas eksperimen ablasi, kami sampai pada kesimpulan berikut: pertanyaan penyesuaian 3D, pengagregatan sedar perspektif dan penolakan 3D terlaras julat masing-masing mempunyai keuntungan tertentu

AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路

di atas kertas

Apakah kebaharuan artikel ini?
J: Kebaharuan utama adalah untuk menyelesaikan masalah persepsi adegan jarak jauh. Terdapat banyak masalah dalam melanjutkan kaedah sedia ada kepada senario jarak jauh, termasuk kos pengiraan dan kesukaran penumpuan. Penulis kertas ini mencadangkan rangka kerja yang cekap untuk tugasan ini. Walaupun setiap modul kelihatan biasa secara individu, semuanya berfungsi untuk pengesanan sasaran yang jauh dan mempunyai matlamat yang jelas.

S: Berbanding dengan BevFormer v2, apakah perbezaan antara MV2D?
A: MV2D terutamanya bergantung pada sauh 2D untuk mendapatkan ciri yang sepadan untuk mengikat 3D, tetapi tidak ada anggaran kedalaman yang jelas, jadi ketidakpastian akan menjadi agak besar untuk objek jauh, dan kemudian ia akan menjadi sukar untuk menumpu terutamanya BevFormer v2 It menyelesaikan jurang domain antara tulang belakang 2D dan adegan tugas 3D Secara amnya, tulang belakang yang telah dilatih pada tugas pengecaman 2D mempunyai keupayaan yang tidak mencukupi untuk mengesan pemandangan 3D, dan tidak meneroka masalah dalam tugasan jarak jauh.

S: Bolehkah masa dipertingkatkan, seperti penyebaran pertanyaan ditambah penyebaran ciri?
J: Ia boleh dilaksanakan secara teori, tetapi pertukaran kecekapan prestasi harus dipertimbangkan dalam aplikasi praktikal.

S: Adakah terdapat mana-mana kawasan yang memerlukan penambahbaikan? AAAI2024：Far3D - 创新的直接干到150m视觉3D目标检测思路 J: Kedua-dua isu panjang dan penunjuk penilaian jarak jauh patut diperbaiki. Pada sasaran 26 kelas seperti Argoverse 2, model tidak menunjukkan prestasi yang baik pada kelas ekor panjang dan akhirnya mengurangkan ketepatan purata, yang masih belum diterokai. Sebaliknya, menggunakan metrik bersatu untuk menilai objek jauh dan dekat mungkin tidak sesuai, yang menekankan keperluan untuk kriteria penilaian dinamik praktikal yang boleh disesuaikan dengan senario yang berbeza dalam dunia nyata.

🎜🎜Pautan asal: https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg🎜

Atas ialah kandungan terperinci AAAI2024: Far3D - Idea inovatif untuk secara langsung mencapai pengesanan sasaran 3D visual 150m. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Object for https

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.Artikel seterusnya：Menerobos dinding dimensi, X-Dreamer membawa teks berkualiti tinggi kepada penjanaan 3D, menyepadukan bidang penjanaan 2D dan 3D.

Artikel berkaitan

Lihat lagi