Rumah  >  Artikel  >  Peranti teknologi  >  Prestasi gabungan RV sangat mengagumkan! RCBEVDet: Radar juga mempunyai musim bunga, SOTA terkini!

Prestasi gabungan RV sangat mengagumkan! RCBEVDet: Radar juga mempunyai musim bunga, SOTA terkini!

WBOY
WBOYke hadapan
2024-04-02 11:49:33490semak imbas

Ditulis sebelum & pemahaman peribadi pengarang

Isu utama kertas perbincangan ini difokuskan ialah aplikasi teknologi pengesanan sasaran 3D dalam proses pemanduan autonomi. Walaupun pembangunan teknologi kamera penglihatan alam sekitar menyediakan maklumat semantik resolusi tinggi untuk pengesanan objek 3D, kaedah ini dihadkan oleh isu seperti ketidakupayaan untuk menangkap maklumat kedalaman dengan tepat dan prestasi buruk dalam cuaca buruk atau keadaan cahaya malap. Sebagai tindak balas kepada masalah ini, perbincangan mencadangkan kaedah pengesanan sasaran 3D berbilang mod baharu-RCBEVDet yang menggabungkan kamera pandangan sekeliling dan penderia radar gelombang milimeter yang menjimatkan. Kaedah ini menyediakan maklumat semantik yang lebih kaya dan penyelesaian kepada masalah seperti prestasi buruk dalam cuaca buruk atau keadaan cahaya malap dengan menggunakan maklumat daripada berbilang penderia secara menyeluruh. Sebagai tindak balas kepada masalah ini, perbincangan mencadangkan kaedah pengesanan sasaran 3D berbilang mod baharu-RCBEVDet yang menggabungkan kamera pandangan sekeliling dan penderia radar gelombang milimeter yang menjimatkan. Dengan menggunakan maklumat daripada penderia berbilang mod secara menyeluruh, RCBEVDet mampu memberikan maklumat semantik resolusi tinggi dan mempamerkan prestasi yang baik dalam cuaca buruk atau keadaan cahaya malap. Teras kaedah ini untuk menambah baik

RCBEVDet automatik terletak pada dua reka bentuk utama: RadarBEVNet dan Cross-Attention+Multi-Layer Fusion Module (CAMF). RadarBEVNet direka untuk mengekstrak ciri radar dengan cekap dan ia termasuk pengekod BEV (Pandangan Mata Burung) rangkaian tulang belakang radar dwi-strim RCS (Radar Cross Section). Reka bentuk sedemikian menggunakan pengekod berasaskan awan titik dan berasaskan pengubah untuk memproses titik radar, mengemas kini ciri titik radar secara interaktif dan menggunakan ciri RCS khusus radar sebagai maklumat terdahulu saiz sasaran untuk mengoptimumkan pengedaran ciri titik dalam ruang BEV. Modul CAMF menyelesaikan masalah ralat azimut mata radar melalui mekanisme perhatian silang berbilang mod, mencapai penjajaran dinamik peta ciri BEV radar dan kamera dan gabungan adaptif ciri berbilang modal melalui gabungan saluran dan ruang. Dalam pelaksanaannya, taburan ciri titik dalam ruang BEV dioptimumkan dengan mengemas kini secara interaktif ciri titik radar dan menggunakan ciri RCS khusus radar sebagai maklumat awal saiz sasaran. Modul CAMF menyelesaikan masalah ralat azimut mata radar melalui mekanisme perhatian silang berbilang mod, mencapai penjajaran dinamik peta ciri BEV radar dan kamera dan gabungan adaptif ciri berbilang modal melalui gabungan saluran dan ruang.

Prestasi gabungan RV sangat mengagumkan! RCBEVDet: Radar juga mempunyai musim bunga, SOTA terkini!

Kaedah baharu yang dicadangkan dalam kertas kerja menyelesaikan masalah sedia ada melalui perkara berikut:

  • Pengekstrak ciri radar yang cekap: Reka bentuk pengekod BEV melalui tulang belakang radar dwi-strim dan penderiaan RCS, khas untuk radar. data dioptimumkan untuk menyelesaikan kekurangan menggunakan pengekod yang direka untuk lidar memproses data radar.
  • Modul gabungan ciri radar-kamera yang berkuasa: Menggunakan mekanisme perhatian silang yang cacat, ia menangani masalah salah jajaran spatial antara imej sekeliling dan input radar, serta meningkatkan kesan gabungan.

Sumbangan utama kertas kerja adalah seperti berikut:

  1. Mencadangkan pengesan sasaran 3D berbilang mod kamera radar baru RCBEVDet, yang mencapai pengesanan sasaran 3D berketepatan tinggi, berkecekapan tinggi dan kukuh.
  2. RadarBEVNet direka bentuk, pengekstrak ciri yang cekap untuk data radar, yang meningkatkan kecekapan dan ketepatan pengekstrakan ciri melalui tulang belakang radar dwi-strim dan pengekod BEV yang sedar RCS.
  3. Modul Gabungan Berbilang Lapisan Perhatian Silang diperkenalkan untuk mencapai penjajaran tepat dan gabungan ciri radar dan kamera yang cekap melalui mekanisme perhatian silang yang cacat.
  4. Mencapai prestasi tercanggih baharu untuk pengesanan objek 3D berbilang mod kamera radar pada set data nuScenes dan VoD, sambil mencapai keseimbangan terbaik antara ketepatan dan kelajuan serta menunjukkan prestasi yang baik dalam keteguhan senario kegagalan sensor.

Penjelasan terperinci tentang RCBEVDet

Prestasi gabungan RV sangat mengagumkan! RCBEVDet: Radar juga mempunyai musim bunga, SOTA terkini!

RadarBEVNet

RadarBEVNet ialah seni bina rangkaian yang dicadangkan dalam kertas kerja ini untuk kenderaan lombong yang berkesan BEV (peta penampilan dua teras burung) strim radar Rangkaian tulang belakang dan pengekod BEV yang sedar RCS (Radar Cross Section). Rangkaian tulang belakang radar dwi-strim digunakan untuk mengekstrak perwakilan ciri yang kaya daripada data radar berbilang saluran. Ia dibina pada rangkaian neural convolutional dalam (CNN), berselang seli antara lilitan bersarang dan lapisan pengumpulan untuk pengekstrakan ciri dan operasi pengurangan dimensi untuk mendapatkan secara beransur-ansur tulang belakang radar Dwi-strim

Rangkaian tulang belakang terdiri daripada tulang belakang berasaskan titik dan penukar -berasaskan tulang belakang. Rangkaian tulang belakang berasaskan titik mempelajari ciri radar melalui perceptron berbilang lapisan (MLP) dan operasi pengumpulan maksimum Proses ini boleh dipermudahkan kepada formula berikut:

di sini mewakili ciri titik radar Selepas meningkatkan dimensi ciri melalui MLP, maksimum Operasi pengumpulan mengekstrak maklumat global dan menggabungkannya dengan ciri dimensi tinggi.

Penukar memperkenalkan mekanisme perhatian termodulat jarak (DMSA) berdasarkan blok gangguan Dengan mengambil kira maklumat jarak antara titik radar, ia mengoptimumkan keupayaan model untuk mengumpulkan maklumat bersebelahan dan menggalakkan penumpuan model. Perhatian diri mekanisme DMSA boleh dinyatakan sebagai:

Pengekod BEV sedar RCS

Untuk menyelesaikan masalah jarang ciri BEV yang disebabkan oleh pengekod BEV radar tradisional, pengekod BEV yang sedar RCS dicadangkan. Ia menggunakan RCS sebagai maklumat awal saiz sasaran dan menyebarkan ciri titik radar kepada berbilang piksel dalam ruang BEV dan bukannya satu piksel untuk meningkatkan ketumpatan ciri BEV. Proses ini dilaksanakan melalui formula berikut:

di mana, ialah peta berat Gaussian BEV berdasarkan RCS, yang dioptimumkan dengan memaksimumkan peta berat semua titik radar. Akhir sekali, ciri-ciri yang diperolehi oleh penyebaran RCS disambungkan dan diproses oleh MLP untuk mendapatkan ciri BEV yang sedar RCS akhir.

Secara keseluruhan, RadarBEVNet mengekstrak ciri data radar dengan cekap dengan menggabungkan rangkaian tulang belakang radar dwi-strim dan pengekod BEV yang sedar RCS, dan menggunakan RCS sebagai priori saiz sasaran untuk mengoptimumkan pengedaran ciri ruang BEV, memberikan asas untuk gabungan Multimodal seterusnya menyediakan asas yang kukuh.

Prestasi gabungan RV sangat mengagumkan! RCBEVDet: Radar juga mempunyai musim bunga, SOTA terkini!

Modul Gabungan Berbilang Lapisan Perhatian Silang

Modul Gabungan Berbilang Lapisan Perhatian Silang (CAMF) ialah struktur rangkaian termaju untuk penjajaran dinamik dan gabungan ciri berbilang mod, terutamanya untuk penjajaran dan dinamik. dan reka bentuk gabungan ciri Bird's Eye View (BEV) janaan kamera. Modul ini terutamanya menyelesaikan masalah salah jajaran ciri yang disebabkan oleh ralat azimut awan titik radar Melalui mekanisme perhatian silang boleh ubah bentuk (Deformable Cross-Attention), ia secara berkesan menangkap sisihan kecil mata radar dan mengurangkan perhatian silang standard. kerumitan pengiraan.

CAMF menggunakan mekanisme perhatian silang yang cacat untuk menyelaraskan ciri BEV kamera dan radar. Memandangkan jumlah ciri BEV untuk kamera dan radar, benam kedudukan boleh dipelajari mula-mula ditambah kepada jumlah dan kemudian ditukar kepada pertanyaan dan titik rujukan sebagai kunci dan nilai. Pengiraan perhatian silang ubah bentuk berbilang kepala boleh dinyatakan sebagai:

di mana mewakili indeks kepala perhatian, mewakili indeks kekunci pensampelan, dan merupakan jumlah bilangan kunci pensampelan. mewakili offset pensampelan dan ialah berat perhatian yang dikira oleh dan .

Prestasi gabungan RV sangat mengagumkan! RCBEVDet: Radar juga mempunyai musim bunga, SOTA terkini!

Selepas menjajarkan ciri BEV kamera dan radar melalui perhatian silang, CAMF menggunakan saluran dan lapisan gabungan ruang untuk mengagregat ciri BEV berbilang modal. Khususnya, dua ciri BEV pertama kali digabungkan, dan kemudian dimasukkan ke dalam blok CBR (fungsi normalisasi-pengaktifan kumpulan konvolusi) dan ciri bercantum diperoleh melalui sambungan baki. Blok CBR secara berurutan terdiri daripada lapisan konvolusi, lapisan normalisasi kelompok dan fungsi pengaktifan ReLU. Selepas itu, tiga blok CBR digunakan secara berturut-turut untuk memadukan lagi ciri pelbagai mod.

Melalui proses di atas, CAMF mencapai penjajaran yang tepat dan gabungan cekap radar dan ciri BEV kamera, memberikan maklumat ciri yang kaya dan tepat untuk pengesanan sasaran 3D, sekali gus meningkatkan prestasi pengesanan.

Eksperimen berkaitan

Prestasi gabungan RV sangat mengagumkan! RCBEVDet: Radar juga mempunyai musim bunga, SOTA terkini!

Dalam perbandingan hasil pengesanan sasaran 3D pada set pengesahan VoD, RadarBEVNet mencapai prestasi purata ketepatan (mAP) dalam keseluruhan kawasan anotasi dan kawasan yang menarik dengan menggabungkan kamera dan data radar menunjukkan prestasi cemerlang. Khususnya, untuk keseluruhan kawasan beranotasi, RadarBEVNet mencapai 40.63%, 38.86% dan 70.48% nilai AP masing-masing dalam pengesanan kereta, pejalan kaki dan penunggang basikal, meningkatkan mAP komprehensif kepada 49.99%. Dalam bidang yang diminati, iaitu, dalam saluran pemanduan yang berhampiran dengan kenderaan, prestasi RadarBEVNet lebih cemerlang, mencapai 72.48%, 49.89%, dan 87.01% nilai AP dalam pengesanan kereta, pejalan kaki, dan penunggang basikal masing-masing, dan mAP komprehensif mencapai 69.80%.

Keputusan ini mendedahkan beberapa perkara penting. Pertama, RadarBEVNet boleh menggunakan sepenuhnya kelebihan pelengkap kedua-dua sensor dengan menggabungkan input kamera dan radar secara berkesan, meningkatkan prestasi pengesanan keseluruhan. Berbanding dengan kaedah yang hanya menggunakan radar, seperti PointPillar dan RadarPillarNet, RadarBEVNet mempunyai peningkatan yang ketara dalam mAP komprehensif, yang menunjukkan bahawa gabungan pelbagai mod amat penting untuk meningkatkan ketepatan pengesanan. Kedua, RadarBEVNet berprestasi baik terutamanya dalam bidang yang diminati, yang amat kritikal untuk aplikasi pemanduan autonomi kerana sasaran dalam bidang yang diminati biasanya mempunyai kesan yang paling besar pada keputusan pemanduan masa nyata. Akhir sekali, walaupun nilai AP RadarBEVNet adalah lebih rendah sedikit daripada beberapa kaedah mod tunggal atau pelbagai mod lain dalam pengesanan kereta dan pejalan kaki, RadarBEVNet menunjukkan kelebihan prestasi keseluruhannya dalam pengesanan penunggang basikal dan prestasi mAP yang komprehensif. RadarBEVNet mencapai prestasi cemerlang pada pengesahan VoD yang ditetapkan dengan menggabungkan data berbilang mod daripada kamera dan radar, terutamanya menunjukkan keupayaan pengesanan yang kukuh dalam bidang yang diminati yang penting untuk pemanduan autonomi, membuktikan keberkesanannya sebagai Potensi kaedah pengesanan objek 3D.

Prestasi gabungan RV sangat mengagumkan! RCBEVDet: Radar juga mempunyai musim bunga, SOTA terkini!

Percubaan ablasi ini menunjukkan peningkatan berterusan RadarBEVNet dalam prestasi pengesanan objek 3D kerana ia secara beransur-ansur menambah komponen utama. Bermula dari model garis dasar BEVDepth, komponen tambahan pada setiap langkah meningkatkan NDS (metrik teras, mencerminkan ketepatan dan kesempurnaan pengesanan) dan mAP (purata ketepatan, mencerminkan keupayaan model untuk mengesan objek).

  1. Tambah maklumat masa: Dengan memperkenalkan maklumat masa, NDS dan mAP dipertingkatkan masing-masing sebanyak 4.4 dan 5.4 mata peratusan. Ini menunjukkan bahawa maklumat temporal sangat berkesan dalam meningkatkan ketepatan dan keteguhan pengesanan objek 3D, mungkin kerana dimensi temporal menyediakan maklumat dinamik tambahan yang membantu model lebih memahami ciri dinamik pemandangan dan objek.
  2. Tambah PointPillar+BEVFusion (berdasarkan gabungan radar dan kamera): Langkah ini meningkatkan lagi NDS dan mAP, masing-masing meningkat sebanyak 1.7 dan 1.8 mata peratusan. Ini menunjukkan bahawa dengan menggabungkan data radar dan kamera, model boleh memperoleh pemahaman pemandangan yang lebih komprehensif, menebus pengehadan data modal tunggal.
  3. Memperkenalkan RadarBEVNet: NDS dan mAP meningkat semula masing-masing sebanyak 2.1 dan 3.0 mata peratusan. Sebagai pengekstrak ciri radar yang cekap, RadarBEVNet mengoptimumkan pemprosesan data radar dan meningkatkan kualiti dan keberkesanan ciri, yang penting untuk meningkatkan prestasi pengesanan keseluruhan.
  4. Tambah CAMF (Modul Gabungan Berbilang Lapisan Perhatian Silang): Melalui penjajaran dan gabungan ciri yang halus, NDS meningkat sebanyak 0.7 mata peratusan, dan mAP dipertingkatkan sedikit kepada 45.6, menunjukkan keberkesanan dalam gabungan ciri. Walaupun peningkatan dalam langkah ini tidak begitu ketara seperti langkah sebelumnya, ia masih membuktikan kepentingan penjajaran ciri yang tepat dalam meningkatkan prestasi pengesanan semasa proses gabungan pelbagai mod.
  5. Tambah penyeliaan masa: Akhirnya, selepas pengenalan penyeliaan masa, NDS meningkat sedikit sebanyak 0.4 mata peratusan kepada 56.8, manakala mAP menurun sedikit sebanyak 0.3 mata peratusan kepada 45.3. Ini menunjukkan bahawa penyeliaan temporal boleh meningkatkan lagi prestasi model dalam dimensi temporal, walaupun sumbangan kepada mAP mungkin sedikit dihadkan oleh kesan tetapan eksperimen tertentu atau pengedaran data.

Secara keseluruhannya, siri eksperimen ablasi ini jelas menunjukkan sumbangan setiap komponen utama dalam RadarBEVNet untuk meningkatkan prestasi pengesanan objek 3D, daripada pengenalan maklumat temporal kepada strategi gabungan pelbagai mod yang kompleks, setiap langkah Ia membawa peningkatan prestasi kepada model. Khususnya, pemprosesan dan strategi gabungan yang canggih untuk data radar dan kamera membuktikan kepentingan pemprosesan data berbilang modal dalam persekitaran pemanduan autonomi yang kompleks.

Perbincangan

Kaedah RadarBEVNet yang dicadangkan dalam kertas kerja secara berkesan meningkatkan ketepatan dan keteguhan pengesanan sasaran 3D dengan menggabungkan data berbilang mod daripada kamera dan radar, terutamanya dalam senario pemanduan autonomi yang kompleks. Dengan memperkenalkan RadarBEVNet dan Cross-Attention Multi-Layer Fusion Module (CAMF), RadarBEVNet bukan sahaja mengoptimumkan proses pengekstrakan ciri data radar, tetapi juga mencapai penjajaran ciri yang tepat dan gabungan antara data radar dan kamera, sekali gus mengatasi masalah menggunakan satu had data sensor, seperti ralat galas radar dan kemerosotan prestasi kamera dalam cahaya malap atau keadaan cuaca buruk.

Dari segi kelebihan, sumbangan utama RadarBEVNet ialah keupayaannya untuk memproses dan menggunakan maklumat pelengkap dengan berkesan antara data berbilang modal, meningkatkan ketepatan pengesanan dan keteguhan sistem. Pengenalan RadarBEVNet menjadikan pemprosesan data radar lebih cekap, dan modul CAMF memastikan gabungan berkesan data penderia yang berbeza, menggantikan kelemahan masing-masing. Selain itu, RadarBEVNet menunjukkan prestasi cemerlang pada berbilang set data dalam eksperimen, terutamanya dalam bidang minat yang penting dalam pemanduan autonomi, menunjukkan potensinya dalam senario aplikasi praktikal.

Dari segi kekurangan, walaupun RadarBEVNet telah mencapai hasil yang luar biasa dalam bidang pengesanan sasaran 3D berbilang mod, kerumitan pelaksanaannya juga telah meningkat dengan sewajarnya dan mungkin memerlukan lebih banyak sumber pengkomputeran dan masa pemprosesan, yang mengehadkan penggunaannya kepada sesuatu yang tertentu. takat. Selain itu, walaupun RadarBEVNet berprestasi baik dalam pengesanan penunggang basikal dan prestasi keseluruhan, masih terdapat ruang untuk penambahbaikan dalam prestasi pada kategori tertentu (seperti kereta dan pejalan kaki), yang mungkin memerlukan pengoptimuman algoritma lanjut atau strategi gabungan ciri yang lebih cekap untuk diselesaikan.

Ringkasnya, RadarBEVNet telah menunjukkan kelebihan prestasi yang ketara dalam bidang pengesanan objek 3D melalui strategi gabungan pelbagai mod yang inovatif. Walaupun terdapat beberapa batasan, seperti kerumitan pengiraan yang lebih tinggi dan ruang untuk peningkatan prestasi pada kategori pengesanan tertentu, potensinya dalam meningkatkan ketepatan dan keteguhan sistem pemanduan autonomi tidak boleh diabaikan. Kerja masa hadapan boleh menumpukan pada mengoptimumkan kecekapan pengiraan algoritma dan meningkatkan lagi prestasinya pada pelbagai pengesanan sasaran untuk menggalakkan penggunaan meluas RadarBEVNet dalam aplikasi pemanduan autonomi sebenar.

Kesimpulan

Makalah ini memperkenalkan RadarBEVNet dan Cross-Attention Multi-Layer Fusion Module (CAMF) dengan menggabungkan data kamera dan radar, menunjukkan peningkatan prestasi yang ketara dalam bidang pengesanan sasaran 3D, terutamanya dalam kunci pemanduan autonomi Prestasi cemerlang di tempat kejadian. Ia secara berkesan menggunakan maklumat pelengkap antara data berbilang modal untuk meningkatkan ketepatan pengesanan dan kekukuhan sistem. Walaupun menghadapi cabaran kerumitan pengiraan yang tinggi dan ruang untuk peningkatan prestasi dalam beberapa kategori, kami telah menunjukkan potensi dan nilai yang besar dalam menggalakkan pembangunan teknologi pemanduan autonomi, terutamanya dalam meningkatkan keupayaan persepsi sistem pemanduan autonomi. Kerja masa hadapan boleh menumpukan pada mengoptimumkan kecekapan algoritma dan meningkatkan lagi prestasi pengesanan untuk menyesuaikan diri dengan lebih baik dengan keperluan aplikasi pemanduan autonomi masa nyata.

Atas ialah kandungan terperinci Prestasi gabungan RV sangat mengagumkan! RCBEVDet: Radar juga mempunyai musim bunga, SOTA terkini!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam