Rumah  >  Artikel  >  Peranti teknologi  >  Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

PHPz
PHPzke hadapan
2024-04-19 16:01:24310semak imbas

Pengarang secara peribadi memahami

Salah satu tugas asas pemanduan autonomi ialah pengesanan sasaran tiga dimensi, dan banyak kaedah kini dilaksanakan berdasarkan kaedah gabungan pelbagai sensor. Jadi mengapa gabungan berbilang sensor diperlukan sama ada gabungan lidar dan kamera, atau radar gelombang milimeter dan gabungan kamera, tujuan utamanya adalah untuk menggunakan sambungan pelengkap antara awan titik dan imej untuk meningkatkan ketepatan pengesanan sasaran . Dengan aplikasi seni bina Transformer yang berterusan dalam bidang penglihatan komputer, kaedah berasaskan mekanisme perhatian telah meningkatkan ketepatan gabungan antara pelbagai sensor. Kedua-dua kertas kerja yang dikongsi adalah berdasarkan seni bina ini dan mencadangkan kaedah gabungan baru untuk menggunakan lebih banyak maklumat berguna bagi modaliti masing-masing dan mencapai gabungan yang lebih baik.

TransFusion:

Sumbangan utama

Lidar dan kamera ialah dua penderia pengesanan sasaran tiga dimensi yang penting dalam pemanduan autonomi, bagaimanapun, dalam gabungan penderia, mereka menghadapi masalah ketepatan imej pengesanan yang rendah syarat . Kaedah gabungan berasaskan titik adalah untuk menggabungkan lidar dan kamera melalui perkaitan keras, yang akan membawa kepada beberapa masalah: a) hanya penyambungan awan titik dan ciri imej, dengan kehadiran ciri imej berkualiti rendah, prestasi pengesanan akan merosot dengan serius ;b) Mencari korelasi keras antara awan titik jarang dan imej membuang ciri imej berkualiti tinggi dan sukar untuk diselaraskan. Untuk menyelesaikan masalah ini, kaedah perkaitan lembut dicadangkan. Kaedah ini menganggap lidar dan kamera sebagai dua pengesan bebas, bekerjasama antara satu sama lain dan memanfaatkan sepenuhnya kelebihan kedua-dua pengesan itu. Pertama, pengesan objek tradisional digunakan untuk mengesan objek dan menjana kotak sempadan, dan kemudian kotak sempadan dan awan titik dipadankan untuk mendapatkan skor yang mana kotak sempadan setiap titik dikaitkan. Akhir sekali, ciri imej yang sepadan dengan kotak tepi digabungkan dengan ciri yang dihasilkan oleh awan titik. Kaedah ini berkesan boleh mengelakkan penurunan ketepatan pengesanan yang disebabkan oleh keadaan jalur imej yang lemah Pada masa yang sama, kertas kerja ini memperkenalkan TransFusion, rangka kerja gabungan untuk lidar dan kamera untuk menyelesaikan masalah korelasi antara kedua-dua sensor. Sumbangan utama adalah seperti berikut:

Cadangkan model gabungan pengesanan 3D berasaskan transformer bagi lidar dan kamera, yang menunjukkan keteguhan yang sangat baik kepada kualiti imej yang lemah dan salah penjajaran penderia
  • Memperkenalkan beberapa kaedah untuk pertanyaan objek Pelarasan yang mudah namun berkesan untuk diperbaiki kualiti ramalan kotak sempadan awal untuk gabungan imej, dan modul pemulaan pertanyaan berpandukan imej yang direka untuk mengendalikan objek yang sukar dikesan dalam awan titik
  • bukan sahaja melaksanakan pengesanan 3D lanjutan dalam prestasi nuScenes, dan juga memanjangkan model kepada; tugas pengesanan tiga dimensi dan mencapai keputusan yang baik. . . Model ini bergantung pada rangkaian tulang belakang 3D dan 2D standard untuk mengekstrak ciri LiDAR BEV dan ciri imej, dan kemudian terdiri daripada dua lapisan penyahkod Transformer: penyahkod lapisan pertama menggunakan awan titik jarang untuk menjana kotak sempadan awal, penyahkod lapisan kedua menukar yang pertama lapisan Pertanyaan objek digabungkan dengan pertanyaan ciri imej untuk mendapatkan hasil pengesanan yang lebih baik. Mekanisme perhatian modulasi spatial (SMCA) dan strategi pertanyaan berpandukan imej juga diperkenalkan untuk meningkatkan ketepatan pengesanan. Melalui pengesanan model ini, ciri imej yang lebih baik dan ketepatan pengesanan boleh diperolehi.
  • Query Initialization

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?LiDAR-Camera Fusion

Jika objek hanya mengandungi sebilangan kecil titik lidar, maka hanya bilangan ciri imej yang sama boleh diperoleh, membazirkan maklumat semantik Imej berkualiti tinggi . Oleh itu, kertas kerja ini mengekalkan semua ciri imej dan menggunakan mekanisme perhatian silang dan kaedah penyesuaian dalam Transformer untuk melakukan gabungan ciri, supaya rangkaian boleh menyesuaikan lokasi dan maklumat daripada imej secara adaptif. Untuk mengurangkan masalah salah jajaran ruang bagi ciri LiDAR BEV dan ciri imej yang datang daripada penderia yang berbeza,

modul Silang Perhatian Bermodul Ruang (SMCA)

direka, yang melepasi Gaussian bulat 2D di sekitar pusat 2D setiap unjuran pertanyaan berat topeng merentas perhatian.

Permulaan Pertanyaan Berpandukan Imej (Permulaan Pertanyaan Berpandukan Imej)

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

Modul Pertanyaan Berpandukan Imej 2

Modul ini menggunakan maklumat lidar dan imej sebagai pertanyaan objek pada masa yang sama, dengan menghantar ciri imej dan ciri BEV lidar ke dalam rangkaian mekanisme perhatian silang, menayangkannya pada satah BEV dan menjana ciri BEV bercantum. Seperti yang ditunjukkan dalam Rajah 2, ciri imej berbilang paparan pertama kali dilipat di sepanjang paksi ketinggian sebagai nilai utama rangkaian mekanisme perhatian silang, dan ciri BEV lidar dihantar ke rangkaian perhatian sebagai pertanyaan untuk mendapatkan ciri BEV bercantum, yang digunakan untuk ramalan peta haba , dan dipuratakan dengan peta haba lidar sahaja Ŝ untuk mendapatkan peta haba akhir Ŝ untuk memilih dan memulakan pertanyaan sasaran. Operasi sedemikian membolehkan model mengesan sasaran yang sukar dikesan dalam awan titik lidar.

Eksperimen

Set Data dan Metrik

set data nuScenes ialah set data pemanduan autonomi berskala besar untuk pengesanan dan penjejakan 3D, yang mengandungi 700, 150 dan 150, kesahihan, dan digunakan untuk latihan. Setiap bingkai mengandungi awan titik lidar dan enam imej penentukuran yang meliputi medan pandangan mendatar 360 darjah. Untuk pengesanan 3D, metrik utama ialah purata ketepatan purata (mAP) dan skor pengesanan nuScenes (NDS). mAP ditakrifkan oleh jarak pusat BEV dan bukannya IoU 3D, dan mAP akhir dikira dengan purata ambang jarak 0.5m, 1m, 2m, 4m untuk 10 kategori. NDS ialah ukuran komprehensif bagi mAP dan ukuran atribut lain, termasuk terjemahan, skala, orientasi, halaju dan atribut kotak lain. .

Dataset Waymo termasuk 798 babak untuk latihan dan 202 babak untuk pengesahan. Penunjuk rasmi ialah mAP dan mAPH (mAP ditimbang mengikut ketepatan tajuk). mAP dan mAPH ditakrifkan berdasarkan ambang IoU 3D, iaitu 0.7 untuk kenderaan dan 0.5 untuk pejalan kaki dan penunggang basikal. Metrik ini dipecahkan lagi kepada dua tahap kesukaran: LEVEL1 untuk kotak sempadan dengan lebih daripada 5 mata lidar dan LEVEL2 untuk kotak sempadan dengan sekurang-kurangnya satu titik lidar. Tidak seperti kamera 360 darjah nuScenes, kamera Waymo hanya meliputi kira-kira 250 darjah secara mendatar.

Latihan Pada set data nuScenes, gunakan DLA34 sebagai rangkaian tulang belakang 2D imej dan bekukan pemberatnya, tetapkan saiz imej kepada 448×800; pilih VoxelNet sebagai rangkaian tulang belakang 3D lidar. Proses latihan dibahagikan kepada dua peringkat: peringkat pertama hanya menggunakan data LiDAR sebagai input, dan menggunakan penyahkod lapisan pertama dan rangkaian suapan FFN untuk melatih tulang belakang 3D sebanyak 20 kali untuk menjana ramalan kotak sempadan 3D awal; -Kamera Modul pemulaan pertanyaan gabungan dan berpandukan imej dilatih selama 6 kali. Imej kiri ialah seni bina lapisan penyahkod transformer yang digunakan untuk ramalan kotak sempadan awal; imej kanan ialah seni bina lapisan penyahkod pengubah yang digunakan untuk gabungan LiDAR-Camera.

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

Figure 3 Reka Bentuk Lapisan Decoder

Perbandingan dengan kaedah terkini

First Bandingkan prestasi transfusi dan kaedah SOTA lain pada tugas pengesanan objek 3D. set ujian nuScenes , dapat dilihat bahawa kaedah ini telah mencapai prestasi terbaik pada masa itu (mAP ialah 68.9%, NDS ialah 71.7%). TransFusion-L hanya menggunakan lidar untuk pengesanan, dan prestasi pengesanannya jauh lebih baik daripada kaedah pengesanan mod tunggal sebelumnya, malah melebihi beberapa kaedah berbilang modal Ini disebabkan terutamanya oleh mekanisme perkaitan dan strategi pemulaan pertanyaan. Jadual 2 menunjukkan keputusan TAHAP 2 mAPH pada set pengesahan Waymo. Perbandingan Jadual 1 dengan kaedah SOTA dalam ujian nuScenes rangka kerja gabungan yang berbeza adalah direka untuk mengesahkan, kekukuhan. Tiga rangka kerja gabungan ialah penyambungan titik demi titik dan gabungan ciri lidar dan imej (CC), strategi gabungan peningkatan titik (PA) dan TransFusion. Seperti yang ditunjukkan dalam Jadual 3, dengan membahagikan set data nuScenes kepada siang dan malam, kaedah TransFusion akan membawa peningkatan prestasi yang lebih besar pada waktu malam. Semasa proses inferens, ciri-ciri imej ditetapkan kepada sifar untuk mencapai kesan membuang secara rawak beberapa imej dalam setiap bingkai Seperti yang dapat dilihat dalam Jadual 4, apabila beberapa imej tidak tersedia semasa proses inferens, prestasi pengesanan. akan menurun dengan ketara, di mana mAP CC dan PA masing-masing turun sebanyak 23.8% dan 17.2%, manakala TransFusion kekal pada 61.7%. Penderia yang tidak ditentukur juga akan sangat mempengaruhi prestasi pengesanan sasaran 3D Tetapan eksperimen secara rawak menambah offset terjemahan kepada matriks transformasi daripada kamera ke lidar, seperti yang ditunjukkan dalam Rajah 4. Apabila kedua-dua sensor diimbangi oleh 1m, mAP. TransFusion Ia hanya menurun sebanyak 0.49%, manakala mAP PA dan CC masing-masing menurun sebanyak 2.33% dan 2.85%.

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

Jadual 3 mAP pada waktu siang dan malam

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

Jadual 4 mAP di bawah bilangan imej yang berbeza

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

Rajah 4 mAP di bawah penjajaran penderia

Ia boleh melakukan eksperimen dengan jadual

) f) dapat dilihat daripada keputusan bahawa tanpa pemulaan pertanyaan, prestasi pengesanan menurun dengan banyak Walaupun meningkatkan bilangan pusingan latihan dan bilangan lapisan penyahkod boleh meningkatkan prestasi, ia masih tidak dapat mencapai kesan yang ideal, yang juga bermakna Ia terbukti. dari sisi bahawa strategi pertanyaan permulaan yang dicadangkan boleh mengurangkan bilangan lapisan rangkaian. Seperti yang ditunjukkan dalam Jadual 6, gabungan ciri imej dan pemulaan pertanyaan berpandukan imej membawa keuntungan mAP masing-masing sebanyak 4.8% dan 1.6%. Dalam Jadual 7, melalui perbandingan ketepatan dalam julat yang berbeza, prestasi pengesanan TransFusion dalam objek yang sukar dikesan atau kawasan terpencil telah dipertingkatkan berbanding pengesanan lidar sahaja.

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

Jadual 5 Eksperimen ablasi modul permulaan pertanyaan

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

Jadual 6 Eksperimen ablasi bahagian gabungan

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

Jadual 7 Jarak antara objek

Jadual 7 Jarak antara objek Kesimpulan

Rangka kerja pengesanan 3D kamera lidar berasaskan Transformer yang berkesan dan teguh direka bentuk dengan mekanisme korelasi lembut yang boleh menyesuaikan secara adaptif lokasi dan maklumat yang perlu diperoleh daripada imej. TransFusion mencapai hasil terkini pada papan pendahulu pengesanan dan penjejakan nuScenes serta menunjukkan hasil yang kompetitif pada penanda aras pengesanan Waymo. Eksperimen ablasi yang meluas menunjukkan keteguhan kaedah ini kepada keadaan imej yang buruk.

DeepInteraction:

Sumbangan Utama:

Masalah utama yang diselesaikan ialah strategi gabungan pelbagai mod sedia ada mengabaikan maklumat berguna khusus modaliti, akhirnya menghalang prestasi model. Awan titik menyediakan kedudukan yang diperlukan dan maklumat geometri pada peleraian rendah, dan imej memberikan maklumat rupa yang kaya pada resolusi tinggi, jadi gabungan maklumat rentas modal amat penting untuk meningkatkan prestasi pengesanan sasaran 3D. Modul gabungan sedia ada, seperti yang ditunjukkan dalam Rajah 1(a), mengintegrasikan maklumat kedua-dua modaliti ke dalam ruang rangkaian bersatu Walau bagaimanapun, berbuat demikian akan menghalang beberapa maklumat daripada disepadukan ke dalam perwakilan bersatu, mengurangkan beberapa maklumat khusus. Kelebihan perwakilan modaliti. Untuk mengatasi batasan di atas, artikel mencadangkan modul interaksi modal baharu (Rajah 1(b) Idea utama ialah mempelajari dan mengekalkan dua perwakilan khusus modaliti untuk mencapai interaksi antara modaliti. Sumbangan utama adalah seperti berikut:
  • mencadangkan strategi interaksi modal baharu untuk pengesanan sasaran 3D berbilang modal, bertujuan untuk menyelesaikan had asas strategi gabungan modal sebelumnya yang kehilangan maklumat berguna dalam setiap modaliti
  • direka seni bina Interaksi Dalam pengekod interaktif ciri berbilang modal dan penyahkod interaktif ramalan ciri berbilang modal. . dua maklumat adegan khusus modaliti yang diekstrak digunakan sebagai input, dan dua maklumat ciri yang dipertingkatkan dijana. Setiap lapisan pengekod merangkumi: i) interaksi ciri berbilang modal (MMRI); ii) pembelajaran ciri intra-modal iii) penyepaduan perwakilan.

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

Rajah 2 Modul interaksi perwakilan multimod

.

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

Butiran eksperimen

Rangkaian tulang belakang imej ialah ResNet50 Untuk menjimatkan kos pengkomputeran, imej input diubah saiznya kepada 1/2 daripada saiz asal sebelum memasuki rangkaian, dan berat cabang imej dibekukan semasa. latihan. Saiz voxel ditetapkan kepada (0.075m, 0.075m, 0.2m), julat pengesanan ditetapkan kepada [-54m, 54m] untuk paksi-X dan paksi-Y, dan [-5m, 3m] untuk Z- paksi. Reka bentuk 2 lapisan lapisan pengekod dan 5 lapisan penyahkod. Selain itu, dua model ujian penyerahan dalam talian disediakan: peningkatan masa ujian (TTA) dan penyepaduan model, dan kedua-dua tetapan itu masing-masing dipanggil DeepInteraction-large dan DeepInteraction-e. Antaranya, DeepInteraction-large menggunakan Swin-Tiny sebagai rangkaian tulang belakang imej, dan menggandakan bilangan saluran blok konvolusi dalam rangkaian tulang belakang lidar Saiz voxel ditetapkan kepada [0.5m, 0.5m, 0.2m], dan membalikkan dua arah dan Putar sudut yaw [0°, ±6.25°, ±12.5°] untuk meningkatkan masa ujian. DeepInteraction-e menyepadukan berbilang model DeepInteraction-besar, dan saiz grid BEV lidar input ialah [0.5m, 0.5m] dan [1.5m, 1.5m]. Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

Pembesaran data mengikut konfigurasi TransFusion: menggunakan putaran rawak dalam julat [-π/4,π/4], pekali penskalaan rawak [0.9,1.1], terjemahan rawak tiga paksi dan flip mendatar rawak dengan sisihan piawai 0.5, juga menggunakan pensampelan semula seimbang kelas dalam CBGS untuk mengimbangi pengedaran kelas nuScenes. Kaedah latihan dua peringkat yang sama seperti TransFusion digunakan, menggunakan TransFusion-L sebagai garis dasar untuk latihan lidar sahaja. Pengoptimum Adam menggunakan strategi kadar pembelajaran kitaran tunggal, dengan kadar pembelajaran maksimum 1×10−3, pengecilan berat 0.01, momentum 0.85 ~ 0.95, dan mengikuti CBGS. Latihan garis dasar lidar ialah 20 pusingan, gabungan imej lidar ialah 6 pusingan, saiz kelompok ialah 16, dan 8 GPU NVIDIA V100 digunakan untuk latihan.

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

Perbandingan dengan kaedah terkini

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

Jadual 1 Perbandingan dengan kaedah terkini pada set ujian nuScenesSeperti yang ditunjukkan dalam Jadual 1, Interaksi Dalam mencapai keadaan prestasi seni dalam semua tetapan. Jadual 2 membandingkan kelajuan inferens yang diuji pada NVIDIA V100, A6000 dan A100 masing-masing. Dapat dilihat bahawa semasa mencapai prestasi tinggi, kelajuan inferens yang tinggi masih dikekalkan, yang mengesahkan bahawa kaedah ini mencapai pertukaran unggul antara prestasi pengesanan dan kelajuan inferens. . dan kegunaan reka bentuk hibrid: lapisan penyahkod DETR biasa digunakan untuk mengagregat ciri dalam perwakilan lidar, dan penyahkod ramalan interaktif multimodal (MMPI) digunakan untuk mengagregat ciri dalam perwakilan imej (baris kedua). MMPI jauh lebih baik daripada DETR, meningkatkan 1.3% mAP dan 1.0% NDS, dengan fleksibiliti gabungan reka bentuk. Jadual 3(c) meneroka lebih lanjut kesan lapisan penyahkod yang berbeza pada prestasi pengesanan Ia boleh didapati bahawa prestasi terus bertambah baik apabila menambah 5 lapisan penyahkod. Akhirnya, kombinasi nombor pertanyaan yang berbeza yang digunakan dalam latihan dan ujian telah dibandingkan Di bawah pilihan yang berbeza, prestasi adalah stabil, tetapi 200/300 digunakan sebagai tetapan optimum untuk latihan/ujian. . meningkatkan prestasi dengan ketara; (2) MMRI dan IML boleh bekerjasama dengan baik untuk meningkatkan lagi prestasi. Seperti yang dapat dilihat daripada Jadual 4(b), menyusun lapisan pengekod untuk MMRI berulang adalah berfaedah.

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?

Jadual 4 Eksperimen ablasi pengekod

Eksperimen ablasi rangkaian tulang belakang lidar

Menggunakan dua rangkaian tulang belakang lidar berbeza: PointPillar dan VoxelNet untuk menyemak keluasan rangka kerja. Untuk PointPillars, tetapkan saiz voxel kepada (0.2m, 0.2m) sambil mengekalkan tetapan selebihnya sama seperti DeepInteraction-base. Disebabkan oleh strategi interaksi berbilang mod yang dicadangkan, DeepInteraction menunjukkan peningkatan yang konsisten ke atas garis dasar lidar sahaja apabila menggunakan sama ada tulang belakang (5.5% mAP untuk tulang belakang berasaskan voxel dan 4.4% mAP untuk tulang belakang berasaskan tiang) ). Ini mencerminkan fleksibiliti DeepInteraction antara pengekod awan titik yang berbeza. . Idea utama adalah untuk mengekalkan dua perwakilan khusus modaliti dan mewujudkan interaksi antara mereka untuk pembelajaran perwakilan dan penyahkodan ramalan. Strategi ini direka khusus untuk menangani had asas kaedah gabungan satu sisi yang sedia ada, iaitu perwakilan imej kurang digunakan kerana pemprosesan aksara sumber tambahannya.

Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?Ringkasan kedua-dua kertas kerja:

Dua kertas di atas kedua-duanya adalah pengesanan sasaran tiga dimensi berdasarkan lidar dan gabungan kamera Ia juga boleh dilihat daripada DeepInteraction bahawa ia menggunakan kerja selanjutnya daripada TransFusion. Daripada kedua-dua kertas kerja ini, kita boleh menyimpulkan bahawa satu arah pelakuran berbilang sensor adalah untuk meneroka kaedah gabungan dinamik yang lebih cekap untuk memberi tumpuan kepada maklumat yang lebih berkesan daripada modaliti yang berbeza. Sudah tentu, semua ini adalah berdasarkan maklumat berkualiti tinggi dalam kedua-dua modaliti. Gabungan multimodal akan mempunyai aplikasi yang sangat penting dalam bidang masa hadapan seperti pemanduan autonomi dan robot pintar Memandangkan maklumat yang diekstrak daripada modaliti yang berbeza secara beransur-ansur menjadi lebih kaya, lebih banyak maklumat akan tersedia kepada kami Jadi cara untuk menggabungkan data ini dengan lebih cekap juga soalan yang patut difikirkan.

Atas ialah kandungan terperinci Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam