Rumah >Peranti teknologi >AI >DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku!

DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku!

PHPzke hadapan: 2024-03-21 17:21:09808semak imbas

Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara beralih dari pandangan perspektif (PV) ke ruang pandangan mata burung (BEV) dengan berkesan Ciri transformasi, Transformasi ini dilaksanakan melalui modul Transformasi Visual,(VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian untuk korespondensi antara ciri 3D dan 2D melalui Transformer, yang meningkatkan kerumitan pengiraan dan penggunaan.

DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku!

Makalah ini menunjukkan bahawa kaedah sedia ada seperti HeightFormer dan FB-BEV cuba menggabungkan kedua-dua strategi VT ini, tetapi kaedah ini biasanya menggunakan strategi dua peringkat Disebabkan oleh transformasi ciri yang berbeza dari dwi VT, ia adalah terhad oleh prestasi ciri awal Ini menghalang penyepaduan yang lancar antara dwi VT. Tambahan pula, kaedah ini masih menghadapi cabaran dalam mencapai penggunaan masa nyata pemanduan autonomi.

Sebagai tindak balas kepada masalah ini, kertas kerja mencadangkan kaedah penukaran ciri bersatu, sesuai untuk penukaran visual 2D kepada 3D dan 3D kepada 2D, dan menilai kesesuaian antara ciri 3D dan 2D melalui tiga ukuran kebarangkalian: kebarangkalian BEV, Kebarangkalian Unjuran dan imej kebarangkalian. Kaedah baharu ini bertujuan untuk mengurangkan kesan kawasan kosong dalam grid BEV pada pembinaan ciri, membezakan berbilang surat-menyurat dan mengecualikan ciri latar belakang semasa proses penukaran ciri.

Dengan menggunakan transformasi ciri bersatu ini, kertas kerja meneroka kaedah baharu transformasi visual 3D kepada 2D menggunakan rangkaian saraf konvolusi (CNN) dan memperkenalkan kaedah yang dipanggil HeightTrans. Selain menunjukkan prestasi unggulnya, ia juga menunjukkan potensi untuk pecutan melalui prapengiraan, menjadikannya sesuai untuk aplikasi pemanduan autonomi masa nyata. Pada masa yang sama, dengan menyepadukan transformasi ciri ini, proses LSS tradisional dipertingkatkan, menunjukkan kesejagatannya untuk pengesan semasa.

Menggabungkan HeightTrans dan Prob-LSS, kertas kerja itu memperkenalkan DualBEV, kaedah inovatif yang mempertimbangkan dan menggabungkan korespondensi daripada BEV dan pandangan perspektif dalam satu peringkat, menghapuskan pergantungan pada ciri awal. Selain itu, modul gabungan ciri BEV berkuasa yang dipanggil modul gabungan ciri ganda (DFF) dicadangkan untuk membantu memperhalusi ramalan kebarangkalian BEV dengan menggunakan modul perhatian saluran dan modul perhatian ruang. DualBEV mengikut prinsip "input meluas, keluaran ketat" dan memahami serta mewakili taburan kebarangkalian tempat kejadian dengan menggunakan surat-menyurat kebarangkalian dwi-pandangan yang tepat.

Sumbangan utama kertas kerja adalah seperti berikut:

mendedahkan persamaan intrinsik antara transformasi visual 3D ke 2D dan 2D ke 3D, dan mencadangkan kaedah transformasi ciri bersatu yang tepat dari pandangan BEV dan perspektif Mewujudkan hubungan yang sepadan dengan ketara mengurangkan jurang antara kedua-dua strategi.
Mencadangkan kaedah penukaran visual 3D kepada 2D berasaskan CNN baharu HeightTrans, yang secara berkesan dan cekap mewujudkan surat-menyurat 3D-2D yang tepat melalui pensampelan kebarangkalian dan pra-pengiraan jadual carian.
DFF diperkenalkan untuk gabungan ciri dwi-pandangan Strategi gabungan ini menangkap maklumat kawasan dekat dan jauh dalam satu peringkat, dengan itu menjana ciri BEV yang komprehensif.
Rangka kerja cekap mereka DualBEV mencapai 55.2% mAP dan 63.4% NDS pada set ujian nuScenes, walaupun tanpa menggunakan Transformer, menyerlahkan kepentingan menangkap surat-menyurat dwi-pandangan yang tepat untuk transformasi pandangan.

Melalui inovasi ini, kertas kerja mencadangkan strategi baharu untuk mengatasi batasan kaedah sedia ada dan mencapai pengesanan objek yang lebih cekap dan tepat dalam senario aplikasi masa nyata seperti pemanduan autonomi.

Penjelasan terperinci DualBEV

DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku!

Kaedah yang dicadangkan dalam kertas kerja ini bertujuan untuk menyelesaikan masalah pengesanan objek BEV (pandangan mata burung) dalam pemanduan autonomi melalui rangka kerja penukaran ciri bersatu, DualBEV. Di bawah ialah kandungan utama bahagian Kaedah, menggariskan sub-bahagian yang berbeza dan inovasi utama.

Tinjauan Keseluruhan DualBEV

Aliran pemprosesan DualBEV bermula daripada ciri imej yang diperoleh daripada berbilang kamera, dan kemudian menggunakan SceneNet untuk menjana topeng contoh dan pemetaan kedalaman dan Pro.S saluran paip dan ciri transformasi, dan akhirnya ciri ini digabungkan dan digunakan untuk meramalkan taburan kebarangkalian ruang BEV untuk mendapatkan ciri BEV akhir untuk tugasan seterusnya.

HeightTrans

HeightTrans adalah berdasarkan prinsip penukaran visual 3D ke 2D, dengan memilih kedudukan 3D dan menayangkannya ke dalam ruang imej, dan menilai kesesuaian 3D-2D ini. Kaedah ini mula-mula mengambil sampel set titik 3D dalam peta BEV yang dipratentukan, dan kemudian mempertimbangkan dan menapis surat-menyurat ini dengan teliti untuk menjana ciri BEV. HeightTrans meningkatkan perhatian kepada objek kecil dan menyelesaikan masalah mengelirukan yang disebabkan oleh piksel latar belakang dengan menggunakan strategi pensampelan berbilang resolusi dan kaedah pensampelan kebarangkalian. Selain itu, masalah grid BEV kosong diselesaikan dengan memperkenalkan kebarangkalian BEV . Modul HeightTrans ialah salah satu teknologi utama yang dicadangkan dalam kertas kerja, memfokuskan pada pemprosesan dan mengubah ciri melalui transformasi visual 3D kepada 2D (VT). Ia adalah berdasarkan pemilihan lokasi 3D daripada peta Bird's Eye View (BEV) yang dipratakrifkan dan menayangkan lokasi ini ke dalam ruang imej, dengan itu menilai kesesuaian antara 3D dan 2D. Berikut ialah pengenalan terperinci tentang cara HeightTrans berfungsi:

BEV Height

Kaedah HeightTrans mengamalkan strategi pensampelan berbilang resolusi apabila memproses ketinggian, meliputi keseluruhan julat ketinggian (dari -5 meter hingga 3 meter), dalam kawasan kepentingan Resolusi dalam ROI (ditakrifkan sebagai -2 meter hingga 2 meter) ialah 0.5 meter, dan resolusi di luar julat ini ialah 1.0 meter. Strategi ini membantu meningkatkan fokus pada objek kecil yang mungkin terlepas dalam persampelan resolusi yang lebih kasar.

Prob-Sampling

HeightTrans mengamalkan langkah-langkah berikut dalam persampelan kebarangkalian:

Takrifkan titik pensampelan 3D: Pratakrif set titik pensampelan 3D tentukan🜎d kedudukannya dalam dalam ruang Definisi.
Unjuran ke ruang 2D: Menggunakan matriks parameter ekstrinsik kamera dan matriks parameter intrinsik , unjurkan titik 3D ke satu titik dalam ruang imej 2D , dengan titik kedalaman mewakili titik
Pensampelan ciri: Gunakan pensampel grid dwilinear untuk sampel ciri imej pada kedudukan unjuran :
Gunakan kedudukan topeng instance : Dalam urutan pembetulan imej latar belakang : Dalam susunan piksel latar belakang untuk menjana topeng Instance untuk mewakili kebarangkalian imej
Mengendalikan berbilang surat-menyurat : Gunakan pensampel grid trilinear dalam peta kedalaman situasi di mana berbilang mata 3D dipetakan ke kedudukan 2D yang sama, iaitu, kebarangkalian unjuran :
Memperkenalkan kebarangkalian BEV: Untuk menyelesaikan masalah bahawa sel kosong dalam grid BEV tidak memberikan maklumat yang berguna, Kebarangkalian BEV diperkenalkan Mewakili kebarangkalian penghunian grid BEV, di mana ialah kedudukan dalam ruang BEV:

memecut

dengan mengira prakiraan indeks bagi ruang BEV3, D dan indeks peta kedalaman semasa inferens , HeightTrans boleh mempercepatkan proses penukaran visual. Ciri HeightTrans terakhir memanjangkan saluran paip LSS (Lift, Splat, Shoot) tradisional dengan meramalkan kebarangkalian kedalaman untuk setiap piksel dengan

Prob-LSS

Prob-LSS yang dipratakrifkan untuk setiap jejaring BEV. Kaedah ini menyepadukan lagi kebarangkalian BEV untuk membina ciri LSS melalui formula berikut:

Melakukannya boleh menangani ketidakpastian anggaran mendalam dengan lebih baik, sekali gus mengurangkan maklumat berlebihan dalam ruang BEV.

Dual Feature Fusion (DFF)

Modul DFF direka untuk menggabungkan ciri daripada HeightTrans dan Prob-LSS dan meramalkan kebarangkalian BEV dengan berkesan. Dengan menggabungkan modul perhatian saluran dan ProbNet yang ditambah perhatian spatial, DFF dapat mengoptimumkan pemilihan ciri dan ramalan kebarangkalian BEV untuk meningkatkan perwakilan objek dekat dan jauh. Strategi gabungan ini mengambil kira ciri-ciri yang saling melengkapi daripada kedua-dua aliran sambil juga meningkatkan ketepatan kebarangkalian BEV dengan mengira perhatian tempatan dan global.

Ringkasnya, rangka kerja DualBEV yang dicadangkan dalam kertas kerja ini mencapai penilaian dan penukaran yang cekap bagi kesesuaian antara ciri 3D dan 2D dengan menggabungkan HeightTrans dan Prob-LSS, serta modul gabungan dwi ciri yang inovatif. Ini bukan sahaja merapatkan jurang antara strategi penukaran 2D ke 3D dan 3D ke 2D, tetapi juga mempercepatkan proses penukaran ciri melalui pra-pengiraan dan pengukuran kebarangkalian, menjadikannya sesuai untuk aplikasi pemanduan autonomi masa nyata.

Kunci kepada kaedah ini ialah surat-menyurat yang tepat dan gabungan ciri yang cekap dari sudut tontonan yang berbeza, dengan itu mencapai prestasi cemerlang dalam pengesanan objek BEV.

Eksperimen

DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku!

Varian kaedah DualBEV (DualBEV* dengan asterisk) berprestasi terbaik di bawah keadaan input bingkai tunggal, mencapai 35.2% mAP dan 42.5% NDS, yang menunjukkan bahawa ia adalah tepat. kaedah lain dari segi ketepatan dan prestasi menyeluruh. Terutama pada mAOE, DualBEV* mencapai skor 0.542, yang merupakan yang terbaik antara kaedah bingkai tunggal. Walau bagaimanapun, prestasinya pada mATE dan mASE tidak jauh lebih baik daripada kaedah lain.

Apabila bilangan bingkai input ditingkatkan kepada dua bingkai, prestasi DualBEV dipertingkatkan lagi, dengan mAP mencapai 38.0% dan NDS mencapai 50.4%. Ini adalah NDS tertinggi antara semua kaedah yang disenaraikan, menunjukkan bahawa DualBEV lebih komprehensif semasa memproses input yang lebih kompleks. Antara kaedah berbilang bingkai, ia juga menunjukkan prestasi kukuh dalam mATE, mASE dan mAAE, terutamanya peningkatan ketara dalam mAOE, menunjukkan kelebihannya dalam menganggar arah objek.

Dapat dianalisis daripada keputusan ini bahawa DualBEV dan variannya berprestasi baik pada berbilang penunjuk prestasi penting, terutamanya dalam tetapan berbilang bingkai, menunjukkan bahawa ia mempunyai ketepatan dan ketepatan yang baik untuk tugas pengesanan objek BEV. Tambahan pula, keputusan ini juga menyerlahkan kepentingan menggunakan data berbilang bingkai untuk meningkatkan prestasi keseluruhan dan ketepatan anggaran model.

DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku!

Berikut adalah analisis keputusan setiap eksperimen ablasi:

Menambah komponen seperti ProbNet, HeightTrans, CAF (Channel Attention Fusion), SAE (Spatial Attention Enhanced), dll. telah meningkatkan prestasi secara beransur-ansur daripada Baseline.
Penambahan HeightTrans meningkatkan dengan ketara mAP dan NDS, yang menunjukkan bahawa memperkenalkan maklumat ketinggian ke dalam transformasi visual adalah berkesan.
CAF menambah baik lagi mAP, tetapi sedikit meningkatkan kependaman.
Pengenalan SAE meningkatkan NDS kepada maksimum 42.5%, dan juga meningkatkan mAP, menunjukkan bahawa mekanisme perhatian spatial telah meningkatkan prestasi model dengan berkesan.
Langkah kebarangkalian yang berbeza (kebarangkalian unjuran , kebarangkalian imej , kebarangkalian BEV ) ditambah secara beransur-ansur pada eksperimen perbandingan.
Model mencapai mAP dan NDS tertinggi apabila ketiga-tiga kebarangkalian digunakan secara serentak, menunjukkan bahawa gabungan kebarangkalian ini adalah penting untuk prestasi model.
Prob-Sampling mempunyai NDS yang lebih tinggi (39.0%) berbanding operasi VT lain pada kelewatan yang sama (0.32ms), yang menekankan keunggulan prestasi pensampelan kebarangkalian.
Strategi pensampelan berbilang resolusi (MR) boleh mencapai prestasi yang serupa atau lebih baik daripada strategi pensampelan seragam apabila menggunakan bilangan titik pensampelan yang sama.
Dengan menambahkan kebarangkalian unjuran, kebarangkalian imej dan kebarangkalian BEV pada proses LSS, Prob-LSS mengatasi varian LSS lain, meningkatkan mAP dan NDS, menunjukkan keberkesanan menggabungkan kebarangkalian ini.
Berbanding dengan strategi Perhalusi berbilang peringkat, kedua-dua strategi Tambah satu peringkat dan modul DFF boleh mencapai NDS yang lebih tinggi, dan DFF juga mempunyai sedikit peningkatan dalam mAP, yang menunjukkan bahawa DFF ialah Strategi gabungan satu peringkat adalah berfaedah dari segi kecekapan dan prestasi.

Eksperimen ablasi menunjukkan bahawa komponen dan strategi seperti HeightTrans, langkah kebarangkalian, Prob-Sampling dan DFF adalah penting untuk meningkatkan prestasi model. Selain itu, penggunaan strategi persampelan pelbagai resolusi pada maklumat ketinggian juga membuktikan keberkesanannya. Penemuan ini menyokong hujah penulis bahawa setiap teknik yang dibentangkan dalam bahagian kaedah menyumbang secara positif kepada prestasi model.

Perbincangan

DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku!

Kertas ini menunjukkan prestasi kaedahnya melalui satu siri eksperimen ablasi. Dapat dilihat daripada keputusan eksperimen bahawa rangka kerja DualBEV yang dicadangkan dalam kertas kerja dan pelbagai komponennya mempunyai kesan positif ke atas meningkatkan ketepatan pengesanan objek pandangan mata burung (BEV).

Kaedah makalah secara beransur-ansur memperkenalkan modul ProbNet, HeightTrans, CAF (Channel Attention Fusion), dan SAE (Spatial Attention Enhanced) ke dalam model garis dasar, menunjukkan peningkatan ketara dalam kedua-dua penunjuk mAP dan NDS. Ini ditunjukkan bahawa setiap komponen memainkan peranan penting dalam keseluruhan seni bina. Terutama selepas pengenalan SAE, skor NDS meningkat kepada titik tertinggi 42.5%, manakala kelewatan hanya meningkat sedikit, yang menunjukkan bahawa kaedah itu mencapai keseimbangan yang baik antara ketepatan dan kelewatan.

Keputusan percubaan ablasi kebarangkalian mengesahkan lagi kepentingan kebarangkalian unjuran, kebarangkalian imej dan kebarangkalian BEV dalam meningkatkan prestasi pengesanan. Apabila kebarangkalian ini diperkenalkan satu demi satu, skor mAP dan NDS sistem bertambah baik, menunjukkan kepentingan untuk menyepadukan langkah-langkah kebarangkalian ini ke dalam tugas pengesanan objek BEV.

Dalam perbandingan operasi transformasi visual (VT), kaedah Prob-Sampling yang dicadangkan oleh kertas kerja menunjukkan kependaman yang lebih rendah dan skor NDS yang lebih tinggi berbanding dengan operasi lain seperti SCAda dan Bilinear-Sampling, yang menekankan prestasinya dalam Kecekapan dan kelebihan prestasi . Di samping itu, untuk strategi pensampelan ketinggian yang berbeza, menggunakan strategi berbilang resolusi (MR) dan bukannya pensampelan seragam boleh meningkatkan lagi skor NDS, yang menunjukkan kepentingan untuk mempertimbangkan maklumat pada ketinggian yang berbeza di tempat kejadian untuk meningkatkan prestasi pengesanan.

Selain itu, untuk strategi gabungan ciri yang berbeza, kertas kerja menunjukkan bahawa kaedah DFF masih boleh mengekalkan skor NDS yang tinggi sambil memudahkan model, yang bermakna menggabungkan ciri dwi-strim dalam aliran pemprosesan satu peringkat adalah berkesan.

Walau bagaimanapun, walaupun kaedah yang dicadangkan dalam kertas kerja menunjukkan prestasi yang baik dalam banyak aspek, setiap penambahbaikan juga akan membawa kepada peningkatan dalam kerumitan sistem dan kos pengiraan. Sebagai contoh, setiap kali komponen baharu diperkenalkan (seperti ProbNet, HeightTrans, dll.), kependaman sistem akan meningkat Walaupun peningkatan dalam kependaman adalah halus, dalam aplikasi dengan keperluan masa nyata atau kependaman rendah, ini boleh jadi pertimbangan. Tambahan pula, sementara langkah kebarangkalian menyumbang kepada peningkatan prestasi, ia juga memerlukan sumber pengkomputeran tambahan untuk menganggarkan kebarangkalian ini, yang berpotensi menghasilkan penggunaan sumber yang lebih tinggi.

Kaedah DualBEV yang dicadangkan dalam kertas kerja telah mencapai hasil yang luar biasa dalam meningkatkan ketepatan dan prestasi komprehensif pengesanan objek BEV, terutamanya dalam menggabungkan kemajuan terkini dalam pembelajaran mendalam dengan teknologi transformasi visual. Walau bagaimanapun, kemajuan ini datang dengan kos peningkatan sedikit kependaman pengiraan dan penggunaan sumber, dan aplikasi praktikal perlu menimbang faktor ini berdasarkan kes demi kes.

Kesimpulan

Kaedah ini berfungsi dengan baik dalam tugas pengesanan objek BEV, meningkatkan ketepatan dan prestasi keseluruhan dengan ketara. Dengan memperkenalkan pensampelan kebarangkalian, transformasi ketinggian, mekanisme perhatian dan rangkaian pembesaran perhatian spatial, DualBEV berjaya meningkatkan berbilang penunjuk prestasi utama, terutamanya dalam ketepatan pandangan mata burung (BEV) dan pemahaman pemandangan. Keputusan eksperimen menunjukkan bahawa kaedah kertas itu amat berkesan dalam memproses adegan dan data yang kompleks daripada perspektif yang berbeza, yang penting untuk pemanduan autonomi dan aplikasi pemantauan masa nyata yang lain.

Atas ialah kandungan terperinci DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构 map channel 对象 cnn transformer mr

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：CMU Zhu Junyan dan kerja baharu Adobe: inferens imej 512x512, A100 hanya mengambil masa 0.11 saatArtikel seterusnya：CMU Zhu Junyan dan kerja baharu Adobe: inferens imej 512x512, A100 hanya mengambil masa 0.11 saat

Artikel berkaitan

Lihat lagi