Rumah >Peranti teknologi >AI >Kejayaan NeRF dalam prestasi generalisasi BEV: kod sumber terbuka merentas domain pertama berjaya melaksanakan Sim2Real
Pengesanan pandangan mata burung (BEV) ialah kaedah pengesanan dengan menggabungkan berbilang kamera pandangan sekeliling. Kebanyakan algoritma semasa dilatih dan dinilai pada set data yang sama, yang menyebabkan algoritma ini terlalu sesuai dengan parameter dalaman kamera yang tidak berubah (jenis kamera) dan parameter luaran (peletakan kamera). Kertas kerja ini mencadangkan rangka kerja pengesanan BEV berdasarkan pemaparan tersirat, yang boleh menyelesaikan masalah pengesanan objek dalam domain yang tidak diketahui. Rangka kerja menggunakan pemaparan tersirat untuk mewujudkan hubungan antara kedudukan 3D objek dan kedudukan perspektif pandangan tunggal, yang boleh digunakan untuk membetulkan bias perspektif. Kaedah ini mencapai peningkatan prestasi yang ketara dalam generalisasi domain (DG) dan penyesuaian domain tanpa pengawasan (UDA). Kaedah ini merupakan percubaan pertama untuk menggunakan set data maya sahaja untuk latihan dan penilaian pengesanan BEV dalam senario sebenar, yang boleh memecahkan halangan antara maya dan nyata untuk melengkapkan ujian gelung tertutup.
Domain yang dikesan oleh Generalisasi BEV (DG):
Latih algoritma pengesanan BEV pada yang sedia ada. set data (domain sumber) untuk meningkatkan prestasi pengesanan pada set data yang tidak diketahui (domain sasaran). Contohnya, melatih model pengesanan BEV dalam kenderaan atau senario tertentu boleh digeneralisasikan secara langsung kepada pelbagai kenderaan dan senario yang berbeza. 🎜Penyesuaian domain tanpa pengawasan (UDA) untuk pengesanan BEV: Latih algoritma pengesanan BEV pada set data sedia ada (domain sumber) dan gunakan data tidak berlabel dalam domain sasaran untuk meningkatkan prestasi pengesanan. Contohnya, dalam kenderaan atau bandar baharu, hanya mengumpul beberapa data tanpa pengawasan boleh meningkatkan prestasi model dalam kenderaan baharu dan persekitaran baharu. Perlu dinyatakan bahawa satu-satunya perbezaan antara DG dan UDA ialah sama ada data tidak berlabel domain sasaran boleh digunakan.
Untuk mengesan L=[x,y,z] objek yang tidak diketahui, kebanyakan pengesanan BEV akan mempunyai dua bahagian utama: (1) Dapatkan ciri imej dari sudut tontonan yang berbeza; 2) Gabungan imej ini Ciri dipindahkan ke ruang BEV dan keputusan ramalan akhir diperoleh:
Formula di atas menerangkan bahawa sisihan domain mungkin berasal daripada peringkat pengekstrakan ciri atau peringkat gabungan BEV. Kemudian artikel ini ditolak ke hadapan dalam lampiran, dan memperoleh sisihan sudut tontonan hasil ramalan 3D akhir yang diunjurkan kepada hasil 2D sebagai:
di mana k_u, b_u, k_v dan b_v berkaitan dengan offset domain pengekod BEV, d (u, v) ialah maklumat kedalaman ramalan akhir model. c_u dan c_v mewakili koordinat pusat optik kamera pada satah imej uv. Persamaan di atas memberikan beberapa akibat penting: (1) Kehadiran offset kedudukan akhir akan membawa kepada bias perspektif, yang menunjukkan bahawa mengoptimumkan bias perspektif boleh membantu mengurangkan offset domain. (2) Malah kedudukan titik pada sinar tengah optik kamera pada satah pengimejan satu pandangan akan beralih.
Secara intuitif, anjakan domain mengubah kedudukan ciri BEV, yang disebabkan oleh overfitting disebabkan sudut pandangan data latihan dan parameter kamera yang terhad. Untuk mengurangkan masalah ini, adalah penting untuk memaparkan semula imej paparan baharu daripada ciri BEV, dengan itu membolehkan rangkaian mempelajari ciri bebas paparan dan persekitaran. Sehubungan dengan itu, penyelidikan ini bertujuan untuk menyelesaikan sisihan perspektif yang berkaitan dengan sudut pandangan rendering yang berbeza untuk meningkatkan keupayaan generalisasi model
PD-BEV dibahagikan kepada tiga bahagian: semantik pemaparan, penyingkiran domain sumber Bias dan penyahbiakan domain sasaran ditunjukkan dalam Rajah 1. Paparan semantik menerangkan cara mewujudkan hubungan perspektif antara 2D dan 3D melalui ciri BEV. Debiasing domain sumber menerangkan cara untuk meningkatkan keupayaan generalisasi model melalui pemaparan semantik dalam domain sumber. Debiasing domain sasaran menerangkan penggunaan data tidak berlabel dalam domain sasaran untuk meningkatkan keupayaan generalisasi model melalui pemaparan semantik. . Untuk penambahbaikan, dimensi ketinggian ditambah. Kemudian parameter dalaman dan luaran kamera boleh dijadikan sampel dalam Jilid ini untuk menjadi peta ciri 2D, dan kemudian peta ciri 2D dan parameter dalaman dan luaran kamera dihantar ke RenderNet untuk meramalkan peta haba dan sifat objek bagi perspektif yang sepadan. Melalui operasi seperti Nerf, jambatan antara 2D dan 3D boleh diwujudkan.
Source domain debiasing
Penyeliaan semantik perspektif:
Berdasarkan pemaparan semantik, peta haba dan atribut dipaparkan daripada perspektif yang berbeza (output RenderNet). Pada masa yang sama, parameter dalaman dan luaran kamera diambil secara rawak, dan kotak objek ditayangkan daripada koordinat 3D ke dalam satah kamera dua dimensi menggunakan parameter dalaman dan luaran ini. Kemudian gunakan Focal loss dan L1 loss untuk mengekang 2Dbox yang diunjurkan dan hasil pemaparan: Melalui operasi ini, overfitting parameter dalaman dan luaran kamera boleh dikurangkan dan keteguhan kepada perspektif baharu boleh dipertingkatkan. Perlu dinyatakan bahawa kertas kerja ini menukar pembelajaran diselia daripada imej RGB kepada memanaskan peta pusat objek untuk mengelakkan kelemahan kekurangan penyeliaan RGB perspektif baharu dalam bidang pemanduan tanpa pemanduDebiasing domain sasaran
Tiada label dalam domain sasaran, jadi penyeliaan kotak 3D tidak boleh digunakan untuk meningkatkan keupayaan generalisasi model. Maka kertas ini menerangkan bahawa hasil pengesanan 2D lebih mantap daripada hasil 3D. Maka makalah ini menggunakan pengesan pra-latihan 2D dalam domain sumber sebagai penyeliaan perspektif yang diberikan, dan juga menggunakan mekanisme pseudo-label:Operasi ini boleh menggunakan pengesanan 2D yang tepat dengan berkesan untuk membetulkan kedudukan sasaran latar depan dalam ruang BEV, yang merupakan penyelarasan domain sasaran tanpa pengawasan. Untuk meningkatkan lagi keupayaan pembetulan ramalan 2D, kaedah pseudo digunakan untuk meningkatkan keyakinan peta haba yang diramalkan. Kertas kerja ini menyediakan bukti matematik dalam 3.2 dan bahan tambahan untuk menerangkan punca ralat unjuran 2D dalam hasil 3D. Ia juga menerangkan mengapa berat sebelah boleh dialih keluar dengan cara ini Untuk butiran, sila rujuk kertas asal.
Walaupun beberapa rangkaian telah ditambah dalam artikel ini untuk membantu latihan, rangkaian ini tidak diperlukan semasa inferens. Dalam erti kata lain, kaedah kami boleh digunakan pada situasi di mana kebanyakan kaedah pengesanan BEV mempelajari ciri invarian perspektif. Untuk menguji keberkesanan rangka kerja kami, kami memilih untuk menggunakan BEVDepth untuk penilaian. Kehilangan asal BEVDepth digunakan pada domain sumber sebagai penyeliaan pengesanan 3D utama. Ringkasnya, kehilangan akhir algoritma ialah:
Jadual 1 menunjukkan perbandingan kesan kaedah berbeza di bawah protokol generalisasi domain (DG) dan penyesuaian domain tanpa pengawasan (UDA). Antaranya, Target-Free mewakili protokol DG, dan Pseudo Label, Coral dan AD ialah beberapa kaedah UDA yang biasa. Seperti yang dapat dilihat daripada graf, kaedah ini kesemuanya mencapai peningkatan yang ketara dalam domain sasaran. Ini menunjukkan bahawa pemaparan semantik berfungsi sebagai jambatan untuk membantu mempelajari ciri invarian perspektif terhadap anjakan domain. Tambahan pula, kaedah ini tidak mengorbankan prestasi domain sumber malah memberikan beberapa penambahbaikan dalam kebanyakan kes. Perlu dinyatakan secara khusus bahawa DeepAccident dibangunkan berdasarkan enjin maya Carla Selepas latihan mengenai DeepAccident, algoritma telah mencapai keupayaan generalisasi yang memuaskan. Di samping itu, kaedah pengesanan BEV lain telah diuji, tetapi prestasi generalisasi mereka sangat lemah tanpa reka bentuk khas. Untuk mengesahkan lagi keupayaan untuk menggunakan set data yang tidak diselia dalam domain sasaran, penanda aras UDA juga telah diwujudkan dan kaedah UDA (termasuk Label Pseudo, Coral dan AD) telah digunakan pada DG-BEV. Eksperimen menunjukkan bahawa kaedah ini mempunyai peningkatan prestasi yang ketara. Penyampaian tersirat menggunakan sepenuhnya pengesan 2D dengan prestasi generalisasi yang lebih baik untuk membetulkan maklumat geometri palsu pengesan 3D. Tambahan pula, didapati kebanyakan algoritma cenderung merendahkan prestasi domain sumber, manakala kaedah kami agak ringan. Perlu dinyatakan bahawa AD dan Coral menunjukkan peningkatan yang ketara apabila beralih daripada set data maya kepada sebenar, tetapi menunjukkan kemerosotan prestasi dalam ujian sebenar. Ini kerana kedua-dua algoritma ini direka untuk mengendalikan perubahan gaya, tetapi ia mungkin memusnahkan maklumat semantik dalam adegan dengan perubahan gaya yang kecil. Bagi algoritma Pseudo Label, ia boleh meningkatkan prestasi generalisasi model dengan meningkatkan keyakinan dalam beberapa domain sasaran yang agak baik, tetapi secara membuta tuli meningkatkan keyakinan dalam domain sasaran sebenarnya akan menjadikan model lebih teruk. Keputusan eksperimen membuktikan bahawa algoritma ini telah mencapai peningkatan prestasi yang ketara dalam DG dan UDA Keputusan eksperimen ablasi pada tiga komponen utama ditunjukkan dalam Jadual 2: Pra-latihan pengesan 2D (DPT), Penyingkiran domain sumber (SDB) dan Domain Sasaran. Debiasing (TDB). Keputusan eksperimen menunjukkan bahawa setiap komponen telah mencapai peningkatan, antaranya SDB dan TDB menunjukkan kesan yang agak ketara
Jadual 3 menunjukkan bahawa algoritma algoritma boleh dipindahkan ke algoritma BEVFormer dan FB-OCC. Oleh kerana algoritma ini hanya memerlukan operasi tambahan pada ciri imej dan ciri BEV, ia boleh menambah baik algoritma dengan ciri BEV.
Rajah 5 menunjukkan objek tidak berlabel yang dikesan. Baris pertama ialah kotak 3D label, dan baris kedua ialah hasil pengesanan algoritma. Kotak biru menunjukkan bahawa algoritma boleh mengesan beberapa kotak tidak berlabel. Ini menunjukkan bahawa kaedah itu malah boleh mengesan sampel tidak berlabel dalam domain sasaran, seperti kenderaan yang terlalu jauh atau dalam bangunan di kedua-dua belah jalan.
Kertas kerja ini mencadangkan rangka kerja pengesanan objek 3D berbilang kamera umum berdasarkan penyahkutuban perspektif, yang boleh menyelesaikan masalah pengesanan objek dalam medan yang tidak diketahui. Rangka kerja mencapai pengesanan yang konsisten dan tepat dengan menayangkan hasil pengesanan 3D pada satah kamera 2D dan membetulkan bias perspektif. Selain itu, rangka kerja ini juga memperkenalkan strategi debiasing perspektif untuk meningkatkan keteguhan model dengan memaparkan imej dari perspektif yang berbeza. Keputusan eksperimen menunjukkan bahawa kaedah ini mencapai peningkatan prestasi yang ketara dalam generalisasi domain dan penyesuaian domain tanpa pengawasan. Selain itu, kaedah ini juga boleh dilatih pada set data maya tanpa memerlukan anotasi pemandangan sebenar, yang memberikan kemudahan untuk aplikasi masa nyata dan penggunaan berskala besar. Sorotan ini menunjukkan cabaran dan potensi kaedah dalam menyelesaikan pengesanan objek 3D berbilang kamera. Kertas kerja ini cuba menggunakan idea Nerf untuk meningkatkan keupayaan generalisasi BEV, dan juga boleh menggunakan data domain sumber berlabel dan data domain sasaran tidak berlabel. Di samping itu, paradigma eksperimen Sim2Real telah dicuba, yang mempunyai potensi nilai untuk gelung tertutup pemanduan autonomi. Terdapat hasil yang baik daripada hasil kualitatif dan kuantitatif, dan kod sumber terbuka patut dilihat
Pautan asal: https://mp.weixin.qq.com/s/GRLu_JW6qZ_nQ9sLiE0p2g
Atas ialah kandungan terperinci Kejayaan NeRF dalam prestasi generalisasi BEV: kod sumber terbuka merentas domain pertama berjaya melaksanakan Sim2Real. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!