Rumah >Peranti teknologi >AI >Kejayaan NeRF dalam prestasi generalisasi BEV: kod sumber terbuka merentas domain pertama berjaya melaksanakan Sim2Real

Kejayaan NeRF dalam prestasi generalisasi BEV: kod sumber terbuka merentas domain pertama berjaya melaksanakan Sim2Real

WBOY
WBOYke hadapan
2024-01-11 10:24:51785semak imbas

Ditulis di hadapan & ringkasan peribadi pengarang

Pengesanan pandangan mata burung (BEV) ialah kaedah pengesanan dengan menggabungkan berbilang kamera pandangan sekeliling. Kebanyakan algoritma semasa dilatih dan dinilai pada set data yang sama, yang menyebabkan algoritma ini terlalu sesuai dengan parameter dalaman kamera yang tidak berubah (jenis kamera) dan parameter luaran (peletakan kamera). Kertas kerja ini mencadangkan rangka kerja pengesanan BEV berdasarkan pemaparan tersirat, yang boleh menyelesaikan masalah pengesanan objek dalam domain yang tidak diketahui. Rangka kerja menggunakan pemaparan tersirat untuk mewujudkan hubungan antara kedudukan 3D objek dan kedudukan perspektif pandangan tunggal, yang boleh digunakan untuk membetulkan bias perspektif. Kaedah ini mencapai peningkatan prestasi yang ketara dalam generalisasi domain (DG) dan penyesuaian domain tanpa pengawasan (UDA). Kaedah ini merupakan percubaan pertama untuk menggunakan set data maya sahaja untuk latihan dan penilaian pengesanan BEV dalam senario sebenar, yang boleh memecahkan halangan antara maya dan nyata untuk melengkapkan ujian gelung tertutup.

  • Pautan kertas: https://arxiv.org/pdf/2310.11346.pdf
  • Pautan kod: https://github.com/EnVision-Research/Generalizable-BEV

Kejayaan NeRF dalam prestasi generalisasi BEV: kod sumber terbuka merentas domain pertama berjaya melaksanakan Sim2Real

domain umum pengesanan BEV

Latar belakang masalah

Pengesanan berbilang kamera merujuk kepada tugas menggunakan berbilang kamera untuk mengesan dan mengesan objek dalam ruang tiga dimensi. Dengan menggabungkan maklumat dari sudut pandangan yang berbeza, pengesanan objek 3D berbilang kamera boleh memberikan hasil pengesanan objek yang lebih tepat dan mantap, terutamanya dalam situasi di mana sasaran dari sudut pandangan tertentu mungkin terhalang atau sebahagiannya kelihatan. Dalam beberapa tahun kebelakangan ini, kaedah Pandangan Mata Burung (BEV) telah mendapat perhatian besar dalam tugas pengesanan berbilang kamera. Walaupun kaedah ini mempunyai kelebihan dalam gabungan maklumat berbilang kamera, prestasi kaedah ini mungkin terjejas teruk apabila persekitaran ujian berbeza dengan ketara daripada persekitaran latihan.

Pada masa ini, kebanyakan algoritma pengesanan BEV dilatih dan dinilai pada set data yang sama, yang menyebabkan algoritma ini terlalu sensitif kepada perubahan dalam parameter kamera dalaman dan luaran serta keadaan jalan bandar, yang membawa kepada masalah pemasangan berlebihan yang serius. Walau bagaimanapun, dalam aplikasi praktikal, algoritma pengesanan BEV selalunya perlu menyesuaikan diri dengan model baharu dan kamera baharu yang berbeza, yang membawa kepada kegagalan algoritma ini. Oleh itu, adalah penting untuk mengkaji kebolehgeneralisasian pengesanan BEV. Selain itu, simulasi gelung tertutup juga sangat penting untuk pemanduan autonomi, tetapi pada masa ini ia hanya boleh dinilai dalam enjin maya seperti Carla. Oleh itu, adalah perlu untuk menyelesaikan masalah perbezaan domain antara enjin maya dan pemandangan sebenar

Pengertian domain (DG) dan penyesuaian domain tanpa pengawasan (UDA) adalah dua kaedah yang menjanjikan untuk mengurangkan arah peralihan pengedaran. Kaedah DG sering memisahkan dan menghapuskan ciri khusus domain, dengan itu meningkatkan prestasi generalisasi dalam domain yang tidak kelihatan. Untuk UDA, kaedah terkini mengurangkan peralihan domain dengan menjana label pseudo atau penjajaran pengedaran ciri terpendam. Walau bagaimanapun, pembelajaran ciri sudut pandangan dan bebas persekitaran untuk persepsi visual tulen adalah sangat mencabar tanpa menggunakan data daripada sudut pandangan, parameter kamera dan persekitaran yang berbeza.

Pemerhatian menunjukkan bahawa pengesanan 2D dari satu perspektif (satah kamera) cenderung mempunyai keupayaan generalisasi yang lebih kuat daripada pengesanan objek 3D dari pelbagai perspektif, seperti yang ditunjukkan dalam rajah. Sesetengah kajian telah meneroka penyepaduan pengesanan 2D ke dalam pengesanan BEV, seperti menggabungkan maklumat 2D ke dalam pengesan 3D atau mewujudkan ketekalan 2D-3D. Gabungan maklumat 2D ialah kaedah berasaskan pembelajaran dan bukannya kaedah pemodelan mekanisme, dan masih terjejas teruk oleh pemindahan domain. Kaedah ketekalan 2D-3D sedia ada menayangkan hasil 3D pada satah dua dimensi dan mewujudkan ketekalan. Kekangan ini boleh membahayakan maklumat semantik dalam domain sasaran dan bukannya mengubah suai maklumat geometri domain sasaran. Tambahan pula, pendekatan konsisten 2D-3D ini menjadikan pendekatan bersatu untuk semua ketua pengesanan mencabar.

Kejayaan NeRF dalam prestasi generalisasi BEV: kod sumber terbuka merentas domain pertama berjaya melaksanakan Sim2Real

Ringkasan sumbangan kertas ini

  1. Kertas kerja ini mencadangkan rangka kerja pengesanan BEV umum berdasarkan debiasing perspektif Rangka kerja ini bukan sahaja dapat membantu model mempelajari perspektif dan ciri invarian konteks dalam domain sumber. Pengesan dua dimensi juga boleh digunakan untuk membetulkan lagi ciri geometri palsu dalam domain sasaran.
  2. Kertas kerja ini adalah percubaan pertama untuk mengkaji penyesuaian domain tanpa pengawasan pada pengesanan BEV dan menetapkan penanda aras. Keputusan terkini dicapai pada kedua-dua protokol UDA dan DG.
  3. Kertas kerja ini adalah yang pertama meneroka latihan pada enjin maya tanpa anotasi pemandangan sebenar untuk mencapai tugas pengesanan BEV dunia sebenar.

Takrifan masalah generalisasi domain pengesanan BEV

Takrifan masalah

Penyelidikan tertumpu terutamanya pada mempertingkatkan generalisasi pengesanan BEV. Untuk mencapai matlamat ini, kertas kerja ini meneroka dua protokol dengan aplikasi praktikal yang meluas, iaitu generalisasi domain (DG) dan penyesuaian domain tanpa pengawasan (UDA):

Domain yang dikesan oleh Generalisasi BEV (DG):

Latih algoritma pengesanan BEV pada yang sedia ada. set data (domain sumber) untuk meningkatkan prestasi pengesanan pada set data yang tidak diketahui (domain sasaran). Contohnya, melatih model pengesanan BEV dalam kenderaan atau senario tertentu boleh digeneralisasikan secara langsung kepada pelbagai kenderaan dan senario yang berbeza. 🎜

Penyesuaian domain tanpa pengawasan (UDA) untuk pengesanan BEV: Latih algoritma pengesanan BEV pada set data sedia ada (domain sumber) dan gunakan data tidak berlabel dalam domain sasaran untuk meningkatkan prestasi pengesanan. Contohnya, dalam kenderaan atau bandar baharu, hanya mengumpul beberapa data tanpa pengawasan boleh meningkatkan prestasi model dalam kenderaan baharu dan persekitaran baharu. Perlu dinyatakan bahawa satu-satunya perbezaan antara DG dan UDA ialah sama ada data tidak berlabel domain sasaran boleh digunakan.

Definisi sisihan sudut pandangan

Untuk mengesan L=[x,y,z] objek yang tidak diketahui, kebanyakan pengesanan BEV akan mempunyai dua bahagian utama: (1) Dapatkan ciri imej dari sudut tontonan yang berbeza; 2) Gabungan imej ini Ciri dipindahkan ke ruang BEV dan keputusan ramalan akhir diperoleh:

Formula di atas menerangkan bahawa sisihan domain mungkin berasal daripada peringkat pengekstrakan ciri atau peringkat gabungan BEV. Kemudian artikel ini ditolak ke hadapan dalam lampiran, dan memperoleh sisihan sudut tontonan hasil ramalan 3D akhir yang diunjurkan kepada hasil 2D sebagai:

di mana k_u, b_u, k_v dan b_v berkaitan dengan offset domain pengekod BEV, d (u, v) ialah maklumat kedalaman ramalan akhir model. c_u dan c_v mewakili koordinat pusat optik kamera pada satah imej uv. Persamaan di atas memberikan beberapa akibat penting: (1) Kehadiran offset kedudukan akhir akan membawa kepada bias perspektif, yang menunjukkan bahawa mengoptimumkan bias perspektif boleh membantu mengurangkan offset domain. (2) Malah kedudukan titik pada sinar tengah optik kamera pada satah pengimejan satu pandangan akan beralih.

Secara intuitif, anjakan domain mengubah kedudukan ciri BEV, yang disebabkan oleh overfitting disebabkan sudut pandangan data latihan dan parameter kamera yang terhad. Untuk mengurangkan masalah ini, adalah penting untuk memaparkan semula imej paparan baharu daripada ciri BEV, dengan itu membolehkan rangkaian mempelajari ciri bebas paparan dan persekitaran. Sehubungan dengan itu, penyelidikan ini bertujuan untuk menyelesaikan sisihan perspektif yang berkaitan dengan sudut pandangan rendering yang berbeza untuk meningkatkan keupayaan generalisasi model

Penjelasan terperinci algoritma PD-BEV

PD-BEV dibahagikan kepada tiga bahagian: semantik pemaparan, penyingkiran domain sumber Bias dan penyahbiakan domain sasaran ditunjukkan dalam Rajah 1. Paparan semantik menerangkan cara mewujudkan hubungan perspektif antara 2D dan 3D melalui ciri BEV. Debiasing domain sumber menerangkan cara untuk meningkatkan keupayaan generalisasi model melalui pemaparan semantik dalam domain sumber. Debiasing domain sasaran menerangkan penggunaan data tidak berlabel dalam domain sasaran untuk meningkatkan keupayaan generalisasi model melalui pemaparan semantik. . Untuk penambahbaikan, dimensi ketinggian ditambah. Kemudian parameter dalaman dan luaran kamera boleh dijadikan sampel dalam Jilid ini untuk menjadi peta ciri 2D, dan kemudian peta ciri 2D dan parameter dalaman dan luaran kamera dihantar ke RenderNet untuk meramalkan peta haba dan sifat objek bagi perspektif yang sepadan. Melalui operasi seperti Nerf, jambatan antara 2D dan 3D boleh diwujudkan.

Kejayaan NeRF dalam prestasi generalisasi BEV: kod sumber terbuka merentas domain pertama berjaya melaksanakan Sim2RealSource domain debiasing

Untuk meningkatkan prestasi generalisasi model, terdapat beberapa perkara utama yang perlu diperbaiki dalam domain sumber. Pertama, kotak 3D domain sumber boleh digunakan untuk memantau peta haba dan sifat paparan yang baru diberikan untuk mengurangkan bias perspektif. Kedua, maklumat kedalaman ternormal boleh digunakan untuk membantu pengekod imej mempelajari maklumat geometri dengan lebih baik. Penambahbaikan ini akan membantu meningkatkan prestasi generalisasi model

Penyeliaan semantik perspektif:

Berdasarkan pemaparan semantik, peta haba dan atribut dipaparkan daripada perspektif yang berbeza (output RenderNet). Pada masa yang sama, parameter dalaman dan luaran kamera diambil secara rawak, dan kotak objek ditayangkan daripada koordinat 3D ke dalam satah kamera dua dimensi menggunakan parameter dalaman dan luaran ini. Kemudian gunakan Focal loss dan L1 loss untuk mengekang 2Dbox yang diunjurkan dan hasil pemaparan:

Melalui operasi ini, overfitting parameter dalaman dan luaran kamera boleh dikurangkan dan keteguhan kepada perspektif baharu boleh dipertingkatkan. Perlu dinyatakan bahawa kertas kerja ini menukar pembelajaran diselia daripada imej RGB kepada memanaskan peta pusat objek untuk mengelakkan kelemahan kekurangan penyeliaan RGB perspektif baharu dalam bidang pemanduan tanpa pemandu

Penyeliaan geometri:

Memberi maklumat kedalaman yang jelas boleh Berkesan meningkatkan prestasi pengesanan objek 3D berbilang kamera. Walau bagaimanapun, kedalaman ramalan rangkaian cenderung untuk mengatasi parameter intrinsik. Oleh itu, kertas kerja ini menggunakan pendekatan kedalaman maya:

di mana BCE() mewakili kehilangan rentas entropi binari, dan D_{pre} mewakili kedalaman DepthNet yang diramalkan. f_u dan f_v ialah panjang fokus u dan v bagi satah imej masing-masing, dan U ialah pemalar. Perlu diingat bahawa kedalaman di sini ialah maklumat kedalaman latar depan yang disediakan dengan menggunakan kotak 3D dan bukannya awan titik. Dengan melakukan ini, DepthNet lebih berkemungkinan menumpukan pada kedalaman objek latar depan. Akhirnya, kedalaman maya ditukar kembali kepada kedalaman sebenar apabila ciri semantik diangkat ke satah BEV menggunakan maklumat kedalaman sebenar.

Debiasing domain sasaran

Tiada label dalam domain sasaran, jadi penyeliaan kotak 3D tidak boleh digunakan untuk meningkatkan keupayaan generalisasi model. Maka kertas ini menerangkan bahawa hasil pengesanan 2D lebih mantap daripada hasil 3D. Maka makalah ini menggunakan pengesan pra-latihan 2D dalam domain sumber sebagai penyeliaan perspektif yang diberikan, dan juga menggunakan mekanisme pseudo-label:

Operasi ini boleh menggunakan pengesanan 2D yang tepat dengan berkesan untuk membetulkan kedudukan sasaran latar depan dalam ruang BEV, yang merupakan penyelarasan domain sasaran tanpa pengawasan. Untuk meningkatkan lagi keupayaan pembetulan ramalan 2D, kaedah pseudo digunakan untuk meningkatkan keyakinan peta haba yang diramalkan. Kertas kerja ini menyediakan bukti matematik dalam 3.2 dan bahan tambahan untuk menerangkan punca ralat unjuran 2D dalam hasil 3D. Ia juga menerangkan mengapa berat sebelah boleh dialih keluar dengan cara ini Untuk butiran, sila rujuk kertas asal.

Penyeliaan Keseluruhan

Walaupun beberapa rangkaian telah ditambah dalam artikel ini untuk membantu latihan, rangkaian ini tidak diperlukan semasa inferens. Dalam erti kata lain, kaedah kami boleh digunakan pada situasi di mana kebanyakan kaedah pengesanan BEV mempelajari ciri invarian perspektif. Untuk menguji keberkesanan rangka kerja kami, kami memilih untuk menggunakan BEVDepth untuk penilaian. Kehilangan asal BEVDepth digunakan pada domain sumber sebagai penyeliaan pengesanan 3D utama. Ringkasnya, kehilangan akhir algoritma ialah:

Keputusan percubaan merentas domain

Jadual 1 menunjukkan perbandingan kesan kaedah berbeza di bawah protokol generalisasi domain (DG) dan penyesuaian domain tanpa pengawasan (UDA). Antaranya, Target-Free mewakili protokol DG, dan Pseudo Label, Coral dan AD ialah beberapa kaedah UDA yang biasa. Seperti yang dapat dilihat daripada graf, kaedah ini kesemuanya mencapai peningkatan yang ketara dalam domain sasaran. Ini menunjukkan bahawa pemaparan semantik berfungsi sebagai jambatan untuk membantu mempelajari ciri invarian perspektif terhadap anjakan domain. Tambahan pula, kaedah ini tidak mengorbankan prestasi domain sumber malah memberikan beberapa penambahbaikan dalam kebanyakan kes. Perlu dinyatakan secara khusus bahawa DeepAccident dibangunkan berdasarkan enjin maya Carla Selepas latihan mengenai DeepAccident, algoritma telah mencapai keupayaan generalisasi yang memuaskan. Di samping itu, kaedah pengesanan BEV lain telah diuji, tetapi prestasi generalisasi mereka sangat lemah tanpa reka bentuk khas. Untuk mengesahkan lagi keupayaan untuk menggunakan set data yang tidak diselia dalam domain sasaran, penanda aras UDA juga telah diwujudkan dan kaedah UDA (termasuk Label Pseudo, Coral dan AD) telah digunakan pada DG-BEV. Eksperimen menunjukkan bahawa kaedah ini mempunyai peningkatan prestasi yang ketara. Penyampaian tersirat menggunakan sepenuhnya pengesan 2D dengan prestasi generalisasi yang lebih baik untuk membetulkan maklumat geometri palsu pengesan 3D. Tambahan pula, didapati kebanyakan algoritma cenderung merendahkan prestasi domain sumber, manakala kaedah kami agak ringan. Perlu dinyatakan bahawa AD dan Coral menunjukkan peningkatan yang ketara apabila beralih daripada set data maya kepada sebenar, tetapi menunjukkan kemerosotan prestasi dalam ujian sebenar. Ini kerana kedua-dua algoritma ini direka untuk mengendalikan perubahan gaya, tetapi ia mungkin memusnahkan maklumat semantik dalam adegan dengan perubahan gaya yang kecil. Bagi algoritma Pseudo Label, ia boleh meningkatkan prestasi generalisasi model dengan meningkatkan keyakinan dalam beberapa domain sasaran yang agak baik, tetapi secara membuta tuli meningkatkan keyakinan dalam domain sasaran sebenarnya akan menjadikan model lebih teruk. Keputusan eksperimen membuktikan bahawa algoritma ini telah mencapai peningkatan prestasi yang ketara dalam DG dan UDA Keputusan eksperimen ablasi pada tiga komponen utama ditunjukkan dalam Jadual 2: Pra-latihan pengesan 2D (DPT), Penyingkiran domain sumber (SDB) dan Domain Sasaran. Debiasing (TDB). Keputusan eksperimen menunjukkan bahawa setiap komponen telah mencapai peningkatan, antaranya SDB dan TDB menunjukkan kesan yang agak ketara

Kejayaan NeRF dalam prestasi generalisasi BEV: kod sumber terbuka merentas domain pertama berjaya melaksanakan Sim2Real

Jadual 3 menunjukkan bahawa algoritma algoritma boleh dipindahkan ke algoritma BEVFormer dan FB-OCC. Oleh kerana algoritma ini hanya memerlukan operasi tambahan pada ciri imej dan ciri BEV, ia boleh menambah baik algoritma dengan ciri BEV.

Kejayaan NeRF dalam prestasi generalisasi BEV: kod sumber terbuka merentas domain pertama berjaya melaksanakan Sim2Real

Rajah 5 menunjukkan objek tidak berlabel yang dikesan. Baris pertama ialah kotak 3D label, dan baris kedua ialah hasil pengesanan algoritma. Kotak biru menunjukkan bahawa algoritma boleh mengesan beberapa kotak tidak berlabel. Ini menunjukkan bahawa kaedah itu malah boleh mengesan sampel tidak berlabel dalam domain sasaran, seperti kenderaan yang terlalu jauh atau dalam bangunan di kedua-dua belah jalan.

Kejayaan NeRF dalam prestasi generalisasi BEV: kod sumber terbuka merentas domain pertama berjaya melaksanakan Sim2Real

Ringkasan

Kertas kerja ini mencadangkan rangka kerja pengesanan objek 3D berbilang kamera umum berdasarkan penyahkutuban perspektif, yang boleh menyelesaikan masalah pengesanan objek dalam medan yang tidak diketahui. Rangka kerja mencapai pengesanan yang konsisten dan tepat dengan menayangkan hasil pengesanan 3D pada satah kamera 2D dan membetulkan bias perspektif. Selain itu, rangka kerja ini juga memperkenalkan strategi debiasing perspektif untuk meningkatkan keteguhan model dengan memaparkan imej dari perspektif yang berbeza. Keputusan eksperimen menunjukkan bahawa kaedah ini mencapai peningkatan prestasi yang ketara dalam generalisasi domain dan penyesuaian domain tanpa pengawasan. Selain itu, kaedah ini juga boleh dilatih pada set data maya tanpa memerlukan anotasi pemandangan sebenar, yang memberikan kemudahan untuk aplikasi masa nyata dan penggunaan berskala besar. Sorotan ini menunjukkan cabaran dan potensi kaedah dalam menyelesaikan pengesanan objek 3D berbilang kamera. Kertas kerja ini cuba menggunakan idea Nerf untuk meningkatkan keupayaan generalisasi BEV, dan juga boleh menggunakan data domain sumber berlabel dan data domain sasaran tidak berlabel. Di samping itu, paradigma eksperimen Sim2Real telah dicuba, yang mempunyai potensi nilai untuk gelung tertutup pemanduan autonomi. Terdapat hasil yang baik daripada hasil kualitatif dan kuantitatif, dan kod sumber terbuka patut dilihat

Kejayaan NeRF dalam prestasi generalisasi BEV: kod sumber terbuka merentas domain pertama berjaya melaksanakan Sim2Real

Pautan asal: https://mp.weixin.qq.com/s/GRLu_JW6qZ_nQ9sLiE0p2g

Atas ialah kandungan terperinci Kejayaan NeRF dalam prestasi generalisasi BEV: kod sumber terbuka merentas domain pertama berjaya melaksanakan Sim2Real. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam