Rumah >Peranti teknologi >AI >UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

王林ke hadapan: 2024-03-04 15:55:02464semak imbas

Ditulis di hadapan & pemahaman peribadi

Dalam beberapa tahun kebelakangan ini, persepsi 3D berpusatkan penglihatan dalam teknologi pemanduan autonomi telah mencapai kemajuan pesat. Walaupun pelbagai model persepsi 3D mempunyai banyak persamaan struktur dan konsep, masih terdapat beberapa perbezaan dalam perwakilan ciri, format data dan matlamat, yang membawa cabaran kepada reka bentuk rangka kerja persepsi 3D yang bersatu dan cekap. Oleh itu, penyelidik bekerja keras untuk mencari penyelesaian untuk mengintegrasikan perbezaan antara model yang berbeza dengan lebih baik untuk membina sistem persepsi 3D yang lebih lengkap dan cekap. Usaha seperti ini dijangka membawa teknologi yang lebih andal dan canggih kepada bidang pemanduan autonomi, menjadikannya lebih berkuasa dalam persekitaran yang kompleks Terutama untuk tugas pengesanan dan tugasan penghunian di bawah BEV, masih sukar untuk melakukan latihan bersama , ketidakstabilan kesan yang tidak terkawal menyebabkan sakit kepala untuk banyak aplikasi. UniVision ialah rangka kerja yang mudah dan cekap yang menyatukan dua tugas utama dalam persepsi 3D bertumpu penglihatan, iaitu ramalan penghunian dan pengesanan objek. Titik teras ialah modul transformasi paparan eksplisit-implisit untuk transformasi ciri 2D-3D pelengkap UniVision mencadangkan modul pengekstrakan dan gabungan ciri tempatan dan global untuk pengekstrakan, peningkatan dan Interaksi ciri voxel dan BEV yang cekap dan adaptif.

Dalam bahagian peningkatan data, UniVision turut mencadangkan strategi peningkatan data pengesanan penghunian bersama dan strategi pelarasan berat badan yang progresif untuk meningkatkan kecekapan dan kestabilan latihan rangka kerja pelbagai tugas. Eksperimen meluas dijalankan pada tugas persepsi yang berbeza pada empat penanda aras awam, termasuk segmentasi lidar bebas adegan, pengesanan bebas adegan, OpenOccupancy dan Occ3D. UniVision mencapai SOTA dengan keuntungan +1.5 mIoU, +1.8 NDS, +1.5 mIoU dan +1.8 mIoU pada setiap penanda aras, masing-masing. Rangka kerja UniVision boleh berfungsi sebagai garis asas berprestasi tinggi untuk tugas persepsi 3D berpusatkan penglihatan bersatu.

Jika anda tidak biasa dengan tugas BEV dan Pendudukan, anda dialu-alukan untuk mengkaji lebih lanjut

tutorial persepsi BEV

dan Tutorial rangkaian penghunian kami untuk mengetahui lebih lanjut butiran teknikal!

Keadaan semasa bidang persepsi 3D

Persepsi 3D ialah tugas utama sistem pemanduan autonomi Tujuannya adalah untuk menggunakan data yang diperoleh daripada satu siri penderia (seperti lidar, radar dan kamera) untuk memahami secara menyeluruh. adegan pemanduan untuk perancangan dan membuat keputusan penggunaan seterusnya. Pada masa lalu, bidang persepsi 3D telah didominasi oleh model berasaskan lidar disebabkan oleh maklumat 3D yang tepat yang diperoleh daripada data awan titik. Walau bagaimanapun, sistem berasaskan lidar adalah mahal, terdedah kepada cuaca buruk dan menyusahkan untuk digunakan. Sebaliknya, sistem berasaskan penglihatan mempunyai banyak kelebihan, seperti kos rendah, penggunaan mudah dan kebolehskalaan yang baik. Oleh itu, persepsi tiga dimensi yang berpusatkan penglihatan telah menarik perhatian yang meluas daripada penyelidik.

Baru-baru ini, pengesanan 3D berasaskan penglihatan telah dipertingkatkan dengan ketara melalui transformasi perwakilan ciri, gabungan temporal dan reka bentuk isyarat yang diselia, secara berterusan menutup jurang dengan model berasaskan lidar. Di samping itu, tugas penghunian berasaskan penglihatan telah berkembang pesat dalam beberapa tahun kebelakangan ini. Tidak seperti menggunakan kotak 3D untuk mewakili beberapa objek, penghunian boleh menerangkan geometri dan semantik adegan pemanduan dengan lebih komprehensif dan kurang terhad kepada bentuk dan kategori objek.

Walaupun kaedah pengesanan dan kaedah penghunian berkongsi banyak persamaan struktur dan konsep, pengendalian kedua-dua tugas secara serentak dan meneroka perkaitan mereka belum dikaji dengan baik. Model penghunian dan model pengesanan sering mengeluarkan perwakilan ciri yang berbeza. Tugas ramalan penghunian memerlukan pertimbangan semantik dan geometri yang menyeluruh di lokasi spatial yang berbeza, jadi perwakilan voxel digunakan secara meluas untuk mengekalkan maklumat 3D yang terperinci. Dalam tugas pengesanan, perwakilan BEV lebih disukai kerana kebanyakan objek berada pada satah mendatar yang sama dengan pertindihan yang lebih kecil.

Berbanding dengan perwakilan BEV, perwakilan voxel diperhalusi tetapi kurang cekap. Selain itu, banyak pengendali lanjutan terutamanya direka bentuk dan dioptimumkan untuk ciri 2D, menjadikan penyepaduan mereka dengan perwakilan voxel 3D tidak begitu mudah. Perwakilan BEV adalah lebih cekap masa dan ingatan, tetapi ia adalah suboptimum untuk ramalan spatial padat kerana ia kehilangan maklumat struktur dalam dimensi ketinggian. Selain perwakilan ciri, tugas persepsi yang berbeza juga berbeza dalam format dan matlamat data. Oleh itu, memastikan keseragaman dan kecekapan melatih rangka kerja persepsi 3D berbilang tugas adalah satu cabaran besar.

Struktur rangkaian UniVision

Struktur keseluruhan rangka kerja UniVision ditunjukkan dalam Rajah 1. Rangka kerja menerima imej berbilang paparan daripada N kamera sekeliling sebagai input dan mengekstrak ciri imej melalui rangkaian pengekstrakan ciri imej. Seterusnya, ciri imej 2D dinaik taraf kepada ciri voxel 3D menggunakan modul transformasi paparan Ex-Im, yang menggabungkan peningkatan ciri eksplisit berpandukan kedalaman dan pensampelan ciri tersirat berpandukan pertanyaan. Ciri voxel diproses oleh pengekstrakan ciri global tempatan dan blok gabungan untuk mengekstrak ciri voxel sedar konteks tempatan dan ciri BEV menyedari konteks global masing-masing. Selepas itu, ciri voxel dan ciri BEV yang digunakan untuk tugas persepsi hiliran yang berbeza ditukar melalui modul interaksi ciri perwakilan silang. Dalam fasa latihan, rangka kerja UniVision mengguna pakai strategi gabungan peningkatan data Occ-Det dan pelarasan beransur-ansur berat kehilangan untuk melatih dengan berkesan.

1) Transformasi Ex-Im View

Peningkatan ciri eksplisit berpandukan kedalaman. Pendekatan LSS diikuti di sini:

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

2) Pensampelan ciri tersirat berpandukan pertanyaan. Walau bagaimanapun, terdapat beberapa kelemahan dalam mewakili maklumat 3D. Ketepatan sangat berkorelasi dengan ketepatan anggaran taburan kedalaman. Tambahan pula, mata yang dijana oleh LSS tidak diagihkan sama rata. Titik padat padat berhampiran kamera dan jarang pada jarak. Oleh itu, kami selanjutnya menggunakan pensampelan ciri berpandukan pertanyaan untuk mengimbangi kekurangan di atas.

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

Berbanding dengan mata yang dijana daripada LSS, pertanyaan voxel diedarkan secara seragam dalam ruang 3D, dan ia dipelajari daripada sifat statistik semua sampel latihan, yang tidak bergantung pada kedalaman maklumat terdahulu yang digunakan dalam LSS. Oleh itu, dan saling melengkapi, sambungkannya sebagai ciri keluaran modul transformasi paparan:

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

2) Pengekstrakan dan gabungan ciri global tempatan

Memandangkan ciri voxel input, letakkan dahulu ciri pada Z- paksi , dan gunakan lapisan konvolusi untuk mengurangkan saluran untuk mendapatkan ciri BEV:

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

Kemudian, model dibahagikan kepada dua cabang selari untuk pengekstrakan dan peningkatan ciri. Pengekstrakan ciri tempatan + pengekstrakan ciri global, dan interaksi ciri perwakilan silang terakhir! Seperti yang ditunjukkan dalam Rajah 1(b).

3) Fungsi kehilangan dan kepala pengesan

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

Strategi pelarasan berat badan yang progresif. Dalam amalan, didapati bahawa menggabungkan kerugian di atas secara langsung sering menyebabkan proses latihan gagal dan rangkaian gagal untuk menumpu. Pada peringkat awal latihan, ciri voxel Fvoxel diedarkan secara rawak, dan penyeliaan dalam kepala penghunian dan kepala pengesan menyumbang kurang daripada kerugian lain dalam penumpuan. Pada masa yang sama, item kehilangan seperti Lcls kehilangan klasifikasi dalam tugas pengesanan adalah sangat besar dan mendominasi proses latihan, menjadikannya sukar untuk mengoptimumkan model. Untuk mengatasi masalah ini, strategi pelarasan berat badan progresif dicadangkan untuk melaraskan berat badan secara dinamik. Khususnya, parameter kawalan δ ditambahkan pada kerugian bukan peringkat imej (iaitu, kehilangan penghunian dan kehilangan pengesanan) untuk melaraskan berat kehilangan dalam zaman latihan yang berbeza. Berat kawalan δ ditetapkan kepada nilai Vmin yang kecil pada permulaan dan secara beransur-ansur meningkat kepada Vmax dalam N zaman latihan:

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

4) Penambahan data spatial Occ-Det Bersama

dalam tugas pengesanan 3D kepada pembesaran data peringkat imej biasa, peringkat spatial, penambahan data juga berkesan dalam meningkatkan model, prestasi. Walau bagaimanapun, menggunakan peningkatan tahap spatial dalam tugas penghunian adalah tidak mudah. Apabila kami menggunakan penambahan data (seperti penskalaan rawak dan putaran) pada label penghunian diskret, adalah sukar untuk menentukan semantik voxel yang terhasil. Oleh itu, kaedah sedia ada hanya menggunakan pembesaran spatial mudah seperti flipping rawak dalam tugasan penghunian.

Untuk menyelesaikan masalah ini, UniVision mencadangkan penambahan data spatial Occ-Det bersama untuk membolehkan peningkatan serentak tugas pengesanan 3D dan tugas penghunian dalam rangka kerja. Memandangkan label kotak 3D adalah nilai berterusan dan kotak 3D yang dipertingkatkan boleh dikira terus untuk latihan, kaedah peningkatan dalam BEVDet diikuti untuk pengesanan. Walaupun label penghunian adalah diskret dan sukar untuk dimanipulasi, ciri voxel boleh dianggap sebagai berterusan dan boleh diproses melalui operasi seperti pensampelan dan interpolasi. Oleh itu, adalah disyorkan untuk mengubah ciri voxel dan bukannya beroperasi secara langsung pada label penghunian untuk penambahan data.

Secara khusus, penambahan data spatial diambil pertama kali dan matriks transformasi 3D yang sepadan dikira. Untuk label penghunian dan indeks voxelnya , kami mengira koordinat tiga dimensinya. Kemudian, ia akan digunakan dan dinormalkan untuk mendapatkan indeks voxel dalam ciri voxel yang dipertingkatkan:

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

Perbandingan keputusan percubaan

Menggunakan berbilang set data untuk pengesahan, NuScenes LiDAR Segmentation3D, NuScenes LiDAR Segmentation3D OpenOccupancy dan Occ3D.

Segmentasi LiDAR NuScenes: Menurut OccFormer dan TPVFormer baru-baru ini, imej kamera digunakan sebagai input untuk tugas pembahagian lidar, dan data lidar hanya digunakan untuk menyediakan lokasi 3D untuk menanyakan ciri output. Gunakan mIoU sebagai metrik penilaian.

Pengesanan Objek 3D NuScenes: Untuk tugas pengesanan, gunakan metrik rasmi nuScenes, Skor Pengesanan nuScene (NDS), iaitu jumlah wajaran purata mAP dan beberapa metrik, termasuk ralat terjemahan purata (ATE), ralat skala purata ( ASE) ), ralat orientasi purata (AOE), ralat halaju purata (AVE) dan ralat atribut purata (AAE).

OpenOccupancy: Penanda aras OpenOccupancy adalah berdasarkan set data nuScenes dan menyediakan label penghunian semantik pada resolusi 512×512×40. Kelas berlabel adalah sama seperti yang terdapat dalam tugas pembahagian lidar, menggunakan mIoU sebagai metrik penilaian!

Occ3D: Penanda aras Occ3D adalah berdasarkan set data nuScenes dan menyediakan label penghunian semantik pada resolusi 200×200×16. Occ3D seterusnya menyediakan topeng yang boleh dilihat untuk latihan dan penilaian. Kelas berlabel adalah sama seperti yang terdapat dalam tugas pembahagian lidar, menggunakan mIoU sebagai metrik penilaian!

1) Segmentasi Nuscenes LiDAR

Jadual 1 menunjukkan keputusan penanda aras segmentasi nuScenes LiDAR. UniVision dengan ketara mengatasi prestasi OccFormer kaedah berasaskan penglihatan terkini sebanyak 1.5% mIoU dan menetapkan rekod baharu untuk model berasaskan penglihatan pada papan pendahulu. Terutama, UniVision juga mengatasi beberapa model berasaskan lidar seperti PolarNe dan DB-UNet.

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

2) Tugas Pengesanan Objek 3D NuScenes

Seperti yang ditunjukkan dalam Jadual 2, UniVision ditunjukkan untuk mengatasi kaedah lain apabila menggunakan tetapan latihan yang sama untuk perbandingan yang adil. Berbanding dengan BEVDepth pada resolusi imej 512×1408, UniVision masing-masing mencapai keuntungan sebanyak 2.4% dan 1.1% dalam mAP dan NDS. Apabila model ditingkatkan dan UniVision digabungkan dengan input temporal, ia terus mengatasi pengesan temporal berasaskan SOTA dengan margin yang ketara. UniVision mencapai ini dengan resolusi input yang lebih kecil, dan ia tidak menggunakan CBGS.

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

3) Perbandingan keputusan OpenOccupancy

Keputusan ujian penanda aras OpenOccupancy ditunjukkan dalam Jadual 3. UniVision dengan ketara mengatasi kaedah penghunian berasaskan penglihatan terkini termasuk MonoScene, TPVFormer dan C-CONet dari segi mIoU masing-masing sebanyak 7.3%, 6.5% dan 1.5%. Tambahan pula, UniVision mengatasi beberapa kaedah berasaskan lidar seperti LMSCNet dan JS3C-Net.

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

4) Keputusan Eksperimen Occ3D

Jadual 4 menyenaraikan keputusan penanda aras Occ3D. UniVision dengan ketara mengatasi kaedah berasaskan penglihatan terkini dari segi mIoU di bawah resolusi imej input yang berbeza, masing-masing lebih daripada 2.7% dan 1.8%. Perlu diingat bahawa BEVFormer dan BEVDet-stereo memuatkan pemberat pra-latihan dan menggunakan input temporal dalam inferens, manakala UniVision tidak menggunakannya tetapi masih mencapai prestasi yang lebih baik.

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

5) Keberkesanan komponen dalam tugas pengesanan

Kajian ablasi untuk tugas pengesanan ditunjukkan dalam Jadual 5. Apabila cawangan pengekstrakan ciri global berasaskan BEV dimasukkan ke dalam model garis dasar, prestasi meningkat sebanyak 1.7% mAP dan 3.0% NDS. Apabila tugas penghunian berasaskan voxel ditambahkan pada pengesan sebagai tugas tambahan, keuntungan mAP model meningkat sebanyak 1.6%. Apabila interaksi perwakilan silang diperkenalkan secara eksplisit daripada ciri voxel, model mencapai prestasi terbaik, meningkatkan mAP dan NDS masing-masing sebanyak 3.5% dan 4.2% berbanding garis dasar

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

6) Keberkesanan menduduki komponen dalam tugas; daripada

ditunjukkan dalam Jadual 6 untuk kajian ablasi mengenai tugas penghunian. Rangkaian pengekstrakan ciri tempatan berasaskan voxel membawa peningkatan 1.96% keuntungan mIoU kepada model garis dasar. Apabila tugas pengesanan diperkenalkan sebagai isyarat penyeliaan tambahan, prestasi model bertambah baik sebanyak 0.4% mIoU.

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

7) Lain-lain

Jadual 5 dan Jadual 6 menunjukkan bahawa dalam rangka kerja UniVision, tugas pengesanan dan tugasan penghunian adalah pelengkap antara satu sama lain. Untuk tugas pengesanan, penyeliaan penghunian boleh meningkatkan metrik mAP dan mATE, menunjukkan bahawa pembelajaran semantik voxel secara berkesan meningkatkan persepsi pengesan terhadap geometri objek, iaitu, kepusatan dan skala. Untuk tugasan penghunian, penyeliaan pengesanan meningkatkan prestasi kategori latar depan dengan ketara (iaitu, kategori pengesanan), menghasilkan peningkatan keseluruhan.

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

Keberkesanan gabungan peningkatan spatial Occ-Det, modul penukaran paparan Ex-Im dan strategi pelarasan berat kehilangan progresif ditunjukkan dalam Jadual 7. Dengan cadangan penambahan ruang dan modul transformasi paparan yang dicadangkan, ia menunjukkan peningkatan yang ketara dalam tugas pengesanan dan tugasan penghunian pada metrik mIoU, mAP dan NDS. Strategi pelarasan berat badan boleh melatih rangka kerja pelbagai tugas dengan berkesan. Tanpa ini, latihan rangka kerja bersatu tidak dapat bersatu dan prestasinya sangat rendah.

UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!

Rujukan

Pautan kertas: https://arxiv.org/pdf/2401.06994.pdf

Nama kertas: UniVision: A Unified Perception Framework for Vision-Centric🜎

Atas ialah kandungan terperinci UniVision yang tiada tandingan: Pengesanan BEV dan rangka kerja bersatu Occ bersama, dwi SOTA!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Object for map 对象 transform https 传感器

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Universiti Tsinghua dan Institut Teknologi Harbin telah memampatkan model besar kepada 1 bit, dan keinginan untuk menjalankan model besar pada telefon mudah alih akan menjadi kenyataan!Artikel seterusnya：Universiti Tsinghua dan Institut Teknologi Harbin telah memampatkan model besar kepada 1 bit, dan keinginan untuk menjalankan model besar pada telefon mudah alih akan menjadi kenyataan!

Artikel berkaitan

Lihat lagi