Rumah >Peranti teknologi >AI >Tambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia!
Dalam sistem pemanduan autonomi, tugas persepsi adalah komponen penting dalam keseluruhan sistem pemanduan autonomi. Matlamat utama tugas persepsi adalah untuk membolehkan kenderaan autonomi memahami dan melihat elemen persekitaran sekeliling, seperti kenderaan yang memandu di jalan raya, pejalan kaki di tepi jalan, halangan yang dihadapi semasa memandu, tanda lalu lintas di jalan raya, dan sebagainya, dengan itu membantu hiliran. modul Membuat keputusan dan tindakan yang betul dan munasabah. Kenderaan dengan keupayaan pandu sendiri biasanya dilengkapi dengan pelbagai jenis penderia pengumpulan maklumat, seperti penderia kamera pandangan sekeliling, penderia lidar, penderia radar gelombang milimeter, dsb., untuk memastikan kenderaan pandu sendiri itu dapat melihat dengan tepat dan memahami elemen persekitaran sekeliling , membolehkan kenderaan autonomi membuat keputusan yang betul semasa pemanduan autonomi.
Pada masa ini, kaedah persepsi visual berasaskan imej tulen mempunyai kos perkakasan dan kos penggunaan yang lebih rendah berbanding algoritma persepsi berasaskan lidar, dan oleh itu telah mendapat perhatian meluas daripada industri dan akademia. Banyak algoritma persepsi visual yang sangat baik telah muncul untuk mencapai tugas persepsi objek 3D dan tugas pembahagian semantik dalam adegan BEV. Walaupun algoritma persepsi sasaran 3D sedia ada telah mencapai kemajuan yang ketara dalam prestasi pengesanan, masih terdapat beberapa masalah yang didedahkan secara beransur-ansur dalam aplikasi praktikal:
Berdasarkan perkara di atas Berkenaan isu berkaitan yang dinyatakan, grid algoritma penderiaan rangkaian penghunian (Occupancy Network) telah dicadangkan. Pada asasnya, algoritma persepsi Rangkaian Occupancy ialah tugas pembahagian semantik berdasarkan adegan spatial 3D. Algoritma persepsi Rangkaian Penghuni berdasarkan penglihatan tulen akan membahagikan ruang 3D semasa kepada grid voxel 3D, dan menghantar imej sekeliling yang dikumpul kepada model rangkaian melalui sensor kamera sekeliling yang dilengkapi pada kenderaan autonomi Selepas model algoritma Pemprosesan dan ramalan, output status penghunian setiap grid voxel 3D dalam ruang semasa dan kategori semantik sasaran yang mungkin, dengan itu mencapai persepsi menyeluruh tentang pemandangan ruang 3D semasa.
Dalam beberapa tahun kebelakangan ini, algoritma persepsi berdasarkan Rangkaian Occupancy telah mendapat perhatian yang meluas daripada penyelidik kerana kelebihan persepsi yang lebih baik Pada masa ini, banyak karya cemerlang telah muncul untuk meningkatkan prestasi pengesanan jenis algoritma ini hala tuju idea adalah untuk mencadangkan kaedah pengekstrakan ciri yang lebih mantap, kaedah transformasi koordinat daripada ciri 2D kepada ciri 3D, reka bentuk struktur rangkaian yang lebih kompleks dan cara menjana anotasi kebenaran tanah Penghuni dengan lebih tepat untuk membantu pembelajaran model, dsb. Walau bagaimanapun, banyak kaedah persepsi Rangkaian Pendudukan sedia ada mempunyai overhed pengiraan yang serius dalam proses ramalan dan inferens model, menjadikannya sukar bagi algoritma ini untuk memenuhi keperluan persepsi masa nyata untuk pemanduan autonomi dan sukar digunakan dalam kenderaan.
Kami mencadangkan kaedah ramalan Rangkaian Penghuni yang inovatif Berbanding dengan algoritma persepsi terkemuka semasa, algoritma FastOcc kami mempunyai kelajuan inferens masa nyata dan prestasi pengesanan yang sangat baik. Angka berikut boleh membandingkan secara visual perbezaan dalam prestasi dan kelajuan inferens antara algoritma cadangan kami dan algoritma lain.
Perbandingan ketepatan dan kelajuan inferens antara algoritma FastOcc dan algoritma SOTA lain
Pautan kertas: https://arxiv.org/pdf/2403.02710.pdf
Gambar rajah struktur rangkaian algoritma FastOcc
Secara keseluruhannya, algoritma FastOcc yang dicadangkan merangkumi tiga sub-modul, iaituPengekstrakan Ciri Imej untuk pengekstrakan ciri berskala, Lihat Transformasi untuk penukaran perspektif, Didik Kepala, mencapai output persepsi, kami akan memperkenalkan butiran ketiga-tiga bahagian ini secara berasingan.
Untuk algoritma FastOcc yang dicadangkan, input rangkaian masih merupakan imej sekeliling yang dikumpul Di sini kami menggunakan struktur rangkaian ResNet untuk melengkapkan proses pengekstrakan ciri imej sekeliling. Pada masa yang sama, kami juga menggunakan struktur piramid ciri FPN untuk mengagregat keluaran ciri imej berskala oleh rangkaian tulang belakang. Untuk kemudahan ungkapan seterusnya, di sini kami mewakili imej input sebagai , dan ciri selepas pengekstrakan ciri sebagai .
Fungsi utama modul transformasi pandangan adalah untuk melengkapkan proses penukaran ciri imej 2D kepada ciri ruang 3D Pada masa yang sama, untuk mengurangkan kos model algoritma, biasanya ciri ditukar kepada ruang 3D akan menjadi Ungkapan kasar, di sini untuk kemudahan ekspresi, kami menandakan ciri yang ditukar kepada ruang 3D sebagai, di mana mewakili dimensi vektor ciri terbenam dan mewakili panjang, lebar dan ketinggian ruang persepsi. Antara algoritma persepsi semasa, proses penukaran perspektif arus perdana merangkumi dua kategori:
Memandangkan algoritma LSS mempunyai kelajuan dan kecekapan penaakulan yang lebih baik, dalam artikel ini, kami menggunakan algoritma LSS sebagai modul penukaran perspektif kami. Pada masa yang sama, memandangkan kedalaman diskret setiap kedudukan piksel dianggarkan, ketidakpastiannya akan menyekat prestasi persepsi akhir model pada tahap tertentu. Oleh itu, dalam pelaksanaan khusus kami, kami menggunakan maklumat awan titik untuk penyeliaan ke arah yang mendalam untuk mencapai hasil persepsi yang lebih baik.
Dalam rajah struktur rangkaian yang ditunjukkan di atas, kepala ramalan raster juga mengandungi tiga sub-bahagian, iaitu BEV feature extraction, Imej ciri interpolasi sampling . Seterusnya, kami akan memperkenalkan perincian kaedah tiga bahagian satu demi satu.
Untuk menyepadukan ciri BEV planar yang diperolehi dengan ciri voxel 3D yang diperoleh melalui pensampelan interpolasi, kami mula-mula menggunakan operasi pensampelan untuk menyelaraskan dimensi ruang ciri BEV dan dimensi ruang ciri voxel 3D , dan Operasi ulangan dilakukan sepanjang arah paksi Z, dan ciri yang diperoleh selepas operasi direkodkan sebagai . Kemudian kami menggabungkan ciri yang diperolehi melalui pensampelan interpolasi ciri imej dan menyepadukannya melalui lapisan konvolusi untuk mendapatkan ciri voxel akhir.
Proses keseluruhan pensampelan interpolasi ciri imej dan integrasi ciri yang dinyatakan di atas boleh diwakili oleh rajah berikut:
Pensampelan interpolasi ciri imej dan proses integrasi ciri
Selain itu, untuk memastikan lagi ciri BEV modul pengekstrakan Ciri-ciri BEV keluaran mengandungi maklumat ciri yang mencukupi untuk melengkapkan proses persepsi seterusnya Kami menggunakan kaedah penyeliaan tambahan, iaitu, menggunakan kepala pembahagian semantik untuk melaksanakan tugas pembahagian semantik terlebih dahulu, dan menggunakan nilai sebenar Penghunian untuk membina. segmentasi semantik. Label kebenaran melengkapkan keseluruhan proses penyeliaan. Petunjuk Hasil & Penilaian Ekspretental Analisis Quaitatif Bahagian, kami akan menunjukkan perbandingan antara algoritma FASTOCC yang dicadangkan dan algoritma SOTA yang lain pada set data OCC3D-Nuscenes. dalam jadual di bawah Menunjukkan
Perbandingan keupayaan model di bawah rangkaian tulang belakang yang berbeza dan konfigurasi resolusi
Bahagian analisis kualitatif
Rajah berikut menunjukkan perbandingan hasil visual kami model algoritma FastOcc yang dicadangkan dan model algoritma SurroundOcc Daripada situasi ini, dapat dilihat dengan jelas bahawa model algoritma FastOcc yang dicadangkan mengisi elemen persekitaran sekeliling dengan cara yang lebih munasabah, dan mencapai persepsi yang lebih tepat tentang memandu kenderaan dan pokok. Perbandingan hasil visual antara algoritma FastOcc dan algoritma SurroundOccDalam artikel ini, kami mencadangkan model algoritma FastOcc untuk menyelesaikan masalah yang model algoritma Occupancy Network sedia ada mengambil masa yang lama untuk dikesan dan sukar untuk digunakan pada kenderaan. Dengan menggantikan modul lilitan 3D asal yang memproses voxel 3D dengan lilitan 2D, masa penaakulan sangat dipendekkan, dan berbanding dengan algoritma lain, keputusan persepsi SOTA dicapai.
Atas ialah kandungan terperinci Tambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!