Rumah >Peranti teknologi >AI >Tambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia!

Tambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia!

WBOY
WBOYke hadapan
2024-03-14 23:50:021043semak imbas

Ditulis di atas & pemahaman peribadi pengarang

Dalam sistem pemanduan autonomi, tugas persepsi adalah komponen penting dalam keseluruhan sistem pemanduan autonomi. Matlamat utama tugas persepsi adalah untuk membolehkan kenderaan autonomi memahami dan melihat elemen persekitaran sekeliling, seperti kenderaan yang memandu di jalan raya, pejalan kaki di tepi jalan, halangan yang dihadapi semasa memandu, tanda lalu lintas di jalan raya, dan sebagainya, dengan itu membantu hiliran. modul Membuat keputusan dan tindakan yang betul dan munasabah. Kenderaan dengan keupayaan pandu sendiri biasanya dilengkapi dengan pelbagai jenis penderia pengumpulan maklumat, seperti penderia kamera pandangan sekeliling, penderia lidar, penderia radar gelombang milimeter, dsb., untuk memastikan kenderaan pandu sendiri itu dapat melihat dengan tepat dan memahami elemen persekitaran sekeliling , membolehkan kenderaan autonomi membuat keputusan yang betul semasa pemanduan autonomi.

Pada masa ini, kaedah persepsi visual berasaskan imej tulen mempunyai kos perkakasan dan kos penggunaan yang lebih rendah berbanding algoritma persepsi berasaskan lidar, dan oleh itu telah mendapat perhatian meluas daripada industri dan akademia. Banyak algoritma persepsi visual yang sangat baik telah muncul untuk mencapai tugas persepsi objek 3D dan tugas pembahagian semantik dalam adegan BEV. Walaupun algoritma persepsi sasaran 3D sedia ada telah mencapai kemajuan yang ketara dalam prestasi pengesanan, masih terdapat beberapa masalah yang didedahkan secara beransur-ansur dalam aplikasi praktikal:

  • Algoritma persepsi sasaran 3D asal tidak dapat menyelesaikan masalah yang wujud dalam set data Masalah ekor panjang , serta objek yang wujud di dunia nyata tetapi mungkin tidak dilabelkan dalam set data latihan semasa (seperti batu besar di jalan raya, kenderaan terbalik, dll.)
  • Algoritma persepsi objek 3D asal biasanya mengeluarkan secara langsung 3D kasar kotak sempadan stereoskopik tidak dapat menerangkan dengan tepat objek sasaran berbentuk arbitrari, dan ekspresi bentuk objek dan struktur geometri tidak cukup halus. Walaupun kotak hasil keluaran ini boleh memenuhi kebanyakan pemandangan objek, contohnya, bas bersambung atau kenderaan pembinaan dengan cangkuk panjang, algoritma persepsi 3D semasa tidak dapat memberikan penerangan yang tepat dan jelas

Berdasarkan perkara di atas Berkenaan isu berkaitan yang dinyatakan, grid algoritma penderiaan rangkaian penghunian (Occupancy Network) telah dicadangkan. Pada asasnya, algoritma persepsi Rangkaian Occupancy ialah tugas pembahagian semantik berdasarkan adegan spatial 3D. Algoritma persepsi Rangkaian Penghuni berdasarkan penglihatan tulen akan membahagikan ruang 3D semasa kepada grid voxel 3D, dan menghantar imej sekeliling yang dikumpul kepada model rangkaian melalui sensor kamera sekeliling yang dilengkapi pada kenderaan autonomi Selepas model algoritma Pemprosesan dan ramalan, output status penghunian setiap grid voxel 3D dalam ruang semasa dan kategori semantik sasaran yang mungkin, dengan itu mencapai persepsi menyeluruh tentang pemandangan ruang 3D semasa.

Dalam beberapa tahun kebelakangan ini, algoritma persepsi berdasarkan Rangkaian Occupancy telah mendapat perhatian yang meluas daripada penyelidik kerana kelebihan persepsi yang lebih baik Pada masa ini, banyak karya cemerlang telah muncul untuk meningkatkan prestasi pengesanan jenis algoritma ini hala tuju idea adalah untuk mencadangkan kaedah pengekstrakan ciri yang lebih mantap, kaedah transformasi koordinat daripada ciri 2D kepada ciri 3D, reka bentuk struktur rangkaian yang lebih kompleks dan cara menjana anotasi kebenaran tanah Penghuni dengan lebih tepat untuk membantu pembelajaran model, dsb. Walau bagaimanapun, banyak kaedah persepsi Rangkaian Pendudukan sedia ada mempunyai overhed pengiraan yang serius dalam proses ramalan dan inferens model, menjadikannya sukar bagi algoritma ini untuk memenuhi keperluan persepsi masa nyata untuk pemanduan autonomi dan sukar digunakan dalam kenderaan.

Kami mencadangkan kaedah ramalan Rangkaian Penghuni yang inovatif Berbanding dengan algoritma persepsi terkemuka semasa, algoritma FastOcc kami mempunyai kelajuan inferens masa nyata dan prestasi pengesanan yang sangat baik. Angka berikut boleh membandingkan secara visual perbezaan dalam prestasi dan kelajuan inferens antara algoritma cadangan kami dan algoritma lain.

Tambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia!Perbandingan ketepatan dan kelajuan inferens antara algoritma FastOcc dan algoritma SOTA lain

Pautan kertas: https://arxiv.org/pdf/2403.02710.pdf

Secara keseluruhan seni bina & butiran model rangkaian

untuk meningkatkan Pendudukan Untuk kelajuan inferens algoritma Persepsi Rangkaian, kami menjalankan eksperimen daripada empat bahagian: resolusi imej input, rangkaian tulang belakang pengekstrakan ciri, kaedah penukaran perspektif dan struktur kepala ramalan grid hasil eksperimen, kami mendapati bahawa struktur tiga dimensi kepala ramalan grid Konvolusi atau penyahkonvolusi mempunyai banyak ruang pengoptimuman yang memakan masa. Berdasarkan ini, kami mereka bentuk struktur rangkaian algoritma FastOcc, seperti yang ditunjukkan dalam rajah di bawah.

Gambar rajah struktur rangkaian algoritma FastOccTambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia!

Secara keseluruhannya, algoritma FastOcc yang dicadangkan merangkumi tiga sub-modul, iaitu

Pengekstrakan Ciri Imej untuk pengekstrakan ciri berskala, Lihat Transformasi untuk penukaran perspektif, Didik Kepala, mencapai output persepsi, kami akan memperkenalkan butiran ketiga-tiga bahagian ini secara berasingan.

Pengeluaran Ciri Imej

Untuk algoritma FastOcc yang dicadangkan, input rangkaian masih merupakan imej sekeliling yang dikumpul Di sini kami menggunakan struktur rangkaian ResNet untuk melengkapkan proses pengekstrakan ciri imej sekeliling. Pada masa yang sama, kami juga menggunakan struktur piramid ciri FPN untuk mengagregat keluaran ciri imej berskala oleh rangkaian tulang belakang. Untuk kemudahan ungkapan seterusnya, di sini kami mewakili imej input sebagai , dan ciri selepas pengekstrakan ciri sebagai .

Lihat Transformasi

Fungsi utama modul transformasi pandangan adalah untuk melengkapkan proses penukaran ciri imej 2D kepada ciri ruang 3D Pada masa yang sama, untuk mengurangkan kos model algoritma, biasanya ciri ditukar kepada ruang 3D akan menjadi Ungkapan kasar, di sini untuk kemudahan ekspresi, kami menandakan ciri yang ditukar kepada ruang 3D sebagai, di mana mewakili dimensi vektor ciri terbenam dan mewakili panjang, lebar dan ketinggian ruang persepsi. Antara algoritma persepsi semasa, proses penukaran perspektif arus perdana merangkumi dua kategori:

  • Kategori pertama ialah kaedah transformasi koordinat ke belakang yang diwakili oleh BEVFormer. Kaedah jenis ini biasanya menjana pertanyaan voxel dalam ruang 3D dahulu, dan kemudian menggunakan Cross-view Attention untuk berinteraksi dengan pertanyaan voxel dalam ruang 3D dan ciri imej 2D untuk melengkapkan pembinaan ciri voxel 3D terakhir.
  • Satu jenis ialah kaedah transformasi koordinat Hadapan yang diwakili oleh LSS. Kaedah jenis ini akan menggunakan rangkaian anggaran kedalaman dalam rangkaian untuk menganggarkan maklumat ciri semantik secara serentak dan kebarangkalian kedalaman diskret bagi setiap kedudukan piksel ciri, membina ciri frustum semantik melalui operasi produk luar, dan akhirnya menggunakan lapisan VoxelPooling untuk mencapai ciri voxel 3D akhir pembinaan.

Memandangkan algoritma LSS mempunyai kelajuan dan kecekapan penaakulan yang lebih baik, dalam artikel ini, kami menggunakan algoritma LSS sebagai modul penukaran perspektif kami. Pada masa yang sama, memandangkan kedalaman diskret setiap kedudukan piksel dianggarkan, ketidakpastiannya akan menyekat prestasi persepsi akhir model pada tahap tertentu. Oleh itu, dalam pelaksanaan khusus kami, kami menggunakan maklumat awan titik untuk penyeliaan ke arah yang mendalam untuk mencapai hasil persepsi yang lebih baik.

Raster Prediction Head (Occupancy Prediction Head)

Dalam rajah struktur rangkaian yang ditunjukkan di atas, kepala ramalan raster juga mengandungi tiga sub-bahagian, iaitu BEV feature extraction, Imej ciri interpolasi sampling . Seterusnya, kami akan memperkenalkan perincian kaedah tiga bahagian satu demi satu.

Ekstraksi ciri BEV

Pada masa ini, kebanyakan algoritma Rangkaian Pendudukan memproses ciri voxel 3D yang diperolehi oleh modul penukaran perspektif. Bentuk pemprosesan secara amnya adalah rangkaian konvolusi penuh tiga dimensi. Khususnya, untuk mana-mana lapisan rangkaian konvolusi penuh tiga dimensi, jumlah pengiraan yang diperlukan untuk menggabungkan ciri voxel tiga dimensi input adalah seperti berikut:

di mana, dan mewakili bilangan saluran ciri input dan ciri output masing-masing, dan mewakili saiz ruang peta Ciri. Berbanding dengan memproses ciri voxel secara langsung dalam ruang 3D, kami menggunakan modul konvolusi ciri 2D BEV yang ringan. Khususnya, untuk ciri voxel keluaran modul penukaran perspektif, kami mula-mula menggabungkan maklumat ketinggian dan ciri semantik untuk mendapatkan ciri BEV 2D, dan kemudian menggunakan rangkaian konvolusi sepenuhnya 2D untuk melakukan pengekstrakan ciri untuk mendapatkan ciri BEV ini proses Jumlah pengiraan proses boleh dinyatakan dalam bentuk berikut

Membandingkan jumlah pengiraan proses pemprosesan 3D dan 2D, dapat dilihat bahawa dengan menggunakan modul konvolusi ciri 2D BEV yang ringan untuk menggantikan pengekstrakan ciri voxel 3D asal , ia boleh dikurangkan dengan banyak Jumlah pengiraan model. Pada masa yang sama, carta alir visual kedua-dua jenis pemprosesan ditunjukkan dalam rajah di bawah:

Tambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia!

Visualisasi struktur rangkaian 2D FCN dan 3D FCN

Pensampelan interpolasi ciri imej

Untuk mengurangkan jumlah pengiraan modul kepala ramalan raster , kami memampatkan ketinggian output ciri voxel 3D oleh modul penukaran perspektif, dan menggunakan modul lilitan BEV 2D untuk pengekstrakan ciri. Walau bagaimanapun, untuk meningkatkan maklumat ciri ketinggian paksi Z yang hilang dan mematuhi idea untuk mengurangkan jumlah pengiraan model, kami mencadangkan kaedah pensampelan interpolasi ciri imej.

Secara khusus, kami mula-mula menetapkan ruang voxel tiga dimensi yang sepadan mengikut julat yang perlu dirasai, dan menetapkannya kepada sistem koordinat ego, yang dilambangkan sebagai . Kedua, matriks transformasi koordinat ekstrinsik dan intrinsik kamera digunakan untuk menayangkan titik koordinat dalam sistem koordinat ego kepada sistem koordinat imej, yang digunakan untuk mengekstrak ciri imej pada kedudukan yang sepadan.

Antaranya, dan mewakili matriks transformasi koordinat intrinsik dan ekstrinsik kamera masing-masing, mewakili kedudukan titik spatial dalam sistem koordinat ego yang diunjurkan ke sistem koordinat imej. Selepas mendapatkan koordinat imej yang sepadan, kami menapis titik koordinat yang melebihi julat imej atau mempunyai kedalaman negatif. Kemudian, kami menggunakan operasi interpolasi bilinear untuk mendapatkan ciri semantik imej yang sepadan mengikut kedudukan koordinat yang diunjurkan, dan purata ciri yang dikumpul daripada semua imej kamera untuk mendapatkan hasil pensampelan interpolasi akhir.

Penyepaduan ciri

Untuk menyepadukan ciri BEV planar yang diperolehi dengan ciri voxel 3D yang diperoleh melalui pensampelan interpolasi, kami mula-mula menggunakan operasi pensampelan untuk menyelaraskan dimensi ruang ciri BEV dan dimensi ruang ciri voxel 3D , dan Operasi ulangan dilakukan sepanjang arah paksi Z, dan ciri yang diperoleh selepas operasi direkodkan sebagai . Kemudian kami menggabungkan ciri yang diperolehi melalui pensampelan interpolasi ciri imej dan menyepadukannya melalui lapisan konvolusi untuk mendapatkan ciri voxel akhir.

Proses keseluruhan pensampelan interpolasi ciri imej dan integrasi ciri yang dinyatakan di atas boleh diwakili oleh rajah berikut:

Tambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia!

Pensampelan interpolasi ciri imej dan proses integrasi ciri

Selain itu, untuk memastikan lagi ciri BEV modul pengekstrakan Ciri-ciri BEV keluaran mengandungi maklumat ciri yang mencukupi untuk melengkapkan proses persepsi seterusnya Kami menggunakan kaedah penyeliaan tambahan, iaitu, menggunakan kepala pembahagian semantik untuk melaksanakan tugas pembahagian semantik terlebih dahulu, dan menggunakan nilai sebenar Penghunian untuk membina. segmentasi semantik. Label kebenaran melengkapkan keseluruhan proses penyeliaan. Petunjuk Hasil & Penilaian Ekspretental Analisis Quaitatif Bahagian, kami akan menunjukkan perbandingan antara algoritma FASTOCC yang dicadangkan dan algoritma SOTA yang lain pada set data OCC3D-Nuscenes. dalam jadual di bawah Menunjukkan

Perbandingan setiap indeks algoritma pada set data Occ3D-nuScenes

Ia boleh dilihat daripada keputusan dalam jadual yang berbanding dengan algoritma lain, algoritma FastOcc yang kami cadangkan mempunyai prestasi yang lebih baik dalam kebanyakan kategori daripada algoritma lain Semua mempunyai lebih banyak kelebihan, dan penunjuk mIoU keseluruhan juga mencapai kesan SOTA.

Selain itu, kami juga membandingkan kesan kaedah penukaran perspektif yang berbeza dan modul ciri penyahkodan yang digunakan dalam kepala ramalan raster pada prestasi persepsi dan masa penaakulan (data eksperimen adalah berdasarkan resolusi imej input 640 × 1600, tulang belakang rangkaian menggunakan rangkaian ResNet-101), keputusan percubaan yang berkaitan dibandingkan seperti yang ditunjukkan dalam jadual di bawah

Tambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia!

Perbandingan ketepatan dan penggunaan masa inferens bagi penukaran perspektif yang berbeza dan kepala ramalan raster

Algoritma SurroundOcc menggunakan berbilang The Cross Cross -lihat Kaedah penukaran perspektif perhatian dan lilitan 3D digunakan untuk mengekstrak ciri voxel 3D, yang mempunyai masa penaakulan tertinggi. Selepas kami menggantikan kaedah penukaran perspektif Perhatian Silang Pandangan asal dengan kaedah penukaran LSS, ketepatan mIoU telah dipertingkatkan dan penggunaan masa telah dikurangkan. Atas dasar ini, dengan menggantikan konvolusi 3D asal dengan struktur FCN 3D, ketepatan boleh ditingkatkan lagi, tetapi masa penaakulan juga meningkat dengan ketara. Akhir sekali, kami memilih kaedah penukaran koordinat bagi pensampelan LSS dan struktur 2D FCN untuk mencapai keseimbangan antara prestasi pengesanan dan penggunaan masa inferens.

Selain itu, kami juga mengesahkan keberkesanan tugas penyeliaan segmentasi semantik kami yang dicadangkan berdasarkan ciri BEV dan pensampelan interpolasi ciri imej Keputusan eksperimen ablasi khusus ditunjukkan dalam jadual di bawah:

Tambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia!

Perbandingan eksperimen ablasi yang berbeza. modul Situasi

Selain itu, kami juga menjalankan eksperimen skala pada model, dan membina satu set model algoritma persepsi Rangkaian Penghuni (FastOcc, FastOcc-Small, FastOcc-Tiny) dengan mengawal saiz rangkaian tulang belakang dan resolusi imej input. Konfigurasi khusus ditunjukkan dalam jadual di bawah:

Perbandingan keupayaan model di bawah rangkaian tulang belakang yang berbeza dan konfigurasi resolusiTambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia!

Bahagian analisis kualitatif

Rajah berikut menunjukkan perbandingan hasil visual kami model algoritma FastOcc yang dicadangkan dan model algoritma SurroundOcc Daripada situasi ini, dapat dilihat dengan jelas bahawa model algoritma FastOcc yang dicadangkan mengisi elemen persekitaran sekeliling dengan cara yang lebih munasabah, dan mencapai persepsi yang lebih tepat tentang memandu kenderaan dan pokok.

Tambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia!

Perbandingan hasil visual antara algoritma FastOcc dan algoritma SurroundOcc

Kesimpulan

Dalam artikel ini, kami mencadangkan model algoritma FastOcc untuk menyelesaikan masalah yang model algoritma Occupancy Network sedia ada mengambil masa yang lama untuk dikesan dan sukar untuk digunakan pada kenderaan. Dengan menggantikan modul lilitan 3D asal yang memproses voxel 3D dengan lilitan 2D, masa penaakulan sangat dipendekkan, dan berbanding dengan algoritma lain, keputusan persepsi SOTA dicapai.

Atas ialah kandungan terperinci Tambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam