Rumah >Peranti teknologi >AI >FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!

FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!

WBOYke hadapan: 2023-11-28 11:21:50982semak imbas

Tajuk asal: FlashOcc: Ramalan Penghuni yang Cepat dan Cekap Memori melalui Pemalam Channel-to-Height

Pautan kertas: https://arxiv.org/pdf/2311.12058.pdf

Gabungan pengarang: Daliande University of Technology Houmo AI A Rider University

FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!

Idea tesis:

Ramalan penghunian telah menjadi komponen utama sistem pemanduan autonomi kerana keupayaannya untuk mengurangkan kecacatan ekor panjang dan kehilangan bentuk kompleks yang lazim dalam pengesanan objek 3D. Walau bagaimanapun, pemprosesan perwakilan peringkat voxel tiga dimensi sudah semestinya memperkenalkan overhed yang ketara dari segi ingatan dan pengiraan, menghalang penggunaan kaedah ramalan penghunian setakat ini. Bertentangan dengan trend menjadikan model lebih besar dan kompleks, kertas kerja ini berpendapat bahawa rangka kerja yang ideal harus mesra penggunaan merentas cip yang berbeza sambil mengekalkan ketepatan yang tinggi. Untuk tujuan ini, kertas kerja ini mencadangkan paradigma plug-and-play, FlashOCC, untuk menyatukan ramalan penghunian yang pantas dan cekap memori sambil mengekalkan ketepatan yang tinggi. Khususnya, FlashOCC kami membuat dua penambahbaikan berdasarkan kaedah ramalan penghunian tahap voxel kontemporari. Pertama, ciri dikekalkan dalam BEV, membolehkan penggunaan lapisan konvolusi 2D yang cekap untuk pengekstrakan ciri. Kedua, transformasi saluran-ke-tinggi diperkenalkan untuk mempromosikan logit keluaran BEV kepada ruang 3D. Kertas kerja ini menggunakan FlashOCC pada pelbagai garis dasar ramalan penghunian pada penanda aras Occ3D-nuScenes yang mencabar dan menjalankan eksperimen yang meluas untuk mengesahkan keberkesanannya. Keputusan mengesahkan bahawa paradigma plug-and-play kami mengatasi kaedah tercanggih sebelumnya dari segi ketepatan, kecekapan masa jalan dan kos memori, menunjukkan potensi penggunaannya. Kod akan tersedia untuk digunakan.

Reka bentuk rangkaian:

Diinspirasikan oleh teknologi konvolusi subpiksel [26], kami menggantikan pensampelan imej dengan penyusunan semula saluran untuk mencapai penukaran ciri saluran ke ruang. Dalam kajian ini, kami menyasarkan untuk mencapai penukaran ciri saluran ke ketinggian dengan cekap. Memandangkan pembangunan tugas persepsi BEV, di mana setiap piksel dalam perwakilan BEV mengandungi maklumat tentang objek kolumnar yang sepadan dalam dimensi ketinggian, kami secara intuitif menggunakan transformasi saluran-ke-tinggi untuk meratakan ciri-ciri BEV ke dalam logit penghunian tahap voxel 3D . Oleh itu, penyelidikan kami menumpukan pada meningkatkan model sedia ada dalam cara generik dan pasang dan main berbanding membangunkan seni bina model novel, seperti yang ditunjukkan dalam Rajah 1(a). Khususnya, kami secara langsung menggunakan konvolusi 2D dan bukannya konvolusi 3D dalam kaedah kontemporari, dan menggantikan logit penghunian yang diperoleh daripada output konvolusi 3D dengan transformasi saluran ke ketinggian ciri tahap BEV yang diperoleh melalui konvolusi 2D. Model ini bukan sahaja mencapai pertukaran terbaik antara ketepatan dan penggunaan masa, tetapi juga menunjukkan keserasian penggunaan yang sangat baik

FlashOcc berjaya menyelesaikan ramalan penghunian 3D tinjauan masa nyata dengan ketepatan yang sangat tinggi, mewakili yang terbaik dalam bidang ini Sumbangan Pecah Tanah. Tambahan pula, ia menunjukkan fleksibiliti yang dipertingkatkan untuk penggunaan merentas platform kenderaan yang berbeza kerana ia tidak memerlukan pemprosesan ciri tahap voxel yang mahal, di mana pengubah paparan atau pengendali lilitan 3D (boleh berubah bentuk) dielakkan. Seperti yang ditunjukkan dalam Rajah 2, data input FlashOcc terdiri daripada imej sekeliling, manakala output adalah hasil ramalan penghunian padat. Walaupun FlashOcc artikel ini memfokuskan pada mempertingkat model sedia ada dalam cara yang serba boleh dan pasang dan main, ia masih boleh dibahagikan kepada lima modul asas: (1) Pengekod imej 2D, bertanggungjawab untuk mengekstrak ciri imej daripada imej berbilang kamera. (2) Modul transformasi pandangan yang membantu memetakan ciri imej paparan persepsi 2D kepada perwakilan BEV 3D. (3) Pengekod BEV, bertanggungjawab untuk memproses maklumat ciri BEV. (4) Menduduki modul ramalan untuk meramalkan label pembahagian setiap voxel. (5) Modul gabungan temporal pilihan yang direka untuk menyepadukan maklumat sejarah untuk meningkatkan prestasi.

FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!

Rajah 1.(a) menggambarkan bagaimana FlashOcc yang dicadangkan boleh dilaksanakan dalam cara pasang dan main. Kaedah moden menggunakan ciri 3D tahap voxel yang diproses oleh 3D-Conv untuk meramalkan penghunian. Sebaliknya, model penggantian pemalam kami dilaksanakan dengan (1) menggantikan 3D-Conv dengan 2D-Conv dan (2) menggantikan log penghunian yang diperoleh daripada 3D-Conv dengan transformasi saluran ke ketinggian yang Pantas dan cekap memori ramalan penghunian ciri tahap BEV yang diperoleh melalui 2D-Conv. Singkatan "Conv" bermaksud convolution. (b) menggambarkan pertukaran antara ketepatan dan faktor seperti kelajuan, penggunaan ingatan inferens dan tempoh latihan.

FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!

Rajah 2. Angka ini menggambarkan seni bina keseluruhan FlashOcc dan terbaik dilihat dalam warna dengan keupayaan zum. Kawasan yang ditetapkan oleh kotak putus-putus menunjukkan kehadiran modul yang boleh diganti. Bentuk ciri setiap modul boleh diganti diwakili oleh ikon yang mewakili imej 2D, ciri peringkat BEV dan tahap voxel. Kawasan biru muda sepadan dengan modul gabungan temporal pilihan, penggunaannya bergantung pada pengaktifan suis merah.

FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!

Rajah 4 menunjukkan perbandingan seni bina antara pemprosesan perwakilan peringkat voxel 3D dan penggantian pemalam yang dicadangkan dalam artikel ini

Hasil eksperimen:

FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!

Ringkasan:

Artikel ini memperkenalkan pendekatan plug-and-play yang dipanggil FlashOCC, direka untuk mencapai ramalan penghunian yang cepat dan cekap memori. Kaedah ini menggunakan belitan 2D untuk menggantikan terus belitan 3D dalam kaedah penghunian berasaskan voxel dan menggabungkan transformasi saluran ke ketinggian untuk membentuk semula ciri BEV yang diratakan ke dalam logi penghunian. FlashOCC telah menunjukkan keberkesanan dan serba boleh merentas pelbagai kaedah ramalan penghunian peringkat voxel. Eksperimen yang meluas menunjukkan bahawa kaedah ini mengatasi kaedah tercanggih sebelumnya dari segi ketepatan, penggunaan masa, kecekapan memori dan kemesraan penggunaan. Untuk pengetahuan terbaik kami, FlashOCC ialah kaedah pertama untuk menggunakan paradigma subpiksel (Saluran-ke-Tinggi) pada tugasan penghunian, khususnya memanfaatkan ciri peringkat BEV dan mengelak sepenuhnya penggunaan konvolusi atau pengubah pengiraan 3D (bolehubah bentuk). modul. Hasil visualisasi menunjukkan dengan meyakinkan bahawa FlashOCC berjaya mengekalkan maklumat ketinggian. Dalam kerja akan datang, kaedah ini akan disepadukan ke dalam saluran persepsi pemanduan autonomi, bertujuan untuk mencapai penggunaan pada cip yang cekap

Petikan: FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!

Yu, Z., Shu, C., Deng, J. , Lu, K., Liu, Z., Yu, J., Yang, D., Li, H., & Chen, Y. (2023: Ramalan Penghunian yang Cepat dan Cekap Memori melalui Pemalam ArXiv . /abs/2311.12058

🎜🎜🎜🎜Pautan asal: https://mp.weixin.qq.com/s/JDPlWj8FnZffJZc9PIsvXQ🎜

Atas ialah kandungan terperinci FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构 channel li transformer https

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Dalam pembelajaran beberapa pukulan, gunakan SetFit untuk klasifikasi teksArtikel seterusnya：Dalam pembelajaran beberapa pukulan, gunakan SetFit untuk klasifikasi teks

Artikel berkaitan

Lihat lagi