Rumah > Artikel > Peranti teknologi > QTNet: Penyelesaian gabungan temporal baharu untuk awan titik, imej dan pengesan berbilang modal (NeurIPS 2023)
Penyatuan siri masa ialah cara yang berkesan untuk meningkatkan keupayaan persepsi pengesanan sasaran 3D pemanduan autonomi, tetapi kaedah semasa mempunyai masalah seperti kos dan overhed apabila digunakan dalam senario pemanduan autonomi sebenar. Artikel penyelidikan terkini "Penyatuan pemasaan gerakan eksplisit berasaskan pertanyaan untuk pengesanan sasaran 3D" mencadangkan kaedah gabungan pemasaan baharu dalam NeurIPS 2023, yang mengambil pertanyaan jarang sebagai objek pemasaan pemasaan dan menggunakan maklumat gerakan eksplisit untuk menjana pemasaan matriks Perhatian untuk disesuaikan dengan ciri-ciri awan titik berskala besar. Kaedah ini telah dicadangkan oleh penyelidik dari Universiti Sains dan Teknologi Huazhong dan Baidu, dan dipanggil QTNet: kaedah gabungan temporal untuk pengesanan sasaran 3D berdasarkan pertanyaan dan gerakan eksplisit. Eksperimen telah membuktikan bahawa QTNet boleh membawa peningkatan prestasi yang konsisten ke awan titik, imej dan pengesan berbilang modal hampir tanpa kos overhed
Berkat kesinambungan masa dunia nyata, maklumat dalam dimensi masa boleh menjadikan maklumat persepsi lebih lengkap, dan kemudian Meningkatkan ketepatan dan keteguhan pengesanan sasaran Contohnya, maklumat pemasaan boleh membantu menyelesaikan masalah oklusi dalam pengesanan sasaran, memberikan status gerakan sasaran dan maklumat kelajuan, dan memberikan maklumat ketekalan dan ketekalan sasaran. Oleh itu, cara menggunakan maklumat masa dengan cekap adalah isu penting dalam persepsi pemanduan autonomi. Kaedah gabungan masa sedia ada terbahagi kepada dua kategori. Satu jenis ialah gabungan siri masa berdasarkan ciri BEV yang padat (terpakai untuk gabungan awan titik/imej siri masa), dan jenis lain ialah gabungan siri masa berdasarkan ciri Cadangan 3D (terutamanya bertujuan untuk kaedah gabungan siri masa awan titik). Untuk gabungan temporal berdasarkan ciri BEV, memandangkan lebih daripada 90% mata pada BEV adalah latar belakang, kaedah jenis ini tidak memberi lebih perhatian kepada objek latar depan, yang mengakibatkan banyak overhed pengiraan yang tidak diperlukan dan prestasi sub-optimum. Untuk algoritma gabungan siri masa berdasarkan Cadangan 3D, ia menjana ciri Cadangan 3D melalui Penggabungan RoI 3D yang memakan masa Terutama apabila terdapat banyak sasaran dan sejumlah besar awan titik, overhed yang disebabkan oleh Penggabungan RoI 3D sebenarnya sangat tinggi. Selalunya sukar untuk diterima dalam permohonan. Selain itu, ciri Cadangan 3D sangat bergantung pada kualiti Cadangan, yang selalunya terhad dalam adegan yang kompleks. Oleh itu, adalah sukar bagi kaedah semasa untuk memperkenalkan gabungan temporal dengan cekap untuk meningkatkan prestasi pengesanan sasaran 3D dengan cara overhed yang sangat rendah.
DETR ialah paradigma pengesanan sasaran yang sangat baik. Reka bentuk Pertanyaannya dan idea Tetapan Ramalan merealisasikan paradigma pengesanan yang elegan tanpa sebarang pasca pemprosesan. Dalam DETR, setiap Pertanyaan mewakili objek, dan Pertanyaan adalah sangat jarang berbanding dengan ciri padat (biasanya bilangan Pertanyaan ditetapkan kepada nombor tetap yang agak kecil). Jika Quey digunakan sebagai objek gabungan masa, masalah overhed pengiraan secara semula jadi akan turun ke tahap yang lebih rendah. Oleh itu, paradigma Pertanyaan DETR ialah paradigma yang secara semula jadi sesuai untuk gabungan masa. Percantuman temporal memerlukan pembinaan perkaitan objek antara berbilang bingkai untuk mencapai sintesis maklumat konteks temporal. Jadi masalah utama ialah cara membina saluran paip gabungan masa berasaskan Pertanyaan dan mewujudkan korelasi antara Pertanyaan antara dua bingkai.
Idea teras QTNet ialah menggunakan Bank Memori untuk menyimpan ciri Pertanyaan yang diperolehi dalam bingkai sejarah dan hasil pengesanannya yang sepadan untuk mengelakkan overhed pengiraan berulang bingkai sejarah. Di antara dua bingkai Pertanyaan, gunakan matriks perhatian berpandukan gerakan untuk pemodelan perhubungan
Seperti yang ditunjukkan dalam rajah rangka kerja, QTNet menyertakan pengesan objek 3D dengan struktur DETR 3D (LiDAR, Kamera dan berbilang modal tersedia), Bank Memori dan Modul Pemodelan Temporal (MTM) berpandukan Gerakan untuk gabungan masa. QTNet memperoleh ciri Pertanyaan dan hasil pengesanan bingkai yang sepadan melalui pengesan sasaran 3D bagi struktur DETR, dan menghantar ciri Pertanyaan dan hasil pengesanan yang diperoleh kepada Bank Memori dalam baris gilir masuk dahulu, keluar dahulu (FIFO). Bilangan Bank Memori ditetapkan kepada bilangan bingkai yang diperlukan untuk gabungan masa. Untuk gabungan masa, QTNet membaca data dari Bank Memori bermula dari saat yang paling jauh, dan menggunakan modul MTM untuk menggabungkan semua ciri dalam Bank Memori secara berulang daripada bingkai ke bingkai untuk meningkatkan ciri Pertanyaan semasa bingkai, dan Perhalusi hasil pengesanan yang sepadan dengan bingkai semasa berdasarkan ciri Pertanyaan yang dipertingkatkan.
Secara khusus, QTNet menggabungkan ciri Pertanyaan dan daripada bingkai dengan bingkai dan , dan memperoleh ciri Bingkai 🜎 yang dipertingkatkan. Kemudian, QTNet menggabungkan ciri Pertanyaan bagi bingkai dan . Dengan cara ini, ia disepadukan secara berterusan ke bingkai melalui lelaran. Ambil perhatian bahawa MTM yang digunakan di sini daripada bingkai ke bingkai semua parameter perkongsian. Modul Perhatian Berpandu Gerakan
MTM menggunakan kedudukan titik tengah objek untuk menjana secara eksplisit matriks perhatian
Kueri Bingkai danKueri Bingkai Memandangkan matriks pose ego dan , titik tengah objek, dan kelajuan. Mula-mula, MTM menggunakan pose ego dan maklumat kelajuan ramalan objek untuk mengalihkan objek dalam bingkai sebelumnya ke bingkai seterusnya dan menyelaraskan sistem koordinat kedua-dua bingkai: Kemudian melepasi
titik pusat objek bingkai danbingkai titik tengah diperbetulkan Bina matriks kos Euclidean. Di samping itu, untuk mengelakkan kemungkinan padanan palsu, artikel ini menggunakan kategori dan ambang jarak untuk membina topeng perhatian : Menukar matriks kos ke dalam matriks perhatian adalah matlamat utama
Matriks perhatiandigunakan Ciri Pertanyaan dipertingkatkan bingkai
digunakan untuk mengagregatkan ciri pemasaan untuk meningkatkan ciri Pertanyaan bingkai : Ciri pertanyaan terakhir bingkai 🜎 dipertingkatkan diperhalusi melalui FFN mudah kepada keputusan pengesanan yang sepadan, Untuk mencapai kesan meningkatkan prestasi pengesanan.
Decoupled temporal fusion structure
Hasil eksperimen
QTNet pada titik Mencapai titik pertumbuhan yang konsisten pada awan/ imej/multi-modalitiSelain itu, kertas kerja ini juga meneroka pelbagai modal dan Kaedah berdasarkan paparan cincin telah disahkan, dan keputusan eksperimen pada set pengesahan nuScenes membuktikan keberkesanan QTNet dalam modaliti yang berbeza.
Untuk aplikasi praktikal, kos overhed gabungan masa adalah sangat penting. Artikel ini menjalankan analisis dan eksperimen pada QTNet dalam tiga aspek: jumlah pengiraan, kelewatan dan jumlah parameter. Keputusan menunjukkan bahawa berbanding dengan keseluruhan rangkaian, overhed pengiraan QTNet, kelewatan masa dan jumlah parameter yang disebabkan oleh garis dasar yang berbeza adalah diabaikan, terutamanya jumlah pengiraan hanya menggunakan FLOP 0.1G (garis dasar LiDAR)
Untuk mengesahkan keunggulan paradigma pemasaan berasaskan pertanyaan, kami memilih kaedah gabungan pemasaan canggih perwakilan yang berbeza untuk perbandingan. Melalui keputusan eksperimen, didapati algoritma gabungan masa berdasarkan paradigma Query adalah lebih cekap daripada yang berasaskan paradigma BEV dan Proposal. Hanya menggunakan FLOP 0.1G dan overhed 4.5ms, QTNet menunjukkan prestasi yang lebih baik, manakala amaun parameter keseluruhan hanya 0.3M
Kajian ini berdasarkan set pengesahan nuScenes LiDAR, melalui garis dasar ablasi 3-bingkai gabungan temporal. Keputusan eksperimen menunjukkan bahawa hanya menggunakan Cross Attention untuk memodelkan hubungan temporal tidak mempunyai kesan yang jelas. Walau bagaimanapun, apabila menggunakan MTM, prestasi pengesanan dipertingkatkan dengan ketara, yang menggambarkan kepentingan panduan gerakan eksplisit dalam awan titik berskala besar. Selain itu, melalui uji kaji ablasi juga didapati reka bentuk keseluruhan QTNet adalah sangat ringan dan cekap. Apabila menggunakan 4 bingkai data untuk gabungan masa, amaun pengiraan QTNet hanyalah 0.24G FLOP, dan kelewatan hanya 6.5 milisaat
Sebab untuk meneroka MTM lebih baik. daripada Cross Attention, artikel ini menggabungkan dua Matriks perhatian objek antara bingkai divisualisasikan, dengan ID yang sama mewakili objek yang sama antara dua bingkai. Didapati bahawa matriks perhatian (b) yang dihasilkan oleh MTM adalah lebih diskriminasi berbanding matriks perhatian (a) yang dihasilkan oleh Perhatian Silang, terutamanya matriks perhatian antara objek kecil. Ini menunjukkan bahawa matriks perhatian berpandukan gerakan eksplisit memudahkan model untuk mewujudkan perkaitan objek antara dua bingkai melalui pemodelan fizikal. Artikel ini hanya meneroka secara ringkas isu mewujudkan korelasi pemasaan secara fizikal dalam gabungan pemasaan Ia masih patut diterokai cara membina korelasi pemasaan dengan lebih baik.
Artikel ini menggunakan urutan adegan sebagai objek untuk menjalankan analisis visual hasil pengesanan. Ia boleh didapati bahawa objek kecil di sudut kiri bawah dengan cepat bergerak menjauhi kenderaan bermula dari bingkai , yang menyebabkan garis dasar terlepas pengesanan objek dalam bingkai Walau bagaimanapun, QTNet masih boleh mengesan objek dalam bingkai , yang membuktikan bahawa QTNet mampu memadukan keberkesanan pada.
Artikel ini mencadangkan kaedah gabungan temporal berasaskan Pertanyaan QTNet yang lebih cekap untuk tugas pengesanan sasaran 3D semasa. Teras utamanya mempunyai dua perkara: satu ialah menggunakan Pertanyaan jarang sebagai objek gabungan temporal dan menyimpan maklumat sejarah melalui Bank Memori untuk mengelakkan pengiraan berulang; satu lagi ialah menggunakan pemodelan gerakan eksplisit untuk membimbing penjanaan matriks perhatian antara pertanyaan temporal , untuk mencapai pemodelan hubungan temporal. Melalui dua idea utama ini, QTNet boleh melaksanakan gabungan pemasaan dengan cekap yang boleh digunakan pada LiDAR, Kamera dan pelbagai mod, dan secara konsisten meningkatkan prestasi pengesanan sasaran 3D dengan overhed kos yang boleh diabaikan.
Kandungan yang perlu ditulis semula ialah: Pautan asal: https://mp.weixin.qq.com/s/s9tkF_rAP2yUEkn6tp9eUQ
Atas ialah kandungan terperinci QTNet: Penyelesaian gabungan temporal baharu untuk awan titik, imej dan pengesan berbilang modal (NeurIPS 2023). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!