Rumah >Peranti teknologi >AI >CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang
Pada masa ini, dalam keseluruhan sistem pemanduan autonomi, modul persepsi memainkan peranan penting Kenderaan autonomi yang memandu di jalan raya hanya boleh mendapatkan maklumat yang tepat melalui modul persepsi Hanya selepas penderiaan hasilnya boleh modul pengawalan dan kawalan hiliran dalam sistem pemanduan autonomi membuat pertimbangan dan keputusan tingkah laku yang tepat pada masanya dan betul. Pada masa ini, kereta dengan fungsi pemanduan autonomi biasanya dilengkapi dengan pelbagai penderia maklumat data termasuk penderia kamera pandangan sekeliling, penderia lidar dan penderia radar gelombang milimeter untuk mengumpul maklumat dalam modaliti yang berbeza untuk mencapai tugas persepsi yang tepat.
Algoritma persepsi BEV berdasarkan penglihatan tulen telah mendapat perhatian meluas daripada industri dan akademia kerana kos perkakasannya yang rendah dan penggunaan yang mudah, dan hasil keluarannya boleh digunakan dengan mudah untuk pelbagai tugas hiliran. Dalam beberapa tahun kebelakangan ini, banyak algoritma persepsi visual berdasarkan ruang BEV telah muncul satu demi satu dan telah menunjukkan prestasi persepsi yang sangat baik pada set data awam.
Pada masa ini, algoritma persepsi berdasarkan ruang BEV boleh dibahagikan secara kasar kepada dua jenis model algoritma berdasarkan cara membina ciri BEV:
Walaupun kedua-dua algoritma boleh menjana ciri dengan tepat dalam ruang BEV dan mencapai hasil persepsi 3D, terdapat dua masalah berikut dalam algoritma persepsi sasaran 3D semasa berdasarkan ruang BEV, seperti algoritma BEVFormer:
Untuk menyelesaikan masalah model algoritma persepsi BEVFormer, kami menambah baiknya dan mencadangkan model algoritma pengesanan 3D CLIP-BEVFormer berdasarkan imej sekeliling. Dengan memperkenalkan kaedah pembelajaran kontrastif, kami meningkatkan keupayaan model untuk membina ciri BEV dan mencapai prestasi persepsi peringkat terkemuka pada set data nuScenes.
Pautan artikel: https://arxiv.org/pdf/2403.08919.pdf
Sebelum memperkenalkan butiran CLIP-BEVFormer persepsi algoritma, model yang dicadangkan dalam artikel ini rajah berikut menunjukkan Struktur rangkaian keseluruhan algoritma CLIP-BEVFormer diperkenalkan.
Carta alir keseluruhan model algoritma persepsi CLIP-BEVFormer yang dicadangkan dalam artikel ini
Dapat dilihat daripada carta alir keseluruhan algoritma bahawa model algoritma CLIP-BEVFormer yang dicadangkan dalam artikel ini ditambah baik berdasarkan model algoritma BEVFormer Berikut adalah ulasan ringkas proses pelaksanaan model algoritma persepsi BEVFormer . Pertama, model algoritma BEVFormer memasukkan data imej sekeliling yang dikumpul oleh penderia kamera dan menggunakan rangkaian pengekstrakan ciri imej 2D untuk mengekstrak maklumat ciri semantik berbilang skala bagi imej sekeliling input. Kedua, modul Pengekod yang mengandungi perhatian kendiri sementara dan perhatian silang ruang digunakan untuk melengkapkan proses penukaran ciri imej 2D kepada ciri spatial BEV. Kemudian, satu set Pertanyaan Objek dijana dalam bentuk taburan normal dalam ruang persepsi 3D dan dihantar ke modul Penyahkod untuk melengkapkan penggunaan interaktif ciri spatial dengan keluaran ciri ruang BEV oleh modul Pengekod. Akhir sekali, rangkaian neural suapan digunakan untuk meramalkan ciri semantik yang ditanya oleh Object Query, dan hasil klasifikasi dan regresi akhir model rangkaian adalah output. Pada masa yang sama, semasa proses latihan model algoritma BEVFormer, strategi padanan Hungaria satu dengan satu digunakan untuk melengkapkan proses pengedaran sampel positif dan negatif, dan klasifikasi dan kerugian regresi digunakan untuk melengkapkan proses kemas kini bagi parameter model rangkaian keseluruhan. Proses pengesanan keseluruhan model algoritma BEVFormer boleh dinyatakan dengan formula matematik berikut:
di mana, dalam formula mewakili modul pengekstrakan ciri Pengekod dalam algoritma BEVFormer, mewakili modul penyahkod Penyahkod dalam algoritma BEVFormer, dan mewakili nilai sebenar dalam set data Label sasaran Nilai, mewakili output hasil persepsi 3D oleh model algoritma BEVFormer semasa.
Seperti yang dinyatakan di atas, kebanyakan algoritma pengesanan sasaran 3D sedia ada berdasarkan ruang BEV tidak menyelia secara eksplisit ciri ruang BEV yang dijana, menyebabkan ciri BEV penjanaan model mungkin tidak konsisten dengan ciri BEV sebenar Perbezaan dalam pengedaran ciri spatial BEV ini akan menyekat prestasi persepsi akhir model. Berdasarkan pertimbangan ini, kami mencadangkan modul Ground Truth BEV Idea teras kami dalam mereka bentuk modul ini adalah untuk membolehkan ciri BEV yang dihasilkan oleh model diselaraskan dengan ciri BEV nilai sebenar semasa, dengan itu meningkatkan prestasi model.
Secara khusus, seperti yang ditunjukkan dalam rajah rangka kerja keseluruhan rangkaian, kami menggunakan pengekod kebenaran tanah () untuk mengekod label kategori dan maklumat kedudukan kotak sempadan ruang bagi sebarang contoh kebenaran tanah pada peta ciri BEV :
Dimensi ciri dalam formula mempunyai saiz yang sama dengan peta ciri BEV yang dijana, mewakili maklumat ciri yang dikodkan bagi sasaran nilai sebenar. Semasa proses pengekodan, kami menggunakan dua bentuk, satu ialah model bahasa besar (LLM), dan satu lagi ialah perceptron berbilang lapisan (MLP) Melalui keputusan eksperimen, kami mendapati bahawa kedua-dua kaedah pada asasnya mencapai prestasi yang sama.
Selain itu, untuk meningkatkan lagi maklumat sempadan sasaran sebenar pada peta ciri BEV, kami memangkas sasaran sebenar pada peta ciri BEV mengikut kedudukan spatialnya, dan menggunakan pengumpulan pada operasi pemangkasan ciri untuk membina perwakilan maklumat ciri yang sepadan Proses ini boleh dinyatakan dalam bentuk berikut:
Akhir sekali, untuk menyelaraskan lagi ciri BEV yang dihasilkan oleh model dengan ciri BEV nilai sebenar, kami menggunakan kaedah pembelajaran kontrastif untuk mengoptimumkan kedua-dua kategori Hubungan elemen dan jarak antara ciri BEV, proses pengoptimuman boleh dinyatakan dalam bentuk berikut:
di mana jumlah dalam formula masing-masing mewakili matriks persamaan antara ciri BEV yang dihasilkan dan ciri BEV nilai sebenar, mewakili perbandingan Faktor skala logik dalam pembelajaran mewakili operasi pendaraban antara matriks dan mewakili fungsi kehilangan entropi silang. Melalui kaedah pembelajaran kontrastif di atas, kaedah yang kami cadangkan dapat memberikan panduan ciri yang lebih jelas untuk ciri BEV yang dihasilkan dan meningkatkan keupayaan persepsi model.
Bahagian ini juga disebut dalam artikel sebelumnya, Pertanyaan Objek dalam model algoritma persepsi BEVFormer berinteraksi dengan ciri BEV yang dihasilkan melalui modul Penyahkod untuk mendapatkan ciri pertanyaan sasaran yang sepadan. keseluruhan proses Ia masih merupakan proses kotak hitam, kurang pemahaman proses yang lengkap. Untuk menangani masalah ini, kami memperkenalkan modul interaksi pertanyaan nilai kebenaran, yang menggunakan sasaran nilai kebenaran untuk melaksanakan interaksi ciri BEV modul Dekoder untuk merangsang proses pembelajaran parameter model. Khususnya, kami memperkenalkan output maklumat pengekodan sasaran kebenaran oleh modul pengekod kebenaran () ke dalam Pertanyaan Objek untuk mengambil bahagian dalam proses penyahkodan modul Penyahkod Seperti Pertanyaan Objek biasa, kami mengambil bahagian dalam modul perhatian diri yang sama, modul perhatian silang dan Rangkaian saraf suapan ke hadapan mengeluarkan hasil persepsi akhir. Walau bagaimanapun, perlu diingat bahawa semasa proses penyahkodan, semua Object Query menggunakan pengkomputeran selari untuk mengelakkan kebocoran maklumat sasaran nilai sebenar. Keseluruhan proses interaksi pertanyaan sasaran nilai kebenaran boleh dinyatakan secara abstrak dalam bentuk berikut:
Antaranya, dalam formula mewakili Pertanyaan Objek yang dimulakan, dan mewakili hasil output Pertanyaan Objek nilai sebenar melalui modul Dekoder dan kepala pengesanan penderiaan masing-masing. Dengan memperkenalkan proses interaksi sasaran nilai sebenar dalam proses latihan model, modul interaksi pertanyaan sasaran nilai kebenaran yang kami cadangkan boleh merealisasikan interaksi antara pertanyaan sasaran nilai sebenar dan ciri BEV nilai sebenar, dengan itu membantu proses kemas kini parameter bagi modul Penyahkod model.
Untuk mengesahkan keberkesanan model algoritma CLIP-BEVFormer yang kami cadangkan, kami melakukan pada set data kesan nuScenes dan panjang persepsi daripada 3D kategori sasaran dalam set data. Eksperimen yang berkaitan telah dijalankan dari perspektif taburan ekor dan keteguhan Jadual berikut menunjukkan perbandingan ketepatan antara model algoritma yang kami cadangkan dan model algoritma persepsi 3D yang lain pada set data nuScenes.
Hasil perbandingan antara kaedah yang dicadangkan dalam artikel ini dan model algoritma persepsi lain
Dalam bahagian percubaan ini, kami menilai prestasi persepsi di bawah konfigurasi model yang berbeza Secara khusus, kami menggunakan model algoritma CLIP-BEVFormer Dalam varian kecil dan asas BEVFormer. Selain itu, kami juga meneroka kesan penggunaan model CLIP terlatih atau lapisan MLP sebagai pengekod sasaran kebenaran tanah pada prestasi persepsi model. Ia boleh dilihat daripada keputusan eksperimen bahawa sama ada ia adalah varian kecil atau asas asal, selepas menggunakan algoritma CLIP-BEVFormer yang kami cadangkan, penunjuk NDS dan mAP mempunyai peningkatan prestasi yang stabil. Di samping itu, melalui keputusan percubaan, kita boleh mendapati bahawa model algoritma yang kami cadangkan tidak sensitif sama ada lapisan MLP atau model bahasa dipilih untuk pengekod sasaran kebenaran tanah Kefleksibelan ini boleh menjadikan algoritma CLIP-BEVFormer yang kami cadangkan lebih banyak cekap. Boleh disesuaikan dan mudah dipasang pada kenderaan. Ringkasnya, penunjuk prestasi pelbagai varian model algoritma kami yang dicadangkan secara konsisten menunjukkan bahawa model algoritma CLIP-BEVFormer yang dicadangkan mempunyai keteguhan persepsi yang baik dan boleh mencapai prestasi pengesanan yang cemerlang di bawah kerumitan model dan jumlah parameter yang berbeza.
Selain mengesahkan prestasi cadangan CLIP-BEVFormer kami pada tugas persepsi 3D, kami juga menjalankan eksperimen pengedaran ekor panjang untuk menilai keteguhan dan generalisasi algoritma kami dalam menghadapi kehadiran pengedaran ekor panjang dalam data set. keupayaan isasi, keputusan eksperimen diringkaskan dalam jadual di bawah
Prestasi model algoritma CLIP-BEVFormer yang dicadangkan pada masalah ekor panjang
Ia boleh dilihat daripada keputusan eksperimen dalam jadual di atas bahawa Set data nuScenes menunjukkan sejumlah besar kategori Masalah ketidakseimbangan kuantiti ialah beberapa kategori seperti (kenderaan pembinaan, bas, motosikal, basikal, dll.) mempunyai bahagian yang sangat rendah, tetapi bahagian kereta adalah sangat tinggi. Kami menilai prestasi persepsi model algoritma CLIP-BEVFormer yang dicadangkan pada kategori ciri dengan menjalankan eksperimen yang berkaitan dengan pengedaran ekor panjang, dengan itu mengesahkan keupayaan pemprosesannya untuk menyelesaikan kategori yang kurang biasa. Ia boleh dilihat daripada data percubaan di atas bahawa model algoritma CLIP-BEVFormer yang dicadangkan telah mencapai peningkatan prestasi dalam semua kategori, dan dalam kategori yang menyumbang bahagian yang sangat kecil, model algoritma CLIP-BEVFormer telah menunjukkan peningkatan prestasi substantif yang jelas.
Memandangkan sistem pemanduan autonomi dalam persekitaran sebenar perlu menghadapi masalah seperti kegagalan perkakasan, keadaan cuaca yang teruk atau kegagalan sensor yang mudah disebabkan oleh halangan buatan manusia, kami selanjutnya mengesahkan secara eksperimen kekukuhan model algoritma yang dicadangkan. Khususnya, untuk mensimulasikan masalah kegagalan penderia, kami menyekat kamera kamera secara rawak semasa proses inferens pelaksanaan model, untuk mensimulasikan pemandangan di mana kamera mungkin gagal. Keputusan percubaan yang berkaitan ditunjukkan dalam jadual di bawah
Hasil percubaan kekukuhan model algoritma CLIP-BEVFormer yang dicadangkan
Dapat dilihat daripada keputusan eksperimen bahawa model algoritma CLIP-BEVFormer yang kami cadangkan sentiasa lebih baik daripada BEVFormer tanpa mengira konfigurasi parameter model kecil atau asas model dengan konfigurasi yang sama mengesahkan prestasi unggul dan keteguhan cemerlang model algoritma kami dalam mensimulasikan keadaan kegagalan sensor.
Rajah berikut menunjukkan perbandingan visual hasil persepsi model algoritma CLIP-BEVFormer yang dicadangkan dan model algoritma BEVFormer. Dapat dilihat daripada hasil visual bahawa hasil persepsi model algoritma CLIP-BEVFormer yang kami cadangkan adalah lebih dekat dengan sasaran nilai sebenar, menunjukkan keberkesanan modul penjanaan ciri BEV nilai sebenar dan modul interaksi pertanyaan sasaran nilai sebenar yang kami cadangkan. .
Perbandingan visual hasil persepsi model algoritma CLIP-BEVFormer yang dicadangkan dan model algoritma BEVFormer
Dalam artikel ini, algoritma BEVFormer asal memfokuskan kepada kekurangan penyeliaan penjanaan paparan dalam proses penjanaan Peta ciri BEV Serta ketidakpastian pertanyaan interaktif antara Pertanyaan Objek dan ciri BEV dalam modul Penyahkod, kami mencadangkan model algoritma CLIP-BEVFormer dan menjalankan eksperimen dari aspek prestasi persepsi 3D model algoritma, sasaran pengedaran ekor panjang , dan keteguhan kepada kegagalan sensor , Sebilangan besar keputusan percubaan menunjukkan keberkesanan model algoritma CLIP-BEVFormer kami.
Atas ialah kandungan terperinci CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!