Rumah >Peranti teknologi >AI >Perbincangan mendalam tentang aplikasi algoritma persepsi gabungan pelbagai mod dalam pemanduan autonomi
Sila hubungi sumber untuk mendapatkan kebenaran mencetak semula artikel ini Artikel ini diterbitkan oleh akaun awam Autonomous Driving Heart
Gabungan penderia berbilang modal bermaksud pelengkap maklumat, kestabilan dan keselamatan, yang mempunyai panjang lebar. menjadi kunci kepada automatik Bahagian penting dalam persepsi pemanduan. Walau bagaimanapun, penggunaan maklumat yang tidak mencukupi, hingar dalam data asal dan salah jajaran antara pelbagai penderia (seperti penyegerakan cap masa yang tidak disegerakkan) semuanya telah mengakibatkan prestasi gabungan terhad. Makalah ini secara menyeluruh meninjau algoritma persepsi pemanduan autonomi pelbagai mod sedia ada termasuk LiDAR dan kamera, memfokuskan pada pengesanan sasaran dan segmentasi semantik, serta menganalisis lebih daripada 50 dokumen. Berbeza daripada kaedah pengelasan tradisional algoritma gabungan, kertas ini mengklasifikasikan bidang ini kepada dua kategori utama dan empat subkategori berdasarkan peringkat gabungan yang berbeza. Di samping itu, artikel ini menganalisis masalah sedia ada dalam bidang semasa dan menyediakan rujukan untuk hala tuju penyelidikan masa hadapan.
Ini kerana algoritma persepsi mod tunggal mempunyai kelemahan yang wujud. Sebagai contoh, lidar biasanya dipasang lebih tinggi daripada kamera Dalam senario pemanduan kehidupan sebenar yang kompleks, objek mungkin disekat dalam kamera pandangan hadapan Dalam kes ini, adalah mungkin untuk menggunakan lidar untuk menangkap sasaran yang hilang. Walau bagaimanapun, disebabkan oleh batasan struktur mekanikal, LiDAR mempunyai resolusi yang berbeza pada jarak yang berbeza dan mudah dipengaruhi oleh cuaca yang sangat teruk, seperti hujan lebat. Walaupun kedua-dua penderia boleh berfungsi dengan baik apabila digunakan secara bersendirian, dari perspektif masa hadapan, maklumat pelengkap LiDAR dan kamera akan menjadikan pemanduan autonomi lebih selamat pada tahap persepsi.
Baru-baru ini, algoritma persepsi pelbagai mod pemanduan autonomi telah mencapai kemajuan yang besar. Kemajuan ini termasuk perwakilan ciri rentas modal, penderia modal yang lebih dipercayai dan algoritma serta teknik gabungan berbilang modal yang lebih kompleks dan stabil. Walau bagaimanapun, hanya beberapa ulasan [15, 81] menumpukan pada metodologi itu sendiri gabungan multimodal, dan kebanyakan kesusasteraan diklasifikasikan mengikut peraturan pengelasan tradisional, iaitu pra-gabungan, dalam (ciri) gabungan dan pasca-gabungan, dan terutamanya. memfokuskan pada Peringkat gabungan ciri dalam algoritma, sama ada tahap data, tahap ciri atau tahap cadangan. Terdapat dua masalah dengan peraturan pengelasan ini: pertama, perwakilan ciri setiap tahap tidak ditakrifkan dengan jelas kedua, ia merawat dua cabang lidar dan kamera dari perspektif simetri, sekali gus mengaburkan hubungan antara gabungan ciri dan gabungan ciri dalam Cawangan LiDAR Kes gabungan ciri peringkat data dalam cawangan kamera. Ringkasnya, walaupun kaedah klasifikasi tradisional adalah intuitif, ia tidak lagi sesuai untuk pembangunan algoritma gabungan pelbagai mod semasa, yang pada tahap tertentu menghalang penyelidik daripada menjalankan penyelidikan dan analisis dari perspektif sistem
Tugas persepsi biasa termasuk pengesanan sasaran, pembahagian semantik, penyiapan kedalaman dan ramalan, dsb. Artikel ini memfokuskan pada pengesanan dan pembahagian, seperti pengesanan halangan, lampu isyarat, tanda lalu lintas dan pembahagian garis lorong dan ruang bebas. Tugas persepsi pemanduan autonomi ditunjukkan dalam rajah berikut:
Set data awam biasa terutamanya termasuk KITTI, Waymo dan nuScenes Angka berikut meringkaskan set data berkaitan persepsi pemanduan autonomi dan ciri-cirinya
Multimodal fusion tidak dapat dipisahkan daripada bentuk ekspresi data Perwakilan data cawangan imej adalah agak mudah, secara amnya merujuk kepada format RGB atau imej skala kelabu Walau bagaimanapun, cawangan lidar mempunyai pergantungan yang tinggi pada format data, dan format data yang berbeza diperolehi Reka bentuk model hiliran yang berbeza sama sekali dicadangkan, yang secara ringkasnya merangkumi tiga arah umum: perwakilan awan titik berdasarkan titik, pemetaan berasaskan voxel dan dua dimensi.
Mengikut peringkat gabungan berbeza yang diwakili oleh data lidar dan kamera, artikel ini membahagikan gabungan kuat kepada: pelakuran hadapan, pelakuran dalam, pelakuran asimetri dan selepas gabungan. Seperti yang ditunjukkan dalam rajah di atas, dapat dilihat bahawa setiap submodul gabungan kuat sangat bergantung pada awan titik lidar dan bukannya data kamera.
Berbeza daripada definisi gabungan peringkat data tradisional, iaitu kaedah yang secara langsung menggabungkan setiap data modaliti melalui penjajaran dan unjuran ruang pada tahap data asal, gabungan awal menggabungkan data LiDAR dan data LiDAR di tahap data Data kamera tahap data atau tahap ciri. Contoh gabungan awal boleh menjadi model dalam Rajah 4. Kandungan yang ditulis semula: Berbeza daripada definisi gabungan peringkat data tradisional, iaitu kaedah untuk menggabungkan secara langsung setiap data modaliti melalui penjajaran ruang dan unjuran pada tahap data asal. Gabungan awal merujuk kepada gabungan data LiDAR dan data kamera atau data peringkat ciri pada peringkat data. Model dalam Rajah 4 ialah contoh pelakuran awal
Berbeza daripada pra-gabungan yang ditakrifkan oleh kaedah pengelasan tradisional, pra-gabungan yang ditakrifkan dalam artikel ini merujuk kepada kaedah menggabungkan secara langsung setiap data modal melalui penjajaran ruang dan unjuran pada tahap data asal. Pada peringkat data, ia merujuk kepada gabungan data lidar, dan pada tahap data atau tahap ciri, data imej adalah seperti berikut:
Dalam LiDAR. cawangan, awan titik mempunyai banyak kaedah ekspresi, seperti peta pantulan dan imej bersuara Pengukuran, pandangan hadapan/pandangan jarak/pandangan BEV dan awan titik pseudo, dsb. Walaupun data ini mempunyai ciri intrinsik yang berbeza dalam rangkaian tulang belakang yang berbeza, kecuali awan titik pseudo [79], kebanyakan data dijana melalui pemprosesan peraturan tertentu. Di samping itu, berbanding dengan pembenaman ruang ciri, data LiDAR ini sangat boleh ditafsirkan dan boleh divisualisasikan secara langsung Dalam cabang imej, definisi peringkat data dalam erti kata yang ketat merujuk kepada imej RGB atau skala kelabu, tetapi Takrifan ini tidak mempunyai kesejagatan dan rasional. Oleh itu, kertas kerja ini memperluaskan definisi peringkat data bagi data imej dalam peringkat pra-gabungan untuk memasukkan data peringkat data dan peringkat ciri. Perlu dinyatakan bahawa artikel ini juga menganggap hasil ramalan pembahagian semantik sebagai jenis pra-gabungan (tahap ciri imej Di satu pihak, ia berguna untuk pengesanan sasaran 3D, dan sebaliknya, ia adalah kerana). daripada "tahap sasaran" pembahagian semantik Ciri adalah berbeza daripada cadangan peringkat sasaran akhir bagi keseluruhan tugasan
Penyatuan Dalamdan pelakuran kuat ialah kaedah pelakuran lemah tidak secara langsung menggabungkan data, ciri atau sasaran daripada cawangan pelbagai mod, tetapi memproses data dalam bentuk lain. Rajah di bawah menunjukkan rangka kerja asas algoritma pelakuran lemah. Kaedah berdasarkan gabungan lemah biasanya menggunakan kaedah berasaskan peraturan tertentu untuk menggunakan data daripada satu modaliti sebagai isyarat penyeliaan untuk membimbing interaksi modaliti yang lain. Sebagai contoh, cadangan 2D daripada CNN dalam cawangan imej mungkin menyebabkan pemangkasan dalam awan titik LiDAR asal dan gabungan yang lemah secara langsung memasukkan awan titik LiDAR asal ke dalam tulang belakang LiDAR untuk mengeluarkan cadangan akhir.
Terdapat juga beberapa karya yang tidak tergolong dalam mana-mana paradigma di atas kerana menggunakan pelbagai kaedah gabungan dalam rangka reka bentuk model, seperti [39] yang menggabungkan deep gabungan dan pasca-pemprosesan Fusion,[77] menggabungkan pra-gabungan. Kaedah ini bukan kaedah utama reka bentuk algoritma gabungan, dan artikel ini disatukan ke dalam kaedah gabungan lain.
Dalam beberapa tahun kebelakangan ini, kaedah gabungan pelbagai mod untuk tugas persepsi pemanduan autonomi telah mencapai kemajuan pesat, daripada perwakilan ciri yang lebih maju kepada model pembelajaran mendalam yang lebih kompleks. Walau bagaimanapun, masih terdapat beberapa isu tertunggak yang perlu diselesaikan Artikel ini meringkaskan beberapa kemungkinan arah penambahbaikan pada masa hadapan seperti berikut.
Model gabungan semasa mempunyai masalah dengan salah jajaran dan kehilangan maklumat [13, 67, 98]. Selain itu, operasi gabungan rata juga menghalang peningkatan selanjutnya dalam prestasi tugasan persepsi. Ringkasannya adalah seperti berikut:
Imej bingkai tunggal yang berpandangan ke hadapan ialah senario biasa untuk tugas persepsi pemanduan autonomi. Walau bagaimanapun, kebanyakan rangka kerja hanya boleh menggunakan maklumat terhad dan tidak mereka bentuk tugas tambahan secara terperinci untuk memudahkan pemahaman senario pemanduan. Ringkasannya adalah seperti berikut:
Adegan dunia sebenar dan ketinggian penderia boleh menjejaskan bias dan peleraian domain. Kekurangan ini akan menghalang latihan berskala besar dan operasi masa nyata model pembelajaran mendalam pemanduan autonomi
[1] https://zhuanlan.zhihu.com/p/470588787
[2] Gabungan Penderia Berbilang Modal untuk Persepsi Pemanduan Auto: Satu Tinjauan
Pautan Origina
: https ://mp.weixin.qq.com/s/usAQRL18vww9YwMXRvEwLw
Atas ialah kandungan terperinci Perbincangan mendalam tentang aplikasi algoritma persepsi gabungan pelbagai mod dalam pemanduan autonomi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!