Rumah  >  Artikel  >  Peranti teknologi  >  Perbincangan mendalam tentang aplikasi algoritma persepsi gabungan pelbagai mod dalam pemanduan autonomi

Perbincangan mendalam tentang aplikasi algoritma persepsi gabungan pelbagai mod dalam pemanduan autonomi

王林
王林ke hadapan
2023-11-22 11:29:16920semak imbas

Sila hubungi sumber untuk mendapatkan kebenaran mencetak semula artikel ini Artikel ini diterbitkan oleh akaun awam Autonomous Driving Heart

1 Pengenalan

Gabungan penderia berbilang modal bermaksud pelengkap maklumat, kestabilan dan keselamatan, yang mempunyai panjang lebar. menjadi kunci kepada automatik Bahagian penting dalam persepsi pemanduan. Walau bagaimanapun, penggunaan maklumat yang tidak mencukupi, hingar dalam data asal dan salah jajaran antara pelbagai penderia (seperti penyegerakan cap masa yang tidak disegerakkan) semuanya telah mengakibatkan prestasi gabungan terhad. Makalah ini secara menyeluruh meninjau algoritma persepsi pemanduan autonomi pelbagai mod sedia ada termasuk LiDAR dan kamera, memfokuskan pada pengesanan sasaran dan segmentasi semantik, serta menganalisis lebih daripada 50 dokumen. Berbeza daripada kaedah pengelasan tradisional algoritma gabungan, kertas ini mengklasifikasikan bidang ini kepada dua kategori utama dan empat subkategori berdasarkan peringkat gabungan yang berbeza. Di samping itu, artikel ini menganalisis masalah sedia ada dalam bidang semasa dan menyediakan rujukan untuk hala tuju penyelidikan masa hadapan.

2 Mengapa multimodaliti diperlukan?

Ini kerana algoritma persepsi mod tunggal mempunyai kelemahan yang wujud. Sebagai contoh, lidar biasanya dipasang lebih tinggi daripada kamera Dalam senario pemanduan kehidupan sebenar yang kompleks, objek mungkin disekat dalam kamera pandangan hadapan Dalam kes ini, adalah mungkin untuk menggunakan lidar untuk menangkap sasaran yang hilang. Walau bagaimanapun, disebabkan oleh batasan struktur mekanikal, LiDAR mempunyai resolusi yang berbeza pada jarak yang berbeza dan mudah dipengaruhi oleh cuaca yang sangat teruk, seperti hujan lebat. Walaupun kedua-dua penderia boleh berfungsi dengan baik apabila digunakan secara bersendirian, dari perspektif masa hadapan, maklumat pelengkap LiDAR dan kamera akan menjadikan pemanduan autonomi lebih selamat pada tahap persepsi.

Baru-baru ini, algoritma persepsi pelbagai mod pemanduan autonomi telah mencapai kemajuan yang besar. Kemajuan ini termasuk perwakilan ciri rentas modal, penderia modal yang lebih dipercayai dan algoritma serta teknik gabungan berbilang modal yang lebih kompleks dan stabil. Walau bagaimanapun, hanya beberapa ulasan [15, 81] menumpukan pada metodologi itu sendiri gabungan multimodal, dan kebanyakan kesusasteraan diklasifikasikan mengikut peraturan pengelasan tradisional, iaitu pra-gabungan, dalam (ciri) gabungan dan pasca-gabungan, dan terutamanya. memfokuskan pada Peringkat gabungan ciri dalam algoritma, sama ada tahap data, tahap ciri atau tahap cadangan. Terdapat dua masalah dengan peraturan pengelasan ini: pertama, perwakilan ciri setiap tahap tidak ditakrifkan dengan jelas kedua, ia merawat dua cabang lidar dan kamera dari perspektif simetri, sekali gus mengaburkan hubungan antara gabungan ciri dan gabungan ciri dalam Cawangan LiDAR Kes gabungan ciri peringkat data dalam cawangan kamera. Ringkasnya, walaupun kaedah klasifikasi tradisional adalah intuitif, ia tidak lagi sesuai untuk pembangunan algoritma gabungan pelbagai mod semasa, yang pada tahap tertentu menghalang penyelidik daripada menjalankan penyelidikan dan analisis dari perspektif sistem

3 tugas dan awam pertandingan

Tugas persepsi biasa termasuk pengesanan sasaran, pembahagian semantik, penyiapan kedalaman dan ramalan, dsb. Artikel ini memfokuskan pada pengesanan dan pembahagian, seperti pengesanan halangan, lampu isyarat, tanda lalu lintas dan pembahagian garis lorong dan ruang bebas. Tugas persepsi pemanduan autonomi ditunjukkan dalam rajah berikut:

Perbincangan mendalam tentang aplikasi algoritma persepsi gabungan pelbagai mod dalam pemanduan autonomi

Set data awam biasa terutamanya termasuk KITTI, Waymo dan nuScenes Angka berikut meringkaskan set data berkaitan persepsi pemanduan autonomi dan ciri-cirinya

Perbincangan mendalam tentang aplikasi algoritma persepsi gabungan pelbagai mod dalam pemanduan autonomi

. Kaedah fusion

Multimodal fusion tidak dapat dipisahkan daripada bentuk ekspresi data Perwakilan data cawangan imej adalah agak mudah, secara amnya merujuk kepada format RGB atau imej skala kelabu Walau bagaimanapun, cawangan lidar mempunyai pergantungan yang tinggi pada format data, dan format data yang berbeza diperolehi Reka bentuk model hiliran yang berbeza sama sekali dicadangkan, yang secara ringkasnya merangkumi tiga arah umum: perwakilan awan titik berdasarkan titik, pemetaan berasaskan voxel dan dua dimensi.

    Kaedah klasifikasi tradisional membahagikan gabungan pelbagai mod kepada tiga jenis berikut:
  1. Pra-gabungan (gabungan peringkat data) merujuk kepada gabungan langsung data sensor mentah dari modaliti yang berbeza melalui penjajaran ruang.
  2. Penyatuan mendalam (gabungan peringkat ciri) merujuk kepada gabungan data rentas modal dalam ruang ciri melalui lata atau pendaraban unsur.
Post-fusion (gabungan peringkat sasaran) merujuk kepada menggabungkan hasil ramalan setiap model modal untuk membuat keputusan muktamad. . menggunakan pengesanan 3D KITTI Prestasi setiap algoritma gabungan berbilang modal dibandingkan secara mendatar dengan tugas pengesanan BEV Gambar berikut ialah hasil set ujian pengesanan BEV:

Perbincangan mendalam tentang aplikasi algoritma persepsi gabungan pelbagai mod dalam pemanduan autonomi

Berikut adalah contoh keputusan. Set ujian pengesanan 3D:

Perbincangan mendalam tentang aplikasi algoritma persepsi gabungan pelbagai mod dalam pemanduan autonomi

5 Gabungan kuat

Perbincangan mendalam tentang aplikasi algoritma persepsi gabungan pelbagai mod dalam pemanduan autonomi

Mengikut peringkat gabungan berbeza yang diwakili oleh data lidar dan kamera, artikel ini membahagikan gabungan kuat kepada: pelakuran hadapan, pelakuran dalam, pelakuran asimetri dan selepas gabungan. Seperti yang ditunjukkan dalam rajah di atas, dapat dilihat bahawa setiap submodul gabungan kuat sangat bergantung pada awan titik lidar dan bukannya data kamera.

Pra-gabungan

Berbeza daripada definisi gabungan peringkat data tradisional, iaitu kaedah yang secara langsung menggabungkan setiap data modaliti melalui penjajaran dan unjuran ruang pada tahap data asal, gabungan awal menggabungkan data LiDAR dan data LiDAR di tahap data Data kamera tahap data atau tahap ciri. Contoh gabungan awal boleh menjadi model dalam Rajah 4. Kandungan yang ditulis semula: Berbeza daripada definisi gabungan peringkat data tradisional, iaitu kaedah untuk menggabungkan secara langsung setiap data modaliti melalui penjajaran ruang dan unjuran pada tahap data asal. Gabungan awal merujuk kepada gabungan data LiDAR dan data kamera atau data peringkat ciri pada peringkat data. Model dalam Rajah 4 ialah contoh pelakuran awal

Berbeza daripada pra-gabungan yang ditakrifkan oleh kaedah pengelasan tradisional, pra-gabungan yang ditakrifkan dalam artikel ini merujuk kepada kaedah menggabungkan secara langsung setiap data modal melalui penjajaran ruang dan unjuran pada tahap data asal. Pada peringkat data, ia merujuk kepada gabungan data lidar, dan pada tahap data atau tahap ciri, data imej adalah seperti berikut:

Perbincangan mendalam tentang aplikasi algoritma persepsi gabungan pelbagai mod dalam pemanduan autonomi

Dalam LiDAR. cawangan, awan titik mempunyai banyak kaedah ekspresi, seperti peta pantulan dan imej bersuara Pengukuran, pandangan hadapan/pandangan jarak/pandangan BEV dan awan titik pseudo, dsb. Walaupun data ini mempunyai ciri intrinsik yang berbeza dalam rangkaian tulang belakang yang berbeza, kecuali awan titik pseudo [79], kebanyakan data dijana melalui pemprosesan peraturan tertentu. Di samping itu, berbanding dengan pembenaman ruang ciri, data LiDAR ini sangat boleh ditafsirkan dan boleh divisualisasikan secara langsung Dalam cabang imej, definisi peringkat data dalam erti kata yang ketat merujuk kepada imej RGB atau skala kelabu, tetapi Takrifan ini tidak mempunyai kesejagatan dan rasional. Oleh itu, kertas kerja ini memperluaskan definisi peringkat data bagi data imej dalam peringkat pra-gabungan untuk memasukkan data peringkat data dan peringkat ciri. Perlu dinyatakan bahawa artikel ini juga menganggap hasil ramalan pembahagian semantik sebagai jenis pra-gabungan (tahap ciri imej Di satu pihak, ia berguna untuk pengesanan sasaran 3D, dan sebaliknya, ia adalah kerana). daripada "tahap sasaran" pembahagian semantik Ciri adalah berbeza daripada cadangan peringkat sasaran akhir bagi keseluruhan tugasan

Penyatuan Dalam

Penyatuan dalam, juga dipanggil gabungan peringkat ciri, merujuk kepada gabungan pelbagai modal. data pada tahap ciri cawangan lidar, tetapi bukan data dalam gabungan cawangan imej pada tahap set dan ciri. Sebagai contoh, beberapa kaedah menggunakan pengangkatan ciri untuk mendapatkan perwakilan pembenaman awan titik LiDAR dan imej masing-masing, dan menggabungkan ciri dua modaliti melalui satu siri modul hiliran. Walau bagaimanapun, tidak seperti gabungan kuat yang lain, gabungan dalam kadangkala menggabungkan ciri secara berlata, yang kedua-duanya mengeksploitasi maklumat semantik mentah dan peringkat tinggi. Gambarajah skematik adalah seperti berikut:

Perbincangan mendalam tentang aplikasi algoritma persepsi gabungan pelbagai mod dalam pemanduan autonomi

Post-fusion

Post-fusion, yang juga boleh dipanggil target-level fusion, merujuk kepada gabungan hasil ramalan (atau cadangan) pelbagai modaliti. Sebagai contoh, beberapa kaedah pasca gabungan menggunakan output awan titik LiDAR dan imej untuk gabungan [55]. Format data cadangan untuk kedua-dua cawangan hendaklah konsisten dengan keputusan akhir, tetapi mungkin terdapat perbezaan dalam kualiti, kuantiti dan ketepatan. Selepas gabungan boleh dilihat sebagai kaedah penyepaduan untuk pengoptimuman maklumat berbilang mod bagi cadangan akhir Gambarajah skematik adalah seperti berikut:

Perbincangan mendalam tentang aplikasi algoritma persepsi gabungan pelbagai mod dalam pemanduan autonomi

Asymmetric fusion

Jenis gabungan kuat yang terakhir ialah gabungan asimetrik, yang mana merujuk kepada Ia adalah untuk menggabungkan maklumat peringkat sasaran satu cawangan dengan maklumat peringkat data atau peringkat ciri cawangan lain. Tiga kaedah gabungan di atas merawat setiap cabang pelbagai modaliti secara sama rata, manakala gabungan asimetri menekankan bahawa sekurang-kurangnya satu cabang adalah dominan, dan cawangan lain menyediakan maklumat tambahan untuk meramalkan hasil akhir. Rajah di bawah ialah gambarajah skema pelakuran asimetri Dalam peringkat cadangan, pelakuran asimetri hanya mempunyai cadangan satu cabang, dan kemudian gabungan adalah cadangan semua cawangan.

6 Perbezaan antara pelakuran lemah

dan pelakuran kuat ialah kaedah pelakuran lemah tidak secara langsung menggabungkan data, ciri atau sasaran daripada cawangan pelbagai mod, tetapi memproses data dalam bentuk lain. Rajah di bawah menunjukkan rangka kerja asas algoritma pelakuran lemah. Kaedah berdasarkan gabungan lemah biasanya menggunakan kaedah berasaskan peraturan tertentu untuk menggunakan data daripada satu modaliti sebagai isyarat penyeliaan untuk membimbing interaksi modaliti yang lain. Sebagai contoh, cadangan 2D daripada CNN dalam cawangan imej mungkin menyebabkan pemangkasan dalam awan titik LiDAR asal dan gabungan yang lemah secara langsung memasukkan awan titik LiDAR asal ke dalam tulang belakang LiDAR untuk mengeluarkan cadangan akhir.

Perbincangan mendalam tentang aplikasi algoritma persepsi gabungan pelbagai mod dalam pemanduan autonomi

7 Kaedah gabungan yang lain

Terdapat juga beberapa karya yang tidak tergolong dalam mana-mana paradigma di atas kerana menggunakan pelbagai kaedah gabungan dalam rangka reka bentuk model, seperti [39] yang menggabungkan deep gabungan dan pasca-pemprosesan Fusion,[77] menggabungkan pra-gabungan. Kaedah ini bukan kaedah utama reka bentuk algoritma gabungan, dan artikel ini disatukan ke dalam kaedah gabungan lain.

8 Peluang gabungan pelbagai mod

Dalam beberapa tahun kebelakangan ini, kaedah gabungan pelbagai mod untuk tugas persepsi pemanduan autonomi telah mencapai kemajuan pesat, daripada perwakilan ciri yang lebih maju kepada model pembelajaran mendalam yang lebih kompleks. Walau bagaimanapun, masih terdapat beberapa isu tertunggak yang perlu diselesaikan Artikel ini meringkaskan beberapa kemungkinan arah penambahbaikan pada masa hadapan seperti berikut.

Kaedah gabungan yang lebih maju

Model gabungan semasa mempunyai masalah dengan salah jajaran dan kehilangan maklumat [13, 67, 98]. Selain itu, operasi gabungan rata juga menghalang peningkatan selanjutnya dalam prestasi tugasan persepsi. Ringkasannya adalah seperti berikut:

  1. Dislokasi dan kehilangan maklumat: Perbezaan dalaman dan luaran antara kamera dan LiDAR adalah sangat besar, dan data kedua-dua mod perlu diselaraskan. Kaedah cantuman depan dan cantuman dalam tradisional menggunakan maklumat penentukuran untuk menayangkan semua titik LiDAR terus ke dalam sistem koordinat kamera dan sebaliknya. Walau bagaimanapun, disebabkan oleh lokasi pemasangan dan hingar penderia, penjajaran piksel demi piksel ini tidak cukup tepat. Oleh itu, sesetengah karya menggunakan maklumat sekeliling untuk menambahnya bagi memperoleh prestasi yang lebih baik. Di samping itu, beberapa maklumat lain hilang semasa proses penukaran ruang input dan ciri. Biasanya, unjuran operasi pengurangan dimensi tidak dapat dielakkan membawa kepada sejumlah besar kehilangan maklumat, seperti kehilangan maklumat ketinggian dalam memetakan awan titik LiDAR 3D kepada imej BEV 2D. Oleh itu, anda boleh mempertimbangkan untuk memetakan data berbilang modal ke ruang dimensi tinggi lain yang direka bentuk untuk gabungan, supaya dapat menggunakan data asal dengan berkesan dan mengurangkan kehilangan maklumat.
  2. Operasi gabungan yang lebih munasabah: Banyak kaedah semasa menggunakan lata atau pendaraban unsur untuk pelakuran. Operasi mudah ini mungkin gagal untuk menggabungkan data dengan pengedaran yang berbeza secara meluas, menjadikannya sukar untuk menyesuaikan anjing merah semantik antara kedua-dua modaliti. Sesetengah kerja cuba menggunakan struktur lata yang lebih kompleks untuk menggabungkan data dan meningkatkan prestasi. Dalam penyelidikan masa depan, mekanisme seperti pemetaan bilinear boleh mengintegrasikan ciri dengan ciri yang berbeza dan juga merupakan arah yang boleh dipertimbangkan.

Penggunaan maklumat berbilang sumber

Imej bingkai tunggal yang berpandangan ke hadapan ialah senario biasa untuk tugas persepsi pemanduan autonomi. Walau bagaimanapun, kebanyakan rangka kerja hanya boleh menggunakan maklumat terhad dan tidak mereka bentuk tugas tambahan secara terperinci untuk memudahkan pemahaman senario pemanduan. Ringkasannya adalah seperti berikut:

  1. Gunakan lebih banyak maklumat berpotensi: Kaedah sedia ada kekurangan penggunaan maklumat yang berkesan daripada pelbagai dimensi dan sumber. Kebanyakan tertumpu pada data berbilang modal bingkai tunggal dalam paparan hadapan. Ini mengakibatkan data bermakna lain kurang digunakan, seperti maklumat konteks semantik, ruang dan adegan. Sesetengah kerja cuba menggunakan hasil pembahagian semantik untuk membantu tugasan, manakala model lain berpotensi mengeksploitasi ciri lapisan perantaraan tulang belakang CNN. Dalam senario pemanduan autonomi, banyak tugas hiliran dengan maklumat semantik eksplisit boleh meningkatkan prestasi pengesanan objek dengan banyak, seperti pengesanan garisan lorong, lampu isyarat dan tanda lalu lintas. Penyelidikan masa depan boleh menggabungkan tugas hiliran untuk bersama-sama membina rangka kerja pemahaman semantik yang lengkap untuk pemandangan bandar untuk meningkatkan prestasi persepsi. Tambahan pula, [63] menggabungkan maklumat antara bingkai untuk meningkatkan prestasi. Maklumat siri masa mengandungi isyarat pemantauan bersiri, yang boleh memberikan hasil yang lebih stabil berbanding kaedah bingkai tunggal. Oleh itu, kerja masa depan boleh mempertimbangkan untuk mengeksploitasi maklumat temporal, kontekstual dan ruang dengan lebih mendalam untuk mencapai kejayaan prestasi.
  2. Pembelajaran perwakilan seliaan sendiri: Isyarat seliaan bersama secara semula jadi wujud dalam data rentas modal yang disampel dari adegan dunia sebenar yang sama tetapi dari sudut yang berbeza. Walau bagaimanapun, disebabkan oleh kekurangan pemahaman yang mendalam tentang data, kaedah semasa tidak dapat melombong perkaitan antara pelbagai modaliti. Penyelidikan masa depan boleh menumpukan pada cara menggunakan data berbilang modal untuk pembelajaran penyeliaan kendiri, termasuk pra-latihan, penalaan halus atau pembelajaran kontrastif. Melalui mekanisme tercanggih ini, algoritma gabungan akan memperdalam pemahaman model yang lebih mendalam tentang data sambil mencapai prestasi yang lebih baik.

Isu Penderia Inherent

Adegan dunia sebenar dan ketinggian penderia boleh menjejaskan bias dan peleraian domain. Kekurangan ini akan menghalang latihan berskala besar dan operasi masa nyata model pembelajaran mendalam pemanduan autonomi

  1. Bidang domain: Dalam senario persepsi pemanduan autonomi, data mentah yang diekstrak oleh penderia berbeza disertakan dengan ciri berkaitan domain yang teruk. Kamera yang berbeza mempunyai sifat optik yang berbeza, dan LiDAR boleh berbeza daripada struktur mekanikal kepada keadaan pepejal. Lebih-lebih lagi, data itu sendiri akan mempunyai bias domain, seperti cuaca, musim atau lokasi geografi, walaupun ia ditangkap oleh penderia yang sama. Ini menyebabkan generalisasi model pengesanan terjejas dan tidak dapat menyesuaikan diri dengan senario baharu dengan berkesan. Kelemahan sedemikian menghalang pengumpulan set data berskala besar dan kebolehgunaan semula data latihan asal. Oleh itu, masa depan boleh menumpukan pada mencari kaedah untuk menghapuskan bias domain dan menyepadukan sumber data yang berbeza secara adaptif.
  2. Konflik Penyelesaian: Penderia yang berbeza biasanya mempunyai resolusi yang berbeza. Sebagai contoh, ketumpatan ruang LiDAR jauh lebih rendah daripada imej. Tidak kira kaedah unjuran yang digunakan, kehilangan maklumat akan berlaku kerana hubungan yang sepadan tidak dapat ditemui. Ini mungkin mengakibatkan model dikuasai oleh data satu modaliti tertentu, sama ada disebabkan resolusi vektor ciri yang berbeza atau ketidakseimbangan dalam maklumat mentah. Oleh itu, kerja masa hadapan boleh meneroka sistem perwakilan data baharu yang serasi dengan penderia resolusi spatial yang berbeza.

9 Rujukan

[1] https://zhuanlan.zhihu.com/p/470588787
[2] Gabungan Penderia Berbilang Modal untuk Persepsi Pemanduan Auto: Satu Tinjauan

Perbincangan mendalam tentang aplikasi algoritma persepsi gabungan pelbagai mod dalam pemanduan autonomi Pautan Origina

: https ://mp.weixin.qq.com/s/usAQRL18vww9YwMXRvEwLw

Atas ialah kandungan terperinci Perbincangan mendalam tentang aplikasi algoritma persepsi gabungan pelbagai mod dalam pemanduan autonomi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam