Rumah > Artikel > Peranti teknologi > Bagaimana untuk menggunakan Transformer BEV untuk mengatasi situasi ekstrem pemanduan autonomi?
Sistem pemanduan autonomi perlu menghadapi pelbagai senario kompleks dalam aplikasi praktikal, terutamanya Kes Sudut (situasi melampau) yang meletakkan keperluan yang lebih tinggi pada persepsi pemanduan autonomi dan keupayaan membuat keputusan. Sarung Sudut merujuk kepada situasi melampau atau jarang berlaku yang mungkin berlaku dalam pemanduan sebenar, seperti kemalangan jalan raya, keadaan cuaca buruk atau keadaan jalan yang kompleks. Teknologi BEV meningkatkan keupayaan persepsi sistem pemanduan autonomi dengan menyediakan perspektif global, yang dijangka memberikan sokongan yang lebih baik dalam mengendalikan situasi ekstrem ini. Artikel ini akan membincangkan cara teknologi BEV (Bird's Eye View) boleh membantu sistem pemanduan autonomi menghadapi Corner Case dan meningkatkan kebolehpercayaan dan keselamatan sistem.
Pictures
Transformer ialah model pembelajaran mendalam berdasarkan mekanisme perhatian kendiri, yang pertama kali digunakan dalam tugas pemprosesan bahasa semula jadi. Idea teras adalah untuk menangkap kebergantungan jarak jauh dalam jujukan input melalui mekanisme perhatian kendiri, dengan itu meningkatkan keupayaan model untuk memproses data jujukan.
Gabungan berkesan kedua-dua di atas juga merupakan teknologi baru muncul yang sangat popular dalam strategi pemanduan autonomi.
BEV ialah kaedah menayangkan maklumat persekitaran tiga dimensi pada satah dua dimensi, memaparkan objek dan rupa bumi dalam persekitaran dari perspektif atas ke bawah. Dalam bidang pemanduan autonomi, BEV boleh membantu sistem lebih memahami persekitaran sekeliling dan meningkatkan ketepatan persepsi dan membuat keputusan. Dalam peringkat persepsi persekitaran, BEV boleh menggabungkan data berbilang modal seperti lidar, radar dan kamera pada satah yang sama. Kaedah ini boleh menghapuskan masalah oklusi dan pertindihan antara data dan meningkatkan ketepatan pengesanan dan penjejakan objek. Pada masa yang sama, BEV boleh memberikan gambaran persekitaran yang jelas untuk ramalan dan peringkat membuat keputusan seterusnya, yang bermanfaat untuk meningkatkan prestasi keseluruhan sistem.
Pertama sekali, teknologi BEV boleh memberikan perspektif global tentang persepsi alam sekitar, yang membantu meningkatkan prestasi sistem pemanduan autonomi dalam senario yang kompleks. Walau bagaimanapun, lidar mempunyai ketepatan yang lebih tinggi dari segi jarak dan maklumat spatial.
Kedua, teknologi BEV menangkap imej melalui kamera dan boleh mendapatkan maklumat warna dan tekstur, manakala prestasi lidar lemah dalam hal ini.
Selain itu, kos teknologi BEV adalah agak rendah dan sesuai untuk penggunaan komersial berskala besar.
Kamera pandangan tunggal tradisional ialah peranti pengesan kenderaan yang biasa digunakan yang boleh menangkap maklumat persekitaran di sekeliling kenderaan. Walau bagaimanapun, kamera satu pandangan mempunyai had tertentu dari segi bidang pandangan dan pemerolehan maklumat. Teknologi BEV menyepadukan imej daripada berbilang kamera untuk memberikan perspektif global dan pemahaman yang lebih menyeluruh tentang persekitaran di sekeliling kenderaan.
Gambar
Teknologi BEV mempunyai kesedaran alam sekitar yang lebih baik daripada kamera pandangan tunggal dalam pemandangan yang kompleks dan keadaan cuaca yang teruk, kerana BEV boleh menggabungkan maklumat imej dari sudut yang berbeza, dengan itu meningkatkan persepsi kesedaran alam sekitar sistem.
Teknologi BEV boleh membantu sistem pemanduan autonomi mengendalikan kes selekoh dengan lebih baik, seperti keadaan jalan yang kompleks, jalan yang sempit atau tersumbat, dsb., manakala kamera satu pandangan mungkin tidak berprestasi baik dalam situasi ini.
Sudah tentu, dari segi kos dan penggunaan sumber, BEV memerlukan persepsi imej, pembinaan semula dan jahitan dari pelbagai sudut tontonan, jadi ia menggunakan lebih banyak kuasa pengkomputeran dan sumber storan. Walaupun teknologi BEV memerlukan penggunaan berbilang kamera, kos keseluruhan masih lebih rendah daripada lidar, dan prestasinya meningkat dengan ketara berbanding kamera satu pandangan.
Ringkasnya, teknologi BEV mempunyai kelebihan tertentu berbanding dengan teknologi persepsi lain dalam bidang pemanduan autonomi. Terutama apabila ia melibatkan pemprosesan Kes Penjuru, teknologi BEV boleh memberikan perspektif global tentang persepsi alam sekitar, membantu meningkatkan prestasi sistem pemanduan autonomi dalam senario yang kompleks. Walau bagaimanapun, untuk memanfaatkan sepenuhnya kelebihan teknologi BEV, penyelidikan dan pembangunan lanjut masih diperlukan untuk meningkatkan prestasi dalam keupayaan pemprosesan imej, teknologi gabungan sensor dan ramalan tingkah laku yang tidak normal. Pada masa yang sama, digabungkan dengan teknologi persepsi lain (seperti lidar) dan pembelajaran mendalam dan algoritma pembelajaran mesin, kestabilan dan keselamatan sistem pemanduan autonomi dalam pelbagai senario boleh dipertingkatkan lagi.
Pada masa yang sama, Bird's Eye View (BEV) memainkan peranan penting dalam sistem pemanduan autonomi sebagai kaedah persepsi persekitaran yang berkesan. Menggabungkan kelebihan Transformer dan BEV, kami boleh membina sistem pemanduan autonomi hujung ke hujung untuk mencapai persepsi ketepatan tinggi, ramalan dan membuat keputusan. Artikel ini juga akan meneroka cara Transformer dan BEV boleh digabungkan dan digunakan secara berkesan dalam bidang pemanduan autonomi untuk meningkatkan prestasi sistem.
Langkah-langkah khusus adalah seperti berikut:
Gabungkan data berbilang modal seperti lidar, radar dan kamera ke dalam format BEV, dan lakukan operasi prapemprosesan yang diperlukan , normalisasi, dsb.
Pertama, kita perlu menukar data berbilang modal seperti lidar, radar dan kamera kepada format BEV. Untuk data awan titik lidar, kita boleh menayangkan awan titik tiga dimensi pada satah dua dimensi, dan kemudian rasterisasi satah untuk menjana peta ketinggian untuk data radar, kita boleh menukar maklumat jarak dan sudut kepada peta ketinggian. Koordinat Karl kemudiannya dirasterkan pada satah BEV untuk data kamera, kita boleh menayangkan data imej ke satah BEV untuk menjana peta warna atau keamatan. . dan data radar tunggu. Dengan menjalankan latihan hujung ke hujung pada data ini, Transformer secara automatik boleh mempelajari struktur intrinsik dan perhubungan antara data ini, dengan itu mengenal pasti dan mengesan halangan dalam persekitaran dengan berkesan.
Gunakan model Transformer untuk mengekstrak ciri daripada data BEV untuk mengesan dan mengesan halangan.
B(x, y) = [H(x, y), R(x, y), I(x, y)]
di mana B( x, y) mewakili nilai piksel imej BEV berbilang saluran pada koordinat (x, y), [] mewakili tindanan saluran.
3. Modul Ramalan:
Berdasarkan output modul persepsi, gunakan model Transformer untuk meramalkan tingkah laku dan trajektori masa depan peserta trafik yang lain. Dengan mempelajari data trajektori sejarah, Transformer dapat menangkap corak pergerakan dan interaksi peserta trafik, dengan itu memberikan ramalan yang lebih tepat untuk sistem pemanduan autonomi.
Secara khusus, kami mula-mula menggunakan Transformer untuk mengekstrak ciri daripada imej BEV berbilang saluran. Dengan mengandaikan imej BEV input ialah B(x, y), kita boleh mengekstrak ciri F(x, y) melalui mekanisme perhatian diri berbilang lapisan dan pengekodan kedudukan:
di mana F(x, y) mewakili peta ciri, nilai ciri pada koordinat (x, y).
Kemudian, kami menggunakan ciri yang diekstrak F(x, y) untuk meramalkan gelagat dan trajektori peserta trafik yang lain. Penyahkod Transformer boleh digunakan untuk menjana keputusan ramalan, seperti yang ditunjukkan di bawah:
P(t) = Dekoder(F(x, y), t)
di mana P(t) mewakili pada masa t Ramalan Hasilnya, Penyahkod mewakili penyahkod Transformer.
Melalui langkah di atas, kita boleh mencapai gabungan data dan ramalan berdasarkan Transformer dan BEV. Struktur Transformer dan tetapan parameter tertentu boleh dilaraskan mengikut senario aplikasi sebenar untuk mencapai prestasi optimum.
4. Modul membuat keputusan:
Berdasarkan hasil modul ramalan, digabungkan dengan peraturan lalu lintas dan model dinamik kenderaan, model Transformer digunakan untuk menjana strategi pemanduan yang sesuai.
Gambar
Dengan menyepadukan maklumat alam sekitar, peraturan lalu lintas dan model dinamik kenderaan ke dalam model, Transformer dapat mempelajari strategi pemanduan yang cekap dan selamat. Seperti perancangan laluan, perancangan kelajuan, dsb. Di samping itu, menggunakan mekanisme perhatian kendiri berbilang kepala Transformer, pemberat antara sumber maklumat yang berbeza boleh diimbangi dengan berkesan untuk membuat keputusan yang lebih munasabah dalam persekitaran yang kompleks.
Berikut adalah langkah khusus untuk menggunakan kaedah ini:
Pertama, sejumlah besar data pemanduan perlu dikumpul, termasuk maklumat status kenderaan (seperti. kelajuan, pecutan, sudut stereng) dsb.), maklumat keadaan jalan raya (seperti jenis jalan, tanda lalu lintas, garisan lorong, dsb.), maklumat persekitaran sekitar (seperti kenderaan lain, pejalan kaki, basikal, dsb.) dan tindakan diambil oleh pemandu. Data ini dipraproses, termasuk pembersihan data, penyeragaman dan pengekstrakan ciri.
Ekodkan data yang dikumpul ke dalam bentuk yang sesuai untuk input model Transformer. Ini biasanya melibatkan pendiskritan data berangka berterusan dan menukar data yang didiskritkan ke dalam bentuk vektor. Pada masa yang sama, data perlu bersiri supaya model Transformer boleh mengendalikan maklumat pemasaan.
2.1, Pengekod Transformer
Pengekod Transformer terdiri daripada berbilang sub-lapisan yang sama, setiap sub-lapisan mengandungi dua bahagian: Multi-Head Attention (Multi-Head Attentionural) dan rangkaian (Feed-forward neural) -Rangkaian Neural Hadapan).
Perhatian diri berbilang kepala: Mula-mula bahagikan jujukan input kepada h kepala yang berbeza, kirakan perhatian diri setiap kepala secara berasingan, dan kemudian sambungkan output kepala ini bersama-sama. Ini menangkap kebergantungan pada skala yang berbeza dalam urutan input.
Gambar
Rumus pengiraan perhatian diri yang panjang ialah:
MHA(X) = Concat(head_1, head_2, ..., head_h) *
X ) mewakili output perhatian kendiri berbilang kepala, head_i mewakili output kepala ke-i, dan W_O ialah matriks berat keluaran.
Rangkaian Neural Feedforward: Seterusnya, output perhatian kendiri berbilang kepala disalurkan ke rangkaian neural feedforward. Rangkaian saraf suapan hadapan biasanya mengandungi dua lapisan bersambung sepenuhnya dan fungsi pengaktifan (seperti ReLU). Formula pengiraan rangkaian neural suapan ialah:
FFN(x) = maks(0, xW_1 + b_1) * W_2 + b_2
di mana FFN(x) mewakili output rangkaian neural suapan, W_1 dan W_2 ialah matriks berat, b_1 dan b_2 ialah vektor pincang, dan maks(0, x) mewakili fungsi pengaktifan ReLU.
Selain itu, setiap sub-lapisan dalam pengekod mengandungi baki sambungan dan normalisasi lapisan (Layer Normalization), yang membantu meningkatkan kestabilan latihan dan kelajuan penumpuan model.
2.2. Penyahkod Transformer
Serupa dengan pengekod, penyahkod Transformer juga terdiri daripada berbilang sub-lapisan yang sama Setiap sub-lapisan mengandungi tiga bahagian: pengekod-pengekod berbilang kepala -Penyahkod Perhatian dan rangkaian neural suapan ke hadapan.
Perhatian diri berbilang kepala: Sama seperti perhatian diri berbilang kepala dalam pengekod, digunakan untuk mengira tahap korelasi antara setiap elemen dalam urutan input penyahkod.
Perhatian penyahkod-pengekod: digunakan untuk mengira tahap korelasi antara jujukan input penyahkod dan jujukan output pengekod. Kaedah pengiraan adalah serupa dengan perhatian kendiri, kecuali bahawa vektor pertanyaan datang daripada jujukan input penyahkod, dan vektor kunci dan vektor nilai datang daripada jujukan output pengekod.
Rangkaian Neural Feedforward: Sama seperti rangkaian neural feedforward dalam pengekod. Setiap sub-lapisan dalam penyahkod juga mengandungi baki sambungan dan normalisasi lapisan. Dengan menyusun berbilang lapisan pengekod dan penyahkod, Transformer dapat mengendalikan data jujukan dengan kebergantungan yang kompleks.
Bina model Transformer yang sesuai untuk senario pemanduan autonomi, termasuk menetapkan bilangan lapisan yang sesuai, bilangan kepala dan saiz lapisan tersembunyi. Selain itu, model juga perlu diperhalusi mengikut keperluan tugasan, seperti menggunakan dasar pemanduan untuk menjana fungsi kerugian bagi tugasan tersebut.
Pertama, vektor ciri dihantar melalui MLP untuk mendapatkan vektor dimensi rendah, yang dihantar ke rangkaian titik laluan regresi automatik yang dilaksanakan oleh GRU dan digunakan untuk memulakan keadaan tersembunyi GRU. Di samping itu, kedudukan semasa dan kedudukan sasaran juga dimasukkan, menjadikan rangkaian fokus pada konteks berkaitan keadaan tersembunyi.
gambar
Gunakan GRU satu lapisan dan gunakan lapisan linear untuk meramal titik laluan mengimbangi dari keadaan tersembunyi untuk mendapatkan titik laluan yang diramalkan . Input kepada GRU ialah asal.
Pengawal menggunakan dua pengawal PID untuk melaksanakan kawalan mendatar dan membujur masing-masing berdasarkan titik laluan yang diramalkan untuk mendapatkan nilai stereng, brek dan pendikit. Lakukan purata wajaran vektor titik laluan bagi bingkai berturut-turut, maka input pengawal membujur ialah panjang modulnya, dan input pengawal melintang ialah orientasinya.
Kira kehilangan L1 titik laluan trajektori pakar dan titik laluan trajektori yang diramalkan dalam sistem koordinat kenderaan sendiri kerangka semasa, iaitu,
4 Gunakan set data yang dikumpul Latih model Transformer. Semasa proses latihan, model perlu disahkan untuk menyemak keupayaan generalisasinya. Set data boleh dibahagikan kepada latihan, pengesahan, dan set ujian untuk menilai model.
Dalam aplikasi sebenar, model Transformer yang telah dilatih adalah input berdasarkan status kenderaan semasa, maklumat keadaan jalan dan maklumat persekitaran sekitar. Model ini akan menjana strategi pemanduan seperti pecutan, nyahpecutan, stereng, dan lain-lain berdasarkan input ini.
Lulus strategi pemanduan yang dijana kepada sistem pemanduan autonomi untuk mengawal kenderaan. Pada masa yang sama, data daripada proses pelaksanaan sebenar dikumpul untuk pengoptimuman lanjut dan lelaran model.
Melalui langkah di atas, kaedah berdasarkan model Transformer boleh digunakan untuk menjana strategi pemanduan yang sesuai dalam peringkat membuat keputusan pemanduan autonomi. Perlu diingatkan bahawa disebabkan oleh keperluan keselamatan yang tinggi dalam bidang pemanduan autonomi, adalah perlu untuk memastikan prestasi dan keselamatan model dalam pelbagai senario semasa penggunaan sebenar.
Dalam bahagian ini, kami akan memperkenalkan secara terperinci tiga contoh Sarung Sudut penyelesaian teknologi BEV, yang melibatkan keadaan jalan yang kompleks, keadaan cuaca buruk dan meramalkan tingkah laku yang tidak normal. . Rajah berikut menunjukkan beberapa senario sudut dalam pemanduan autonomi. Menggunakan teknologi Transformer+BEV dengan berkesan boleh mengenal pasti dan menangani kebanyakan adegan tepi yang boleh dikenal pasti pada masa ini. . Dengan menyepadukan imej daripada berbilang kamera di sekeliling kenderaan, BEV menjana pandangan atas-bawah berterusan, membolehkan sistem pemanduan autonomi mengenal pasti dengan jelas garisan lorong, halangan, pejalan kaki dan peserta trafik yang lain. Sebagai contoh, di persimpangan yang kompleks, teknologi BEV boleh membantu sistem pemanduan autonomi dengan tepat mengenal pasti lokasi dan arah pemanduan setiap peserta trafik, dengan itu menyediakan asas yang boleh dipercayai untuk perancangan laluan dan membuat keputusan.
2. Menghadapi keadaan cuaca yang teruk
Dalam keadaan cuaca yang teruk, seperti hujan, salji, kabus, dll., kamera tradisional dan lidar mungkin terjejas, mengurangkan keupayaan persepsi sistem pemanduan autonomi. Teknologi Transformer+BEV masih mempunyai kelebihan tertentu dalam situasi ini kerana ia boleh menggabungkan maklumat imej dari sudut yang berbeza untuk meningkatkan persepsi sistem terhadap alam sekitar. Untuk meningkatkan lagi prestasi teknologi Transformer+BEV dalam keadaan cuaca yang teruk, anda boleh mempertimbangkan untuk menggunakan peralatan tambahan seperti kamera inframerah atau kamera pengimejan terma untuk menambah kekurangan kamera cahaya nampak dalam situasi ini.Dalam persekitaran jalan yang sebenar, pejalan kaki, penunggang basikal dan peserta trafik lain mungkin mempunyai tingkah laku yang tidak normal, seperti tiba-tiba melintas jalan, melanggar peraturan lalu lintas, dsb. Teknologi BEV boleh membantu sistem pemanduan autonomi meramalkan tingkah laku abnormal ini dengan lebih baik. Dengan perspektif global, BEV boleh menyediakan maklumat alam sekitar yang lengkap, membolehkan sistem pemanduan autonomi menjejak dan meramalkan dinamik pejalan kaki dan peserta trafik lain dengan lebih tepat. Selain itu, menggabungkan pembelajaran mesin dan algoritma pembelajaran mendalam, teknologi Transformer+BEV boleh meningkatkan lagi ketepatan ramalan tingkah laku abnormal, membolehkan sistem pemanduan autonomi membuat keputusan yang lebih munasabah dalam senario yang kompleks.
Dalam persekitaran jalan yang sempit atau terhalang, kamera dan lidar tradisional mungkin mengalami kesukaran mendapatkan maklumat yang mencukupi untuk persepsi alam sekitar yang berkesan. Walau bagaimanapun, teknologi Transformer+BEV boleh digunakan dalam situasi ini kerana ia boleh menyepadukan imej yang ditangkap oleh berbilang kamera untuk menjana paparan yang lebih komprehensif. Ini membolehkan sistem pemanduan autonomi untuk lebih memahami persekitaran di sekeliling kenderaan, mengenal pasti halangan di laluan sempit dan mengemudi senario ini dengan selamat.
Dalam senario seperti lebuh raya, sistem pemanduan autonomi perlu menangani tugas yang kompleks seperti menggabungkan kenderaan dan penggabungan trafik. Tugas-tugas ini menuntut keupayaan persepsi sistem pemanduan autonomi, kerana sistem perlu menilai kedudukan dan kelajuan kenderaan di sekeliling dalam masa nyata untuk memastikan penggabungan yang selamat dan penggabungan trafik. Dengan bantuan teknologi Transformer+BEV, sistem pemanduan autonomi boleh memperoleh perspektif global dan memahami dengan jelas keadaan trafik di sekeliling kenderaan. Ini akan membantu sistem pemanduan autonomi membangunkan strategi penggabungan yang sesuai untuk memastikan kenderaan itu bergabung dengan selamat ke dalam aliran trafik.
Dalam situasi kecemasan, seperti kemalangan jalan raya, penutupan jalan atau kecemasan, sistem pemanduan autonomi perlu membuat keputusan pantas untuk memastikan keselamatan pemanduan. Dalam kes ini, teknologi Transformer+BEV boleh memberikan persepsi alam sekitar masa nyata dan komprehensif untuk sistem pemanduan autonomi, membantu sistem menilai dengan pantas keadaan jalan raya semasa. Menggabungkan data masa nyata dan algoritma perancangan laluan lanjutan, sistem pemanduan autonomi boleh membangunkan strategi kecemasan yang sesuai untuk mengelakkan potensi risiko.
Melalui contoh-contoh ini, kita dapat melihat bahawa teknologi Transformer+BEV mempunyai potensi besar dalam menangani Corner Case. Walau bagaimanapun, untuk memberikan permainan sepenuhnya kepada kelebihan teknologi Transformer+BEV, penyelidikan dan pembangunan lanjut masih diperlukan untuk meningkatkan prestasi dalam keupayaan pemprosesan imej, teknologi gabungan sensor dan ramalan tingkah laku yang tidak normal.
Artikel ini meringkaskan prinsip dan aplikasi teknologi Transformer dan BEV dalam pemanduan autonomi, terutamanya cara menyelesaikan masalah Corner Case. Dengan menyediakan perspektif global dan persepsi alam sekitar yang tepat, teknologi Transformer+BEV dijangka meningkatkan kebolehpercayaan dan keselamatan sistem pemanduan autonomi dalam menghadapi situasi yang melampau. Walau bagaimanapun, teknologi semasa masih mempunyai had tertentu, seperti kemerosotan prestasi dalam keadaan cuaca buruk. Penyelidikan masa depan harus terus menumpukan pada peningkatan teknologi BEV dan integrasinya dengan teknologi penderiaan lain untuk mencapai tahap keselamatan pemanduan autonomi yang lebih tinggi.
Atas ialah kandungan terperinci Bagaimana untuk menggunakan Transformer BEV untuk mengatasi situasi ekstrem pemanduan autonomi?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!