Rumah >Peranti teknologi >AI >SOTA terbaharu nuScenes |. SparseAD: Pertanyaan jarang membantu pemanduan autonomi hujung ke hujung yang cekap!
Paradigma hujung ke hujung menggunakan rangka kerja bersatu untuk mencapai pelbagai tugas dalam sistem pemanduan autonomi. Walaupun kesederhanaan dan kejelasan paradigma ini, prestasi kaedah pemanduan autonomi hujung ke hujung pada subtugas masih jauh ketinggalan berbanding kaedah tugasan tunggal. Pada masa yang sama, ciri pandangan mata burung (BEV) padat yang digunakan secara meluas dalam kaedah hujung ke hujung sebelum ini menyukarkan untuk membuat skala kepada lebih banyak modaliti atau tugasan. Paradigma pemanduan autonomi hujung ke hujung (SparseAD) tertumpu carian jarang dicadangkan di sini, di mana carian jarang mewakili sepenuhnya keseluruhan senario pemanduan, termasuk ruang, masa dan tugas, tanpa sebarang perwakilan BEV yang padat. Khususnya, seni bina jarang bersatu direka bentuk untuk kesedaran tugas termasuk pengesanan, penjejakan dan pemetaan dalam talian. Tambahan pula, ramalan dan perancangan gerakan dikaji semula, manakala rangka kerja perancangan gerakan yang lebih munasabah direka bentuk. Pada set data nuScenes yang mencabar, SparseAD mencapai prestasi tugas penuh tercanggih dalam pendekatan hujung ke hujung dan mengurangkan jurang prestasi antara paradigma hujung ke hujung dan pendekatan tugas tunggal.
Sistem pemanduan autonomi perlu membuat keputusan yang betul dalam senario pemanduan yang kompleks untuk memastikan keselamatan dan keselesaan pemanduan. Biasanya, sistem pemanduan autonomi mengintegrasikan pelbagai tugas seperti pengesanan, penjejakan, pemetaan dalam talian, ramalan gerakan dan perancangan. Seperti yang ditunjukkan dalam Rajah 1a, paradigma modular tradisional membahagikan sistem yang kompleks kepada beberapa tugas individu, setiap satunya dioptimumkan secara bebas. Dalam paradigma ini, pemprosesan pasca manual diperlukan antara modul tugas tunggal bebas, yang menjadikan keseluruhan proses lebih rumit. Sebaliknya, disebabkan oleh kehilangan pemampatan maklumat tempat kejadian antara tugas yang disusun, ralat dalam keseluruhan sistem terkumpul, yang mungkin membawa kepada potensi isu keselamatan.
Berkenaan isu di atas, sistem pemanduan autonomi hujung ke hujung mengambil data perceptron mentah sebagai input dan mengembalikan hasil perancangan dengan cara yang lebih ringkas. Kerja awal mencadangkan melangkau tugas perantaraan dan meramalkan hasil perancangan secara langsung daripada data perceptron mentah. Walaupun pendekatan ini lebih mudah, ia tidak memuaskan dari segi pengoptimuman model, kebolehtafsiran dan prestasi perancangan. Satu lagi paradigma pelbagai segi dengan kebolehtafsiran yang lebih baik adalah untuk menyepadukan berbilang bahagian pemanduan autonomi ke dalam model hujung-ke-hujung modular, yang memperkenalkan penyeliaan berbilang dimensi untuk meningkatkan pemahaman senario pemanduan yang kompleks, Dan membawa keupayaan untuk berbilang tugas.
Seperti yang ditunjukkan dalam Rajah 1b, dalam kebanyakan kaedah hujung ke hujung modular termaju, keseluruhan senario pemanduan dicirikan oleh koleksi padat ciri pandangan mata burung (BEV) yang merangkumi maklumat berbilang sensor dan temporal serta berfungsi sebagai Input timbunan penuh yang mendorong tugas termasuk persepsi, ramalan dan perancangan. Walaupun ciri BEV teragregat padat memainkan peranan penting dalam mencapai pelbagai mod dan pelbagai tugas merentas ruang dan masa, kaedah hujung ke hujung sebelumnya menggunakan perwakilan BEV diringkaskan sebagai paradigma Dense BEV-Centric. Walaupun kesederhanaan dan kebolehtafsiran kaedah ini, prestasi mereka pada setiap subtugas pemanduan autonomi masih jauh ketinggalan berbanding kaedah tugasan tunggal yang sepadan. Di samping itu, di bawah paradigma Dense BEV-Centric, gabungan temporal jangka panjang dan gabungan pelbagai mod dicapai terutamanya melalui pelbagai peta ciri BEV, yang membawa kepada peningkatan ketara dalam kos pengkomputeran dan penggunaan memori, dan membawa beban yang lebih besar kepada sebenar. penempatan.
Paradigma pemanduan autonomi hujung ke hujung (SparseAD) berpusat carian jarang novel dicadangkan di sini. Dalam paradigma ini, elemen spatial dan temporal dalam keseluruhan adegan pemanduan diwakili oleh jadual carian yang jarang, meninggalkan ciri Pandangan Mata Burung (BEV) ensembel padat tradisional, seperti yang ditunjukkan dalam Rajah 1c. Perwakilan yang jarang ini membolehkan model hujung ke hujung untuk menggunakan maklumat sejarah yang lebih lama dan skala kepada lebih banyak mod dan tugas sambil mengurangkan kos pengiraan dan jejak memori dengan ketara.
Mereka bentuk semula seni bina modular hujung ke hujung dan memudahkannya menjadi struktur ringkas yang terdiri daripada persepsi jarang dan perancang gerakan. Dalam modul persepsi jarang, penyahkod temporal universal digunakan untuk menyatukan tugas persepsi termasuk pengesanan, penjejakan dan pemetaan dalam talian. Dalam proses ini, ciri berbilang penderia dan rekod sejarah dianggap sebagai token, manakala pertanyaan objek dan pertanyaan peta masing-masing mewakili halangan dan elemen jalan dalam adegan pemanduan. Dalam perancang gerakan, pertanyaan persepsi jarang digunakan sebagai perwakilan persekitaran, dan ramalan gerakan berbilang modal dilakukan pada kenderaan dan ejen sekeliling secara serentak untuk mendapatkan berbilang penyelesaian perancangan awal untuk kenderaan sendiri. Selepas itu, kekangan pemanduan pelbagai dimensi dipertimbangkan sepenuhnya untuk menjana hasil perancangan akhir.
Sumbangan utama:
Seperti yang ditunjukkan dalam Rajah 1c, dalam paradigma berpusatkan pertanyaan jarang yang dicadangkan, pertanyaan jarang berbeza sepenuhnya mewakili keseluruhan adegan pemanduan dan bukan sahaja bertanggungjawab untuk pemindahan maklumat dan interaksi antara modul, Kecerunan ke belakang adalah juga disebarkan merentasi pelbagai tugas dengan cara hujung ke hujung untuk pengoptimuman. Berbeza daripada kaedah berpusat pandangan mata burung (BEV) set padat sebelumnya, tiada unjuran pandangan dan ciri BEV padat digunakan dalam SparseAD, dengan itu mengelakkan beban pengiraan dan ingatan yang berat Seni bina terperinci SparseAD ditunjukkan dalam Rajah 2.
Daripada rajah seni bina, SparseAD terutamanya terdiri daripada tiga bahagian, termasuk pengekod sensor, persepsi jarang dan perancang gerakan. Khususnya, pengekod sensor mengambil sebagai input imej kamera berbilang pandangan, mata radar atau lidar dan mengekodnya ke dalam ciri dimensi tinggi. Ciri-ciri ini kemudiannya dimasukkan ke dalam modul penderiaan jarang sebagai token penderia bersama dengan pembenaman kedudukan (PE). Dalam modul penderiaan jarang, data mentah daripada penderia akan diagregatkan ke dalam pelbagai pertanyaan penderiaan jarang, seperti pertanyaan pengesanan, pertanyaan penjejakan dan pertanyaan peta, yang masing-masing mewakili elemen berbeza dalam adegan pemanduan dan akan disebarkan lagi ke hiliran tugasan. Dalam perancang gerakan, pertanyaan persepsi dianggap sebagai gambaran jarang adegan pemanduan dan dieksploitasi sepenuhnya untuk semua ejen di sekeliling dan kenderaan sendiri. Pada masa yang sama, beberapa kekangan pemanduan dianggap untuk menjana pelan akhir yang selamat dan mematuhi dinamik.
Selain itu, perpustakaan memori berbilang tugas hujung ke hujung diperkenalkan dalam seni bina untuk menyimpan maklumat pemasaan keseluruhan adegan pemanduan secara seragam, yang membolehkan sistem mendapat manfaat daripada pengagregatan maklumat sejarah jangka panjang untuk dilengkapkan tugas memandu tumpukan penuh.
Seperti yang ditunjukkan dalam Rajah 3, modul persepsi jarang SparseAD menyatukan pelbagai tugas persepsi dengan cara yang jarang, termasuk pengesanan, penjejakan dan pemetaan dalam talian. Secara khusus, terdapat dua penyahkod temporal yang serupa secara struktur yang mengeksploitasi maklumat sejarah jangka panjang daripada bank memori. Salah satu penyahkod digunakan untuk pengesanan halangan dan satu lagi digunakan untuk pemetaan dalam talian.
Selepas pengagregatan maklumat melalui pertanyaan persepsi yang sepadan dengan tugasan yang berbeza, kepala pengesanan dan pengesanan serta bahagian peta digunakan untuk menyahkod dan mengeluarkan halangan dan elemen peta masing-masing. Selepas itu, proses kemas kini dilakukan, yang menapis dan menyimpan pertanyaan penderiaan berkeyakinan tinggi bagi bingkai semasa dan mengemas kini bank memori dengan sewajarnya, yang akan memberi manfaat kepada proses penderiaan bingkai seterusnya.
Dengan cara ini, modul persepsi jarang SparseAD mencapai persepsi yang cekap dan tepat tentang adegan pemanduan, menyediakan asas maklumat penting untuk perancangan gerakan seterusnya. Pada masa yang sama, dengan menggunakan maklumat sejarah dalam bank memori, modul ini boleh meningkatkan lagi ketepatan dan kestabilan persepsi dan memastikan operasi sistem pemanduan autonomi yang boleh dipercayai.
Dari segi persepsi halangan, pengesanan dan pengesanan bersama diterima pakai dalam penyahkod bersatu tanpa sebarang pemprosesan pasca manual tambahan. Terdapat ketidakseimbangan yang ketara antara pertanyaan pengesanan dan penjejakan, yang boleh menyebabkan kemerosotan ketara dalam prestasi pengesanan. Bagi mengurangkan masalah di atas, prestasi pengesanan halangan telah dipertingkatkan dari pelbagai sudut. Pertama, mekanisme memori dua peringkat diperkenalkan untuk menyebarkan maklumat temporal merentasi bingkai. Antaranya, ingatan peringkat adegan mengekalkan maklumat pertanyaan tanpa korelasi bingkai silang, manakala ingatan peringkat contoh mengekalkan korespondensi antara bingkai bersebelahan bagi halangan penjejakan. Kedua, mengambil kira asal usul dan tugas yang berbeza bagi kedua-duanya, strategi kemas kini yang berbeza digunakan untuk ingatan peringkat adegan dan peringkat contoh. Khususnya, memori peringkat pemandangan dikemas kini melalui MLN, manakala memori peringkat contoh dikemas kini dengan ramalan masa depan untuk setiap halangan. Selain itu, semasa latihan, strategi peningkatan digunakan untuk menjejak pertanyaan untuk mengimbangi penyeliaan antara dua tahap ingatan, dengan itu meningkatkan prestasi pengesanan dan penjejakan. Selepas itu, dengan mengesan dan menjejak kepala, kotak sempadan 3D dengan atribut dan ID unik boleh dinyahkod daripada pertanyaan pengesanan atau penjejakan dan kemudian digunakan lagi dalam tugas hiliran.
Pembinaan peta dalam talian adalah tugas yang kompleks dan penting. Mengikut pengetahuan semasa, kaedah pembinaan peta dalam talian sedia ada kebanyakannya bergantung pada ciri pandangan mata burung (BEV) yang padat untuk mewakili persekitaran pemanduan. Pendekatan ini mempunyai kesukaran untuk memperluaskan julat penderiaan atau memanfaatkan maklumat sejarah kerana ia memerlukan sejumlah besar memori dan sumber pengkomputeran. Kami amat percaya bahawa semua elemen peta boleh diwakili dengan cara yang jarang, oleh itu, kami cuba menyelesaikan pembinaan peta dalam talian di bawah paradigma jarang. Khususnya, struktur penyahkod temporal yang sama seperti dalam tugas persepsi halangan diguna pakai. Pada mulanya, pertanyaan peta dengan kategori terdahulu dimulakan untuk diedarkan secara seragam pada pesawat pemanduan. Dalam penyahkod temporal, pertanyaan peta berinteraksi dengan penanda penderia dan penanda ingatan sejarah. Penanda ingatan sejarah ini sebenarnya terdiri daripada pertanyaan peta yang sangat yakin daripada bingkai sebelumnya. Pertanyaan peta yang dikemas kini kemudiannya membawa maklumat yang sah tentang elemen peta bingkai semasa dan boleh ditolak ke bank memori untuk digunakan dalam bingkai masa hadapan atau tugasan hiliran.
Jelas sekali, proses pembinaan peta dalam talian adalah lebih kurang sama dengan persepsi halangan. Iaitu, tugas pengesanan termasuk pengesanan, penjejakan dan pembinaan peta dalam talian disatukan ke dalam pendekatan jarang biasa yang lebih cekap apabila menskala ke julat yang lebih besar (cth., 100m × 100m) atau gabungan jangka panjang, dan tidak memerlukan sebarang operasi yang kompleks (seperti perhatian boleh ubah bentuk atau perhatian berbilang titik). Untuk pengetahuan terbaik kami, ini adalah yang pertama melaksanakan pembinaan peta dalam talian dalam seni bina persepsi bersatu dengan cara yang jarang. Selepas itu, Kepala peta Bezier sekeping digunakan untuk mengembalikan titik kawalan Bezier sekeping bagi setiap elemen peta jarang, dan titik kawalan ini boleh diubah dengan mudah untuk memenuhi keperluan tugas hiliran.
Kami meneliti semula masalah ramalan dan perancangan gerakan dalam sistem pemanduan autonomi dan mendapati bahawa banyak kaedah sebelum ini mengabaikan dinamik kenderaan ego apabila meramalkan pergerakan kenderaan sekeliling. Walaupun ini mungkin tidak nyata dalam kebanyakan situasi, ia boleh menjadi potensi risiko dalam senario seperti persimpangan yang terdapat interaksi rapat antara kenderaan berdekatan dan kenderaan hos. Diilhamkan oleh ini, rangka kerja perancangan gerakan yang lebih munasabah telah direka. Dalam rangka kerja ini, peramal gerakan meramalkan pergerakan kenderaan sekeliling dan kenderaan sendiri secara serentak. Selepas itu, keputusan ramalan kenderaan sendiri digunakan sebagai motion priors dalam pengoptimuman perancangan seterusnya. Semasa proses perancangan, kami mempertimbangkan aspek kekangan yang berbeza untuk menghasilkan hasil perancangan akhir yang memenuhi keperluan keselamatan dan dinamik.
Seperti yang ditunjukkan dalam Rajah 4, perancang gerakan dalam SparseAD merawat pertanyaan persepsi (termasuk pertanyaan trajektori dan pertanyaan peta) sebagai perwakilan jarang adegan pemanduan semasa. Pertanyaan gerakan multimodal digunakan sebagai medium untuk membolehkan pemahaman senario pemanduan, persepsi interaksi antara semua kenderaan (termasuk kenderaan sendiri), dan permainan kemungkinan masa depan yang berbeza. Pertanyaan gerakan multimodal kenderaan itu kemudiannya dimasukkan ke dalam pengoptimum perancangan, yang mengambil kira kekangan pemanduan termasuk arahan peringkat tinggi, keselamatan dan dinamik.
Peramal Pergerakan. Mengikuti kaedah sebelumnya, persepsi dan penyepaduan antara pertanyaan gerakan dan perwakilan pemandangan pemanduan semasa (termasuk pertanyaan trajektori dan pertanyaan peta) dicapai melalui lapisan pengubah standard. Selain itu, ejen kenderaan sendiri dan interaksi rentas mod digunakan untuk memodelkan bersama interaksi antara ejen di sekeliling dan kenderaan sendiri dalam adegan spatio-temporal masa hadapan. Melalui sinergi modul dalam dan antara struktur susun berbilang lapisan, pertanyaan gerakan dapat mengagregatkan maklumat semantik yang kaya daripada persekitaran statik dan dinamik.
Selain perkara di atas, dua strategi juga diperkenalkan untuk meningkatkan lagi prestasi peramal gerakan. Pertama, ramalan yang mudah dan mudah dibuat menggunakan ingatan temporal peringkat contoh bagi pertanyaan trajektori sebagai sebahagian daripada permulaan pertanyaan gerakan ejen di sekeliling. Dengan cara ini, peramal gerakan dapat mendapat manfaat daripada pengetahuan terdahulu yang diperoleh daripada tugas huluan. Kedua, terima kasih kepada perpustakaan memori hujung ke hujung, maklumat berguna boleh diasimilasikan daripada pertanyaan gerakan sejarah yang disimpan secara penstriman melalui agregator memori ejen pada kos yang hampir boleh diabaikan.
Perlu diambil perhatian bahawa pertanyaan gerakan pelbagai mod kereta ini dikemas kini pada masa yang sama. Dengan cara ini, usul sebelum kenderaan sendiri boleh diperolehi, yang dapat memudahkan lagi proses pembelajaran perancangan.
Pengoptimum Perancangan. Dengan gerakan sebelumnya yang disediakan oleh peramal gerakan, permulaan yang lebih baik diperolehi, menghasilkan lebih sedikit lencongan semasa latihan. Sebagai komponen utama perancang gerakan, reka bentuk fungsi kos adalah penting kerana ia akan mempengaruhi atau bahkan menentukan kualiti prestasi akhir. Dalam perancang gerakan SparseAD yang dicadangkan, dua kekangan utama, keselamatan dan dinamik, dipertimbangkan terutamanya, bertujuan untuk menjana hasil perancangan yang memuaskan. Khususnya, sebagai tambahan kepada kekangan yang ditentukan dalam VAD, ia juga memfokuskan pada hubungan keselamatan dinamik antara kenderaan dan ejen berdekatan, dan mempertimbangkan kedudukan relatif mereka pada detik-detik masa hadapan. Sebagai contoh, jika ejen i terus kekal di kawasan kiri hadapan berbanding kenderaan, dengan itu menghalang kenderaan daripada menukar lorong ke kiri, maka ejen i akan mendapatkan label kiri, menunjukkan bahawa ejen mengenakan kekangan ke kiri pada kenderaan . Oleh itu, kekangan dikelaskan sebagai depan, belakang, atau tiada dalam arah membujur, dan sebagai kiri, kanan, atau tiada dalam arah melintang. Dalam perancang, kami menyahkod perhubungan antara ejen lain dan kenderaan dalam arah mendatar dan menegak daripada pertanyaan yang sepadan. Proses ini melibatkan penentuan kebarangkalian semua kekangan antara ejen lain dan kenderaan sendiri dalam arah ini. Kemudian, kami menggunakan kehilangan fokus sebagai fungsi kos hubungan Ego-Agen (EAR) untuk menangkap potensi risiko yang dibawa oleh ejen berdekatan dengan berkesan:
Memandangkan trajektori yang dirancang mesti mengikut undang-undang dinamik pelaksanaan sistem kawalan, dalam perancangan gerakan Tugas-tugas tambahan dibenamkan dalam mesin untuk menggalakkan pembelajaran keadaan dinamik kenderaan. Nyahkod keadaan seperti halaju, pecutan dan sudut yaw daripada pertanyaan kenderaan sendiri Qego, dan selia keadaan ini menggunakan kehilangan dinamik:
Eksperimen meluas telah dijalankan ke atas set data keberkesanan dan keberkesanan Prov. keunggulan kaedah. Untuk bersikap adil, prestasi setiap tugas yang lengkap akan dinilai dan dibandingkan dengan kaedah sebelumnya. Percubaan dalam bahagian ini menggunakan tiga konfigurasi berbeza SparseAD, iaitu SparseAD-B dan SparseAD-L yang hanya menggunakan input imej, dan SparseAD-BR yang menggunakan awan titik radar dan input berbilang mod imej. Kedua-dua SparseAD-B dan SparseAD-BR menggunakan V2-99 sebagai rangkaian tulang belakang imej, dan resolusi imej input ialah 1600 × 640. SparseAD-L selanjutnya menggunakan ViTLarge sebagai rangkaian tulang belakang imej, dan resolusi imej input ialah 1600×800.
Hasil pengesanan 3D dan berbilang sasaran 3D pada set data pengesahan nuScenes adalah seperti berikut. "Kaedah penjejakan sahaja" merujuk kepada kaedah yang dijejaki melalui korelasi pasca pemprosesan. "Kaedah pemanduan autonomi hujung ke hujung" merujuk kepada kaedah yang mampu melakukan tugas pemanduan autonomi tindanan penuh. Semua kaedah dalam jadual dinilai dengan input imej resolusi penuh. †: Hasilnya diterbitkan semula melalui kod sumber terbuka rasmi. -R: Menunjukkan bahawa input awan titik radar digunakan. Perbandingan prestasi
dengan kaedah pemetaan dalam talian adalah seperti berikut, keputusan dinilai pada ambang [1.0m, 1.5m, 2.0m]. ‡: Keputusan diterbitkan semula melalui kod sumber terbuka rasmi. †: Berdasarkan keperluan modul perancangan dalam SparseAD, kami membahagikan lagi sempadan kepada segmen dan lorong jalan dan menilainya secara berasingan. ∗: Kos rangkaian tulang belakang dan modul penderiaan jarang. -R: Menunjukkan bahawa input awan titik radar digunakan.
Kesedaran halangan. Prestasi pengesanan dan penjejakan SparseAD dibandingkan dengan kaedah lain pada set pengesahan nuScenes dalam Tab 2. Jelas sekali, SparseAD-B berprestasi baik dalam kebanyakan kaedah pengesanan sahaja, penjejakan sahaja dan hujung ke hujung berbilang objek, sambil berprestasi setanding dengan kaedah SOTA seperti StreamPETR dan QTrack pada tugasan yang sepadan. Dengan meningkatkan rangkaian tulang belakang yang lebih maju, SparseAD-Large mencapai prestasi keseluruhan yang lebih baik, dengan mAP sebanyak 53.6%, NDS sebanyak 62.5% dan AMOTA sebanyak 60.6%, yang secara keseluruhannya lebih baik daripada kaedah terbaik sebelumnya Sparse4Dv3.
Pemetaan dalam talian. Tab. 3 menunjukkan hasil perbandingan prestasi pemetaan dalam talian antara SparseAD dan kaedah sebelumnya yang lain pada set pengesahan nuScenes. Perlu diingatkan bahawa mengikut keperluan perancangan, kami membahagikan sempadan kepada segmen jalan dan lorong dan menilainya secara berasingan, sambil memanjangkan julat dari 60m × 30m biasa kepada 102.4m × 102.4m agar selaras dengan persepsi halangan. Tanpa kehilangan keadilan, SparseAD mencapai 34.2% mAP dalam cara yang jarang dari hujung ke hujung tanpa sebarang perwakilan BEV yang padat, yang lebih baik daripada kebanyakan kaedah popular sebelum ini, seperti HDMapNet, VectorMapNet dan MapTR, dari segi prestasi Ia mempunyai kelebihan yang jelas dalam segi kos dan kos latihan. Walaupun prestasinya lebih rendah sedikit daripada StreamMapNet, kaedah kami menunjukkan bahawa pemetaan dalam talian boleh dilakukan dengan cara yang jarang berlaku tanpa sebarang perwakilan BEV yang padat, yang mempunyai implikasi untuk penggunaan praktikal pemanduan autonomi hujung ke hujung pada kos yang jauh lebih rendah. Diakui, cara menggunakan maklumat berguna daripada modaliti lain (seperti radar) dengan berkesan masih merupakan tugas yang patut diterokai lebih lanjut. Kami percaya masih banyak ruang untuk penerokaan dalam cara yang jarang.
Ramalan Sukan. Hasil perbandingan ramalan gerakan ditunjukkan dalam Tab 4a, di mana penunjuk adalah konsisten dengan VIP3D. SparseAD mencapai prestasi terbaik antara semua kaedah hujung ke hujung, dengan 0.83m minADE terendah, 1.58m minFDE, 18.7% kadar kesilapan dan 0.308 EPA tertinggi, yang merupakan kelebihan yang besar. Di samping itu, terima kasih kepada kecekapan dan kebolehskalaan paradigma pusat pertanyaan jarang, SparseAD boleh menskalakan secara berkesan kepada lebih banyak modaliti dan mendapat manfaat daripada rangkaian tulang belakang lanjutan untuk meningkatkan lagi prestasi ramalan dengan ketara.
Merancang. Keputusan perancangan dibentangkan dalam Tab 4b. Terima kasih kepada reka bentuk unggul modul persepsi huluan dan perancang gerakan, semua versi SparseAD mencapai prestasi terkini pada set data pengesahan nuScenes. Khususnya, SparseAD-B mencapai purata kadar ralat dan perlanggaran L2 terendah berbanding semua kaedah lain termasuk UniAD dan VAD, yang menunjukkan keunggulan pendekatan dan seni bina kami. Sama seperti tugas huluan termasuk persepsi halangan dan ramalan gerakan, SparseAD meningkatkan lagi prestasi dengan radar atau rangkaian tulang belakang yang lebih berkuasa.
Atas ialah kandungan terperinci SOTA terbaharu nuScenes |. SparseAD: Pertanyaan jarang membantu pemanduan autonomi hujung ke hujung yang cekap!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!