Rumah >Peranti teknologi >AI >Ke arah 'Gelung Tertutup' |. PlanAgent: SOTA baharu untuk perancangan gelung tertutup pemanduan autonomi berdasarkan MLLM!

Ke arah 'Gelung Tertutup' |. PlanAgent: SOTA baharu untuk perancangan gelung tertutup pemanduan autonomi berdasarkan MLLM!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBasal: 2024-06-08 21:30:27586semak imbas

Pasukan pembelajaran pengukuhan mendalam Institut Automasi, Akademi Sains China, bersama-sama dengan Li Auto dan lain-lain, mencadangkan rangka kerja perancangan gelung tertutup baharu untuk pemanduan autonomi berdasarkan model bahasa besar berbilang modMLLM - PlanAgent. Kaedah ini mengambil pandangan mata dari tempat kejadian dan gesaan teks berasaskan graf sebagai input, dan menggunakan pemahaman pelbagai modal dan keupayaan penaakulan akal bagi model bahasa besar berbilang mod untuk melaksanakan penaakulan hierarki daripada pemahaman adegan kepada generasi. arahan pergerakan mendatar dan menegak, dan Selanjutnya menjana arahan yang diperlukan oleh perancang. Kaedah ini diuji pada penanda aras nuPlan berskala besar dan mencabar, dan eksperimen menunjukkan bahawa PlanAgent mencapai prestasi terkini (SOTA) pada kedua-dua senario biasa dan panjang. Berbanding dengan kaedah model bahasa besar (LLM) konvensional, jumlah token perihalan adegan yang diperlukan oleh PlanAgent hanyalah kira-kira 1/3. . Universiti, Universiti Aeroangkasa Beijing

Alamat kertas:https://arxiv.org/abs/2406.01587

1 Pengenalan modul pemanduan tanpa satu matlamat
perancangan gerakan adalah untuk menjana trajektori yang optimum untuk keselamatan dan keselesaan. Algoritma berasaskan peraturan, seperti algoritma PDM [1], berfungsi dengan baik dalam mengendalikan senario biasa, tetapi selalunya sukar untuk mengatasi senario ekor panjang yang memerlukan operasi pemanduan yang lebih kompleks [2]. Algoritma berasaskan pembelajaran [2,3] sering terlalu sesuai dalam situasi ekor panjang, menghasilkan prestasi dalam nuPlan yang tidak sebaik kaedah berasaskan peraturan PDM.
Baru-baru ini, pembangunan model bahasa besar telah membuka kemungkinan baharu untuk perancangan pemanduan autonomi. Beberapa penyelidikan baru-baru ini cuba menggunakan keupayaan penaakulan yang berkuasa model bahasa besar untuk meningkatkan keupayaan perancangan dan kawalan algoritma pemanduan autonomi. Walau bagaimanapun, mereka menghadapi beberapa masalah: (1) Persekitaran eksperimen gagal berdasarkan senario persekitaran tertutup sebenar (2) Sebilangan nombor koordinat digunakan untuk mewakili butiran peta atau status gerakan, yang meningkatkan bilangan token yang diperlukan dengan banyak; (3) ) Sukar untuk memastikan keselamatan apabila titik trajektori dijana secara langsung oleh model bahasa yang besar. Untuk menangani cabaran di atas, kertas kerja ini mencadangkan kaedah PlanAgent.

2 Kaedah

Rangka kerja PlanAgent ejen perancangan gelung tertutup berdasarkan MLLM ditunjukkan dalam Rajah 1. Kertas kerja ini mereka bentuk tiga modul untuk menyelesaikan masalah kompleks dalam pemanduan autonomi:

modul pengekstrakan maklumat

( Modul Transformasi Alam Sekitar): Untuk mencapai perwakilan maklumat pemandangan yang cekap, modul pengekstrakan maklumat persekitaran direka bentuk yang boleh mengekstrak input berbilang modal dengan maklumat lorong.

Modul penaakulan: Untuk mencapai pemahaman adegan dan penaakulan akal, modul penaakulan direka, yang menggunakan model bahasa besar berbilang mod MLLM untuk menjana kod perancang yang munasabah dan selamat.

Modul refleksi: Untuk memastikan perancangan yang selamat, mekanisme refleksi direka bentuk, yang boleh mengesahkan perancang melalui simulasi dan menapis cadangan MLLM yang tidak munasabah. . untuk itu Kualiti mempunyai impak yang penting. Untuk meningkatkan kualiti penjanaan MLLM, modul pengekstrakan maklumat pemandangan dapat mengekstrak maklumat konteks adegan dan menukarnya kepada imej dan perwakilan teks pandangan burung (BEV), menjadikannya konsisten dengan input MLLM. Mula-mula, kertas kerja ini menukar maklumat pemandangan kepada imej Bird Escape (BEV) untuk meningkatkan keupayaan MLLM untuk memahami adegan global. Pada masa yang sama, maklumat jalan raya perlu diwakili secara grafik, seperti yang ditunjukkan dalam Rajah 2. Atas dasar ini, maklumat pergerakan kenderaan utama diekstrak, supaya MLLM boleh memberi tumpuan kepada kawasan yang paling relevan dengan kedudukannya sendiri.

2.2 Modul penaakulan

Cara memperkenalkan keupayaan penaakulan model bahasa besar ke dalam proses perancangan pemanduan autonomi dan merealisasikan sistem perancangan dengan keupayaan penaakulan akal adalah isu utama. Kaedah yang direka dalam artikel ini boleh mengambil mesej pengguna dan mesej sistem pratakrif yang mengandungi maklumat pemandangan semasa sebagai input, dan menjana kod perancang model pemandu pintar (IDM) melalui berbilang pusingan penaakulan dalam rantaian pemikiran hierarki. Hasilnya, PlanAgent boleh membenamkan keupayaan penaakulan yang berkuasa MLLM ke dalam tugas perancangan pemanduan autonomi melalui pembelajaran kontekstual.

Antaranya, mesej pengguna termasuk pengekodan BEV dan maklumat pergerakan kenderaan sekeliling yang diekstrak berdasarkan perwakilan graf. Mesej sistem termasuk definisi tugas, pengetahuan akal dan langkah rantai pemikiran, seperti yang ditunjukkan dalam Rajah 3. . . Dalam PlanAgent, pengekoran kereta, garis tengah, had laju, pecutan maksimum dan kod parameter nyahpecutan maksimum akan dijana, dan kemudian pecutan serta-merta dalam adegan tertentu akan dijana oleh IDM, dan akhirnya trajektori akan dijana.

2.3 Modul Refleksi

Melalui kedua-dua modul di atas, keupayaan pemahaman dan penaakulan MLLM tentang adegan diperkukuh. Walau bagaimanapun, ilusi MLLM masih menimbulkan cabaran kepada keselamatan pemanduan autonomi. Diilhamkan oleh proses membuat keputusan manusia "berfikir dua kali sebelum melompat", artikel ini menambah mekanisme refleksi pada reka bentuk algoritma. Simulasikan perancang yang dijana oleh MLLM dan nilai skor pemanduan perancang melalui penunjuk seperti kemungkinan perlanggaran, jarak memandu dan keselesaan. Apabila skor lebih rendah daripada ambang tertentu τ, ini menunjukkan bahawa perancang yang dijana oleh MLLM adalah tidak mencukupi dan MLLM akan diminta untuk menjana semula perancang.

3 Eksperimen dan keputusan

Kertas kerja ini menjalankan eksperimen perancangan gelung tertutup pada nuPlan [4], platform perancangan gelung tertutup untuk senario sebenar berskala besar, untuk menilai prestasi PlanAgent seperti berikut.

3.1 Eksperimen Utama

Table 1 Perbandingan Antara Planagent dan Algoritma Lain Pada Nuplan's Val14 dan Test-Hard Benchmarks yang ditunjukkan dalam Jadual 1, artikel ini akan mencadangkan Planagent dibandingkan dengan tiga kategori algoritma canggih dan ujian pada dua penanda aras nuPlan, val14 dan uji keras. PlanAgent menunjukkan keputusan yang kompetitif dan boleh digeneralisasikan berbanding dengan kaedah lain.

Keputusan yang kompetitif: Pada penanda aras senario biasa val14, PlanAgent mengatasi prestasi berasaskan peraturan, berasaskan pembelajaran dan kaedah berasaskan model bahasa besar yang lain, mencapai yang terbaik dalam kedua-dua skor NR-CLS dan R-CLS.

Keputusan yang boleh digeneralisasikan: Sama ada kaedah berasaskan peraturan yang diwakili oleh PDM-Closed[1] mahupun kaedah berasaskan pembelajaran yang diwakili oleh planTF[2] tidak boleh berprestasi baik pada val14 dan ujian keras pada masa yang sama. Berbanding dengan dua jenis kaedah ini, PlanAgent boleh mengatasi senario ekor panjang sambil memastikan prestasi dalam senario biasa.

Jadual 2 Perbandingan token yang digunakan oleh kaedah yang berbeza untuk menerangkan senario

Pada masa yang sama, PlanAgent menggunakan lebih sedikit kaedah berasaskan Jadual 2, seperti yang ditunjukkan dalam model yang lain mungkin hanya memerlukan GPT 1/3 daripada -Driver[5] atau LLM-ASSIST[6]. Ini menunjukkan bahawa PlanAgent boleh menerangkan adegan dengan lebih berkesan dengan token yang lebih sedikit. Ini amat penting untuk penggunaan model bahasa besar sumber tertutup.
- 3.2 Eksperimen Ablasi
- Jadual 3 Eksperimen Ablasi bahagian berbeza dalam modul pengekstrakan adegan
Jadual 4 Eksperimen ablasi bahagian yang berbeza dalam rantaian pemikiran hierarki

Seperti yang ditunjukkan dalam Jadual 3 dan Jadual 4, kertas kerja ini menjalankan eksperimen ablasi pada bahagian berlainan modul pengekstrakan maklumat adegan, dan modul penaakulan. dan eksperimen membuktikan Keberkesanan dan keperluan modul individu. Pemahaman MLLM tentang adegan boleh dipertingkatkan melalui imej BEV dan perwakilan graf, dan keupayaan penaakulan MLLM untuk adegan itu boleh dipertingkatkan melalui rantaian pemikiran hierarki.

Jadual 5 Eksperimen PlanAgent pada model bahasa yang berbeza

Pada masa yang sama, seperti yang ditunjukkan dalam Jadual 5, artikel ini menggunakan beberapa model bahasa besar sumber terbuka untuk ujian. Keputusan eksperimen menunjukkan bahawa pada penanda aras Test-hard NR-CLS, PlanAgent menggunakan model bahasa besar yang berbeza masing-masing boleh mencapai 4.1%, 5.1% dan 6.7% markah pemanduan lebih tinggi daripada PDM-Closed. Ini menunjukkan keserasian PlanAgent dengan pelbagai model bahasa besar berbilang modal.

3.3 Analisis visual

tempat kejadian trafik bulatan

PDM memilih lorong luar sebagai garis tengah, dan kenderaan memandu di lorong luar dan tersangkut apabila kenderaan bercantum. PlanAgent menentukan bahawa kenderaan sedang bergabung, mengeluarkan arahan perubahan lorong kiri yang munasabah, dan menjana tindakan sisi untuk memilih lorong dalam bulatan sebagai garis tengah, dan kenderaan itu memandu di lorong dalam.

Adegan parkir garisan perhentian persimpangan

PDM memilih kategori lampu isyarat sebagai kategori berikut kereta. PlanAgent mengeluarkan arahan yang munasabah dan memilih garisan berhenti sebagai kategori mengikut kereta.

4 Kesimpulan

Kertas kerja ini mencadangkan rangka kerja perancangan gelung tertutup berasaskan MLLM baharu untuk pemanduan autonomi, dipanggil PlanAgent. Kaedah ini memperkenalkan modul pengekstrakan maklumat tempat kejadian untuk mengekstrak imej BEV dan mengekstrak maklumat gerakan kenderaan di sekeliling berdasarkan perwakilan graf jalan. Pada masa yang sama, modul penaakulan dengan struktur hierarki dicadangkan untuk membimbing MLLM memahami maklumat adegan, menjana arahan gerakan dan akhirnya menjana kod perancang. Selain itu, PlanAgent juga meniru pembuatan keputusan manusia untuk refleksi, dan merancang semula apabila skor trajektori lebih rendah daripada ambang untuk meningkatkan keselamatan membuat keputusan. Ejen perancangan gelung tertutup pemacu autonomi PlanAgent berdasarkan model besar berbilang modal telah mencapai prestasi SOTA dalam perancangan gelung tertutup pada penanda aras nuPlan.

Atas ialah kandungan terperinci Ke arah 'Gelung Tertutup' |. PlanAgent: SOTA baharu untuk perancangan gelung tertutup pemanduan autonomi berdasarkan MLLM!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

for Token Reflection 算法 https 自动化 idm gpt prompt

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Bina semula LLaVA secara modular Untuk menggantikan komponen, cuma tambah 1-2 fail Kilang TinyLLaVA sumber terbuka ada di sini.Artikel seterusnya：Bina semula LLaVA secara modular Untuk menggantikan komponen, cuma tambah 1-2 fail Kilang TinyLLaVA sumber terbuka ada di sini.

Artikel berkaitan

Lihat lagi

Ke arah 'Gelung Tertutup' |. PlanAgent: SOTA baharu untuk perancangan gelung tertutup pemanduan autonomi berdasarkan MLLM!

2 Kaedah

Modul penaakulan: Untuk mencapai pemahaman adegan dan penaakulan akal, modul penaakulan direka, yang menggunakan model bahasa besar berbilang mod MLLM untuk menjana kod perancang yang munasabah dan selamat.

2.2 Modul penaakulan

Kertas kerja ini menjalankan eksperimen perancangan gelung tertutup pada nuPlan [4], platform perancangan gelung tertutup untuk senario sebenar berskala besar, untuk menilai prestasi PlanAgent seperti berikut.

3.3 Analisis visual

tempat kejadian trafik bulatan

4 Kesimpulan

Artikel berkaitan