Rumah >Peranti teknologi >AI >Berusaha sedaya upaya untuk menutup gelung! DriveMLM: Gabungkan LLM dengan sempurna dengan perancangan tingkah laku pemanduan autonomi!
Model bahasa berskala besar telah membuka landskap baharu untuk pemanduan pintar, memberikan mereka pemikiran seperti manusia dan kebolehan kognitif. Artikel ini melihat secara mendalam tentang potensi model bahasa besar (LLM) dalam pemanduan autonomi (AD). Kemudian DriveMLM dicadangkan, iaitu rangka kerja AD berdasarkan LLM yang boleh merealisasikan pemanduan autonomi gelung tertutup dalam persekitaran simulasi. Secara khusus, terdapat perkara berikut:
Akhirnya kami menjalankan percubaan yang meluas pada DriveMLM, dan keputusan menunjukkan bahawa DriveMLM mencapai skor pemanduan 76.1 pada CARLA Town05 Long dan melebihi garis dasar Apollo sebanyak 4.7 mata di bawah tetapan yang sama, membuktikan keberkesanan DriveMLM. Kami berharap kerja ini boleh menjadi asas untuk pemanduan autonomi LLM.
Dalam beberapa tahun kebelakangan ini, pemanduan autonomi (AD) telah mencapai kemajuan yang ketara, seperti yang ditunjukkan dalam Rajah 1b daripada sistem berasaskan peraturan tradisional kepada sistem hujung ke hujung dipacu data . Sistem peraturan tradisional bergantung pada set peraturan yang telah ditetapkan yang disediakan oleh pengetahuan priori (lihat Rajah 1a). Walaupun kemajuan sistem ini, mereka masih menghadapi batasan kerana batasan dalam pengetahuan pakar atau kepelbagaian data latihan. Ini menyukarkan mereka untuk mengendalikan situasi selekoh, walaupun pemandu manusia mungkin mendapati pengendalian situasi ini intuitif. Berbanding dengan perancang AD berasaskan peraturan atau dipacu data tradisional ini, model bahasa besar (LLM) yang dilatih menggunakan korpora teks skala web mempunyai pengetahuan dunia yang luas, penaakulan logik yang mantap dan keupayaan kognitif lanjutan. Keupayaan ini meletakkan mereka sebagai perancang yang berpotensi dalam sistem AD, menyediakan pendekatan seperti manusia untuk pemanduan autonomi.
Sesetengah penyelidikan baru-baru ini telah menyepadukan LLM ke dalam sistem AD, memfokuskan pada penjanaan keputusan berasaskan bahasa untuk senario pemanduan. Walau bagaimanapun, kaedah ini mempunyai had apabila melakukan pemanduan gelung tertutup dalam persekitaran dunia sebenar atau simulasi sebenar. Ini kerana output LLM adalah terutamanya bahasa dan konsep dan tidak boleh digunakan untuk kawalan kenderaan. Dalam sistem AD modular tradisional, jurang antara matlamat strategik peringkat tinggi dan tingkah laku kawalan peringkat rendah disambungkan melalui modul perancangan tingkah laku, dan keadaan membuat keputusan modul ini boleh ditukar dengan mudah menjadi isyarat kawalan kenderaan melalui perancangan gerakan seterusnya dan kawalan. Ini mendorong kami untuk menyelaraskan LLM dengan keadaan membuat keputusan modul perancangan tingkah laku dan seterusnya mereka bentuk sistem AD gelung tertutup berasaskan LLM dengan menggunakan LLM yang diselaraskan untuk perancangan tingkah laku, yang boleh berjalan pada persekitaran dunia sebenar atau persekitaran simulasi yang realistik.
Berdasarkan ini, kami mencadangkan DriveMLM, rangka kerja AD berasaskan LLM pertama yang boleh mencapai pemanduan autonomi gelung tertutup dalam persekitaran simulasi yang realistik. Untuk mencapai matlamat ini, kami mempunyai tiga reka bentuk utama: (1) Kami mengkaji keadaan membuat keputusan modul perancangan tingkah laku sistem Apollo dan mengubahnya menjadi bentuk yang boleh diproses dengan mudah oleh LLM. (2) Perancang LLM (MLLM) multimodal dibangunkan yang boleh menerima input multimodal semasa, termasuk imej berbilang paparan, awan titik lidar, peraturan lalu lintas, mesej sistem dan arahan pengguna, dan meramalkan keadaan Keputusan; data latihan yang mencukupi untuk penjajaran keadaan perancangan tingkah laku, kami mengumpulkan 280 jam pemacu data pada CARLA secara manual dan menukarnya kepada keadaan keputusan dan anotasi penjelasan yang sepadan melalui enjin data yang cekap. Melalui reka bentuk ini, kami boleh mendapatkan perancang MLLM yang boleh membuat keputusan berdasarkan senario pemanduan dan keperluan pengguna, dan keputusannya boleh ditukar dengan mudah kepada isyarat kawalan kenderaan untuk pemanduan gelung tertutup.
DriveMLM mempunyai kelebihan berikut: (1) Terima kasih kepada keadaan membuat keputusan yang konsisten, DriveMLM boleh disepadukan dengan mudah dengan sistem AD modular sedia ada (seperti Apollo) untuk mencapai pemanduan gelung tertutup tanpa sebarang perubahan atau pengubahsuaian besar. (2) Dengan mengambil arahan bahasa sebagai input, model kami boleh mengendalikan keperluan pengguna (cth., memotong kereta) dan mesej sistem peringkat tinggi (cth., mentakrifkan logik pemanduan asas). Ini menjadikan DriveMLM lebih fleksibel dan dapat menyesuaikan diri dengan situasi dan selekoh pemanduan yang berbeza. (3) Ia boleh memberikan kebolehtafsiran dan menjelaskan keputusan yang berbeza. Ini meningkatkan ketelusan dan kebolehpercayaan model kami, kerana model ini boleh menerangkan tindakan dan pilihannya kepada pengguna.
Ringkasnya, sumbangan utama DriveMLM adalah seperti berikut:
Rangka kerja DriveMLM menyepadukan pengetahuan dunia dan keupayaan penaakulan model bahasa besar (LLM) ke dalam sistem pemanduan autonomi (AD) untuk mencapai pemanduan gelung tertutup dalam persekitaran simulasi yang realistik. Seperti yang ditunjukkan dalam Rajah 3, rangka kerja ini mempunyai tiga reka bentuk utama: (1) Penjajaran keadaan perancangan tingkah laku. Bahagian ini menjajarkan output keputusan bahasa LLM dengan modul perancangan tingkah laku sistem AD modular matang seperti Apollo. Dengan cara ini, output LLM boleh ditukar dengan mudah menjadi isyarat kawalan kenderaan. (2) Perancang MLLM. Ia adalah gabungan penanda multimodal dan penyahkod LLM (MLLM) multimodal. Penanda multimodal menukar input yang berbeza (seperti imej berbilang paparan, lidar, peraturan lalu lintas dan keperluan pengguna) kepada teg bersatu dan penyahkod MLLM membuat keputusan berdasarkan teg bersatu. (3) Strategi pengumpulan data yang cekap. Ia memperkenalkan kaedah pengumpulan data yang disesuaikan untuk pemanduan autonomi berasaskan LLM, memastikan set data yang komprehensif termasuk status keputusan, tafsiran keputusan dan arahan pengguna.
Semasa proses inferens, rangka kerja DriveMLM menggunakan data berbilang modal untuk membuat keputusan memandu. Data ini termasuk: imej sekeliling dan awan titik. Mesej sistem ialah koleksi definisi tugas, peraturan lalu lintas dan definisi status keputusan. Token ini adalah input kepada penyahkod MLLM, yang menjana token keadaan keputusan bersama dengan penjelasan yang sepadan. Akhir sekali, keadaan keputusan adalah input kepada modul perancangan dan kawalan gerakan. Modul ini mengira trajektori akhir kawalan kenderaan.
Menterjemah pilihan bahasa Model Bahasa Besar (LLM) kepada isyarat kawalan yang boleh diambil tindakan adalah penting untuk kawalan kenderaan. Untuk mencapai matlamat ini, kami menyelaraskan output LLM dengan fasa keputusan modul perancangan tingkah laku dalam sistem Apollo yang popular. Berdasarkan pendekatan biasa, kami membahagikan proses membuat keputusan kepada dua kategori: membuat keputusan pantas dan membuat keputusan laluan. Secara khususnya, status keputusan kelajuan termasuk (mengekalkan, memecut, menyahpecut, berhenti) dan status keputusan laluan termasuk (IKUTI, TUKAR KIRI, TUKAR KANAN, PINJAM KIRI, PINJAMAN KANAN).
Untuk membolehkan model bahasa membuat ramalan yang tepat antara keadaan ini, kami mewujudkan hubungan komprehensif antara penerangan bahasa dan keadaan keputusan, seperti yang ditunjukkan dalam maklumat sistem dalam Jadual 1. Kaitan ini digunakan sebagai sebahagian daripada mesej sistem dan disepadukan ke dalam perancang MLLM. Oleh itu, sebaik sahaja LLM menerangkan situasi tertentu, ramalan akan menumpu kepada keputusan yang jelas dalam ruang keputusan. Setiap kali, keputusan kelajuan dan keputusan laluan disimpulkan antara satu sama lain dan dihantar ke rangka kerja perancangan gerakan. Takrifan keadaan keputusan yang lebih terperinci boleh didapati dalam bahan tambahan.
Perancang MLLM DriveMLM terdiri daripada dua komponen: tokenizer multimodal dan penyahkod MLLM. Kedua-dua modul bekerja rapat, memproses pelbagai input untuk menentukan keputusan memandu dengan tepat dan memberikan penjelasan untuk keputusan tersebut.
Tokenizer berbilang modal. Tokenizer ini direka bentuk untuk mengendalikan pelbagai bentuk input dengan cekap: Untuk imej lihat sekeliling temporal: Gunakan QFormer temporal untuk memproses imej lihat sekeliling daripada cap masa −T hingga 0 (cap masa semasa). Untuk data lidar, kami terlebih dahulu memasukkan awan titik sebagai input kepada tulang belakang Sparse Pyramid Transformer (SPT) untuk mengekstrak ciri lidar. Untuk mesej sistem dan arahan pengguna, kami hanya menganggapnya sebagai data teks biasa dan menggunakan lapisan pembenaman token LLM untuk mengekstrak benamnya.
Dekoder MLLM. Penyahkod ialah teras untuk menukar input token kepada keadaan keputusan dan tafsiran keputusan. Untuk tujuan ini, kami mereka bentuk templat mesej sistem untuk AD berasaskan LLM, seperti yang ditunjukkan dalam Jadual 1. Seperti yang dapat dilihat, mesej sistem mengandungi penerangan tentang tugas AD, peraturan lalu lintas, definisi keadaan keputusan dan ruang letak yang menunjukkan di mana setiap maklumat modal digabungkan. Pendekatan ini memastikan integrasi input yang lancar daripada pelbagai modaliti dan sumber.
Output diformatkan untuk memberikan status keputusan (lihat S2 dalam Jadual 1) dan penjelasan keputusan (lihat S3 dalam Jadual 1), dengan itu memberikan ketelusan dan kejelasan dalam proses membuat keputusan. Berkenaan kaedah diselia, rangka kerja kami mengikut amalan biasa menggunakan kehilangan entropi silang dalam ramalan token seterusnya. Dengan cara ini, perancang MLLM boleh membangunkan pemahaman dan pemprosesan data yang terperinci daripada penderia dan sumber yang berbeza serta menterjemahkannya ke dalam keputusan dan tafsiran yang sesuai.
Kami mencadangkan paradigma penjanaan data yang boleh mencipta keadaan keputusan dan anotasi penjelasan daripada pelbagai senario dalam simulator CARLA. Saluran paip ini boleh menangani batasan data pemanduan sedia ada, yang kekurangan keadaan keputusan dan penjelasan terperinci untuk melatih sistem AD berasaskan LLM. Saluran paip kami terdiri daripada dua komponen utama: pengumpulan data dan anotasi data.
Pengumpulan data direka untuk meningkatkan kepelbagaian dalam membuat keputusan sambil kekal realistik. Pertama, pelbagai senario mencabar dibina dalam persekitaran simulasi. Pemanduan selamat memerlukan tingkah laku pemanduan yang kompleks. Pakar, sama ada pemandu atau ejen manusia yang berpengalaman, kemudian diminta untuk memandu dengan selamat melalui senario ini, yang dicetuskan di salah satu daripada banyak lokasinya yang boleh diakses. Terutama, data interaksi dijana apabila pakar secara rawak mencadangkan permintaan pemanduan dan memandu dengan sewajarnya. Setelah pakar memandu dengan selamat ke destinasi, data direkodkan.
Anotasi data tertumpu terutamanya pada pembuatan keputusan dan tafsiran. Pertama, keadaan keputusan kelajuan dan laluan dianotasi secara automatik berdasarkan trajektori pemanduan pakar dengan menggunakan peraturan buatan tangan. Kedua, anotasi penjelasan pertama kali dijana berdasarkan tempat kejadian, ditakrifkan secara dinamik oleh elemen semasa berdekatan. Ketiga, anotasi penjelasan yang dijana diperhalusi oleh anotasi manual dan kepelbagaiannya dikembangkan oleh GPT-3.5. Selain itu, kandungan interaksi juga diperhalusi oleh anotasi manusia, termasuk pelaksanaan atau penolakan permintaan manusia. Dengan cara ini, kami mengelakkan anotasi keadaan keputusan bingkai demi bingkai yang mahal, serta penulisan anotasi penjelasan manual yang mahal dari awal, sangat mempercepatkan proses anotasi data kami.
Kami mengumpul 280 jam data pemanduan untuk latihan. Data termasuk 50 kilometer laluan dan 30 senario pemanduan dengan cuaca dan keadaan pencahayaan berbeza yang dikumpulkan pada 8 peta CARLA (Town01, Town02, Town03, Town04, Town06, Town07, Town10HD, Town12). Secara purata, setiap adegan mempunyai kira-kira 200 titik pencetus pada setiap peta yang dicetuskan secara rawak. Setiap situasi adalah situasi kritikal keselamatan biasa atau jarang berlaku dalam pemanduan. Butiran senario ini disediakan dalam Nota Tambahan. Untuk setiap bingkai, kami mengumpul imej daripada empat kamera, depan, belakang, kiri dan kanan, serta awan titik daripada penderia lidar yang ditambahkan di tengah kenderaan ego. Semua data yang kami kumpulkan mempunyai tafsiran yang sepadan dan keputusan tepat yang berjaya memacu senario ke hadapan.
Jadual 2 menunjukkan perbandingan dengan set data sebelumnya yang direka untuk memacu pemahaman menggunakan bahasa semula jadi. Data kami mempunyai dua ciri unik. Yang pertama ialah ketekalan keadaan perancangan tingkah laku. Ini membolehkan kami menukar output perancang MLLM kepada isyarat kawalan supaya rangka kerja kami boleh mengawal kenderaan dalam pemanduan gelung tertutup. Yang kedua ialah anotasi interaksi interpersonal. Ia dicirikan oleh arahan bahasa semula jadi yang diberikan oleh manusia dan keputusan serta tafsiran yang sepadan. Matlamatnya adalah untuk meningkatkan keupayaan memahami perintah manusia dan bertindak balas dengan sewajarnya.
Kami menilai pemanduan gelung tertutup di CARLA, penanda aras simulasi yang paling banyak digunakan dan realistik tersedia secara terbuka. Kaedah terkini yang mampu melakukan pemanduan gelung tertutup di CARLA disertakan untuk perbandingan prestasi. Apollo sumber terbuka juga dinilai dalam CARLA sebagai garis dasar. Selain daripada pendekatan kami, tiada pendekatan berasaskan LLM lain telah menunjukkan kesediaan untuk penggunaan dan penilaian. Semua kaedah dinilai pada penanda aras jangka panjang Town05.
Jadual 4 menyenaraikan markah pemanduan, penyiapan laluan dan markah pelanggaran. Ambil perhatian bahawa walaupun Apollo ialah pendekatan berasaskan peraturan, prestasinya hampir setanding dengan pendekatan hujung ke hujung terkini. DriveMLM dengan ketara mengatasi semua kaedah lain dalam markah pemanduan. Ini menunjukkan bahawa DriveMLM lebih sesuai untuk mengendalikan peralihan keadaan untuk melalui cakera keras dengan selamat. Lajur terakhir dalam Jadual 4 menunjukkan keputusan penilaian MPI. Metrik ini menunjukkan prestasi pemanduan yang lebih komprehensif kerana ejen dikehendaki melengkapkan semua laluan. Dalam erti kata lain, semua situasi di semua laluan akan dihadapi oleh ejen yang diuji. Thinktwice melaksanakan DS yang lebih baik daripada Interfuser, tetapi mempunyai MPI yang lebih rendah kerana kerap melintasi garisan hentian. Walau bagaimanapun, penalti CARLA untuk tingkah laku ini adalah minimum. Sebaliknya, MPI menganggap setiap pelanggaran lalu lintas sebagai pengambilalihan. DriveMLM juga mencapai MPI tertinggi antara semua kaedah lain, menunjukkan bahawa ia dapat mengelakkan lebih banyak situasi, menghasilkan pengalaman pemanduan yang lebih selamat.
Kami menggunakan penilaian gelung terbuka untuk menilai pengetahuan memandu, termasuk ramalan keputusan dan tugas ramalan penjelasan. Jadual 3 menunjukkan ketepatan pasangan keputusan yang diramalkan, skor F1 untuk setiap jenis keputusan yang diramalkan oleh keputusan, dan BLEU-4, CIDEr dan METEOR yang dijelaskan oleh ramalan. Untuk Apollo, adegan yang dikumpul secara manual di Town05 akan dimainkan semula sebagai input kepada model dalam Jadual 3. Keadaan model dan output yang sepadan pada setiap cap masa main semula disimpan sebagai ramalan untuk pengiraan metrik. Untuk kaedah lain, kami memberi mereka imej yang sepadan sebagai input dan gesaan yang sesuai. Dengan membandingkan ramalan model dengan kebenaran tanah yang kami kumpulkan secara manual, ketepatan mendedahkan ketepatan keputusan dan persamaan dengan tingkah laku manusia, dan skor F1 menunjukkan keupayaan membuat keputusan untuk setiap laluan dan keputusan kelajuan. DriveMLM mencapai ketepatan tertinggi secara keseluruhan, mengatasi LLaVA dengan ketepatan 40.97%. Berbanding dengan garis dasar Apollo, DriveMLM mencapai skor F1 yang lebih tinggi, menunjukkan bahawa ia mengatasi prestasi mesin keadaan berasaskan peraturan dengan lebih berkesan dalam menyelesaikan pelbagai situasi jalan raya. LLaVA, InstructionBLIP dan DriveMLM kami yang dicadangkan boleh mengeluarkan penjelasan keputusan dalam bentuk soalan dan jawapan. Dari segi BLEU-4, CIDEr dan METEOR, DriveMLM boleh mencapai prestasi tertinggi, menunjukkan bahawa DriveMLM boleh memberikan penjelasan yang paling munasabah untuk keputusan.
Modaliti penderia: Jadual 5 menunjukkan keputusan kesan berbeza modaliti penderia input pada DriveMLM. Imej berbilang paparan (MV) membawa peningkatan prestasi yang ketara dalam kedua-dua laluan dan skor kelajuan F1, dengan peningkatan ketepatan sebanyak 18.19%. Berbanding dengan token temporal yang menyambung secara langsung, Temporal QFormer mencapai peningkatan sebanyak 7.4% sambil memastikan keupayaan membuat keputusan berbilang modal, menghasilkan purata peningkatan skor F1 sebanyak 0.05 untuk keputusan kelajuan. Awan titik tidak menunjukkan keupayaan untuk meningkatkan prestasi.
Interaksi Manusia-Komputer: Rajah 4 memberikan contoh bagaimana kawalan kenderaan boleh dicapai melalui arahan manusia. Proses kawalan termasuk menganalisis keadaan jalan raya, membuat pilihan keputusan dan menyediakan pernyataan penjelasan. Apabila diberi arahan "memintas" yang sama, DriveMLM menunjukkan respons yang berbeza berdasarkan analisisnya terhadap situasi trafik semasa. Dalam situasi di mana lorong kanan diduduki dan lorong kiri tersedia, sistem memilih untuk memotong dari kiri. Walau bagaimanapun, dalam situasi di mana arahan yang diberikan mungkin menimbulkan bahaya, seperti apabila semua lorong diduduki, DriveMLM akan memilih untuk tidak melakukan manuver memotong dan bertindak balas dengan sewajarnya. Dalam kes ini, DriveMLM ialah antara muka untuk interaksi manusia-kenderaan, yang menilai kewajaran arahan berdasarkan dinamik trafik dan memastikan arahan tersebut mematuhi peraturan yang telah ditetapkan sebelum akhirnya memilih tindakan.
Prestasi dalam senario sebenar: Kami menggunakan DriveMLM pada set data nuScenes untuk menguji prestasi sifar tangkapan sistem pemanduan yang dibangunkan. Kami menganotasi 6019 bingkai pada set pengesahan dan mencapai prestasi sifar pukulan 0.395 untuk ketepatan keputusan. Rajah 5 menunjukkan keputusan dua senario pemanduan sebenar, menunjukkan kepelbagaian DriveMLM.
Dalam kerja ini, kami mencadangkan DriveMLM, rangka kerja baharu yang memanfaatkan model bahasa besar (LLM) untuk pemanduan autonomi (AD). DriveMLM boleh melaksanakan AD gelung tertutup dalam persekitaran simulasi realistik dengan memodelkan modul perancangan tingkah laku sistem AD modular menggunakan LLM multimodal (MLLM). DriveMLM juga boleh menjana penjelasan bahasa semula jadi untuk keputusan pemanduannya, yang boleh meningkatkan ketelusan dan kebolehpercayaan sistem AD. Kami telah menunjukkan bahawa DriveMLM mengatasi penanda aras Apollo pada penanda aras CARLA Town05 Long. Kami percaya bahawa kerja kami boleh memberi inspirasi kepada lebih banyak penyelidikan tentang penyepaduan LLM dan AD.
Pautan sumber terbuka: https://github.com/OpenGVLab/DriveMLM
Pautan asal: https://mp.weixin.qq.com/s/tQeHZopYpDA8
Atas ialah kandungan terperinci Berusaha sedaya upaya untuk menutup gelung! DriveMLM: Gabungkan LLM dengan sempurna dengan perancangan tingkah laku pemanduan autonomi!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!