Rumah >Peranti teknologi >AI >OmniDrive: Rangka kerja untuk menjajarkan model besar dengan tugas pemanduan 3D
Mulakan dengan seni bina MLLM 3D novel yang menggunakan pertanyaan yang jarang untuk mengangkat dan memampatkan perwakilan visual ke dalam 3D, yang kemudiannya dimasukkan ke dalam LLM.
Tajuk: OmniDrive: Rangka Kerja Agen LLM Holistik untuk Pemanduan Autonomi dengan Penaakulan dan Perancangan Persepsi 3D
Gabungan pengarang: Institut Teknologi Beijing, NVIDIA, Universiti Sains dan Teknologi Huazhong
Alamat sumber terbuka: GitNVrilabs/OmNVrilabsHub -
Multimodaliti Perkembangan model bahasa besar (MLLM) telah menyebabkan minat yang semakin meningkat dalam pemanduan autonomi berasaskan LLM, memanfaatkan keupayaan inferens yang berkuasa. Memanfaatkan keupayaan penaakulan yang berkuasa MLLM untuk meningkatkan tingkah laku perancangan adalah mencabar kerana ia memerlukan kesedaran situasi 3D penuh melangkaui penaakulan 2D. Untuk menangani cabaran ini, kerja ini mencadangkan OmniDrive, rangka kerja komprehensif untuk penjajaran teguh antara model ejen dan tugas pemanduan 3D. Rangka kerja bermula dengan seni bina 3D+MLLM novel yang menggunakan pertanyaan jarang untuk mengangkat dan memampatkan perwakilan pemerhatian ke dalam 3D, yang kemudiannya dimasukkan ke dalam LLM. Perwakilan berasaskan pertanyaan ini membolehkan kami mengekod secara bersama objek dinamik dan elemen peta statik (mis., jalan lalu lintas), menyediakan model dunia yang ringkas untuk penjajaran persepsi-tindakan dalam 3D. Kami selanjutnya mencadangkan penanda aras baharu yang merangkumi tugas menjawab soalan visual komprehensif (VQA) termasuk penerangan pemandangan, peraturan lalu lintas, pembumian 3D, penaakulan berlawanan fakta, membuat keputusan dan perancangan. Penyelidikan meluas menunjukkan keupayaan penaakulan dan perancangan unggul OmniDrive dalam adegan 3D yang kompleks. struktur rangkaian
Atas ialah kandungan terperinci OmniDrive: Rangka kerja untuk menjajarkan model besar dengan tugas pemanduan 3D. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!