Rumah >Peranti teknologi >AI >OmniDrive: Rangka kerja untuk menjajarkan model besar dengan tugas pemanduan 3D

OmniDrive: Rangka kerja untuk menjajarkan model besar dengan tugas pemanduan 3D

PHPz
PHPzke hadapan
2024-05-06 15:16:351115semak imbas

Mulakan dengan seni bina MLLM 3D novel yang menggunakan pertanyaan yang jarang untuk mengangkat dan memampatkan perwakilan visual ke dalam 3D, yang kemudiannya dimasukkan ke dalam LLM.

Tajuk: OmniDrive: Rangka Kerja Agen LLM Holistik untuk Pemanduan Autonomi dengan Penaakulan dan Perancangan Persepsi 3D

Gabungan pengarang: Institut Teknologi Beijing, NVIDIA, Universiti Sains dan Teknologi Huazhong

Alamat sumber terbuka: GitNVrilabs/OmNVrilabsHub -

Multimodaliti Perkembangan model bahasa besar (MLLM) telah menyebabkan minat yang semakin meningkat dalam pemanduan autonomi berasaskan LLM, memanfaatkan keupayaan inferens yang berkuasa. Memanfaatkan keupayaan penaakulan yang berkuasa MLLM untuk meningkatkan tingkah laku perancangan adalah mencabar kerana ia memerlukan kesedaran situasi 3D penuh melangkaui penaakulan 2D. Untuk menangani cabaran ini, kerja ini mencadangkan OmniDrive, rangka kerja komprehensif untuk penjajaran teguh antara model ejen dan tugas pemanduan 3D. Rangka kerja bermula dengan seni bina 3D+MLLM novel yang menggunakan pertanyaan jarang untuk mengangkat dan memampatkan perwakilan pemerhatian ke dalam 3D, yang kemudiannya dimasukkan ke dalam LLM. Perwakilan berasaskan pertanyaan ini membolehkan kami mengekod secara bersama objek dinamik dan elemen peta statik (mis., jalan lalu lintas), menyediakan model dunia yang ringkas untuk penjajaran persepsi-tindakan dalam 3D. Kami selanjutnya mencadangkan penanda aras baharu yang merangkumi tugas menjawab soalan visual komprehensif (VQA) termasuk penerangan pemandangan, peraturan lalu lintas, pembumian 3D, penaakulan berlawanan fakta, membuat keputusan dan perancangan. Penyelidikan meluas menunjukkan keupayaan penaakulan dan perancangan unggul OmniDrive dalam adegan 3D yang kompleks. struktur rangkaian

Atas ialah kandungan terperinci OmniDrive: Rangka kerja untuk menjajarkan model besar dengan tugas pemanduan 3D. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam