OmniDrive: 一個關於大模型與3D駕駛任務對齊的框架-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

OmniDrive: 一個關於大模型與3D駕駛任務對齊的框架

PHPz

May 06, 2024 pm 03:16 PM

git3d自動駕駛

從一個新穎的3D MLLM架構開始，該架構使用稀疏查詢將視覺表示提升和壓縮到3D，然後將其輸入LLM。

主題：OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning

作者單位：北京理工大學，NVIDIA，華中科技大學

#開源地址：GitHub - NVlabs/OmniDrive

多模態大語言模型（MLLMs）的發展導致了對基於LLM的自動駕駛的興趣不斷增長，利用它們強大的推理能力。利用MLLMs強大的推理能力來改進規劃行為是具有挑戰性的，因為它們需要超越2D推理的完整3D情境意識。為了解決這個挑戰，本工作提出了OmniDrive，這是一個關於智能體模型與3D驅動任務之間強大對齊的全面框架。框架從一個新穎的3D MLLM架構開始，該架構使用稀疏查詢將觀察表達提升和壓縮到3D，然後將其輸入LLM。這種基於查詢的表達允許我們聯合編碼動態物件和靜態地圖元素（例如，交通道路），為3D中的感知-行動對齊提供了一個簡潔的世界模型。進一步提出了一個新的基準，其中包括全面的視覺問答（VQA）任務，包括情境描述、交通規則、3D基礎、反事實推理、決策和規劃。廣泛的研究表明，OmniDrive在複雜的3D情境中具有出色的推理和規劃能力。

網路結構

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

#實驗結果

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

##########

以上是OmniDrive: 一個關於大模型與3D駕駛任務對齊的框架的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

閱讀AI索引2025：AI是您的朋友，敵人還是副駕駛？Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它：認知（了解正在發生的事情）、欣賞（看到好處）、接納（面對挑戰）和責任（弄清我們的責任）。認知：人工智能無處不在，並且發展迅速我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進，在數學和復雜思維測試中取得了優異的成績，而就在一年前，它們還在這些測試中慘敗。想像一下，人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年