Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  OmniDrive: Ein Framework zur Ausrichtung großer Modelle auf 3D-Fahraufgaben

OmniDrive: Ein Framework zur Ausrichtung großer Modelle auf 3D-Fahraufgaben

PHPz
PHPznach vorne
2024-05-06 15:16:351046Durchsuche

Beginnen Sie mit einer neuartigen 3D-MLLM-Architektur, die spärliche Abfragen verwendet, um visuelle Darstellungen in 3D zu heben und zu komprimieren, die dann in das LLM eingespeist werden.

Titel: OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning

Autorenzugehörigkeit: Beijing Institute of Technology, NVIDIA, Huazhong University of Science and Technology

Open-Source-Adresse: GitHub – NVlabs/OmniDrive

Multimodalität Die Entwicklung großer Sprachmodelle (MLLMs) hat zu einem wachsenden Interesse am LLM-basierten autonomen Fahren geführt und nutzt deren leistungsstarke Inferenzfähigkeiten. Die Nutzung der leistungsstarken Argumentationsfähigkeiten von MLLMs zur Verbesserung des Planungsverhaltens ist eine Herausforderung, da sie über das 2D-Argument hinaus ein umfassendes 3D-Situationsbewusstsein erfordern. Um dieser Herausforderung zu begegnen, schlägt diese Arbeit OmniDrive vor, ein umfassendes Framework für eine robuste Ausrichtung zwischen Agentenmodellen und 3D-Fahraufgaben. Das Framework beginnt mit einer neuartigen 3D+MLLM-Architektur, die spärliche Abfragen verwendet, um Beobachtungsdarstellungen in 3D zu heben und zu komprimieren, die dann in das LLM eingespeist werden. Diese abfragebasierte Darstellung ermöglicht es uns, dynamische Objekte und statische Kartenelemente (z. B. Verkehrsstraßen) gemeinsam zu kodieren und so ein prägnantes Weltmodell für die Ausrichtung von Wahrnehmung und Aktion in 3D bereitzustellen. Wir schlagen außerdem einen neuen Benchmark vor, der umfassende Aufgaben zur visuellen Beantwortung von Fragen (VQA) umfasst, einschließlich Szenenbeschreibung, Verkehrsregeln, 3D-Erdung, kontrafaktisches Denken, Entscheidungsfindung und Planung. Umfangreiche Untersuchungen belegen die überlegenen Argumentations- und Planungsfähigkeiten von OmniDrive in komplexen 3D-Szenen.

Netzwerkstruktur

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

Experimentelle Ergebnisse

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

Das obige ist der detaillierte Inhalt vonOmniDrive: Ein Framework zur Ausrichtung großer Modelle auf 3D-Fahraufgaben. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen