ホームページ > 記事 > テクノロジー周辺機器 > OmniDrive: 大規模モデルを 3D 運転タスクと連携させるためのフレームワーク
まず、スパース クエリを使用して視覚表現を 3D にリフトおよび圧縮し、LLM に入力する新しい 3D MLLM アーキテクチャから始めます。
タイトル: OmniDrive: 3D 認識推論と計画による自動運転のための総合的な LLM エージェント フレームワーク
著者の所属: 北京工業大学、NVIDIA、華中科技大学
オープンソースのアドレス: GitHub - NVlabs/OmniDrive
マルチモーダル大規模言語モデル (MLLM) の開発により、その強力な推論機能を活用した LLM ベースの自動運転への関心が高まっています。 MLLM の強力な推論機能を活用して計画行動を改善することは、2D 推論を超えた完全な 3D 状況認識を必要とするため、困難です。この課題に対処するために、この研究では、エージェント モデルと 3D 運転タスクの間の堅牢な調整のための包括的なフレームワークである OmniDrive を提案しています。このフレームワークは、スパース クエリを使用して観測表現を 3D にリフトおよび圧縮し、LLM に入力する新しい 3D MLLM アーキテクチャから始まります。このクエリベースの表現により、動的オブジェクトと静的な地図要素 (交通道路など) を共同でエンコードできるようになり、3D での知覚と行動の整合のための簡潔な世界モデルが提供されます。さらに、シーンの説明、交通ルール、3D グラウンディング、反事実推論、意思決定、計画などの包括的な視覚的質問応答 (VQA) タスクを含む新しいベンチマークを提案します。広範な調査により、複雑な 3D シーンにおける OmniDrive の優れた推論および計画機能が実証されています。
以上がOmniDrive: 大規模モデルを 3D 運転タスクと連携させるためのフレームワークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。