検索
ホームページテクノロジー周辺機器AI未来への旅、初の多視点予測+計画自動運転世界モデルが登場

最近、ワールドモデルのコンセプトが熱狂を引き起こしていますが、自動運転の分野では、どうやって遠くから「火」を眺めることができますか。中国科学院自動化研究所のチームは、エンドツーエンドの自動運転計画の安全性を強化することを目的として、Drive-WMと呼ばれる新しいマルチビュー世界モデルを初めて提案した。

未来への旅、初の多視点予測+計画自動運転世界モデルが登場

ウェブサイト: https://drive-wm.github.io

論文の URL: https://drive-wm.github.io ://arxiv.org/abs/2311.17918

初のマルチビュー予測および計画自動運転世界モデル

CVPR2023 自動運転セミナーではテスラとウェイブの二大テクノロジー大手がブラックテクノロジーを披露し、自動運転の分野では「生成世界モデル」と呼ばれる新しい概念が普及した。 Wayve は GAIA-1 生成 AI モデルもリリースし、その驚くべきビデオ シーン生成機能を実証しました。最近、中国科学院自動化研究所の研究者らも、新しい自動運転世界モデル - Drive-WM を提案しました。これは、マルチビュー予測世界モデルを初めて実現し、現在の主流エンドとシームレスに統合されています。までの自動運転プランナーです。

Drive-WM は、拡散モデルの強力な生成機能を活用して、リアルなビデオ シーンを生成します。

あなたが運転していて、車載システムがあなたの運転習慣や道路状況に基づいて将来の展開を予測し、対応する視覚的なフィードバックを生成して軌道ルートの選択をガイドしていると想像してください。この未来を予見する能力とプランナーを組み合わせることで、自動運転の安全性が大幅に向上します。

未来への旅、初の多視点予測+計画自動運転世界モデルが登場

#多視点の世界モデルに基づいた予測と計画。

未来への旅、初の多視点予測+計画自動運転世界モデルが登場


未来への旅、初の多視点予測+計画自動運転世界モデルが登場


未来への旅、初の多視点予測+計画自動運転世界モデルが登場

世界モデルとエンドツーエンドの自動運転の組み合わせにより、運転の安全性が向上

Drive-WM モデルは、世界モデルとエンドツーエンドの計画を初めて組み合わせ、エンドツーエンドの自動運転開発の新たな章を開きます。各タイム ステップで、プランナーはワールド モデルを使用して考えられる将来のシナリオを予測し、画像報酬関数を使用してそれらを完全に評価できます。

未来への旅、初の多視点予測+計画自動運転世界モデルが登場

世界モデルに基づくエンドツーエンドの軌道計画ツリーは書き換え可能です

最適な見積り方法と拡張計画ツリー技術を採用することで、より効果的かつ安全な計画を実現できます

未来への旅、初の多視点予測+計画自動運転世界モデルが登場

未来への旅、初の多視点予測+計画自動運転世界モデルが登場

未来への旅、初の多視点予測+計画自動運転世界モデルが登場

未来への旅、初の多視点予測+計画自動運転世界モデルが登場


未来への旅、初の多視点予測+計画自動運転世界モデルが登場

Drive-WM は、革新的な研究を通じてエンドツーエンドの計画におけるワールド モデルの 2 つのアプリケーションを調査します

1. OOD に直面した場合のワールド モデルの使用を実証します。シーンの堅牢性。比較実験を通じて、著者は、OOD 状況に直面した場合、現在のエンドツーエンド プランナーのパフォーマンスが理想的ではないことを発見しました。

著者は次の図を示していますが、わずかな横方向のオフセットが初期位置に乱れると、現在のエンドツーエンドの計画作成者は合理的な計画ルートを出力することが困難になります。

未来への旅、初の多視点予測+計画自動運転世界モデルが登場

エンドツーエンドの計画担当者は、OOD 状況に直面した場合、合理的な計画ルートを出力することが困難になります。

Drive-WM の強力な生成機能は、OOD 問題を解決するための新しいアイデアを提供します。著者は、生成されたビデオを使用してプランナーを微調整し、OOD データから学習し、そのようなシナリオに直面したときにプランナーのパフォーマンスを向上させることができます。エンドツーエンドの計画における将来のシナリオ評価の役割の強化

マルチビュー ビデオ生成モデルの構築方法未来への旅、初の多視点予測+計画自動運転世界モデルが登場

マルチビュー ビデオ生成の時空間的一貫性は、常に困難な問題です。 Drive-WM は、テンポラル レイヤー コーディングを導入することでビデオ生成の機能を拡張し、ビュー分解モデリングを通じてマルチビュー ビデオの生成を実現します。このビュー分解の生成方法により、ビュー間の一貫性が大幅に向上します

#Drive-WM の全体的なモデル設計

未来への旅、初の多視点予測+計画自動運転世界モデルが登場

高品質な動画生成と制御性

Drive-WM は、優れた制御性を備えた高品質な多視点動画生成を実現します。テキスト、シーン レイアウト、モーション情報を通じてマルチビュー ビデオの生成を制御するためのさまざまな制御オプションが提供され、将来のニューラル シミュレーターに新たな可能性も提供されます

たとえば、テキストを使用して天気や照明を変更します:

未来への旅、初の多視点予測+計画自動運転世界モデルが登場

未来への旅、初の多視点予測+計画自動運転世界モデルが登場

未来への旅、初の多視点予測+計画自動運転世界モデルが登場


未来への旅、初の多視点予測+計画自動運転世界モデルが登場##例: 歩行者の生成と前景の編集:

未来への旅、初の多視点予測+計画自動運転世界モデルが登場

未来への旅、初の多視点予測+計画自動運転世界モデルが登場#速度と方向の制御方法を使用する:

未来への旅、初の多視点予測+計画自動運転世界モデルが登場

方向転換などのまれなイベントを生成する交差点を曲がったり、脇の草むらに突っ込んだりした場合

##

未来への旅、初の多視点予測+計画自動運転世界モデルが登場

結論

Drive-WM は、強力なマルチビュー ビデオ生成機能を実証しただけでなく、世界モデルと端末 エンドツーエンドの駆動モデルを組み合わせるには大きな可能性があります。将来的には、世界のモデルがより安全、より安定、より信頼性の高いエンドツーエンドの自動運転システムの実現に役立つと私たちは信じています。

以上が未来への旅、初の多視点予測+計画自動運転世界モデルが登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
迅速なエンジニアリングにおける思考のグラフは何ですか迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますGenaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

PIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaPIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析Vidhya生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

金融セクターにおける生成AIの応用金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドオンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター