CVPR 2024 | 自動運転世界モデルの 4 次元時空事前トレーニング-AI-php.cn

ホームページ

テクノロジー周辺機器

CVPR 2024 | 自動運転世界モデルの 4 次元時空事前トレーニング

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 07, 2024 pm 07:01 PM

理論

北京大学とEVLOイノベーションチームは共同で、自動運転用の4次元時空事前トレーニングアルゴリズムであるDriveWorldを提案した。この方法では、事前トレーニングにワールドモデルを使用し、4 次元時空間モデリング用の記憶状態空間モデルを設計し、シーンの占有グリッドを予測することで自動運転が直面するランダムな不確実性と知識の不確実性を軽減します。この論文は CVPR 2024 に受理されました。

CVPR 2024 ｜自动驾驶世界模型四维时空预训练

論文のタイトル: DriveWorld: 自動運転のための世界モデルによる 4D 事前トレーニング済みシーンの理解

論文のリンク: https://www.php.cn/link/293643def1ba1161bcdcfbfe434ab76d

自動運転のシーン理解タスクには、シーンの認識や将来の変化の予測など、複数のレベルが含まれます。これらのレベルには、空間の 3 次元構造だけでなく、時間次元での動的な変化も含まれます。この複雑なシーンを理解するには、正確な意思決定を行うために、モデルが 4 次元の空間と時間の本質的な相関関係を捉えて理解できる必要があります。自然シーンの確率的性質、環境の局所的な観測可能性、およびさまざまな下流タスクの多様性により、4 次元の時空間表現を学習することは非常に困難です。事前トレーニングは、大量のデータから普遍的な表現を取得する上で重要な役割を果たし、普遍的な知識を備えた基本モデルの構築を可能にします。しかし、自動運転における 4 次元時空に関する事前トレーニング研究はまだ比較的少数です。

自動運転システムの設計と実装では、さまざまな不確実性に直面し、対処する必要があります。不確実性は、主に 2 つのカテゴリに分類されます: 偶然的な不確実性と認識的な不確実性。偶然の不確実性は、歩行者の突然の動きや車両の予期せぬ動作など、世界に固有のランダム性から発生します。認識論的不確実性は、オクルージョンやセンサーの限界による情報の欠如など、環境に関する不完全な知識から生じます。これらの不確実性に効果的に対処するために、自動運転システムは過去の経験を利用して起こり得る将来の状態を予測し、目に見えない領域について推論できなければなりません。この研究では、事前トレーニングされた 4 次元の時空間モデルを通じてこの課題に対処し、認識、予測、計画タスクにおける自動運転システムのパフォーマンスを向上させることを目的としています。

2. 方法

自動運転サラウンドカメラシステムによって観察された一連の T ビデオフレーム o1:T と、それらに対応する専門家の行動 a1:T および 3 次元占有グリッドラベル y1:T について、ここで、3 次元占有ラスターラベルは、3D LiDAR 点群と姿勢データを使用して取得できます。私たちは、過去のマルチビュー画像とアクションから現在および将来の 3D 占有グリッドを予測する世界モデルからコンパクトな BEV 表現を学習することを目指しています。

CVPR 2024 ｜自动驾驶世界模型四维时空预训练

2.1 時系列確率モデル

モデルに 4 次元の空間と時間をモデル化する機能を与えるために、最初に 2 つの潜在的な変数 (h1:T、s1:T) を導入します。ここで、ht はタイムステップ t、st におけるすべての履歴情報を含む履歴情報変数は、将来の状態を予測するモデルの鍵となるランダムな状態変数を表します。 ht は履歴情報 h1:t−1 とランダム状態 s1:t−1 を通じて更新されます。将来の状態を予測するために、リカレント状態空間モデル (RSSM) に従い、事後状態分布 q(st∣o≤t,a

BEV 特徴の次元が高いことを考慮して、それを 1 次元ベクトル xt に変換し、(ht,at−1,xt) からガウス分布をサンプリングして事後状態分布を生成します:
p(st ∣ht− 1,st−1)∽N(μθ(ht,a^t−1),σθ(ht,a^t−1)I),
ここで、 st は対角共分散を持つ正規分布としてパラメータ化され、初期分布は s1∽N(0,I) に設定されます。 (μϕ,σϕ) は、パラメーター化された事後状態分布を持つ多層パーセプトロンです。

観察された画像がない場合、モデルは履歴情報と予測されたアクションに基づいて以前の状態分布を導出します:
p(st∣ht−1,st−1)∽N(μθ(ht,a^t− 1) ,σθ(ht,a^t−1)I),
ここで、(μθ,σθ) は事前状態分布をパラメータ化します。 ?? は、履歴情報 ht-1 とランダム状態 st-1 に基づいて、アクション a^t-1 を予測するために使用されるポリシーネットワークです。

CVPR 2024 ｜自动驾驶世界模型四维时空预训练

2.1.1 動的メッセージング

自動運転のシーン理解では、将来の状態を正確に予測するために、物体の動きを考慮することが重要です。この動的情報を捕捉するために、動的情報の伝播中に運動知覚を実現するための運動パラメータを導入することによって物体の運動をモデル化することを提案します。モーション認識レイヤー正規化 (MLN) を導入します。動きの属性には、速度 v と相対時間間隔 Δt が含まれます。 (v,Δt) は平坦化され、2 つの線形層 (ξ1,ξ2) を介してアフィンベクトル γ と β に変換されます: γ=ξ1(v,Δt),β=ξ2(v,Δt)。次に、アフィン変換が実行されて、st=γ⋅LN(st)+β として表される、運動知覚の基礎となる確率的状態が取得されます。車両が移動すると、決定論的な履歴状態 ht によって動的メモリライブラリ h1:t が構築されます。ダイナミックメモリバンクを使用してクロスアテンションメカニズムの計算を実行することにより、決定論的な履歴状態 ht を取得できます。
決定論的な歴史的状態は ht+1=fθ(ht,st) です。

2.1.2 空間情報伝達

自動運転のシーン理解では、動的変化情報に加えて、空間構造情報も同様に重要です。連続したシーンフレームには通常、わずかな変更しか含まれておらず、シーンの主要なコンテンツは多くの場合、道路、樹木、交通標識などの静的なオブジェクトで構成されているため、この情報を処理するときに、入力画像を直接変換することができます。これにより、重要な空間構造情報が失われます。 1 ～ T フレームからフレーム o' をランダムに選択し、その BEV 特徴 b' を使用して、空間知覚構造を記述する潜在静的表現 b^=zθ(b') を構築します。空間を意識した静的表現 b^ と動的に変化する動き表現 st を組み合わせて、周囲のシーンの包括的な表現を取得します。

2.2 事前トレーニング補助タスク

自動運転には、周囲環境を包括的に理解することが不可欠です。私たちは、車両の周囲の環境を記述するために、物理世界を 3 次元の占有グリッド構造としてモデル化することを提案します。 3 次元占有グリッドデコーダは y^t=lθ(mθ(h~t,st),b^) に設定されます。ここで、mθ は 1 次元特徴を BEV 次元に拡張するネットワークであり、lθ は次のように使用されます。占有グリッド 3D 畳み込みネットワークを予測します。この 4 次元占有グリッドの事前トレーニングでは、シーンの静的な構造を捉えるだけでなく、時間の経過に伴うシーンの動的な変化も理解できるため、自動運転システムにとってより豊かで動的な環境の理解を実現できます。

2.3 タスクプロンプトメカニズム

4 次元の時空間表現はワールドモデルによって設計された事前トレーニングタスクを通じて学習できますが、異なる下流タスクは異なる情報に焦点を当てます。この問題を軽減するために、数ショットの画像認識のためのセマンティックキューと、マルチタスク学習における視覚的な例に基づいたキューにヒントを得て、さまざまなタスクに特定のキューを提供し、タスク関連の抽出をガイドする「タスクヒント」メカニズムが導入されました。特徴。異なるタスク間には意味的な相関関係があるため、大規模言語モデル gφ(⋅) (例: BERT、CLIP) を利用してこれらのタスクヒントを構築します。たとえば、3 次元占有グリッド再構成タスクのタスクプロンプトは、現在のシーンにより重点を置き、「タスクは現在のシーンの 3 次元占有グリッドを予測することです」に設定されています。プロンプト ptext を gφ(⋅) に入力して、プロンプトエンコーディング gφ(ptext) を取得します。次に、qφ(gφ(ptext)) で示される BEV の次元に拡張され、学習された時空間特徴と統合されます。

2.4 事前トレーニング目的関数

DriveWorld の事前トレーニング目標には、事後状態分布と事前状態分布の差 (つまり、カルバックライブラー (KL) 発散) を最小限に抑えること、および過去と過去の状態分布の間の差を最小限に抑えることが含まれます。将来の 3 次元占有グリッド (すなわち、クロスエントロピー損失 (CE)) およびアクション (すなわち、L1 損失) に関連する損失。このモデルを採用して、T タイムステップの入力を観察し、将来の 3 次元占有グリッドとアクションの L ステップを予測します。

3. 実験

3.1 実験設定

自動運転データセットについて nuScenes と OpenScenes で事前トレーニングし、nuScenes で微調整しました。マルチフレーム LiDAR 点群集約を使用して、高密度の 3D 占有グリッドラベルを取得します。

3.2 実験結果

結果の一部をここに示します。詳細な結果については、論文を参照してください。

CVPR 2024 ｜自动驾驶世界模型四维时空预训练

4. まとめ

DriveWorld は、ワールドモデルに基づく 4 次元時空の事前トレーニングを通じて、自動運転システムの周囲環境の理解と予測能力を向上させ、自動運転が直面する不確実性を軽減します。 DriveWorld は、時空間モデリングのためのメモリ状態空間モデルを提案しました。これには、タイミングを意識した表現を学習するための動的メモリストレージモジュールと、空間を意識した表現を学習するための静的シーン伝播モジュールが含まれています。モデルの適応性と柔軟性をさらに向上させるために、DriveWorld はタスクプロンプトメカニズムも導入しています。これにより、モデルは現在のタスク要件に応じてその表現を適応的に調整できるため、さまざまな自動運転タスクで最高のパフォーマンスを実現できます。

参考

[1]Chen Min、他、3D シーン再構築によるマルチカメラ統合事前トレーニング[J]、IEEE Robotics and Automation Letters、2024。

[2]Chen Min、他。 Occupancy-mae: マスクされた占有オートエンコーダを使用した自己教師付き事前トレーニング大規模 LIDAR 点群 [J]。IEEE Transactions on Intelligent Vehicles、2023 年。

EVOL イノベーションチームの紹介

Zhao Jian、中国電信人工インテリジェント研究所のマルチメディア認知学習研究所 (EVOL Lab) のインテリジェンスディレクターおよび若手科学者、ノースウェスタン工科大学オプトエレクトロニクスおよびインテリジェンス研究所の研究員および博士指導者。シンガポール国立大学を卒業し、博士号を取得しました。研究対象には、マルチメディア分析、ローカルセキュリティ、およびインテリジェントな実装が含まれます。

T-PAMI×2 (IF: 24.314) と IJCV×3 (IF: 13.369) を含む、合計 60 以上の CCF-A 論文が公開されています。最初の発明者は 5 つの国内発明特許を承認しました。関連する技術成果は、Baidu、Ant Financial、Qihoo 360 を含むテクノロジー業界の大手企業 6 社によって適用され、大きな利益をもたらしています。中国科学技術協会と北京科学技術協会の「若手人材育成プロジェクト」に選出され、国家自然青少年科学基金など6つのプロジェクトを主催した。 Wu Wenjun Artificial Intelligence Outstanding Youth Award (2023)、Wu Wenjun Artificial Intelligence Natural Science Award の最優秀賞 (2022 年 2 月 5 日)、シンガポールパターン認識機械知能協会 (PREMIA) Lee Hwee Kuan Award、およびACM Multimedia Paper Award の唯一の最優秀学生（最初の作品、1/208、CCF-A カンファレンス、2018 年）は、重要な国際科学技術イベントで 7 回優勝しました。

北京画像グラフィック協会の理事、国際的に有名なジャーナル「Artificial Intelligence Advances」および「IET Computer Vision」の編集委員、「Pattern Recognition Letters」および「Electronics」の特別号のゲスト編集者を務めました。」、VALSE シニアフィールドチェアマン、および ACM Multimedia 2021 スコアラー。フォーラム会長、CICAI 2022/2023 エリア会長、CCBR 2024 フォーラム会長、中国人工知能協会/中国画像グラフィックス協会の上級会員、「チャレンジ」の審査員「Cup」大学生科学技術作品コンテスト、中国人工知能コンテスト専門委員会委員など

GitHub ホームページ: https://zhaoj9014.github.io

大学ホームページ: https://www.php.cn/link/2e36742b377be90ffbf553692153d9a1

Jin Lei 、北京郵電大学特別准教授研究者、主な研究分野には、コンピュータビジョン、データマイニング、パターン認識が含まれ、人間の姿勢推定、人間の行動認識、人体分析、その他の分野に関する詳細な研究が行われており、関連する成果はハイレベルの会議や雑誌で発表されています。 CVPR、AAAI、NIPS、ACMMM として出版されており、合計 40 以上の SCI/EI インデックス付き論文があり、そのうち 11 件のハイレベル論文が含まれており、その中には中国学士院の JCR エリア 1 の筆頭著者として掲載された論文も含まれます。 of Sciences (IEEE Transactions on MultiMedia)、CCF-A カンファレンス CVPR、ACMMM 論文、中国科学院 JCR Area 2 (センサー)、IEEE Sensor Journal) 論文など。中国国家自然科学財団青年基金を主催し、2つの国家重点研究開発プロジェクトと4つの中国自然科学財団プロジェクトに参加した。私たちは、トップカンファレンスを利用して ICCV2021/CVPR2023 ワークショップ (Anti-UAV Workshop & Challenge) を何度も開催してきました。全国大学バイオインターネット技術および応用「3 つの革新」コンペティション (北京郵電大学が認定するカテゴリー A コンペティション) で学生が優勝するよう指導します。

Min Cheng、北京大学コンピューターサイエンス学部出身、中国科学院コンピューター技術研究所特別研究助手彼の主な研究方向には、自動運転、身体化された知能、および 3 つの分野が含まれます。次元再構成に関する研究結果は、CVPR、ICCV、ICRA、RAL などのハイレベルの会議や学術誌に掲載されており、CCF-A 会議の筆頭著者としての CVPR、トップのロボット工学会議 ICRA、権威あるロボット工学雑誌 RAL などが含まれます。。数多くの国家的重要研究開発プロジェクトに参加。

以上がCVPR 2024 | 自動運転世界モデルの 4 次元時空事前トレーニングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI（DEAI）を移行します。派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面していますエンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI：芸術とデザインの未来人工知能（AI）は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか：会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。エージェントAIの定義 huang d

大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか？この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ：アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32％増加しました。以前の世論調査では、調査した研究者の75％がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50％の削減の可能性があることを示しています。基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。