arXiv 論文「ViP3D: 3D Agent Queries によるエンドツーエンドの視覚軌跡予測」、22 年 8 月 2 日にアップロード、清華大学、上海 (八尾) 斉志研究所、CMU、復旦、李汽車、MIT など. 共同作業。
既存の自動運転パイプラインは、認識モジュールと予測モジュールを分離しています。 2 つのモジュールは、エージェント ボックスや軌跡などの手動で選択された機能をインターフェイスとして介して通信します。この分離により、予測モジュールは認識モジュールから部分的な情報のみを受け取ります。さらに悪いことに、認識モジュールからのエラーが伝播および蓄積し、予測結果に悪影響を与える可能性があります。
この研究では、元のビデオの豊富な情報を使用してシーン内のエージェントの将来の軌道を予測する視覚的な軌道予測パイプラインである ViP3D を提案します。 ViP3D はパイプライン全体でスパース エージェント クエリを使用するため、完全に微分可能で解釈可能になります。さらに、エンドツーエンドの視覚軌跡予測タスクに対して、知覚を総合的に考慮した新しい評価指標 End-to-end Prediction Accuracy (EPA、End-to-end Prediction Accuracy) が提案されています。同時に、予測された軌道と地上の真実の軌道がスコアリングされます。
この図は、従来のマルチステップ カスケード パイプラインと ViP3D の比較を示しています。従来のパイプラインには、検出、追跡、予測などの複数の微分不可能なモジュールが含まれており、ViP3D はマルチビュー ビデオを入力として受け取ります。エンドツーエンド方式で車両の方向指示器などの視覚情報を効果的に活用した予測軌道を生成します。
ViP3D は、元のビデオの軌跡予測の問題をエンドツーエンドで解決することを目的としています。具体的には、マルチビュー ビデオと高解像度マップが与えられると、ViP3D はシーン内のすべてのエージェントの将来の軌跡を予測します。
ViP3D の全体的なプロセスを図に示します。まず、クエリベースのトラッカーが周囲のカメラからのマルチビュー ビデオを処理して、視覚的特徴を持つ追跡対象エージェントのクエリを取得します。エージェント クエリの視覚的特徴は、エージェント間の関係だけでなく、エージェントの動きのダイナミクスと視覚的特徴もキャプチャします。その後、軌道予測器は追跡エージェントのクエリを入力として受け取り、それを HD マップの特徴に関連付け、最終的に予測された軌道を出力します。
# クエリベースのトラッカーは、周囲のカメラの生のビデオから視覚的特徴を抽出します。具体的には、フレームごとに、DETR3Dに従って画像の特徴が抽出されます。時間領域特徴集約の場合、クエリベースのトラッカーは MOTR (「Motr: End-to-end multiple-object tracking with transmer」。arXiv 2105.03247, 2021) に従って設計されており、次の 2 つの主要な手順が含まれます。クエリ機能の更新とクエリの監視。エージェントのクエリは、エージェントの動きのダイナミクスをモデル化するために時間の経過とともに更新されます。
既存の軌道予測方法のほとんどは、エージェントのエンコード、マップのエンコード、および軌道デコードの 3 つの部分に分けることができます。クエリベースの追跡の後、追跡されたエージェントのクエリが取得されます。これは、エージェントのエンコードを通じて取得されたエージェントの特性と見なすことができます。したがって、残りのタスクは地図のエンコードと軌跡のデコードです。
予測エージェントと真値エージェントをそれぞれ順序なしセット S^ と S として表します。ここで、各エージェントは現在のタイム ステップのエージェント座標と K 個の可能な将来の軌跡で表されます。エージェント タイプ c ごとに、Sc ^ と Sc の間の予測精度を計算します。予測エージェントと真実エージェントの間のコストを次のように定義します。
#Sc^ と Sc の間の EPA は、次のように定義されます。
実験結果は次のとおりです:
以上がViP3D: 3D エージェント クエリによるエンドツーエンドの視覚的軌道予測の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

HiddenLayerの画期的な研究は、主要な大規模な言語モデル(LLMS)における重大な脆弱性を明らかにしています。 彼らの発見は、ほぼすべての主要なLLMSを回避できる「政策の人形劇」と呼ばれる普遍的なバイパス技術を明らかにしています

環境責任と廃棄物の削減の推進は、企業の運営方法を根本的に変えています。 この変革は、製品開発、製造プロセス、顧客関係、パートナーの選択、および新しいものの採用に影響します

高度なAIハードウェアに関する最近の制限は、AI優位のためのエスカレートする地政学的競争を強調し、中国の外国半導体技術への依存を明らかにしています。 2024年、中国は3,850億ドル相当の半導体を大量に輸入しました

GoogleからのChromeの強制的な売却の可能性は、ハイテク業界での激しい議論に火をつけました。 Openaiが65%の世界市場シェアを誇る大手ブラウザを取得する見込みは、THの将来について重要な疑問を提起します

全体的な広告の成長を上回っているにもかかわらず、小売メディアの成長は減速しています。 この成熟段階は、生態系の断片化、コストの上昇、測定の問題、統合の複雑さなど、課題を提示します。 ただし、人工知能

古いラジオは、ちらつきと不活性なスクリーンのコレクションの中で静的なパチパチと鳴ります。簡単に不安定になっているこの不安定な電子機器の山は、没入型展示会の6つのインスタレーションの1つである「e-waste land」の核心を形成しています。

Google Cloudの次の2025年:インフラストラクチャ、接続性、およびAIに焦点を当てています Google Cloudの次の2025年の会議では、多くの進歩を紹介しました。 特定の発表の詳細な分析については、私の記事を参照してください

今週はAIとXR:AIを搭載した創造性の波が、音楽の世代から映画制作まで、メディアとエンターテイメントを席巻しています。 見出しに飛び込みましょう。 AIに生成されたコンテンツの影響力の高まり:テクノロジーコンサルタントのShelly Palme


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SublimeText3 中国語版
中国語版、とても使いやすい

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ホットトピック









