ホームページ > 記事 > テクノロジー周辺機器 > ViP3D: 3D エージェント クエリによるエンドツーエンドの視覚的軌道予測
arXiv 論文「ViP3D: 3D Agent Queries によるエンドツーエンドの視覚軌跡予測」、22 年 8 月 2 日にアップロード、清華大学、上海 (八尾) 斉志研究所、CMU、復旦、李汽車、MIT など. 共同作業。
既存の自動運転パイプラインは、認識モジュールと予測モジュールを分離しています。 2 つのモジュールは、エージェント ボックスや軌跡などの手動で選択された機能をインターフェイスとして介して通信します。この分離により、予測モジュールは認識モジュールから部分的な情報のみを受け取ります。さらに悪いことに、認識モジュールからのエラーが伝播および蓄積し、予測結果に悪影響を与える可能性があります。
この研究では、元のビデオの豊富な情報を使用してシーン内のエージェントの将来の軌道を予測する視覚的な軌道予測パイプラインである ViP3D を提案します。 ViP3D はパイプライン全体でスパース エージェント クエリを使用するため、完全に微分可能で解釈可能になります。さらに、エンドツーエンドの視覚軌跡予測タスクに対して、知覚を総合的に考慮した新しい評価指標 End-to-end Prediction Accuracy (EPA、End-to-end Prediction Accuracy) が提案されています。同時に、予測された軌道と地上の真実の軌道がスコアリングされます。
この図は、従来のマルチステップ カスケード パイプラインと ViP3D の比較を示しています。従来のパイプラインには、検出、追跡、予測などの複数の微分不可能なモジュールが含まれており、ViP3D はマルチビュー ビデオを入力として受け取ります。エンドツーエンド方式で車両の方向指示器などの視覚情報を効果的に活用した予測軌道を生成します。
ViP3D は、元のビデオの軌跡予測の問題をエンドツーエンドで解決することを目的としています。具体的には、マルチビュー ビデオと高解像度マップが与えられると、ViP3D はシーン内のすべてのエージェントの将来の軌跡を予測します。
ViP3D の全体的なプロセスを図に示します。まず、クエリベースのトラッカーが周囲のカメラからのマルチビュー ビデオを処理して、視覚的特徴を持つ追跡対象エージェントのクエリを取得します。エージェント クエリの視覚的特徴は、エージェント間の関係だけでなく、エージェントの動きのダイナミクスと視覚的特徴もキャプチャします。その後、軌道予測器は追跡エージェントのクエリを入力として受け取り、それを HD マップの特徴に関連付け、最終的に予測された軌道を出力します。
# クエリベースのトラッカーは、周囲のカメラの生のビデオから視覚的特徴を抽出します。具体的には、フレームごとに、DETR3Dに従って画像の特徴が抽出されます。時間領域特徴集約の場合、クエリベースのトラッカーは MOTR (「Motr: End-to-end multiple-object tracking with transmer」。arXiv 2105.03247, 2021) に従って設計されており、次の 2 つの主要な手順が含まれます。クエリ機能の更新とクエリの監視。エージェントのクエリは、エージェントの動きのダイナミクスをモデル化するために時間の経過とともに更新されます。
既存の軌道予測方法のほとんどは、エージェントのエンコード、マップのエンコード、および軌道デコードの 3 つの部分に分けることができます。クエリベースの追跡の後、追跡されたエージェントのクエリが取得されます。これは、エージェントのエンコードを通じて取得されたエージェントの特性と見なすことができます。したがって、残りのタスクは地図のエンコードと軌跡のデコードです。
予測エージェントと真値エージェントをそれぞれ順序なしセット S^ と S として表します。ここで、各エージェントは現在のタイム ステップのエージェント座標と K 個の可能な将来の軌跡で表されます。エージェント タイプ c ごとに、Sc ^ と Sc の間の予測精度を計算します。予測エージェントと真実エージェントの間のコストを次のように定義します。
#Sc^ と Sc の間の EPA は、次のように定義されます。
実験結果は次のとおりです:
##注: このターゲットのレンダリングは悪くありません。 。以上がViP3D: 3D エージェント クエリによるエンドツーエンドの視覚的軌道予測の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。