2022 年 7 月にアップロードされた arXiv 論文「Wayformer: Motion Forecasting via Simple & Efficient Attendant Networks」は、Google Waymo の著作物です。
複雑な運転シナリオではさまざまな形式の静的入力と動的入力が混在するため、自動運転の動作予測は困難なタスクです。道路の形状、車線の接続性、時間とともに変化する信号機の状態、およびエージェントとその相互作用の動的なセットに関する履歴情報を効率的なエンコーディングに表現および融合する最善の方法は、未解決の問題です。この多様な入力特徴のセットをモデル化するには、モダリティ固有のモジュールの異なるセットを使用して同様に複雑なシステムを設計するためのアプローチが多数あります。その結果、厳密な方法での拡張、拡張、または品質と効率のトレードオフが困難なシステムが生まれます。
この記事の Wayformer は、シンプルで同様の注意ベースの動き予測アーキテクチャのシリーズです。 Wayformer は、アテンションベースのシーン エンコーダーとデコーダーで構成されるコンパクトなモデル記述を提供します。シーンエンコーダでは、入力モードの融合前、融合後、および階層融合の選択が検討されます。融合タイプごとに、分解の注意または潜在的なクエリの注意を通じて、効率と品質をトレードオフする戦略を検討します。融合前の構造はシンプルでモードに依存しないだけでなく、Waymo Open Movement Dataset (WOMD) と Argoverse リーダーボードの両方で最先端の結果を達成します。
運転シナリオは、道路情報、信号機の状態、エージェントの履歴、インタラクションなどのマルチモーダル データで構成されます。モダリティについては、Context という 4 番目の次元があり、モデル化された各エージェントの「コンテキスト上の目標のセット」(つまり、他の道路利用者の表現) を表します。
インテリジェンス履歴現在の状態だけでなく過去の一連のインテリジェンス状態が含まれています。各タイム ステップについて、x、y、速度、加速度、境界ボックスなどのエージェントの状態を定義する特徴と、コンテキストの次元を考慮します。
インタラクション テンソル は、エージェント間の関係を表します。モデル化されたエージェントごとに、モデル化されたエージェントの周囲にある固定数の最近傍コンテキストが考慮されます。これらのコンテキスト エージェントは、モデル化されたエージェントの動作に影響を与えるエージェントを表します。
道路マップエージェントの周囲の道路の特徴が含まれます。道路地図セグメントは、端点によって指定され、道路の形状を近似するタイプ情報で注釈が付けられたセグメントの集合であるポリラインとして表されます。モデリング エージェントに最も近いロード マップ セグメントを使用します。道路フィーチャには時間ディメンションがなく、時間ディメンション 1 を追加できることに注意してください。
各エージェントの 信号機情報には、エージェントに最も近い信号機の状態が含まれます。各交通信号ポイントには、信号の位置と信頼レベルを説明する特徴があります。
Wayformer モデル シリーズは、シーン エンコーダーとデコーダーの 2 つの主要コンポーネントで構成されています。シーン エンコーダは主に 1 つ以上のアテンション エンコーダで構成され、運転シーンを要約するために使用されます。デコーダは 1 つ以上の標準トランスフォーマ クロスアテンション モジュールであり、学習された初期クエリを入力し、シーン エンコーディング クロスアテンションを使用して軌道を生成します。
図に示すように、Wayformer モデルはマルチモーダル入力を処理してシーン エンコーディングを生成します。このシーン エンコーディングはデコーダーのコンテキストとして使用され、出力空間でマルチモーダルをカバーする k 個の可能な軌道を生成します。
#シーン エンコーダへの入力は多様であるため、この統合は簡単な作業ではありません。モダリティは、同じ抽象化レベルまたはスケール ({ピクセル vs ターゲット オブジェクト}) で表現できない場合があります。したがって、一部のモダリティは他のモダリティよりも多くの計算を必要とする場合があります。モード間の計算による分解はアプリケーションに依存するため、エンジニアにとって非常に重要です。このプロセスを簡素化するために、ここでは、図に示すように、{post、pre、hierarchical} という 3 つの融合レベルが提案されています。
#Post-fusion はモーションです。予測 各モダリティが独自の専用エンコーダーを持つモデルへの最も一般的なアプローチ。これらのエンコーダーの幅を等しく設定すると、出力に余分な投影レイヤーが導入されるのを回避できます。さらに、すべてのエンコーダで同じ深さを共有することにより、探索スペースが管理可能なサイズに縮小されます。情報は、軌跡デコーダのクロスアテンション層のモダリティを越えて転送されることのみが許可されます。
プレフュージョンセルフアテンション エンコーダを各モダリティ専用にする代わりに、モダリティ固有のパラメータを投影層に減らします。図のシーン エンコーダは、単一のセルフ アテンション エンコーダ (「クロスモーダル エンコーダ」) で構成されており、ネットワークは誘導バイアスを最小限に抑えながら、モダリティ全体で重要性を割り当てる際に最大限の柔軟性を得ることができます。
階層的融合 最初の 2 つの極端な点の間の妥協点として、ボリュームはモダリティ固有のセルフ アテンション エンコーダとクロスモーダル エンコーダの間で階層的な方法で分解されます。ポストフュージョンで行われるように、幅と深さはアテンションエンコーダーとクロスモーダルエンコーダーで共有されます。これにより、シーン エンコーダの深さがモダリティ固有のエンコーダとクロスモーダル エンコーダに効果的に分割されます。
Transformer ネットワークは、次の 2 つの要因により、大規模な多次元シーケンスにはうまく拡張できません:
- (a) 自己注意は入力シーケンスの長さに対して 2 次です。 。
- (b) 位置フィードフォワード ネットワークは高価なサブネットワークです。
加速方法については以下で説明します (S は空間次元、T は時間領域次元です)。そのフレームワークは図に示すとおりです。
多軸アテンション:
因数分解された注意:
自己注意の計算複雑さは、入力シーケンスの長さの 2 乗です。多次元シーケンスでは、次元が追加されるたびに入力のサイズが乗算係数で増加するため、このことはさらに顕著になります。たとえば、一部の入力モダリティには時間と空間の次元があるため、計算コストは O(Sm2×T2) になります。この状況を軽減するには、注意を 2 つの次元に沿って分解することを検討してください。この方法は、入力シーケンスの多次元構造を利用し、各次元にセルフ アテンションを個別に適用することで、セルフ アテンション サブネットワークのコストを O(S2×T2) から O(S2) O(T2) に削減します。分解された注意は、多軸の注意と比較して計算量を削減できる可能性がありますが、自己注意を各次元の次数に適用すると複雑さが生じます。以下に 2 つの分解されたアテンション パラダイムを比較します。
シーケンシャル アテンション (シーケンシャル アテンション)- : N 層エンコーダは N/2 時間エンコーダ ブロックで構成され、もう 1 つの N/2 エンコーダ ブロックで構成されます。空間エンコーダブロックの。
- インターリーブされた注意 : N 層エンコーダーは、N/2 回交互する時間エンコーダー ブロックと空間エンコーダー ブロックで構成されます。
- 潜在クエリの注意
Wayformer 予測子は、エージェントがたどる可能性のある軌道を表すガウス混合を出力します。予測を生成するには、Transformer デコーダが使用されます。Transformer デコーダは、k 個の学習済み初期クエリ (Si) のセットを入力し、エンコーダのシーン エンベディングとのクロスアテンションを実行して、ガウス混合の各コンポーネントのエンベディングを生成します。
混合物に特定の成分が埋め込まれているとすると、線形射影層はその成分の非正準対数尤度を生成し、混合物全体の尤度を推定します。軌道を生成するには、別の線形レイヤー投影が使用され、各タイム ステップでの予測ガウスの平均および対数標準偏差に対応する 4 つの時系列が出力されます。 トレーニング中に、損失はそれぞれの分類損失と回帰損失に分解されます。 k 個の予測ガウスを仮定すると、真の軌跡の対数確率を最大化するように混合尤度がトレーニングされます。 予測器が複数のモードのガウス分布の混合を出力する場合、推論を行うのは難しく、ベンチマーク測定により考慮される軌道の数が制限されることがよくあります。したがって、評価プロセス中に軌跡の集約が適用され、元の出力混合の多様性を維持しながら、考慮されるモードの数が減ります。 実験結果は次のとおりです。分解メモ
潜在クエリ
以上がWayformer: 動き予測のためのシンプルで効果的なアテンション ネットワークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境
