検索
ホームページテクノロジー周辺機器AIWayformer: 動き予測のためのシンプルで効果的なアテンション ネットワーク

2022 年 7 月にアップロードされた arXiv 論文「Wayformer: Motion Forecasting via Simple & Efficient Attendant Networks」は、Google Waymo の著作物です。

Wayformer: 動き予測のためのシンプルで効果的なアテンション ネットワーク

複雑な運転シナリオではさまざまな形式の静的入力と動的入力が混在するため、自動運転の動作予測は困難なタスクです。道路の形状、車線の接続性、時間とともに変化する信号機の状態、およびエージェントとその相互作用の動的なセットに関する履歴情報を効率的なエンコーディングに表現および融合する最善の方法は、未解決の問題です。この多様な入力特徴のセットをモデル化するには、モダリティ固有のモジュールの異なるセットを使用して同様に複雑なシステムを設計するためのアプローチが多数あります。その結果、厳密な方法での拡張、拡張、または品質と効率のトレードオフが困難なシステムが生まれます。

この記事の Wayformer は、シンプルで同様の注意ベースの動き予測アーキテクチャのシリーズです。 Wayformer は、アテンションベースのシーン エンコーダーとデコーダーで構成されるコンパクトなモデル記述を提供します。シーンエンコーダでは、入力モードの融合前、融合後、および階層融合の選択が検討されます。融合タイプごとに、分解の注意または潜在的なクエリの注意を通じて、効率と品質をトレードオフする戦略を検討します。融合前の構造はシンプルでモードに依存しないだけでなく、Waymo Open Movement Dataset (WOMD) と Argoverse リーダーボードの両方で最先端の結果を達成します。

運転シナリオは、道路情報、信号機の状態、エージェントの履歴、インタラクションなどのマルチモーダル データで構成されます。モダリティについては、Context という 4 番目の次元があり、モデル化された各エージェントの「コンテキスト上の目標のセット」(つまり、他の道路利用者の表現) を表します。

インテリジェンス履歴現在の状態だけでなく過去の一連のインテリジェンス状態が含まれています。各タイム ステップについて、x、y、速度、加速度、境界ボックスなどのエージェントの状態を定義する特徴と、コンテキストの次元を考慮します。

インタラクション テンソル は、エージェント間の関係を表します。モデル化されたエージェントごとに、モデル化されたエージェントの周囲にある固定数の最近傍コンテキストが考慮されます。これらのコンテキスト エージェントは、モデル化されたエージェントの動作に影響を与えるエージェントを表します。

道路マップエージェントの周囲の道路の特徴が含まれます。道路地図セグメントは、端点によって指定され、道路の形状を近似するタイプ情報で注釈が付けられたセグメントの集合であるポリラインとして表されます。モデリング エージェントに最も近いロード マップ セグメントを使用します。道路フィーチャには時間ディメンションがなく、時間ディメンション 1 を追加できることに注意してください。

各エージェントの 信号機情報には、エージェントに最も近い信号機の状態が含まれます。各交通信号ポイントには、信号の位置と信頼レベルを説明する特徴があります。

Wayformer モデル シリーズは、シーン エンコーダーとデコーダーの 2 つの主要コンポーネントで構成されています。シーン エンコーダは主に 1 つ以上のアテンション エンコーダで構成され、運転シーンを要約するために使用されます。デコーダは 1 つ以上の標準トランスフォーマ クロスアテンション モジュールであり、学習された初期クエリを入力し、シーン エンコーディング クロスアテンションを使用して軌道を生成します。

図に示すように、Wayformer モデルはマルチモーダル入力を処理してシーン エンコーディングを生成します。このシーン エンコーディングはデコーダーのコンテキストとして使用され、出力空間でマルチモーダルをカバーする k 個の可能な軌道を生成します。

Wayformer: 動き予測のためのシンプルで効果的なアテンション ネットワーク

#シーン エンコーダへの入力は多様であるため、この統合は簡単な作業ではありません。モダリティは、同じ抽象化レベルまたはスケール ({ピクセル vs ターゲット オブジェクト}) で表現できない場合があります。したがって、一部のモダリティは他のモダリティよりも多くの計算を必要とする場合があります。モード間の計算による分解はアプリケーションに依存するため、エンジニアにとって非常に重要です。このプロセスを簡素化するために、ここでは、図に示すように、{post、pre、hierarchical} という 3 つの融合レベルが提案されています。

Wayformer: 動き予測のためのシンプルで効果的なアテンション ネットワーク

#Post-fusion はモーションです。予測 各モダリティが独自の専用エンコーダーを持つモデルへの最も一般的なアプローチ。これらのエンコーダーの幅を等しく設定すると、出力に余分な投影レイヤーが導入されるのを回避できます。さらに、すべてのエンコーダで同じ深さを共有することにより、探索スペースが管理可能なサイズに縮小されます。情報は、軌跡デコーダのクロスアテンション層のモダリティを越えて転送されることのみが許可されます。

プレフュージョンセルフアテンション エンコーダを各モダリティ専用にする代わりに、モダリティ固有のパラメータを投影層に減らします。図のシーン エンコーダは、単一のセルフ アテンション エンコーダ (「クロスモーダル エンコーダ」) で構成されており、ネットワークは誘導バイアスを最小限に抑えながら、モダリティ全体で重要性を割り当てる際に最大限の柔軟性を得ることができます。

階層的融合 最初の 2 つの極端な点の間の妥協点として、ボリュームはモダリティ固有のセルフ アテンション エンコーダとクロスモーダル エンコーダの間で階層的な方法で分解されます。ポストフュージョンで行われるように、幅と深さはアテンションエンコーダーとクロスモーダルエンコーダーで共有されます。これにより、シーン エンコーダの深さがモダリティ固有のエンコーダとクロスモーダル エンコーダに効果的に分割されます。

Transformer ネットワークは、次の 2 つの要因により、大規模な多次元シーケンスにはうまく拡張できません:

  • (a) 自己注意は入力シーケンスの長さに対して 2 次です。 。
  • (b) 位置フィードフォワード ネットワークは高価なサブネットワークです。

加速方法については以下で説明します (S は空間次元、T は時間領域次元です)。そのフレームワークは図に示すとおりです。

Wayformer: 動き予測のためのシンプルで効果的なアテンション ネットワーク多軸アテンション:

これは、空間次元と時間次元の両方にセルフ アテンションを適用するデフォルトのトランスフォーマー設定を指し、最も計算コストがかかることが予想されます。多軸注意による前方、後方および階層的融合の計算量は O(Sm2×T2) です。

因数分解された注意:

自己注意の計算複雑さは、入力シーケンスの長さの 2 乗です。多次元シーケンスでは、次元が追加されるたびに入力のサイズが乗算係数で増加するため、このことはさらに顕著になります。たとえば、一部の入力モダリティには時間と空間の次元があるため、計算コストは​​ O(Sm2×T2) になります。この状況を軽減するには、注意を 2 つの次元に沿って分解することを検討してください。この方法は、入力シーケンスの多次元構造を利用し、各次元にセルフ アテンションを個別に適用することで、セルフ アテンション サブネットワークのコストを O(S2×T2) から O(S2) O(T2) に削減します。

分解された注意は、多軸の注意と比較して計算量を削減できる可能性がありますが、自己注意を各次元の次数に適用すると複雑さが生じます。以下に 2 つの分解されたアテンション パラダイムを比較します。

シーケンシャル アテンション (シーケンシャル アテンション)
    : N 層エンコーダは N/2 時間エンコーダ ブロックで構成され、もう 1 つの N/2 エンコーダ ブロックで構成されます。空間エンコーダブロックの。
  • インターリーブされた注意
  • : N 層エンコーダーは、N/2 回交互する時間エンコーダー ブロックと空間エンコーダー ブロックで構成されます。
  • 潜在クエリの注意
: 大規模な入力シーケンスの計算コストを解決するもう 1 つの方法は、入力が潜在空間にマッピングされる最初のエンコーダー ブロックで潜在クエリを使用することです。これらの潜在変数は、潜在空間を受け取って返す一連のエンコーダー ブロックによってさらに処理されます。これにより、潜在空間解像度を完全に自由に設定できるようになり、各ブロック内のセルフ アテンション コンポーネントと位置フィードフォワード ネットワークの計算コストが削減されます。削減量 (R=Lout/Lin) を入力シーケンスの長さのパーセンテージとして設定します。融合後および階層的融合では、低減係数 R はすべてのアテンション エンコーダで変更されません。

Wayformer 予測子は、エージェントがたどる可能性のある軌道を表すガウス混合を出力します。予測を生成するには、Transformer デコーダが使用されます。Transformer デコーダは、k 個の学習済み初期クエリ (Si) のセットを入力し、エンコーダのシーン エンベディングとのクロスアテンションを実行して、ガウス混合の各コンポーネントのエンベディングを生成します。

混合物に特定の成分が埋め込まれているとすると、線形射影層はその成分の非正準対数尤度を生成し、混合物全体の尤度を推定します。軌道を生成するには、別の線形レイヤー投影が使用され、各タイム ステップでの予測ガウスの平均および対数標準偏差に対応する 4 つの時系列が出力されます。

トレーニング中に、損失はそれぞれの分類損失と回帰損失に分解されます。 k 個の予測ガウスを仮定すると、真の軌跡の対数確率を最大化するように混合尤度がトレーニングされます。

予測器が複数のモードのガウス分布の混合を出力する場合、推論を行うのは難しく、ベンチマーク測定により考慮される軌道の数が制限されることがよくあります。したがって、評価プロセス中に軌跡の集約が適用され、元の出力混合の多様性を維持しながら、考慮されるモードの数が減ります。

実験結果は次のとおりです。

分解メモWayformer: 動き予測のためのシンプルで効果的なアテンション ネットワーク

潜在クエリWayformer: 動き予測のためのシンプルで効果的なアテンション ネットワーク

Wayformer: 動き予測のためのシンプルで効果的なアテンション ネットワーク

Wayformer: 動き予測のためのシンプルで効果的なアテンション ネットワーク

Wayformer: 動き予測のためのシンプルで効果的なアテンション ネットワーク

以上がWayformer: 動き予測のためのシンプルで効果的なアテンション ネットワークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用:個人的なチャットボットCLIの構築 最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。 ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますメンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加します2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。 アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaPythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。 大規模なデータセットを処理する場合、効率的なデータ操作(ストレージ、管理、アクセス)が重要です。 以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項:AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この(または他の)記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築:初心者と専門家向けガイド 説得力のあるポートフォリオを作成することは、人工知能(AI)と機械学習(ML)で役割を確保するために重要です。 このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかエージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果?燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。 しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai:学生のためのAIの戦いGoogle対Openai:学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ? 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。