検索
ホームページテクノロジー周辺機器AIVectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

arXiv 論文「VectorFlow: 交通占有と流量予測のための画像とベクトルの結合」、2022 年 8 月 9 日、清華大学勤務。

VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

# 道路管理者の将来の行動を予測することは、自動運転における重要なタスクです。既存のモデルはエージェントの将来の行動を予測することに大きな成功を収めていますが、複数のエージェントの協調的な行動を効果的に予測することは依然として課題です。最近、誰かが 占有フロー フィールド (OFF) 表現を提案しました。これは、占有グリッドとフローの組み合わせを通じて道路管理者の共同の将来の状態を表し、一貫した予測をサポートします。

この研究では、新しい占有流動フィールド予測器、ラスター化された交通画像から特徴を学習する画像エンコーダー、および継続的なエージェントの軌跡と地図の状態情報をキャプチャするベクトル エンコーダーを提案します。両方を組み合わせて、正確な占有と流動の予測を生成します。 。 2 つのエンコード機能は、最終的な予測を生成する前に、複数のアテンション モジュールによって融合されます。このモデルは、Waymo Open Dataset Occupancy and Flow Prediction Challenge で 3 位にランクされ、遮蔽占有とフロー予測タスクで最高のパフォーマンスを達成しました。

OFF 表現 (「Occupancy Flow Fields for Motion Forecasting in Autonomous Driving」、arXiv 2203.03875、3、2022) は、各グリッド セルに i) 確率が含まれる時空間グリッドです。任意のエージェントがユニットを占有していること、および ii) そのユニットを占有しているエージェントの移動の流れを表します。占有フロー フィールドを予測する計算の複雑さはシーン内の道路管理者の数に依存しないため、効率とスケーラビリティが向上します。

写真はOFFフレーム図です。エンコーダの構造は以下の通りです。最初のステージは 3 種類の入力ポイントをすべて受け取り、PointPillars からインスピレーションを得たエンコーダーで処理します。信号機と道路ポイントはグリッド上に直接配置されます。各入力タイム ステップ t でのエージェントの状態エンコードは、各エージェント BEV ボックスから固定サイズの点グリッドを均一にサンプリングし、これらの点を、配置された関連するエージェント状態属性 (時間 t のワンホット エンコードを含む) と組み合わせます。グリッド上で。各ピラーは、それに含まれるすべてのポイントのエンベディングを出力します。デコーダの構造は以下の通りです。 2 番目のレベルは、各ピラーの埋め込みを入力として受け取り、グリッドごとのセル占有率とフロー予測を生成します。デコーダ ネットワークは EfficientNet に基づいており、EfficientNet をバックボーンとして使用して各ピラーの埋め込みを処理して特徴マップ (P2、...P7) を取得します。ここで、Pi は入力から 2^i ダウンサンプリングされます。次に、BiFPN ネットワークを使用して、これらのマルチスケール機能を双方向で融合します。次に、最高解像度の特徴マップ P2 を使用して、すべてのタイム ステップにおけるすべてのエージェント クラス K の占有率とフロー予測を回帰します。具体的には、デコーダは占有とフローを予測しながら、各グリッド セルのベクトルを出力します。

VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

この記事では、次の問題設定が行われます。シーン内の交通エージェントの 1 秒間の履歴と、マップ座標などのシーン コンテキストを考慮すると、目標は、i) 将来の観測占有率、ii) 将来のオクルージョンの占有率、および iii) シーン内の 8 つの将来のウェイポイントにおけるすべての車両の将来の流れを予測することです。各ウェイポイントは 1 秒の間隔をカバーします。

入力をラスター化されたイメージとベクトルのセットに処理します。画像を取得するために、観測エージェントの軌跡と地図データを考慮して、自動運転車 (SDC) のローカル座標を基準にして過去の各タイム ステップでラスタライズされたグリッドが作成されます。ラスター化されたイメージと一致するベクトル化された入力を取得するには、同じ変換に従い、入力エージェントとマップ座標を SDC のローカル ビューに対して回転および移動します。

エンコーダーは、ラスター化された表現をエンコードする VGG-16 モデルと、ベクトル化された表現をエンコードする VectorNe モデルの 2 つの部分で構成されます。ベクトル化された機能は、クロス アテンション モジュールを通じて VGG-16 の最後の 2 つのステップの機能と融合されます。 FPN スタイルのネットワークを通じて、融合されたフィーチャは元の解像度にアップサンプリングされ、入力ラスター化フィーチャとして使用されます。

デコーダーは、エンコーダーの出力を占有流動フィールド予測にマッピングする単一の 2D 畳み込み層です。これは、次の 8 秒間の各時間を表す一連の 8 つのグリッド マップで構成されます。占有率と流動予測。

写真が示すように:

VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

torchvision の標準 VGG-16 モデルをラスタライズ エンコーダとして使用し、VectorNet (コード https://github.com/Tsinghua -MAR##) に従います。 #S-Lab/DenseTNT) の実装。 VectorNet への入力は、i) B×Nr×9 の形状の道路要素ベクトルのセットで構成されます。ここで、B はバッチ サイズ、Nr=10000 は道路要素ベクトルの最大数、最後の次元 9 は各ベクトルを表し、ベクトル ID 2 つのエンドポイントの位置 (x、y) と方向 (cosθ、sinθ)、ii) シーン内の最大 128 のエージェントのベクトルを含む、B×1280×9 の形状を持つエージェント ベクトルのセット、ここで、各エージェントは観測位置から 10 個のベクトルを持ちます。

VectorNet に従い、最初に各交通要素の ID に従ってローカル マップを実行し、次にすべてのローカル フィーチャに対してグローバル マップを実行して、形状 B×128×N のベクトル化されたフィーチャを取得します。N は交通量です。パス要素とインテリジェンスを含む要素の合計。特徴のサイズは MLP 層を通じてさらに 4 倍に拡大され、最終的なベクトル化特徴 V が得られます。その形状は B × 512 × N であり、その特徴サイズは画像特徴のチャネル サイズと一致します。

VGG の各レベルの出力特徴は、入力イメージと 512 の隠れ次元を基準にして {C1、C2、C3、C4、C5} として表され、ストライドは {1、2、4、8 です。 , 16} ピクセル。ベクトル化された特徴Vは、クロスアテンションモジュールを通じて形状B×512×16×16のラスタライズされた画像特徴C5と融合され、同じ形状のF5が得られる。クロスアテンションのクエリ項目は、256 個のトークンを含む B×512×256 形状に平坦化された画像特徴 C5 であり、キー項目と値項目は、N 個のトークンを含むベクトル化された特徴 V です。

次に、チャネル次元で F5 と C5 を接続し、2 つの 3×3 畳み込み層を通過して、B×512×16×16 の形状を持つ P5 を取得します。 P5 は FPN スタイルの 2×2 アップサンプリング モジュールを通じてアップサンプリングされ、C4 (B×512×32×32) に接続されて、C4 と同じ形状の U4 が生成されます。次に、交差注意を含む同じ手順に従って、V と U4 の間で別のラウンドの融合が実行され、P4 (B × 512 × 32 × 32) が得られます。最後に、P4 は FPN スタイルのネットワークによって徐々にアップサンプリングされ、{C3, C2, C1} と接続されて、B×512×256×256 の形状を持つ EP1 が生成されます。 P1 を 2 つの 3×3 畳み込み層に通過させて、B×128×256 の形状を持つ最終出力特徴を取得します。

デコーダは、入力チャネル サイズ 128、出力チャネル サイズ 32 (8 ウェイポイント × 4 出力次元) の単一 2D 畳み込み層です。

結果は次のとおりです:

VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

以上がVectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行うの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
踊りましょう:私たちの人間のニューラルネットを微調整するための構造化された動き踊りましょう:私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク(C. elegansのものと同様)を広く研究してきました。 ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにします新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced:Horizo​​nの新しいサブスクリプションティア 現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。 ただし、Android Authorityのレポートは、今後の変更を示唆しています。 最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかデータ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます:データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます!MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます!Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は? - 分析Vidhya建物のエージェントにGoogle ADKを使用する方法は? - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット(ADK)のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析Vidhya効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ: Small Language Model(SLM)は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル(LLM)よりも優れています。 特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。 テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能(AI)および最近では生成AIも例外ではありません

コンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は? - 分析VidhyaコンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は? - 分析VidhyaApr 27, 2025 am 09:26 AM

コンピュータービジョンのためのGoogleGeminiの力を活用:包括的なガイド 大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。 このガイドの利用方法については、

Gemini 2.0 Flash vs O4-Mini:GoogleはOpenaiよりもうまくやることができますか?Gemini 2.0 Flash vs O4-Mini:GoogleはOpenaiよりもうまくやることができますか?Apr 27, 2025 am 09:20 AM

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。 数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター