arXiv 論文「VectorFlow: 交通占有と流量予測のための画像とベクトルの結合」、2022 年 8 月 9 日、清華大学勤務。
# 道路管理者の将来の行動を予測することは、自動運転における重要なタスクです。既存のモデルはエージェントの将来の行動を予測することに大きな成功を収めていますが、複数のエージェントの協調的な行動を効果的に予測することは依然として課題です。最近、誰かが 占有フロー フィールド (OFF) 表現を提案しました。これは、占有グリッドとフローの組み合わせを通じて道路管理者の共同の将来の状態を表し、一貫した予測をサポートします。
この研究では、新しい占有流動フィールド予測器、ラスター化された交通画像から特徴を学習する画像エンコーダー、および継続的なエージェントの軌跡と地図の状態情報をキャプチャするベクトル エンコーダーを提案します。両方を組み合わせて、正確な占有と流動の予測を生成します。 。 2 つのエンコード機能は、最終的な予測を生成する前に、複数のアテンション モジュールによって融合されます。このモデルは、Waymo Open Dataset Occupancy and Flow Prediction Challenge で 3 位にランクされ、遮蔽占有とフロー予測タスクで最高のパフォーマンスを達成しました。
OFF 表現 (「Occupancy Flow Fields for Motion Forecasting in Autonomous Driving」、arXiv 2203.03875、3、2022) は、各グリッド セルに i) 確率が含まれる時空間グリッドです。任意のエージェントがユニットを占有していること、および ii) そのユニットを占有しているエージェントの移動の流れを表します。占有フロー フィールドを予測する計算の複雑さはシーン内の道路管理者の数に依存しないため、効率とスケーラビリティが向上します。
写真はOFFフレーム図です。エンコーダの構造は以下の通りです。最初のステージは 3 種類の入力ポイントをすべて受け取り、PointPillars からインスピレーションを得たエンコーダーで処理します。信号機と道路ポイントはグリッド上に直接配置されます。各入力タイム ステップ t でのエージェントの状態エンコードは、各エージェント BEV ボックスから固定サイズの点グリッドを均一にサンプリングし、これらの点を、配置された関連するエージェント状態属性 (時間 t のワンホット エンコードを含む) と組み合わせます。グリッド上で。各ピラーは、それに含まれるすべてのポイントのエンベディングを出力します。デコーダの構造は以下の通りです。 2 番目のレベルは、各ピラーの埋め込みを入力として受け取り、グリッドごとのセル占有率とフロー予測を生成します。デコーダ ネットワークは EfficientNet に基づいており、EfficientNet をバックボーンとして使用して各ピラーの埋め込みを処理して特徴マップ (P2、...P7) を取得します。ここで、Pi は入力から 2^i ダウンサンプリングされます。次に、BiFPN ネットワークを使用して、これらのマルチスケール機能を双方向で融合します。次に、最高解像度の特徴マップ P2 を使用して、すべてのタイム ステップにおけるすべてのエージェント クラス K の占有率とフロー予測を回帰します。具体的には、デコーダは占有とフローを予測しながら、各グリッド セルのベクトルを出力します。
この記事では、次の問題設定が行われます。シーン内の交通エージェントの 1 秒間の履歴と、マップ座標などのシーン コンテキストを考慮すると、目標は、i) 将来の観測占有率、ii) 将来のオクルージョンの占有率、および iii) シーン内の 8 つの将来のウェイポイントにおけるすべての車両の将来の流れを予測することです。各ウェイポイントは 1 秒の間隔をカバーします。
入力をラスター化されたイメージとベクトルのセットに処理します。画像を取得するために、観測エージェントの軌跡と地図データを考慮して、自動運転車 (SDC) のローカル座標を基準にして過去の各タイム ステップでラスタライズされたグリッドが作成されます。ラスター化されたイメージと一致するベクトル化された入力を取得するには、同じ変換に従い、入力エージェントとマップ座標を SDC のローカル ビューに対して回転および移動します。
エンコーダーは、ラスター化された表現をエンコードする VGG-16 モデルと、ベクトル化された表現をエンコードする VectorNe モデルの 2 つの部分で構成されます。ベクトル化された機能は、クロス アテンション モジュールを通じて VGG-16 の最後の 2 つのステップの機能と融合されます。 FPN スタイルのネットワークを通じて、融合されたフィーチャは元の解像度にアップサンプリングされ、入力ラスター化フィーチャとして使用されます。
デコーダーは、エンコーダーの出力を占有流動フィールド予測にマッピングする単一の 2D 畳み込み層です。これは、次の 8 秒間の各時間を表す一連の 8 つのグリッド マップで構成されます。占有率と流動予測。
写真が示すように:
torchvision の標準 VGG-16 モデルをラスタライズ エンコーダとして使用し、VectorNet (コード https://github.com/Tsinghua -MAR##) に従います。 #S-Lab/DenseTNT) の実装。 VectorNet への入力は、i) B×Nr×9 の形状の道路要素ベクトルのセットで構成されます。ここで、B はバッチ サイズ、Nr=10000 は道路要素ベクトルの最大数、最後の次元 9 は各ベクトルを表し、ベクトル ID 2 つのエンドポイントの位置 (x、y) と方向 (cosθ、sinθ)、ii) シーン内の最大 128 のエージェントのベクトルを含む、B×1280×9 の形状を持つエージェント ベクトルのセット、ここで、各エージェントは観測位置から 10 個のベクトルを持ちます。
VectorNet に従い、最初に各交通要素の ID に従ってローカル マップを実行し、次にすべてのローカル フィーチャに対してグローバル マップを実行して、形状 B×128×N のベクトル化されたフィーチャを取得します。N は交通量です。パス要素とインテリジェンスを含む要素の合計。特徴のサイズは MLP 層を通じてさらに 4 倍に拡大され、最終的なベクトル化特徴 V が得られます。その形状は B × 512 × N であり、その特徴サイズは画像特徴のチャネル サイズと一致します。 VGG の各レベルの出力特徴は、入力イメージと 512 の隠れ次元を基準にして {C1、C2、C3、C4、C5} として表され、ストライドは {1、2、4、8 です。 , 16} ピクセル。ベクトル化された特徴Vは、クロスアテンションモジュールを通じて形状B×512×16×16のラスタライズされた画像特徴C5と融合され、同じ形状のF5が得られる。クロスアテンションのクエリ項目は、256 個のトークンを含む B×512×256 形状に平坦化された画像特徴 C5 であり、キー項目と値項目は、N 個のトークンを含むベクトル化された特徴 V です。 次に、チャネル次元で F5 と C5 を接続し、2 つの 3×3 畳み込み層を通過して、B×512×16×16 の形状を持つ P5 を取得します。 P5 は FPN スタイルの 2×2 アップサンプリング モジュールを通じてアップサンプリングされ、C4 (B×512×32×32) に接続されて、C4 と同じ形状の U4 が生成されます。次に、交差注意を含む同じ手順に従って、V と U4 の間で別のラウンドの融合が実行され、P4 (B × 512 × 32 × 32) が得られます。最後に、P4 は FPN スタイルのネットワークによって徐々にアップサンプリングされ、{C3, C2, C1} と接続されて、B×512×256×256 の形状を持つ EP1 が生成されます。 P1 を 2 つの 3×3 畳み込み層に通過させて、B×128×256 の形状を持つ最終出力特徴を取得します。 デコーダは、入力チャネル サイズ 128、出力チャネル サイズ 32 (8 ウェイポイント × 4 出力次元) の単一 2D 畳み込み層です。 結果は次のとおりです:以上がVectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行うの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク(C. elegansのものと同様)を広く研究してきました。 ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

GoogleのGemini Advanced:Horizonの新しいサブスクリプションティア 現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。 ただし、Android Authorityのレポートは、今後の変更を示唆しています。 最新のGoogle p

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます:データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

Googleのエージェント開発キット(ADK)のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

まとめ: Small Language Model(SLM)は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル(LLM)よりも優れています。 特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。 テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能(AI)および最近では生成AIも例外ではありません

コンピュータービジョンのためのGoogleGeminiの力を活用:包括的なガイド 大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。 このガイドの利用方法については、

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。 数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

メモ帳++7.3.1
使いやすく無料のコードエディター

ホットトピック









