検索
ホームページテクノロジー周辺機器AIVectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

arXiv 論文「VectorFlow: 交通占有と流量予測のための画像とベクトルの結合」、2022 年 8 月 9 日、清華大学勤務。

VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

# 道路管理者の将来の行動を予測することは、自動運転における重要なタスクです。既存のモデルはエージェントの将来の行動を予測することに大きな成功を収めていますが、複数のエージェントの協調的な行動を効果的に予測することは依然として課題です。最近、誰かが 占有フロー フィールド (OFF) 表現を提案しました。これは、占有グリッドとフローの組み合わせを通じて道路管理者の共同の将来の状態を表し、一貫した予測をサポートします。

この研究では、新しい占有流動フィールド予測器、ラスター化された交通画像から特徴を学習する画像エンコーダー、および継続的なエージェントの軌跡と地図の状態情報をキャプチャするベクトル エンコーダーを提案します。両方を組み合わせて、正確な占有と流動の予測を生成します。 。 2 つのエンコード機能は、最終的な予測を生成する前に、複数のアテンション モジュールによって融合されます。このモデルは、Waymo Open Dataset Occupancy and Flow Prediction Challenge で 3 位にランクされ、遮蔽占有とフロー予測タスクで最高のパフォーマンスを達成しました。

OFF 表現 (「Occupancy Flow Fields for Motion Forecasting in Autonomous Driving」、arXiv 2203.03875、3、2022) は、各グリッド セルに i) 確率が含まれる時空間グリッドです。任意のエージェントがユニットを占有していること、および ii) そのユニットを占有しているエージェントの移動の流れを表します。占有フロー フィールドを予測する計算の複雑さはシーン内の道路管理者の数に依存しないため、効率とスケーラビリティが向上します。

写真はOFFフレーム図です。エンコーダの構造は以下の通りです。最初のステージは 3 種類の入力ポイントをすべて受け取り、PointPillars からインスピレーションを得たエンコーダーで処理します。信号機と道路ポイントはグリッド上に直接配置されます。各入力タイム ステップ t でのエージェントの状態エンコードは、各エージェント BEV ボックスから固定サイズの点グリッドを均一にサンプリングし、これらの点を、配置された関連するエージェント状態属性 (時間 t のワンホット エンコードを含む) と組み合わせます。グリッド上で。各ピラーは、それに含まれるすべてのポイントのエンベディングを出力します。デコーダの構造は以下の通りです。 2 番目のレベルは、各ピラーの埋め込みを入力として受け取り、グリッドごとのセル占有率とフロー予測を生成します。デコーダ ネットワークは EfficientNet に基づいており、EfficientNet をバックボーンとして使用して各ピラーの埋め込みを処理して特徴マップ (P2、...P7) を取得します。ここで、Pi は入力から 2^i ダウンサンプリングされます。次に、BiFPN ネットワークを使用して、これらのマルチスケール機能を双方向で融合します。次に、最高解像度の特徴マップ P2 を使用して、すべてのタイム ステップにおけるすべてのエージェント クラス K の占有率とフロー予測を回帰します。具体的には、デコーダは占有とフローを予測しながら、各グリッド セルのベクトルを出力します。

VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

この記事では、次の問題設定が行われます。シーン内の交通エージェントの 1 秒間の履歴と、マップ座標などのシーン コンテキストを考慮すると、目標は、i) 将来の観測占有率、ii) 将来のオクルージョンの占有率、および iii) シーン内の 8 つの将来のウェイポイントにおけるすべての車両の将来の流れを予測することです。各ウェイポイントは 1 秒の間隔をカバーします。

入力をラスター化されたイメージとベクトルのセットに処理します。画像を取得するために、観測エージェントの軌跡と地図データを考慮して、自動運転車 (SDC) のローカル座標を基準にして過去の各タイム ステップでラスタライズされたグリッドが作成されます。ラスター化されたイメージと一致するベクトル化された入力を取得するには、同じ変換に従い、入力エージェントとマップ座標を SDC のローカル ビューに対して回転および移動します。

エンコーダーは、ラスター化された表現をエンコードする VGG-16 モデルと、ベクトル化された表現をエンコードする VectorNe モデルの 2 つの部分で構成されます。ベクトル化された機能は、クロス アテンション モジュールを通じて VGG-16 の最後の 2 つのステップの機能と融合されます。 FPN スタイルのネットワークを通じて、融合されたフィーチャは元の解像度にアップサンプリングされ、入力ラスター化フィーチャとして使用されます。

デコーダーは、エンコーダーの出力を占有流動フィールド予測にマッピングする単一の 2D 畳み込み層です。これは、次の 8 秒間の各時間を表す一連の 8 つのグリッド マップで構成されます。占有率と流動予測。

写真が示すように:

VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

torchvision の標準 VGG-16 モデルをラスタライズ エンコーダとして使用し、VectorNet (コード https://github.com/Tsinghua -MAR##) に従います。 #S-Lab/DenseTNT) の実装。 VectorNet への入力は、i) B×Nr×9 の形状の道路要素ベクトルのセットで構成されます。ここで、B はバッチ サイズ、Nr=10000 は道路要素ベクトルの最大数、最後の次元 9 は各ベクトルを表し、ベクトル ID 2 つのエンドポイントの位置 (x、y) と方向 (cosθ、sinθ)、ii) シーン内の最大 128 のエージェントのベクトルを含む、B×1280×9 の形状を持つエージェント ベクトルのセット、ここで、各エージェントは観測位置から 10 個のベクトルを持ちます。

VectorNet に従い、最初に各交通要素の ID に従ってローカル マップを実行し、次にすべてのローカル フィーチャに対してグローバル マップを実行して、形状 B×128×N のベクトル化されたフィーチャを取得します。N は交通量です。パス要素とインテリジェンスを含む要素の合計。特徴のサイズは MLP 層を通じてさらに 4 倍に拡大され、最終的なベクトル化特徴 V が得られます。その形状は B × 512 × N であり、その特徴サイズは画像特徴のチャネル サイズと一致します。

VGG の各レベルの出力特徴は、入力イメージと 512 の隠れ次元を基準にして {C1、C2、C3、C4、C5} として表され、ストライドは {1、2、4、8 です。 , 16} ピクセル。ベクトル化された特徴Vは、クロスアテンションモジュールを通じて形状B×512×16×16のラスタライズされた画像特徴C5と融合され、同じ形状のF5が得られる。クロスアテンションのクエリ項目は、256 個のトークンを含む B×512×256 形状に平坦化された画像特徴 C5 であり、キー項目と値項目は、N 個のトークンを含むベクトル化された特徴 V です。

次に、チャネル次元で F5 と C5 を接続し、2 つの 3×3 畳み込み層を通過して、B×512×16×16 の形状を持つ P5 を取得します。 P5 は FPN スタイルの 2×2 アップサンプリング モジュールを通じてアップサンプリングされ、C4 (B×512×32×32) に接続されて、C4 と同じ形状の U4 が生成されます。次に、交差注意を含む同じ手順に従って、V と U4 の間で別のラウンドの融合が実行され、P4 (B × 512 × 32 × 32) が得られます。最後に、P4 は FPN スタイルのネットワークによって徐々にアップサンプリングされ、{C3, C2, C1} と接続されて、B×512×256×256 の形状を持つ EP1 が生成されます。 P1 を 2 つの 3×3 畳み込み層に通過させて、B×128×256 の形状を持つ最終出力特徴を取得します。

デコーダは、入力チャネル サイズ 128、出力チャネル サイズ 32 (8 ウェイポイント × 4 出力次元) の単一 2D 畳み込み層です。

結果は次のとおりです:

VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う

以上がVectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行うの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Windows 11 上的智能应用控制:如何打开或关闭它Windows 11 上的智能应用控制:如何打开或关闭它Jun 06, 2023 pm 11:10 PM

智能应用控制是Windows11中非常有用的工具,可帮助保护你的电脑免受可能损害数据的未经授权的应用(如勒索软件或间谍软件)的侵害。本文将解释什么是智能应用控制、它是如何工作的,以及如何在Windows11中打开或关闭它。什么是Windows11中的智能应用控制?智能应用控制(SAC)是Windows1122H2更新中引入的一项新安全功能。它与MicrosoftDefender或第三方防病毒软件一起运行,以阻止可能不必要的应用,这些应用可能会减慢设备速度、显示意外广告或执行其他意外操作。智能应用

一文聊聊SLAM技术在自动驾驶的应用一文聊聊SLAM技术在自动驾驶的应用Apr 09, 2023 pm 01:11 PM

定位在自动驾驶中占据着不可替代的地位,而且未来有着可期的发展。目前自动驾驶中的定位都是依赖RTK配合高精地图,这给自动驾驶的落地增加了不少成本与难度。试想一下人类开车,并非需要知道自己的全局高精定位及周围的详细环境,有一条全局导航路径并配合车辆在该路径上的位置,也就足够了,而这里牵涉到的,便是SLAM领域的关键技术。什么是SLAMSLAM (Simultaneous Localization and Mapping),也称为CML (Concurrent Mapping and Localiza

一文读懂智能汽车滑板底盘一文读懂智能汽车滑板底盘May 24, 2023 pm 12:01 PM

01什么是滑板底盘所谓滑板式底盘,即将电池、电动传动系统、悬架、刹车等部件提前整合在底盘上,实现车身和底盘的分离,设计解耦。基于这类平台,车企可以大幅降低前期研发和测试成本,同时快速响应市场需求打造不同的车型。尤其是无人驾驶时代,车内的布局不再是以驾驶为中心,而是会注重空间属性,有了滑板式底盘,可以为上部车舱的开发提供更多的可能。如上图,当然我们看滑板底盘,不要上来就被「噢,就是非承载车身啊」的第一印象框住。当年没有电动车,所以没有几百公斤的电池包,没有能取消转向柱的线传转向系统,没有线传制动系

智能网联汽车线控底盘技术深度解析智能网联汽车线控底盘技术深度解析May 02, 2023 am 11:28 AM

01线控技术认知线控技术(XbyWire),是将驾驶员的操作动作经过传感器转变成电信号来实现传递控制,替代传统机械系统或者液压系统,并由电信号直接控制执行机构以实现控制目的,基本原理如图1所示。该技术源于美国国家航空航天局(NationalAeronauticsandSpaceAdministration,NASA)1972年推出的线控飞行技术(FlybyWire)的飞机。其中,“X”就像数学方程中的未知数,代表汽车中传统上由机械或液压控制的各个部件及相关的操作。图1线控技术的基本原理

智能汽车规划控制常用控制方法详解智能汽车规划控制常用控制方法详解Apr 11, 2023 pm 11:16 PM

控制是驱使车辆前行的策略。控制的目标是使用可行的控制量,最大限度地降低与目标轨迹的偏差、最大限度地提供乘客的舒适度等。如上图所示,与控制模块输入相关联的模块有规划模块、定位模块和车辆信息等。其中定位模块提供车辆的位置信息,规划模块提供目标轨迹信息,车辆信息则包括档位、速度、加速度等。控制输出量则为转向、加速和制动量。控制模块主要分为横向控制和纵向控制,根据耦合形式的不同可以分为独立和一体化两种方法。1 控制方法1.1 解耦控制所谓解耦控制,就是将横向和纵向控制方法独立分开进行控制。1.2 耦合控

一文读懂智能汽车驾驶员监控系统一文读懂智能汽车驾驶员监控系统Apr 11, 2023 pm 08:07 PM

驾驶员监控系统,缩写DMS,是英文Driver Monitor System的缩写,即驾驶员监控系统。主要是实现对驾驶员的身份识别、驾驶员疲劳驾驶以及危险行为的检测功能。福特DMS系统01 法规加持,DMS进入发展快车道在现阶段开始量产的L2-L3级自动驾驶中,其实都只有在特定条件下才可以实行,很多状况下需要驾驶员能及时接管车辆进行处置。因此,在驾驶员太信任自动驾驶而放弃或减弱对驾驶过程的掌控时可能会导致某些事故的发生。而DMS-驾驶员监控系统的引入可以有效减轻这一问题的出现。麦格纳DMS系统,

李飞飞两位高徒联合指导:能看懂「多模态提示」的机器人,zero-shot性能提升2.9倍李飞飞两位高徒联合指导:能看懂「多模态提示」的机器人,zero-shot性能提升2.9倍Apr 12, 2023 pm 08:37 PM

人工智能领域的下一个发展机会,有可能是给AI模型装上一个「身体」,与真实世界进行互动来学习。相比现有的自然语言处理、计算机视觉等在特定环境下执行的任务来说,开放领域的机器人技术显然更难。比如prompt-based学习可以让单个语言模型执行任意的自然语言处理任务,比如写代码、做文摘、问答,只需要修改prompt即可。但机器人技术中的任务规范种类更多,比如模仿单样本演示、遵照语言指示或者实现某一视觉目标,这些通常都被视为不同的任务,由专门训练后的模型来处理。最近来自英伟达、斯坦福大学、玛卡莱斯特学

AutoGPT star量破10万,这是首篇系统介绍自主智能体的文章AutoGPT star量破10万,这是首篇系统介绍自主智能体的文章Apr 28, 2023 pm 04:10 PM

在GitHub上,AutoGPT的star量已经破10万。这是一种新型人机交互方式:你不用告诉AI先做什么,再做什么,而是给它制定一个目标就好,哪怕像「创造世界上最好的冰淇淋」这样简单。类似的项目还有BabyAGI等等。这股自主智能体浪潮意味着什么?它们是怎么运行的?它们在未来会是什么样子?现阶段如何尝试这项新技术?在这篇文章中,OctaneAI首席执行官、联合创始人MattSchlicht进行了详细介绍。人工智能可以用来完成非常具体的任务,比如推荐内容、撰写文案、回答问题,甚至生成与现实生活无

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。