検索
ホームページテクノロジー周辺機器AI視覚的自動運転のための最新の技術的ルートの簡単な分析

背景

自動運転は予測段階から産業化段階へと段階的に移行しており、その具体的な性能は4つのポイントに分けられます。まず、ビッグ データの文脈では、データ セットの規模が急速に拡大しています。その結果、これまで小規模なデータ セットで開発されたプロトタイプの詳細は大幅に除外され、大規模なデータ セットで有効な作業のみが抽出されることになります。・スケールデータは残ります。 2 つ目は、単眼シーンから多視点シーンへの焦点の切り替えであり、これにより複雑さが増します。次に、出力空間を画像空間から BEV 空間に移すなど、アプリケーションフレンドリーな設計への傾向があります。

最後に、純粋に精度を追求することから、徐々に推論速度も同時に考慮するように変更していきます。同時に、自動運転シナリオでは迅速な応答が求められるため、パフォーマンス要件では速度が考慮され、さらにエッジデバイスへの展開方法もより考慮されます。

背景のもう 1 つの部分は、過去 10 年間で視覚認識が深層学習によって急速に発展したことです。多くの研究が行われ、次のような主流の方向での研究もいくつかありました。分類、検出、セグメンテーション。かなり成熟したパラダイム。自動運転シナリオにおける視覚知覚の開発プロセスでは、特徴エンコーディングのターゲット定義、知覚パラダイム、監視などの側面が、これらの主流の方向に大きく依存しているため、自動運転の知覚に取り組む前に、これらの主流の方向を検討する必要があります。少し。

これらの背景に対して、図 1 に示すように、大規模なデータセットに対する多数の 3D ターゲット検出の研究が過去 1 年間に登場しました (赤色でマークされたものは、最初のもの) アルゴリズム)。

視覚的自動運転のための最新の技術的ルートの簡単な分析

#図 1 過去 1 年間の 3 次元ターゲット検出の開発

技術的ルート

リフティング

自動運転シナリオにおける視覚認識と主流の視覚との違いは主に次の点にあります。対象定義空間は異なり、主流の視覚認識の対象は画像空間で定義されますが、自動運転シーンの対象は 3 次元空間で定義されます。入力がすべて画像の場合、3 次元空間で結果を取得するにはリフト プロセスが必要であり、これは自動運転における視覚の中心的な問題です。

Lift オブジェクトの問題を解く方法は、入力、中間特徴、出力に分けることができます。入力レベルの例として、視点の変更があります。原理は、画像を使用して推論することです。深度情報を使用して画像の RGB 値を 3 次元空間に投影し、色付きの点群を取得します。点群検出の関連作業は後ほど続きます。

現在、より有望なものは、フィーチャレベルの変換またはフィーチャレベルのリフトです。たとえば、DETR3D では、これらはすべてフィーチャ レベルで空間変更を実行します。画像レベルの特徴を抽出するための計算量は少なく、出力レベルのルックアラウンド結果融合の問題も回避できます。もちろん、機能レベルの変換には、通常、奇妙な OP が使用され、デプロイメントが不親切になるなど、いくつかの典型的な問題もあります。

現在、特徴レベルでのリフト プロセスは、主に深度および注意メカニズム戦略に基づいて比較的堅牢であり、代表的なものはそれぞれ BEVDet と DETR3D です。深度ベースの戦略は、画像の各点の深度を計算し、カメラのイメージング モデルに従って特徴を 3 次元空間に投影することによってリフトのプロセスを完了します。注意メカニズムに基づく戦略は、3 次元空間内のオブジェクトをクエリとして事前定義し、内部パラメータと外部パラメータを通じて 3 次元空間の中点に対応する画像の特徴をキーと値として見つけます。注意を通じて 3 次元の物体を計算する、空間内の物体の特性。

現在のすべてのアルゴリズムは、基本的に、深度に基づいているか、注意メカニズムに基づいているかにかかわらず、カメラ モデルに大きく依存しており、そのため、キャリブレーションに対する感度が高く、一般に複雑な計算プロセスが発生します。カメラモデルを放棄するアルゴリズムは堅牢性に欠けることが多いため、この点はまだ完全に成熟していません。

時間的

時間的情報は、ターゲット検出の効果を効果的に向上させることができます。自動運転シナリオでは、ターゲットの速度が現在のシナリオにおける主要な認識ターゲットの 1 つであるため、タイミングはより深い意味を持ちます。速度の焦点は変化にあり、単一フレーム データには十分な変化情報が含まれていないため、時間次元で変化情報を提供するにはモデリングが必要です。既存の点群時系列モデリング方法は、複数のフレームの点群を入力として混合することで、比較的密度の高い点群を取得し、検出をより正​​確に行うことができます。さらに、マルチフレーム点群には連続情報が含まれており、その後のネットワーク トレーニング プロセス中に、BP を使用してこの連続情報を抽出し、連続情報を必要とする速度推定などのタスクを解決する方法を学習します。

視覚のタイミング モデリング手法は、主に BEVDet4D と BEVFormer から来ています。 BEVDet4D は、2 つのフレームの特徴を単純に融合することで、後続のネットワークに継続的な情報を提供します。もう 1 つのパスはアテンションに基づいており、単一時間フレームと反時計回りの両方の特徴をクエリのオブジェクトとして提供し、アテンションを通じてこれら 2 つの特徴を同時にクエリしてタイミング情報を抽出します。

深度

レーダー知覚と比較した自動運転視覚知覚の最大の欠点の 1 つは、深度の精度です。見積もり、支出。論文「確率的および幾何学的深さ: 遠近感のあるオブジェクトの検出」では、GT メソッドを置き換えることによって、さまざまな要因がパフォーマンス スコアに与える影響を研究しています。分析の主な結論は、正確な深度推定によりパフォーマンスが大幅に向上するということです。

しかし、奥行き推定は、現在の視覚認識における大きなボトルネックです。これを改善するには、現在、主に 2 つの方法があります。1 つは、PGD で幾何学的制約を使用して、奥行きマップ上で予測を実行することです。リファイン。もう 1 つは、LIDAR を監視として使用して、より堅牢な深度推定値を取得することです。

このプロセスにおいて優れている現在のソリューションである BEVDepth は、トレーニング プロセス中に LIDAR によって提供される深度情報を使用して、変化プロセス中の深度推定と知覚の主なタスクを監視します。同時に。

#マルチモダリティ/マルチタスク

#マルチタスクは希望です統一されたフレームワークを使用してさまざまな認識タスクを完了し、この計算を通じて、リソースの節約や計算推論の高速化という目的を達成できます。しかし、現状の手法は基本的に、統合された特徴量を取得した上で、異なるレベルの特徴量を処理するだけでマルチタスクを実現しているため、タスクのマージ後の性能低下という共通の問題があります。マルチモダリティは、判断全体に直接融合できる形式を見つけて、単純な融合を達成するという点でもほぼ普遍的です。

BEVDet シリーズ

BEVDet

BEVDet ネットワークを図 2 に示します。特徴抽出プロセスでは、主に、抽出された画像空間の特徴を BEV 空間の特徴に変換し、この特徴をさらにエンコードします。 、予測に使用できる特徴を取得し、最後に密予測を使用してターゲットを予測します。

視覚的自動運転のための最新の技術的ルートの簡単な分析

#図 2 BEVDet ネットワーク構造

視点変更モジュールのプロセスは次のとおりです。段階的に、変換対象の特徴量を VxCxHxW と仮定し、画像空間上で分類的に奥行きを予測し、ピクセルごとに D 次元の奥行き分布を取得します。これら 2 つを使用して、異なる深度を組み合わせることができます。フィーチャをレンダリングして視覚的なフィーチャを取得し、次にカメラ モデルを使用してそれを 3 次元空間に投影し、3 次元空間をボクセル化してから、スプラット プロセスを実行します。 BEV機能を取得します。

視点変更モジュールの非常に重要な機能は、データの速度低下において相互分離の役割を果たすことです。具体的には、カメラの内部パラメータを通じて、カメラ座標系上の点を 3 次元空間に投影することで取得できますが、画像空間内の点にデータ拡張を適用する場合、座標を維持するために、カメラ座標系上の点が不変である場合は、逆変換を行う必要があります。つまり、カメラ座標系上の座標は拡張の前後で変化せず、相互分離効果があります。相互分離の欠点は、画像空間の拡張によって BEV 空間の学習が正規化されないことです。その利点により、BEV 空間学習の堅牢性が向上します。

私たちは、次のことから始めます。実験 上記からいくつかの重要な結論を導き出すことができます。まず、BEV 空間エンコーダを使用した後、アルゴリズムが過剰適合に陥る可能性が高くなります。もう 1 つの結論は、BEV 空間の拡大は画像空間の拡大よりもパフォーマンスに大きな影響を与えるということです。

BEV 空間のターゲット サイズとカテゴリの高さの間には相関関係もありますが、同時に、ターゲット間のオーバーラップ長が小さいと、いくつかの問題が発生することが観察されます。画像空間で設計された非極性オブジェクトは、大きな値の抑制方法が最適ではありません。同時アクセラレーション戦略の中核は、並列コンピューティング手法を使用して独立したスレッドをさまざまな小さなコンピューティング タスクに割り当て、並列コンピューティングのアクセラレーションの目的を達成することであり、追加のビデオ メモリのオーバーヘッドがないという利点があります。

#BEVDet4D

BEVDet4D ネットワーク構造を図 3 に示します。このネットワークの主な焦点は、リバース タイム フレームの特徴を現在のフレームにどのように適用するかです。入力特徴を保持オブジェクトとして選択しますが、ターゲット変数がすべて定義されているため、この画像特徴は選択しません。 BEV 空間、および画像の特性は、直接タイミング モデリングには適していません。同時に、BEV エンコーダーで連続特徴を抽出する必要があるため、BEV エンコーダーの背後にある特徴は連続融合特徴として選択されません。

視点変更モジュールによって出力される特徴が比較的まばらであることを考慮して、視点変更後に追加の BEV エンコーダーを接続して予備的な BEV 特徴を抽出し、時系列モデリングを実行します。タイミング フュージョン中、反時計回りのフレームのフィーチャを現在のニードルと位置合わせしてスプライスし、タイミング フュージョンを完了します。実際、ここではタイミング フィーチャを抽出するタスクを後のものに任せます。BEV がそれを行います。

視覚的自動運転のための最新の技術的ルートの簡単な分析

#図 3 BEVDet4D ネットワーク構造

設計方法とネットワーク構造ターゲット変数と一致しますか?その前に, まずネットワークのいくつかの重要な特性を理解する必要があります. 1 つ目は特徴の受容野です. ネットワークは BP を通じて学習するため, 特徴の受容野は出力空間によって決まります.

自動運転知覚アルゴリズムの出力空間は、一般に車両周囲の一定範囲の空間として定義され、特徴マップは連続空間上の一様分布とみなすことができ、コーナーポイントを離散サンプルに合わせて配置します。特徴マップの受容野は自車を中心とした一定範囲内に定義されているため、自車の移動に応じて変化するため、異なる2つの時間ノードにおいて、特徴マップの受容野は一定の値を持つことになる。ワールド座標系の値、特定のオフセット。

2 つのフィーチャが直接結合されている場合、2 つのフィーチャ マップ内の静的ターゲットの位置は異なり、2 つのフィーチャ マップ内の動的ターゲットのオフセットは異なります。セルフテストのオフセットにワールド座標系の動的ターゲットのオフセットを加えたものに等しくなります。パターンの一貫性の原則によれば、スプライスされたフィーチャ内のターゲットのオフセットは自車両に関連しているため、ネットワークの学習目標を設定する際には、これらのフィーチャ内のターゲットの位置の変化である必要があります2 つの機能マップ。

次の式によると、学習ターゲットはセルフテストの動作とは関係がなく、ワールド座標でのターゲットの動作のみに関連していると推定できます。システム。

上記の結果から導き出された学習目標と現在の主流の方法の学習目標の違いは、時間成分が除去されていることと、速度が変位/時間に等しいことですが、これら 2 つの特徴は次のことを提供しません。したがって、この速度目標を学習したい場合、ネットワークは時間成分を正確に推定する必要があり、学習の難易度が高くなります。実際には、トレーニング プロセス中に 2 つのフレーム間の時間を定数値として設定することができ、BP を学習することで一定時間間隔のネットワークを学習できます。

タイム ドメインの拡張では、トレーニング プロセス中に異なる時間間隔をランダムに使用します。異なる時間間隔では、2 つの画像内のターゲットのオフセットが異なります。ターゲット オフセットは異なります。異なるオフセットでモデルのルパン効果を実現するために、学習の量も異なります。同時に、モデルはターゲットのオフセットに対して一定の感度を持っています。つまり、間隔が小さすぎると、2 つのフレーム間の変化を認識することが困難になります。したがって、テスト中に適切な時間間隔を選択すると、モデルの汎化パフォーマンスを効果的に向上させることができます。

BEVDepth

この記事では、レーダーを使用して堅牢な深度推定を取得します。図 4 に示します。点群を使用して、変更モジュール内の深度分布を監視します。この監視は疎です。この疎性は、ターゲットによって提供される深度監視に比べて密ですが、すべてのピクセルに到達するわけではありません。正確な深さの監視も比較的疎です。ただし、この深さ推定の一般化パフォーマンスを向上させるために、より多くのサンプルを提供できます。

視覚的自動運転のための最新の技術的ルートの簡単な分析

図 4 BEVDepth ネットワーク構造

この研究のもう 1 つの側面特徴と深度は推定のために 2 つのブランチに分割され、追加の残差ネットワークが深度推定ブランチに追加されて、深度推定ブランチの受容野が増加します。研究者らは、カメラの内部パラメータと外部パラメータの精度によってコンテキストと深度のずれが生じると考えており、深度推定ネットワークが十分に強力でない場合、ある程度の精度が失われると考えています。

最後に、このカメラの内部パラメータが深度推定ブランチ入力として使用され、NSE と同様の方法がチャネル レベルで入力特徴のチャネルを調整するために使用されます。これにより、さまざまなカメラの内部パラメータに対するネットワークの堅牢性が効果的に向上します。

制限事項と関連する議論

まず第一に、自動運転の視覚的認識は最終的に展開に役立ち、展開中にはデータの問題とモデルの問題が関係します。データの問題には多様性の問題とデータ アノテーションが含まれます。手動によるアノテーションは非常に高価であるため、将来的には自動アノテーションが実現できるかどうかがわかります。

現時点では、動的ターゲットのラベリングは前例がなく、静的ターゲットの場合は、3D 再構成によって部分的または半自動のラベリングを取得できます。モデルに関して言えば、現在のモデル設計はキャリブレーションに対して堅牢ではないか、キャリブレーションに対して敏感であるため、モデルをキャリブレーションに対してロバストにする方法、またはキャリブレーションから独立させる方法も検討する価値のある問題です。

もう 1 つは、ネットワーク構造の高速化の問題です。一般的な OP を使用して視点の変更を実現できますか? この問題は、ネットワークの高速化プロセスに影響します。

以上が視覚的自動運転のための最新の技術的ルートの簡単な分析の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
在 CARLA自动驾驶模拟器中添加真实智体行为在 CARLA自动驾驶模拟器中添加真实智体行为Apr 08, 2023 pm 02:11 PM

arXiv论文“Insertion of real agents behaviors in CARLA autonomous driving simulator“,22年6月,西班牙。由于需要快速prototyping和广泛测试,仿真在自动驾驶中的作用变得越来越重要。基于物理的模拟具有多种优势和益处,成本合理,同时消除了prototyping、驾驶员和弱势道路使用者(VRU)的风险。然而,主要有两个局限性。首先,众所周知的现实差距是指现实和模拟之间的差异,阻碍模拟自主驾驶体验去实现有效的现实世界

特斯拉自动驾驶算法和模型解读特斯拉自动驾驶算法和模型解读Apr 11, 2023 pm 12:04 PM

特斯拉是一个典型的AI公司,过去一年训练了75000个神经网络,意味着每8分钟就要出一个新的模型,共有281个模型用到了特斯拉的车上。接下来我们分几个方面来解读特斯拉FSD的算法和模型进展。01 感知 Occupancy Network特斯拉今年在感知方面的一个重点技术是Occupancy Network (占据网络)。研究机器人技术的同学肯定对occupancy grid不会陌生,occupancy表示空间中每个3D体素(voxel)是否被占据,可以是0/1二元表示,也可以是[0, 1]之间的

一文通览自动驾驶三大主流芯片架构一文通览自动驾驶三大主流芯片架构Apr 12, 2023 pm 12:07 PM

当前主流的AI芯片主要分为三类,GPU、FPGA、ASIC。GPU、FPGA均是前期较为成熟的芯片架构,属于通用型芯片。ASIC属于为AI特定场景定制的芯片。行业内已经确认CPU不适用于AI计算,但是在AI应用领域也是必不可少。 GPU方案GPU与CPU的架构对比CPU遵循的是冯·诺依曼架构,其核心是存储程序/数据、串行顺序执行。因此CPU的架构中需要大量的空间去放置存储单元(Cache)和控制单元(Control),相比之下计算单元(ALU)只占据了很小的一部分,所以CPU在进行大规模并行计算

自动驾驶汽车激光雷达如何做到与GPS时间同步?自动驾驶汽车激光雷达如何做到与GPS时间同步?Mar 31, 2023 pm 10:40 PM

gPTP定义的五条报文中,Sync和Follow_UP为一组报文,周期发送,主要用来测量时钟偏差。 01 同步方案激光雷达与GPS时间同步主要有三种方案,即PPS+GPRMC、PTP、gPTPPPS+GPRMCGNSS输出两条信息,一条是时间周期为1s的同步脉冲信号PPS,脉冲宽度5ms~100ms;一条是通过标准串口输出GPRMC标准的时间同步报文。同步脉冲前沿时刻与GPRMC报文的发送在同一时刻,误差为ns级别,误差可以忽略。GPRMC是一条包含UTC时间(精确到秒),经纬度定位数据的标准格

特斯拉自动驾驶硬件 4.0 实物拆解:增加雷达,提供更多摄像头特斯拉自动驾驶硬件 4.0 实物拆解:增加雷达,提供更多摄像头Apr 08, 2023 pm 12:11 PM

2 月 16 日消息,特斯拉的新自动驾驶计算机,即硬件 4.0(HW4)已经泄露,该公司似乎已经在制造一些带有新系统的汽车。我们已经知道,特斯拉准备升级其自动驾驶硬件已有一段时间了。特斯拉此前向联邦通信委员会申请在其车辆上增加一个新的雷达,并称计划在 1 月份开始销售,新的雷达将意味着特斯拉计划更新其 Autopilot 和 FSD 的传感器套件。硬件变化对特斯拉车主来说是一种压力,因为该汽车制造商一直承诺,其自 2016 年以来制造的所有车辆都具备通过软件更新实现自动驾驶所需的所有硬件。事实证

端到端自动驾驶中轨迹引导的控制预测:一个简单有力的基线方法TCP端到端自动驾驶中轨迹引导的控制预测:一个简单有力的基线方法TCPApr 10, 2023 am 09:01 AM

arXiv论文“Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline“, 2022年6月,上海AI实验室和上海交大。当前的端到端自主驾驶方法要么基于规划轨迹运行控制器,要么直接执行控制预测,这跨越了两个研究领域。鉴于二者之间潜在的互利,本文主动探索两个的结合,称为TCP (Trajectory-guided Control Prediction)。具

一文聊聊自动驾驶中交通标志识别系统一文聊聊自动驾驶中交通标志识别系统Apr 12, 2023 pm 12:34 PM

什么是交通标志识别系统?汽车安全系统的交通标志识别系统,英文翻译为:Traffic Sign Recognition,简称TSR,是利用前置摄像头结合模式,可以识别常见的交通标志 《 限速、停车、掉头等)。这一功能会提醒驾驶员注意前面的交通标志,以便驾驶员遵守这些标志。TSR 功能降低了驾驶员不遵守停车标志等交通法规的可能,避免了违法左转或者无意的其他交通违法行为,从而提高了安全性。这些系统需要灵活的软件平台来增强探测算法,根据不同地区的交通标志来进行调整。交通标志识别原理交通标志识别又称为TS

一文聊聊SLAM技术在自动驾驶的应用一文聊聊SLAM技术在自动驾驶的应用Apr 09, 2023 pm 01:11 PM

定位在自动驾驶中占据着不可替代的地位,而且未来有着可期的发展。目前自动驾驶中的定位都是依赖RTK配合高精地图,这给自动驾驶的落地增加了不少成本与难度。试想一下人类开车,并非需要知道自己的全局高精定位及周围的详细环境,有一条全局导航路径并配合车辆在该路径上的位置,也就足够了,而这里牵涉到的,便是SLAM领域的关键技术。什么是SLAMSLAM (Simultaneous Localization and Mapping),也称为CML (Concurrent Mapping and Localiza

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン