視覚的自動運転のための最新の技術的ルートの簡単な分析-AI-php.cn

ホームページ

テクノロジー周辺機器

視覚的自動運転のための最新の技術的ルートの簡単な分析

王林

Apr 11, 2023 pm 08:29 PM

オートパイロット

背景

自動運転は予測段階から産業化段階へと段階的に移行しており、その具体的な性能は4つのポイントに分けられます。まず、ビッグデータの文脈では、データセットの規模が急速に拡大しています。その結果、これまで小規模なデータセットで開発されたプロトタイプの詳細は大幅に除外され、大規模なデータセットで有効な作業のみが抽出されることになります。・スケールデータは残ります。 2 つ目は、単眼シーンから多視点シーンへの焦点の切り替えであり、これにより複雑さが増します。次に、出力空間を画像空間から BEV 空間に移すなど、アプリケーションフレンドリーな設計への傾向があります。

最後に、純粋に精度を追求することから、徐々に推論速度も同時に考慮するように変更していきます。同時に、自動運転シナリオでは迅速な応答が求められるため、パフォーマンス要件では速度が考慮され、さらにエッジデバイスへの展開方法もより考慮されます。

背景のもう 1 つの部分は、過去 10 年間で視覚認識が深層学習によって急速に発展したことです。多くの研究が行われ、次のような主流の方向での研究もいくつかありました。分類、検出、セグメンテーション。かなり成熟したパラダイム。自動運転シナリオにおける視覚知覚の開発プロセスでは、特徴エンコーディングのターゲット定義、知覚パラダイム、監視などの側面が、これらの主流の方向に大きく依存しているため、自動運転の知覚に取り組む前に、これらの主流の方向を検討する必要があります。少し。

これらの背景に対して、図 1 に示すように、大規模なデータセットに対する多数の 3D ターゲット検出の研究が過去 1 年間に登場しました (赤色でマークされたものは、最初のもの) アルゴリズム)。

視覚的自動運転のための最新の技術的ルートの簡単な分析

#図 1 過去 1 年間の 3 次元ターゲット検出の開発

技術的ルート

リフティング

自動運転シナリオにおける視覚認識と主流の視覚との違いは主に次の点にあります。対象定義空間は異なり、主流の視覚認識の対象は画像空間で定義されますが、自動運転シーンの対象は 3 次元空間で定義されます。入力がすべて画像の場合、3 次元空間で結果を取得するにはリフトプロセスが必要であり、これは自動運転における視覚の中心的な問題です。

Lift オブジェクトの問題を解く方法は、入力、中間特徴、出力に分けることができます。入力レベルの例として、視点の変更があります。原理は、画像を使用して推論することです。深度情報を使用して画像の RGB 値を 3 次元空間に投影し、色付きの点群を取得します。点群検出の関連作業は後ほど続きます。

現在、より有望なものは、フィーチャレベルの変換またはフィーチャレベルのリフトです。たとえば、DETR3D では、これらはすべてフィーチャレベルで空間変更を実行します。画像レベルの特徴を抽出するための計算量は少なく、出力レベルのルックアラウンド結果融合の問題も回避できます。もちろん、機能レベルの変換には、通常、奇妙な OP が使用され、デプロイメントが不親切になるなど、いくつかの典型的な問題もあります。

現在、特徴レベルでのリフトプロセスは、主に深度および注意メカニズム戦略に基づいて比較的堅牢であり、代表的なものはそれぞれ BEVDet と DETR3D です。深度ベースの戦略は、画像の各点の深度を計算し、カメラのイメージングモデルに従って特徴を 3 次元空間に投影することによってリフトのプロセスを完了します。注意メカニズムに基づく戦略は、3 次元空間内のオブジェクトをクエリとして事前定義し、内部パラメータと外部パラメータを通じて 3 次元空間の中点に対応する画像の特徴をキーと値として見つけます。注意を通じて 3 次元の物体を計算する、空間内の物体の特性。

現在のすべてのアルゴリズムは、基本的に、深度に基づいているか、注意メカニズムに基づいているかにかかわらず、カメラモデルに大きく依存しており、そのため、キャリブレーションに対する感度が高く、一般に複雑な計算プロセスが発生します。カメラモデルを放棄するアルゴリズムは堅牢性に欠けることが多いため、この点はまだ完全に成熟していません。

時間的

時間的情報は、ターゲット検出の効果を効果的に向上させることができます。自動運転シナリオでは、ターゲットの速度が現在のシナリオにおける主要な認識ターゲットの 1 つであるため、タイミングはより深い意味を持ちます。速度の焦点は変化にあり、単一フレームデータには十分な変化情報が含まれていないため、時間次元で変化情報を提供するにはモデリングが必要です。既存の点群時系列モデリング方法は、複数のフレームの点群を入力として混合することで、比較的密度の高い点群を取得し、検出をより正確に行うことができます。さらに、マルチフレーム点群には連続情報が含まれており、その後のネットワークトレーニングプロセス中に、BP を使用してこの連続情報を抽出し、連続情報を必要とする速度推定などのタスクを解決する方法を学習します。

視覚のタイミングモデリング手法は、主に BEVDet4D と BEVFormer から来ています。 BEVDet4D は、2 つのフレームの特徴を単純に融合することで、後続のネットワークに継続的な情報を提供します。もう 1 つのパスはアテンションに基づいており、単一時間フレームと反時計回りの両方の特徴をクエリのオブジェクトとして提供し、アテンションを通じてこれら 2 つの特徴を同時にクエリしてタイミング情報を抽出します。

深度

レーダー知覚と比較した自動運転視覚知覚の最大の欠点の 1 つは、深度の精度です。見積もり、支出。論文「確率的および幾何学的深さ: 遠近感のあるオブジェクトの検出」では、GT メソッドを置き換えることによって、さまざまな要因がパフォーマンススコアに与える影響を研究しています。分析の主な結論は、正確な深度推定によりパフォーマンスが大幅に向上するということです。

しかし、奥行き推定は、現在の視覚認識における大きなボトルネックです。これを改善するには、現在、主に 2 つの方法があります。1 つは、PGD で幾何学的制約を使用して、奥行きマップ上で予測を実行することです。リファイン。もう 1 つは、LIDAR を監視として使用して、より堅牢な深度推定値を取得することです。

このプロセスにおいて優れている現在のソリューションである BEVDepth は、トレーニングプロセス中に LIDAR によって提供される深度情報を使用して、変化プロセス中の深度推定と知覚の主なタスクを監視します。同時に。

#マルチモダリティ/マルチタスク

#マルチタスクは希望です統一されたフレームワークを使用してさまざまな認識タスクを完了し、この計算を通じて、リソースの節約や計算推論の高速化という目的を達成できます。しかし、現状の手法は基本的に、統合された特徴量を取得した上で、異なるレベルの特徴量を処理するだけでマルチタスクを実現しているため、タスクのマージ後の性能低下という共通の問題があります。マルチモダリティは、判断全体に直接融合できる形式を見つけて、単純な融合を達成するという点でもほぼ普遍的です。

BEVDet シリーズ

BEVDet

BEVDet ネットワークを図 2 に示します。特徴抽出プロセスでは、主に、抽出された画像空間の特徴を BEV 空間の特徴に変換し、この特徴をさらにエンコードします。、予測に使用できる特徴を取得し、最後に密予測を使用してターゲットを予測します。

視覚的自動運転のための最新の技術的ルートの簡単な分析

#図 2 BEVDet ネットワーク構造

視点変更モジュールのプロセスは次のとおりです。段階的に、変換対象の特徴量を VxCxHxW と仮定し、画像空間上で分類的に奥行きを予測し、ピクセルごとに D 次元の奥行き分布を取得します。これら 2 つを使用して、異なる深度を組み合わせることができます。フィーチャをレンダリングして視覚的なフィーチャを取得し、次にカメラモデルを使用してそれを 3 次元空間に投影し、3 次元空間をボクセル化してから、スプラットプロセスを実行します。 BEV機能を取得します。

視点変更モジュールの非常に重要な機能は、データの速度低下において相互分離の役割を果たすことです。具体的には、カメラの内部パラメータを通じて、カメラ座標系上の点を 3 次元空間に投影することで取得できますが、画像空間内の点にデータ拡張を適用する場合、座標を維持するために、カメラ座標系上の点が不変である場合は、逆変換を行う必要があります。つまり、カメラ座標系上の座標は拡張の前後で変化せず、相互分離効果があります。相互分離の欠点は、画像空間の拡張によって BEV 空間の学習が正規化されないことです。その利点により、BEV 空間学習の堅牢性が向上します。

私たちは、次のことから始めます。実験上記からいくつかの重要な結論を導き出すことができます。まず、BEV 空間エンコーダを使用した後、アルゴリズムが過剰適合に陥る可能性が高くなります。もう 1 つの結論は、BEV 空間の拡大は画像空間の拡大よりもパフォーマンスに大きな影響を与えるということです。

BEV 空間のターゲットサイズとカテゴリの高さの間には相関関係もありますが、同時に、ターゲット間のオーバーラップ長が小さいと、いくつかの問題が発生することが観察されます。画像空間で設計された非極性オブジェクトは、大きな値の抑制方法が最適ではありません。同時アクセラレーション戦略の中核は、並列コンピューティング手法を使用して独立したスレッドをさまざまな小さなコンピューティングタスクに割り当て、並列コンピューティングのアクセラレーションの目的を達成することであり、追加のビデオメモリのオーバーヘッドがないという利点があります。

#BEVDet4D

BEVDet4D ネットワーク構造を図 3 に示します。このネットワークの主な焦点は、リバースタイムフレームの特徴を現在のフレームにどのように適用するかです。入力特徴を保持オブジェクトとして選択しますが、ターゲット変数がすべて定義されているため、この画像特徴は選択しません。 BEV 空間、および画像の特性は、直接タイミングモデリングには適していません。同時に、BEV エンコーダーで連続特徴を抽出する必要があるため、BEV エンコーダーの背後にある特徴は連続融合特徴として選択されません。

視点変更モジュールによって出力される特徴が比較的まばらであることを考慮して、視点変更後に追加の BEV エンコーダーを接続して予備的な BEV 特徴を抽出し、時系列モデリングを実行します。タイミングフュージョン中、反時計回りのフレームのフィーチャを現在のニードルと位置合わせしてスプライスし、タイミングフュージョンを完了します。実際、ここではタイミングフィーチャを抽出するタスクを後のものに任せます。BEV がそれを行います。

視覚的自動運転のための最新の技術的ルートの簡単な分析

#図 3 BEVDet4D ネットワーク構造

設計方法とネットワーク構造ターゲット変数と一致しますか?その前に, まずネットワークのいくつかの重要な特性を理解する必要があります. 1 つ目は特徴の受容野です. ネットワークは BP を通じて学習するため, 特徴の受容野は出力空間によって決まります.

自動運転知覚アルゴリズムの出力空間は、一般に車両周囲の一定範囲の空間として定義され、特徴マップは連続空間上の一様分布とみなすことができ、コーナーポイントを離散サンプルに合わせて配置します。特徴マップの受容野は自車を中心とした一定範囲内に定義されているため、自車の移動に応じて変化するため、異なる2つの時間ノードにおいて、特徴マップの受容野は一定の値を持つことになる。ワールド座標系の値、特定のオフセット。

2 つのフィーチャが直接結合されている場合、2 つのフィーチャマップ内の静的ターゲットの位置は異なり、2 つのフィーチャマップ内の動的ターゲットのオフセットは異なります。セルフテストのオフセットにワールド座標系の動的ターゲットのオフセットを加えたものに等しくなります。パターンの一貫性の原則によれば、スプライスされたフィーチャ内のターゲットのオフセットは自車両に関連しているため、ネットワークの学習目標を設定する際には、これらのフィーチャ内のターゲットの位置の変化である必要があります2 つの機能マップ。

次の式によると、学習ターゲットはセルフテストの動作とは関係がなく、ワールド座標でのターゲットの動作のみに関連していると推定できます。システム。

上記の結果から導き出された学習目標と現在の主流の方法の学習目標の違いは、時間成分が除去されていることと、速度が変位/時間に等しいことですが、これら 2 つの特徴は次のことを提供しません。したがって、この速度目標を学習したい場合、ネットワークは時間成分を正確に推定する必要があり、学習の難易度が高くなります。実際には、トレーニングプロセス中に 2 つのフレーム間の時間を定数値として設定することができ、BP を学習することで一定時間間隔のネットワークを学習できます。

タイムドメインの拡張では、トレーニングプロセス中に異なる時間間隔をランダムに使用します。異なる時間間隔では、2 つの画像内のターゲットのオフセットが異なります。ターゲットオフセットは異なります。異なるオフセットでモデルのルパン効果を実現するために、学習の量も異なります。同時に、モデルはターゲットのオフセットに対して一定の感度を持っています。つまり、間隔が小さすぎると、2 つのフレーム間の変化を認識することが困難になります。したがって、テスト中に適切な時間間隔を選択すると、モデルの汎化パフォーマンスを効果的に向上させることができます。

BEVDepth

この記事では、レーダーを使用して堅牢な深度推定を取得します。図 4 に示します。点群を使用して、変更モジュール内の深度分布を監視します。この監視は疎です。この疎性は、ターゲットによって提供される深度監視に比べて密ですが、すべてのピクセルに到達するわけではありません。正確な深さの監視も比較的疎です。ただし、この深さ推定の一般化パフォーマンスを向上させるために、より多くのサンプルを提供できます。

視覚的自動運転のための最新の技術的ルートの簡単な分析

図 4 BEVDepth ネットワーク構造

この研究のもう 1 つの側面特徴と深度は推定のために 2 つのブランチに分割され、追加の残差ネットワークが深度推定ブランチに追加されて、深度推定ブランチの受容野が増加します。研究者らは、カメラの内部パラメータと外部パラメータの精度によってコンテキストと深度のずれが生じると考えており、深度推定ネットワークが十分に強力でない場合、ある程度の精度が失われると考えています。

最後に、このカメラの内部パラメータが深度推定ブランチ入力として使用され、NSE と同様の方法がチャネルレベルで入力特徴のチャネルを調整するために使用されます。これにより、さまざまなカメラの内部パラメータに対するネットワークの堅牢性が効果的に向上します。

制限事項と関連する議論

まず第一に、自動運転の視覚的認識は最終的に展開に役立ち、展開中にはデータの問題とモデルの問題が関係します。データの問題には多様性の問題とデータアノテーションが含まれます。手動によるアノテーションは非常に高価であるため、将来的には自動アノテーションが実現できるかどうかがわかります。

現時点では、動的ターゲットのラベリングは前例がなく、静的ターゲットの場合は、3D 再構成によって部分的または半自動のラベリングを取得できます。モデルに関して言えば、現在のモデル設計はキャリブレーションに対して堅牢ではないか、キャリブレーションに対して敏感であるため、モデルをキャリブレーションに対してロバストにする方法、またはキャリブレーションから独立させる方法も検討する価値のある問題です。

もう 1 つは、ネットワーク構造の高速化の問題です。一般的な OP を使用して視点の変更を実現できますか? この問題は、ネットワークの高速化プロセスに影響します。

以上が視覚的自動運転のための最新の技術的ルートの簡単な分析の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

革新を調理する：人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル（VLM）の包括的なガイドApr 12, 2025 am 11:58 AM

導入鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか？あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか？

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで：Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

＃1 GoogleはAgent2Agentを起動しました物語：月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ：科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5％のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭：これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、