ホームページ > 記事 > テクノロジー周辺機器 > カメラかライダーを選択しますか?堅牢な 3D オブジェクト検出の実現に関する最近のレビュー
自動運転システムは、さまざまなセンサー (カメラ、ライダー、レーダーなど)は、周囲の環境を感知し、アルゴリズムとモデルを使用してリアルタイムの分析と意思決定を行うために使用されます。これにより、車両は道路標識の認識、他車両の検知・追跡、歩行者の行動予測などを行うことで、複雑な交通環境に適応しながら安全に走行することが可能となり、現在広く注目を集めており、将来の交通における重要な開発分野と考えられています。 。 1つ。しかし、自動運転を難しくしているのは、周囲で何が起こっているかを車に理解させる方法を見つけることです。そのためには、周囲環境にある物体 (位置、形状、サイズ、カテゴリなど) を正確に認識して記述することができる、自動運転システムにおける 3D 物体検出アルゴリズムが必要です。この包括的な環境認識により、自動運転システムは運転環境をより深く理解し、より正確な意思決定を行うことができます。
私たちは、主にロバスト性を考慮して、自動運転における 3D 物体検出アルゴリズムの包括的な評価を実施しました。評価では、環境変動、センサーノイズ、位置ずれという 3 つの重要な要素が特定されました。これらの要素は、現実世界の変化する条件下での検出アルゴリズムのパフォーマンスにとって重要です。
では、精度、遅延、堅牢性というパフォーマンス評価の 3 つの主要領域についても詳しく説明します。
この論文は、安全認識におけるマルチモーダル 3D 検出手法の大きな利点を指摘しており、さまざまなセンサーからのデータを融合することで、より豊かで多様な認識能力を提供し、それによって自動運転システムを改善します。 。
上記では、自動運転システムで使用される 3D 物体検出データセットを、主に Evaluate に焦点を当てて簡単に紹介します。さまざまなセンサーモダリティの利点と限界、および公開データセットの特性。
まず、表には、カメラ、点群、マルチモーダル (カメラと LIDAR) の 3 種類のセンサーが示されています。タイプごとに、ハードウェアのコスト、利点、および制限がリストされます。カメラ データの利点は、豊富な色とテクスチャ情報を提供できることですが、深度情報が欠如していることと、光や天候の影響を受けやすいことが限界です。 LiDAR は正確な深度情報を提供できますが、高価で色情報がありません。
次に、自動運転における 3D 物体検出に利用できる公開データセットが他にもいくつかあります。これらのデータセットには、KITTI、nuScenes、Waymo などが含まれます。これらのデータセットの詳細は次のとおりです。 - KITTI データセットには、さまざまな種類のセンサーを使用して複数年にリリースされたデータが含まれています。多数のフレームと注釈のほか、シーン番号とカテゴリ、日中、晴れ、夜、雨などのさまざまなシーン タイプを含むさまざまなシーンが提供されます。 - nuScenes データセットも重要なデータセットであり、複数年にリリースされたデータも含まれています。このデータセットはさまざまなセンサーを使用し、多数のフレームとアノテーションを提供します。さまざまなシーン番号やカテゴリ、さまざまなシーン タイプなど、さまざまなシナリオをカバーしています。 - Waymo データセットも自動運転用のデータセットで、これにも複数年のデータが含まれています。このデータセットはさまざまなタイプのセンサーを使用し、豊富な数のフレームと注釈を提供します。さまざまなシナリオをカバーします
さらに、「クリーンな」自動運転データセットに関する研究についても触れられ、ノイズの多いシナリオ下でのモデルの堅牢性を評価することの重要性が強調されています。過酷な条件下でのカメラの単一モダリティ手法に焦点を当てた研究もあれば、ノイズの問題に焦点を当てたマルチモーダル データセットもあります。たとえば、GROUNDED データセットは、さまざまな気象条件下での地中レーダー測位に焦点を当てているのに対し、ApolloScape オープン データセットには、さまざまな気象条件や照明条件をカバーする LIDAR、カメラ、GPS データが含まれています。
現実世界で大規模なノイズを含むデータを収集するには法外なコストがかかるため、多くの研究では合成データセットの使用が検討されています。たとえば、ImageNet-C は、画像分類モデルにおける一般的な摂動に対処するためのベンチマーク研究です。この研究の方向性はその後、自動運転における 3D 物体検出用に調整された堅牢なデータセットに拡張されました。
事前ガイド付き単眼 3D オブジェクト検出
#カメラのみの単眼 3D オブジェクト検出
最近、マルチビュー 3D オブジェクト検出は次の点で改善されました。精度と堅牢性が高く、前述の単眼視や立体視による3D物体検出方式と比較して優れています。 LiDAR ベースの 3D 物体検出とは異なり、最新のパノラマ鳥瞰図 (BEV) 手法により、高精度マップの必要性がなくなり、検出が 2D から 3D に向上します。この進歩は、マルチビュー 3D オブジェクト検出の重要な発展につながりました。マルチカメラ 3D 物体検出における主な課題は、異なる画像内の同じ物体を識別し、複数の視点入力から身体の特徴を集約することです。現在の方法では、複数のビューを鳥瞰図 (BEV) 空間に均一にマッピングすることが一般的です。
2D 空間から BEV 空間への直接変換は、重大な課題を引き起こします。 LSS は、3D 空間を仲介物として利用する深度ベースの方法を初めて提案しました。この方法では、まず 2D フィーチャのグリッド深度分布を予測し、次にこれらのフィーチャをボクセル空間に持ち上げます。このアプローチにより、2D 空間から BEV 空間へのより効率的な変換が期待できます。 LSS に続いて、CaDDN も同様の深い表現方法を採用しています。ボクセル空間の特徴を BEV 空間に圧縮することで、最終的な 3D 検出を実行します。 CaDDN はマルチビュー 3D オブジェクト検出の一部ではなく、シングルビュー 3D オブジェクト検出であり、その後の詳細な研究に影響を与えたことは注目に値します。 LSS と CaDDN の主な違いは、CaDDN は実際のグラウンドトゥルース深度値を使用して分類深度分布の予測を監視するため、2D 空間から 3D 情報をより正確に抽出できる優れた深層ネットワークを作成できることです。
Transformer テクノロジの影響により、クエリベースのマルチビュー メソッドは 3D 空間から 2D 空間のフィーチャを取得します。 DETR3D は、マルチビュー フィーチャの集約問題を解決するために 3D オブジェクト クエリを導入しました。さまざまな視点から画像特徴を切り出し、学習した 3D 基準点を使用して 2D 空間に投影することで、Bird's Eye View (BEV) 空間の画像特徴を取得します。深さベースのマルチビュー方法とは異なり、クエリベースのマルチビュー方法は、逆クエリ技術を使用してまばらなBEV特徴を取得し、これはその後のクエリベースの開発に根本的に影響を与えます。ただし、明示的な 3D 基準点に関連する潜在的な不正確さのため、PETR は BEV 空間を構築するために暗黙的な位置エンコーディング手法を採用し、その後の作業に影響を与えました。
現在、鳥瞰図 (BEV) 認識に基づく 3D 物体検出ソリューションが急速に開発されています。多くのレビュー記事が存在するにもかかわらず、この分野の包括的なレビューはまだ不十分です。 Shanghai AI Lab と SenseTime Research Institute は、BEV ソリューションの技術ロードマップの詳細なレビューを提供します。ただし、既存のレビューとは異なり、自動運転の安全認識などの重要な側面を考慮しています。カメラベースのソリューションの技術ロードマップと現在の開発状況を分析した後、「精度、遅延、堅牢性」の基本原則に基づいて議論する予定です。安全意識の視点を統合し、自動運転における安全意識の実践を導きます。
ボクセルベースの 3D オブジェクト検出方法は、スパースを組み合わせることを提案します。点群はセグメント化されて通常のボクセルに割り当てられ、その結果、高密度のデータ表現が得られます。このプロセスはボクセル化と呼ばれます。ビューベースの方法と比較して、ボクセルベースの方法は空間畳み込みを使用して 3D 空間情報を効果的に認識し、自動運転における安全認識に不可欠なより高い検出精度を実現します。ただし、これらの方法には依然として次の課題があります:
これらの課題を克服するには、データ表現の制限を解決し、ネットワーク機能の機能とターゲット位置の精度を向上させ、複雑なシーンに対するアルゴリズムの理解を強化する必要があります。最適化戦略はさまざまですが、通常はデータ表現とモデル構造の両方を最適化することを目的としています。
PC のディープラーニングの隆盛により、ポイントベースの 3D オブジェクト検出はそのフレームワークの多くを継承し、Detect 3D を提案します。前処理を行わずに元のポイントからオブジェクトを直接抽出します。ボクセルベースの方法と比較して、元の点群は元の情報を最大限に保持するため、きめ細かい特徴の取得に有益であり、結果として高精度が得られます。同時に、PointNet に関する一連の作業により、ポイントベースのメソッドの強力な基盤が自然に提供されます。ポイントベースの 3D オブジェクト検出器には、点群サンプリングと特徴学習という 2 つの基本コンポーネントがあります。現時点では、ポイントベースの手法のパフォーマンスは、コンテキスト ポイントの数と特徴学習で採用されるコンテキスト半径という 2 つの要素によって依然として影響を受けます。 。例: コンテキスト ポイントの数を増やすと、より詳細な 3D 情報を取得できますが、モデルの推論時間が大幅に増加します。同様に、コンテキストの半径を小さくすると、同じ効果が得られる可能性があります。したがって、これら 2 つの要素に適切な値を選択することで、モデルが精度と速度のバランスを達成できるようになります。さらに、点群内の各点を計算する必要があるため、点群のサンプリング プロセスが点ベースの方法のリアルタイム操作を制限する主な要因になります。具体的には、上記の問題を解決するために、ほとんどの既存の方法は、ポイントベースの 3D オブジェクト検出器の 2 つの基本コンポーネントを中心に最適化されています: 1) ポイント サンプリング 2) 特徴学習
ポイントベースの 3D オブジェクト検出方法は、多くの深層学習フレームワークを継承しており、前処理は実行せずに、元の点群から直接 3D オブジェクトを検出することを提案しています。ボクセルベースの手法と比較して、元の点群は元の情報を最大限に保持するため、きめの細かい特徴を取得することができ、高い精度が得られます。同時に、PointNet の一連の作業は、ポイントベースのメソッドの強力な基盤を提供します。ただし、これまでのところ、ポイントベースの手法のパフォーマンスは、依然として 2 つの要素、つまり特徴学習で使用されるコンテキスト ポイントの数とコンテキスト半径の影響を受けます。たとえば、コンテキスト ポイントの数を増やすと、より詳細な 3D 情報を取得できますが、モデルの推論時間は大幅に増加します。同様に、コンテキスト半径を小さくすると、同じ効果が得られます。したがって、これら 2 つの要素に適切な値を選択することで、モデルの精度と速度のバランスを実現できます。さらに、点群サンプリング プロセスは、点群内の各点に対して計算を実行する必要があるため、ポイントベースの方法のリアルタイム操作を制限する主な要因です。これらの問題を解決するために、既存の方法は主に、ポイントベースの 3D オブジェクト検出器の 2 つの基本コンポーネント、1) 点群サンプリング、2) 特徴学習を中心に最適化しています。
最遠点サンプリング (FPS) は PointNet から派生したもので、ポイントベースの手法で広く使用されている点群サンプリング手法です。その目標は、元の点群から代表的な点のセットを選択して、それらの間の距離を最大化し、点群全体の空間分布を最適にカバーすることです。 PointRCNN は、PointNet をバックボーン ネットワークとして使用する、ポイントベースの手法の中で画期的な 2 段階の検出器です。最初の段階では、点群からボトムアップ方式で 3D 提案を生成します。第 2 段階では、意味論的な特徴と局所的な空間特徴を組み合わせることによって提案が洗練されます。ただし、既存の FPS ベースの手法には依然としていくつかの問題があります: 1) 検出に関係のないポイントもサンプリング プロセスに関与し、追加の計算負荷が生じます; 2) ポイントがオブジェクトのさまざまな部分に不均一に分布し、その結果、サンプリング戦略が最適ではなくなります。これらの問題に対処するために、その後の作業では FPS のような設計パラダイムを採用し、セグメンテーション、ランダム サンプリング、特徴空間サンプリング、ボクセル ベースのサンプリング、レイ グループ ベースのサンプリングに基づいた背景ポイント フィルタリングなどの改善が行われました。
ポイントベースの 3D オブジェクト検出方法の特徴学習段階は、まばらな点群データから識別可能な特徴表現を抽出することを目的としています。特徴学習段階で使用されるニューラル ネットワークは、次の特性を持つ必要があります: 1) 不変性、点群バックボーン ネットワークは入力点群の次数に影響されない必要があります; 2) ローカル認識機能があり、ローカル エリアを感知してモデル化できます。 、ローカル特徴を抽出する、3)コンテキスト情報を統合し、グローバルおよびローカルコンテキスト情報から特徴を抽出する機能。上記の特性に基づいて、生の点群を処理するために多数の検出器が設計されています。ほとんどのメソッドは、使用されるコア オペレーターに従って次のように分類できます: 1) PointNet ベースのメソッド、2) グラフ ニューラル ネットワーク ベースのメソッド、3) Transformer ベースのメソッド。
PointNet ベースのメソッドは、主にセットの抽象化に依存して、元の点をダウンサンプリングし、ローカル情報を集約し、元の対称性の不変性を維持しながらコンテキスト情報を統合します。ポイントの。 Point-RCNN は、ポイントベースの手法の中で初の 2 段階の作業であり、優れたパフォーマンスを実現しますが、依然として計算コストが高いという問題に直面しています。その後の研究では、検出プロセスに追加のセマンティック セグメンテーション タスクを導入して、検出にほとんど寄与しない背景ポイントを除外することで、この問題を解決しました。
グラフ ニューラル ネットワーク (GNN) には、適応構造、動的近傍、ローカルおよびグローバルのコンテキスト関係を構築する機能、および定期的なサンプリングの堅牢性。 Point-GNN は、自動登録メカニズム、マージ、スコアリング操作を通じてオブジェクトのカテゴリと形状を予測する単一ステージのグラフ ニューラル ネットワークを設計する先駆的な研究であり、3D オブジェクト検出の新しい方法としてグラフ ニューラル ネットワークの使用を実証しています。潜在的。
近年、Transformer (Transformer) は点群解析で研究されており、多くのタスクで良好なパフォーマンスを発揮しています。たとえば、Pointformer は 3D 点群を処理するローカルおよびグローバル アテンション モジュールを導入し、ローカル Transformer モジュールはローカル領域内の点間の相互作用をモデル化するために使用され、グローバル Transformer はシーンレベルのコンテキスト認識表現を学習することを目的としています。グループフリーは、点群内のすべての点を直接利用して、各オブジェクト候補の特徴を計算します。各点の寄与は、自動的に学習されたアテンション モジュールによって決定されます。これらの方法は、非構造化および順序付けされていない生の点群の処理における Transformer ベースの方法の可能性を示しています。
点群ベースの 3D オブジェクト検出方法は、高解像度を提供し、元のデータの空間構造を保持しますが、面スパースなデータを扱う場合、計算が非常に複雑になり非効率になります。対照的に、ボクセルベースの方法は、構造化されたデータ表現を提供し、計算効率を向上させ、従来の畳み込みニューラル ネットワーク テクノロジーの適用を容易にします。ただし、離散化プロセスにより、微細な空間的詳細が失われることがよくあります。これらの問題を解決するために、ポイントボクセル (PV) ベースの方法が開発されました。ポイントボクセル手法は、ポイントベース手法のきめ細かい情報取得機能とボクセルベース手法の計算効率を活用することを目的としています。これらの方法を統合することにより、ポイントボクセルベースの方法は点群データをより詳細に処理し、全体的な構造と微細幾何学的詳細をキャプチャできます。自動運転システムの意思決定の精度は高精度の検出結果に依存するため、これは自動運転における安全認識にとって非常に重要です。
ポイントボクセル法の主な目標は、ポイントツーボクセルまたはボクセルツーポイント変換を通じて、ボクセルとポイント間のフィーチャの相互作用を実現することです。多くの研究が、バックボーン ネットワークでポイントとボクセルの特徴融合を利用するというアイデアを検討してきました。これらの方法は、1) 初期融合、2) 後期融合の 2 つのカテゴリに分類できます。
a) 初期融合: いくつかの方法では、ボクセルとポイントの特徴を融合するための新しい畳み込み演算子の使用が検討されており、PVCNN はこの方向での最初の研究となる可能性があります。このアプローチでは、ボクセルベースのブランチはまずポイントを低解像度のボクセル グリッドに変換し、畳み込みを通じて隣接するボクセルの特徴を集約します。次に、デボクセル化と呼ばれるプロセスを通じて、ボクセル レベルの特徴がポイント レベルの特徴に変換され、ポイントベースの分岐によって取得された特徴と融合されます。ポイントベースの分岐では、個々のポイントごとに特徴が抽出されます。近隣情報を集約しないため、この方法は高速に実行できます。その後、SPVCNN は PVCNN に基づいて物体検出の分野に拡張されました。補助タスクやマルチスケール特徴の融合など、さまざまな観点から改善を試みる方法もあります。
b) 融合後: この一連の方法では、主に 2 段階の検出フレームワークが使用されます。まず、ボクセルベースのアプローチを使用して、予備的なオブジェクトの提案が生成されます。次に、ポイントレベルの特徴を使用して、検出フレームを正確に分割します。 Shi et al. によって提案された PV-RCNN は、ポイントボクセルベースの方法におけるマイルストーンです。これは、第 1 段階の検出器として SECOND を使用し、キーポイント特徴を融合するための RoI グリッド プーリングを備えた第 2 段階の改良段階を提案しています。その後の研究は主に上記のパラダイムに従い、第 2 段階の検出の進歩に焦点を当てます。注目すべき開発には、アテンション メカニズム、スケールを意識したプーリング、ポイント密度を意識したリファインメント モジュールなどがあります。
ポイント ボクセル ベースの方法は、ボクセル ベースの方法の計算効率と、ポイント ベースの方法に基づいて詳細な情報をキャプチャする機能の両方を備えています。ただし、ポイント対ボクセルまたはボクセル対ポイントの関係を構築したり、ボクセルとポイントの特徴を融合すると、追加の計算オーバーヘッドが発生します。したがって、ポイントボクセルベースの方法は、ボクセルベースの方法と比較してより優れた検出精度を達成できますが、推論時間は増加します。
#4. マルチモーダル 3D オブジェクト検出
##4.1 投影ベースの 3D オブジェクト検出
点投影に基づく 3D オブジェクト検出
: このタイプの方法は、画像の特徴を元の点群に投影することにより、元の点群データの表現能力を高めます。これらの方法の最初のステップは、キャリブレーション マトリックスを使用して、LIDAR ポイントと画像ピクセル間の強い相関関係を確立することです。次に、データを追加することで点群の特徴が強化されます。この機能強化には 2 つの形式があります。1 つはセグメンテーション スコアを結合することによるもの (PointPainting など)、もう 1 つは関連するピクセルからの CNN 特徴を使用するもの (MVP など)。 PointPainting はセグメンテーション スコアを追加することで LIDAR ポイントを強化しますが、画像内の色とテクスチャの詳細を効果的にキャプチャするには限界があります。これらの問題を解決するために、FusionPainting などのより洗練された方法が開発されました。VirConv、MSMDFusion、SFD は擬似点群を通じて統一空間を構築し、特徴学習の前に投影が行われます。直接投影によってもたらされる問題は、その後の特徴学習によって解決されます。要約すると、統合されたフィーチャベースの 3D オブジェクト検出方法は、現在、非常に正確で堅牢なソリューションを表しています。これらには射影行列が含まれていますが、この射影はマルチモーダル フュージョン間では発生しないため、非射影 3D オブジェクト検出方法とみなされます。自動投影 3D オブジェクト検出方法とは異なり、投影誤差の問題を直接解決するわけではありませんが、統一空間を構築し、マルチモーダル 3D オブジェクト検出の複数の次元を考慮して、非常に堅牢なマルチモーダル特徴を取得することを選択します。
3D オブジェクト検出は、自動運転の知覚において重要な役割を果たします。近年、この分野は急速に発展し、数多くの研究論文が発表されています。センサーによって生成される多様なデータ形式に基づいて、これらの方法は主に、画像ベース、点群ベース、およびマルチモーダルの 3 つのタイプに分類されます。これらの方法の主な評価指標は、高精度と低遅延です。多くのレビューがこれらのアプローチを要約し、主に「高精度と低遅延」の中核原則に焦点を当て、技術的な軌跡を説明しています。
しかし、自動運転技術がブレークスルーから実用化に移行する過程において、既存のレビューは安全認識を中心的な焦点として捉えておらず、安全認識に関連する現在の技術的道筋をカバーできていません。たとえば、最近のマルチモーダル融合手法は実験段階で堅牢性についてテストされることがよくありますが、この側面は現在のレビューでは十分に考慮されていません。
したがって、重要な側面として「精度、遅延、堅牢性」に焦点を当てて、3D オブジェクト検出アルゴリズムを再検討してください。私たちは、安全認識の観点からの再分類に特に重点を置いて、以前のレビューを再分類します。この研究が、高精度の限界を探るだけでなく、3D 物体検出に関する将来の研究に新たな洞察を提供することが期待されています。
以上がカメラかライダーを選択しますか?堅牢な 3D オブジェクト検出の実現に関する最近のレビューの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。