ホームページ  >  記事  >  テクノロジー周辺機器  >  論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

王林
王林転載
2023-04-13 22:31:011384ブラウズ

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

#BEV 知覚とは正確には何ですか?自動運転の学界と産業界の両方が注目しているBEV認識の側面は何ですか?この記事ではその答えを明らかにします。

自動運転の分野では、知覚モデルに強力な鳥瞰図 (BEV) 表現を学習させることがトレンドになっており、産業界や学界から幅広い注目を集めています。自動運転分野のこれまでのほとんどのモデルは、正面図や斜視図で検出、セグメンテーション、追跡などのタスクを実行することに基づいていましたが、鳥瞰図 (BEV) 表現により、モデルは遮蔽された車両をより適切に識別できるようになります。後続のモジュール (計画、制御など) の開発と展開を容易にします。

BEV 知覚研究は自動運転の分野に多大な潜在的影響を及ぼしており、学術界や産業界からの長期的な注目と投資に値することがわかります。 ?自動運転の学界や産業界のリーダーが注目するBEV認識の内容とは?この記事では、BEVPerception Survey を通じてその答えを明らかにします。

BEVPerception Survey は、上海人工知能研究所の自動運転 OpenDriveLab チームSenseTime Research Institute# のコラボレーションです。 ##共同論文「Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe」の実践ツール提示手法をBEVPercptionとPyTorchベースの最新文献研究に分けて解説オープンソース BEV 認識ツールボックス #のセクション。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

紙のアドレス: https://arxiv.org/abs/2209.05324
  • #プロジェクトアドレス: https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe
  • 要約解釈、技術的解釈BEVP認知調査最新の文献レビュー調査には、主に 3 つの部分 (
BEV カメラ、BEV ライダー、BEV フュージョン

) が含まれています。 BEV カメラは、周囲の複数のカメラからの 3D オブジェクト検出またはセグメンテーションのためのビジョンのみまたはビジョン中心のアルゴリズムを表します。BEV LiDAR は、点群入力の検出またはセグメンテーション タスクを表します。BEV フュージョンは、複数のセンサーからの検出またはセグメンテーション タスクを表します。入力フュージョン メカニズムカメラ、LIDAR、グローバル ナビゲーション システム、オドメトリ、HD マップ、CAN バスなど。

BEV Perception Toolbox

は、BEV カメラに基づく 3D オブジェクト検出用のプラットフォームであり、Waymo データで使用されますJishang は、手動チュートリアルと小規模データセットの実験を実行できる実験プラットフォームを提供します。 図 1: BEVPerception 調査フレームワーク

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

具体的には、BEV カメラは次のことを表します。周囲の複数のカメラからの 3D オブジェクト検出またはセグメンテーションのアルゴリズム、BEV LIDAR は、検出またはセグメンテーション タスクを完了するための入力として点群を使用することを表します、BEV フュージョンは、カメラ、LiDAR、GNSS、オドメトリ、HD などの複数のセンサーの出力を入力として使用します-地図、CANバスなどBEVPercption 文献レビュー調査

BEV カメラ

BEV カメラの認識には 2D 特徴抽出が含まれますコンバーター、ビュートランスフォーマー、3D デコーダーの 3 つの部分で構成されます。以下の図は、BEV カメラの認識フローチャートを示しています。ビュー変換では、3D 情報をエンコードするには 2 つの方法があります - 1 つは 2D フィーチャから奥行き情報を予測する方法、もう 1 つは 3D 空間から 2D フィーチャをサンプリングする方法です。

#

図 2: BEV カメラ認識フローチャート

2D 特徴抽出器については、こちらをご覧ください。 2D 知覚タスクでの豊富な経験は、主な介入トレーニングの形式など、3D 知覚タスクから学ぶことができます。

#ビュー変換モジュール # は、2D 認識システムとは大きく異なる点です。上図に示すように、ビューの変換には 3D 空間から 2D 空間への変換と 2D 空間から 3D 空間への変換の 2 つの方法があり、これら 2 つの変換方法はいずれも 3D で使用されます。システム内の物理に関する事前の知識をスペースに入れたり、監視のために追加の 3D 情報を利用したりできます。すべての 3D 認識メソッドにビュー変換モジュールがあるわけではないことに注意してください。たとえば、一部のメソッドは 2D 空間のフィーチャから 3D 空間のオブジェクトを直接検出します。

3D デコーダ 2D/3D 空間の特徴を受信し、3D 認識結果を出力します。ほとんどの 3D デコーダは、LiDAR ベースの知覚モデルから設計されています。これらの方法は BEV 空間で検出を実行しますが、2D 空間の機能を利用して 3D オブジェクトの位置特定を直接後退させる 3D デコーダがまだいくつかあります。

BEV Lidar

BEV Lidar 認識の一般的なプロセスは、主に 2 つのブランチを組み合わせて点群を変換することです。データをBEV表現に変換します。以下の図は BEV LIDAR センシングのフローチャートを示しており、上のブランチは 3D 空間の点群特徴を抽出して、より正確な検出結果を提供します。下のブランチは 2D 空間で BEV 特徴を抽出し、より効率的なネットワークを提供します。生の点群を操作するポイントベースの方法に加えて、ボクセルベースの方法は、点を離散グリッドにボクセル化し、連続 3D 座標を離散化することでより効率的な表現を提供します。離散ボクセル表現に基づいて、3D 畳み込みまたは 3D スパース畳み込みを使用して点群特徴を抽出できます。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

#図 3: BEV LIDAR センシングのフローチャート

BEV フュージョン

BEV 知覚融合アルゴリズムには、PV 知覚と BEV 知覚の 2 つの方法があり、学術界や産業界に適しています。以下の図は、PV センシングと BEV センシングのフローチャートの比較を示しています。この 2 つの主な違いは、2D から 3D への変換および融合モジュールです。 PV を意識したフローチャートでは、さまざまなアルゴリズムの結果が最初に 3D 空間に変換され、次に事前の知識または手動で設計されたルールを使用して融合されます。 BEV 認識フローチャートでは、PV 特徴マップが BEV パースペクティブに変換され、BEV 空間に融合されて最終結果が得られます。これにより、元の特徴情報が最大限に保持され、過度の手動設計が回避されます。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

#図 4: PV センシング (左) および BEV センシング (右) のフローチャート

BEV センシング モデルに適したデータセット

BEV センシング タスクには多くのデータ セットがあります。通常、データセットはさまざまなシーンで構成されており、各シーンの長さはデータセットごとに異なります。次の表は、学術コミュニティで一般的に使用されるデータ セットをまとめたものです。 Waymo データセットには、他のデータセットよりも多様なシーンと豊富な 3D 検出ボックス アノテーションがあることがわかります。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。#表 1: BEV センシング データセットのリスト

ただし、現在、学術コミュニティ Waymo が開発した BEV 認識タスク用の公的に入手可能なソフトウェアはありません。したがって、Waymo データセット上での BEV センシングタスクの開発を促進したいと考え、Waymo データセットに基づいて開発することを選択しました。

ツールボックス - BEV 認識ツールボックス

BEVFormer は一般的に使用される BEV 認識手法であり、時空間変換機能を使用して、マルチビュー入力からバックボーン ネットワークによって抽出された特徴を BEV 特徴に変換します。次に、BEV の特徴が検出ヘッドに入力されて、最終的な検出結果が得られます。 BEVFormer には 2 つの特徴があり、2D 画像特徴から 3D 特徴への正確な変換と、抽出した BEV 特徴をさまざまな検出ヘッドに適用できます。一連の方法を通じて、BEVFormer のビュー変換品質と最終検出パフォーマンスをさらに向上させました。

CVPR 2022 Waymo Challenge で 1 位を獲得した後、 BEVFormer で、Toolbox - BEV Perception Toolbox## を立ち上げました。 # は、使いやすい Waymo Open Dataset データ処理ツールのセットを提供することにより、モデルのパフォーマンスを大幅に向上させる一連の方法 (データ強化、検出ヘッド、損失関数、モデル統合を含むがこれらに限定されない) を統合します。 、など)、mmdetection3d や detectron2 など、この分野で広く使用されているオープンソース フレームワークと互換性があります。基本的な Waymo データ セットと比較して、BEV 認識ツールボックスは、さまざまなタイプの開発者が使用できるように最適化および使用スキルを向上させます。以下の図は、Waymo データセットに基づく BEV 認識ツールボックスの使用例を示しています。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

#図 5: Waymo データセットに基づくツールボックスの使用例 概要

    BEVPerception Surveyは、高レベルの概念の精緻化とより詳細な詳細な議論を含む、近年のBEV知覚技術研究の全体的な状況を要約しています。 BEV センシングに関連する文献の包括的な分析では、深度推定、ビュー変換、センサー フュージョン、ドメイン アダプテーションなどの中核的な問題をカバーし、産業システムにおける BEV センシングのアプリケーションについてより詳細な説明を提供します。
  • BEVPerception Survey は、理論的な貢献に加えて、一連のトレーニングを含む、カメラベースの 3D 鳥瞰図 (BEV) 物体検出のパフォーマンスを向上させるための非常に実用的なツールボックスも提供します。データ強化戦略、効率的なエンコーダー設計、損失関数設計、テストデータ強化およびモデル統合戦略など、および Waymo データセットでのこれらの技術の実装。私たちは、より多くの研究者が「Use and Take」を実現できるよう支援し、自動運転業界の研究者にさらなる利便性を提供したいと考えています。
BEVPerception Survey が、ユーザーが高性能の BEV 知覚モ​​デルを簡単に使用できるようにするだけでなく、初心者が BEV 知覚を始めるための良い出発点となることを願っています。モデル。私たちは自動運転分野における研究開発の限界を突破することに尽力しており、自動運転関連研究の現実世界への応用可能性を継続的に探求するために、学術コミュニティと意見を共有し、議論を交換することを楽しみにしています。

以上が論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。