ホームページ >テクノロジー周辺機器 >AI >BEV 汎化パフォーマンスにおける NeRF の画期的な進歩: 初のクロスドメイン オープン ソース コードで Sim2Real の実装に成功
バードアイズビュー(BEV)検出は、複数のサラウンドビューカメラを融合して検出する方法です。現在のアルゴリズムのほとんどは同じデータ セットでトレーニングおよび評価されているため、これらのアルゴリズムは変更されていないカメラの内部パラメータ (カメラ タイプ) と外部パラメータ (カメラの配置) にオーバーフィットします。この論文では、未知の領域での物体検出の問題を解決できる、暗黙的レンダリングに基づく BEV 検出フレームワークを提案します。このフレームワークは暗黙的レンダリングを使用して、オブジェクトの 3D 位置と単一ビューの遠近位置の間の関係を確立し、遠近バイアスの修正に使用できます。この方法により、ドメイン汎化 (DG) と教師なしドメイン適応 (UDA) のパフォーマンスが大幅に向上します。この方法は、実際のシナリオでの BEV 検出のトレーニングと評価に仮想データ セットのみを使用する初めての試みであり、仮想と現実の間の障壁を打ち破って閉ループ テストを完了できます。
#この論文の貢献の概要
既存のデータ セット (ソース ドメイン) で BEV 検出アルゴリズムをトレーニングし、未知のデータ セット (ターゲット ドメイン) での検出パフォーマンスを向上させます。たとえば、特定の車両またはシナリオで BEV 検出モデルをトレーニングすると、さまざまな異なる車両やシナリオに直接一般化できます。
BEV 検出のための教師なしドメイン アダプテーション (UDA): 既存のデータ セット (ソース ドメイン) で BEV 検出アルゴリズムをトレーニングし、ターゲット ドメインでラベルなしのデータを使用して検出パフォーマンスを向上させます。たとえば、新しい車両や都市では、教師なしデータを収集するだけで、新しい車両や新しい環境におけるモデルのパフォーマンスを向上させることができます。なお、DG と UDA の唯一の違いは、対象ドメインのラベルなしデータを利用できるかどうかです。
物体の未知の L=[x,y,z] を検出するために、ほとんどの BEV 検出には 2 つの重要な部分があります ( 1) さまざまな視野角からの画像特徴の取得; (2) これらの画像特徴を BEV 空間に融合し、最終的な予測結果を取得します:
上記の式は、ドメインの偏差が特徴抽出段階またはBEV融合ステージ。次に、この記事は付録に進み、2D 結果に投影された最終的な 3D 予測結果の視野角偏差を取得しました。
ここで、k_u、b_u、k_v、および b_v は、BEV のドメイン オフセットに関連しています。エンコーダでは、d(u,v) はモデルの最終予測深度情報です。 c_u と c_v は、UV イメージ平面上のカメラの光学中心の座標を表します。上の方程式は、いくつかの重要な帰結を示しています。 (1) 最終位置オフセットの存在は遠近バイアスをもたらします。これは、遠近バイアスの最適化がドメイン オフセットの軽減に役立つことを示しています。 (2) 単眼結像面上のカメラの光学中心光線上の点の位置も移動します。
直観的には、ドメイン シフトにより BEV 特徴の位置が変更されますが、これはトレーニング データの視点とカメラ パラメーターが制限されているために過学習になります。この問題を軽減するには、BEV の特徴から新しいビュー イメージを再レンダリングすることが重要です。これにより、ネットワークがビューや環境に依存しない特徴を学習できるようになります。そこで本研究では、レンダリング視点の違いによる視点のずれを解決し、モデルの汎化能力を向上させることを目的としています。合計 #PD-BEV 図 1 に示すように、セマンティック レンダリング、ソース ドメインのバイアス除去、ターゲット ドメインのバイアス除去の 3 つの部分に分かれています。セマンティック レンダリングでは、BEV 機能を通じて 2D と 3D の間の遠近関係を確立する方法を説明します。ソース ドメインのバイアス除去では、ソース ドメインでのセマンティック レンダリングを通じてモデルの一般化機能を向上させる方法について説明します。ターゲット ドメインのバイアス軽減とは、セマンティック レンダリングを通じてモデルの一般化機能を向上させるために、ターゲット ドメイン内のラベルのないデータを使用することを指します。
セマンティック レンダリング
多くのアルゴリズムは BEV ボリュームを 2D 特徴に圧縮するため、最初に BEV デコーダを BEV 特徴に使用します。
モデルの汎化パフォーマンスを向上させるには、ソース ドメインで改善する必要がある重要な点がいくつかあります。まず、ソース ドメインの 3D ボックスを利用して、新しくレンダリングされたビューのヒートマップとプロパティを監視し、遠近感のバイアスを軽減できます。第 2 に、正規化された奥行き情報を使用して、画像エンコーダが幾何学的情報をより適切に学習できるようにすることができます。これらの改善は、モデルの汎化パフォーマンスの向上に役立ちます。
この操作により、カメラの内部パラメータと外部パラメータのオーバーフィッティングを軽減し、新しい視点に対するロバスト性を向上させることができます。この論文では、無人運転の分野における新しい視点の RGB 監視の欠如という欠点を回避するために、RGB 画像からの教師あり学習をオブジェクト中心のヒート マップに変換していることは言及する価値があります。
ジオメトリ監視:明確な深度情報を提供すると、マルチカメラ 3D オブジェクト検出のパフォーマンスを効果的に向上させることができます。ただし、ネットワーク予測の深さは、固有パラメーターをオーバーフィットする傾向があります。したがって、この論文では、仮想深度メソッドを利用します。
ここで、BCE() はバイナリ クロスエントロピー損失を表し、D_{pre} は DepthNet の予測深度を表します。 f_u と f_v はそれぞれ像面の u と v の焦点距離であり、U は定数です。ここでの深度は、点群ではなく 3D ボックスを使用して提供される前景の深度情報であることに注意してください。これを行うことで、DepthNet は前景オブジェクトの深度に焦点を当てる可能性が高くなります。最後に、実際の深度情報を使用して意味論的特徴が BEV 平面に持ち上げられると、仮想深度は実際の深度に変換されます。
ターゲット ドメインのバイアスの除去
ターゲット ドメインにはアノテーションがないため、3D ボックス監視を使用してモデルの汎化能力を向上させることはできません。したがって、この論文では、2D 検出結果は 3D 結果よりも堅牢であると説明します。したがって、この論文では、レンダリングされたパースペクティブの監視としてソース ドメインの 2D 事前トレーニング済み検出器を使用し、また、疑似ラベル メカニズムも使用します。
この操作では、正確な 2D 検出を効果的に利用して、ターゲット ドメインの教師なし正則化である BEV 空間の前景ターゲット位置を修正できます。 2D 予測の補正能力をさらに高めるために、擬似手法を使用して予測ヒート マップの信頼性を高めます。このペーパーでは、3.2 の数学的証明と、3D 結果における 2D 投影エラーの原因を説明する補足資料を提供します。なぜこのようにバイアスを除去できるのかについても説明していますので、詳しくは原論文を参照してください。
この記事ではトレーニングを支援するためにいくつかのネットワークが追加されていますが、これらのネットワークは推論中には必要ありません。言い換えれば、私たちの方法は、ほとんどの BEV 検出方法が遠近不変の特徴を学習する状況に適用できます。フレームワークの有効性をテストするために、評価に BEVDepth を使用することを選択します。 BEVDepth の元の損失は、ソース ドメインでメインの 3D 検出監視として使用されます。つまり、アルゴリズムの最終的な損失は次のとおりです。
表 1 は、ドメイン一般化 (DG) および教師なしにおけるさまざまな手法のパフォーマンスを示しています。ドメイン適応 (UDA) ) 協定に基づく効果の比較。その中で、Target-Free は DG プロトコルを表し、Pseudo Label、Coral、AD はいくつかの一般的な UDA メソッドです。グラフからわかるように、これらの方法はすべて、ターゲット ドメインで大幅な改善を達成しています。これは、セマンティック レンダリングが、ドメイン シフトに対する視点不変の特徴を学習するのに役立つ橋渡しとして機能することを示唆しています。さらに、これらの方法はソース ドメインのパフォーマンスを犠牲にすることはなく、ほとんどの場合に何らかの改善をもたらします。特に、DeepAccident は Carla 仮想エンジンに基づいて開発されており、DeepAccident でトレーニングした後、アルゴリズムは満足のいく汎化機能を達成しました。さらに、他の BEV 検出方法もテストされていますが、特別な設計がなければ一般化のパフォーマンスは非常に悪いです。ターゲットドメインで教師なしデータセットを利用する能力をさらに検証するために、UDA ベンチマークも確立され、UDA 手法 (Pseudo Label、Coral、AD を含む) が DG-BEV に適用されました。実験によれば、これらの方法ではパフォーマンスが大幅に向上します。暗黙的レンダリングでは、より優れた汎化パフォーマンスを備えた 2D 検出器を最大限に活用して、3D 検出器の誤った幾何学的情報を修正します。さらに、ほとんどのアルゴリズムはソース ドメインのパフォーマンスを低下させる傾向があるのに対し、私たちの方法は比較的穏やかであることがわかりました。 AD と Coral は、仮想データセットから実際のデータセットに移行すると大幅な改善が見られますが、実際のテストではパフォーマンスの低下が見られることに言及する価値があります。これは、これら 2 つのアルゴリズムがスタイルの変更を処理するように設計されているためですが、スタイルの変更が小さいシーンでは、セマンティック情報が破壊される可能性があります。 Pseudo Label アルゴリズムに関しては、いくつかの比較的良好なターゲット ドメインの信頼度を高めることでモデルの汎化パフォーマンスを向上させることができますが、ターゲット ドメインの信頼度をやみくもに高めると、実際にはモデルが悪化します。実験結果は、この論文のアルゴリズムが DG と UDA で大幅なパフォーマンス向上を達成したことを証明しています。3 つの主要コンポーネントに関するアブレーション実験結果を表 2 に示します: 2D 検出 デバイス事前トレーニング (DPT)、ソース ドメイン デバイアス (SDB) ) およびターゲット ドメインのバイアス除去 (TDB)。実験結果は、各コンポーネントが改善され、SDB と TDB が比較的顕著な効果を示していることを示しています。
表 3 は、BEVFormer および FB に移行できるアルゴリズムを示しています。 OCCアルゴリズム。このアルゴリズムは画像特徴と BEV 特徴に対する追加操作のみを必要とするため、BEV 特徴を備えたアルゴリズムを改善できます。
# 図 5 は、検出されたラベルのないオブジェクトを示しています。 1 行目はラベルの 3D ボックス、2 行目はアルゴリズムの検出結果です。青いボックスは、アルゴリズムがいくつかのラベルのないボックスを検出できることを示します。これは、この方法が、遠すぎる車両や道路の両側の建物内など、ターゲット ドメイン内のラベルのないサンプルも検出できることを示しています。この論文では、未知の分野での物体検出問題を解決できる、透視偏光解消に基づく一般的なマルチカメラ 3D 物体検出フレームワークを提案します。このフレームワークは、3D 検出結果を 2D カメラ平面に投影し、遠近法のバイアスを補正することで、一貫した正確な検出を実現します。さらに、このフレームワークでは、さまざまな視点から画像をレンダリングすることでモデルの堅牢性を強化する視点偏り解消戦略も導入されています。実験結果は、この方法がドメインの一般化と教師なしドメインの適応において大幅なパフォーマンスの向上を達成することを示しています。さらに、このメソッドは、実際のシーンの注釈を必要とせずに仮想データ セットでトレーニングすることもできるため、リアルタイム アプリケーションや大規模な展開に便利です。これらのハイライトは、マルチカメラ 3D オブジェクト検出を解決する際のこの方法の課題と可能性を示しています。この論文は、Nerf のアイデアを使用して BEV の汎化能力を向上させることを試みており、ラベル付きソース ドメイン データとラベルなしターゲット ドメイン データも使用できます。さらに、自動運転閉ループの潜在的価値を持つ Sim2Real の実験パラダイムが試みられました。定性的および定量的結果の両方から非常に優れた結果が得られており、オープンソース コードは一見の価値があります
元のリンク: https://mp.weixin.qq.com / s/GRLu_JW6qZ_nQ9sLiE0p2g
以上がBEV 汎化パフォーマンスにおける NeRF の画期的な進歩: 初のクロスドメイン オープン ソース コードで Sim2Real の実装に成功の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。