ホームページ >テクノロジー周辺機器 >AI >LidaRF: ストリート ビュー神経放射線場の LiDAR データの研究 (CVPR\'24)
光のリアルなシミュレーションは、自動運転などのアプリケーションで重要な役割を果たします。ニューラル ネットワーク放射場 (NeRF) の進歩により、デジタル 3D アセットが自動的に作成され、スケーラビリティが向上する可能性があります。ただし、路上でのカメラの動きの高い共線性と高速でのサンプリングがまばらなため、街路シーンの再構成の品質が低下します。一方、アプリケーションでは、車線変更などの動作を正確にシミュレートするために、入力視点から逸脱したカメラ視点からのレンダリングが必要になることがよくあります。 LidaRF は、ストリート ビューでの NeRF の品質を向上させるために LIDAR データをより適切に利用できるようにするいくつかの洞察を提供します。まず、フレームワークは LiDAR データから幾何学的シーン表現を学習し、暗黙的なメッシュベースのデコーダーと組み合わせて、表示された点群によって提供されるより強力な幾何学的情報を提供します。次に、堅牢なオクルージョンを意識した深度教師ありトレーニング戦略が提案され、高密度の LiDAR 点群を使用して強力な情報を蓄積することで、ストリート シーンでの NeRF 再構成の品質を向上させることができます。第三に、強化されたトレーニング パースペクティブは LIDAR ポイントの強度に基づいて生成され、実際の運転シナリオでの新しいパースペクティブ合成で得られた大幅な改善をさらに改善します。 このようにして、LIDAR データからフレームワークによって学習された、より正確な幾何学的シーン表現を使用して、この方法を 1 つのステップで改善し、実際の運転シナリオでより優れた大幅な改善を得ることができます。
LidaRF の貢献は主に 3 つの側面に反映されています:
(i) LIDAR エンコーディングとグリッド機能を組み合わせてシーン表現を強化します。 LIDAR は自然深度モニタリング ソースとして使用されてきましたが、LIDAR を NeRF 入力に組み込むと、幾何学的誘導の大きな可能性が得られますが、実装は簡単ではありません。この目的のために、グリッドベースの表現が借用されますが、点群から学習した特徴がグリッドに融合されて、明示的な点群表現の利点が継承されます。 3D センシング フレームワークの立ち上げの成功により、3D スパース畳み込みネットワークは、LIDAR 点群のローカルおよびグローバル コンテキストから幾何学的特徴を抽出するための効果的かつ効率的な構造として利用されます。
(ii) 堅牢なオクルージョンを意識した深度監視。既存の研究と同様に、ここでも LIDAR が詳細な監視のソースとして使用されていますが、より詳細なものです。 LIDAR ポイントのまばらさによって、特に低テクスチャ領域ではその有効性が制限されるため、隣接するフレーム全体で LIDAR ポイントを集約することによって、より高密度の深度マップが生成されます。しかし、このようにして得られた深度マップはオクルージョンを考慮していないため、誤った深度監視が発生します。したがって、クラス学習の方法を借用した、堅牢な深さ監視スキームが提案されます。つまり、近距離フィールドから遠距離フィールドまで深度を徐々に監視し、NeRF トレーニングプロセス中に間違った深度を徐々にフィルタリングして、より効果的に深度を抽出します。 LIDAR から深度を学習します。
(iii) LiDAR ベースのビュー拡張。さらに、運転シナリオではビューがまばらで対象範囲が限られているため、LIDAR を利用してトレーニング ビューを高密度化します。つまり、蓄積された LIDAR ポイントが新しいトレーニング ビューに投影されます。これらのビューは運転軌跡から多少逸脱する可能性があることに注意してください。 LIDAR から投影されたこれらのビューはトレーニング データセットに追加されますが、オクルージョンの問題は考慮されていません。ただし、前述の監視スキームを適用してオクルージョン問題を解決し、パフォーマンスを向上させます。私たちの手法は一般的なシーンにも適用可能ですが、今回は街路シーンの評価に重点を置き、既存の手法と比較して量的・質的に大幅な改善を実現しました。
LidaRF は、入力ビューからの大きな逸脱を必要とする興味深いアプリケーションでも利点を示しており、困難なストリート シーン アプリケーションにおける NeRF の品質を大幅に向上させます。
LidaRF は、UNet を使用して、ハフ コーディングと LiDAR コーディングを組み合わせて、対応する濃度と色を入力および出力するためのメソッドです。さらに、強化されたトレーニング データは、提案された堅牢な深度監視スキームを使用して幾何学的予測をトレーニングするために LIDAR 投影によって生成されます。
LiDAR 点群には強力な幾何学的誘導の可能性があり、これは NeRF (Neural Rendering Field) にとって非常に価値があります。ただし、シーン表現を LIDAR フィーチャのみに依存すると、(時間的に蓄積されるにもかかわらず) LIDAR ポイントのまばらな性質により、低解像度のレンダリングが発生します。さらに、LIDAR の視野は限られているため、たとえば、特定の高さ以上の建物の表面をキャプチャできないため、これらの領域では空白のレンダリングが発生します。対照的に、私たちのフレームワークは、LIDAR 機能と高解像度空間グリッド機能を融合して、両方の利点を活用し、一緒に学習して高品質で完全なシーン レンダリングを実現します。
LiDAR 特徴抽出。各 LIDAR ポイントの幾何学的特徴抽出プロセスについては、図 2 を参照して詳しく説明します。まず、シーケンス全体のすべてのフレームの LIDAR 点群が集約されて、より高密度の点群コレクションが構築されます。次に、点群はボクセル グリッドにボクセル化され、各ボクセル ユニット内の点の空間位置が平均されて、各ボクセル ユニットの 3D 特徴が生成されます。 3D 認識フレームワークの広範な成功に触発され、シーン ジオメトリの特徴はボクセル グリッド上の 3D スパース UNet を使用してエンコードされ、シーン ジオメトリのグローバル コンテキストから学習できるようになります。 3D スパース UNet は、ボクセル グリッドとその 3 次元特徴を入力として受け取り、占有された各ボクセルは n 次元特徴で構成されます。
Lidar機能クエリ。レンダリングされるレイに沿った各サンプル ポイント x について、検索半径 R 内に少なくとも K 個の近くの LIDAR ポイントがある場合、その LIDAR フィーチャがクエリされます。それ以外の場合、その LIDAR フィーチャは null (つまり、すべて 0) に設定されます。具体的には、固定半径最近傍法 (FRNN) を使用して、 x に関連する K 個の最近接 LIDAR ポイント インデックス セットを検索します ( で示されます)。トレーニング プロセスを開始する前にレイ サンプリング ポイントを事前に決定する [9] の方法とは異なり、NeRF トレーニングが収束するにつれて領域ネットワークからのサンプル ポイントの分布が動的に変化するため、FRNN 探索を実行するときの私たちの方法はリアルタイムです。表面に焦点を合わせるため。 Point-NeRF アプローチに従って、私たちの方法は多層パーセプトロン (MLP) F を利用して、各ポイントの LIDAR 特徴をニューラル シーン記述にマッピングします。逆距離重み付け法の i 番目の隣接点に対して、その K 個の隣接点のニューラル シーン記述を集約します
放射復号化のための特徴融合。 LIDAR コード ϕL はハッシュ コード ϕh と連結され、多層パーセプトロン Fα を適用して各サンプルの密度 α と密度埋め込み h を予測します。最後に、別の多層パーセプトロン Fc を通じて、対応する色 c が、球面調和関数エンコーディング SH と視線方向 d の密度埋め込み h に基づいて予測されます。
2) 堅牢な深度監視特徴のエンコードに加えて、深度監視は、LIDAR ポイントを画像平面に投影することによって取得されます。ただし、LIDAR ポイントがまばらであるため、得られる利点は限られており、舗装などの低テクスチャ領域を再構築するには不十分です。ここでは、密度を高めるために隣接する LIDAR フレームを蓄積することを提案します。 3D ポイントはシーン構造を正確にキャプチャできますが、深度監視のために画像平面にポイントを投影する際には、ポイント間のオクルージョンを考慮する必要があります。図 3 に示すように、カメラと LIDAR およびその隣接フレーム間の変位の増加によりオクルージョンが発生し、誤った深度監視が発生します。 LIDAR は蓄積後もスパースであるため、この問題に対処するのは非常に難しく、Z バッファリングなどの基本的なグラフィックス技術が適用できなくなります。この研究では、NeRF をトレーニングする際に偽の深い監視を自動的に除去するための堅牢な監視スキームが提案されています。
車載カメラが前方に移動するため、生成されるトレーニング画像はまばらで、視野範囲が限られており、特に新しいビューが車両の軌道から逸脱する場合、NeRF 再構成に課題が生じることを思い出してください。ここでは、LiDAR を活用してトレーニング データを強化することを提案します。まず、各 LIDAR フレームの点群を同期カメラに投影し、RGB 値を補間することで色付けします。色付きの点群が蓄積され、合成的に強化されたビューのセットに投影され、図 2 に示す合成画像と深度マップが生成されます。
実験比較分析
以上がLidaRF: ストリート ビュー神経放射線場の LiDAR データの研究 (CVPR\'24)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。