ホームページ >テクノロジー周辺機器 >AI >NeuRAD: 自動運転における最先端のマルチデータセット ニューラル レンダリング テクノロジーのアプリケーション
論文「NeuRAD: 自動運転のためのニューラル レンダリング」は、Zenseact、チャルマーズ工科大学、リンシェーピング大学、ルンド大学から提供されました。
神経放射線場 (NeRF) は、自動運転 (AD) コミュニティでますます人気が高まっています。最近の方法では、閉ループ シミュレーション、AD システム テスト、トレーニング データ拡張技術における NeRF の可能性が示されています。しかし、既存の手法は多くの場合、長いトレーニング時間、集中的なセマンティック監視を必要とし、一般化性に欠けています。これは、AD における NeRF の大規模な適用を妨げます。この論文は、動的 AD データのための堅牢な新しいビュー合成手法である NeuRAD を提案します。この手法は、シンプルなネットワーク設計、カメラと LIDAR (ローリング シャッター、ビーム発散、光の落下を含む) を含むセンサー モデリングを特徴としており、すぐに使用できる複数のデータ セットを処理します。
図に示すように: NeuRAD は、動的な車のシーンに合わせて調整されたニューラル レンダリング手法です。自車や他の道路利用者の姿勢を変更したり、参加者の追加や削除を自由に行うことができます。これらの機能により、NeuRAD は、センサー現実的な閉ループ シミュレーターや強力なデータ拡張エンジンなどのコンポーネントの基盤として適しています。
この論文の目標は、車両プラットフォーム、アクターの姿勢、またはその両方を変更できる実際のセンサー データを生成できる表現を学習することです。モバイル プラットフォームによって収集された、設定されたカメラ画像と LIDAR 点群からなるデータ、およびモバイル アクターのサイズと姿勢の推定値にアクセスできることを前提としています。実用性を考慮すると、この方法は、トレーニングと推論の時間を最小限に抑えながら、主要な自動車データセットでの再構成エラーに関して優れたパフォーマンスを発揮する必要があります。
図は、この記事 NeuRAD で提案されている方法の概要です。アクターを意識したハッシュ コーディングによって区別される、自動車シーンの静的および動的結合ニューラル特徴フィールドの学習です。アクターの境界ボックス内にある点はアクターのローカル座標に変換され、アクター インデックスとともに使用されて 4D ハッシュ グリッドがクエリされます。ボリューム レンダリングされた光レベルの特徴は、アップサンプリング CNN を使用して RGB 値にデコードされ、MLP を使用して光線落下確率と強度にデコードされます。
新しいビュー合成の研究 [4, 47] に基づいて、著者はニューラル特徴フィールド (NFF)、NeRF の一般化 [25]、および同様の手法 [23] を使用しています。 】世界をモデル化。
画像をレンダリングするには、一連のカメラ レイをボリューム レンダリングして特徴マップ F を生成する必要があります。論文 [47] で説明されているように、畳み込みニューラル ネットワーク (CNN) を使用して最終画像がレンダリングされます。実際のアプリケーションでは、特徴マップの解像度は低く、レイ クエリの数を大幅に減らすために CNN を使用したアップサンプリングが必要です。
Lidar センサーを使用すると、自動運転車は深度および深度の離散セットを測定できます。ポイントの反射率(強度)。彼らは、レーザービームのパルスを発射し、飛行時間を測定することによって、反射パワーの距離と反射率を決定しました。これらの特性を捉えるために、姿勢ライダー センサーから送信されたパルスは一連の光線としてモデル化され、ボリュームライク レンダリング技術が使用されます。
点を返さないレーザー ビーム光線を考えてみましょう。反射パワーが低すぎる場合、レイ ドロップとして知られる現象が発生します。これは、シミュレーションと実際の差異を減らすモデリングにとって重要です [21]。通常、このような光は表面に当たらない程度に遠くまで到達するか、鏡、ガラス、濡れた舗道などのオープンスペースにビームが反射する表面に当たります。これらの効果のモデル化はセンサーの現実的なシミュレーションにとって重要ですが、[14] で述べられているように、低レベルのセンサー検出ロジックの (多くの場合非公開の) 詳細に依存するため、純粋に物理ベースで捉えることは困難です。したがって、データから光線降下を学習することを選択します。強度と同様に、光の特徴を体積的にレンダリングし、小さな MLP に通すことで、光のドロップ確率 pd(r) を予測できます。 [14] とは異なり、LIDAR ビームの二次エコーはモデル化されていないことに注意してください。これは、この情報が実験の 5 つのデータセットに存在しないためです。
神経特徴フィールド (NFF) の定義を学習関数 (s, f) = NFF (x, t, d) に拡張します。ここで、x は空間座標、t は時間を表します。 、dは視野角方向を表す。この定義では、シーンの動的な側面をモデル化するために重要な時間を入力として導入します。 NFF アーキテクチャは、NeRF [4、27] で認識されている最良のアプローチに従っています。場所 x と時刻 t を指定して、アクター認識ハッシュ コードをクエリします。次に、このエンコードは小さな MLP に供給され、符号付き距離 s と中間特徴 g が計算されます。球面調和関数 [27] を使用してビュー方向 d をエンコードすると、モデルで反射やその他のビュー関連の効果をキャプチャできるようになります。最後に、方向エンコーディングと中間特徴が 2 番目の MLP を通じて共同処理され、g のスキップ接続で強化され、特徴 f が生成されます。 前作[18、29、46、47]と同様に、世界を2つの部分に分けます。 、静的な背景と一連の剛動的なアクターからなり、各アクターは 3D 境界ボックスと SO(3) ポーズのセットによって定義されます。私たちは、学習プロセスを簡素化し、トレーニング後にアクターによる新しいシナリオの動的な生成を可能にするある程度の編集可能性を可能にするという 2 つの目的を果たします。さまざまなシーン要素に個別の NFF を使用する以前のアプローチとは異なり、すべてのネットワークが共有される単一の統合 NFF を使用し、静的コンポーネントと動的コンポーネントの区別はアクター認識ハッシュ エンコーディングによって透過的に処理されます。エンコード戦略は単純です。指定されたサンプル (x, t) を、アクターの境界ボックス内にあるかどうかに基づいて 2 つの関数のいずれかを使用してエンコードします。 多重解像度ハッシュ メッシュを使用して静的シーンを表現することは、表現力が高く効率的な表現方法であることが証明されています。ただし、境界のないシーンをメッシュにマッピングするには、MipNerf-360 で提案されている収縮方法を採用します。このアプローチでは、単一のハッシュ メッシュで近くの道路要素と遠くの雲を正確に表現できます。対照的に、既存の方法では、特殊な NFF を利用して空やその他の遠方の領域をキャプチャします。 When サンプル (x, t) はアクターの境界ボックス内にあり、その空間座標 x と視線方向 d は、指定された時刻 t でのアクターの座標系に変換されます。その後、時間的な側面を無視し、静的なシーンと同様に、時間に依存しない多重解像度のハッシュ グリッドから特徴をサンプリングします。簡単に言えば、複数の異なるハッシュ グリッドをアクターごとに 1 つずつ個別にサンプリングする必要があります。ただし、代わりに単一の 4D ハッシュ グリッドが使用され、4 番目の次元がアクター インデックスに対応します。このアプローチにより、すべてのアクターの特徴を並行してサンプリングできるようになり、個々のハッシュ グリッドのパフォーマンスを一致させながら大幅な高速化を実現できます。 ニューラル レンダリングを自動車データに適用する際の最大の課題の 1 つは、このデータに存在する複数の詳細を処理することです。レベル。車が長距離を走行すると、遠くにも近くにも多くの表面が見えます。このマルチスケールの場合、iNGP [27] または NeRF の位置埋め込みを単に適用すると、エイリアシング アーティファクト [2] が発生する可能性があります。この問題を解決するために、多くの方法では光線を錐台としてモデル化し、錐台の長手方向はビンのサイズによって決定され、半径方向はピクセル領域とセンサーからの距離によって決定されます [2、3、13]。 Zip-NeRF[4] は、現在、iNGP ハッシュ グリッド用の唯一のアンチエイリアス手法であり、マルチサンプリングと重量削減という 2 つの錐台モデリング技術を組み合わせています。マルチサンプリングでは、錐台の複数の位置での位置埋め込みが平均化され、縦方向および半径方向の範囲がキャプチャされます。ダウンウェイト化の場合、各サンプルは等方性ガウスとしてモデル化され、セル サイズとガウス分散の比率に比例して重み付けされたグリッド フィーチャを使用して、より細かい解像度を効果的に抑制します。テクニックを組み合わせるとパフォーマンスが大幅に向上しますが、マルチサンプリングにより実行時間も大幅に増加します。したがって、このペーパーの目標は、運用への影響を最小限に抑えながらスケール情報を組み込むことです。著者らは、Zip-NeRF に触発されて、錐台に対するサイズに応じてハッシュ グリッド特徴量の重みを軽減する直感的な軽量化スキームを提案しています。 大規模なシーンをレンダリングする際のもう 1 つの困難は、効率的なサンプリング戦略の必要性です。 1 つの画像で、数キロメートル離れた高層ビル間の視差効果をキャプチャしながら、近くの交通標識の詳細なテキストをレンダリングしたい場合があります。両方の目標を達成するには、光線を均一にサンプリングするには光線ごとに数千のサンプルが必要ですが、これは計算上不可能です。これまでの作業では、サンプルをプルーニングするために LIDAR データに大きく依存していたため [47]、LIDAR 作業以外でレンダリングすることが困難でした。 対照的に、この論文では、べき乗関数 [4] に従って光線に沿ってサンプルをレンダリングするため、サンプル間のスペースは光線の原点からの距離に応じて増加します。それでも、サンプルサイズを大幅に増やすと、関連する条件をすべて満たすことは不可能になります。したがって、2 ラウンドの提案サンプリング [25] も使用されます。そこでは、ニューラル特徴フィールド (NFF) の軽量バージョンがクエリされて、レイに沿った重み分布が生成されます。次に、これらの重みに基づいて新しいサンプルのセットがレンダリングされます。このプロセスを 2 回繰り返すと、光線上の関連する位置に集中した洗練されたサンプルのセットが取得され、フルスケール NFF のクエリに使用できます。提案されたネットワークを監視するために、アンチエイリアシング オンライン蒸留方法 [4] が採用され、さらに LIDAR を使用して監視されます。 標準的な NeRF ベースの定式化では、各画像は原点 o からキャプチャされると想定されます。ただし、多くのカメラ センサーはローリング シャッターを備えており、ピクセルの行が順番にキャプチャされます。したがって、カメラ センサーは最初の行のキャプチャと最後の行のキャプチャの間を移動することができ、単一原点の仮定を破ることができます。これは合成データ [24] や低速の手持ちカメラで撮影したデータでは問題になりませんが、ローリング シャッターは高速で移動する車両、特にサイド カメラのショットで顕著になります。同じ効果が LIDAR にもあり、各スキャンは通常 0.1 秒で収集されます。これは、高速道路で走行する場合の数メートルの移動に相当します。自己運動補正された点群の場合でも、これらの違いにより有害な視線エラーが発生する可能性があり、3D 点が他のジオメトリを通過する光線に変換されます。これらの影響を軽減するために、ローリング シャッターは、各光線に個別の時間を割り当て、推定された動きに基づいて原点を調整することによってモデル化されます。ローリング シャッターはシーンのすべての動的要素に影響を与えるため、個々の照明時間と俳優のポーズごとに線形補間が実行されます。 自動運転シーケンスをシミュレートするときのもう 1 つの問題は、画像が異なるカメラからのものであり、キャプチャ パラメータが異なる可能性があることです。暴露。ここでは、「野生の NeRF」[22] に関する研究からインスピレーションを得ており、画像ごとに外観の埋め込みが学習され、その特徴とともに 2 番目の MLP に渡されます。ただし、どの画像がどのセンサーからのものであるかがわかっている場合は、センサーごとに単一の埋め込みが学習されるため、オーバーフィッティングの可能性が最小限に抑えられ、新しいビューを生成するときにこれらのセンサーの埋め込みを使用できるようになります。これらの埋め込みはボリューム レンダリングの後に適用されるため、色の代わりにフィーチャをレンダリングする際の計算オーバーヘッドが大幅に削減されます。 モデルは、注釈の形式またはトレース出力としての動的なアクター ポーズの推定に依存しています。この欠点に対処するために、アクターのポーズが学習可能なパラメーターとしてモデルに組み込まれ、共同で最適化されます。姿勢は、6D 表現 [50] を使用して、並進 t および回転 R としてパラメータ化されます。 NeuRAD は、Nerfstudio[33] オープン ソース プロジェクトに実装されています。トレーニングは、Adam[17] オプティマイザーを使用して 20,000 回の反復で実行されます。 NVIDIA A100 では、トレーニングには約 1 時間かかります。 UniSim の再現: UniSim [47] は、ニューラル閉ループ センサー シミュレーターです。これはフォトリアリスティックなレンダリングを特徴としており、利用可能な監視についてほとんど仮定を行いません。つまり、必要なのはカメラ画像、LIDAR 点群、センサーのポーズ、動的なアクターの軌跡を含む 3D バウンディング ボックスのみです。これらの特性により、UniSim は新しい自動運転データセットに簡単に適用できるため、適切なベースラインとなります。ただし、コードはクローズド ソースであり、非公式の実装はありません。したがって、この記事では UniSim を独自のモデルとして再実装し、Nerfstudio [33] に実装することにしました。 UniSim の主要な記事ではモデルの詳細があまり詳しく説明されていないため、IEEE Xplore が提供する補足資料に頼る必要があります。それにもかかわらず、一部の詳細は不明のままであり、著者らはこれらのハイパーパラメータを、選択された 10 個の PandaSet [45] シーケンスで報告されたパフォーマンスと一致するように調整しました。 ニューラル アーキテクチャ
シーン構成
境界のない静的シーン
リジッド ダイナミック アクター
マルチスケール シーンの問題
効率的なサンプリング
ローリング シャッターのモデリング
異なるカメラ設定
ノイズの多いアクター ポーズ
以上がNeuRAD: 自動運転における最先端のマルチデータセット ニューラル レンダリング テクノロジーのアプリケーションの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。