NeuRAD: 自動運転における最先端のマルチデータセットニューラルレンダリングテクノロジーのアプリケーション-AI-php.cn

ホームページ

テクノロジー周辺機器

NeuRAD: 自動運転における最先端のマルチデータセットニューラルレンダリングテクノロジーのアプリケーション

王林

Dec 05, 2023 am 11:21 AM

データオートパイロット

論文「NeuRAD: 自動運転のためのニューラルレンダリング」は、Zenseact、チャルマーズ工科大学、リンシェーピング大学、ルンド大学から提供されました。

NeuRAD: 自動運転における最先端のマルチデータセットニューラルレンダリングテクノロジーのアプリケーション神経放射線場 (NeRF) は、自動運転 (AD) コミュニティでますます人気が高まっています。最近の方法では、閉ループシミュレーション、AD システムテスト、トレーニングデータ拡張技術における NeRF の可能性が示されています。しかし、既存の手法は多くの場合、長いトレーニング時間、集中的なセマンティック監視を必要とし、一般化性に欠けています。これは、AD における NeRF の大規模な適用を妨げます。この論文は、動的 AD データのための堅牢な新しいビュー合成手法である NeuRAD を提案します。この手法は、シンプルなネットワーク設計、カメラと LIDAR (ローリングシャッター、ビーム発散、光の落下を含む) を含むセンサーモデリングを特徴としており、すぐに使用できる複数のデータセットを処理します。

図に示すように: NeuRAD は、動的な車のシーンに合わせて調整されたニューラルレンダリング手法です。自車や他の道路利用者の姿勢を変更したり、参加者の追加や削除を自由に行うことができます。これらの機能により、NeuRAD は、センサー現実的な閉ループシミュレーターや強力なデータ拡張エンジンなどのコンポーネントの基盤として適しています。

NeuRAD: 自動運転における最先端のマルチデータセットニューラルレンダリングテクノロジーのアプリケーションこの論文の目標は、車両プラットフォーム、アクターの姿勢、またはその両方を変更できる実際のセンサーデータを生成できる表現を学習することです。モバイルプラットフォームによって収集された、設定されたカメラ画像と LIDAR 点群からなるデータ、およびモバイルアクターのサイズと姿勢の推定値にアクセスできることを前提としています。実用性を考慮すると、この方法は、トレーニングと推論の時間を最小限に抑えながら、主要な自動車データセットでの再構成エラーに関して優れたパフォーマンスを発揮する必要があります。

図は、この記事 NeuRAD で提案されている方法の概要です。アクターを意識したハッシュコーディングによって区別される、自動車シーンの静的および動的結合ニューラル特徴フィールドの学習です。アクターの境界ボックス内にある点はアクターのローカル座標に変換され、アクターインデックスとともに使用されて 4D ハッシュグリッドがクエリされます。ボリュームレンダリングされた光レベルの特徴は、アップサンプリング CNN を使用して RGB 値にデコードされ、MLP を使用して光線落下確率と強度にデコードされます。

NeuRAD: 自動運転における最先端のマルチデータセットニューラルレンダリングテクノロジーのアプリケーション新しいビュー合成の研究 [4, 47] に基づいて、著者はニューラル特徴フィールド (NFF)、NeRF の一般化 [25]、および同様の手法 [23] を使用しています。】世界をモデル化。

画像をレンダリングするには、一連のカメラレイをボリュームレンダリングして特徴マップ F を生成する必要があります。論文 [47] で説明されているように、畳み込みニューラルネットワーク (CNN) を使用して最終画像がレンダリングされます。実際のアプリケーションでは、特徴マップの解像度は低く、レイクエリの数を大幅に減らすために CNN を使用したアップサンプリングが必要です。

Lidar センサーを使用すると、自動運転車は深度および深度の離散セットを測定できます。ポイントの反射率（強度）。彼らは、レーザービームのパルスを発射し、飛行時間を測定することによって、反射パワーの距離と反射率を決定しました。これらの特性を捉えるために、姿勢ライダーセンサーから送信されたパルスは一連の光線としてモデル化され、ボリュームライクレンダリング技術が使用されます。

点を返さないレーザービーム光線を考えてみましょう。反射パワーが低すぎる場合、レイドロップとして知られる現象が発生します。これは、シミュレーションと実際の差異を減らすモデリングにとって重要です [21]。通常、このような光は表面に当たらない程度に遠くまで到達するか、鏡、ガラス、濡れた舗道などのオープンスペースにビームが反射する表面に当たります。これらの効果のモデル化はセンサーの現実的なシミュレーションにとって重要ですが、[14] で述べられているように、低レベルのセンサー検出ロジックの (多くの場合非公開の) 詳細に依存するため、純粋に物理ベースで捉えることは困難です。したがって、データから光線降下を学習することを選択します。強度と同様に、光の特徴を体積的にレンダリングし、小さな MLP に通すことで、光のドロップ確率 pd(r) を予測できます。 [14] とは異なり、LIDAR ビームの二次エコーはモデル化されていないことに注意してください。これは、この情報が実験の 5 つのデータセットに存在しないためです。

神経特徴フィールド (NFF) の定義を学習関数 (s, f) = NFF (x, t, d) に拡張します。ここで、x は空間座標、t は時間を表します。、ｄは視野角方向を表す。この定義では、シーンの動的な側面をモデル化するために重要な時間を入力として導入します。

ニューラルアーキテクチャ

NFF アーキテクチャは、NeRF [4、27] で認識されている最良のアプローチに従っています。場所 x と時刻 t を指定して、アクター認識ハッシュコードをクエリします。次に、このエンコードは小さな MLP に供給され、符号付き距離 s と中間特徴 g が計算されます。球面調和関数 [27] を使用してビュー方向 d をエンコードすると、モデルで反射やその他のビュー関連の効果をキャプチャできるようになります。最後に、方向エンコーディングと中間特徴が 2 番目の MLP を通じて共同処理され、g のスキップ接続で強化され、特徴 f が生成されます。

シーン構成

前作[18、29、46、47]と同様に、世界を2つの部分に分けます。、静的な背景と一連の剛動的なアクターからなり、各アクターは 3D 境界ボックスと SO(3) ポーズのセットによって定義されます。私たちは、学習プロセスを簡素化し、トレーニング後にアクターによる新しいシナリオの動的な生成を可能にするある程度の編集可能性を可能にするという 2 つの目的を果たします。さまざまなシーン要素に個別の NFF を使用する以前のアプローチとは異なり、すべてのネットワークが共有される単一の統合 NFF を使用し、静的コンポーネントと動的コンポーネントの区別はアクター認識ハッシュエンコーディングによって透過的に処理されます。エンコード戦略は単純です。指定されたサンプル (x, t) を、アクターの境界ボックス内にあるかどうかに基づいて 2 つの関数のいずれかを使用してエンコードします。

境界のない静的シーン

多重解像度ハッシュメッシュを使用して静的シーンを表現することは、表現力が高く効率的な表現方法であることが証明されています。ただし、境界のないシーンをメッシュにマッピングするには、MipNerf-360 で提案されている収縮方法を採用します。このアプローチでは、単一のハッシュメッシュで近くの道路要素と遠くの雲を正確に表現できます。対照的に、既存の方法では、特殊な NFF を利用して空やその他の遠方の領域をキャプチャします。

リジッドダイナミックアクター

When サンプル (x, t) はアクターの境界ボックス内にあり、その空間座標 x と視線方向 d は、指定された時刻 t でのアクターの座標系に変換されます。その後、時間的な側面を無視し、静的なシーンと同様に、時間に依存しない多重解像度のハッシュグリッドから特徴をサンプリングします。簡単に言えば、複数の異なるハッシュグリッドをアクターごとに 1 つずつ個別にサンプリングする必要があります。ただし、代わりに単一の 4D ハッシュグリッドが使用され、4 番目の次元がアクターインデックスに対応します。このアプローチにより、すべてのアクターの特徴を並行してサンプリングできるようになり、個々のハッシュグリッドのパフォーマンスを一致させながら大幅な高速化を実現できます。

マルチスケールシーンの問題

ニューラルレンダリングを自動車データに適用する際の最大の課題の 1 つは、このデータに存在する複数の詳細を処理することです。レベル。車が長距離を走行すると、遠くにも近くにも多くの表面が見えます。このマルチスケールの場合、iNGP [27] または NeRF の位置埋め込みを単に適用すると、エイリアシングアーティファクト [2] が発生する可能性があります。この問題を解決するために、多くの方法では光線を錐台としてモデル化し、錐台の長手方向はビンのサイズによって決定され、半径方向はピクセル領域とセンサーからの距離によって決定されます [2、3、13]。

Zip-NeRF[4] は、現在、iNGP ハッシュグリッド用の唯一のアンチエイリアス手法であり、マルチサンプリングと重量削減という 2 つの錐台モデリング技術を組み合わせています。マルチサンプリングでは、錐台の複数の位置での位置埋め込みが平均化され、縦方向および半径方向の範囲がキャプチャされます。ダウンウェイト化の場合、各サンプルは等方性ガウスとしてモデル化され、セルサイズとガウス分散の比率に比例して重み付けされたグリッドフィーチャを使用して、より細かい解像度を効果的に抑制します。テクニックを組み合わせるとパフォーマンスが大幅に向上しますが、マルチサンプリングにより実行時間も大幅に増加します。したがって、このペーパーの目標は、運用への影響を最小限に抑えながらスケール情報を組み込むことです。著者らは、Zip-NeRF に触発されて、錐台に対するサイズに応じてハッシュグリッド特徴量の重みを軽減する直感的な軽量化スキームを提案しています。

効率的なサンプリング

大規模なシーンをレンダリングする際のもう 1 つの困難は、効率的なサンプリング戦略の必要性です。 1 つの画像で、数キロメートル離れた高層ビル間の視差効果をキャプチャしながら、近くの交通標識の詳細なテキストをレンダリングしたい場合があります。両方の目標を達成するには、光線を均一にサンプリングするには光線ごとに数千のサンプルが必要ですが、これは計算上不可能です。これまでの作業では、サンプルをプルーニングするために LIDAR データに大きく依存していたため [47]、LIDAR 作業以外でレンダリングすることが困難でした。

対照的に、この論文では、べき乗関数 [4] に従って光線に沿ってサンプルをレンダリングするため、サンプル間のスペースは光線の原点からの距離に応じて増加します。それでも、サンプルサイズを大幅に増やすと、関連する条件をすべて満たすことは不可能になります。したがって、2 ラウンドの提案サンプリング [25] も使用されます。そこでは、ニューラル特徴フィールド (NFF) の軽量バージョンがクエリされて、レイに沿った重み分布が生成されます。次に、これらの重みに基づいて新しいサンプルのセットがレンダリングされます。このプロセスを 2 回繰り返すと、光線上の関連する位置に集中した洗練されたサンプルのセットが取得され、フルスケール NFF のクエリに使用できます。提案されたネットワークを監視するために、アンチエイリアシングオンライン蒸留方法 [4] が採用され、さらに LIDAR を使用して監視されます。

ローリングシャッターのモデリング

標準的な NeRF ベースの定式化では、各画像は原点 o からキャプチャされると想定されます。ただし、多くのカメラセンサーはローリングシャッターを備えており、ピクセルの行が順番にキャプチャされます。したがって、カメラセンサーは最初の行のキャプチャと最後の行のキャプチャの間を移動することができ、単一原点の仮定を破ることができます。これは合成データ [24] や低速の手持ちカメラで撮影したデータでは問題になりませんが、ローリングシャッターは高速で移動する車両、特にサイドカメラのショットで顕著になります。同じ効果が LIDAR にもあり、各スキャンは通常 0.1 秒で収集されます。これは、高速道路で走行する場合の数メートルの移動に相当します。自己運動補正された点群の場合でも、これらの違いにより有害な視線エラーが発生する可能性があり、3D 点が他のジオメトリを通過する光線に変換されます。これらの影響を軽減するために、ローリングシャッターは、各光線に個別の時間を割り当て、推定された動きに基づいて原点を調整することによってモデル化されます。ローリングシャッターはシーンのすべての動的要素に影響を与えるため、個々の照明時間と俳優のポーズごとに線形補間が実行されます。

異なるカメラ設定

自動運転シーケンスをシミュレートするときのもう 1 つの問題は、画像が異なるカメラからのものであり、キャプチャパラメータが異なる可能性があることです。暴露。ここでは、「野生の NeRF」[22] に関する研究からインスピレーションを得ており、画像ごとに外観の埋め込みが学習され、その特徴とともに 2 番目の MLP に渡されます。ただし、どの画像がどのセンサーからのものであるかがわかっている場合は、センサーごとに単一の埋め込みが学習されるため、オーバーフィッティングの可能性が最小限に抑えられ、新しいビューを生成するときにこれらのセンサーの埋め込みを使用できるようになります。これらの埋め込みはボリュームレンダリングの後に適用されるため、色の代わりにフィーチャをレンダリングする際の計算オーバーヘッドが大幅に削減されます。

ノイズの多いアクターポーズ

モデルは、注釈の形式またはトレース出力としての動的なアクターポーズの推定に依存しています。この欠点に対処するために、アクターのポーズが学習可能なパラメーターとしてモデルに組み込まれ、共同で最適化されます。姿勢は、6D 表現 [50] を使用して、並進 t および回転 R としてパラメータ化されます。

NeuRAD は、Nerfstudio[33] オープンソースプロジェクトに実装されています。トレーニングは、Adam[17] オプティマイザーを使用して 20,000 回の反復で実行されます。 NVIDIA A100 では、トレーニングには約 1 時間かかります。

UniSim の再現: UniSim [47] は、ニューラル閉ループセンサーシミュレーターです。これはフォトリアリスティックなレンダリングを特徴としており、利用可能な監視についてほとんど仮定を行いません。つまり、必要なのはカメラ画像、LIDAR 点群、センサーのポーズ、動的なアクターの軌跡を含む 3D バウンディングボックスのみです。これらの特性により、UniSim は新しい自動運転データセットに簡単に適用できるため、適切なベースラインとなります。ただし、コードはクローズドソースであり、非公式の実装はありません。したがって、この記事では UniSim を独自のモデルとして再実装し、Nerfstudio [33] に実装することにしました。 UniSim の主要な記事ではモデルの詳細があまり詳しく説明されていないため、IEEE Xplore が提供する補足資料に頼る必要があります。それにもかかわらず、一部の詳細は不明のままであり、著者らはこれらのハイパーパラメータを、選択された 10 個の PandaSet [45] シーケンスで報告されたパフォーマンスと一致するように調整しました。

以上がNeuRAD: 自動運転における最先端のマルチデータセットニューラルレンダリングテクノロジーのアプリケーションの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。