ホームページ > 記事 > テクノロジー周辺機器 > 「本当と嘘を見分けるのは難しい」! NeRFが生成する自動運転シミュレーションデータを上手に活用
Neural Radiation Field (NeRF) has become a tool to advance the prelude to the re-search of autonomous driving (AD), providing scalable closed-loop simulation and data enhancement capabilities. However, in order to trust the results obtained in the simulation, it is necessary to ensure that the AD system perceives the real data and the rendered data in the same way. Although the performance of rendering methods is improving, many scenes remain inherently challenging to faithfully reconstruct. To this end, we propose a new perspective to address the gap between real and simulated data. We not only focus on improving rendering fidelity, but explore simple yet effective methods to enhance the robustness of perceptual models to NeRF artifacts without affecting real data performance. Furthermore, we conduct the first large-scale investigation of the real-to-simulated data gap in AD settings using state-of-the-art neural rendering techniques. Specifically, our study evaluates object detectors and online mapping models on real and simulated data and investigates the effects of different pre-training strategies. Our results show significantly improved model accuracy on simulated data, even improving real-world performance in some cases. Finally, we delve into the real-to-simulated similarities, identifying FID and LPIPS as strong indicators.
In this article, we propose a new perspective to bridge the gap between intelligent driving systems and perception modules. Our goal is not to improve rendering quality but to make the perceptual model more robust to NeRF artifacts without degrading performance on real data. We believe that this direction is complementary to improving NeRF performance and is key to enabling virtual AV testing. As a first step in this direction, we show that even simple data augmentation techniques can have a strong impact on the model's robustness to NeRF artifacts.
We conduct the first extensive real2sim gap study on a large-scale AD dataset and evaluate the performance of multiple object detectors as well as online mapping models on real data and state-of-the-art (SOTA) neural rendering method data. . Our study includes the impact of different data augmentation techniques during training, and the fidelity of NeRF rendering during inference. We found that during model fine-tuning, these data showed the impact of the augmentation technique, and the fidelity of NeRF rendering even improved performance on real data in some cases. Finally, we study the correlation between implicit and common image reconstruction metrics in real2sim and gain insights into the significance of using NeRFs for CAD data simulators. We find that LPIPS and FID are powerful indicators of real2sim disparity, and further verify that our proposed enhancement reduces the sensitivity of contrast-poor visual compositionality.
To test and validate the AD functionality of the NeRF-driven simulation engine, they can use the data that has been collected to Explore new virtual scenes. However, in order for the results using such models to be trustworthy, the AD system must behave in the same way when processing the data and the actual data. In this work, we propose an alternative and complementary approach to adapt AD systems to make them less sensitive to differences between real and simulated data. In this way, we can tune the AD system to be less sensitive to differences between real and simulated data and thus better handle differences between real and simulated data.
As a first step in exploring how fine-tuning strategies can make perceptual models more robust to artifacts in rendered data, we used different fine-tuning strategies. Specifically, given an already trained model, we fine-tune the perceptual model using images that focus on improving the performance of rendered images while maintaining performance on real data, see Figure 2. In addition to reducing the real2sim gap, this may also reduce the requirements for sensor realism, pave the way for wider application of neural rendering methods, and reduce the computational requirements for the training and evaluation of description methods. Note that while we focus on perceptual models, our approach can be easily extended to end-to-end models as well.
Finally, we can imagine multiple ways to achieve the goal of making models more robust, such as drawing inspiration from the domain adaptation and multi-task learning literature. However, fine-tuning requires minimal model-specific adjustments, allowing us to easily study a range of models.
Image augmentation is a commonly used method. The classic strategy for enhancing robustness against artifacts is to use image augmentation. Here, we choose enhancements to represent the various distortions present in the rendered image. More specifically, we add random Gaussian noise, convolve the image with a Gaussian blur kernel, and apply photometric distortion similar to that found in SimCLR. Finally, the image is downsampled and upsampled. Augments are applied sequentially, and each augmentation has a certain probability.
NeRF は、3D シーンをレンダリングするための深層学習モデルです。微調整中に、モデルは別の自然な形式に適応できます。つまり、微調整中にこのデータを含めることができます。これにより、NeRF モデルのトレーニングが容易になり、監視対応モデルと同じデータセットで NeRF メソッドをトレーニングできるようになります。ただし、大規模なデータセットで NeRF をトレーニングするにはコストがかかる場合があり、その一部には 3D オブジェクト検出、セマンティック セグメンテーション、複数のカテゴリ ラベルなどのタスク用のラベルが必要になる場合があります。さらに、AD の NeRF は、データの順序要件を増加させることがよくあります。これらの要件に適応するために、ラベルには 3D オブジェクト検出、セマンティック セグメンテーション、複数のカテゴリ ラベルなど、より特別な処理が必要になる場合があります。
次に、選択したシーケンスの画像を NeRF トレーニング セットとホールドアウト セットに分割します。知覚モデルの微調整は、トレーニング データセット D 全体に対して行われ、D にレンダリング対応がある画像については、確率 p でレンダリングされた画像を使用します。これは、微調整に使用される画像が NeRF モデルで認識されないことを意味します。
前述したように、NeRF データのレンダリングは高価なデータ拡張手法です。さらに、認識タスクに必要なデータに加えて、連続データと場合によっては追加のマーカーも必要になります。つまり、スケーラブルなアプローチでは、単一画像の NeRF データを取得する効率的な戦略が理想的です。この目的を達成するために、画像間のアプローチを使用して NeRF のような画像を生成する方法を学習することを提案します。実際の画像が与えられると、モデルは画像を NeRF ドメインに変換し、NeRF に典型的なアーティファクトを効果的に導入します。これにより、限られた計算コストで微調整中に NeRF のような画像の数を大幅に増やすことができます。レンダリングされた画像 Dnerf とそれに対応する実際の画像を使用して、画像間モデルをトレーニングします。さまざまな強化戦略の視覚的な例を図 3 に示します。 ##################結果###############################
レンダリング品質の向上に重点を置いた以前のアプローチとは異なり、この論文では、知覚モデルを変更して NeRF シミュレーション データに対してより堅牢にする方法を調査します。 NeRF または NeRF に似たデータを使用した微調整により、実際のデータのパフォーマンスを犠牲にすることなく、物体検出とオンライン マッピング手法の real2sim ギャップが大幅に削減されることを示します。さらに、車線逸脱のシミュレーションなど、既存の列車分布の外側で新しいシナリオを生成すると、実際のデータのパフォーマンスが向上する可能性があることを示します。 NeRF コミュニティ内で一般的に使用されている画像メトリクスの研究では、LPIPS スコアと FID スコアが知覚パフォーマンスと最も強い相関関係を示していることが示されています。これは、知覚モデルにとって、単なる再構成品質よりも知覚的類似性の方が重要であることを示唆しています。
結論として、NeRF シミュレーション データは、特に知覚モデルの堅牢性を強化するために提案した方法を使用する場合に、AD にとって価値があると考えています。さらに、NeRF データは、シミュレートされたデータで AD システムをテストするのに役立つだけでなく、実際のデータでの知覚モデルのパフォーマンスの向上にも役立ちます。
以上が「本当と嘘を見分けるのは難しい」! NeRFが生成する自動運転シミュレーションデータを上手に活用の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。