ホームページ > 記事 > テクノロジー周辺機器 > 神は複雑なオブジェクトと高周波のディテールを復元します。4K-NeRF 高忠実度のビュー合成がここにあります
超高解像度は、高品質の画像やビデオを記録および表示するための標準として多くの研究者に歓迎されています。低解像度 (1K HD フォーマット) と比較して、高解像度でキャプチャされたシーンは、通常、細部が非常に鮮明です。クリアで、ピクセル情報は小さなパッチによって増幅されます。しかし、この技術を画像処理やコンピュータビジョンに応用するにはまだ多くの課題があります。
この記事では、Alibaba の研究者が新しいビュー合成タスクに焦点を当て、4K-NeRF と呼ばれるフレームワークを提案します。その NeRF ベースのボリューム レンダリング メソッドは、高忠実度のビュー合成で実装できます。 4K超高解像度で。
文書アドレス: https://arxiv.org/abs/2212.04701
プロジェクトのホームページ: https://github.com/frozoul/4K-NeRF
早速、最初に効果を見てみましょう (以下)ビデオはダウンサンプリングされています。元の 4K ビデオについては、元のプロジェクトを参照してください)。
方法次に、この調査がどのように実施されたかを見てみましょう。
4K-NeRF パイプライン (以下に示すように): パッチベースのレイ サンプリング テクノロジーを使用して、低解像度で VC-Encoder (View-Consistent) (DEVO ベース) を共同トレーニングします。 - 次元の幾何学情報は空間内でエンコードされ、VC-Decoder を通過して、高周波、精細かつ高品質のレンダリングと強化されたビューの一貫性を実現します。
この研究では、DVGO [32] で定義された式に基づいてエンコーダをインスタンス化し、学習されたボクセル グリッドベースの表現は、明示的に地理的にエンコードされたジオメトリです。 :
各サンプリング ポイントについて、密度推定値の三線形補間には、体積密度値を生成するためのソフトプラス アクティベーション関数が装備されています:
# 色は小規模な MLP を使用して推定されます:
このように、設定した直線 r に沿ってサンプリング点の特性を累積することで、各レイ (またはピクセル) の特性値を取得できます。
VC エンコーダーに埋め込まれた幾何学的特性をより有効に活用するために、この研究では、サンプリングされた光線軸に沿って各光線 r の深さを推定することによって深度マップも生成しました。推定された深度マップは、上記のエンコーダーによって生成されたシーンの 3 次元構造への強力なガイドを提供します。ブロック (ノンパラメトリック正規化でもダウンサンプリング操作でもない) とインターリーブされたアップサンプリング操作を使用して構築されています。特に、この研究では、特徴 F と深度マップ M を単純に連結するのではなく、深度マップ内の深度信号を結合し、学習された変換を通じて各ブロックにそれを注入して、ブロックのアクティベーションを調整します。
従来の NeRF 手法におけるピクセル レベルのメカニズムとは異なり、この研究の手法は光線 (ピクセル) 間の空間情報を捕捉することを目的としています。したがって、NeRF でのランダムなレイ サンプリングの戦略はここでは適切ではありません。したがって、この研究では、光線特徴間の空間依存性の捕捉を容易にするパッチベースの光線サンプリング トレーニング戦略を提案します。トレーニング中に、トレーニング ビューの画像はまずサイズ N_p × N_p のパッチ p に分割され、ピクセルのサンプリング確率が均一になるようにします。画像空間の次元をパッチ サイズで正確に分割できない場合、トレーニング パッチのセットを取得するには、エッジまでパッチを切り詰める必要があります。次に、セットから 1 つ (または複数) のパッチがランダムに選択され、パッチ内のピクセルの光線が反復ごとにミニバッチを形成します。
細かい部分の視覚効果がぼやけたり平滑化しすぎたりする問題を解決するために、この研究では、敵対的損失と知覚損失を追加して、細かい部分の合成を正規化します。知覚損失は、事前トレーニングされた 19 層 VGG ネットワークを介して、予測パッチ と特徴空間内の真の値 p の間の類似性を推定します。
##この研究では、MSE の代わりに 損失を使用して、高周波の詳細の再構成を監視します。
さらに、この研究では補助的な MSE 損失も追加されており、最終的な総損失関数の形式は次のとおりです。
実験効果
定性分析##実験では 4K を比較します。 NeRF を他のモデルと比較すると、通常の NeRF に基づく方法では、さまざまな程度のディテールの損失とぼやけがあることがわかります。対照的に、4K-NeRF は、トレーニングの視野が限られているシーンであっても、これらの複雑で高周波のディテールの高品質でフォトリアリスティックなレンダリングを実現します。 #################################定量分析###############この研究は、Plenoxels、DVGO、JaxNeRF、MipNeRF-360、NeRF-SR などの 4k データに基づくいくつかの現在の手法と比較されます。この実験では、画像回復の評価指標を比較として使用するだけでなく、総合的な評価の参考として推論時間やキャッシュメモリも提供します。結果は次のとおりです。
結果は、一部の指標では一部のメソッドの結果とそれほど変わりませんが、ボクセルの利点が得られます。効率とメモリ コストの両方の点で驚異的なパフォーマンスが達成され、4K 画像を 300 ミリ秒でレンダリングできます。
この研究では、微細なディテールをモデリングする際の NeRF の機能を調査し、非常に高い解像度でシーン内のビューを復元する能力を強化する新しいフレームワークを提案します 微細なディテールの一貫した表現力。さらに、この研究では、幾何学的一貫性を維持し、低位空間での幾何学特性を効果的にモデル化し、幾何学を認識した特徴間の局所相関を利用してフルスケール空間でのビューを実現する、エンコーダ/デコーダ モジュールのペアも導入されています。ベースのサンプリング トレーニング フレームワークにより、パーセプトロン指向の正則化による監視を統合する方法も可能になります。この研究では、フレームワークの効果を動的シーン モデリングと、将来の方向性としてニューラル レンダリング タスクに組み込むことを望んでいます。
以上が神は複雑なオブジェクトと高周波のディテールを復元します。4K-NeRF 高忠実度のビュー合成がここにありますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。