ホームページ >テクノロジー周辺機器 >AI >わずか 3 つのビューで迅速に推論し、45 秒で最適化を完了できる、効率的で一般化可能なガウス再構成フレームワーク。

わずか 3 つのビューで迅速に推論し、45 秒で最適化を完了できる、効率的で一般化可能なガウス再構成フレームワーク。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2024-06-10 14:24:57986ブラウズ

わずか 3 つのビューで迅速に推論し、45 秒で最適化を完了できる、効率的で一般化可能なガウス再構成フレームワーク。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

3D 再構築と新しいビュー合成技術は、仮想現実と拡張現実の分野で広く使用されています。 NeRF は、シーンをレイシーンとして暗黙的にエンコードすることにより、ビュー合成で目覚ましい成功を収めました。ただし、NeRF がレンダリングのために高密度のコレクションに対する時間のかかるポイントごとのクエリに依存しているという事実により、その実用性は大きく制限されます。この問題を解決するために、ネットワークフィードフォワード方式で複数のビューからシーンを再構成することを目的とした、いくつかの一般化可能な NeRF 手法が登場しました。ただし、NeRF ベースのメソッドは、レンダリングのためにレイ上の高密度のポイントのコレクションをクエリする必要があるため、速度が制限されます。最近では、3D ガウススプラッティング (3D-GS) では、異方性 3D ガウスを使用してシーンを表示し、差分ラスタライザーを通じてリアルタイムの高品質レンダリングを実現します。

ただし、3D-GS は各シーンの最適化にも依存しており、1 シーンあたり数十分かかります。この問題を解決するために、3D-GS を目に見えないシーンに一般化しようとするいくつかの一般化されたガウス再構成作業がその後登場しました。ただし、これらの方法のトレーニングとレンダリングの効率はまだ改善する必要があり、主にオブジェクトや人体の再構築に限定されています。

これに基づいて、華中科技大学、南洋理工大学、大湾区大学、上海人工知能研究所の研究者が共同で、将来の使用に向けて、MVSGaussian と呼ばれる効率的で一般化可能なガウス再構成モデルを提案しました。見られたシーン。このモデルは、入力画像を複数のビューに分割し、ガウスプロセスを使用して深度とテクスチャ情報を推定することによって機能します。次に、マルチビューステレオマッチングアルゴリズムを使用してビューを融合し、高品質の再構成結果を生成します。この方法は、再構築の品質と計算効率のバランスを適切に保ち、将来の視覚合成タスクに新しいソリューションを提供します

わずか 3 つのビューで迅速に推論し、45 秒で最適化を完了できる、効率的で一般化可能なガウス再構成フレームワーク。

論文タイトル: マルチビューステレオからの高速一般化可能なガウススプラッティング再構築
論文アドレス: https ://arxiv.org/abs/2405.12218
プロジェクトのホームページ: https://mvsgaussian.github.io/
コードのオープンソース: https://github.com/TQTQliu/MVSGaussian
デモビデオ: https://youtu.be/4TxMQ9RnHMA

このモデルは、まばらなマルチビュー画像からシーンの 3D ガウス表現を学習できます。マルチビューステレオ (MVS) 表示形式の幾何学的推論とガウスディープショットリアルタイムレンダリングの利点を組み合わせることで、MVSGaussian は一般化された推論で優れたパフォーマンスを発揮し、最速で最高のビューレンダリング品質を達成できます。さらに、MVSGaussian はシーンごとの最適化にも大きな利点を持っており、高品質のリアルタイムレンダリングをわずか 45 秒 (3D-GS の約 1/10) で完了します。図 1 推論または最適化のいずれにおいて一般化しても、MVSGAUSSIAN はビューの品質、レンダリング速度、最適化時間において明らかな利点を示しています。

わずか 3 つのビューで迅速に推論し、45 秒で最適化を完了できる、効率的で一般化可能なガウス再構成フレームワーク。

^{図 2 最適化時間 (反復回数) によるレンダリングビュー品質の変化の比較。一般化可能なモデルは良好な初期化を提供するため、MVSGaussian はより短い最適化時間 (より少ない反復回数) で高品質のビュー合成を実現できます。} わずか 3 つのビューで迅速に推論し、45 秒で最適化を完了できる、効率的で一般化可能なガウス再構成フレームワーク。

基本原則効率的で一般化可能なガウススパッタリングフレームワークを設計するには、次の重要な課題に直面します:

1) 暗黙的表現を使用する NeRF とは異なり、3D-GS は数百万の 3D ガウスを使用してシーンを明示的に表現します。球体。事前学習済み 3D-GS を目に見えないシーンに適用すると、位置や色などの 3D ガウス球のパラメーターが大きく異なります。 3D-GS に適応する一般的な表現を設計することは、簡単な作業ではありません。

2) 一般化可能な NeRF 手法は、ボリュームレンダリングを通じて印象的なビュー合成効果を実現します。ただし、ガウススパッタリングの一般化能力は十分に検討されていません。スパッタリングプロセス中、各ガウス球は画像の特定の領域内の複数のピクセルに寄与し、各ピクセルの色は複数のガウス球の寄与から蓄積されます。ガウス球とピクセルの間の色の対応は、より複雑な多対多の関係になるため、モデルの一般化能力に課題が生じます。

3) 一般化可能な NeRF 手法は、特定のシナリオに合わせてさらに微調整することで合成ビューの品質を大幅に向上できることを示していますが、これには多大な時間のかかる最適化が必要です。 3D-GS は NeRF よりも高速ですが、それでも時間がかかります。したがって、一般化可能なモデルに基づいてシーンごとに迅速に最適化する方法を設計することは、非常に有望な研究の方向性です。

上記の課題に対応して、私たちはソリューションを提供しました。

1) 各シーンに対応するガウス球の位置分布が異なるため、マルチビューステレオ (MVS) を使用してシーンの幾何学形状を明示的にモデル化し、奥行きを推測します。次に、推定された深さに対応する 3D ポイントの特徴をエンコードして、ピクセルに位置合わせされたガウス表現を構築します。

2) エンコードされた特徴に基づいて、MLP を介してそれらをガウスパラメーターにデコードし、スパッタリングテクノロジーを使用してビューをレンダリングできます。ただし、このアプローチでは一般化能力が限られていることがわかりました。私たちの洞察によると、スパッタリングモダリティは色の寄与に関して、つまりガウス球とピクセルの間に複雑な多対多の関係を導入しており、これが一般化に課題をもたらしているということです。そこで、我々は汎化能力を高めるためのシンプルかつ効果的な深度認識ボリュームレンダリング法、すなわち単一サンプリングポイントボリュームレンダリング法を提案する。最終的なレンダリングビューは、スパッタリング技術とボリュームレンダリング技術によってレンダリングされたビューを平均することによって得られます。

3) 事前トレーニングされた一般化可能なモデルは、複数の視点から多数の 3D ガウスを生成でき、これらのガウス点群は、後続のシーンごとの最適化のための初期化として使用できます。ただし、MVS メソッドの固有の制限により、一般化可能なモデルによって予測される深度は完全に正確ではない可能性があり、その結果、生成されたガウス点群にノイズが発生します。これらのガウス点群を直接縫い合わせると、多くのノイズが発生します。さらに、ポイントの数が多いと、その後の最適化とレンダリングが遅くなります。直感的な解決策は、ステッチされた点群をダウンサンプリングすることです。ただし、ノイズを低減する一方で、有効なポイントの数も減少します。私たちの洞察は、優れた集約戦略では、ポイントの合計数が多すぎないようにしながら、ノイズポイントを削減し、有効なポイントを可能な限り保持する必要があるということです。この目的を達成するために、マルチビューの幾何学的一貫性に基づいた集約戦略を導入します。具体的には、異なる視野角での同じ 3D ポイントの予測深度は一貫している必要があるという原則に従い、異なる視野角からのガウス深度の再投影誤差を計算することでノイズポイントをフィルタリングします。

わずか 3 つのビューで迅速に推論し、45 秒で最適化を完了できる、効率的で一般化可能なガウス再構成フレームワーク。

^{図 3 一般化可能なガウススパッタリングフレームワーク。まず、フィーチャピラミッドネットワーク (FPN) を使用して入力ビューからフィーチャを抽出し、これらのフィーチャをターゲットパースペクティブにワープし、コストボリュームを構築して、3D CNN の正則化を通じて深度を生成します。次に、深さに対応する 3D ポイントについて、マルチビューおよび空間情報エンコード機能を集約することによって、ピクセル位置合わせされたガウス表現を構築します。次に、これらの特徴はガウスパラメーターとボリュームレンダリングパラメーターにデコードされ、2 つのビューがレンダリングされ、最終結果は 2 つのビューの平均になります。}

わずか 3 つのビューで迅速に推論し、45 秒で最適化を完了できる、効率的で一般化可能なガウス再構成フレームワーク。

^{図 4 一貫した集計。一般化可能なモデルを使用して深度マップとガウス点群を生成し、まず深度マップに対してマルチビューの幾何学的整合性チェックを実行して、信頼できない点をフィルタリングするためのマスクを取得します。その後、シーンごとの最適化のための初期化として、フィルタリングされた点群が 1 つの点群に結合されます。}

結果の比較

このペーパーでは、広く使用されている DTU、Real Forward-facing、NeRF Synthetic、Tanks and Temples データセットの評価を実行し、PSNR、SSIM、LPIPS、FPS などのメトリクスをレポートします。一般化推論 (表 1 および 2) の観点からは、MVSGaussian は優れたパフォーマンスを示し、最速の速度と最小限のメモリオーバーヘッドで優れたパフォーマンスを実現します。シーンごとの最適化 (表 3) に関して、MVSGaussian は最短の最適化時間 (3D-GS の約 1/10) で最高のビュー合成効果を達成でき、3D に匹敵するリアルタイムレンダリング速度を維持します。 -GS。定性的なビューとビデオの比較は、シーンの詳細がより多く、アーティファクトが少ない高品質のビューを合成する MVSGaussian の能力も示しています。ビデオ結果の詳細については、プロジェクトのホームページをご覧ください。

わずか 3 つのビューで迅速に推論し、45 秒で最適化を完了できる、効率的で一般化可能なガウス再構成フレームワーク。

^{表 1 定量的DTU テストセットの一般化に関する結果。表 2 Real Forward-facing、NeRF Synthetic、Tanks and Temples データセットの定量的一般化の結果。表 3 シーンごとの最適化後の定量的結果。図5 一般化推論の結果の比較。}

わずか 3 つのビューで迅速に推論し、45 秒で最適化を完了できる、効率的で一般化可能なガウス再構成フレームワーク。

^{図 7 シーンごとの最適化後の結果の比較。 old比較される。}

わずか 3 つのビューで迅速に推論し、45 秒で最適化を完了できる、効率的で一般化可能なガウス再構成フレームワーク。結論

この論文では、複数のビューからシーンを再構成するための新しい一般化可能なガウススパッタリング法である MVSGaussian を提案しました。具体的には、MVS を利用してジオメトリを推論し、ピクセルに合わせたガウス表現を構築します。さらに、効率的な深度認識ボリュームレンダリングを組み合わせて一般化機能を強化するハイブリッドガウスレンダリング方法を提案します。推論を直接一般化することに加えて、モデルは特定のシナリオに合わせて迅速に微調整できます。高速な最適化を実現するために、高品質の初期化を提供するマルチビュージオメトリの一貫した集約戦略を導入します。通常、各イメージのレンダリングに数十分の微調整と数秒を必要とする一般化可能な NeRF と比較して、MVSGaussian はより高い合成品質でのリアルタイムレンダリングを可能にします。さらに、MVSGaussian は、3D-GS と比較して、トレーニングの計算コストを削減しながら、より優れたビュー合成効果を実現します。広範な実験により、MVSGaussian が汎化パフォーマンス、リアルタイムレンダリング速度、およびシーンごとの高速最適化の点で最先端に達していることが検証されています。ただし、MVSGaussian は深度推定にマルチビューステレオ (MVS) に依存しているため、テクスチャや鏡面反射が弱い領域での深度精度の低下など、MVS の制限を受け継ぎ、結果としてビュー品質が低下します。

以上がわずか 3 つのビューで迅速に推論し、45 秒で最適化を完了できる、効率的で一般化可能なガウス再構成フレームワーク。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

继承 github 算法人工智能 https

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Li Feifei の「Spatial Intelligence」シリーズの新たな進歩、Wu Jiajun チームの新しい「BVS」スイートがコンピュータビジョンモデルを評価次の記事：Li Feifei の「Spatial Intelligence」シリーズの新たな進歩、Wu Jiajun チームの新しい「BVS」スイートがコンピュータビジョンモデルを評価

続きを見る