ホームページ >テクノロジー周辺機器 >AI >新技術 Repaint123: 高品質のシングルビュー 3D をわずか 2 分で効率的に生成します。
画像を 3D に変換する方法は、通常、スコア蒸留サンプリング (SDS) 方法を使用します。結果は優れていますが、マルチビューの不一致、過飽和、次のような問題など、いくつかの欠点がまだあります。滑らかすぎるテクスチャと遅い生成速度。
これらの問題を解決するために、北京大学、シンガポール国立大学、武漢大学などの研究者は、多視点バイアス、テクスチャ劣化を軽減し、生成プロセスを高速化する Repaint123 を提案しました。
論文アドレス: https://arxiv.org/pdf/2312.13271.pdf
GitHub :https://github.com/PKU-YuanGroup/repaint123
プロジェクトアドレス:https://pku-yuangroup.github.io/repaint123/
中心となるアイデアは、2D 拡散モデルの画像生成機能とテクスチャ位置合わせ機能を組み合わせて、高品質のマルチビュー画像を生成することです。
著者はさらに、生成される画像の品質を向上させるために、可視性を意識した適応型再描画強度を提案しています。
#生成された高品質で一貫性のあるマルチビュー画像により、単純な平均二乗誤差 (MSE) 損失を使用した高速 3D コンテンツ生成が可能になります。
著者は、Repaint123 がマルチビューの一貫性と細かいテクスチャを備えた高品質の 3D コンテンツを 2 分で生成できることを実験的に証明しました。
この記事の主な貢献は次のとおりです:
1. Repaint123 は、画像から 3D 生成までの制御可能な再描画プロセスを包括的に考慮しています。複数の視点から一貫した高品質の画像シーケンスを生成できます。
2. Repaint123 は、シンプルなシングルビュー 3D 生成ベースラインを提案しました。粗いモデル ステージでは、3D 事前および SDS 損失として Zero123 を使用して、ガウス スプラッティング ジオメトリを迅速に最適化します (1 分)。ファイン モデル ステージ このステージでは、MSE 損失を伴う前に 2D として安定拡散を使用して、メッシュ テクスチャをすばやく調整します (1 分)。
3. 広範な実験により、単一の画像から 2D 生成と同等の品質の 3D コンテンツをわずか 2 分で生成できる Repaint123 手法の有効性が検証されました。
#図 1: 論文作成の動機: 高速、一貫性、高品質のシングルビュー 3D 生成
# # 具体的な方法:
Repaint123 の主な改善点は、複数の視点からの一貫した高品質のイメージ シーケンスの生成と、高速で高品質の 3D の 2 つの部分で構成されるメッシュ改良段階に焦点を当てています。再建。
大まかなモデルの段階では、著者は 3D 表現として 3D ガウス スプラッティングを使用し、大まかなモデルのジオメトリとテクスチャは SDS 損失を通じて最適化されます。
リファインメント段階では、著者は粗いモデルをメッシュ表現に変換し、漸進的で制御可能なテクスチャリファインメント再描画スキームを提案します。
まず、作成者は、幾何学的制御と参照画像のガイダンスを通じて、以前に最適化されたビューに対して不可視領域を徐々に再描画し、新しいビューのビュー一貫性のある画像を取得します。
著者らは次に、分類子を使用しないガイダンスに画像キューを採用し、重複領域の生成品質をさらに向上させる適応型再描画戦略を設計しました。
最後に、作成者は、ビュー一貫性のある高品質画像を生成することで、単純な MSE 損失を利用して 3D コンテンツを迅速に生成します。
マルチビューイングの一貫した高品質画像シーケンスの生成:
図 2 に示すように、マルチビューイングの一貫した高品質画像シーケンスが生成されます。生成ポイント 次の 4 つの部分です。 ##DDIM Inversion
#ラフモデル段階で生成された 3D の一貫した低周波テクスチャ情報を保存するために、作成者は DDIM Inversion を使用して、後続のノイズ除去のために画像を特定の潜在力に変換し、忠実で一貫した画像を基礎として生成します。
制御可能なノイズ除去 ジオメトリと長距離テクスチャの一貫性を制御するために、ノイズ除去段階で、作者は ControlNet を使用して粗いモデル レンダリングの深度マップをジオメトリの事前定義として導入し、テクスチャ マイグレーションのリファレンス マップ。 同時に、分類子を使用しないガイダンスを実行して画質を向上させるために、この論文では CLIP を使用して参照画像を画像プロンプトノイズ除去ネットワークにエンコードします。 オクルージョン マスクの取得 レンダリングされたイメージの新しいビューからオクルージョンを取得するには インおよび深度マップ Dn マスクMn、Ir と Dr の再描画参照ビュー Vr が与えられると、作成者はまず深度 Dr を使用して Vr から 3D 点群に 2D ピクセル点をスケーリングし、次に新しい視点 Vn から 3D 点群 Pr をレンダリングして、深度マップ Dn'。 著者は、2 つの新しいビュー深度マップ (Dn と Dn') の間の異なる深度値を持つ領域をオクルージョン マスクのオクルージョン領域とみなします。 オクルージョンとオーバーラップの両方をプログレッシブに再ペイントする イメージ シーケンスと隣接するイメージのオーバーラップ領域が確実に描画されるようにするため、画像はピクセル レベルで位置合わせされ、作成者はプログレッシブ ローカル再描画戦略を使用して、重なり合う領域を変更せずに調和のとれた一貫性のある隣接領域を生成するなど、基準視点から 360° まで同様に行います。 しかし、図 3 に示すように、著者は、これまで斜視だった領域の視覚解像度が正面を向いたときに大きくなるため、重複領域も改善する必要があることに気付きました。高周波情報などをさらに追加する必要があります。 品質を向上させながら忠実度を確保するために適切な間引き強度を選択するために、著者は射影定理と画像超解像度のアイデアを利用して、シンプルかつ直接的な方法を提案します。再描画戦略は重なり合う領域を調整するために使用され、間引き強度は 1-cosθ* (θ* は以前のすべてのカメラ角度と表示された表面の法線ベクトルの間の最大角度) に等しくなります。重なり合う領域を適応的に再描画します。 図 3: カメラ角度と間引き強度の関係 高速かつ高品質の 3D 再構成: 図 4 に示すように、著者は 2 段階の方法を採用しています。最初にガウス スプラッティング表現を使用して合理的なジオメトリと粗いテクスチャを迅速に生成し、同時にマルチ-上記で生成された一貫性のあるビュー 高品質の画像シーケンスを使用して、著者らは単純な MSE 損失を使用して高速 3D テクスチャ再構築を実行できました。 #図 4: Repaint123 の 2 段階シングルビュー 3D 生成フレームワーク 著者は複数のシングルビュー生成タスク方法を比較し、RealFusion15 および Test-alpha データ セットで一貫性、品質、速度の点で最も高度な結果を達成しました。 #単一ビューの 3D 生成視覚化の比較 単一ビュー3D 生成の定量的比較 アブレーション実験
以上が新技術 Repaint123: 高品質のシングルビュー 3D をわずか 2 分で効率的に生成します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。