ホームページ >テクノロジー周辺機器 >AI >新技術 Repaint123: 高品質のシングルビュー 3D をわずか 2 分で効率的に生成します。

新技術 Repaint123: 高品質のシングルビュー 3D をわずか 2 分で効率的に生成します。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2024-01-08 19:06:44863ブラウズ

画像を 3D に変換する方法は、通常、スコア蒸留サンプリング (SDS) 方法を使用します。結果は優れていますが、マルチビューの不一致、過飽和、次のような問題など、いくつかの欠点がまだあります。滑らかすぎるテクスチャと遅い生成速度。
これらの問題を解決するために、北京大学、シンガポール国立大学、武漢大学などの研究者は、多視点バイアス、テクスチャ劣化を軽減し、生成プロセスを高速化する Repaint123 を提案しました。

論文アドレス: https://arxiv.org/pdf/2312.13271.pdf

GitHub ：https://github.com/PKU-YuanGroup/repaint123

プロジェクトアドレス：https://pku-yuangroup.github.io/repaint123/

中心となるアイデアは、2D 拡散モデルの画像生成機能とテクスチャ位置合わせ機能を組み合わせて、高品質のマルチビュー画像を生成することです。

著者はさらに、生成される画像の品質を向上させるために、可視性を意識した適応型再描画強度を提案しています。

新技術 Repaint123: 高品質のシングルビュー 3D をわずか 2 分で効率的に生成します。

#生成された高品質で一貫性のあるマルチビュー画像により、単純な平均二乗誤差 (MSE) 損失を使用した高速 3D コンテンツ生成が可能になります。

著者は、Repaint123 がマルチビューの一貫性と細かいテクスチャを備えた高品質の 3D コンテンツを 2 分で生成できることを実験的に証明しました。

この記事の主な貢献は次のとおりです:

1. Repaint123 は、画像から 3D 生成までの制御可能な再描画プロセスを包括的に考慮しています。複数の視点から一貫した高品質の画像シーケンスを生成できます。

2. Repaint123 は、シンプルなシングルビュー 3D 生成ベースラインを提案しました。粗いモデルステージでは、3D 事前および SDS 損失として Zero123 を使用して、ガウススプラッティングジオメトリを迅速に最適化します (1 分)。ファインモデルステージこのステージでは、MSE 損失を伴う前に 2D として安定拡散を使用して、メッシュテクスチャをすばやく調整します (1 分)。

3. 広範な実験により、単一の画像から 2D 生成と同等の品質の 3D コンテンツをわずか 2 分で生成できる Repaint123 手法の有効性が検証されました。

新技術 Repaint123: 高品質のシングルビュー 3D をわずか 2 分で効率的に生成します。

#図 1: 論文作成の動機: 高速、一貫性、高品質のシングルビュー 3D 生成

# # 具体的な方法:

Repaint123 の主な改善点は、複数の視点からの一貫した高品質のイメージシーケンスの生成と、高速で高品質の 3D の 2 つの部分で構成されるメッシュ改良段階に焦点を当てています。再建。

大まかなモデルの段階では、著者は 3D 表現として 3D ガウススプラッティングを使用し、大まかなモデルのジオメトリとテクスチャは SDS 損失を通じて最適化されます。

リファインメント段階では、著者は粗いモデルをメッシュ表現に変換し、漸進的で制御可能なテクスチャリファインメント再描画スキームを提案します。

まず、作成者は、幾何学的制御と参照画像のガイダンスを通じて、以前に最適化されたビューに対して不可視領域を徐々に再描画し、新しいビューのビュー一貫性のある画像を取得します。

著者らは次に、分類子を使用しないガイダンスに画像キューを採用し、重複領域の生成品質をさらに向上させる適応型再描画戦略を設計しました。

最後に、作成者は、ビュー一貫性のある高品質画像を生成することで、単純な MSE 損失を利用して 3D コンテンツを迅速に生成します。

マルチビューイングの一貫した高品質画像シーケンスの生成:

図 2 に示すように、マルチビューイングの一貫した高品質画像シーケンスが生成されます。生成ポイント次の 4 つの部分です。 ##DDIM Inversion

新技術 Repaint123: 高品質のシングルビュー 3D をわずか 2 分で効率的に生成します。

#ラフモデル段階で生成された 3D の一貫した低周波テクスチャ情報を保存するために、作成者は DDIM Inversion を使用して、後続のノイズ除去のために画像を特定の潜在力に変換し、忠実で一貫した画像を基礎として生成します。

制御可能なノイズ除去

ジオメトリと長距離テクスチャの一貫性を制御するために、ノイズ除去段階で、作者は ControlNet を使用して粗いモデルレンダリングの深度マップをジオメトリの事前定義として導入し、テクスチャマイグレーションのリファレンスマップ。

同時に、分類子を使用しないガイダンスを実行して画質を向上させるために、この論文では CLIP を使用して参照画像を画像プロンプトノイズ除去ネットワークにエンコードします。

オクルージョンマスクの取得

レンダリングされたイメージの新しいビューからオクルージョンを取得するにはインおよび深度マップ Dn マスクMn、Ir と Dr の再描画参照ビュー Vr が与えられると、作成者はまず深度 Dr を使用して Vr から 3D 点群に 2D ピクセル点をスケーリングし、次に新しい視点 Vn から 3D 点群 Pr をレンダリングして、深度マップ Dn'。

著者は、2 つの新しいビュー深度マップ (Dn と Dn') の間の異なる深度値を持つ領域をオクルージョンマスクのオクルージョン領域とみなします。

オクルージョンとオーバーラップの両方をプログレッシブに再ペイントする

イメージシーケンスと隣接するイメージのオーバーラップ領域が確実に描画されるようにするため、画像はピクセルレベルで位置合わせされ、作成者はプログレッシブローカル再描画戦略を使用して、重なり合う領域を変更せずに調和のとれた一貫性のある隣接領域を生成するなど、基準視点から 360° まで同様に行います。

しかし、図 3 に示すように、著者は、これまで斜視だった領域の視覚解像度が正面を向いたときに大きくなるため、重複領域も改善する必要があることに気付きました。高周波情報などをさらに追加する必要があります。

品質を向上させながら忠実度を確保するために適切な間引き強度を選択するために、著者は射影定理と画像超解像度のアイデアを利用して、シンプルかつ直接的な方法を提案します。再描画戦略は重なり合う領域を調整するために使用され、間引き強度は 1-cosθ* (θ* は以前のすべてのカメラ角度と表示された表面の法線ベクトルの間の最大角度) に等しくなります。重なり合う領域を適応的に再描画します。

図 3: カメラ角度と間引き強度の関係

高速かつ高品質の 3D 再構成：

図 4 に示すように、著者は 2 段階の方法を採用しています。最初にガウススプラッティング表現を使用して合理的なジオメトリと粗いテクスチャを迅速に生成し、同時にマルチ-上記で生成された一貫性のあるビュー高品質の画像シーケンスを使用して、著者らは単純な MSE 損失を使用して高速 3D テクスチャ再構築を実行できました。

#図 4: Repaint123 の 2 段階シングルビュー 3D 生成フレームワーク
実験結果

著者は複数のシングルビュー生成タスク方法を比較し、RealFusion15 および Test-alpha データセットで一貫性、品質、速度の点で最も高度な結果を達成しました。

#単一ビューの 3D 生成視覚化の比較

単一ビュー3D 生成の定量的比較

アブレーション実験
現場では同時に、著者は論文で使用されている各モジュールの有効性と視点回転の増分に関するアブレーション実験も実施しました。

以上が新技術 Repaint123: 高品質のシングルビュー 3D をわずか 2 分で効率的に生成します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

github stable diffusion https vr prompt

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：SenseTime、スマートデスクランプ3.0時代をリードするスマートデスクランプ「Yuanluobo Light Wing Lamp」を発売次の記事：SenseTime、スマートデスクランプ3.0時代をリードするスマートデスクランプ「Yuanluobo Light Wing Lamp」を発売

続きを見る