ホームページ  >  記事  >  テクノロジー周辺機器  >  北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現

北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現

WBOY
WBOY転載
2024-01-10 23:09:511134ブラウズ

写真を 3D に変換するのにかかる時間は 2 分です。

それは依然として、高いテクスチャ品質と複数の視野角での高い一貫性を備えた種類です。

北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現

どんな種類であっても、入力時のシングルビュー画像は次のようになります。

北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現

Two数分後、3D バージョンが完成します:

北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現##△上、Repaint123 (
NeRF

); 下、Repaint123 (GS)新しいメソッドは

Repaint123

と呼ばれます。中心となるアイデアは、2D 拡散モデルの強力な画像生成機能と再ペイント戦略のテクスチャ位置合わせ機能を組み合わせて、高品質で一貫した画像を生成することです。多視点からのイメージ。 さらに、この研究では、重複領域に対する可視性を考慮した適応型再ペイント強度手法も導入しています。

Repaint123は、これまでの多視点ずれが大きい、テクスチャの劣化、生成の遅さなどの問題点を一気に解決しました。

北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現# プロジェクト コードはまだ GitHub で公開されていませんが、100 人がコードをマークするために来ています:

北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現# # Repaint123 はどのようなものですか?

これまで、画像を 3D に変換する方法には、スコア蒸留サンプリング (SDS) が一般的に使用されていました。この方法の結果は素晴らしいものですが、マルチビューの不一致、過飽和、過度に平滑化されたテクスチャ、生成の遅さなど、いくつかの問題があります。

北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現△上からinput、Zero123-XL、Magic123、Dream gaussian

これらの問題を解決するために、北京大学と彭城研究所から、シンガポール国立大学、武漢大学の研究者は Repaint123 を提案しました。

北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現一般に、Repaint123 には次のような貢献があります。

(1) Repaint123 は、画像から 3D への制御可能な再描画プロセスを包括的に考慮して生成します。高品質の画像シーケンスを生成し、これらの画像が複数の視野角にわたって一貫していることを確認します。

(2) Repaint123 は、シングルビュー 3D 生成のための単純なベースライン方法を提案しました。

大まかなモデルの段階では、Zero123 を 3D プリアとして使用し、SDS 損失関数と組み合わせて、ガウス スプラッティング ジオメトリを最適化することで大まかな 3D モデルを迅速に生成します (わずか 1 分)。

細かいモデルの段階では、2D プリアとして安定拡散を使用し、平均二乗誤差 (MSE) 損失関数と組み合わせて、メッシュ テクスチャ (これも 1 つだけ) を迅速に調整することで高品質の 3D モデルを生成します。分)。

(3) 多数の実験により、Repaint123 メソッドの有効性が証明されています。 1枚の画像からわずか2分で2D生成品質に匹敵する高品質な3Dコンテンツを生成できます。

北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現△一貫性のある高品質な 3D のシングルビュー 3D 高速生成を実現

具体的な方法を見ていきましょう。

Repaint123 はメッシュ改良段階の最適化に焦点を当てており、その主な改善方向は、マルチビューの一貫性を備えた高品質のイメージ シーケンスの生成と、高速かつ高品質の 3D 再構成の達成という 2 つの側面をカバーしています。

1. 複数視点の一貫性のある高画質画像シーケンスの生成

複数視点の一貫性のある高画質画像シーケンスの生成は、次の 3 つに分けられます。パーツ:

北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現△複数の視点からの一貫した画像生成プロセス

DDIM 反転

ラフモデル段階での生成一貫した 3D 低周波テクスチャ情報を取得するために、作者は DDIM 反転を使用して画像を決定された潜在空間に反転し、その後のノイズ除去プロセスの基礎を築き、忠実で一貫した画像を生成します。

制御可能なノイズ除去

ノイズ除去段階で幾何学的一貫性と長距離テクスチャ一貫性を制御するために、著者は ControlNet を導入し、幾何学的事前分布として粗いモデルによってレンダリングされた深度マップを使用し、同時に、テクスチャ マイグレーションのリファレンス マップ。

さらに、分類子を使用しないガイダンスを実行して画質を向上させるために、この論文では CLIP を使用して参照画像を画像キューにエンコードし、ノイズ除去ネットワークをガイドします。

再描画

オクルージョンと重複部分のプログレッシブ再描画 画像シーケンス内の隣接する画像の重複領域がピクセル レベルで位置合わせされるようにするために、作成者はプログレッシブ ローカルを使用します。戦略を再描画します。

重なり合う領域はそのままに、調和のとれた隣接領域が生成され、基準視点から360°まで徐々に広がります。

しかし、以下の図に示すように、正視時には以前に斜視されていた領域の視覚解像度が大きくなり、より多くの高周波情報が必要になるため、著者は重複領域も調整する必要があることを発見しました。追加される。

さらに、間引き強度は 1-cosθ* に等しくなります。ここで、θ* は、以前のすべてのカメラ アングルと、表示された表面の法線ベクトルを使用して、重なり合う領域を適応的に再描画します。

北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現△カメラアングルと間引き強度の関係

品質を向上させながら忠実度を確保するための適切な間引き強度を選択するために、著者は以下から教訓を得ています。射影定理と画像超解像度の考え方に基づいて、重複領域を洗練するためのシンプルかつ直接的な可視性を意識した再描画戦略が提案されています。

2. 高速かつ高品質な 3D 再構成

下の図に示すように、著者は高速かつ高品質な 3D 再構成のプロセスで 2 つの方法を使用します。 . ステージアプローチ。

#△Repaint123 2 段階シングルビュー 3D 生成フレームワーク北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現
まず、ガウス スプラッティング表現を利用して、合理的な幾何学的構造と粗いテクスチャを迅速に生成します。

同時に、以前に生成されたマルチビューの一貫した高品質画像シーケンスの助けを借りて、作成者は単純な平均二乗誤差

(MSE)

損失を使用して、高速な 3D テクスチャ再構築。

一貫性、品質、速度の最適化

研究者は、単一ビュー生成タスクの複数のアプローチを比較しました。

△シングルビュー 3D 生成視覚化の比較北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現
RealFusion15 および Test-alpha データ セットでは、Repaint123 は一貫性、品質、速度の 3 つの結果を達成しました。パフォーマンス面で最も先進的なエフェクト。

#同時に、著者は論文で使用されている各モジュールの有効性と視点回転の増分に関するアブレーション実験も実施しました。

北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現

##視野角間隔が 60 度の場合に性能がピークに達しますが、視野角間隔が広すぎると重なり合う面積が減少し、故障の可能性が高まることも分かりました。問題は多面的であるため、40 度を最適な視野角間隔として使用できます。

北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現
北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現

論文アドレス: https://arxiv.org/pdf/2312.13271.pdf

コード アドレス: https:// pku-yuangroup.github.io/repaint123/北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現

プロジェクトアドレス: https://pku-yuangroup.github.io/repaint123/

以上が北京大学制作:テクスチャ品質とマルチビューの一貫性を備えた最新SOTA、2分で1枚の画像の3D変換を実現の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。