MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現-AI-php.cn

ホームページ

テクノロジー周辺機器

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

王林

Oct 04, 2023 pm 12:17 PM

写真ai

リアルな画像生成は、仮想現実、拡張現実、ビデオゲーム、映画制作などの分野で幅広く応用されています。

過去 2 年間の拡散モデルの急速な発展により、画像生成の分野では大きな進歩が見られました。テキストの説明に基づいて画像を生成するための Stable Diffusion から派生した一連のオープンソースまたは商用モデルは、デザイン、ゲーム、その他の分野に多大な影響を与えました

しかし、テキストの説明に基づいて画像を生成する方法特定のテキストまたはその他の条件で、高品質のマルチビュー画像を作成することは依然として課題です。既存のメソッドには、マルチビューの一貫性において明らかな欠陥があります。

現在一般的なメソッドは、大きく 2 つのカテゴリに分類できます。

まず、クラスメソッドは専用です。シーンピクチャと深度マップを生成し、Text2Room、SceneScape などの対応するメッシュを取得します。まず安定拡散を使用して最初のピクチャを生成し、次にイメージワーピングとイメージインペインティングを使用して、自己回帰を使用して後続のピクチャと深度マップを生成します。方法。

ただし、このような解決策では、複数の画像の生成中にエラーが徐々に蓄積する可能性があり、通常、閉ループの問題 (カメラが円を描くように回転するときなど) が発生します。開始位置付近に戻ります)、生成されたコンテンツは最初のピクチャと完全に一致しません)、シーンの規模が大きい場合やピクチャ間で視点が変化する場合にはパフォーマンスが低下します。

2 番目のタイプの方法では、拡散モデルの生成アルゴリズムを拡張して、単一の画像よりもリッチなコンテンツを生成することで複数の画像を同時に生成します (360 度のパノラマの生成など) 、または画像の内容が両側に無限に外挿されます) (MultiDiffusion や DiffCollage など)。ただし、カメラモデルは考慮されていないため、このタイプの方法で生成された結果は真のパノラマではありません。これらの画像は内容において厳密に一貫しており、意味的に世界的に統一されています。この方法の中心的な考え方は、一貫性を維持するために、ノイズ除去と画像間の対応関係の学習を同時に行うことです。

# を表示するには、次のリンクをクリックしてください。論文: https://arxiv.org/abs/2307.01097

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

プロジェクト Web サイトにアクセスしてください: https://mvdiffusion.github.io/

デモ: https://huggingface.co/spaces/tangshitao/MVDiffusion

コード: https://github.com/Tangshitao/MVDiffusion

カンファレンス公開: NeurIPS (キーポイント)

MVDiffusion の目標は、同時ノイズ除去とグローバル認識ベースを通じて、一貫性の高いコンテンツと統一されたグローバルセマンティクスを備えたマルチビューポイントを生成することです。 Picture

具体的には、研究者らは既存のテキストと画像の拡散モデル (安定拡散など) を拡張し、まず複数の画像を並行して処理できるようにし、さらにオリジナルでは、複数の視点とグローバルな統一性の間の一貫性を学習するために、追加の「Correspondence-aware Attendance」メカニズムが UNet に追加されています。

少量の多視点画像トレーニングデータを微調整することで、結果として得られるモデルは、一貫性の高いコンテンツを持つ多視点画像を同時に生成できます。

MVDiffusion は、3 つの異なるアプリケーションシナリオで良好な結果を達成しました。

テキストに基づいて複数のビューを生成し、それらを結合してパノラマを取得します。

2. パースイメージを外挿 (アウトペイント) して、完全な 360 度のパノラマを取得します;

3. シーンのテクスチャを生成します。

アプリケーションシナリオの表示

アプリケーション 1: パノラマ生成のプロセスでは、複数の写真またはビデオをつなぎ合わせて、パノラマパース画像またはビデオを作成します。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。このテクノロジーは、観光、不動産、仮想現実、その他の分野で幅広い用途があります (テキストによると)

パノラマの生成を例として、シーンを説明するテキストを入力すると、MVDIffusion は次のことができます。シーンの複数の画像を生成するパースペクティブ画像

次を入力して 8 枚のマルチパースペクティブ画像を取得します: 「このキッチンはカントリーとモダンが魅力的に融合しており、大きな再生木材のアイランドが特徴です。大理石のカウンタートップ、キャビネットに囲まれた A シンク。アイランドの左側には背の高いステンレス製の冷蔵庫があります。シンクの右側には、パステルカラーで塗装された造り付けの木製キャビネットがあります。」

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

これら 8 枚の写真を 1 つのパノラマにつなぎ合わせることができます:

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

MVDiffusion は Provide もサポートしています画像ごとに異なるテキストの説明がありますが、説明は意味的に一貫している必要があります。

アプリケーション 2: パノラマ生成のプロセスは、複数の写真またはビデオをつなぎ合わせて、パノラマ透視画像またはビデオを作成することです。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。この技術は、観光、不動産、仮想現実、その他の分野で幅広く応用されています (透視画像に基づいて)

MVDiffusion は、透視画像を完全な 360 度のパノラマ画像に外挿 (塗りつぶし) することができます。

たとえば、次のパースペクティブを入力するとします。

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

MVDiffusion は、さらに以下のパノラマを生成できます。

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

生成されたパノラマは入力画像を意味的に拡大し、左端と右端の内容が接続されていることがわかります (閉ループ問題はありません) ）。

アプリケーション 3: シーンマテリアルの生成

MVDiffusion を使用して、特定のマテリアルレスシーンメッシュのマテリアル (テクスチャ) を生成します

具体的には、まずメッシュをレンダリングして多視点深度マップを取得し、カメラの姿勢と深度マップを通じて多視点画像のピクセル間の対応関係を取得します。

次に、MVDiffusion は、一貫したマルチビュー RGB 画像を同時に生成する条件としてマルチビューデプスマップを使用します。

生成されたマルチビューイメージはコンテンツの一貫性を高度に維持できるため、それをメッシュに再投影することで、高品質のテクスチャメッシュを取得できます。

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

以下はその他のエフェクトの例です:

パノラマ生成のプロセスは、複数の写真またはビデオを結合することです。画像やビデオを組み合わせてパノラマビューを作成します。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。このテクノロジーは、観光、不動産、仮想現実、その他の分野で幅広く応用されています

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現 ##このアプリケーションシナリオでは、次のことに言及する必要があります。特に、MVDiffusion のトレーニングに使用されるマルチビュー画像データはすべて屋内シーンのパノラマから取得され、スタイルはすべて単一の

ですが、MVDiffusion は元の安定したデータを変更しません。拡散パラメータを使用して、新しく追加された Correspondence-aware Attendance

をトレーニングするだけです。

最後に、モデルは、指定されたテキストに基づいて、さまざまなスタイル (屋外、漫画など) のマルチビュー画像を生成できます。

#書き直す必要がある内容は次のとおりです: シングルビュー外挿

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

シーンマテリアルの生成

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

最初に 3 つの異なるタスクで MVDiffusion の具体的な画像生成プロセスを紹介し、最後にこの方法の中核部分である「Correspondence-aware Attendance」モジュールを紹介します。図 1 は、MVDiffusion

1 の概要を示しています。パノラマ生成のプロセスでは、複数の写真またはビデオをつなぎ合わせて、パノラマ透視画像またはビデオを作成します。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。この技術は、観光、不動産、仮想現実、その他の分野で幅広く応用されています (本文によると)

MVDiffusion は、8 つの重なり合う画像を同時に生成します。パース画像）を作成し、これら 8 枚の写真をパノラマにつなぎ合わせます。これら 8 つの透視画像では、3x3 ホモグラフィックマトリックスによって 2 つの各画像間のピクセルの対応関係が決定されます。

特定の生成プロセスでは、MVDiffusion は最初にガウスランダム初期化を使用して 8 つの画像ビューを生成します。

次に、これら 8 つの画像の画像は次のとおりです。複数のブランチを持つ安定拡散の事前トレーニング済み Unet ネットワークに入力され、生成された結果を取得するために同期ノイズ除去が実行されます。

新しい「Correspondence-aware Attendance」モジュール (上の図の水色の部分) が UNet ネットワークに追加されました。これは、クロスビュー間の幾何学的一貫性を学習するために使用されます。、これらの 8 枚の写真を一貫したパノラマにつなぎ合わせることができるようにします。

#2. パノラマ生成のプロセスでは、複数の写真またはビデオをつなぎ合わせて、パノラマパース画像またはビデオを作成します。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。このテクノロジーは、観光、不動産、仮想現実などに幅広い用途があります (透視図によると)

MVDiffusion単一のパースビューをパノラマに完成させることもできます。パノラマ生成のプロセスでは、複数の写真またはビデオをつなぎ合わせて、画像またはビデオのパノラマビューを作成します。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。この技術は、観光、不動産、仮想現実などの分野で幅広い応用が可能であり、MVDiffusion は、ランダムに初期化された 8 つの視点画像 (視点に対応する視点を含む) をマルチブランチの Stable Diffusion Inpainting 事前学習済み UNet ネットワークに入力します。

安定拡散修復モデルでは、UNet は追加の入力マスクを使用して条件付きイメージと生成されるイメージを区別します

視点パースペクティブに対応するマスクは 1 に設定され、このブランチの UNet はパースペクティブを直接復元します。他のパースペクティブの場合、マスクは 0 に設定され、対応するブランチの UNet が新しいパースペクティブを生成します。

#同様に、MVDiffusion は「Correspondence-aware Attendance」モジュールを使用して、次のことを学習します。画像と条件を生成します。画像間の幾何学的一貫性と意味論的な統一性を実現します。

3. シーンマテリアルの生成

MVDiffusion はまず、深度マップとカメラのポーズに基づいて軌跡上に RGB を生成します。 . 画像を作成し、TSDF フュージョンを使用して、生成された RGB 画像を指定された深度マップでメッシュ化します。

RGB 画像のピクセル対応は、深度マップとカメラのポーズを通じて取得できます。

パノラマ生成のプロセスは、複数の写真またはビデオをつなぎ合わせて、画像またはビデオのパノラマビューを作成することです。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。この技術は、観光、不動産、仮想現実などの分野で幅広く応用されており、マルチブランチUNetを使用し、視点間の幾何学的一貫性を学習するための「Correspondence-aware Attendance」を挿入しています。

#4. 対応を意識したアテンションメカニズム

#「対応を意識したアテンション」 MVDiffusion の中核である「(CAA)」は、複数のビュー間の幾何学的一貫性と意味論的な統一性を学習するために使用されます。

MVDiffusion は、Stable Diffusion UNet の各 UNet ブロックの後に「Correspondence-aware Attendance」ブロックを挿入します。 CAA は、ソース特徴マップと N ターゲット特徴マップを考慮することによって機能します。

ソース特徴マップ内の位置については、ターゲット特徴マップ内の対応するピクセルとその近傍に基づいてアテンション出力を計算します。

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

具体的には、各ターゲットピクセル t^l に対して、MVDiffusion は (x/y) 座標を渡します。整数の変位を加算します。 (dx/dy) K x K 近傍を考慮します。ここで、|dx| は x 方向の変位を表し、|dy| は y 方向の変位

実際のアプリケーションでは、MVDiffusion アルゴリズムは K=3 を使用し、9 点の近傍を選択してパノラマの品質を向上させます。ただし、幾何学的条件を考慮した多視点画像を生成する場合、作業効率を向上させるため、K=1

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

CAAモジュールを使用した計算が必要となります。上の式に示すように、標準のアテンションメカニズムに従います。ここで、W_Q、W_K、および W_V はクエリ、キー、および値行列の学習可能な重みです。ターゲットフィーチャは整数位置に配置されず、双線形補間によって取得されます。

主な違いは、位置エンコードが、対応する位置 s^l と s の間の 2D 変位 (パノラマ) または 1D 深度誤差 (ジオメトリ) に基づいてターゲットフィーチャに追加されることです。ソース画像。

パノラマ生成 (アプリケーション 1 およびアプリケーション 2) では、この変位によってローカル近傍の相対位置が得られます。

また、深度から画像の生成 (アプリケーション 3) では、視差は深度の不連続性やオクルージョンに関する手がかりを提供します。これは高忠実度の画像生成にとって非常に重要です。

ディスプレイスメントは、2D (ディスプレイスメント) ベクトルまたは 1D (深さエラー) ベクトルを含む概念であることに注意してください。 MVDiffusion は、変位の x 座標と y 座標に標準の周波数エンコーディングを適用します。

以上がMVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパのAI大陸行動計画：GigaFactories、Data Labs、Green AIApr 10, 2025 am 11:21 AM

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか？Apr 10, 2025 am 11:20 AM

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ：企業の明確な勝利新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

従業員へのAI戦略の販売：Shopify CEOのマニフェストApr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMは、完全なAI統合でZ17メインフレームを起動しますApr 10, 2025 am 11:18 AM

IBMのZ17メインフレーム：AIを強化した事業運営の統合先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築（2022年に開始され、持続的な収益の成長の実証

5 chatgptプロンプトは他の人に依存して停止し、自分を完全に信頼するApr 10, 2025 am 11:17 AM

揺るぎない自信のロックを解除し、外部検証の必要性を排除します！これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。ブラケットをコピー、貼り付け、カスタマイズするだけです

AIはあなたの心に危険なほど似ていますApr 10, 2025 am 11:16 AM

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。内部スヌーピング：人類の解釈可能性研究人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a

Dragonwingは、QualcommのEdge Momentumを紹介していますApr 10, 2025 am 11:14 AM

Qualcomm's DragonWing：企業とインフラストラクチャへの戦略的な飛躍 Qualcommは、新しいDragonwingブランドで世界的に企業やインフラ市場をターゲットにして、モバイルを超えてリーチを積極的に拡大しています。これは単なるレブランではありません

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ドリームウィーバー CS6

ビジュアル Web 開発ツール

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、