ホームページ >テクノロジー周辺機器 >AI >X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

PHPz転載: 2023-12-15 13:54:33688ブラウズ

近年、事前トレーニングされた拡散モデルの開発により、テキストの 3D コンテンツへの自動変換において重要な進歩が見られました [1、2、3]。その中で、DreamFusion[4] は、事前トレーニングされた 2D 拡散モデル [5] を利用して、専用の 3D アセットデータセットを必要とせずにテキストから 3D アセットを自動的に生成する効果的な方法を導入しています

## DreamFusion に導入された主要な革新の 1 つは、分別蒸留サンプリング (SDS) アルゴリズムです。このアルゴリズムは、NeRF [6] などの事前トレーニング済み 2D 拡散モデルを使用して単一の 3D 表現を評価し、任意のカメラ視点からのレンダリング画像が指定されたテキストと高い一貫性を維持するように最適化します。独創的な SDS アルゴリズムに触発され、事前トレーニングされた 2D 拡散モデルを適用することでテキストから 3D への生成タスクを進歩させるいくつかの作品 [7、8、9、10、11] が登場しました。

テキストから 3D への生成は、事前トレーニングされたテキストから 2D への拡散モデルを活用することで大幅に進歩しましたが、2D 画像と 3D アセットの間には依然として大きなギャップがあります。フィールドギャップ。この違いは図 1 に明確に示されています。

まず、テキストから 2D モデルは、他の角度を無視して特定の角度から高品質の画像を生成することに重点を置いた、カメラに依存しない生成結果を生成します。対照的に、3D コンテンツの作成は、位置、撮影角度、視野などのカメラパラメーターと複雑に結びついています。したがって、テキストから 3D モデルは、考えられるすべてのカメラパラメーターにわたって高品質の結果を生成する必要があります。

さらに、テキストから 2D への生成モデルは、画像全体の一貫性を維持するために、前景要素と背景要素を同時に生成する必要があります。対照的に、テキストから 3D への生成モデルでは、前景オブジェクトの作成のみに重点を置く必要があります。この違いにより、テキストから 3D モデルは、前景オブジェクトを正確に表現および生成するために、より多くのリソースと注意を割り当てることができます。したがって、事前トレーニングされた 2D 拡散モデルを 3D アセット作成に直接使用する場合、テキストから 2D への生成とテキストから 3D への生成の間の領域の違いが、重大なパフォーマンスの障壁になります。 ##図 1 同じテキストプロンプト、つまり「レオナルドディカプリオの頭の像」の下でのテキストから 2D への生成モデル (左) とテキストから 3D への生成モデル (右) の出力。

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

この問題を解決するために、この論文では、テキストとドメインの間のギャップを効果的に埋めることができる、高品質のテキストから 3D コンテンツへの作成のための新しい方法である X-Dreamer を提案しています。 2D およびテキストから 3D への生成。

X-Dreamer の重要なコンポーネントは、カメラ誘導低ランク適応 (CG-LoRA) とアテンションマスクアライメント (AMA) ロスの 2 つの革新的な設計です。

まず第一に、既存の方法 [7、8、9、10] は通常、テキストから 3D への生成に 2D 事前トレーニング済み拡散モデル [5、12] を使用します。カメラを操作する機能、パラメータ間の固有の関係。この制限に対処し、X-Dreamer がカメラパラメーターの影響を直接受けた結果を確実に生成できるようにするために、この論文では、事前トレーニングされた 2D 拡散モデルを調整する CG-LoRA を紹介しています。特に、CG-LoRA のパラメータは各反復中にカメラ情報に基づいて動的に生成されるため、テキストから 3D モデルとカメラパラメータの間に堅牢な関係が確立されます。

第 2 に、事前トレーニングされたテキストから 2D への拡散モデルでは前景と背景の生成に注意が割り当てられますが、3D アセットの作成では前景オブジェクトの正確な生成により多くの注意が必要です。この問題に対処するために、この論文では、3D オブジェクトのバイナリマスクを使用して、事前トレーニングされた拡散モデルのアテンションマップをガイドし、前景オブジェクトの作成を優先する AMA 損失を提案しています。このモジュールを組み込むことにより、X-Dreamer は前景オブジェクトの生成を優先し、生成される 3D コンテンツの全体的な品質を大幅に向上させます。

プロジェクトのホームページ:

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

https://xmu-xiaoma666.github.io/Projects/ X-Dreamer/

Github ホームページ: https://github.com/xmu-xiaoma666/X-Dreamer

ディスカッション

#アドレス: https://arxiv.org/abs/2312.00085

XX-Dreamer は、text-to の分野に次の貢献を行っています。 -3D 生成の貢献:

この論文では、テキストから 2D とテキストから 3D の間の主なギャップを効果的に橋渡しする、高品質のテキストから 3D コンテンツの作成のための新しい方法である X-Dreamer を提案しています。構築します。
生成された結果とカメラの視点との整合性を高めるために、この論文では、カメラ情報を使用して 2D 拡散モデルの特定のパラメータを動的に生成する CG-LoRA を提案します。
テキストから 3D モデルへの前景オブジェクトの作成を優先するために、この論文では、前景 3D オブジェクトのバイナリマスクを使用してアテンションマップをガイドする AMA 損失を導入しています。 2D拡散モデルの。

メソッド

XX-Dreamer は、幾何学学習と外観という 2 つの主要な段階で構成されます。勉強。幾何学学習のために、この研究では 3D 表現として DMTET を使用し、それを初期化するために 3D 楕円体を利用します。損失関数は初期化されると、平均二乗誤差 (MSE) 損失を使用します。次に、DMTET と CG-LoRA は、この研究で提案されている分別蒸留サンプリング (SDS) 損失と AMA 損失を使用して最適化され、3D 表現と入力テキストプロンプトの整合性を確保します

#For外観学習では、この論文では双方向反射分布関数 (BRDF) モデリングを使用しています。具体的には、この論文では、トレーニング可能なパラメータを備えた MLP を利用して、表面の材質を予測します。ジオメトリ学習段階と同様に、この論文では SDS 損失と AMA 損失を使用して MLP と CG-LoRA のトレーニング可能なパラメータを最適化し、3D 表現とテキストキューの間の位置合わせを実現します。図2にX-Dreamerの詳細な構成を示します。

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

図 2 幾何学学習と外観学習を含む X-Dreamer の概要。

幾何学学習 (幾何学学習)

このモジュールでは、X-Dreamer DMTET は、MLP ネットワーク X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。を使用して 3D 表現にパラメータ化されます。幾何モデリングの安定性を高めるために、この記事では DMTET の初期構成として 3D 楕円体を使用します。この論文では、四面体メッシュ X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。に属する各頂点について、SDF 値と変形バイアスシフト量 # という 2 つの重要な量を予測するためにをトレーニングします。。 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。を楕円体に初期化するために、この記事では、楕円体内に均等に分散された N 個の点をサンプリングし、対応する SDF 値 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。を計算します。その後、平均二乗誤差 (MSE) 損失を使用してを最適化します。この最適化プロセスにより、は DMTET を効率的に初期化し、3D 楕円体に似せることができます。 MSE 損失の計算式は次のとおりです。 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

ジオメトリを初期化した後、DMTET のジオメトリを入力テキストプロンプトに合わせます。これは、差分レンダリング技術を使用して、ランダムにサンプリングされたカメラポーズ c を与えられた初期化された DMTET から法線マップ n とオブジェクトのマスク m を生成することによって行われます。続いて、法線マップ n が、トレーニング可能な CG-LoRA 埋め込みを備えたフリーズ安定拡散モデル (SD) に入力され、 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。のパラメーターが、次のように定義される SDS 損失を使用して更新されます。

##このうち、 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

は SD のパラメータを表し、 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。は与えられたノイズにおける SD の値を表します。レベル t とテキスト埋め込み y ケースの SD の予測ノイズ。さらに、 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。 ( は正規分布からサンプリングされたノイズを表します)。、、およびの実装は、DreamFusion [4] に基づいています。 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。 # さらに、SD を前景オブジェクトの生成に集中させるために、X-Dreamer は次のようにオブジェクトマスクを SD のアテンションマップに合わせるために追加の AMA 損失を導入します。

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。は注目層の数を表します。

は、 i 番目の注目層の注目マップ。関数 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。は、レンダリングされた 3D オブジェクトマスクのサイズを調整して、そのサイズがアテンションマップのサイズと一致するようにするために使用されます。 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。外観学習 (外観学習

)

3D オブジェクトのジオメトリを取得した後、この記事の目的は、物理ベースレンダリング (PBR) マテリアルモデルを使用して 3D オブジェクトの外観を計算することです。材料モデルには、拡散項 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。、粗さおよび金属項、法線変化項が含まれます。ジオメトリの表面上の任意の点

について、 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。でパラメータ化された多層パーセプトロン (MLP) を使用して、次のように表現できる 3 つの物質項を取得します。 :

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

このうち、 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。はハッシュグリッド技術を使用した位置エンコードを表します。その後、レンダリングされたイメージの各ピクセルは、次の式を使用して計算できます。

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

#このうち、

は、 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。方向から描画された 3D オブジェクトの表面上の点のピクセル値を表します。は、条件を満たす入射方向のセットによって定義される半球を表します。ここで、は入射方向 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。 ## を表します。 # 点におけるサーフェス法線を表します。は既製の環境マップからの入射光に対応し、# はマテリアル特性に関連する双方向反射分布関数 (つまり ##) #) (BRDF)。レンダリングされたすべてのピクセルの色を集約すると、レンダリングイメージ X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。が得られます。ジオメトリ学習ステージと同様に、レンダリングされたイメージが SD に供給され、SDS 損失と AMA 損失を使用してが最適化されます。 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

#カメラガイドによる低ランク適応 (CG-LoRA)

# # テキストを 2D と 3D に生成する際のドメインギャップによって引き起こされる最適ではない 3D 結果の生成の問題を解決するために、X-Dreamer はカメラガイダンスに基づく低ランク適応方法を提案しました。

たとえば図 3 に示すように、CG-LoRA でのパラメータの生成をガイドするためにカメラパラメータと方向認識テキストが使用されるため、X-Dreamer はカメラの位置と方向の情報を効果的に認識できます。

図 3 カメラ誘導 CG-LoRA の図。

具体的には、テキストプロンプト X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。とカメラパラメーターが与えられた場合、まず事前にトレーニングされたテキスト CLIP エンコーダーとトレーニング可能な MLP を使用します。 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。、これらの入力を特徴空間に投影します:

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

ここで、 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。とはそれぞれテキスト機能とカメラ機能です。その後、2 つの低ランク行列を使用してとを CG-LoRA のトレーニング可能な次元削減行列に射影します。

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

##このうち、 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。とは CG-LoRA の 2 次元削減行列です。関数

は、テンソルの形状をから X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。に変換するために使用されます。

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。とは 2 つの低ランク行列です。したがって、これらを 2 つの行列の積に分解して、実装でトレーニング可能なパラメータを減らすことができます (例: X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。 ; 、ここで #) ##, , , , は小さな数字です (例: 4)。 LoRA の構成に従って、次元拡張行列はゼロに初期化され、モデルが SD の事前トレーニングされたパラメーターを使用してトレーニングを開始するようになります。したがって、CG-LoRA のフィードフォワードプロセス式は次のとおりです。

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

ここで、は事前学習済み SD の凍結パラメータを表します。モデル、 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。はカスケード操作です。この方法の実装では、CG-LoRA が SD のアテンションモジュールの線形埋め込み層に統合され、方向とカメラの情報を効果的にキャプチャします。

再表現する必要があるのは、アテンションマスクアラインメント損失 (AMA 損失)

SD は前です。 - 前景要素と背景要素の両方を考慮して 2D 画像を生成するようにトレーニングされています。ただし、テキストから 3D への生成では、前景オブジェクトの生成にさらに注意を払う必要があります。この要件を考慮して、X-Dreamer は、SD のアテンションマップを 3D オブジェクトのレンダリングされたマスクイメージと位置合わせするためのアテンションマスクアライメントロス (AMA ロス) を提案します。具体的には、このメソッドは、事前トレーニングされた SD の各アテンションレイヤーに対して、クエリ画像特徴 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。と主要な CLS ラベル特徴を使用してアテンションマップを計算します。次のように計算されます:

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

このうち、 X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。はマルチヘッドアテンションメカニズムのヘッドの数を表し、はアテンションマップを表し、その後、すべてのヘッドアテンションメカニズムを表します。アテンションヘッドアテンションマップ X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。のアテンション値を平均して、全体のアテンションマップの値を計算します。

ソフトマックス関数はアテンションマップ値の正規化に使用されるため、画像特徴の解像度が高い場合、アテンションマップ内のアクティベーション値が非常に小さくなる可能性があります。ただし、レンダリングされた 3D オブジェクトマスクの各要素が 0 または 1 のバイナリ値であることを考慮すると、アテンションマップをレンダリングされた 3D オブジェクトのマスクと直接位置合わせすることは最適ではありません。この問題を解決するために、論文ではアテンションマップの値を (0, 1) の間にマッピングする正規化手法を提案しています。この正規化プロセスの式は次のとおりです。

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。ここで、は小さな定数値 (# など) を表します。 ##) 分母に 0 が表示されないようにします。最後に、AMA 損失を使用して、すべてのアテンションレイヤーのアテンションマップを 3D オブジェクトのレンダリングされたマスクに位置合わせします。

実験結果

この論文では、4 つの Nvidia RTX 3090 GPU と PyTorch ライブラリを使用して実験を実施しています。 SDS 損失を計算するために、ハギングフェイスディフューザーによって実装された安定拡散モデルが利用されました。 DMTET エンコーダとマテリアルエンコーダの場合、それぞれ 2 層 MLP と 1 層 MLP として実装され、隠れ層の次元は 32 です。

楕円体から開始してテキストを 3D に生成する

紙のプレゼンテーションテキスト -初期幾何学的形状として楕円体を使用した X-Dreamer の to-3D 生成結果を図 4 に示します。この結果は、入力テキストプロンプトに正確に対応する、高品質でフォトリアリスティックな 3D オブジェクトを生成する X-Dreamer の能力を示しています。

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

#図 4 では、楕円体を開始点として使用して text-to-3D を生成しています

##粗粒メッシュからテキストから 3D への生成を開始

多数の粗粒メッシュをインターネットからダウンロードできますが、 , これらのメッシュを直接使用して 3D コンテンツを作成すると、幾何学的な詳細が不足するため、パフォーマンスが低下することがよくあります。ただし、これらのメッシュは、3D 楕円体よりも優れた 3D 形状の事前情報を X-Dreamer に提供できます。

したがって、楕円体の代わりに粗粒ガイドグリッドを使用して DMTET を初期化することも可能です。図 5 に示すように、X-Dreamer は、提供された粗粒メッシュに詳細が欠けている場合でも、指定されたテキストに基づいて正確な幾何学的詳細を持つ 3D アセットを生成できます。

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

図 5 粗粒メッシュから開始される Text-to-3D 生成。

書き直す必要がある内容は次のとおりです: 定性的比較。

X の有効性を評価するため。 -Dreamer、この論文では、図 6 に示すように、DreamFusion [4]、Magic3D [8]、Fantasia3D [7]、および ProlificDreamer [11] の 4 つの先進的な手法と比較しています。

SDS ベースの方法 [4、7、8] と比較すると、X-Dreamer は高品質でリアルな 3D アセットの生成において優れています。さらに、X-Dreamer は、VSD ベースの方法 [11] と比較して、同等またはそれ以上の視覚効果を持つ 3D コンテンツを生成し、必要な最適化時間を大幅に短縮します。具体的には、ジオメトリと外観の学習プロセスにかかる時間は、ProlificDreamer では 8 時間以上であるのに対し、X-Dreamer ではわずか約 27 分です。

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

図 6 最先端 (SOTA) 手法との比較。

#書き直す必要がある内容は次のとおりです: アブレーション実験

モジュールアブレーション

CG-LoRA と AMA 損失の機能をより深く理解するために、この論文では、各モジュールを個別に追加して評価するアブレーション研究を実施しました。その影響。図 7 に示すように、アブレーションの結果は、CG-LoRA が X-Dreamer から除外されると、生成された 3D オブジェクトの形状と外観の品質が大幅に低下することを示しています。

さらに、X-Dreamer の AMA 損失も、結果として得られる 3D アセットのジオメトリと外観の忠実性に悪影響を及ぼします。これらは書き直す必要があります。アブレーション実験は、生成された 3D オブジェクトの形状、外観、全体的な品質の向上における CG-LoRA および AMA 損失の個々の寄与についての貴重な調査を提供します。

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

図 7 X-Dreamer のアブレーション研究。

AMA 損失ありとなしのアテンションマップの比較

AMA 損失を導入する目的は、ノイズを減らすことです。ノイズ除去プロセスでは、前景のオブジェクトに注目が集まります。これは、SD のアテンションマップを 3D オブジェクトのレンダリングマスクと位置合わせすることによって実現されます。この目標を達成する際の AMA 損失の有効性を評価するために、この論文では、幾何学学習段階と外観学習段階それぞれで AMA 損失がある場合とない場合の SD のアテンションマップを比較します。 AMA 損失を追加すると、生成された 3D アセットのジオメトリと外観が改善されるだけでなく、SD が特に前景オブジェクト領域に注意を集中できるようになることがわかります。視覚化の結果は、SD の注意を誘導する際の AMA 損失の有効性を確認し、それによってジオメトリと外観の学習段階と前景オブジェクトの焦点合わせの品質を向上させます

書き換える必要がある内容は次のとおりです。図 8 は、AMA 損失を含む、または除外した、アテンションマップ、レンダリングマスク、およびレンダリングされたイメージの視覚化結果を示しています。

X-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。

この研究では、次のことを紹介します。 X-Dreamer と呼ばれる画期的なフレームワークは、テキストから 2D への生成とテキストから 3D への生成の間の領域のギャップに対処することで、テキストから 3D への生成を強化することを目的としています。この目標を達成するために、この論文ではまず CG-LoRA を提案します。これは、3 次元の関連情報 (方向を認識するテキストやカメラのパラメーターを含む) を事前にトレーニングされた安定拡散 (SD) モデルに組み込むモジュールです。そうすることで、この論文は 3 次元領域に関連する情報を効果的に捉えることができます。さらに、この論文では、SD で生成されたアテンションマップを 3D オブジェクトのレンダリングマスクと位置合わせするための AMA 損失を設計します。 AMA 損失の主な目的は、前景オブジェクトの生成に向けて、テキストの焦点を 3D モデルに誘導することです。この論文では、広範な実験を通じて、提案された方法の有効性を包括的に評価し、X-Dreamer が指定されたテキストプロンプトに基づいて高品質でリアルな 3D コンテンツを生成できることを実証します。

以上がX-Dreamer は次元の壁を突破し、2D 生成と 3D 生成の分野を統合し、高品質のテキストを 3D 生成にもたらします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

对象 github 算法 pytorch stable diffusion DreamFusion https

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：Microsoft が発行した文書: Phi-2 AI モデルのパフォーマンスは Google Gemini Nano-2 を上回り、パラメーターサイズは 27 億に達する次の記事：Microsoft が発行した文書: Phi-2 AI モデルのパフォーマンスは Google Gemini Nano-2 を上回り、パラメーターサイズは 27 億に達する

続きを見る