ホームページ >テクノロジー周辺機器 >AI >証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。
3D生成ディフュージョンモデル「ロダン」の名前RODINは、フランスの彫刻家オーギュスト・ロダンからインスピレーションを得たものです。
2D 証明写真があれば、わずか数秒で 3D ゲーム アバターをデザインできます。
これは3D分野における普及モデルの最新の成果です。たとえば、フランスの彫刻家ロダンの古い写真だけで、数分で彼をゲームに「変身」させることができます: △RODIN モデルはロダンの古い写真に基づいて生成されます。 image は、たった 1 文でドレスや画像を変更することもできます。 AI にロダンの「赤いセーターと眼鏡をかけた外観」を生成するように指示します。 大きな背中が気に入らないですか?次に、「編み込みの外観」に変更します。 髪の色をもう一度変更してみますか?これは「茶色の髪のファッショナブルなトレンディな人」です。ひげの色も固定されています。 (AI の目から見た「ファッショナブルなトレンディな人」は、確かに少し異なります)トレンディーすぎる) 上記の最新の 3D 生成拡散モデル「RODIN」(Roll-out Diffusion Network)は、Microsoft Research Asia から提供されています。 RODIN は、生成拡散モデルを使用して 3D トレーニング データ上で 3D デジタル アバター (Avatar) を自動生成する最初のモデルでもあり、この論文はCVPR 2023 に受理されました。
見に行きましょう。 3D データを直接使用して拡散モデルをトレーニングこの 3D 生成拡散モデル「ロダン」RODIN の名前は、フランスの彫刻家オーギュスト・ロダンからインスピレーションを得ています。 以前は、2D で生成された 3D 画像モデルは、通常、敵対的生成ネットワーク (GAN) または変分オートエンコーダー (VAE) を 2D データでトレーニングすることによって取得されていましたが、結果は満足のいくものではないことがよくありました。 研究者らは、この現象の理由は、これらの手法に基本的な未決定 (不適切な設定) 問題があるためであると分析しました。つまり、単視点画像の幾何学的な曖昧さのため、大量の 2D データだけで高品質の 3D アバターの合理的な分布を学習することは難しく、その結果、生成結果が不十分になります。 そこで、今回は3D データを直接使用して拡散モデルをトレーニングすることを試みました 、主に 3 つの問題を解決しました:
#△3D 対応コンボリューションで 3D 特徴を効率的に処理
上図の左側では、3D 空間を表現するためにトライプレーンが使用されています。今度は、一番下の特徴面の特徴点は、他の 2 つの特徴面の 2 つの線に対応します。上図の右側では、拡張された 2D 特徴面を処理するために 3D 知覚畳み込みが導入されています。 3 つの平面の次元固有の対応関係。
具体的には、3D 画像の生成を実現するには 3 つの重要な要素が必要です。
まず、3D 対応の畳み込みにより、次元削減後の 3 つの平面の固有の相関が保証されます。従来の 2D 拡散で使用される 2D 畳み込みニューラル ネットワーク (CNN) は、Triplane 特徴マップを適切に処理できません。
3D 対応の畳み込みは、単に 3 つの 2D フィーチャ平面を生成するのではなく、そのような 3D 表現を処理するときにその固有の 3 次元特性を考慮します。つまり、3 つのビュー平面のうちの 1 つの 2D フィーチャは本質的に直線の投影です。したがって、3D 空間内の線は、他の 2 つの平面内の対応する直線投影フィーチャに関連付けられます。
クロスプレーン通信を実現するために、研究者はこのような 3D 相関を畳み込みで考慮し、3D の詳細を 2D に効率的に合成します。
2つ目、潜在空間協奏曲3面3D表現生成。
研究者は、潜在ベクトルを通じて特徴生成を調整して、3 次元空間全体にわたってグローバルに一貫性を持たせ、その結果、より高品質のアバターとセマンティック編集が可能になります。
同時に、トレーニング データセット内の画像を使用して追加の画像エンコーダーもトレーニングされ、意味論的な潜在ベクトルを拡散モデルへの条件付き入力として抽出できます。
このようにして、生成ネットワーク全体を、拡散モデルを復号潜在空間ベクトルとして使用するオートエンコーダとみなすことができます。セマンティックな編集性を実現するために、研究者らはテキスト プロンプトと潜在スペースを共有するフリーズされた CLIP 画像エンコーダーを採用しました。
3 番目の階層合成により、忠実度の高い 3 次元の詳細が生成されます。
研究者らは拡散モデルを使用して、まず低解像度の 3 ビュー プレーン (64×64) を生成し、次に拡散を通じて高解像度の 3 ビュー プレーン (256×256) を生成しました。アップサンプリング。
このように、基本的な拡散モデルは全体的な 3D 構造の生成に焦点を当て、後続のアップサンプリング モデルは詳細の生成に焦点を当てます。
トレーニング データ セット 上で、研究者はオープンソース 3D レンダリング ソフトウェア Blender を使用して、仮想 3D キャラクターをランダムに組み合わせました。アーティストによって手動で作成された画像と、多数の髪、衣服、表情、アクセサリーからのランダム サンプリングを組み合わせて、100,000 人の合成個人を作成し、各個人に対して解像度 256*256 の 300 枚のマルチビュー画像をレンダリングします。
3D アバターへのテキストの生成に関して、研究者らは LAION-400M データ セットのポートレート サブセットを使用して、入力モダリティから 3D 拡散モデルの隠れた空間へのマッピングをトレーニングし、最終的に1 つだけを使用する RODIN モデル 2D 画像またはテキスト説明により、リアルな 3D アバターを作成できます。
△写真を与えてアバターを生成する
は、「巻き毛とひげを生やした男性」のように、一文で画像を変更するだけでなく、黒い革のジャケットを着ている" ":
性別さえも自由に変えることができます、「アフリカの髪型に赤い服を着た女性」: (手動の犬の頭)
研究者らは、アプリケーション デモのデモンストレーションも行いました。独自のイメージの作成に必要なのは、いくつかのボタンだけです:
△テキストを使用して、 3D ポートレート編集を行う
その他の効果については、プロジェクト アドレスをクリックして表示できます~
##△さらにランダムに生成されたアバターAfter RODIN の制作、チームの次のステップ 計画は何ですか? Microsoft Research Asia の著者によると、RODIN の現在の作品は主に3D 半身ポートレート に焦点を当てており、これは主に顔データをトレーニングに使用しているという事実とも関係していますが、 3D 画像の生成 需要は人の顔に限定されません。
次に、チームは、「1 つのモデルですべてを 3D 生成する」という最終目標を達成するために、RODIN モデルを使用して花、木、建物、車、家などを含むさらに 3D シーンを作成することを検討します。 」。 論文アドレス:https://arxiv.org/abs/2212.06135
https://3d-avatar-diffusion.microsoft.com
以上が証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。