ホームページ  >  記事  >  テクノロジー周辺機器  >  証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。

証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。

青灯夜游
青灯夜游転載
2023-03-31 22:40:411245ブラウズ

3D生成ディフュージョンモデル「ロダン」の名前RODINは、フランスの彫刻家オーギュスト・ロダンからインスピレーションを得たものです。

2D 証明写真があれば、わずか数秒で 3D ゲーム アバターをデザインできます。

これは3D分野における普及モデルの最新の成果です。たとえば、フランスの彫刻家ロダンの古い写真だけで、数分で彼をゲームに「変身」させることができます:

証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。
△RODIN モデルはロダンの古い写真に基づいて生成されます。 image

は、たった 1 文でドレスや画像を変更することもできます。 AI にロダンの「赤いセーターと眼鏡をかけた外観」を生成するように指示します。

証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。

大きな背中が気に入らないですか?次に、「編み込みの外観」に変更します。

証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。

髪の色をもう一度変更してみますか?これは「茶色の髪のファッショナブルなトレンディな人」です。ひげの色も固定されています。

証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。

(AI の目から見た「ファッショナブルなトレンディな人」は、確かに少し異なります)トレンディーすぎる)

上記の最新の 3D 生成拡散モデル「RODIN」(Roll-out Diffusion Network)は、Microsoft Research Asia から提供されています。

RODIN は、生成拡散モデルを使用して 3D トレーニング データ上で 3D デジタル アバター (Avatar) を自動生成する最初のモデルでもあり、この論文は

CVPR 2023 に受理されました。

見に行きましょう。

3D データを直接使用して拡散モデルをトレーニング

この 3D 生成拡散モデル「ロダン」RODIN の名前は、フランスの彫刻家オーギュスト・ロダンからインスピレーションを得ています。

以前は、2D で生成された 3D 画像モデルは、通常、敵対的生成ネットワーク (GAN) または変分オートエンコーダー (VAE) を 2D データでトレーニングすることによって取得されていましたが、結果は満足のいくものではないことがよくありました。

研究者らは、この現象の理由は、これらの手法に基本的な未決定 (不適切な設定) 問題があるためであると分析しました。つまり、単視点画像の幾何学的な曖昧さのため、大量の 2D データだけで高品質の 3D アバターの合理的な分布を学習することは難しく、その結果、生成結果が不十分になります。

そこで、今回は

3D データを直接使用して拡散モデルをトレーニングすることを試みました 、主に 3 つの問題を解決しました:

    まず、拡散モデルの使用方法モデルを使用して 3D モデルのマルチビュー図を生成します。これまで、3D データ上の拡散モデルについては、実践的な手法や前例がありませんでした。
  • 第二に、高品質で大規模な 3D 画像データセットは入手が難しく、プライバシーと著作権のリスクがありますが、インターネット上で公開されている 3D 画像については、多視点の一貫性が保証されません。
  • 最後に、2D 拡散モデルは 3D 生成に直接拡張されますが、これには膨大なメモリ、ストレージ、およびコンピューティングのオーバーヘッドが必要になります。
これら3つの問題を解決するために、研究者らは既存モデルのSOTAレベルを超えるRODIN普及モデル「AI Sculptor」を提案しました。

RODIN モデルは、Neural Radiation Field (NeRF) メソッドを使用し、NVIDIA の EG3D 作業を利用して、3D 空間を空間内の 3 つの相互に垂直なフィーチャ プレーン (Triplane) にコンパクトに表現し、これらのマップを 1 つのマップに拡張します。 2D 特徴面では、3D 知覚拡散が実行されます。

具体的には、3D 空間は、水平、垂直、垂直の 3 つの直交する平面ビュー上の 2 次元特徴によって拡張されます。これにより、RODIN モデルは 3D 知覚の拡散に効率的な 2D アーキテクチャを使用できるようになるだけでなく、また、3D 画像の次元を 2D 画像に削減すると、計算の複雑さとコストも大幅に削減されます。

証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。#△3D 対応コンボリューションで 3D 特徴を効率的に処理

上図の左側では、3D 空間を表現するためにトライプレーンが使用されています。今度は、一番下の特徴面の特徴点は、他の 2 つの特徴面の 2 つの線に対応します。上図の右側では、拡張された 2D 特徴面を処理するために 3D 知覚畳み込みが導入されています。 3 つの平面の次元固有の対応関係。

具体的には、3D 画像の生成を実現するには 3 つの重要な要素が必要です。

まず、3D 対応の畳み込みにより、次元削減後の 3 つの平面の固有の相関が保証されます。

従来の 2D 拡散で使用される 2D 畳み込みニューラル ネットワーク (CNN) は、Triplane 特徴マップを適切に処理できません。

3D 対応の畳み込みは、単に 3 つの 2D フィーチャ平面を生成するのではなく、そのような 3D 表現を処理するときにその固有の 3 次元特性を考慮します。つまり、3 つのビュー平面のうちの 1 つの 2D フィーチャは本質的に直線の投影です。したがって、3D 空間内の線は、他の 2 つの平面内の対応する直線投影フィーチャに関連付けられます。

クロスプレーン通信を実現するために、研究者はこのような 3D 相関を畳み込みで考慮し、3D の詳細を 2D に効率的に合成します。

2つ目、潜在空間協奏曲3面3D表現生成。

研究者は、潜在ベクトルを通じて特徴生成を調整して、3 次元空間全体にわたってグローバルに一貫性を持たせ、その結果、より高品質のアバターとセマンティック編集が可能になります。

同時に、トレーニング データセット内の画像を使用して追加の画像エンコーダーもトレーニングされ、意味論的な潜在ベクトルを拡散モデルへの条件付き入力として抽出できます。

このようにして、生成ネットワーク全体を、拡散モデルを復号潜在空間ベクトルとして使用するオートエンコーダとみなすことができます。セマンティックな編集性を実現するために、研究者らはテキスト プロンプトと潜在スペースを共有するフリーズされた CLIP 画像エンコーダーを採用しました。

3 番目の階層合成により、忠実度の高い 3 次元の詳細が生成されます。

研究者らは拡散モデルを使用して、まず低解像度の 3 ビュー プレーン (64×64) を生成し、次に拡散を通じて高解像度の 3 ビュー プレーン (256×256) を生成しました。アップサンプリング。

このように、基本的な拡散モデルは全体的な 3D 構造の生成に焦点を当て、後続のアップサンプリング モデルは詳細の生成に焦点を当てます。

Blender に基づいた大量のランダム データの生成

トレーニング データ セット 上で、研究者はオープンソース 3D レンダリング ソフトウェア Blender を使用して、仮想 3D キャラクターをランダムに組み合わせました。アーティストによって手動で作成された画像と、多数の髪、衣服、表情、アクセサリーからのランダム サンプリングを組み合わせて、100,000 人の合成個人を作成し、各個人に対して解像度 256*256 の 300 枚のマルチビュー画像をレンダリングします。

3D アバターへのテキストの生成に関して、研究者らは LAION-400M データ セットのポートレート サブセットを使用して、入力モダリティから 3D 拡散モデルの隠れた空間へのマッピングをトレーニングし、最終的に1 つだけを使用する RODIN モデル 2D 画像またはテキスト説明により、リアルな 3D アバターを作成できます。

証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。

△写真を与えてアバターを生成する

は、「巻き毛とひげを生やした男性」のように、一文で画像を変更するだけでなく、黒い革のジャケットを着ている" ":

証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。

性別さえも自由に変えることができます、「アフリカの髪型に赤い服を着た女性」: (手動の犬の頭)

証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。

研究者らは、アプリケーション デモのデモンストレーションも行いました。独自のイメージの作成に必要なのは、いくつかのボタンだけです:

証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。

△テキストを使用して、 3D ポートレート編集を行う

その他の効果については、プロジェクト アドレスをクリックして表示できます~

証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。

##△さらにランダムに生成されたアバター

After RODIN の制作、チームの次のステップ 計画は何ですか?

Microsoft Research Asia の著者によると、RODIN の現在の作品は主に

3D 半身ポートレート に焦点を当てており、これは主に顔データをトレーニングに使用しているという事実とも関係していますが、 3D 画像の生成 需要は人の顔に限定されません。

次に、チームは、「1 つのモデルですべてを 3D 生成する」という最終目標を達成するために、RODIN モデルを使用して花、木、建物、車、家などを含むさらに 3D シーンを作成することを検討します。 」。

論文アドレス:

https://arxiv.org/abs/2212.06135

プロジェクト ページ:

https://3d-avatar-diffusion.microsoft.com

証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。


以上が証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。