ホームページ  >  記事  >  テクノロジー周辺機器  >  安定性 AI オープンソース新リリース: 3D 生成によるビデオ拡散モデルの導入、品質の一貫性の向上、4090 プレイアブル

安定性 AI オープンソース新リリース: 3D 生成によるビデオ拡散モデルの導入、品質の一貫性の向上、4090 プレイアブル

WBOY
WBOY転載
2024-03-20 14:25:181007ブラウズ

Stable Diffusion の背後にある会社である Stability AI が、新しいものを発表しました。

今回は Tusheng 3D に新たな進歩をもたらしました:

Stable Video Diffusion に基づく Stable Video 3D (SV3D) は、たった 1 つの画像グリッドで高品質の 3D ネットワークを生成できます。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Stable Video Diffusion (SVD) は、高解像度ビデオを生成するために Stability AI によって以前にリリースされたモデルです。 SV3D の出現は、ビデオ拡散モデルが 3D 生成の分野に初めて成功裏に適用されたことを示しています。

これに基づいて、SV3D は 3D 生成の品質とビューの一貫性を大幅に向上させたと公式に述べられています。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

モデルの重みはまだオープンソースですが、非営利目的でのみ使用できます。商業的に使用したい場合は、Stability AI を購入する必要があります。メンバーシップ~

あまり言うことはありません。論文の詳細を見てみましょう。

3D 生成にビデオ拡散モデルを使用する

潜在ビデオ拡散モデルを紹介します。SV3D の中心的な目的は、ビデオ モデルの時間的一貫性を使用して 3D 生成の一貫性を向上させることです。

そして、動画データ自体は3Dデータよりも入手が容易です。

Stability AI は、今回 2 つのバージョンの SV3D を提供します。

  • SV3D_u: 単一の画像に基づいて軌道ビデオを生成します。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

  • SV3D_p: SV3D_u の機能を拡張して、指定されたカメラ パスに基づいて 3D モデル ビデオを作成します。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

研究者らは、3D 最適化テクノロジも改善しました。つまり、粗いトレーニング戦略から細かいトレーニング戦略を使用して NeRF メッシュと DMTet メッシュを最適化し、3D オブジェクトを生成します。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

彼らは、トレーニング データには直接表示されない領域を最適化することでパフォーマンスを向上させるために、マスクされたスコア蒸留サンプリング (SDS) と呼ばれる特別な損失関数も設計しました。生成された 3D モデル。

同時に、SV3D は球面ガウスに基づく照明モデルを導入して照明効果とテクスチャを分離し、テクスチャの明瞭さを維持しながら組み込みの照明の問題を効果的に軽減します。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

特にアーキテクチャの観点から見ると、SV3D には次の主要なコンポーネントが含まれています。

  • UNet: SV3D は SVD に基づいて構築されており、多層 UNet が含まれており、各層には一連の残差ブロック (3D 畳み込み層を含む) と、空間情報と時間情報をそれぞれ処理する 2 つのブロックがあります。モジュール。
  • 条件付き入力: 入力画像は VAE エンコーダを通じて潜在空間に埋め込まれ、ノイズ電位状態とマージされて一緒に UNet に入力されます。入力画像の CLIP 埋め込み行列は、各 Transformer モジュールのクロス アテンション フォース レイヤーのキーと値のペア。
  • カメラ軌道エンコード: SV3D は、カメラの姿勢条件の影響を研究するために、静的軌道と動的軌道の 2 種類の軌道を設計します。静的軌道では、カメラは等間隔の方位角でオブジェクトを取り囲みますが、動的軌道では不規則な間隔の方位角と異なる仰角が可能です。

カメラの運動軌跡情報と拡散ノイズの時間情報を一緒に残差モジュールに入力し、正弦波位置埋め込みに変換し、これらの埋め込み情報を統合・線形変換して加算します。ノイズにタイムステップが埋め込まれています。

この設計は、カメラの軌道とノイズ入力を細かく制御することで、モデルの画像処理能力を向上させることを目的としています。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

さらに、SV3D は生成プロセス中に CFG (分類子なしのガイダンス) を使用して、特にトラックの最後の数フレームを生成するときに、生成の鮮明さを制御します。過度のシャープ化を避けるために三角形の CFG スケーリングを使用します。

研究者らは、画像解像度 575×576、視野 33.8 度の Objaverse データセットで SV3D をトレーニングしました。この論文では、3 つのモデル (SV3D_u、SV3D_c、SV3D_p) がすべて 4 つのノードで約 6 日間トレーニングされたことが明らかになり、各ノードには 8 つの 80GB A100 GPU が搭載されています。

実験結果

新しい視点合成(NVS)と3D再構成の点で、SV3Dは他の既存の手法を超え、SOTAに到達しています。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

#定性的な比較の結果から、SV3D によって生成されたマルチビュー ビューは詳細がより豊富で、元の入力画像に近いことがわかります。言い換えれば、SV3D は、オブジェクトの 3D 構造を理解して再構築する際に、視野角を変更しても詳細をより正確にキャプチャし、一貫性を維持できます。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

このような結果は多くのネチズンの感情を呼び起こしました:

今後 6 ~ 12 か月以内に 3D 生成テクノロジーが普及すると考えられます。ゲームやビデオプロジェクトで使用されます。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

コメント欄には常に大胆なアイデアが投稿されています...

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

そして、このプロジェクトはオープンソースであり、友人の第一陣がすでにプレイを開始しており、4090 で実行できます。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

参考リンク:
[1]https://twitter.com/StabilityAI/status/1769817136799855098。
[2]https://stability.ai/news/introducing-stable-video-3d。
[3]https://sv3d.github.io/index.html。

以上が安定性 AI オープンソース新リリース: 3D 生成によるビデオ拡散モデルの導入、品質の一貫性の向上、4090 プレイアブルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。