ホームページ > 記事 > テクノロジー周辺機器 > 安定性 AI オープンソース新リリース: 3D 生成によるビデオ拡散モデルの導入、品質の一貫性の向上、4090 プレイアブル
Stable Diffusion の背後にある会社である Stability AI が、新しいものを発表しました。
今回は Tusheng 3D に新たな進歩をもたらしました:
Stable Video Diffusion に基づく Stable Video 3D (SV3D) は、たった 1 つの画像グリッドで高品質の 3D ネットワークを生成できます。
Stable Video Diffusion (SVD) は、高解像度ビデオを生成するために Stability AI によって以前にリリースされたモデルです。 SV3D の出現は、ビデオ拡散モデルが 3D 生成の分野に初めて成功裏に適用されたことを示しています。
これに基づいて、SV3D は 3D 生成の品質とビューの一貫性を大幅に向上させたと公式に述べられています。
モデルの重みはまだオープンソースですが、非営利目的でのみ使用できます。商業的に使用したい場合は、Stability AI を購入する必要があります。メンバーシップ~
あまり言うことはありません。論文の詳細を見てみましょう。
潜在ビデオ拡散モデルを紹介します。SV3D の中心的な目的は、ビデオ モデルの時間的一貫性を使用して 3D 生成の一貫性を向上させることです。
そして、動画データ自体は3Dデータよりも入手が容易です。
Stability AI は、今回 2 つのバージョンの SV3D を提供します。
研究者らは、3D 最適化テクノロジも改善しました。つまり、粗いトレーニング戦略から細かいトレーニング戦略を使用して NeRF メッシュと DMTet メッシュを最適化し、3D オブジェクトを生成します。
彼らは、トレーニング データには直接表示されない領域を最適化することでパフォーマンスを向上させるために、マスクされたスコア蒸留サンプリング (SDS) と呼ばれる特別な損失関数も設計しました。生成された 3D モデル。
同時に、SV3D は球面ガウスに基づく照明モデルを導入して照明効果とテクスチャを分離し、テクスチャの明瞭さを維持しながら組み込みの照明の問題を効果的に軽減します。
特にアーキテクチャの観点から見ると、SV3D には次の主要なコンポーネントが含まれています。
カメラの運動軌跡情報と拡散ノイズの時間情報を一緒に残差モジュールに入力し、正弦波位置埋め込みに変換し、これらの埋め込み情報を統合・線形変換して加算します。ノイズにタイムステップが埋め込まれています。
この設計は、カメラの軌道とノイズ入力を細かく制御することで、モデルの画像処理能力を向上させることを目的としています。
さらに、SV3D は生成プロセス中に CFG (分類子なしのガイダンス) を使用して、特にトラックの最後の数フレームを生成するときに、生成の鮮明さを制御します。過度のシャープ化を避けるために三角形の CFG スケーリングを使用します。
研究者らは、画像解像度 575×576、視野 33.8 度の Objaverse データセットで SV3D をトレーニングしました。この論文では、3 つのモデル (SV3D_u、SV3D_c、SV3D_p) がすべて 4 つのノードで約 6 日間トレーニングされたことが明らかになり、各ノードには 8 つの 80GB A100 GPU が搭載されています。
新しい視点合成(NVS)と3D再構成の点で、SV3Dは他の既存の手法を超え、SOTAに到達しています。
#定性的な比較の結果から、SV3D によって生成されたマルチビュー ビューは詳細がより豊富で、元の入力画像に近いことがわかります。言い換えれば、SV3D は、オブジェクトの 3D 構造を理解して再構築する際に、視野角を変更しても詳細をより正確にキャプチャし、一貫性を維持できます。
このような結果は多くのネチズンの感情を呼び起こしました:
今後 6 ~ 12 か月以内に 3D 生成テクノロジーが普及すると考えられます。ゲームやビデオプロジェクトで使用されます。
コメント欄には常に大胆なアイデアが投稿されています...
そして、このプロジェクトはオープンソースであり、友人の第一陣がすでにプレイを開始しており、4090 で実行できます。
参考リンク:
[1]https://twitter.com/StabilityAI/status/1769817136799855098。
[2]https://stability.ai/news/introducing-stable-video-3d。
[3]https://sv3d.github.io/index.html。
以上が安定性 AI オープンソース新リリース: 3D 生成によるビデオ拡散モデルの導入、品質の一貫性の向上、4090 プレイアブルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。