安定性 AI オープンソース新リリース: 3D 生成によるビデオ拡散モデルの導入、品質の一貫性の向上、4090 プレイアブル
Stable Diffusion の背後にある会社である Stability AI が、新しいものを発表しました。
今回は Tusheng 3D に新たな進歩をもたらしました:
Stable Video Diffusion に基づく Stable Video 3D (SV3D) は、たった 1 つの画像グリッドで高品質の 3D ネットワークを生成できます。
Stable Video Diffusion (SVD) は、高解像度ビデオを生成するために Stability AI によって以前にリリースされたモデルです。 SV3D の出現は、ビデオ拡散モデルが 3D 生成の分野に初めて成功裏に適用されたことを示しています。
これに基づいて、SV3D は 3D 生成の品質とビューの一貫性を大幅に向上させたと公式に述べられています。
モデルの重みはまだオープンソースですが、非営利目的でのみ使用できます。商業的に使用したい場合は、Stability AI を購入する必要があります。メンバーシップ~
あまり言うことはありません。論文の詳細を見てみましょう。
3D 生成にビデオ拡散モデルを使用する
潜在ビデオ拡散モデルを紹介します。SV3D の中心的な目的は、ビデオ モデルの時間的一貫性を使用して 3D 生成の一貫性を向上させることです。
そして、動画データ自体は3Dデータよりも入手が容易です。
Stability AI は、今回 2 つのバージョンの SV3D を提供します。
- SV3D_u: 単一の画像に基づいて軌道ビデオを生成します。
- SV3D_p: SV3D_u の機能を拡張して、指定されたカメラ パスに基づいて 3D モデル ビデオを作成します。
研究者らは、3D 最適化テクノロジも改善しました。つまり、粗いトレーニング戦略から細かいトレーニング戦略を使用して NeRF メッシュと DMTet メッシュを最適化し、3D オブジェクトを生成します。
彼らは、トレーニング データには直接表示されない領域を最適化することでパフォーマンスを向上させるために、マスクされたスコア蒸留サンプリング (SDS) と呼ばれる特別な損失関数も設計しました。生成された 3D モデル。
同時に、SV3D は球面ガウスに基づく照明モデルを導入して照明効果とテクスチャを分離し、テクスチャの明瞭さを維持しながら組み込みの照明の問題を効果的に軽減します。
特にアーキテクチャの観点から見ると、SV3D には次の主要なコンポーネントが含まれています。
- UNet: SV3D は SVD に基づいて構築されており、多層 UNet が含まれており、各層には一連の残差ブロック (3D 畳み込み層を含む) と、空間情報と時間情報をそれぞれ処理する 2 つのブロックがあります。モジュール。
- 条件付き入力: 入力画像は VAE エンコーダを通じて潜在空間に埋め込まれ、ノイズ電位状態とマージされて一緒に UNet に入力されます。入力画像の CLIP 埋め込み行列は、各 Transformer モジュールのクロス アテンション フォース レイヤーのキーと値のペア。
- カメラ軌道エンコード: SV3D は、カメラの姿勢条件の影響を研究するために、静的軌道と動的軌道の 2 種類の軌道を設計します。静的軌道では、カメラは等間隔の方位角でオブジェクトを取り囲みますが、動的軌道では不規則な間隔の方位角と異なる仰角が可能です。
カメラの運動軌跡情報と拡散ノイズの時間情報を一緒に残差モジュールに入力し、正弦波位置埋め込みに変換し、これらの埋め込み情報を統合・線形変換して加算します。ノイズにタイムステップが埋め込まれています。
この設計は、カメラの軌道とノイズ入力を細かく制御することで、モデルの画像処理能力を向上させることを目的としています。
さらに、SV3D は生成プロセス中に CFG (分類子なしのガイダンス) を使用して、特にトラックの最後の数フレームを生成するときに、生成の鮮明さを制御します。過度のシャープ化を避けるために三角形の CFG スケーリングを使用します。
研究者らは、画像解像度 575×576、視野 33.8 度の Objaverse データセットで SV3D をトレーニングしました。この論文では、3 つのモデル (SV3D_u、SV3D_c、SV3D_p) がすべて 4 つのノードで約 6 日間トレーニングされたことが明らかになり、各ノードには 8 つの 80GB A100 GPU が搭載されています。
実験結果
新しい視点合成(NVS)と3D再構成の点で、SV3Dは他の既存の手法を超え、SOTAに到達しています。
#定性的な比較の結果から、SV3D によって生成されたマルチビュー ビューは詳細がより豊富で、元の入力画像に近いことがわかります。言い換えれば、SV3D は、オブジェクトの 3D 構造を理解して再構築する際に、視野角を変更しても詳細をより正確にキャプチャし、一貫性を維持できます。
このような結果は多くのネチズンの感情を呼び起こしました:
今後 6 ~ 12 か月以内に 3D 生成テクノロジーが普及すると考えられます。ゲームやビデオプロジェクトで使用されます。
コメント欄には常に大胆なアイデアが投稿されています...
そして、このプロジェクトはオープンソースであり、友人の第一陣がすでにプレイを開始しており、4090 で実行できます。
参考リンク:
[1]https://twitter.com/StabilityAI/status/1769817136799855098。
[2]https://stability.ai/news/introducing-stable-video-3d。
[3]https://sv3d.github.io/index.html。
以上が安定性 AI オープンソース新リリース: 3D 生成によるビデオ拡散モデルの導入、品質の一貫性の向上、4090 プレイアブルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ドリームウィーバー CS6
ビジュアル Web 開発ツール

Dreamweaver Mac版
ビジュアル Web 開発ツール
