検索
ホームページテクノロジー周辺機器AI安定性 AI オープンソース新リリース: 3D 生成によるビデオ拡散モデルの導入、品質の一貫性の向上、4090 プレイアブル

Stable Diffusion の背後にある会社である Stability AI が、新しいものを発表しました。

今回は Tusheng 3D に新たな進歩をもたらしました:

Stable Video Diffusion に基づく Stable Video 3D (SV3D) は、たった 1 つの画像グリッドで高品質の 3D ネットワークを生成できます。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Stable Video Diffusion (SVD) は、高解像度ビデオを生成するために Stability AI によって以前にリリースされたモデルです。 SV3D の出現は、ビデオ拡散モデルが 3D 生成の分野に初めて成功裏に適用されたことを示しています。

これに基づいて、SV3D は 3D 生成の品質とビューの一貫性を大幅に向上させたと公式に述べられています。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

モデルの重みはまだオープンソースですが、非営利目的でのみ使用できます。商業的に使用したい場合は、Stability AI を購入する必要があります。メンバーシップ~

あまり言うことはありません。論文の詳細を見てみましょう。

3D 生成にビデオ拡散モデルを使用する

潜在ビデオ拡散モデルを紹介します。SV3D の中心的な目的は、ビデオ モデルの時間的一貫性を使用して 3D 生成の一貫性を向上させることです。

そして、動画データ自体は3Dデータよりも入手が容易です。

Stability AI は、今回 2 つのバージョンの SV3D を提供します。

  • SV3D_u: 単一の画像に基づいて軌道ビデオを生成します。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

  • SV3D_p: SV3D_u の機能を拡張して、指定されたカメラ パスに基づいて 3D モデル ビデオを作成します。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

研究者らは、3D 最適化テクノロジも改善しました。つまり、粗いトレーニング戦略から細かいトレーニング戦略を使用して NeRF メッシュと DMTet メッシュを最適化し、3D オブジェクトを生成します。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

彼らは、トレーニング データには直接表示されない領域を最適化することでパフォーマンスを向上させるために、マスクされたスコア蒸留サンプリング (SDS) と呼ばれる特別な損失関数も設計しました。生成された 3D モデル。

同時に、SV3D は球面ガウスに基づく照明モデルを導入して照明効果とテクスチャを分離し、テクスチャの明瞭さを維持しながら組み込みの照明の問題を効果的に軽減します。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

特にアーキテクチャの観点から見ると、SV3D には次の主要なコンポーネントが含まれています。

  • UNet: SV3D は SVD に基づいて構築されており、多層 UNet が含まれており、各層には一連の残差ブロック (3D 畳み込み層を含む) と、空間情報と時間情報をそれぞれ処理する 2 つのブロックがあります。モジュール。
  • 条件付き入力: 入力画像は VAE エンコーダを通じて潜在空間に埋め込まれ、ノイズ電位状態とマージされて一緒に UNet に入力されます。入力画像の CLIP 埋め込み行列は、各 Transformer モジュールのクロス アテンション フォース レイヤーのキーと値のペア。
  • カメラ軌道エンコード: SV3D は、カメラの姿勢条件の影響を研究するために、静的軌道と動的軌道の 2 種類の軌道を設計します。静的軌道では、カメラは等間隔の方位角でオブジェクトを取り囲みますが、動的軌道では不規則な間隔の方位角と異なる仰角が可能です。

カメラの運動軌跡情報と拡散ノイズの時間情報を一緒に残差モジュールに入力し、正弦波位置埋め込みに変換し、これらの埋め込み情報を統合・線形変換して加算します。ノイズにタイムステップが埋め込まれています。

この設計は、カメラの軌道とノイズ入力を細かく制御することで、モデルの画像処理能力を向上させることを目的としています。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

さらに、SV3D は生成プロセス中に CFG (分類子なしのガイダンス) を使用して、特にトラックの最後の数フレームを生成するときに、生成の鮮明さを制御します。過度のシャープ化を避けるために三角形の CFG スケーリングを使用します。

研究者らは、画像解像度 575×576、視野 33.8 度の Objaverse データセットで SV3D をトレーニングしました。この論文では、3 つのモデル (SV3D_u、SV3D_c、SV3D_p) がすべて 4 つのノードで約 6 日間トレーニングされたことが明らかになり、各ノードには 8 つの 80GB A100 GPU が搭載されています。

実験結果

新しい視点合成(NVS)と3D再構成の点で、SV3Dは他の既存の手法を超え、SOTAに到達しています。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

#定性的な比較の結果から、SV3D によって生成されたマルチビュー ビューは詳細がより豊富で、元の入力画像に近いことがわかります。言い換えれば、SV3D は、オブジェクトの 3D 構造を理解して再構築する際に、視野角を変更しても詳細をより正確にキャプチャし、一貫性を維持できます。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

このような結果は多くのネチズンの感情を呼び起こしました:

今後 6 ~ 12 か月以内に 3D 生成テクノロジーが普及すると考えられます。ゲームやビデオプロジェクトで使用されます。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

コメント欄には常に大胆なアイデアが投稿されています...

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

そして、このプロジェクトはオープンソースであり、友人の第一陣がすでにプレイを開始しており、4090 で実行できます。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

参考リンク:
[1]https://twitter.com/StabilityAI/status/1769817136799855098。
[2]https://stability.ai/news/introducing-stable-video-3d。
[3]https://sv3d.github.io/index.html。

以上が安定性 AI オープンソース新リリース: 3D 生成によるビデオ拡散モデルの導入、品質の一貫性の向上、4090 プレイアブルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ほとんどが使用されています10 Power BIチャート - 分析Vidhyaほとんどが使用されています10 Power BIチャート - 分析VidhyaApr 16, 2025 pm 12:05 PM

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

AIのエキスパートシステムAIのエキスパートシステムApr 16, 2025 pm 12:00 PM

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

3人の最高の雰囲気コーダーがこのAI革命をコードで分解する3人の最高の雰囲気コーダーがこのAI革命をコードで分解するApr 16, 2025 am 11:58 AM

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますか滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますかApr 16, 2025 am 11:45 AM

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

5日間のISRO AI無料コースを登録する方法は? - 分析Vidhya5日間のISRO AI無料コースを登録する方法は? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

AIのローカル検索アルゴリズムAIのローカル検索アルゴリズムApr 16, 2025 am 11:40 AM

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますOpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますApr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

プロンプト:ChatGptは偽のパスポートを生成しますプロンプト:ChatGptは偽のパスポートを生成しますApr 16, 2025 am 11:35 AM

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール