検索
ホームページテクノロジー周辺機器AIStable Video 3D が衝撃的なデビューを果たします。単一の画像から死角のない 3D ビデオが生成され、モデルの重みがオープンになります。

Stability AI の優れたモデル ファミリーに新しいメンバーが加わりました。

昨日、Stable Diffusion と Stable Video Diffusion をリリースした後、Stability AI は大規模な 3D ビデオ生成モデル「Stable Video 3D」(SV3D) をコミュニティに導入しました。

モデルは安定したビデオ拡散に基づいて構築されており、その主な利点は 3D 生成の品質とマルチビューの一貫性が大幅に向上することです。 Stability AI によって発売された以前の Stable Zero123 および共同オープンソース Zero123-XL と比較して、このモデルの効果はさらに優れています。

現在、Stable Video 3D は、Stability AI メンバーシップ (メンバーシップ) への参加が必要な商用利用と、ユーザーが Hugging Face でモデル ウェイトをダウンロードできる非商用利用の両方をサポートしています。

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

#Stability AI は、SV3D_u と SV3D_p という 2 つのモデル バリアントを提供します。 SV3D_u は、カメラ調整を必要とせずに単一の画像入力に基づいて軌道ビデオを生成します。一方、SV3D_p は、単一の画像と軌道遠近を適応させることで生成機能をさらに拡張し、ユーザーが指定されたカメラ パスに沿って 3D ビデオを作成できるようにします。

現在、Stable Video 3D に関する研究論文が公開されており、中心著者は 3 人です。

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放


    #論文アドレス: https://stability.ai/s/SV3D_report.pdf
  • ブログ アドレス: https://stability.ai/news/introducing-stable-video-3d
  • Huggingface アドレス: https:// hackgingface.co/stabilityai/sv3d
テクノロジーの概要

Stable Video 3D は、3D 生成、特にノベル ビューにおいて大幅な進歩をもたらします。合成(NVS)。

以前のアプローチでは、限られた視野角や一貫性のない入力の問題を解決する傾向がありましたが、Stable Video 3D は、任意の角度から一貫したビューを提供し、適切に一般化することができます。その結果、このモデルはポーズの制御性を向上させるだけでなく、複数のビューにわたって一貫したオブジェクトの外観を保証し、リアルで正確な 3D 生成に影響を与える重要な問題をさらに改善します。

下の図に示すように、Stable Zero123 および Zero-XL と比較して、Stable Video 3D は、より強力なディテール、より入力画像に忠実な新しいマルチビューを生成できます。一貫した多視点。

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

さらに、Stable Video 3D はマルチビューの一貫性を利用して 3D ニューラル ラディアンス フィールド (NeRF) を最適化し、直接再同期を改善します。ビューによって生成された 3D メッシュ。

この目的を達成するために、Stability AI は、予測ビュー内の目に見えない領域の 3D 品質をさらに向上させる、マスクされた分別蒸留サンプリング損失を設計しました。また、ベイクされたライティングの問題を軽減するために、Stable Video 3D は 3D 形状とテクスチャで最適化された分離されたライティング モデルを使用します。

下の画像は、Stable Video 3D モデルとその出力を使用した場合の 3D 最適化による改善された 3D メッシュ生成の例を示しています。

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

次の図は、Stable Video 3D を使用して生成された 3D メッシュ結果と、EscherNet および Stable Zero123 によって生成された 3D メッシュ結果の比較を示しています。

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

# アーキテクチャの詳細

Stable Video 3D モデルのアーキテクチャは次のとおりです。図 2 に示すように、これは Stable Video Diffusion アーキテクチャに基づいて構築されており、複数のレイヤーを備えた UNet が含まれており、各レイヤーには Conv3D レイヤーを備えた残差ブロック シーケンスと、アテンション レイヤー (空間および時間) トランスフォーマーを備えた 2 つが含まれています。ブロック。

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

具体的な処理は次のとおりです。

(i) 「fps id」と「」を削除します。モーション バケット ID」(これらは Stable Video 3D とは関係がないため);

(ii) 条件付き画像は、Stable Video Diffusion の VAE エンコーダを通じて潜在空間に埋め込まれます。次に、タイム ステップ t における UNet のノイズ潜在状態入力 zt に渡され、ノイズ潜在状態入力 zt に接続されます;

#(iii) 条件付き画像の CLIPembedding 行列が提供されます各トランスフォーマー ブロックのクロスアテンション層にキーと値として機能し、クエリは対応する層の特徴になります;

(iv) カメラの軌跡がフィードされます。拡散ノイズの時間ステップに沿った残差ブロック。カメラのポーズ角度 ei と ai およびノイズ時間ステップ t は、最初に正弦波位置埋め込みに埋め込まれ、次にカメラ ポーズの埋め込みが線形変換のために連結され、ノイズ時間ステップの埋め込みに追加され、最後に各残差ブロックに供給され、ブロックの入力特徴量に追加されます。

さらに、Stability AI は、以下の図 3 に示すように、カメラのポーズ調整の影響を研究するために静的軌道と動的軌道を設計しました。

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

#静的軌道上では、カメラは条件画像と同じ仰角を使用して等距離方位角でオブジェクトの周りを回転します。この欠点は、調整された仰角に基づいて、オブジェクトの上部または下部に関する情報が得られない可能性があることです。動的軌道では、方位角が等しくない場合があり、各ビューの仰角も異なる場合があります。

動的軌道を構築するために、Stability AI は静的軌道をサンプリングし、その方位角に小さなランダム ノイズを追加し、その仰角に異なる周波数の正弦波のランダムに重み付けされた組み合わせを追加します。そうすることで時間的な滑らかさが提供され、カメラの軌道が条件画像と同じ方位角と仰角のループに沿って終了することが保証されます。

実験結果

安定性 AI は、目に見えない GSO および OmniObject3D データセット上の静的および動的軌道上で安定したビデオを評価し、3D 複合マルチビュー効果を評価しました。以下の表 1 ~ 4 に示す結果は、Stable Video 3D が新しいマルチビュー合成において最先端のパフォーマンスを達成していることを示しています。

表 1 と 3 は、静的軌道上の Stable Video 3D とその他のモデルの結果を示しており、ポーズ調整を行わないモデル SV3D_u でも、以前のすべての方法よりも優れたパフォーマンスを示しています。

アブレーション解析の結果は、SV3D_c と SV3D_p が静的軌道の生成において SV3D_u よりも優れていることを示していますが、後者は静的軌道のみでトレーニングされています。

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

以下の表 2 および表 4 は、姿勢調整モデル SV3D_c および SV3D_p を含む動的軌道の生成結果を示しています。 、すべてのメトリクスで SOTA を達成します。

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

#以下の図 6 の視覚的な比較結果は、Stable Video 3D の方がより詳細な画像であることを示しています。 、条件付き画像により忠実であり、複数の視野角にわたってより一貫しています。

Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放

#技術的な詳細と実験結果については、元の論文を参照してください。

以上がStable Video 3D が衝撃的なデビューを果たします。単一の画像から死角のない 3D ビデオが生成され、モデルの重みがオープンになります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
外挿の包括的なガイド外挿の包括的なガイドApr 15, 2025 am 11:38 AM

導入 数週間で作物の進行を毎日観察する農民がいるとします。彼は成長率を見て、さらに数週間で彼の植物がどれほど背が高くなるかについて熟考し始めます。 thから

ソフトAIの台頭とそれが今日のビジネスにとって何を意味するかソフトAIの台頭とそれが今日のビジネスにとって何を意味するかApr 15, 2025 am 11:36 AM

ソフトAIは、おおよその推論、パターン認識、柔軟な意思決定を使用して特定の狭いタスクを実行するように設計されたAIシステムとして定義されていますが、曖昧さを受け入れることにより、人間のような思考を模倣しようとします。 しかし、これはBusineにとって何を意味しますか

AIフロンティア向けの進化するセキュリティフレームワークAIフロンティア向けの進化するセキュリティフレームワークApr 15, 2025 am 11:34 AM

答えは明確です。クラウドコンピューティングには、クラウドネイティブセキュリティツールへの移行が必要であるため、AIはAIの独自のニーズに特化した新しい種類のセキュリティソリューションを要求します。 クラウドコンピューティングとセキュリティレッスンの台頭 で

3つの方法生成AIは起業家を増幅します:平均に注意してください!3つの方法生成AIは起業家を増幅します:平均に注意してください!Apr 15, 2025 am 11:33 AM

起業家とAIと生成AIを使用して、ビジネスを改善します。同時に、すべてのテクノロジーと同様に、生成的AIが増幅器であることを覚えておくことが重要です。厳密な2024年の研究o

Andrew Ngによる埋め込みモデルに関する新しいショートコースAndrew Ngによる埋め込みモデルに関する新しいショートコースApr 15, 2025 am 11:32 AM

埋め込みモデルのパワーのロックを解除する:Andrew Ngの新しいコースに深く飛び込む マシンがあなたの質問を完全に正確に理解し、応答する未来を想像してください。 これはサイエンスフィクションではありません。 AIの進歩のおかげで、それはRになりつつあります

大規模な言語モデル(LLMS)の幻覚は避けられませんか?大規模な言語モデル(LLMS)の幻覚は避けられませんか?Apr 15, 2025 am 11:31 AM

大規模な言語モデル(LLM)と幻覚の避けられない問題 ChatGpt、Claude、GeminiなどのAIモデルを使用した可能性があります。 これらはすべて、大規模なテキストデータセットでトレーニングされた大規模な言語モデル(LLMS)、強力なAIシステムの例です。

60%の問題 -  AI検索がトラフィックを排出す​​る方法60%の問題 - AI検索がトラフィックを排出す​​る方法Apr 15, 2025 am 11:28 AM

最近の研究では、AIの概要により、産業と検索の種類に基づいて、オーガニックトラフィックがなんと15〜64%減少する可能性があることが示されています。この根本的な変化により、マーケティング担当者はデジタルの可視性に関する戦略全体を再考することになっています。 新しい

AI R&Dの中心に人間が繁栄するようにするMITメディアラボAI R&Dの中心に人間が繁栄するようにするMITメディアラボApr 15, 2025 am 11:26 AM

Elon UniversityがDigital Future Centerを想像している最近のレポートは、300人近くのグローバルテクノロジーの専門家を調査しました。結果のレポート「2035年に人間である」は、ほとんどがTを超えるAIシステムの採用を深めることを懸念していると結論付けました。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール