世界初のオープンソースのSora風建築ビデオ生成モデルが登場!
データ処理、すべてのトレーニングの詳細、モデルの重みを含むトレーニング プロセス全体はすべてオープンです。
これは、リリースされたばかりの Open-Sora 1.0 です。
実際の効果は以下の通りで、繁華街の夜景に賑わいを生み出すことができます。
航空写真の視点を使用して、崖の海岸と岩に打ち寄せる海水のシーンを表示することもできます。
または、タイムラプス撮影による広大な星空。
Sora のリリース以来、Sora の公開と再作成は、その驚くべき効果と技術的な詳細の不足により、開発コミュニティで最も話題になるトピックの 1 つとなっています。たとえば、Colossal-AI チームは、コストを 46% 削減できる Sora のトレーニングと推論の複製プロセスを開始しました。
わずか 2 週間後、チームは再び最新の進捗状況をリリースし、Sora のようなソリューションを再現し、技術ソリューションと詳細なチュートリアルを GitHub で無料でオープンソースにしました。
そこで問題は、ソラをどのように再現するかということです。
Open-Sora オープン ソース アドレス: https://github.com/hpcaitech/Open-Sora
Sora 再発計画の包括的な解釈
Sora 再発計画には以下が含まれます4 つの側面:
- モデル アーキテクチャ設計
- トレーニング再現計画
- データ前処理
- 効率的なトレーニング最適化戦略
#△STDiT 構造図
モデル全体の学習と推論のプロセスは次のとおりです。
トレーニング段階では、まず事前トレーニングされた変分オートエンコーダー (VAE) エンコーダーを使用してビデオ データを圧縮し、次に STDiT が圧縮された潜在空間に埋め込まれたテキストとともにトレーニングされることが理解されています。モデル。
推論段階では、ガウス ノイズが VAE の潜在空間からランダムにサンプリングされ、プロンプト エンベディングとともに STDiT に入力されてノイズ除去された特徴が取得され、最後に VAE デコード プロセッサに入力されてデコードされて、ビデオ。
△モデルトレーニングプロセス
トレーニング再現計画
トレーニング再現部分では、Open-Sora は Stable Video Diffusion (SVD) を指します。
これは 3 つのステージに分かれています:
- 大規模な画像の事前トレーニング。
- 大規模なビデオによる事前トレーニング。
- 高品質ビデオ データの微調整。
各ステージでは、前のステージの重みに基づいてトレーニングを継続します。
ゼロからの単一ステージのトレーニングと比較して、マルチステージ トレーニングでは、データを段階的に拡張することで、高品質のビデオ生成という目標をより効率的に達成します。
公開ビデオ データ セットのダウンロード、ショットの連続性に基づいて長いビデオを短いビデオ クリップに分割すること、オープンソースの大規模言語モデル LLaVA を使用して正確なプロンプト ワードを生成することが含まれます。
同社が提供するバッチビデオタイトル生成コードは、ビデオに 2 枚のカードと 3 秒の注釈を付けることができ、品質は GPT-4V に近くなります。
最終的なビデオとテキストのペアは、トレーニングに直接使用できます。 GitHub で提供されるオープン ソース コードを使用すると、独自のデータ セットでのトレーニングに必要なビデオとテキストのペアを簡単かつ迅速に生成できるため、Sora レプリケーション プロジェクトを開始するための技術的なしきい値と事前準備が大幅に軽減されます。
効率的なトレーニング サポート
さらに、Colossal-AI チームはトレーニング高速化ソリューションも提供します。
オペレーターの最適化やハイブリッド並列処理などの効率的なトレーニング戦略により、64 フレーム、解像度 512x512 のビデオ処理のトレーニングで 1.55 倍の高速化効果が達成されました。
同時に、Colossal-AI の異種メモリ管理システムのおかげで、1 分間の 1080p 高解像度ビデオ トレーニング タスクを単一サーバー (8H800) で支障なく実行できます。
#また、チームは、STDiT モデル アーキテクチャがトレーニング中に優れた効率を示すことも発見しました。
フル アテンション メカニズムを使用する DiT と比較して、STDiT はフレーム数の増加に応じて最大 5 倍の高速化効果を実現します。これは、長いビデオ シーケンスの処理などの実際のタスクでは特に重要です。
最後に、チームはさらに Open-Sora 生成エフェクトもリリースしました。
、期間 00:25
チームと Qubits は、Open-Sora 関連のソリューションと開発を長期的に更新および最適化することを明らかにしました。将来的には、より多くのビデオ トレーニング データを使用して、より高品質で長いビデオ コンテンツを生成し、マルチ解像度機能をサポートする予定です。
実用化に関しては、映画、ゲーム、広告などの分野での導入を推進していくことを明らかにした。
興味のある開発者は、GitHub プロジェクトにアクセスして詳細をご覧ください~
Open-Sora オープン ソース アドレス: https://github.com/hpcaitech/Open-Sora
Referenceリンク:
[1]https://arxiv.org/abs/2212.09748 変圧器を備えたスケーラブルな拡散モデル。
[2]https://arxiv.org/abs/2310.00426 PixArt-α: フォトリアリスティックなテキストから画像への合成のための拡散変換器の高速トレーニング.
[3]https://arxiv.org/abs/2311.15127 安定したビデオ拡散: 潜在ビデオ拡散モデルを大規模なデータセットに拡張します。
[4]https://arxiv.org/abs/2401.03048 Latte: ビデオ生成用の潜在拡散トランスフォーマー。
[5]https://huggingface.co/stabilityai/sd-vae-ft-mse-original。
[6]https://github.com/google-research/text-to-text-transfer-transformer。
[7]https://github.com/haotian-liu/LLaVA。
[8]https://hpc-ai.com/blog/open-sora-v1.0。
以上が世界初のSora風のオープンソース複製ソリューションが登場!すべてのトレーニングの詳細とモデルの重みを完全に開示の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

FaceのOlympiccoder-7Bを抱き締める:強力なオープンソースコード推論モデル 優れたコードに焦点を当てた言語モデルを開発するための競争は激化しており、顔を抱き締めることは、恐るべき競争相手との競争に参加しました:Olympiccoder-7B、製品

AIが質問に答えるだけでなく、AIができることを望んでいる人は何人いますか?私は自分が持っていることを知っています、そして最近、私はそれがどのように変容しているかに驚いています。 aiチャットボットはもうチャットするだけでなく、作成することです。

Smart AIは、エンタープライズソフトウェアプラットフォームとアプリケーションのあらゆるレベルのレベルに統合され始めているため(強力なコアツールと信頼性の低いシミュレーションツールの両方があることを強調する必要があります)、これらのエージェントを管理するための新しいインフラストラクチャ機能のセットが必要です。 ドイツのベルリンに拠点を置くプロセスオーケストレーション会社であるCamundaは、Smart AIが適切な役割を果たし、新しいデジタル職場での正確なビジネス目標とルールと一致するのに役立つと考えています。同社は現在、組織がAIエージェントのモデル化、展開、管理を支援するように設計されたインテリジェントオーケストレーション機能を提供しています。 実用的なソフトウェアエンジニアリングの観点から、これはどういう意味ですか? 確実性と非決定的プロセスの統合 同社は、鍵はユーザー(通常はデータサイエンティスト、ソフトウェア)を許可することだと言いました

次の'25年にGoogle Cloudに参加して、GoogleがどのようにAIの製品を区別するかを見たいと思っていました。 エージェントスペース(ここで説明)とカスタマーエクスペリエンススイート(ここで説明)に関する最近の発表は、ビジネス価値を強調し、

検索拡張生成(RAG)システムのための最適な多言語埋め込みモデルの選択 今日の相互接続された世界では、効果的な多言語AIシステムを構築することが最重要です。 REには、堅牢な多言語埋め込みモデルが重要です

テスラのオースティンロボタキシローンチ:マスクの主張を詳しく見る Elon Muskは最近、テキサス州オースティンでのテスラの今後のRobotaxi発売を発表しました。当初、安全上の理由で10〜20台の車両の小さな艦隊を展開し、迅速な拡大を計画しました。 h

人工知能の適用方法は予期しない場合があります。当初、私たちの多くは、それが主にコードの作成やコンテンツの作成など、創造的で技術的なタスクに使用されていると思うかもしれません。 ただし、Harvard Business Reviewによって報告された最近の調査では、そうではないことが示されています。ほとんどのユーザーは、仕事だけでなく、サポート、組織、さらには友情のために人工知能を求めています! 報告書は、AIアプリケーションの最初のケースは治療と交際であると述べています。これは、その24時間年中無休の可用性と匿名の正直なアドバイスとフィードバックを提供する能力が非常に価値があることを示しています。 一方、マーケティングタスク(ブログの作成、ソーシャルメディアの投稿の作成、広告コピーなど)は、一般的な使用リストではるかに低くランク付けされています。 なぜこれがなぜですか?研究の結果とそれがどのように続くかを見てみましょう

AIエージェントの台頭は、ビジネス環境を変えています。 Cloud Revolutionと比較して、AIエージェントの影響は指数関数的に大きく、知識作業に革命をもたらすことを約束していると予測されています。 人間の意思決定-makiをシミュレートする能力


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

Dreamweaver Mac版
ビジュアル Web 開発ツール

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

WebStorm Mac版
便利なJavaScript開発ツール
