OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 19, 2024 am 09:00 AM

aiオープンソース

少し前まで、OpenAI Sora はその驚くべきビデオ生成効果で急速に人気を博し、他の Vincent ビデオモデルとの違いが強調され、世界的な注目を集めるようになりました。

2 週間前にコストを 46% 削減した Sora トレーニング推論再現プロセスの開始に続き、Colossal-AI チーム は世界初の Sora のようなアーキテクチャを完全にオープンソース化しました。ビデオ生成モデル「Open-Sora 1.0」——データ処理、すべてのトレーニングの詳細、モデルの重みを含む 全体のトレーニングプロセス をカバーし、世界中の AI 愛好家と連携します。ビデオ制作の新時代を促進します。

Open-Sora オープンソースアドレス: https://github.com/hpcaitech/Open-Sora

ちょっと覗いてみましょう。

Colossal-AI チームがリリースした「Open-Sora 1.0」モデルによって生成された賑やかな都市の様子を垣間見ることができるビデオを見てみましょう。

Open-Sora 1.0 によって生成された賑やかな都市のスナップショット

これは単なる氷山ですSora の再現テクノロジーのビデオのコーナーでは、Colossal-AI チームが

モデルアーキテクチャ、トレーニング済みモデルの重み、再現されたすべてのトレーニング詳細、データ前処理プロセス、デモ表示、詳細な実践チュートリアルへの無料アクセスを提供しています# Wensheng のビデオ ##。GitHub のオープンソース。 Xinzhiyuan はすぐにチームに連絡し、今後も Open-Sora 関連のソリューションと最新の開発内容を更新していく予定であることを知りました。興味のある友人は、Open-Sora のオープンソースコミュニティに注目してください。

#Sora 再発計画の包括的な解釈

次に、Sora 再発計画の複数の重要な側面を詳しく解釈します。モデルアーキテクチャの設計、トレーニング再現計画、データの前処理、モデル生成効果の表示、効率的なトレーニングの最適化戦略が含まれます。

モデルアーキテクチャ設計 OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

モデルは現在普及している拡散トランス (DiT) [1] を採用しています。建築。

著者チームは、ベースとして DiT アーキテクチャも使用する高品質のオープンソースヴィンセントグラフモデル PixArt-α [2] を使用し、これに時間的注意層を導入しています。をベースにし、それをビデオデータに拡張します。

具体的には、アーキテクチャ全体には、事前トレーニングされた VAE、テキストエンコーダー、および時空間注意メカニズムを利用する STDiT (時空間拡散変換器) モデルが含まれています。

このうち、STDiT の各層の構造を下図に示します。シリアル手法を使用して、1 次元の時間的注意モジュールを 2 次元の空間的注意モジュールに重ねて、時間関係をモデル化します。

一時的アテンションモジュールの後、クロスアテンションモジュールを使用してテキストのセマンティクスを調整します。フルアテンションメカニズムと比較して、このような構造はトレーニングと推論のオーバーヘッドを大幅に削減します。

同様に時空間注意メカニズムを使用する Latte [3] モデルと比較して、STDiT は事前トレーニングされた画像 DiT の重みをより適切に利用できるため、ビデオのパフォーマンスが向上します。データ。トレーニングを続行します。

#STDiT 構造図

モデル全体のトレーニングと推論のプロセスは次のとおりです。トレーニング段階では、まず事前トレーニングされた変分オートエンコーダー (VAE) エンコーダーを使用してビデオデータを圧縮し、次に STDiT 拡散モデルが圧縮された潜在空間に埋め込まれたテキストとともにトレーニングされることが理解されています。

推論段階では、ガウスノイズが VAE の潜在空間からランダムにサンプリングされ、プロンプト埋め込みとともに STDiT に入力され、ノイズ除去された特徴が取得されます。 VAE デコーダに送信され、デコードされてビデオが取得されます。

#モデルトレーニングプロセス

トレーニング繰り返し計画

Open-Sora の再発計画は Stable Video Diffusion (SVD) [3] 作業に言及しており、次の 3 つの段階が含まれていることをチームから学びました:

#1。 -スケール画像事前トレーニング;

2. 大規模ビデオ事前トレーニング;

3. 高画質ビデオデータの微調整。

#各ステージでは、前のステージの重量に基づいてトレーニングが継続されます。ゼロからの単一ステージのトレーニングと比較して、マルチステージトレーニングでは、データを段階的に拡張することで、高品質のビデオ生成という目標をより効率的に達成します。

#トレーニング計画の 3 段階

第一段階: 大規模な画像の事前準備training

#最初の段階では、大規模な画像の事前トレーニングと成熟したヴィンセントグラフモデルを使用して、ビデオの事前トレーニングのコストを効果的に削減します。。

著者チームは、インターネット上の豊富で大規模な画像データと高度な文法技術を通じて、高品質の文法モデルを学習できることを明らかにしました。次の 1 段階ビデオ事前トレーニングの初期化重み。

同時に、現在高品質の時空間 VAE がないため、安定拡散 [5] モデルによって事前にトレーニングされた画像 VAE を使用しました。この戦略により、初期モデルの優れたパフォーマンスが保証されるだけでなく、ビデオの事前トレーニングにかかる全体的なコストも大幅に削減されます。

#第 2 段階: 大規模なビデオ事前トレーニング

第 2 段階では、大規模なビデオの事前トレーニングを実行して、モデルの汎化能力を高め、ビデオの時系列相関を効果的に把握します。

この段階では、ビデオテーマの多様性を確保し、それによってモデルの一般化能力を高めるためにトレーニングに大量のビデオデータを使用する必要があることを理解しています。第 2 段階のモデルは、ビデオ内の時間的関係を学習するために、第 1 段階のヴィンセントグラフモデルに時間的注意モジュールを追加します。

残りのモジュールは最初のステージと一致しており、初期化として最初のステージの重みをロードし、時間的注意モジュールの出力をゼロに初期化して、より効率的かつ高速な収束を実現します。

Colossal-AI チームは、第 2 段階の STDiT モデルの初期化として PixArt-alpha[2] のオープンソースの重みを使用し、テキストとして T5[6] モデルを使用しました。エンコーダ。同時に、事前トレーニングに 256x256 という小さな解像度を使用したため、収束速度がさらに向上し、トレーニングコストが削減されました。

#第 3 段階: 高品質ビデオデータの微調整

高品質ビデオデータの第 3 段階では、ビデオ生成の品質が大幅に向上するように微調整されます。

著者チームは、第 3 段階で使用されるビデオデータのサイズは第 2 段階に比べて 1 桁小さいと述べましたが、長さ、解像度、品質はビデオのほうが高いです。このように微調整することで、短いものから長いもの、低解像度から高解像度、低忠実度から高忠実度まで、ビデオ生成の効率的なスケーリングを実現しました。

著者チームは、Open-Sora の再現プロセスでトレーニングに 64 個の H800 ブロックを使用したと述べています。

第 2 段階の合計トレーニング量は 2,808 GPU 時間、つまり約 7,000 米ドルです。第 3 段階のトレーニング量は 1920 GPU 時間、つまり約 4500 米ドルです。予備的な見積もりの後、トレーニング計画全体は、Open-Sora の繁殖プロセスを約 10,000 米ドルに抑えることに成功しました。

データ前処理

Sora 再現のしきい値と複雑さをさらに軽減するために、Colossal-AI チームは便利なビデオデータも提供します。前処理スクリプトを使用すると、公開ビデオデータセットのダウンロード、ショットの連続性に基づいて長いビデオを短いビデオクリップに分割すること、オープンソースの大規模言語モデル LLaVA [7] を使用して詳細なプロンプトワードを生成することなど、Sora 再帰事前トレーニングを簡単に開始できます。

著者チームは、提供したバッチビデオタイトル生成コードはビデオに 2 枚のカードと 3 秒の注釈を付けることができ、品質は GPT-4V に近いと述べました。結果として得られるビデオとテキストのペアは、トレーニングに直接使用できます。

GitHub で提供されるオープンソースコードを使用すると、独自のデータセットでのトレーニングに必要なビデオとテキストのペアを簡単かつ迅速に生成できるため、Sora の起動の複雑さが大幅に軽減されます。現在のプロジェクトの技術的限界と事前準備。

#データ前処理スクリプトに基づいて自動生成されたビデオ/テキストのペア
モデル生成効果の表示
Open-Sora による実際のビデオ生成効果を見てみましょう。たとえば、崖の海岸の岩に打ち寄せる海水の航空映像を Open-Sora で生成してみましょう。

Open-Sora で、山々や崖から流れ落ち、最終的に湖に流れ込む滝の壮大な鳥瞰図を撮影しましょう。

空に行くだけでなく、海にも入ることができます。プロンプトを入力するだけで、Open-Sora が水中のショットを生成します。ショットでは、サンゴ礁にカメがいます。ゆっくりと航海します。

Open-Sora では、タイムラプス撮影を通じて星がきらめく天の川も見せてくれます。

ビデオ生成に関するさらに興味深いアイデアがある場合は、Open-Sora オープンソースコミュニティにアクセスして、無料体験としてモデルの重みを取得できます。

#リンク: https://github.com/hpcaitech/Open-Sora

作者チームが Github で、現在のバージョンでは 400K のトレーニングデータのみを使用しており、モデルの生成品質とテキストを追跡する能力を改善する必要があると述べたことは注目に値します。たとえば、上のカメのビデオでは、結果のカメに余分な足が付いています。 Open-Sora 1.0 は、ポートレートや複雑な画像の生成も苦手です。

著者チームは、既存の欠陥を継続的に解決し、製品の品質を向上させることを目的として、Github 上で実行される一連の計画をリストしました。

効率的なトレーニングのサポート

ソラ再現の技術的敷居を大幅に下げることに加えて、ビデオ生成の効率を向上再生時間、解像度、コンテンツなどの多次元の品質に関して、著者チームは、ソラ再現のトレーニングを効率的にサポートするための Colossal-AI アクセラレーションシステムも提供しました。

オペレーターの最適化やハイブリッド並列処理などの効率的なトレーニング戦略により、64 フレーム、解像度 512x512 のビデオ処理のトレーニングで 1.55 倍の高速化効果が達成されました。

同時に、Colossal-AI の異種メモリ管理システムのおかげで、1 分間の 1080p 高解像度ビデオトレーニングタスクを単一サーバー (8 x H800）。

さらに、著者チームのレポートでは、STDiT モデルアーキテクチャがトレーニング中に優れた効率を示していることもわかりました。

フルアテンションメカニズムを使用する DiT と比較して、STDiT はフレーム数の増加に応じて最大 5 倍の高速化効果を実現します。これは、長いビデオシーケンスの処理などの実際のタスクでは特に重要です。

Open-Sora モデルのビデオ生成効果の概要

Huan 引き続き Open-Sora オープンソースプロジェクトにご注目ください: https://github.com/hpcaitech/Open-Sora

##著者チームは、Open-Sora プロジェクトは引き続き維持および最適化され、より多くのビデオトレーニングデータを使用して高品質で長いビデオコンテンツを生成し、マルチ解像度機能をサポートして効果的にプロモーションすることが期待されていると述べました。 AI技術の映画やゲームへの応用、広告などへの実装。

以上がOpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

顔を抱きしめます＆＃039; S 7BモデルオリンピックコダーはClaude 3.7を破っていますか？Apr 23, 2025 am 11:49 AM

FaceのOlympiccoder-7Bを抱き締める：強力なオープンソースコード推論モデル優れたコードに焦点を当てた言語モデルを開発するための競争は激化しており、顔を抱き締めることは、恐るべき競争相手との競争に参加しました：Olympiccoder-7B、製品

4つの新しいジェミニ機能は、見逃す余裕がありますApr 23, 2025 am 11:48 AM

AIが質問に答えるだけでなく、AIができることを望んでいる人は何人いますか？私は自分が持っていることを知っています、そして最近、私はそれがどのように変容しているかに驚いています。 aiチャットボットはもうチャットするだけでなく、作成することです。

Camundaは、エージェントAIオーケストレーションの新しいスコアを作成しますApr 23, 2025 am 11:46 AM

Smart AIは、エンタープライズソフトウェアプラットフォームとアプリケーションのあらゆるレベルのレベルに統合され始めているため（強力なコアツールと信頼性の低いシミュレーションツールの両方があることを強調する必要があります）、これらのエージェントを管理するための新しいインフラストラクチャ機能のセットが必要です。ドイツのベルリンに拠点を置くプロセスオーケストレーション会社であるCamundaは、Smart AIが適切な役割を果たし、新しいデジタル職場での正確なビジネス目標とルールと一致するのに役立つと考えています。同社は現在、組織がAIエージェントのモデル化、展開、管理を支援するように設計されたインテリジェントオーケストレーション機能を提供しています。実用的なソフトウェアエンジニアリングの観点から、これはどういう意味ですか？確実性と非決定的プロセスの統合同社は、鍵はユーザー（通常はデータサイエンティスト、ソフトウェア）を許可することだと言いました

キュレーションされたエンタープライズAIエクスペリエンスに価値はありますか？Apr 23, 2025 am 11:45 AM

次の'25年にGoogle Cloudに参加して、GoogleがどのようにAIの製品を区別するかを見たいと思っていました。エージェントスペース（ここで説明）とカスタマーエクスペリエンススイート（ここで説明）に関する最近の発表は、ビジネス価値を強調し、

ぼろきれに最適な多言語埋め込みモデルを見つける方法は？Apr 23, 2025 am 11:44 AM

検索拡張生成（RAG）システムのための最適な多言語埋め込みモデルの選択今日の相互接続された世界では、効果的な多言語AIシステムを構築することが最重要です。 REには、堅牢な多言語埋め込みモデルが重要です

ムスク：オースティンのロボタキシスは、10,000マイルごとに介入が必要ですApr 23, 2025 am 11:42 AM

テスラのオースティンロボタキシローンチ：マスクの主張を詳しく見る Elon Muskは最近、テキサス州オースティンでのテスラの今後のRobotaxi発売を発表しました。当初、安全上の理由で10〜20台の車両の小さな艦隊を展開し、迅速な拡大を計画しました。 h

AI＆＃x27;の衝撃的なピボット：作業ツールからデジタルセラピストやライフコーチまでApr 23, 2025 am 11:41 AM

人工知能の適用方法は予期しない場合があります。当初、私たちの多くは、それが主にコードの作成やコンテンツの作成など、創造的で技術的なタスクに使用されていると思うかもしれません。ただし、Harvard Business Reviewによって報告された最近の調査では、そうではないことが示されています。ほとんどのユーザーは、仕事だけでなく、サポート、組織、さらには友情のために人工知能を求めています！報告書は、AIアプリケーションの最初のケースは治療と交際であると述べています。これは、その24時間年中無休の可用性と匿名の正直なアドバイスとフィードバックを提供する能力が非常に価値があることを示しています。一方、マーケティングタスク（ブログの作成、ソーシャルメディアの投稿の作成、広告コピーなど）は、一般的な使用リストではるかに低くランク付けされています。なぜこれがなぜですか？研究の結果とそれがどのように続くかを見てみましょう

企業はAIエージェントの採用に向けて競い合っていますApr 23, 2025 am 11:40 AM

AIエージェントの台頭は、ビジネス環境を変えています。 Cloud Revolutionと比較して、AIエージェントの影響は指数関数的に大きく、知識作業に革命をもたらすことを約束していると予測されています。人間の意思決定-makiをシミュレートする能力

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SublimeText3 中国語版

中国語版、とても使いやすい

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。