検索
ホームページテクノロジー周辺機器AIOpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

少し前まで、OpenAI Sora はその驚くべきビデオ生成効果で急速に人気を博し、他の Vincent ビデオ モデルとの違いが強調され、世界的な注目を集めるようになりました。

2 週間前にコストを 46% 削減した Sora トレーニング推論再現プロセスの開始に続き、Colossal-AI チーム は世界初の Sora のようなアーキテクチャを完全にオープンソース化しました。ビデオ生成モデル「Open-Sora 1.0」——データ処理、すべてのトレーニングの詳細、モデルの重みを含む 全体のトレーニング プロセス をカバーし、世界中の AI 愛好家と連携します。ビデオ制作の新時代を促進します。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

Open-Sora オープンソース アドレス: https://github.com/hpcaitech/Open-Sora

ちょっと覗いてみましょう。

Colossal-AI チーム がリリースした「Open-Sora 1.0」モデルによって生成された賑やかな都市の様子を垣間見ることができるビデオを見てみましょう。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

Open-Sora 1.0 によって生成された賑やかな都市のスナップショット

これは単なる氷山ですSora の再現テクノロジーのビデオのコーナーでは、Colossal-AI チームが

モデル アーキテクチャ、トレーニング済みモデルの重み、再現されたすべてのトレーニング詳細、データ前処理プロセス、デモ表示、詳細な実践チュートリアルへの無料アクセスを提供しています# Wensheng のビデオ ##。GitHub のオープン ソース。 Xinzhiyuan はすぐにチームに連絡し、今後も Open-Sora 関連のソリューションと最新の開発内容を更新していく予定であることを知りました。興味のある友人は、Open-Sora のオープンソース コミュニティに注目してください。

#Sora 再発計画の包括的な解釈

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

次に、Sora 再発計画の複数の重要な側面を詳しく解釈します。モデル アーキテクチャの設計、トレーニング再現計画、データの前処理、モデル生成効果の表示、効率的なトレーニングの最適化戦略が含まれます。

モデル アーキテクチャ設計OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

モデルは現在普及している拡散トランス (DiT) [1] を採用しています。建築。

著者チームは、ベースとして DiT アーキテクチャも使用する高品質のオープンソース ヴィンセント グラフ モデル PixArt-α [2] を使用し、これに時間的注意層を導入しています。をベースにし、それをビデオデータに拡張します。

具体的には、アーキテクチャ全体には、事前トレーニングされた VAE、テキスト エンコーダー、および時空間注意メカニズムを利用する STDiT (時空間拡散変換器) モデルが含まれています。

このうち、STDiT の各層の構造を下図に示します。シリアル手法を使用して、1 次元の時間的注意モジュールを 2 次元の空間的注意モジュールに重ねて、時間関係をモデル化します。

一時的アテンション モジュールの後、クロス アテンション モジュールを使用してテキストのセマンティクスを調整します。フル アテンション メカニズムと比較して、このような構造はトレーニングと推論のオーバーヘッドを大幅に削減します。

同様に時空間注意メカニズムを使用する Latte [3] モデルと比較して、STDiT は事前トレーニングされた画像 DiT の重みをより適切に利用できるため、ビデオのパフォーマンスが向上します。データ。トレーニングを続行します。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

#STDiT 構造図

モデル全体のトレーニングと推論のプロセスは次のとおりです。トレーニング段階では、まず事前トレーニングされた変分オートエンコーダー (VAE) エンコーダーを使用してビデオ データを圧縮し、次に STDiT 拡散モデルが圧縮された潜在空間に埋め込まれたテキストとともにトレーニングされることが理解されています。

推論段階では、ガウス ノイズが VAE の潜在空間からランダムにサンプリングされ、プロンプト埋め込みとともに STDiT に入力され、ノイズ除去された特徴が取得されます。 VAE デコーダに送信され、デコードされてビデオが取得されます。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

#モデル トレーニング プロセス

トレーニング繰り返し計画

Open-Sora の再発計画は Stable Video Diffusion (SVD) [3] 作業に言及しており、次の 3 つの段階が含まれていることをチームから学びました:

#1。 -スケール画像事前トレーニング;

2. 大規模ビデオ事前トレーニング;

3. 高画質ビデオデータの微調整。

#各ステージでは、前のステージの重量に基づいてトレーニングが継続されます。ゼロからの単一ステージのトレーニングと比較して、マルチステージ トレーニングでは、データを段階的に拡張することで、高品質のビデオ生成という目標をより効率的に達成します。

#トレーニング計画の 3 段階

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

第一段階: 大規模な画像の事前準備training

#最初の段階では、大規模な画像の事前トレーニングと成熟したヴィンセント グラフ モデルを使用して、ビデオの事前トレーニングのコストを効果的に削減します。 。

著者チームは、インターネット上の豊富で大規模な画像データと高度な文法技術を通じて、高品質の文法モデルを学習できることを明らかにしました。次の 1 段階ビデオ事前トレーニングの初期化重み。

同時に、現在高品質の時空間 VAE がないため、安定拡散 [5] モデルによって事前にトレーニングされた画像 VAE を使用しました。この戦略により、初期モデルの優れたパフォーマンスが保証されるだけでなく、ビデオの事前トレーニングにかかる​​全体的なコストも大幅に削減されます。

#第 2 段階: 大規模なビデオ事前トレーニング

第 2 段階では、大規模なビデオの事前トレーニングを実行して、モデルの汎化能力を高め、ビデオの時系列相関を効果的に把握します。

この段階では、ビデオテーマの多様性を確保し、それによってモデルの一般化能力を高めるためにトレーニングに大量のビデオデータを使用する必要があることを理解しています。第 2 段階のモデルは、ビデオ内の時間的関係を学習するために、第 1 段階のヴィンセント グラフ モデルに時間的注意モジュールを追加します。

残りのモジュールは最初のステージと一致しており、初期化として最初のステージの重みをロードし、時間的注意モジュールの出力をゼロに初期化して、より効率的かつ高速な収束を実現します。

Colossal-AI チームは、第 2 段階の STDiT モデルの初期化として PixArt-alpha[2] のオープンソースの重みを使用し、テキストとして T5[6] モデルを使用しました。エンコーダ。同時に、事前トレーニングに 256x256 という小さな解像度を使用したため、収束速度がさらに向上し、トレーニング コストが削減されました。

#第 3 段階: 高品質ビデオ データの微調整

高品質ビデオ データの第 3 段階では、ビデオ生成の品質が大幅に向上するように微調整されます。

著者チームは、第 3 段階で使用されるビデオ データのサイズは第 2 段階に比べて 1 桁小さいと述べましたが、長さ、解像度、品質はビデオのほうが高いです。このように微調整することで、短いものから長いもの、低解像度から高解像度、低忠実度から高忠実度まで、ビデオ生成の効率的なスケーリングを実現しました。

著者チームは、Open-Sora の再現プロセスでトレーニングに 64 個の H800 ブロックを使用したと述べています。

第 2 段階の合計トレーニング量は 2,808 GPU 時間、つまり約 7,000 米ドルです。第 3 段階のトレーニング量は 1920 GPU 時間、つまり約 4500 米ドルです。予備的な見積もりの​​後、トレーニング計画全体は、Open-Sora の繁殖プロセスを約 10,000 米ドルに抑えることに成功しました。

データ前処理

Sora 再現のしきい値と複雑さをさらに軽減するために、Colossal-AI チームは便利なビデオ データも提供します。前処理スクリプトを使用すると、公開ビデオ データ セットのダウンロード、ショットの連続性に基づいて長いビデオを短いビデオ クリップに分割すること、オープン ソースの大規模言語モデル LLaVA [7] を使用して詳細なプロンプト ワードを生成することなど、Sora 再帰事前トレーニングを簡単に開始できます。

著者チームは、提供したバッチビデオタイトル生成コードはビデオに 2 枚のカードと 3 秒の注釈を付けることができ、品質は GPT-4V に近いと述べました。結果として得られるビデオとテキストのペアは、トレーニングに直接使用できます。

GitHub で提供されるオープン ソース コードを使用すると、独自のデータセットでのトレーニングに必要なビデオとテキストのペアを簡単かつ迅速に生成できるため、Sora の起動の複雑さが大幅に軽減されます。現在のプロジェクトの技術的限界と事前準備。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

#データ前処理スクリプトに基づいて自動生成されたビデオ/テキストのペア

モデル生成効果の表示

Open-Sora による実際のビデオ生成効果を見てみましょう。たとえば、崖の海岸の岩に打ち寄せる海水の航空映像を Open-Sora で生成してみましょう。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

Open-Sora で、山々や崖から流れ落ち、最終的に湖に流れ込む滝の壮大な鳥瞰図を撮影しましょう。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

空に行くだけでなく、海にも入ることができます。プロンプトを入力するだけで、Open-Sora が水中のショットを生成します。ショットでは、サンゴ礁にカメがいます。ゆっくりと航海します。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

Open-Sora では、タイムラプス撮影を通じて星がきらめく天の川も見せてくれます。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

ビデオ生成に関するさらに興味深いアイデアがある場合は、Open-Sora オープン ソース コミュニティにアクセスして、無料体験としてモデルの重みを取得できます。

#リンク: https://github.com/hpcaitech/Open-Sora

作者チームが Github で、現在のバージョンでは 400K のトレーニング データのみを使用しており、モデルの生成品質とテキストを追跡する能力を改善する必要があると述べたことは注目に値します。たとえば、上のカメのビデオでは、結果のカメに余分な足が付いています。 Open-Sora 1.0 は、ポートレートや複雑な画像の生成も苦手です。

著者チームは、既存の欠陥を継続的に解決し、製品の品質を向上させることを目的として、Github 上で実行される一連の計画をリストしました。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

効率的なトレーニングのサポート

ソラ再現の技術的敷居を大幅に下げることに加えて、ビデオ生成の効率を向上 再生時間、解像度、コンテンツなどの多次元の品質に関して、著者チームは、ソラ再現のトレーニングを効率的にサポートするための Colossal-AI アクセラレーション システムも提供しました。

オペレーターの最適化やハイブリッド並列処理などの効率的なトレーニング戦略により、64 フレーム、解像度 512x512 のビデオ処理のトレーニングで 1.55 倍の高速化効果が達成されました。

同時に、Colossal-AI の異種メモリ管理システムのおかげで、1 分間の 1080p 高解像度ビデオ トレーニング タスクを単一サーバー (8 x H800)。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

さらに、著者チームのレポートでは、STDiT モデル アーキテクチャがトレーニング中に優れた効率を示していることもわかりました。

フル アテンション メカニズムを使用する DiT と比較して、STDiT はフレーム数の増加に応じて最大 5 倍の高速化効果を実現します。これは、長いビデオ シーケンスの処理などの実際のタスクでは特に重要です。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

Open-Sora モデルのビデオ生成効果の概要

Huan 引き続き Open-Sora オープン ソース プロジェクトにご注目ください: https://github.com/hpcaitech/Open-Sora

##著者チームは、Open-Sora プロジェクトは引き続き維持および最適化され、より多くのビデオ トレーニング データを使用して高品質で長いビデオ コンテンツを生成し、マルチ解像度機能をサポートして効果的にプロモーションすることが期待されていると述べました。 AI技術の映画やゲームへの応用、広告などへの実装。

以上がOpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ai合并图层的快捷键是什么ai合并图层的快捷键是什么Jan 07, 2021 am 10:59 AM

ai合并图层的快捷键是“Ctrl+Shift+E”,它的作用是把目前所有处在显示状态的图层合并,在隐藏状态的图层则不作变动。也可以选中要合并的图层,在菜单栏中依次点击“窗口”-“路径查找器”,点击“合并”按钮。

ai橡皮擦擦不掉东西怎么办ai橡皮擦擦不掉东西怎么办Jan 13, 2021 am 10:23 AM

ai橡皮擦擦不掉东西是因为AI是矢量图软件,用橡皮擦不能擦位图的,其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开Apr 07, 2023 pm 02:54 PM

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式吗ai可以转成psd格式吗Feb 22, 2023 pm 05:56 PM

ai可以转成psd格式。转换方法:1、打开Adobe Illustrator软件,依次点击顶部菜单栏的“文件”-“打开”,选择所需的ai文件;2、点击右侧功能面板中的“图层”,点击三杠图标,在弹出的选项中选择“释放到图层(顺序)”;3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”;4、在弹出的“导出”对话框中,将“保存类型”设置为“PSD格式”,点击“导出”即可;

GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑Apr 04, 2023 am 11:55 AM

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

ai顶部属性栏不见了怎么办ai顶部属性栏不见了怎么办Feb 22, 2023 pm 05:27 PM

ai顶部属性栏不见了的解决办法:1、开启Ai新建画布,进入绘图页面;2、在Ai顶部菜单栏中点击“窗口”;3、在系统弹出的窗口菜单页面中点击“控制”,然后开启“控制”窗口即可显示出属性栏。

ai移动不了东西了怎么办ai移动不了东西了怎么办Mar 07, 2023 am 10:03 AM

ai移动不了东西的解决办法:1、打开ai软件,打开空白文档;2、选择矩形工具,在文档中绘制矩形;3、点击选择工具,移动文档中的矩形;4、点击图层按钮,弹出图层面板对话框,解锁图层;5、点击选择工具,移动矩形即可。

强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程Mar 31, 2023 pm 10:38 PM

引入密集强化学习,用 AI 验证 AI。 自动驾驶汽车 (AV) 技术的快速发展,使得我们正处于交通革命的风口浪尖,其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力,因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里,自动驾驶汽车的发展取得了长足的进步,尤其是随着深度学习的出现更是如此。到 2015 年,开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止,并且没有 level 4 级别的 AV 可以在市场

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター