搜索
首页科技周边人工智能别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

就在不久前,OpenAI Sora凭借其惊人的视频生成效果迅速走红,凸显出与其他文生视频模型的差异,并成为全球瞩目的焦点。

继2周前推出成本直降46%的Sora训练推理复现流程后,Colossal-AI团队全面开源全球首个类Sora架构视频生成模型「Open-Sora 1.0」——涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球AI热爱者共同推进视频创作的新纪元。

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

Open-Sora开源地址:https://github.com/hpcaitech/Open-Sora

先睹为快,我们先看一段由Colossal-AI团队发布的「Open-Sora 1.0」模型生成的都市繁华掠影视频

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

Open-Sora 1.0生成的都市繁华掠影

这仅仅是Sora复现技术冰山的一角,关于以上文生视频的模型架构、训练好的模型权重、复现的所有训练细节、数据预处理过程、demo展示和详细的上手教程,Colossal-AI团队已经全面免费开源在GitHub。

新智元第一时间联系了该团队,获悉他们将持续更新Open-Sora相关解决方案和最新动态。感兴趣的朋友可保持关注Open-Sora的开源社区。

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

全面解读Sora复现方案

接下来,我们将深入解读Sora复现方案的多个关键维度,包括模型架构设计、训练复现方案、数据预处理、模型生成效果展示以及高效训练优化策略。

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

模型架构设计

模型采用了目前火热的Diffusion Transformer(DiT)[1]架构。

作者团队以同样使用DiT架构的高质量开源文生图模型PixArt-α [2]为基座,在此基础上引入时间注意力层,将其扩展到了视频数据上。

具体来说,整个架构包括一个预训练好的VAE,一个文本编码器,和一个利用空间-时间注意力机制的STDiT(Spatial Temporal Diffusion Transformer)模型。

其中,STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。

在时间注意力模块之后,交叉注意力模块用于对齐文本的语意。与全注意力机制相比,这样的结构大大降低了训练和推理开销。

与同样使用空间-时间注意力机制的Latte [3]模型相比,STDiT可以更好的利用已经预训练好的图像DiT的权重,从而在视频数据上继续训练。

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

STDiT结构示意图

整个模型的训练和推理流程如下。据了解,在训练阶段首先采用预训练好的Variational Autoencoder(VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。

在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声,与提示词嵌入(prompt embedding)一起输入到STDiT中,得到去噪之后的特征,最后输入到VAE的解码器,解码得到视频。

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

模型的训练流程

训练复现方案

我们向该团队了解到,Open-Sora的复现方案参考了Stable Video Diffusion(SVD)[3]工作,共包括三个阶段,分别是:

1. 大规模图像预训练;

2. 大规模视频预训练;

3. 高质量视频数据微调。

每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

训练方案三阶段

第一阶段:大规模图像预训练

第一阶段通过大规模图像预训练,借助成熟的文生图模型,有效降低视频预训练成本。

作者团队向我们透露,通过互联网上丰富的大规模图像数据和先进的文生图技术,我们可以训练一个高质量的文生图模型,该模型将作为下一阶段视频预训练的初始化权重。

同时,由于目前没有高质量的时空VAE,他们采用了Stable Diffusion [5]模型预训练好的图像VAE。该策略不仅保障了初始模型的优越性能,还显著降低了视频预训练的整体成本。

第二阶段:大规模视频预训练

第二阶段执行大规模视频预训练,增加模型泛化能力,有效掌握视频的时间序列关联。

我们了解到,这个阶段需要使用大量视频数据训练,保证视频题材的多样性,从而增加模型的泛化能力。第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。

其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。

Colossal-AI团队使用了PixArt-alpha[2]的开源权重作为第二阶段STDiT模型的初始化,以及采用了T5 [6]模型作为文本编码器。同时他们采用了256x256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。

第三阶段:高质量视频数据微调

第三阶段对高质量视频数据进行微调,显著提升视频生成的质量。

作者团队提及第三阶段用到的视频数据规模比第二阶段要少一个量级,但是视频的时长、分辨率和质量都更高。通过这种方式进行微调,他们实现了视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。

作者团队表示,在Open-Sora的复现流程中,他们使用了64块H800进行训练。

第二阶段的训练量一共是2808 GPU hours,约合7000美元。第三阶段的训练量是1920 GPU hours,大约4500美元。经过初步估算,整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。

数据预处理

为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练,包括公开视频数据集下载,长视频根据镜头连续性分割为短视频片段,使用开源大语言模型LLaVA [7]生成精细的提示词。

作者团队提到他们提供的批量视频标题生成代码可以用两卡3秒标注一个视频,并且质量接近于GPT-4V。最终得到的视频/文本对可直接用于训练。

借助他们在GitHub上提供的开源代码,我们可以轻松地在自己的数据集上快速生成训练所需的视频/文本对,显着降低了启动Sora复现项目的技术门槛和前期准备。

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

基于数据预处理脚本自动生成的视频/文本对

模型生成效果展示

下面我们来看一下Open-Sora实际视频生成效果。比如让Open-Sora生成一段在悬崖海岸边,海水拍打着岩石的航拍画面。

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

再让Open-Sora去捕捉山川瀑布从悬崖上澎湃而下,最终汇入湖泊的宏伟鸟瞰画面。

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

除了上天还能入海,简单输入prompt,让Open-Sora生成了一段水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋。

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

Open-Sora还能通过延时摄影的手法,向我们展现了繁星闪烁的银河。

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

如果你还有更多视频生成的有趣想法,可以访问Open-Sora开源社区获取模型权重进行免费的体验。

链接:https://github.com/hpcaitech/Open-Sora

值得注意的是,作者团队在Github上提到目前版本仅使用了400K的训练数据,模型的生成质量和遵循文本的能力都有待提升。例如在上面的乌龟视频中,生成的乌龟多了一只脚。 Open-Sora 1.0也并不擅长生成人像和复杂画面。

作者团队在Github上列举了一系列待做规划,旨在不断解决现有缺陷,提升生成质量。

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

高效训练加持

除了大幅降低Sora复现的技术门槛,提升视频生成在时长、分辨率、内容等多个维度的质量,作者团队还提供了Colossal-AI加速系统进行Sora复现的高效训练加持。

通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果。

同时,得益于Colossal-AI的异构内存管理系统,在单台服务器上(8 x H800)可以无阻碍地进行1分钟的1080p高清视频训练任务。

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

此外,在作者团队的报告中,我们也发现STDiT模型架构在训练时也展现出卓越的高效性。

和采用全注意力机制的DiT相比,随着帧数的增加,STDiT实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

一览Open-Sora模型视频生成效果

迎持续关注Open-Sora开源项目:https://github.com/hpcaitech/Open-Sora

作者团队提及,他们将会继续维护和优化Open-Sora项目,预计将使用更多的视频训练数据,以生成更高质量、更长时长的视频内容,并支持多分辨率特性,切实推进AI技术在电影、游戏、广告等领域的落地。

以上是别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
易于理解的解释如何在Chatgpt中建立两步身份验证!易于理解的解释如何在Chatgpt中建立两步身份验证!May 12, 2025 pm 05:37 PM

CHATGPT SECURICE增强:两阶段身份验证(2FA)配置指南 需要两因素身份验证(2FA)作为在线平台的安全措施。本文将以易于理解的方式解释2FA设置过程及其在CHATGPT中的重要性。这是为那些想要安全使用chatgpt的人提供的指南。 单击此处获取OpenAI最新的AI代理OpenAi Deep Research⬇️ [chatgpt]什么是Openai深入研究?关于如何使用它和费用结构的详尽解释! 目录 chatg

[针对企业] Chatgpt培训|对8种免费培训选项,补贴和示例进行了详尽的介绍![针对企业] Chatgpt培训|对8种免费培训选项,补贴和示例进行了详尽的介绍!May 12, 2025 pm 05:35 PM

生成的AI的使用吸引了人们的关注,这是提高业务效率和创造新业务的关键。特别是,由于其多功能性和准确性,许多公司都采用了Openai的Chatgpt。但是,可以有效利用chatgpt的人员短缺是实施它的主要挑战。 在本文中,我们将解释“ ChatGpt培训”的必要性和有效性,以确保在公司中成功使用Chatgpt。我们将介绍广泛的主题,从ChatGpt的基础到业务使用,特定的培训计划以及如何选择它们。 CHATGPT培训提高员工技能

关于如何使用Chatgpt简化您的Twitter操作的详尽解释!关于如何使用Chatgpt简化您的Twitter操作的详尽解释!May 12, 2025 pm 05:34 PM

社交媒体运营的提高效率和质量至关重要。特别是在实时重要的平台上,例如Twitter,需要连续交付及时和引人入胜的内容。 在本文中,我们将解释如何使用具有先进自然语言处理能力的AI的Chatgpt操作Twitter。通过使用CHATGPT,您不仅可以提高实时响应功能并提高内容创建的效率,而且还可以制定符合趋势的营销策略。 此外,使用预防措施

[对于Mac]说明如何开始以及如何使用ChatGpt桌面应用程序![对于Mac]说明如何开始以及如何使用ChatGpt桌面应用程序!May 12, 2025 pm 05:33 PM

CHATGPT MAC桌面应用程序详细指南:从安装到音频功能 最后,Chatgpt的Mac桌面应用程序现已可用!在本文中,我们将彻底解释从安装方法到有用的功能和将来的更新信息的所有内容。使用桌面应用程序独有的功能,例如快捷键,图像识别和语音模式,以极大地提高您的业务效率! 安装桌面应用的ChatGpt Mac版本 从浏览器访问:首先,在浏览器中访问chatgpt。

chatgpt的角色限制是什么?解释如何避免它和模型上限chatgpt的角色限制是什么?解释如何避免它和模型上限May 12, 2025 pm 05:32 PM

当使用chatgpt时,您是否曾经有过这样的经验,例如“输出在中途停止”或“即使我指定了字符的数量,它也无法正确输出”?该模型非常开创性,不仅允许自然对话,而且还允许创建电子邮件,摘要论文,甚至允许产生诸如小说之类的创意句子。但是,ChatGpt的弱点之一是,如果文本太长,输入和输出将无法正常工作。 Openai的最新AI代理“ Openai Deep Research”

什么是Chatgpt的语音输入和语音对话功能?解释如何设置以及如何使用它什么是Chatgpt的语音输入和语音对话功能?解释如何设置以及如何使用它May 12, 2025 pm 05:27 PM

Chatgpt是Openai开发的创新AI聊天机器人。它不仅具有文本输入,而且还具有语音输入和语音对话功能,从而可以进行更自然的交流。 在本文中,我们将解释如何设置和使用Chatgpt的语音输入和语音对话功能。即使您不能脱身,Chatp Plans也通过与您交谈来做出回应并回应音频,这在繁忙的商业情况和英语对话练习等各种情况下都带来了很大的好处。 关于如何设置智能手机应用程序和PC的详细说明以及如何使用。

易于理解的解释如何使用Chatgpt进行求职和寻找工作!易于理解的解释如何使用Chatgpt进行求职和寻找工作!May 12, 2025 pm 05:26 PM

成功的快捷方式!使用chatgpt有效的工作变更策略 在当今加剧的工作变更市场中,有效的信息收集和彻底的准备是成功的关键。 诸如Chatgpt之类的高级语言模型是求职者的强大武器。在本文中,我们将解释如何有效利用Chatgpt来提高您的工作企业效率,从自我分析到申请文件和面试准备。节省时间和学习技术,以充分展示您的优势,并帮助您成功搜索工作。 目录 使用chatgpt的狩猎工作示例 自我分析的效率:聊天

易于理解的解释如何使用ChatGpt创建和输出思维地图!易于理解的解释如何使用ChatGpt创建和输出思维地图!May 12, 2025 pm 05:22 PM

思维地图是组织信息并提出想法的有用工具,但是创建它们可能需要时间。使用Chatgpt可以大大简化此过程。 本文将详细说明如何使用chatgpt轻松创建思维地图。此外,通过创建的实际示例,我们将介绍如何在各种主题上使用思维图。 了解如何使用Chatgpt有效地组织和可视化您的想法和信息。 Openai的最新AI代理OpenA

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版