中国在生成AI中迅速发展,基于DeepSeek模型和Kimi K1.5的成功,语言模型中的成功。现在,它以Omnihuman和Goku在3D建模和视频综合方面取得了卓越的表现。借助Step-Video-T2V,中国直接挑战了Sora,Weo 2和Stepfun AI开发的电影《 video 2》和《电影将军》,Step-Video-T2V是一个30B参数模型,它会产生高质量的204-Frame视频。它利用视频VAE,双语编码器和3D注意事项来设定新的视频生成标准。它是否应对文本访问的核心挑战?让我们潜入。
内容表
>
- 在文本到视频模型中挑战
- > step-video-t2v如何求解这些问题?具有3D全神贯注的变压器(DIT)
- >自适应层的归一化(adaln-single)
>-
-
-
- > step-video-t2v如何工作? 3D全部关注)
优化(微调和视频DPO培训)
- 最终输出(高质量的204-frame Video)
- van gogh in Paris
- >千年猎鹰旅程
-
虽然文本到视频模型已经走了很长一段路,但他们仍然面临着基本的障碍:-
复杂的动作序列
- 当前的模型难以生成遵循复杂动作序列的现实视频,例如,体操运动员表现翻转或篮球实际上弹跳。
>
物理和因果关系- - 大多数基于扩散的模型无法有效地模拟现实世界。物体相互作用,重力和物理定律经常被忽略。
>以下说明- - 模型经常错过用户提示中的关键细节,尤其是在处理稀有概念时(例如,同一视频中的企鹅和大象)。>
>
计算成本- - 生成高分辨率,长期视频是极其资源密集型,限制了研究人员和创作者的可访问性。
>
-
>字幕和对齐 - 视频模型依赖于大量数据集,但是较差的视频字幕会导致较弱的迅速依从性,导致幻觉的内容>。
。
-
step-video-t2v如何解决这些问题?
> step-video-t2v通过几个创新来应对这些挑战:
- 深度压缩视频vae:成就 16×16空间和8x时间压缩,在保持高视频质量的同时大大降低了计算要求。>
- >双语文本编码器:集成,允许该模型在中文和英语>。中有效地处理提示
> 3D全注意力:而不是传统的时空注意力,而是增强了运动连续性和场景一致性
。
-
video-dpo(直接偏好优化):合并>人类的反馈循环
以减少工件,改善现实主义和使生成的内容与用户期望保持一致。- >
模型体系结构
> Step-Video-T2V模型体系结构围绕三部分管道构建,以有效地处理文本提示并生成高质量的视频。该模型集成了双语文本编码器,变量自动编码器(视频VAE)和一个具有3D注意的扩散变压器(DIT),将其与传统的文本到视频模型区分开来。
1。用双语理解编码的文本
在输入阶段,step-video-t2v采用>两个强大的双语文本编码:
> hunyuan-clip:一种针对文本和图像之间的语义对齐优化的视觉模型。
step-llm- :一种专门了解复杂说明中文和英语的大型语言模型。
这些编码器处理
用户提示- 并将其转换为有意义的潜在表示,以确保模型准确地遵循说明。
2。用于压缩的变量自动编码器(视频VAE)
生成长,高分辨率的视频在计算上很昂贵。 Step-Video-T2V使用A 深度压缩变化自动编码器(Video-Vae)>有效地降低视频数据的问题:>
>空间压缩(16×16)>和时间压缩(8x)>降低视频尺寸的同时保留运动详细信息。
此启用更长的序列(204帧)
比以前的型号低的计算成本
。
3。扩散变压器(DIT)具有3D的全部注意
Step-Video-T2V的核心是其- 扩散变压器(DIT),具有3D的全部注意力,它显着提高了运动平滑度和场景相干性。
DIT的> ITH块由多个组成的组件组成,这些组件完善了视频生成过程:>
每个变压器块的关键组件
交叉注意:通过对文本嵌入式上生成的帧进行调节,请确保更好的文本对视频对齐- 。
>自我注意事项(带有绳索3D):使用旋转位置编码(rope-3d)以增强
时空的理解- ,确保对象自然地跨帧。
qk-norm(Query-Key规范化):提高注意力机制的稳定性,减少对象定位的不一致。
栅极机制:这些自适应门
调节信息流,防止过度适合特定模式- >并改善概括。>
比例/偏移操作- :归一化和微调中间表示,确保视频帧之间的平滑过渡。
4。自适应层归一化(Adaln-single)
该模型还包括
自适应层的归一化(adaln-single)- ,该>基于> timeStep(t)。
这可以确保
跨视频序列的时间一致性。。
step-video-t2v如何工作?-
step-video-t2v模型是一种尖端的
文本到视频AI系统,它基于文本描述生成高质量的运动丰富的视频。工作机制涉及多种复杂的AI技术,以确保运动,遵守提示和现实输出。让我们逐步将其分解:-
1。用户输入(文本编码)
- 该模型以处理用户输入开始,这是一个文本提示,描述了所需的视频。
- 这是使用>双语文本编码器完成的(例如,)。
双语能力- 确保可以准确理解英语和中文的提示。>
2。潜在表示(带视频VAE的压缩)
视频生成在计算上很重,因此该模型采用a差异自动编码器(vae)
>专门用于视频压缩,称为 video-vae-vae>。
- 视频vae的函数:
将视频帧压缩到A
>较低维的潜在空间- ,大大降低了计算成本。
- 维护关键的视频质量方面,例如运动连续性,纹理和对象详细信息。。
>使用- 16×16的空间和8x时间压缩,在保留高保真度的同时使模型有效。
3。去核过程(扩散变压器具有3D的全部注意力)-
获得潜在表示后,下一步是 denoising Process
,它可以完善视频帧。
这是使用
扩散变压器(DIT)的高级模型来完成的,该模型旨在生成高度逼真的视频。
- 密钥创新:
- 扩散变压器适用3D完全注意
,这是一种强大的机制,专注于空间,时间和运动动力学- 。
的使用流量匹配
> - 在跨帧的范围内增强运动一致性,以确保视频过渡更平滑。
4。优化(微调和视频DPO培训)
-
生成的视频经历了一个优化阶段,使其更加准确,连贯和视觉吸引力。这涉及:
用高质量数据来提高其遵循复杂提示的能力。
> video-dpo(直接偏好优化)
培训,其中包含人类的反馈>:
减少不需要的伪影。
改善运动和纹理的现实主义。
>将视频生成与用户期望相结合。
- 5。最终输出(高质量204框架视频)
-
- 最终视频是> 204帧长,这意味着它为讲故事提供了重要的持续时间。
>高分辨率生成
确保视觉效果清晰和清除对象渲染。-
>强烈的运动现实主义
表示视频保持- 平稳而自然的运动,使其适用于人类手势,对象相互作用和动态背景等复杂场景。
针对竞争对手的>基准测试
> step-video-t2v在
> spep-video-t2v-eval上进行评估,
> 128-prompt-prompt Benchmark覆盖体育,食物,美食,风景,超现实主义,人,人和动画>>。与领先的模型相比,它在运动动力学和现实主义中提供了最先进的表现。
在整体视频质量和光滑方面,优胜于hunyuanvideo。
竞争对手电影gen video ,但由于有限的高质量标签数据而导致细粒度的美学滞后。
击败运动一致性的跑道gen-3 alpha- ,但在电影吸引力中略有滞后。
挑战中国顶级商业模型(T2VTOPA和T2VTOPB)- ,但由于较低的分辨率而降低了美学质量(540p vs. 1080p)。
>性能指标
- step-video-t2v介绍新评估标准:
-
>以下说明
- 测量生成的视频与提示的对齐程度。
运动平滑度 - 评分视频中动作的自然流动。
身体合理性
- 评估运动是否遵循物理定律。
-
美学上的吸引力 - 判断视频的艺术和视觉质量。
-
在人类评估中, Step-Video-T2V始终优于运动平滑性和物理合理性的竞争者,使其成为最先进的开源模型之一。
>如何访问step-video-t2v?
- >>步骤1:访问此处的官方网站。
>
步骤2:- 使用您的手机号码注册。>
>注意:
当前,注册仅针对有限数量的国家开放。不幸的是,它在印度不可用,所以我无法注册。但是,如果您位于受支持的地区,则可以尝试。
>
>步骤3:
>添加您的提示符,然后开始生成惊人的视频!
由step-video-t2v创建的vidoes的示例
这是该工具生成的一些视频。我从他们的官方网站上拿走了这些。 van gogh在巴黎
>提示:“ 在巴黎的街道上,梵高坐在咖啡馆外面,用手里拿着绘图板画一个夜面场景。相机以中型拍摄拍摄,显示了他专注的表情和快速移动的刷子。背景中的路灯和行人略微模糊,使用了浅水深度来突出他的形象。随着时间的流逝,天空从黄昏变成了夜晚,星星逐渐出现。相机慢慢拉开,看看他完成的作品与真实的夜幕界之间的比较。
提示:“在广阔的宇宙中,《星球大战》中的千年猎鹰正在穿越星星。相机显示航天器在遥远的视野中飞行。相机很快遵循航天器的轨迹,显示了其高速班车。进入驾驶舱后,摄像机专注于紧张地操作乐器的Han Solo和Chewbacca的面部表情。仪表板闪烁的灯光,背景星空迅速在舷窗外面穿过。
结论
在中国以外的情况下, Step-Video-T2V尚不可用。公开后,我将测试并分享我的评论。尽管如此,它仍然标志着中国生物AI的重大进步,证明其实验室正在与Openai和DeepMind一起塑造多模式AI的未来。视频生成的下一步需要更好的指导遵循,物理模拟和更丰富的数据集。 Step-Video-T2V为开源视频模型铺平了道路,从而增强了全球研究人员和创作者的能力。中国的人工智能势头表明之前更现实,更有效的文本与视频创新
以上是中国新的AI视频明星:Step-Video-T2V的详细内容。更多信息请关注PHP中文网其他相关文章!