首页 >科技周边 >人工智能 >中国新的AI视频明星:Step-Video-T2V

中国新的AI视频明星:Step-Video-T2V

Jennifer Aniston
Jennifer Aniston原创
2025-03-04 11:00:12585浏览

中国在生成AI中迅速发展,基于DeepSeek模型和Kimi K1.5的成功,语言模型中的成功。现在,它以Omnihuman和Goku在3D建模和视频综合方面取得了卓越的表现。借助Step-Video-T2V,中国直接挑战了Sora,Weo 2和Stepfun AI开发的电影《 video 2》和《电影将军》,Step-Video-T2V是一个30B参数模型,它会产生高质量的204-Frame视频。它利用视频VAE,双语编码器和3D注意事项来设定新的视频生成标准。它是否应对文本访问的核心挑战?让我们潜入。

内容表

>

  • 在文本到视频模型中挑战
  • > step-video-t2v如何求解这些问题?具有3D全神贯注的变压器(DIT)
  • >自适应层的归一化(adaln-single)
      >
    • > step-video-t2v如何工作? 3D全部关注)
    优化(微调和视频DPO培训)
  • 最终输出(高质量的204-frame Video)
  • van gogh in Paris
  • >千年猎鹰旅程
    • 结论 文本到视频模型中的挑战
  • 虽然文本到视频模型已经走了很长一段路,但他们仍然面临着基本的障碍:

复杂的动作序列

- 当前的模型难以生成遵循复杂动作序列的现实视频,例如,体操运动员表现翻转或篮球实际上弹跳。

>

    物理和因果关系
  • - 大多数基于扩散的模型无法有效地模拟现实世界。物体相互作用,重力和物理定律经常被忽略。
  • >以下说明
  • - 模型经常错过用户提示中的关键细节,尤其是在处理稀有概念时(例如,同一视频中的企鹅和大象)。> >
  • 计算成本
  • - 生成高分辨率,长期视频是极其资源密集型,限制了研究人员和创作者的可访问性。
  • >
  • >字幕和对齐 - 视频模型依赖于大量数据集,但是较差的视频字幕会导致较弱的迅速依从性,导致幻觉的内容>。
  • step-video-t2v如何解决这些问题?

    > step-video-t2v通过几个创新来应对这些挑战

    • 深度压缩视频vae:成就 16×16空间和8x时间压缩,在保持高视频质量的同时大大降低了计算要求。>
    • >双语文本编码器:集成,允许该模型在中文和英语>。中有效地处理提示 > 3D全注意力:而不是传统的时空注意力,而是增强了运动连续性和场景一致性
    • video-dpo(直接偏好优化):合并>人类的反馈循环
    • 以减少工件,改善现实主义和使生成的内容与用户期望保持一致。
    • > 模型体系结构 > Step-Video-T2V模型体系结构围绕三部分管道构建,以有效地处理文本提示并生成高质量的视频。该模型集成了双语文本编码器,变量自动编码器(视频VAE)和一个具有3D注意的扩散变压器(DIT),将其与传统的文本到视频模型区分开来。

    1。用双语理解编码的文本

    在输入阶段,step-video-t2v采用

    >两个强大的双语文本编码:中国新的AI视频明星:Step-Video-T2V

    > hunyuan-clip:一种针对文本和图像之间的语义对齐优化的视觉模型。

      step-llm
    • :一种专门了解复杂说明中文和英语的大型语言模型。 这些编码器处理
    • 用户提示
    • 并将其转换为有意义的潜在表示,以确保模型准确地遵循说明。 2。用于压缩的变量自动编码器(视频VAE) 生成长,高分辨率的视频在计算上很昂贵。 Step-Video-T2V使用A 深度压缩变化自动编码器(Video-Vae)>有效地降低视频数据的问题:>
    >空间压缩(16×16)

    >和时间压缩(8x)>降低视频尺寸的同时保留运动详细信息。 此启用更长的序列(204帧)

    比以前的型号低的计算成本

    3。扩散变压器(DIT)具有3D的全部注意
      Step-Video-T2V的核心是其
    • 扩散变压器(DIT),具有3D的全部注意力,它显着提高了运动平滑度和场景相干性。

      中国新的AI视频明星:Step-Video-T2V

      DIT的

      > ITH块由多个组成的组件组成,这些组件完善了视频生成过程:> 每个变压器块的关键组件

        交叉注意:通过对文本嵌入式上生成的帧进行调节,请确保更好的文本对视频对齐
      • >自我注意事项(带有绳索3D):使用旋转位置编码(rope-3d)以增强
      • 时空的理解
      • ,确保对象自然地跨帧。 qk-norm(Query-Key规范化):提高注意力机制的稳定性,减少对象定位的不一致。 栅极机制:这些自适应门
      • 调节信息流,防止过度适合特定模式
      • >并改善概括。>
      • 比例/偏移操作
      • :归一化和微调中间表示,确保视频帧之间的平滑过渡。 4。自适应层归一化(Adaln-single) 该模型还包括
      • 自适应层的归一化(adaln-single)
      • ,该>基于> timeStep(t)
      • 这可以确保
      跨视频序列的时间一致性。

        step-video-t2v如何工作?
      • step-video-t2v模型是一种尖端的
      • 文本到视频AI系统,它基于文本描述生成高质量的运动丰富的视频。工作机制涉及多种复杂的AI技术,以确保运动,遵守提示和现实输出。让我们逐步将其分解:
      • 1。用户输入(文本编码)

        • 该模型以处理用户输入开始,这是一个文本提示,描述了所需的视频。
        • 这是使用>双语文本编码器完成的(例如,)。
    • 双语能力
    • 确保可以准确理解英语和中文的提示。> 2。潜在表示(带视频VAE的压缩)
    视频生成在计算上很重,因此该模型采用a

    差异自动编码器(vae)

    >专门用于视频压缩,称为 video-vae-vae
      >。
    • 视频vae的函数: 将视频帧压缩到A
    • >较低维的潜在空间
    • ,大大降低了计算成本
      • 维护关键的视频质量方面,例如运动连续性,纹理和对象详细信息
      • >使用
      • 16×16的空间和8x时间压缩,在保留高保真度的同时使模型有效。
      • 3。去核过程(扩散变压器具有3D的全部注意力)
      • 获得潜在表示后,下一步是 denoising Process
      • ,它可以完善视频帧。
    • 这是使用
    扩散变压器(DIT)

    的高级模型来完成的,该模型旨在生成高度逼真的视频。

    • 密钥创新:
    • 扩散变压器适用3D完全注意
    • ,这是一种强大的机制,专注于空间,时间和运动动力学
    • 的使用流量匹配
        >
      • 在跨帧的范围内增强运动一致性,以确保视频过渡更平滑。 4。优化(微调和视频DPO培训)
      • 生成的视频经历了一个优化阶段,使其更加准确,连贯和视觉吸引力。这涉及:
      • 用高质量数据来提高其遵循复杂提示的能力。
    • > video-dpo(直接偏好优化)
    培训,其中包含人类的反馈

    >:

    减少不需要的伪影。中国新的AI视频明星:Step-Video-T2V

    改善运动和纹理的现实主义。

    >将视频生成与用户期望相结合。

    • 5。最终输出(高质量204框架视频)
      • 最终视频是> 204帧长,这意味着它为讲故事提供了重要的持续时间。 >高分辨率生成
      • 确保视觉效果清晰和清除对象渲染。
      • >强烈的运动现实主义
      • 表示视频保持
      • 平稳而自然的运动,使其适用于人类手势,对象相互作用和动态背景等复杂场景。 针对竞争对手的>基准测试
      • > step-video-t2v在
      > spep-video-t2v-eval

      上进行评估,

      > 128-prompt-prompt Benchmark

      覆盖体育,食物,美食,风景,超现实主义,人,人和动画>>。与领先的模型相比,它在运动动力学和现实主义中提供了最先进的表现。 在整体视频质量和光滑方面,优胜于hunyuanvideo 竞争对手电影gen video ,但由于有限的高质量标签数据而导致细粒度的美学滞后。

        击败运动一致性的跑道gen-3 alpha
      1. ,但在电影吸引力中略有滞后。
      2. 挑战中国顶级商业模型(T2VTOPA和T2VTOPB)
      3. ,但由于较低的分辨率而降低了美学质量(540p vs. 1080p)。 >性能指标
      4. step-video-t2v介绍新评估标准
      5. >以下说明
      6. - 测量生成的视频与提示的对齐程度。

      运动平滑度

      - 评分视频中动作的自然流动。 身体合理性

      - 评估运动是否遵循物理定律。
      • 美学上的吸引力 - 判断视频的艺术和视觉质量。
      • 在人类评估中, Step-Video-T2V始终优于运动平滑性和物理合理性的竞争者,使其成为最先进的开源模型之一。 >如何访问step-video-t2v?
      • >>步骤1:访问此处的官方网站。 >
      • 步骤2:
      • 使用您的手机号码注册。> >注意:
      • 当前,注册仅针对有限数量的国家开放。不幸的是,它在印度不可用,所以我无法注册。但是,如果您位于受支持的地区,则可以尝试。
      >

      >

      步骤3:

      >添加您的提示符,然后开始生成惊人的视频!

      由step-video-t2v

      创建的vidoes的示例 这是该工具生成的一些视频。我从他们的官方网站上拿走了这些。 van gogh在巴黎

      >

      提示:在巴黎的街道上,梵高坐在咖啡馆外面,用手里拿着绘图板画一个夜面场景。相机以中型拍摄拍摄,显示了他专注的表情和快速移动的刷子。背景中的路灯和行人略微模糊,使用了浅水深度来突出他的形象。随着时间的流逝,天空从黄昏变成了夜晚,星星逐渐出现。相机慢慢拉开,看看他完成的作品与真实的夜幕界之间的比较。 提示:

      “在广阔的宇宙中,《星球大战》中的千年猎鹰正在穿越星星。相机显示航天器在遥远的视野中飞行。相机很快遵循航天器的轨迹,显示了其高速班车。进入驾驶舱后,摄像机专注于紧张地操作乐器的Han Solo和Chewbacca的面部表情。仪表板闪烁的灯光,背景星空迅速在舷窗外面穿过。

      结论 在中国以外的情况下, Step-Video-T2V尚不可用。公开后,我将测试并分享我的评论。尽管如此,它仍然标志着中国生物AI的重大进步,证明其实验室正在与Openai和DeepMind一起塑造多模式AI的未来。视频生成的下一步需要更好的指导遵循,物理模拟和更丰富的数据集。 Step-Video-T2V为开源视频模型铺平了道路,从而增强了全球研究人员和创作者的能力。中国的人工智能势头表明之前更现实,更有效的文本与视频创新

以上是中国新的AI视频明星:Step-Video-T2V的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn