搜索
首页科技周边人工智能通过测试时间培训生成一分钟的视频

这项开创性的研究解决了AI视频的一个重大障碍:从文本中创建更长的多场景视频。虽然最近的模型在简短,视觉上令人惊叹的剪辑中表现出色,但由于所需的信息量,产生了长达一分钟的叙述却带来了重大挑战。这种新方法是由Nvidia,Stanford,UC Berkeley等开发的,它利用测试时间培训(TTT)克服了这些限制。

目录

  • 长期视频挑战
  • TTT:动态解决方案
  • TTT的一分钟视频示例
  • TTT的工作原理
  • Tom&Jerry数据集
  • 绩效评估
  • 文物和局限性
  • TTT的独特优势
  • 未来的研究方向
  • TTT与其他领先模型
  • 结论

长期视频挑战

当前的视频生成模型通常基于变形金刚,由于自我发挥机制的二次计算成本而与更长的视频斗争。生成一分钟的高分辨率视频需要处理数十万个令牌,从而导致效率低下和叙事不一致。尽管Mamba或Deltanet等基于RNN的方法提供线性时间上下文处理,但其固定尺寸的隐藏状态限制了表现力。

TTT:动态解决方案

这项研究引入了TTT层 - 集成到RNN中的小型,可训练的神经网络(MLP)。这些层在推理过程中动态适应,并使用自我监督的损失从不断发展的视频上下文中学习。这使该模型可以随着视频的进行调整,以改善叙事连贯性和运动平滑度。

通过测试时间培训生成一分钟的视频

TTT的一分钟视频示例

研究人员通过从详细的文本提示中生成一分钟的Tom&Jerry视频来展示TTT的功能。与基线模型相比,这些示例展示了提高时间一致性和运动平滑度。

视频1:杰里偷奶酪

视频2:汤姆和杰里厨房追逐

视频3:限制示例

TTT的工作原理

该系统将TTT层结合到预训练的扩散变压器模型(Cogvideo-X 5B)中。自我注意力仅限于短段,而TTT层管理全球叙事理解。门控机制可防止早期训练期间的性能降解。双向序列处理和场景细分注释(故事板格式)进一步增强培训。

通过测试时间培训生成一分钟的视频

通过测试时间培训生成一分钟的视频

Tom&Jerry数据集

该研究利用了源自经典的Tom&Jerry漫画的数据集,并以详细的描述为3秒。这种受控的环境简化了任务,重点是叙事连贯性和运动动态。

通过测试时间培训生成一分钟的视频

绩效评估

在人类评估中,TTT-MLP的表现明显优于基准(Mamba 2,门控的Deltanet),实现了34分ELO得分的提高。它在运动的自然性,时间一致性和整体美学质量上都表现出色。

文物和局限性

尽管取得了进展,但仍然存在诸如不一致的照明和不自然运动之类的伪影。这些可能是由于基本模型的局限性和计算成本所致。虽然比完全自我注意力快,但TTT-MLP比某些RNN方法慢。但是,只需要微调,使其更加实用。

TTT的独特优势

  • 通过可训练的隐藏状态表达记忆
  • 推理期间的适应性
  • 可扩展性更长,更复杂的视频
  • 有效的微调

未来的研究方向

未来的工作包括优化TTT内核,尝试不同的骨干模型,探索更复杂的故事情节以及使用基于变压器的隐藏状态。

TTT与其他领先模型

模型 核心重点 输入类型 关键功能 它与TTT的不同
TTT(测试时间培训) 具有动态适应的长期视频生成 文字故事板 在推理期间适应60秒的视频,连贯的多场景故事 专为长视频而设计;在发电期间更新内部状态以换取叙事一致性
摩卡 说话的角色产生 文字演讲 语音驱动的全身动画 专注于角色对话和表达方式,而不是全景叙事视频
悟空 高质量的视频和图像生成 文字,图像 整流流变压器,多模式输入支持 优化质量和训练速度;不是专为长篇故事设计而设计的
Omnihuman1 现实的人类动画 图像音频文字 多种条件信号,高分辨率化头像 创造栩栩如生的人;不会建模长序列或动态场景过渡
Dreamactor-M1 图像对动作(面部/身体) 图像驾驶视频 整体运动模仿,高框架一致性 动画静态图像;不使用文字或逐个故事的故事创造

(链接到有关摩卡,Dreamactor-M1,Goku和Omnihuman1的相关文章,将在此处插入。)

结论

TTT代表了长期视频生成的重大进步。它在推断过程中适应的能力可以使更连贯和引人入胜的讲故事,为更复杂的AI生成的媒体铺平了道路。

以上是通过测试时间培训生成一分钟的视频的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
您必须在无知的面纱后面建立工作场所您必须在无知的面纱后面建立工作场所Apr 29, 2025 am 11:15 AM

在约翰·罗尔斯1971年具有开创性的著作《正义论》中,他提出了一种思想实验,我们应该将其作为当今人工智能设计和使用决策的核心:无知的面纱。这一理念为理解公平提供了一个简单的工具,也为领导者如何利用这种理解来公平地设计和实施人工智能提供了一个蓝图。 设想一下,您正在为一个新的社会制定规则。但有一个前提:您事先不知道自己在这个社会中将扮演什么角色。您最终可能富有或贫穷,健康或残疾,属于多数派或边缘少数群体。在这种“无知的面纱”下运作,可以防止规则制定者做出有利于自身的决策。相反,人们会更有动力制定公

决策,决策……实用应用AI的下一步决策,决策……实用应用AI的下一步Apr 29, 2025 am 11:14 AM

许多公司专门从事机器人流程自动化(RPA),提供机器人以使重复性任务自动化 - UIPATH,在任何地方自动化,蓝色棱镜等。 同时,过程采矿,编排和智能文档处理专业

代理人来了 - 更多关于我们将在AI合作伙伴旁边做什么代理人来了 - 更多关于我们将在AI合作伙伴旁边做什么Apr 29, 2025 am 11:13 AM

AI的未来超越了简单的单词预测和对话模拟。 AI代理人正在出现,能够独立行动和任务完成。 这种转变已经在诸如Anthropic的Claude之类的工具中很明显。 AI代理:研究

为什么同情在AI驱动的未来中对领导者更重要为什么同情在AI驱动的未来中对领导者更重要Apr 29, 2025 am 11:12 AM

快速的技术进步需要对工作未来的前瞻性观点。 当AI超越生产力并开始塑造我们的社会结构时,会发生什么? Topher McDougal即将出版的书Gaia Wakes:

用于产品分类的AI:机器可以总税法吗?用于产品分类的AI:机器可以总税法吗?Apr 29, 2025 am 11:11 AM

产品分类通常涉及复杂的代码,例如诸如统一系统(HS)等系统的“ HS 8471.30”,对于国际贸易和国内销售至关重要。 这些代码确保正确的税收申请,影响每个INV

数据中心的需求会引发气候技术反弹吗?数据中心的需求会引发气候技术反弹吗?Apr 29, 2025 am 11:10 AM

数据中心能源消耗与气候科技投资的未来 本文探讨了人工智能驱动的数据中心能源消耗激增及其对气候变化的影响,并分析了应对这一挑战的创新解决方案和政策建议。 能源需求的挑战: 大型超大规模数据中心耗电量巨大,堪比数十万个普通北美家庭的总和,而新兴的AI超大规模中心耗电量更是数十倍于此。2024年前八个月,微软、Meta、谷歌和亚马逊在AI数据中心建设和运营方面的投资已达约1250亿美元(摩根大通,2024)(表1)。 不断增长的能源需求既是挑战也是机遇。据Canary Media报道,迫在眉睫的电

AI和好莱坞的下一个黄金时代AI和好莱坞的下一个黄金时代Apr 29, 2025 am 11:09 AM

生成式AI正在彻底改变影视制作。Luma的Ray 2模型,以及Runway的Gen-4、OpenAI的Sora、Google的Veo等众多新模型,正在以前所未有的速度提升生成视频的质量。这些模型能够轻松制作出复杂的特效和逼真的场景,甚至连短视频剪辑和具有摄像机感知的运动效果也已实现。虽然这些工具的操控性和一致性仍有待提高,但其进步速度令人惊叹。 生成式视频正在成为一种独立的媒介形式。一些模型擅长动画制作,另一些则擅长真人影像。值得注意的是,Adobe的Firefly和Moonvalley的Ma

Chatgpt是否会慢慢成为AI最大的Yes-Man?Chatgpt是否会慢慢成为AI最大的Yes-Man?Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降:是模型退化还是用户期望? 近期,大量ChatGPT付费用户抱怨其性能下降,引发广泛关注。 用户报告称模型响应速度变慢,答案更简短、缺乏帮助,甚至出现更多幻觉。一些用户在社交媒体上表达了不满,指出ChatGPT变得“过于讨好”,倾向于验证用户观点而非提供批判性反馈。 这不仅影响用户体验,也给企业客户带来实际损失,例如生产力下降和计算资源浪费。 性能下降的证据 许多用户报告了ChatGPT性能的显着退化,尤其是在GPT-4(即将于本月底停止服务)等旧版模型中。 这

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。