14秒就能重建视频，还能变换角色，Meta让视频合成提速44倍-人工智能-PHP中文网

首页

科技周边

人工智能

14秒就能重建视频，还能变换角色，Meta让视频合成提速44倍

王林

Dec 27, 2023 pm 06:35 PM

工程fairy

Meta的视频合成新框架给我们带来了一些惊喜

就今天的人工智能发展水平来说，文生图、图生视频、图像/视频风格迁移都已经不算什么难事。

生成式 AI 天赋异禀，能够毫不费力地创建或修改内容。尤其是图像编辑，在以十亿规模数据集为基础预训练的文本到图像扩散模型的推动下，经历了重大发展。这股浪潮催生了大量图像编辑和内容创建应用。

基于图像的生成模型所取得的成就基础上，下一个挑战的领域必然是为其增加「时间维度」，从而实现轻松而富有创意的视频编辑。

一种直接策略是使用图像模型逐帧处理视频，然而，生成式图像编辑本身就具有高变异性—即使根据相同的文本提示，也存在无数种编辑给定图像的方法。如果每一帧都独立编辑，很难保持时间上的一致性。

在最近的一篇论文中，来自Meta GenAI团队的研究者提出了 Fairy——通过对图像编辑扩散模型进行「简单的改编」，大大增强了AI在视频编辑上的表现。

以下是Fairy的编辑视频效果展示：

14秒就能重建视频，还能变换角色，Meta让视频合成提速44倍

Fairy 生成 120 帧 512×384 视频（4 秒时长，30 FPS）的时间仅为 14 秒，比之前的方法至少快 44 倍。一项涉及 1000 个生成样本的全面用户研究证实，该方法生成质量上乘，明显优于现有方法。

怎么做到的？

据论文介绍，Fairy以基于锚点的跨帧注意力概念为核心，这种机制可隐性地跨帧传播扩散特征，确保了时间一致和高保真的合成效果。Fairy 不仅解决了以往模型在内存和处理速度等方面的局限性，还通过独特的数据增强策略提高了时间一致性，这种策略使模型等价于源图像和目标图像的仿射变换。

14秒就能重建视频，还能变换角色，Meta让视频合成提速44倍

论文地址：https://arxiv.org/pdf/2312.13834.pdf
项目主页：https://fairy-video2video.github.io/

方法

Fairy在扩散模型特征的背景下对以前的跟踪-传播（tracking-and-propagation）范式进行了重新审视。特别是，该研究用对应估计（ correspondence estimation）架起了跨帧注意之间的桥梁，使得模型在扩散模型内可以跟踪和传播中间特征。

跨帧的注意力图可以解释为一种相似性度量，用来评估各个帧中token之间的对应关系，其中一个语义区域的特征会将更高的注意力分配给其他帧中的相似语义区域，如下图3所示。

因此，当前的特征表示通过注意力帧间相似区域的加权和进行细化和传播，从而有效地最小化帧之间的特征差异。

14秒就能重建视频，还能变换角色，Meta让视频合成提速44倍

一系列操作下来产生了基于锚点的模型，这是 Fairy 的核心组件。

为了确保生成视频的时间一致性，该研究采样了K个锚点帧，从而提取扩散特征，并且提取的特征被定义为一组要传播到连续帧的全局特征。当生成每个新帧时，该研究针对锚点帧的缓存特征将自注意力层替换为跨帧注意力。通过跨帧注意力，每个帧中的 token都采用锚点帧中表现出类似语义内容的特征，从而增强一致性。

14秒就能重建视频，还能变换角色，Meta让视频合成提速44倍

实验评估

在实验部分，研究者主要基于指令型图像编辑模型来实现Fairy，并使用跨帧注意力替换模型的自注意力。他们将锚帧的数量设置为3。模型可以接受不同长宽比的输入，并将较长尺寸的输入分辨率重新扩展为512，并保持长宽比不变。研究者对输入视频的所有帧进行编辑，而不进行下采样。所有计算在8块A100 GPU上分配完成。

定性评估

研究者首先展示了Fairy的定性结果，如下图5所示，Fairy可以对不同的主题进行编辑。

14秒就能重建视频，还能变换角色，Meta让视频合成提速44倍

在下图6中，研究者展示了Fairy可以按照文本指令来进行不同类型的编辑，包括风格化、角色变化、局部编辑、属性编辑等。

14秒就能重建视频，还能变换角色，Meta让视频合成提速44倍

下图9展示了Fairy可以根据指令将源角色转换为不同的目标角色。

14秒就能重建视频，还能变换角色，Meta让视频合成提速44倍

定量评估

研究者在下图7中展示了整体质量比较结果，其中Fairy生成的视频更受欢迎。

14秒就能重建视频，还能变换角色，Meta让视频合成提速44倍

下图10展示了与基线模型的视觉比较结果。

14秒就能重建视频，还能变换角色，Meta让视频合成提速44倍

更多技术细节和实验结果参阅原论文。

以上是14秒就能重建视频，还能变换角色，Meta让视频合成提速44倍的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：机器之心。如有侵权，请联系admin@php.cn删除

人工智能治疗师在这里：您需要了解的14个开创性的心理健康工具Apr 30, 2025 am 11:17 AM

尽管它无法提供训练有素的治疗师的人类联系和直觉，但研究表明，许多人很乐意与相对无面和匿名的AI机器人分享他们的担忧和担忧。这是否总是好我

叫AI到杂货店过道Apr 30, 2025 am 11:16 AM

人工智能（AI）是一种技术数十年的技术，正在彻底改变食品零售业。从大规模的效率提高和成本降低到精简的各种业务功能的流程，AI的影响是Undeniabl

从生成的AI中进行佩普谈话来提升您的精神Apr 30, 2025 am 11:15 AM

让我们来谈谈。对创新AI突破的分析是我正在进行的AI中正在进行的福布斯列覆盖的一部分，包括识别和解释各种有影响力的AI复杂性（请参阅此处的链接）。此外，对于我的comp

为什么AI驱动的超个性化是所有企业必须的Apr 30, 2025 am 11:14 AM

保持专业形象需要偶尔的衣柜更新。在线购物方便时，它缺乏面对面尝试的确定性。我的解决方案？ AI驱动的个性化。我设想AI助手策划服装Selecti

忘记Duolingo：Google Translate的新AI功能教授语言Apr 30, 2025 am 11:13 AM

谷歌翻译新增语言学习功能据Android Authority报道，应用专家AssembleDebug发现，最新版本的谷歌翻译应用包含一个新的“练习”模式的测试代码，旨在帮助用户通过个性化活动来提高他们的语言技能。此功能目前对用户不可见，但AssembleDebug能够部分激活它并查看其一些新的用户界面元素。激活后，该功能会在屏幕底部添加一个新的“毕业帽”图标，标有“Beta”徽章，表明“练习”功能最初将以实验形式发布。相关的弹出提示显示“练习为你量身定制的活动！”，这意味着谷歌将生成定制的