搜索
首页科技周边人工智能让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了

有了阿里的 EMO,AI 生成或真实的图像「动起来说话或唱歌」变得更容易了。

最近,以 OpenAI Sora 为代表的文生视频模型又火了起来。

除了文本生成视频,以人为中心的视频合成一直备受关注。比如,专注于“说话人头部”的视频生成,其目标是根据用户提供的音频片段生成面部表情。

在技术层面上,生成表情需要准确捕捉说话者微妙且多样化的面部动作,这对于类似视频合成任务而言是一个巨大的挑战。

传统方法通常会施加一些限制以简化视频生成任务。例如,有些方法利用3D模型来约束面部关键点,另一些方法则从原始视频中提取头部运动序列以引导整体运动。尽管这些限制降低了视频生成的复杂性,但也会限制最终面部表情的丰富度和自然度。

最近在阿里智能计算研究院发表的一篇论文中,研究者着重探讨了音频提示与面部动作之间微妙的关联,以提高说话人头部视频的真实性、自然度和表现力。

研究者发现,传统方法通常无法充分捕捉不同说话人的面部表情和独特风格。因此,他们提出了 EMO(Emote Portrait Alive)框架,该框架通过音频 - 视频合成方法直接呈现面部表情,无需使用中间的3D模型或面部标志。

让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了

  • 论文标题:EMO: Emote Portrait Alive- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

  • 论文地址:https://arxiv.org/pdf/2402.17485.pdf

  • 项目主页:https://humanaigc.github.io/emote-portrait-alive/

就效果而言,阿里的方法可以确保整个视频的无缝帧过渡,并保持身份一致,进而产生表现力强和更加逼真的角色化身视频,在表现力和真实感方面显著优于当前 SOTA 方法。

比如 EMO 可以让 Sora 生成的东京女郎角色开口唱歌,歌曲为英国 / 阿尔巴尼亚双国籍女歌手 Dua Lipa 演唱的《Don't Start Now》。让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了EMO 支持包括英文、中文在内等不同语言的歌曲,可以直观地识别音频的音调变化,生成动态、表情丰富的 AI 角色化身。比如让 AI 绘画模型 ChilloutMix 生成的小姐姐唱陶喆的《Melody》。 让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了

EMO 还能让角色化身跟上快节奏的 Rap 歌曲,比如让小李子来一段美国说唱歌手 Eminem 的《哥斯拉》(Godzilla)。让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了当然,EMO 不仅仅能让角色开口唱歌,还支持各种语言的口语音频,将不同风格的肖像画、绘画以及 3D 模型和 AI 生成的内容制作成栩栩如生的动画视频。比如奥黛丽赫本的谈话。 让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了

最后,EMO 还能实现不同角色之间的联动,比如《狂飙》高启强联动罗翔老师。让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了

方法概览

给定人物肖像的单张参考图像,本文方法可以生成与输入语音音频片段同步的视频,还能保留人物非常自然的头部运动和生动的表情,并且与所提供的声音音频的音调变化相协调。通过创建一系列无缝的级联视频,该模型有助于生成具有一致身份和连贯运动的长时间说话肖像视频,这对于现实应用至关重要。

网络 Pipeline

方法概览如下图所示。主干网络接收多帧噪声潜在输入,并尝试在每个时间步骤中将它们去噪为连续的视频帧,主干网络具有与原始 SD 1.5 版本相似的 UNet 结构配置,具体而言

  1. 与之前的工作相似,为了确保生成帧之间的连续性,主干网络嵌入了时间模块。

  2. 为了保持生成帧中人像的 ID 一致性,研究者部署了一个与主干网络并行的 UNet 结构,称为 ReferenceNet,它输入参考图像以获取参考特征。

  3. 为了驱动角色说话时的动作,研究者使用了音频层来编码声音特征。

  4. 为了使说话角色的动作可控且稳定,研究者使用脸部定位器和速度层提供弱条件。

让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了

对于主干网络,研究者没有使用提示嵌入,因此,他们将 SD 1.5 UNet 结构中的交叉注意力层调整为参考注意力层。这些修改后的层将从 ReferenceNet 获取的参考特征作为输入,而非文本嵌入。

训练策略

训练过程分为三个阶段:

第一阶段是图像预训练,其中主干网络、ReferenceNet 和面部定位器被纳入训练过程中,在这个阶段,主干网络以单一帧作为输入,而 ReferenceNet 处理来自同一视频剪辑的不同的、随机选择的帧。主干网络和 ReferenceNet 都从原始 SD 初始化权重。

在第二阶段,研究者引入了视频训练,并且加入了时间模块和音频层,从视频剪辑中采样 n+f 个连续帧,其中起始的 n 帧为运动帧。时间模块从 AnimateDiff 初始化权重。

最后一个阶段集成了速度层,研究者只在这个阶段训练时间模块和速度层。这种做法是为了故意忽略训练过程中的音频层。因为说话人的表情、嘴部运动和头部运动的频率主要受音频的影响。因此,这些元素之间似乎存在相关性,模型可能会根据速度信号而不是音频来驱动角色的运动。实验结果表明,同时训练速度层和音频层削弱了音频对角色运动的驱动能力。

实验结果

实验过程中参与比较的方法包括 Wav2Lip、SadTalker、DreamTalk。

图 3 展示了本文方法与先前方法的比较结果。可以观察到,当提供单个参考图像作为输入时,Wav2Lip 通常会合成模糊的嘴部区域并生成以静态头部姿态和最小眼部运动为特征的视频。就 DreamTalk 而言,其结果可能会扭曲原始面孔,也会限制面部表情和头部运动的范围。与 SadTalker 和 DreamTalk 相比,该研究提出的方法能够生成更大范围的头部运动和更生动的面部表情。

让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了

该研究进一步探索了各种肖像风格的头像视频生成,如现实、动漫和 3D。这些角色使用相同的声音音频输入进行动画处理,结果显示,生成的视频在不同风格之间产生大致一致的唇形同步。

让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了

图 5 表明本文方法在处理具有明显音调特征的音频时能够生成更丰富的面部表情和动作。例如下图第三行,高音调会引发角色更强烈、更生动的表情。此外,借助运动帧还可以扩展生成的视频,即根据输入音频的长度生成持续时间较长的视频。如图 5 和图 6 所示,本文方法即使在大幅运动中也能在扩展序列中保留角色的身份。

让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了

让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了

表 1 结果表明本文方法在视频质量评估方面具有显著优势:

让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了

以上是让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
10个生成AI编码扩展,在VS代码中,您必须探索10个生成AI编码扩展,在VS代码中,您必须探索Apr 13, 2025 am 01:14 AM

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

烹饪创新:人工智能如何改变食品服务烹饪创新:人工智能如何改变食品服务Apr 12, 2025 pm 12:09 PM

AI增强食物准备 在新生的使用中,AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务,例如翻转汉堡,制作披萨或组装SA

Python名称空间和可变范围的综合指南Python名称空间和可变范围的综合指南Apr 12, 2025 pm 12:00 PM

介绍 了解Python功能中变量的名称空间,范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中,我们将研究各种ASP

视觉语言模型(VLMS)的综合指南视觉语言模型(VLMS)的综合指南Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容联发科技与kompanio Ultra和Dimenty 9400增强优质阵容Apr 12, 2025 am 11:52 AM

继续使用产品节奏,本月,Mediatek发表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分,其中包括智能手机的芯片

本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:现在是星期一早上。作为AI驱动的招聘人员,您更聪明,而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购,审查和计划的FO

生成的AI遇到心理摩托车生成的AI遇到心理摩托车Apr 12, 2025 am 11:50 AM

我猜你一定是。 我们似乎都知道,心理障碍包括各种chat不休,这些chat不休,这些chat不休,混合了各种心理术语,并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

原型:科学家将纸变成塑料原型:科学家将纸变成塑料Apr 12, 2025 am 11:49 AM

根据本周发表的一项新研究,只有在2022年制造的塑料中,只有9.5%的塑料是由回收材料制成的。同时,塑料在垃圾填埋场和生态系统中继续堆积。 但是有帮助。一支恩金团队

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境