阿里再次创新：通过一句话和人脸即可实现《擦玻璃》舞蹈，服装背景自由切换！-人工智能-PHP中文网

首页

科技周边

人工智能

阿里再次创新：通过一句话和人脸即可实现《擦玻璃》舞蹈，服装背景自由切换！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 15, 2023 pm 12:39 PM

项目promptt2v

阿里巴巴又一篇名为“舞蹈整活儿”的论文在AnimateAnyone之后引起了轰动

现在，只要上传一张脸部照片并简单描述一句话，就可以在任何地方跳舞啦！

例如下面这段《擦玻璃》的舞蹈视频：

阿里再次创新：通过一句话和人脸即可实现《擦玻璃》舞蹈，服装背景自由切换！图片

您需要做的就是上传一张人像照片，以及填写相应的提示信息

在秋天的金色树叶中，一个女孩穿着浅蓝色的连衣裙微笑着跳舞

随着提示的变化，人物的背景和衣服也会相应地改变。比如，我们可以再换几句话：

一个女孩在木屋里微笑着跳舞，她身穿着毛衣和长裤

一个女孩，微笑着，在时代广场跳舞，穿着连衣裙般的白衬衫，长袖，长裤。

阿里再次创新：通过一句话和人脸即可实现《擦玻璃》舞蹈，服装背景自由切换！图片

这便是阿里最新的一项研究——DreaMoving，主打的就是让任何人、随时且随地地跳舞。

阿里再次创新：通过一句话和人脸即可实现《擦玻璃》舞蹈，服装背景自由切换！图片

而且不仅是真人，就连卡通动漫人物也都是可以hold住的哦~

阿里再次创新：通过一句话和人脸即可实现《擦玻璃》舞蹈，服装背景自由切换！图片

项目一出，也是引发了不少网友的关注，有人在看过效果之后直呼“Unbelievable”~

阿里再次创新：通过一句话和人脸即可实现《擦玻璃》舞蹈，服装背景自由切换！图片

那么这个结果是如何实现的呢？这项研究是如何进行的呢？

背后原理

虽然像稳定视频传播（Stable Video Diffusion）和Gen2等文本到视频（text-to-video，T2V）模型的问世，已经在视频生成领域取得了重大突破，但目前仍面临着许多挑战

例如，在数据集方面，目前缺乏开源的人类舞蹈视频数据集以及难以获得相应的精确文本描述，这就使得让模型们去生成多样性、帧一致性、时长更长的视频成为挑战

并且在以人为中心的内容生成领域，生成结果的个性化和可控性也是关键因素。

阿里再次创新：通过一句话和人脸即可实现《擦玻璃》舞蹈，服装背景自由切换！图片

为了应对这两个挑战，阿里团队首先开始处理数据集

研究者们首先从互联网收集了约1000个优质的人类舞蹈视频。然后，他们将这些视频切割成约6000个短视频（每个视频8至10秒），以确保视频片段中没有转场和特效，有利于时间模型的训练

此外，为了生成视频的文本描述，他们使用了Minigpt-v2作为视频字幕器（video captioner），特别采用了“grounding”版本，指令是详细描述这个帧。

通过基于关键帧中心帧生成的字幕，可以准确地描述视频片段的主题和背景内容

在框架方面，阿里团队则是提出了一个名叫DreaMoving、基于Stable Diffusion的模型。

它主要由三个神经网络来构成，包括去噪U-Net（Denoising U-Net）、视频控制网络（Video ControlNet）和内容引导器（Content Guider）。

阿里再次创新：通过一句话和人脸即可实现《擦玻璃》舞蹈，服装背景自由切换！图片

其中，Video ControlNet是在每个U-Net块之后注入Motion Block的图像控制网络，将控制序列（姿态或深度）处理为额外的时间残差

Denoising U-Net是一种衍生的Stable-Diffusion U-Net，带有用于视频生成的运动块。

而Content Guider则是将输入文本提示和外观表情（如人脸）传输到内容嵌入中。

通过这样的操作，DreaMoving能够在输入给定的引导序列和简单的内容描述（例如文本和参考图像）的情况下生成高质量、高保真度的视频

阿里再次创新：通过一句话和人脸即可实现《擦玻璃》舞蹈，服装背景自由切换！图片

不过很可惜的一点是，目前DreaMoving项目并没有开源代码。

对于对此感兴趣的伙伴，可以先关注一下，等待代码开源的发布~

请参考以下链接：[1]https://dreamoving.github.io/dreamoving/[2]https://arxiv.org/abs/2312.05107[3]https://twitter.com/ProperPrompter/status/1734192772465258499[4]https://github.com/dreamoving/dreamoving-project

以上是阿里再次创新：通过一句话和人脸即可实现《擦玻璃》舞蹈，服装背景自由切换！的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

让我们跳舞：结构化运动以微调我们的人类神经网Apr 27, 2025 am 11:09 AM

科学家已经广泛研究了人类和更简单的神经网络（如秀丽隐杆线虫中的神经网络），以了解其功能。但是，出现了一个关键问题：我们如何使自己的神经网络与新颖的AI一起有效地工作

新的Google泄漏揭示了双子AI的订阅更改Apr 27, 2025 am 11:08 AM

Google的双子座高级：新的订阅层即将到来目前，访问Gemini Advanced需要$ 19.99/月Google One AI高级计划。但是，Android Authority报告暗示了即将发生的变化。最新的Google P中的代码

数据分析加速度如何求解AI的隐藏瓶颈Apr 27, 2025 am 11:07 AM

尽管围绕高级AI功能炒作，但企业AI部署中潜伏的巨大挑战：数据处理瓶颈。首席执行官庆祝AI的进步时，工程师努力应对缓慢的查询时间，管道超载，一个

Markitdown MCP可以将任何文档转换为Markdowns！Apr 27, 2025 am 09:47 AM

处理文档不再只是在您的AI项目中打开文件，而是将混乱变成清晰度。诸如PDF，PowerPoints和Word之类的文档以各种形状和大小淹没了我们的工作流程。检索结构化

如何使用Google ADK进行建筑代理？ - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理开发套件（ADK）的力量创建具有现实世界功能的智能代理！该教程通过使用ADK来构建对话代理，并支持Gemini和GPT等各种语言模型。 w

在LLM上使用SLM进行有效解决问题-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要：小型语言模型 (SLM) 专为效率而设计。在资源匮乏、实时性和隐私敏感的环境中，它们比大型语言模型 (LLM) 更胜一筹。最适合专注型任务，尤其是在领域特异性、控制性和可解释性比通用知识或创造力更重要的情况下。 SLM 并非 LLMs 的替代品，但在精度、速度和成本效益至关重要时，它们是理想之选。技术帮助我们用更少的资源取得更多成就。它一直是推动者，而非驱动者。从蒸汽机时代到互联网泡沫时期，技术的威力在于它帮助我们解决问题的程度。人工智能 (AI) 以及最近的生成式 AI 也不例