AI应用下一个热门应用已经出现：阿里巴巴和字节跳动悄悄上线了一款类似神器，可以让梅西跳舞轻而易举-人工智能-PHP中文网

首页

科技周边

人工智能

AI应用下一个热门应用已经出现：阿里巴巴和字节跳动悄悄上线了一款类似神器，可以让梅西跳舞轻而易举

王林

Dec 05, 2023 pm 05:43 PM

AI视频生成神器再次登场。最近，阿里巴巴和字节跳动秘密上线了各自的工具

阿里推出了Animate Anyone，该项目由阿里巴巴智能计算研究院开发，你只需提供一个静态的角色图像（包括真人、动漫/卡通角色等）和一些动作、姿势（比如跳舞、走路），便可将其动画化，同时保留角色的细节特征（如面部表情、服装细节等）。

只要有一张梅西的照片，就能让“球王”摆各种Pose（见下图），按照这一原理，让梅西跳舞也不在话下。

新加坡国立大学和字节跳动则联合推出了Magic Animate，同样是利用AI技术，将静态图像变成动态视频。字节方面表示，在挑战性极高的TikTok舞蹈数据集上，Magic Animate生成的视频的真实度比最强基线提高了超过38%。

在图生视频项目中，阿里巴巴和字节跳动齐头并进，几乎同时完成了论文发布、代码公开和测试地址公开等一系列操作，两者的相关论文发布时间仅相差一天

11月27日发布了有关字节的相关论文：

AI应用下一个热门应用已经出现：阿里巴巴和字节跳动悄悄上线了一款类似神器，可以让梅西跳舞轻而易举

阿里相关的论文将于11月28日发布：

AI应用下一个热门应用已经出现：阿里巴巴和字节跳动悄悄上线了一款类似神器，可以让梅西跳舞轻而易举

两家公司的开源文件在Github上持续更新

AI应用下一个热门应用已经出现：阿里巴巴和字节跳动悄悄上线了一款类似神器，可以让梅西跳舞轻而易举

需要重写的内容是：Magic Animate的开源项目文件包

AI应用下一个热门应用已经出现：阿里巴巴和字节跳动悄悄上线了一款类似神器，可以让梅西跳舞轻而易举

Animate Anyone的开源项目文件包

这再次点出一个事实：视频生成是AIGC热门竞技项目，科技巨头、明星公司均密切关注并积极投入。据了解，Runway、Meta、Stable AI已经推出AI文生视频应用，Adobe也在近日宣布收购AI视频创作公司Rephrase.ai。

从上述两家公司的展示视频来看，生成效果有了十分显著的提升，流畅度、真实感更胜以往。一改当下图像/视频生成应用存在的缺点，如局部扭曲、细节模糊、不符合提示词、与原图有差别、掉帧、画面抖动。

这两个工具都是通过扩散模型（diffusion models）创造时间连贯的人像动画，其训练数据很多是一样的。两者都用到的Stable Diffusion是由CompVis、Stability AI和LAION的研究人员和工程师创建的文本到图像的潜在扩散模型，该模型使用来自LAION-5B数据库子集的 512x512图像进行训练。LAION-5B是目前存在的最大的、可免费访问的多模式数据集。

谈及应用，阿里的研究人员在论文中表示，Animate Anybody作为基础方法，未来有可能扩展到各种图生视频应用，该工具有许多潜在的应用场景，例如在线零售、娱乐视频、艺术创作和虚拟角色。字节跳动也强调Magic Animate展示了强大的泛化能力，可以应用到多个场景。

多模态应用的“圣杯”：文生视频文生视频是指通过结合文本和语音的技术，实现对视频内容进行多模态分析和处理的应用。它将文本和语音信息与视频图像进行关联，从而提供更丰富的视频理解和交互体验。文生视频应用具有广泛的应用领域，包括智能视频监控、虚拟现实、视频编辑和内容分析等。通过文本和语音的分析，文生视频可以识别和理解视频中的对象、场景和动作，从而为用户提供更智能化的视频处理和控制功能。在智能视频监控领域，文生视频可以实现对监控视频内容的自动标注和分类，从而提高监控效率和准确性。在虚拟现实领域，文生视频可以将用户的语音指令与虚拟环境进行交互，实现更沉浸式的虚拟体验。在视频编辑和内容分析领域，文生视频可以帮助用户自动提取视频中的关键信息，并进行智能编辑和剪辑。总之，文生视频作为多模态应用的“圣杯”，为视频内容的理解和交互提供了更全面和智能化的解决方案。它的发展将为各个领域带来更多的创新和便利，推动科技进步和社会发展

视频比文字和图片更具优势，它能够更好地表达信息，丰富画面，并具有动态性。视频可以将文本、图像、声音和视觉效果相结合，融合多种信息形式在一个媒体中呈现

AI视频工具具备强大的产品功能，可以开拓更广阔的应用场景。通过简单的文本描述或其他操作，AI视频工具能够生成高质量和完整度的视频内容，从而降低了视频创作的门槛。这使得非专业人士也能够通过视频准确展示内容，有望在各个细分行业中提高内容生产的效率并输出更多创意

国盛证券宋嘉吉此前指出，AI文生视频是多模态应用的下一站，是多模态AIGC“圣杯”，随着AI视频补齐了AI创作多模态的最后一块拼图，下游应用的加速时刻也将到来；申港证券表示，视频AI是多模态领域的最后一环；华泰证券表示，AIGC大潮已逐步从文生文和文生图转向文生视频领域，文生视频的高计算难度和高数据要求将支撑上游AI算力需求持续旺盛。

不过，大公司之间、大公司与初创企业间的差距不算大，甚至可以说处于同一起跑线。当前文生视频可公测应用较少，仅有Runway Gen-2、Zero Scope及Pika等少数几个。即便如Meta和谷歌这样的硅谷人工智能巨头，在文生视频上同样进展缓慢，它们分别推出的Make-A-Video和Phenaki均尚未公测。

从技术方面来看，视频生成工具的底层模型和技术仍在不断优化。目前主流的文生视频模型主要使用Transformer模型和扩散模型。扩散模型的工具主要致力于提升视频质量，克服了效果粗糙、缺少细节的问题。不过，这些视频的时长都在4秒以内

另一方面，尽管扩散模型效果出色，但其训练过程需要大量的内存和算力，这使得只有大公司和获得大量投资的初创企业才能承担得起模型训练的成本

来源：科创板日报

以上是AI应用下一个热门应用已经出现：阿里巴巴和字节跳动悄悄上线了一款类似神器，可以让梅西跳舞轻而易举的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：搜狐。如有侵权，请联系admin@php.cn删除

企业中AI计划的8个主要问题Apr 18, 2025 am 11:29 AM

我们对今年使用LLM的快速发展非常热情，剩下的一些障碍和瓶颈往往会迷失在洗牌中。与所有先前的技术一样，公司必须引入一个AI项目

避免每个新手犯的这5个常见错误Apr 18, 2025 am 11:25 AM

开始您的AI旅程？避免这些常见的陷阱！本指南重点介绍了初学者犯下的五个常见错误，并为更流畅，更成功的学习体验提供解决方案。关键要点：掌握AI基础知识之前

尊重技术：AI和土著社区权力Apr 18, 2025 am 11:21 AM

答案很复杂。 AI具有支持土著自决，语言保存和气候管理的巨大潜力。但这也有可能加深长期存在的擦除，剥削和排斥模式 - 除非是

虚拟AI代理对数字产品体验的影响Apr 18, 2025 am 11:13 AM

革新客户服务：综合信息系统中虚拟AI代理的兴起在当今迅速发展的数字景观中，企业不断寻求创新的方式来增强客户沟通。整合

Google再次有罪，审判中的元，Openai Social，IR滚动触摸cast AIApr 18, 2025 am 11:10 AM

2025年4月17日，美国地方法院法官Leonie Brinkema裁定Google非法垄断了数字广告市场的关键部分。法院确定Google通过将其发布者广告服务器和广告交易所绑定来滥用其统治地位，

AV字节：每周的AI创新，搜索GPT，LLAMA 3.1等Apr 18, 2025 am 11:06 AM

AI领域本周重大突破！AV Bytes为您带来AI领域的最新进展，精彩不容错过！搜索引擎的未来？OpenAI的SearchGPT，Meta的Llama 3.1以及Mistral AI的Large 2模型，都将AI推向新的高度。此外，AI在数学奥林匹克竞赛中获得奖牌，并在医学诊断领域展现出超越人类医生的潜力。这一切都预示着科幻正逐渐成为现实！本周亮点： OpenAI的SearchGPT: 一款利用先进自然语言处理技术，提升信息检索效率的全新搜索引擎原型。 Meta的Llama 3.1: 拥

迅速工程中的密度链是什么？ - 分析VidhyaApr 18, 2025 am 11:04 AM

掌握提示工程中的密度链：创建简洁而有效的提示在自然语言处理 (NLP) 和人工智能领域，掌握提示工程已变得至关重要。这项技能融合了科学和艺术，它涉及精心设计精确的指令来引导 AI 模型生成所需的结果。在众多技术中，密度链 (Chain of Density) 作为一种创建简洁有效提示的强大方法脱颖而出。本文深入探讨提示工程中密度链的概念、应用及其在 AI 驱动内容创作中的意义。概述提示工程中的密度链方法在 NLP 和 AI 中至关重要。通过压缩和添加相关信息来迭代地改进广泛的摘要。