打开一个数字人,里面全是生成式 AI。
9月23日晚上,杭州亚运会的开幕式上,点燃主火炬的环节展现了上亿线上数字火炬手的「小火苗」聚集在钱塘江上,形成了一个数字人形象。接着,数字人火炬手和现场的第六棒火炬手一同走到火炬台前,共同点燃了主火炬
作为开幕式的核心创意,数实互联的火炬点燃形式冲上了热搜,引发了人们的重点关注。 重写后的内容:作为开幕式的核心创意,数实互联的火炬点燃方式引起了热议,吸引了人们的关注
数字人点火是一个前所未有的创举,上亿人参与其中,涉及了大量先进且复杂的技术。其中最重要的问题之一是如何让数字人「动起来」。可以明显看出,随着生成式人工智能和大型模型的快速发展,数字人研究也出现了更多新的变化
在 10 月初即将举行的全球计算机视觉顶会 ICCV 2023 上,我们关注到一篇生成 3D 数字人运动研究被大会收录。相关论文题为《Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models》,由浙江大学、蚂蚁集团联合发布。
根据介绍,这项研究在一定程度上解决了数字人远距离合成复杂运动的问题,能够实现原有模型或路径规划无法实现的效果。数字人驱动相关的技术还被应用于亚运会的1亿数字人线上传递
生成式 AI 驱动,让数字人动起来
很多时候,我们需要在给定的 3D 场景中合成 3D 人体运动,使虚拟人能够自然地在场景中漫步并与物体交互,这种效果在 AR/VR、电影制作和视频游戏中都存在多种应用。
在这里,传统的角色控制运动生成方法旨在由用户的控制信号引导生成短期或重复的运动,新研究则专注于在给定起始位置和目标对象模型的情况下生成更加长时间的人机交互内容。
这种思路虽然效果更好,但显然挑战更大。首先,人与物体的交互应该是连贯的,这需要对人与物体之间的远程交互进行建模的能力。其次,在内容生成的背景下,生成模型应该能够合成大小不同的运动,因为真人存在多种接近目标对象并与之交互的方式。
在生成数字人动作的方法上,现有的合成方法大致可分为在线生成和离线生成。大多数在线方法侧重于角色的实时控制。给定一个目标对象,他们通常使用自回归模型通过反馈预测来循环生成未来的运动。尽管这种方法已广泛用于视频游戏等交互场景,但其质量对于长期生成来说还难以令人满意。
为了提高运动质量,近期的一些离线方法开始采用多级框架,首先生成轨迹,然后合成运动。尽管这种策略能够产生合理的路径,但路径的多样性却是有限的
在这项新研究中,作者提出了一种全新的离线方法,用于综合长期且多样化的人与物体之间的交互。该方法的创新之处在于采用了分层生成策略。首先,该策略会预测一系列的里程碑,然后再生成这些里程碑之间的人体动作
具体来说,给定起始位置和目标对象,作者设计了一个里程碑生成模块来合成沿着运动轨迹的一组节点,每个里程碑对局部姿势进行编码并指示人体运动过程中的过渡点。基于这些里程碑,算法采用运动生成模块来生成完整的运动序列。由于这些里程碑的存在,我们可以将长序列的生成简化为合成几个短运动序列。
每个里程碑的局部姿态是由考虑全局依赖性的 transformer 模型生成的,以产生时间一致的结果,从而进一步促进相干运动
除了分层生成框架之外,研究人员还进一步利用扩散模型来合成人与物体的交互。此前的一些运动合成扩散模型结合了 transformer 和去噪扩散概率模型(DDPM)。
值得一提的是,由于运动序列较长,直接将它们应用到新设置中需要大量的计算,可能导致 GPU 内存爆炸。由于新的分层生成框架将长期生成转换为多个短序列的合成,因此所需的 GPU 内存减少到了与短期运动生成相同的水平。
因此,研究人员可以有效地使用Transformer DDPM来合成长期运动序列,从而提高生成质量
为了达到这个目的,研究人员设计了一个分层生成框架,如下图所示
首先,他们使用GoalNet来预测对象上的交互目标,然后生成目标姿态来显式建模人与物体的交互。接下来,他们使用里程碑生成模块来估计里程碑的长度,从而生成从起点到目标的里程碑轨迹,并放置里程碑姿态
这样一来,长距离运动生成就被分解为多个短距离运动生成的组合。最后,作者设计了一个运动生成模块,用于合成里程碑之间的轨迹并填充动作。
人工智能(AI)的姿态生成
研究者将人与物体互动并保持静止的姿态称为目标姿态。之前,大多数方法使用 cVAE 模型生成人体姿态,但研究者发现该方法在自己的研究中表现不佳。
为了应对这个挑战,他们采用了VQ-VAE模型来对数据分布进行建模。该模型利用离散表示将数据聚类在有限的点集中。此外,根据观察,不同的人体姿态可能具有相似的属性。例如,当人坐下时,手的动作可能不同,但腿部位置可能相同。因此,他们将关节分为L(L = 5)个不同的非重叠组
根据图3所示,目标姿态被划分为独立的关节组
根据起始姿态和目标姿态,我们可以让算法生成里程碑轨迹,并合成里程碑处的局部姿势。由于运动数据的长度是未知的,而且可以是任意的(例如,人可能快速走向椅子并坐下,也可能绕着椅子慢慢走一圈后坐下),因此需要预测里程碑的长度,用 N 表示。然后,合成 N 个里程碑点,并在这些点上放置局部姿态。
最后是动作生成,研究者用到的方法不是逐帧预测动作,而是根据生成的里程碑分层合成整个序列。他们首先生成轨迹,然后合成动作。具体来说,在两个连续的里程碑内,他们首先完成轨迹。然后,在连续里程碑姿态的引导下填充运动。这两个步骤分别使用两个 Transformer DDPM 完成。
研究者会为每个步骤精心设计DDPM的条件,以生成目标输出
重写的内容是:领先于其他产品的效果
研究人员在 SAMP 数据集上比较了不同方法的结果。可以看到,论文所提方法具有更低的 FD、更高的用户研究得分和更高的 APD。此外,他们的方法实现了比 SAMP 更高的轨迹多样性。
这种新方法可以在复杂的场景中产生令人满意的结果。该方法生成的穿透帧的百分比为3.8%,SAMP为4.9%
在SAMP、COUCH等数据集上,研究中提到的方法都取得了比基准方法更好的结果
完成全链路布局
数字人是将语音、语义、视觉等多模态技术融合在一起的综合体。在最近生成式 AI 取得突破的同时,数字人领域正在经历跨越式的发展,以前需要手工制作的建模、生成交互、渲染等环节正在全面实现人工智能化
随着工程师不断优化,这项技术在移动端的体验也在变得更好,刚刚结束的亚运火炬线上传递活动就是个很好的例子:想要成为火炬手,我们只需要点开支付宝 App 的小程序。
据说,为确保开幕式项目顺畅进行,蚂蚁集团的工程师们针对上百款不同型号的手机进行了超过 10 万次测试,敲下了 20 多万行代码,并通过自研 Web3D 互动引擎 Galacean、AI 数字人、云服务、区块链等多种技术结合,保证了人人都可以成为数字火炬手,参与火炬传递。亚运数字火炬手平台,能做到亿级用户规模覆盖,并支持 97% 的常见智能手机设备。
为了让数字火炬手们能够真实地参与,蚂蚁的技术团队开发了58个捏脸控制器。通过使用人脸识别和AI算法,他们可以根据每个人的面部特征绘制数字火炬手的脸部形象。同时,用户还可以自由调整脸型、发型、鼻子、嘴巴、眉毛等特征,实现自由换装。这项技术可以提供2万亿种不同的数字形象选择
另外,开幕式点火仪式后,每位数字火炬手都可以收到一张数字点火专属证书,绘有每位数字火炬手独一无二的形象,这张证书会通过分布式技术存储在区块链上。
从研究论文内容和亚运项目不难看出,背后都有完整数字人技术体系的支撑。据了解,蚂蚁集团正积极开展数字人技术探索,并已完成数字人的全链路核心技术自研布局。
与市面上多数公司不同,蚂蚁集团的数字人技术自研,选择与生成式 AI 结合的发展方向。从技术部署上,则涵盖数字人建模、渲染、驱动、交互的全生命周期,结合 AIGC 与大模型,大幅降低了数字人全链路生产成本。目前可支持 2D、3D 数字人,提供了播报型、交互型等多种解决方案。
根据公开资料,可以总结蚂蚁数字人平台目前具备四方面技术优势和特色:
亚运会开幕式之前,中国信通院发布最新数字人标准符合性验证结果,蚂蚁集团灵境数字人平台,成为业界首个通过金融数字人评测的产品,获得了最高评级「杰出级 (L4)」。
而在亚运之外,蚂蚁数字人平台还支持了蚂蚁集团支付宝、数字金融、政务、五福等业务,并在今年开始应用于短视频、直播、小程序等载体向合作伙伴提供基础服务。
可以预见在不久之后,伴随生成式 AI 加持的数字人不断升级,我们也会在更多场景中体验到更好的交互,真正进入数实融合的智能生活。
以上是数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技的详细内容。更多信息请关注PHP中文网其他相关文章!