清华系初创公司发布全球首个4D骨骼动画框架，实现一键将实景转化为动画，并且能够生成个性化角色-人工智能-PHP中文网

首页

科技周边

人工智能

清华系初创公司发布全球首个4D骨骼动画框架，实现一键将实景转化为动画，并且能够生成个性化角色

PHPz

Jan 19, 2024 pm 12:39 PM

产业

苹果最近宣布将于2月2日推出首款虚拟头显设备Vision Pro，预计这款XR设备将引领下一代终端的快速发展。随着虚拟显示设备的普及，数字交互将从平面走向立体，立体模型和立体动画将成为未来的主流内容形式。多维沉浸式交互在虚实融合的趋势下也将成为潮流。

但从数据规模看，现阶段内容产业的数据积累仍以 2D 图像、平面视频为主，3D 模型、4D 动画等数据基础较为薄弱。其中，4D 动画是在传统 3D 模型的基础上引入时间序列，即随时间变化的 3D 模型，可以呈现出动态立体效果，在游戏动画、电影特效、虚拟现实等领域具有广泛的应用，但也是目前内容生态开发中最困难的环节。

因此，面向即将到来的多维沉浸式体验，构建立体化的数字内容将成为重要的基础性工作。

面向该前沿领域，清华系创业团队生数科技开展了系列研究和产品研发，于近期联合清华大学、同济大学等高校推出全球首个基于「骨骼动画」的 4D 动画生成框架「AnimatableDreamer」，能够直接将 2D 视频素材一键转成动态立体模型（即 4D 动画），支持自动提取骨骼动作、一键转换动画效果并可通过文字输入进行个性化角色生成。

清华系初创公司发布全球首个4D骨骼动画框架，实现一键将实景转化为动画，并且能够生成个性化角色

论文地址：https://arxiv.org/pdf/2312.03795.pdf
项目地址：https://animatabledreamer.github.io/
论文标题：AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation

大家可以看以下Demo视频。

清华系初创公司发布全球首个4D骨骼动画框架，实现一键将实景转化为动画，并且能够生成个性化角色

全新内容生产方式

颠覆立体动画开发流程

过往业界制作立体动画，需要经过 3D 建模、贴图渲染、骨骼绑定、动画制作等复杂流程，需要建模师、动画师等专业人员参与才能完成，效率低、成本高。据统计，单一个静态 3D 模型建模的生产周期就在数小时到几天时间，成本可高达上千美元，再进行动态化处理成本投入将更高。

从官方发布的 demo 视频可以看到，上传一段松鼠的 2D 实景视频，通过输入「A squirrel with red sweater」（穿红色毛衣的松鼠）的文本描述，原本实景的松鼠一键转成动画风格，而且完美保留了动作姿势，同步还可生成 360 度视角下的立体动态模型，通过切换文字描述，可以自定义角色，将松鼠任意切换为狐狸、杰尼龟等不同的卡通形象。

「AnimatableDreamer」可自动提取视频中目标对象（人物、动物等）的骨骼动作，再通过文本描述将该对象转换为任意的带骨骼动画模型。整个过程不受模版限制，支持任意视频长度和任意类型动作，具备高度的时间一致性和多视角一致性，并且导出的动态立体模型，能够在任意 3D 环境中进行渲染。

面向影视动漫等领域的后期制作，通常需要针对动画做更多编辑，「AnimatableDreamer」也支持针对已经完成骨骼绑定的模型进行更换或编辑动画文件，实现更高的自由度。未来相关技术逐渐落地后，游戏开发、影视动画等场景的 3D 建模、动画制作流程，有望变得更加高效。

面向未来

有望形成全新的内容生态

在实现原理上，研究团队创新性地提出了规范得分蒸馏策略（Canonical Score Distillation，简称 CSD），在随时间变化的相机空间中对不同帧及不同视角的 3D 模型进行渲染及降噪，并统一将梯度回传至不同相机空间共享的规范空间中进行蒸馏，将 4D 生成降维至 3D，即将 4D 生成问题简化为 3D 空间上的生成。

「AnimatableDreamer」能直接从视频中提取关节动作，通过解耦物体的模型与运动，生成的模型具备高度的时间一致性和几何合理性，不受视频长度限制，而且能有效地消除如形状断裂、闪烁和多视角不一致等问题。

在有限视角和大幅度运动的场景中，由于引入了 Diffusion 模型的先验知识，即便输入的视频未覆盖完整物体，「AnimatableDreamer」也能自动补全画面信息，实现较好的生成质量。

可以说，「AnimatableDreamer」的提出直接打通文本到 4D 骨骼动画的生成，建模、贴图、骨骼绑定、动作驱动一气呵成！输入自然语言描述，自动输出立体动画视频，无需专业知识，普通人也能直接上手，轻松定制动画内容。

以「AnimatableDreamer」为基础的工作将大大降低 3D、4D 数字内容的生产难度，将交互体验丰富化，让每个人都能进行创意内容的生成和编辑，将催生出 3D 时代下全新的内容娱乐与内容消费模式。

畅想一下，在未来的虚拟世界中，用户可以快速搭建自定义的数字空间，打造个性化的交互体验。例如：

数字空间下的每个人物形象可以任意个性化的生成，比如给小朋友穿上超人的衣服、万圣节随意切换节日主题服装等；
养宠物的用户可以将自家宠物卡通化，例如将其生成虚拟的米老鼠形象。宠物日常就如卡通片一样，主人跟宠物的日常互动将变得趣味横生；
人与人的互动方式也变得更丰富，随时随地可以来上一场主题派对，实时生成想要的派对环境、人物装扮等等。

作为一家成立不到一年的初创公司，生数科技团队长期致力于图像、3D、视频等多模态大模型领域，在 9 月份发布了 3D 资产创建工具 VoxCraft，在 Discord 正式上线，支持文图引导、分钟级创建 3D 模型、3D 贴图自定义更换等功能，赋能游戏开发、影视动画等场景的 3D 建模流程。此次推出的 4D 骨骼动画生成是生数科技的又一项全新探索工作，未来将在 VoxCraft 的产品中进行集成。

VoxCraft 工具地址：https://voxcraft.ai/

苹果 Vision Pro 的来临不仅仅是硬件设备层面的重要革新，同时也将开启一场内容和体验革命的序幕。4D 动画生成等生成式 AI 的创新能力，除了带来更好的视觉呈现，还将以全新方式打开多维数字体验，为下一代人机交互带来更多可能。

以上是清华系初创公司发布全球首个4D骨骼动画框架，实现一键将实景转化为动画，并且能够生成个性化角色的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：机器之心。如有侵权，请联系admin@php.cn删除

阅读AI索引2025：AI是您的朋友，敌人还是副驾驶？Apr 11, 2025 pm 12:13 PM

斯坦福大学以人为本人工智能研究所发布的《2025年人工智能指数报告》对正在进行的人工智能革命进行了很好的概述。让我们用四个简单的概念来解读它：认知（了解正在发生的事情）、欣赏（看到好处）、接纳（面对挑战）和责任（弄清我们的责任）。认知：人工智能无处不在，并且发展迅速我们需要敏锐地意识到人工智能发展和传播的速度有多快。人工智能系统正在不断改进，在数学和复杂思维测试中取得了优异的成绩，而就在一年前，它们还在这些测试中惨败。想象一下，人工智能解决复杂的编码问题或研究生水平的科学问题——自2023年