搜索
首页科技周边人工智能上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

随着大型语言模型(LLM)、扩散(Diffusion)等技术的发展,ChatGPT、Midjourney等产品的诞生掀起了新一波的AI热潮,生成式AI也成为备受关注的话题。

与文本和图像不同,3D生成仍处于技术探索阶段。

2022年年底,Google、NVIDIA和微软相继推出了自己的3D生成工作,但大多基于先进的神经辐射场(NeRF)隐式表达,与工业界3D软件如Unity、Unreal Engine和Maya等的渲染管线不兼容。

即使通过传统方案将其转换为Mesh表达的几何和颜色贴图,也会造成精度不足和视觉质量下降,不能直接应用于影视制作和游戏生产。

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

项目网站:https://sites.google.com/view/dreamface

论文地址:https://arxiv.org/abs/2304.03117

Web Demo:https://hyperhuman.top

HuggingFace Space:https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar

为了解决这些问题,来自影眸科技与上海科技大学的研发团队提出了一种文本指导的渐进式3D生成框架。

该框架引入符合CG制作标准的外部数据集(包含几何和PBR材质),可以根据文本直接生成符合该标准的3D资产,是首个支持Production-Ready 3D资产生成的框架。

为了实现文本生成可驱动的3D超写实数字人,该团队将这个框架与产品级3D数字人数据集相结合。这项工作已经被计算机图形领域国际顶级期刊Transactions on Graphics接收,并将在国际计算机图形顶级会议SIGGRAPH 2023上展示。

DreamFace主要包括三个模块,几何体生成,基于物理的材质扩散和动画能力生成。

相比先前的3D生成工作,这项工作的主要贡献包括:

· 提出了DreamFace这一新颖的生成方案,将最近的视觉-语言模型与可动画和物理材质的面部资产相结合,通过渐进式学习来分离几何、外观和动画能力。

· 引入了双通道外观生成的设计,将一种新颖的材质扩散模型与预训练模型相结合,同时在潜在空间和图像空间进行两阶段优化。

· 使用BlendShapes或生成的Personalized BlendShapes的面部资产具备动画能力,并进一步展示了DreamFace在自然人物设计方面的应用。

几何生成

几何体生成模块可以根据文本提示生成与之一致的几何模型。然而,在人脸生成方面,这可能难以监督和收敛。

因此,DreamFace提出了一个基于CLIP(Contrastive Language-Image Pre-Training)的选择框架,首先从对人脸几何参数空间内随机采样的候选项中选择最佳的粗略几何模型,然后雕刻几何细节,使头部模型更符合文本提示。

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

根据输入提示,DreamFace利用CLIP模型选择匹配得分最高的粗略几何候选项。接下来,DreamFace使用隐式扩散模型(LDM)在随机视角和光照条件下对渲染图像进行得分蒸馏采样(SDS)处理。

这使得DreamFace可以通过顶点位移和详细的法线贴图向粗略几何模型添加面部细节,从而得到高度精细的几何体。

与头部模型类似,DreamFace还基于该框架进行发型和颜色的选择。

基于物理的材质扩散生成

基于物理的材质扩散模块旨在预测与预测几何体和文本提示一致的面部纹理。

首先,DreamFace将预先训练的LDM在收集的大规模UV材质数据集上微调,得到两个LDM扩散模型。

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

DreamFace采用了一种联合训练方案,协调两个扩散过程,一个用于直接去噪UV纹理贴图,另一个用于监督渲染图像,以确保面部UV贴图和渲染图像的正确形成与文本提示一致。

为了减少生成时间,DreamFace采用了一个粗糙纹理潜在扩散阶段,为细节纹理生成提供先验潜在。

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

为了确保所创建的纹理地图不含有不良特征或照明情况,同时仍保持多样性,设计了一种提示学习策略。

团队利用两种方法生成高质量的漫反射贴图:

(1)Prompt Tuning。与手工制作的特定领域文本提示不同,DreamFace将两个特定领域的连续文本提示 Cd 和 Cu 与相应的文本提示结合起来,这将在U-Net去噪器训练期间进行优化,以避免不稳定和耗时的手工撰写提示。

(2)非面部区域遮罩。LDM去噪过程将额外地受到非面部区域遮罩的限制,以确保生成的漫反射贴图不含有任何不需要的元素。

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

作为最后一步,DreamFace应用超分辨率模块生成4K基于物理的纹理,以进行高质量渲染。

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

DreamFace框架在名人生成,根据描述生成角色上都取得了相当不错的效果,在User Study中获得了远超先前工作的成绩。相比先前的工作,在运行时间上也具备明显的优势。

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

除此之外,DreamFace还支持使用提示和草图进行纹理编辑。通过直接使用微调的纹理LDM和提示,可以实现全局的编辑效果,如老化和化妆。通过进一步结合掩模或草图,可以创建各种效果,如纹身、胡须和胎记。

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

动画能力生成

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

DreamFace生成的模型具备动画能力。与基于BlendShapes的方法不同,DreamFace的神经面部动画方法通过预测独特的变形来为生成的静息(Neutral)模型赋予动画效果,从而产生个性化的动画。

首先,训练一个几何生成器,学习表情的潜在空间,其中解码器被扩展为以中性几何形状为条件。接着,进一步训练表情编码器,从RGB图像中提取表情特征。因此,DreamFace能够通过使用单目RGB图像以中性几何形状为条件来生成个性化的动画。

与使用通用BlendShapes进行表情控制的DECA相比,DreamFace的框架提供了细致的表情细节,并且能够精细地捕捉表演。

结论

本文介绍了DreamFace,一种文本指导的渐进式3D生成框架,它结合了最新的视觉-语言模型、隐式扩散模型,以及基于物理的材质扩散技术。

DreamFace的主要创新包括几何体生成、基于物理的材质扩散生成和动画能力生成。与传统的3D生成方法相比,DreamFace具有更高的准确性、更快的运行速度和较好的CG管线兼容性。

DreamFace的渐进式生成框架为解决复杂的3D生成任务提供了一种有效的解决方案,有望推动更多类似的研究和技术发展。

此外,基于物理的材质扩散生成和动画能力生成将推动3D生成技术在影视制作、游戏开发和其他相关行业的应用。

以上是上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
及时工程中的思想图是什么及时工程中的思想图是什么Apr 13, 2025 am 11:53 AM

介绍 在迅速的工程中,“思想图”是指使用图理论来构建和指导AI的推理过程的新方法。与通常涉及线性S的传统方法不同

优化您的组织与Genai代理商的电子邮件营销优化您的组织与Genai代理商的电子邮件营销Apr 13, 2025 am 11:44 AM

介绍 恭喜!您经营一家成功的业务。通过您的网页,社交媒体活动,网络研讨会,会议,免费资源和其他来源,您每天收集5000个电子邮件ID。下一个明显的步骤是

Apache Pinot实时应用程序性能监视Apache Pinot实时应用程序性能监视Apr 13, 2025 am 11:40 AM

介绍 在当今快节奏的软件开发环境中,确保最佳应用程序性能至关重要。监视实时指标,例如响应时间,错误率和资源利用率可以帮助MAIN

Chatgpt击中了10亿用户? Openai首席执行官说:'短短几周内翻了一番Chatgpt击中了10亿用户? Openai首席执行官说:'短短几周内翻了一番Apr 13, 2025 am 11:23 AM

“您有几个用户?”他扮演。 阿尔特曼回答说:“我认为我们上次说的是每周5亿个活跃者,而且它正在迅速增长。” “你告诉我,就像在短短几周内翻了一番,”安德森继续说道。 “我说那个私人

pixtral -12b:Mistral AI'第一个多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一个多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介绍 Mistral发布了其第一个多模式模型,即Pixtral-12b-2409。该模型建立在Mistral的120亿参数Nemo 12B之上。是什么设置了该模型?现在可以拍摄图像和Tex

生成AI应用的代理框架 - 分析Vidhya生成AI应用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想象一下,拥有一个由AI驱动的助手,不仅可以响应您的查询,还可以自主收集信息,执行任务甚至处理多种类型的数据(TEXT,图像和代码)。听起来有未来派?在这个a

生成AI在金融部门的应用生成AI在金融部门的应用Apr 13, 2025 am 11:12 AM

介绍 金融业是任何国家发展的基石,因为它通过促进有效的交易和信贷可用性来推动经济增长。交易的便利和信贷

在线学习和被动攻击算法指南在线学习和被动攻击算法指南Apr 13, 2025 am 11:09 AM

介绍 数据是从社交媒体,金融交易和电子商务平台等来源的前所未有的速度生成的。处理这种连续的信息流是一个挑战,但它提供了

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用