搜索
首页科技周边人工智能新技术Repaint123:高效地生成优质的单视图3D,仅需2分钟!

将一幅图像转换为3D的方法通常采用Score Distillation Sampling(SDS)的方法,尽管结果令人印象深刻,但仍然存在多个不足之处,包括多视角不一致、过度饱和、过度平滑的纹理,以及生成速度缓慢等问题。
为了解决这些问题,北京大学、新加坡国立大学、武汉大学等机构的研究人员提出了Repaint123,以减轻多视角偏差、纹理退化,并加速生成过程。

新技术Repaint123:高效地生成优质的单视图3D,仅需2分钟!

论文地址:https://arxiv.org/pdf/2312.13271.pdf

GitHub:https://github.com/PKU-YuanGroup/repaint123

项目地址:https://pku-yuangroup.github.io/repaint123/

核心思想是将2D扩散模型的生成图像能力与纹理对齐能力结合,以产生高质量多视角图像。

作者进一步提出了可见性感知的自适应再绘强度,以提升生成图像质量。

新技术Repaint123:高效地生成优质的单视图3D,仅需2分钟!

生成的高质量、多视角一致的图像使得可以使用简单的均方误差(MSE)损失进行快速的3D内容生成。

作者经实验证明,Repaint123能够在2分钟内生成高质量的3D内容,具有多视角一致性和精细纹理。

文章的主要贡献点如下:

1. Repaint123全面考虑了图像到3D生成的可控重绘过程,能够生成多视角一致的高质量图片序列。

2. Repaint123提出了一个简单的单视图3D生成的baseline,粗模阶段采用Zero123作为3D prior与SDS损失快速优化Gaussian Splatting几何(1分钟),细模阶段采用Stable Diffusion作为2D prior与MSE损失快速细化Mesh纹理(1分钟)。

3. 大量的实验验证了Repaint123方法的有效性,可以在短短2分钟内从单一图像中生成匹配2D生成的质量的3D内容。

新技术Repaint123:高效地生成优质的单视图3D,仅需2分钟!

图1:论文动机:快速、一致、高质量的单视角3D生成

具体方法:

Repaint123主要改进集中于mesh细化阶段,包含两个部分:多视角一致的高质量图像序列生成,快速高质量的3D重建。

在粗模阶段,作者采用3D Gaussian Splatting作为3D表征,通过SDS损失优化的粗模几何和纹理。

在细化阶段,作者将粗模模型转换为网格表示,并提出一种渐进的、可控的纹理细化重绘方案。

首先,作者通过几何控制和参考图像的指导逐步重新绘制相对于先前优化视图的不可见区域,从而获得新颖视图的视图一致性图像。

然后,作者采用图像提示进行无分类器指导,并设计自适应重绘策略,以进一步提高重叠区域的生成质量。

最后,通过生成视图一致的高质量图像,作者利用简单的MSE损失来快速生成3D内容。

多视角一致的高质量图像序列生成:

如图2所示,多视角一致的高质量图像序列生成分为以下四个部分:

新技术Repaint123:高效地生成优质的单视图3D,仅需2分钟!

图2:多视角一致的图像生成流程

DDIM Inversion

为了保存粗模阶段生成的3D一致的低频纹理信息,作者使用DDIM Inversion将图像反演到确定的latent, 为后续去噪生成忠实一致的图片做基础。

Controllable Denoising

为了控制几何一致与长程纹理一致,在去噪阶段作者使用ControlNet引入粗模渲染的深度图作为几何先验, 注入参考图的Attention特征进行纹理迁移。

同时,为了执行Classifier-free guidance提升图像质量,论文使用CLIP将参考图编码为image prompt提示去噪网络。

Obtain Occlusion Mask

为了从渲染出来的图像In和深度图­­Dn的新颖视图中获得遮挡掩码Mn,在给定Ir和Dr的重绘参考视图Vr条件下,作者首先通过使用深度Dr缩放来自Vr的2D像素点至3D点云,然后从新视角Vn渲染3D点云Pr,得到深度图Dn'。

作者认为两个新颖视图深度图(Dn和Dn')之间具有不同深度值的区域是遮挡掩码中的遮挡区域。

Progressively Repainting both Occlusions and Overlaps

为了保证图像序列重相邻图像的重叠区域像素级别对齐,作者使用了渐进式局部重绘的策略,在保持重叠区域不变的情况下生成和谐一致的临近区域,从参考视角依次类推到360°。

但是如图3所示,作者发现重叠区域同样需要进行细化,因为一个之前斜视的区域在正视时其可视分辨率变大,需要补充更多的高频信息。

为了选择合适的细化强度使得在提升质量的同时保证忠实度,作者借鉴投影定理与图像超分的思想,提出了一种简单直接的能见度可感知的重绘策略来细化重叠区域,另细化强度等于1-cosθ*(其中θ*为之前所有相机视角与所视表面法向量夹角的最大值),从而自适应地重绘重叠区域。

新技术Repaint123:高效地生成优质的单视图3D,仅需2分钟!

图3:相机视角与细化强度的关系

快速高质量的3D重建:

如图4所示,作者采用了两阶段方法,先使用Gaussian Splatting表示来快速生成合理的几何和粗糙的纹理,同时借助上述生成的多视角一致的高质量图像序列, 作者得以使用简单的MSE loss进行快速的3D纹理重建。

新技术Repaint123:高效地生成优质的单视图3D,仅需2分钟!

图4:Repaint123两阶段单视角3D生成框架

实验结果

作者比较了多个单视图生成任务方法,在RealFusion15和Test-alpha数据集上取得了一致性、质量、速度三方面最先进的效果。

单视图3D生成可视化比较

新技术Repaint123:高效地生成优质的单视图3D,仅需2分钟!

单视图3D生成定量比较

新技术Repaint123:高效地生成优质的单视图3D,仅需2分钟!

消融实验

同时,作者也对论文使用的每个模块的有效性以及视角转动增量进行了消融实验:

新技术Repaint123:高效地生成优质的单视图3D,仅需2分钟!

新技术Repaint123:高效地生成优质的单视图3D,仅需2分钟!

新技术Repaint123:高效地生成优质的单视图3D,仅需2分钟!

以上是新技术Repaint123:高效地生成优质的单视图3D,仅需2分钟!的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前By尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
4 周前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境