MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质-人工智能-PHP中文网

首页

科技周边

人工智能

MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

王林

Oct 04, 2023 pm 12:17 PM

图片ai

逼真的图像生成在虚拟现实、增强现实、视频游戏和电影制作等领域有广泛应用。

随着近两年来扩散模型的快速发展，图像生成领域取得了重大突破。从Stable Diffusion衍生出的一系列根据文本描述生成图像的开源或商业模型，已经对设计、游戏等领域产生了巨大的影响

然而，如何根据给定的文本或其他条件，产生高质量的多视角图像仍然是一个挑战。已有的方法在多视图一致性方面存在明显的缺陷

目前常见的方法可以大致分为两类

第一类方法致力于生成一个场景的图片以及深度图，并得到对应的mesh，如Text2Room，SceneScape——首先用Stable Diffusion生成第一张图片，然后使用图像扭转（Image Warping）和图像补全（image inpainting）的自回归方式生成后续的图片以及深度图。

但是，这样的方案容易导致错误在多张图片的生成过程中逐渐累积，并且通常存在闭环问题（比如在相机旋转一圈回到起始位置附近时，生成的内容与第一张图片并不完全一致），导致其在场景规模较大或图片间视角变化较大时的效果欠佳。

第二类方法通过扩展扩散模型的生成算法，同时生成多张图片，以产生比单张图片更丰富的内容（例如生成360度全景图，或将一张图片的内容向两侧无限外推），例如MultiDiffusion和DiffCollage。然而，由于没有考虑相机模型，这类方法生成的结果并不是真正的全景图

MVDiffusion的目标是生成符合给定相机模型的多视角图片，这些图片在内容上严格一致且具有全局语义统一。该方法的核心思想是同时去噪和学习图片之间的对应关系以保持一致性

MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

请点击以下链接查看论文：https://arxiv.org/abs/2307.01097

请访问项目网站：https://mvdiffusion.github.io/

Demo: https://huggingface.co/spaces/tangshitao/MVDiffusion

代码：https://github.com/Tangshitao/MVDiffusion

会议发表：NeurIPS（重点）

MVDiffusion的目标是通过同步去噪和基于图片之间对应关系的全局意识，产生内容高度一致且全局语义统一的多视角图片

具体地，研究人员对已有的文本-图片扩散模型（如Stable Diffusion）进行拓展，首先让其并行地处理多张图片，并进一步在原本的UNet中加入额外的「Correspondence-aware Attention」机制来学习多视角间的一致性和全局的统一性。

通过在少量的多视角图片训练数据上进行微调，最后得到的模型能够同步生成内容高度一致的多视角图片。

MVDiffusion在三个不同的应用场景中已经取得了很好的效果：

根据文字生成多视图，然后拼接以获得全景图

2. 将透视图像外推（outpainting）得到完整的360度全景图；

3. 为场景生成材质（texture）。

应用场景展示

应用1：全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用（根据文字）

以生成全景图为例，输入一段描述场景的文字，MVDIffusion可以生成一个场景的多视角图片

输入以下内容可以获得8张多视角图片：“这个厨房是乡村与现代的迷人融合，拥有一个大型的回收木岛台带有大理石台面，一个被橱柜环绕的水槽。岛台的左边是一台高大的不锈钢冰箱。水槽的右边是涂有柔和色彩的内置木制橱柜。”

MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

这8张图片能够拼接成一张全景图：

MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

MVDiffusion也支持为每张图片提供不同的文字描述，但是这些描述之间需要保持语义上的一致性。

应用2：全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用（根据一张透视图像）

MVDiffusion能够将一张透视图像外推（outpainting）成完整的360度全景图。

举个例子，假设我们输入下面这张透视图：

MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

MVDiffusion能进一步生成下面的全景图：

MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

可以看到，生成的全景图在语义上对输入图片进行了扩展，而且最左和最右的内容是相连的（没有闭环问题）。

应用3：生成场景材质

使用MVDiffusion可以为给定的无材质场景网格生成材质（纹理）

具体地，我们首先通过渲染mesh得到多视角的深度图（depth map），通过相机位姿(pose)以及深度图，我们可以获得多视角图片的像素之间的对应关系。

接着，MVDiffusion以多视角depth map作为条件，同步生成一致的多视角RGB图片。

因为生成的多视角图片能保持内容的高度一致，将它们再投回mesh，即可以得到高质量的带材质的mesh（textured mesh）。

MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

以下是更多的效果示例：

全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用

MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

在这个应用场景中，需要特别提到的是，虽然在训练MVDiffusion时使用的多视角图片数据都来自于室内场景的全景图，而且风格都是单一的

然而，MVDiffusion并没有改变原始的稳定扩散参数，而只是对新加入的Correspondence-aware Attention进行了训练

最后，模型依然能根据给定的文本产生各种不同风格的多视角图片（如室外，卡通等）。

需要进行改写的内容是：单视图外推

MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

场景材质生成

MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

我们将首先介绍MVDiffusion在三个不同任务中的具体图片生成流程，最后再介绍方法的核心部分，即「Correspondence-aware Attention」模块。图1展示了MVDiffusion的概览

1. 全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用（根据文字）

MVDiffusion同步生成8张带有重叠的图片（perspective image），然后再将这8中图片缝合（stitch）成全景图。在这8张透视图中，每两张图之间由一个3x3单应矩阵（homographic matrix）确定其像素对应关系。

在具体的生成过程中，MVDiffusion首先使用高斯随机初始化来生成8个视角的图片

然后，将这8张图片输入到一个具有多分支的Stable Diffusion预训练Unet网络中，进行同步去噪（denoising）得到生成结果。

其中UNet网络中加入了新的「Correspondence-aware Attention」模块（上图中淡蓝色部分），用于学习跨视角之间的几何一致性，使得这8张图片可以被拼接成一张一致的全景图。

2. 全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用（根据一张透视图片）

MVDiffusion也可以将单张透视图补全成全景图。与全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用相同，MVDiffusion将随机初始化的8个视角图片（包括透视图对应的视角）输入到多分支的Stable Diffusion Inpainting预训练的UNet网络中。

在Stable Diffusion Inpainting模型中，与之不同的是，UNet通过使用额外的输入掩码（mask）来区分作为条件的图片和将要生成的图片

透视图对应的视角，掩码设为1，该分支的UNet将直接恢复透视图。而其他视角，掩码设为0，对应分支的UNet将生成新的透视图

同样地，MVDiffusion使用「Correspondence-aware Attention」模块来学习生成图片与条件图片之间的几何一致性与语义统一性。

3. 场景材质生成

MVDiffusion首先基于深度图以及相机位姿生成一条轨迹上的RGB图片，然后使用TSDF fusion将生成的RGB图片与给定的深度图合成mesh。

RGB图片的像素对应关系可以通过深度图和相机位姿得到。

与全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用一样，我们使用多分支UNet，并插入「Correspondence-aware Attention」来学习跨视角之间的几何一致性。

4. Correspondence-aware Attention机制

「Correspondence-aware Attention」（CAA），是MVDiffusion的核心，用于学习多视图之间的几何一致性和语义统一性。

MVDiffusion在Stable Diffusion UNet中的每个UNet block之后插入「Correspondence-aware Attention」block。CAA通过考虑源特征图和N个目标特征图来工作。

对于源特征图中的一个位置，我们基于目标特征图中的对应像素及其邻域来计算注意力输出。

MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

具体来说，对于每个目标像素t^l，MVDiffusion会通过在(x/y)坐标上添加整数位移(dx/dy)来考虑一个K x K的邻域，其中|dx|表示在x方向上的位移大小，|dy|表示在y方向上的位移大小

在实际应用中，MVDiffusion算法使用K=3，并选择9点邻域来提高全景图的质量。然而，在生成受几何条件限制的多视图图像时，为了提高运行效率，选择使用K=1

MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

CAA模块的计算遵循标准的注意力机制，如上图的公式所示，其中W_Q、W_K和W_V是query、key和value矩阵的可学习权重；目标特征不位于整数位置，而是通过双线性插值获得的。

关键的区别是基于源图像中的对应位置s^l与s之间的2D位移（全景）或1D深度误差（几何）向目标特征添加了位置编码。

在全景生成中（应用1和应用2），这个位移提供了本地邻域中的相对位置。

而在深度到图像生成中（应用3），视差提供了关于深度不连续或遮挡的线索，这对于高保真图像生成非常重要。

请注意，位移是一个包含2D（位移）或1D（深度误差）向量的概念。MVDiffusion将标准频率编码应用于位移的x和y坐标

以上是MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

无法使用chatgpt！解释可以立即测试的原因和解决方案[最新2025]May 14, 2025 am 05:04 AM

ChatGPT无法访问？本文提供多种实用解决方案！许多用户在日常使用ChatGPT时，可能会遇到无法访问或响应缓慢等问题。本文将根据不同情况，逐步指导您解决这些问题。 ChatGPT无法访问的原因及初步排查首先，我们需要确定问题是出在OpenAI服务器端，还是用户自身网络或设备问题。请按照以下步骤进行排查：步骤1：检查OpenAI官方状态访问OpenAI Status页面 (status.openai.com)，查看ChatGPT服务是否正常运行。如果显示红色或黄色警报，则表示Open

计算ASI的风险始于人类的思想May 14, 2025 am 05:02 AM

2025年5月10日，麻省理工学院物理学家Max Tegmark告诉《卫报》，AI实验室应在释放人工超级智能之前模仿Oppenheimer的三位一体测试演算。 “我的评估是'康普顿常数'，这是一场比赛的可能性

AI音乐创作技术日新月异，本文将以ChatGPT等AI模型为例，详细讲解如何利用AI辅助音乐创作，并辅以实际案例进行说明。我们将分别介绍如何通过SunoAI、Hugging Face上的AI jukebox以及Python的Music21库进行音乐创作。通过这些技术，每个人都能轻松创作原创音乐。但需注意，AI生成内容的版权问题不容忽视，使用时务必谨慎。让我们一起探索AI在音乐领域的无限可能！ OpenAI最新AI代理“OpenAI Deep Research”介绍： [ChatGPT]Ope

什么是chatgpt-4？对您可以做什么，定价以及与GPT-3.5的差异的详尽解释！May 14, 2025 am 05:00 AM

ChatGPT-4的出现，极大地拓展了AI应用的可能性。相较于GPT-3.5，ChatGPT-4有了显着提升，它具备强大的语境理解能力，还能识别和生成图像，堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域，它都展现出巨大的潜力。然而，与此同时，我们也必须注意其使用上的注意事项。本文将详细解读ChatGPT-4的特性，并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧，敬请参考。 OpenAI发布的最新AI代理，“OpenAI Deep Research”详情请点击下方链

解释如何使用chatgpt应用程序！日本支持和语音对话功能May 14, 2025 am 04:59 AM

CHATGPT应用程序：与AI助手释放您的创造力！初学者指南 ChatGpt应用程序是一位创新的AI助手，可处理各种任务，包括写作，翻译和答案。它是一种具有无限可能性的工具，可用于创意活动和信息收集。在本文中，我们将以一种易于理解的方式解释初学者，从如何安装chatgpt智能手机应用程序到语音输入功能和插件等应用程序所独有的功能，以及在使用该应用时要牢记的要点。我们还将仔细研究插件限制和设备对设备配置同步

如何使用中文版Chatgpt？注册程序和费用的说明May 14, 2025 am 04:56 AM

ChatGPT中文版：解锁中文AI对话新体验 ChatGPT风靡全球，您知道它也提供中文版本吗？这款强大的AI工具不仅支持日常对话，还能处理专业内容，并兼容简体中文和繁体中文。无论是中国地区的使用者，还是正在学习中文的朋友，都能从中受益。本文将详细介绍ChatGPT中文版的使用方法，包括账户设置、中文提示词输入、过滤器的使用、以及不同套餐的选择，并分析潜在风险及应对策略。此外，我们还将对比ChatGPT中文版和其他中文AI工具，帮助您更好地了解其优势和应用场景。 OpenAI最新发布的AI智能

5 AI代理神话，您需要停止相信May 14, 2025 am 04:54 AM

这些可以将其视为生成AI领域的下一个飞跃，这为我们提供了Chatgpt和其他大型语言模型聊天机器人。他们可以代表我们采取行动，而不是简单地回答问题或产生信息

易于理解使用Chatgpt创建和管理多个帐户的非法性的解释May 14, 2025 am 04:50 AM

使用chatgpt有效的多个帐户管理技术|关于如何使用商业和私人生活的详尽解释！ Chatgpt在各种情况下都使用，但是有些人可能担心管理多个帐户。本文将详细解释如何为ChatGpt创建多个帐户，使用时该怎么做以及如何安全有效地操作它。我们还介绍了重要的一点，例如业务和私人使用差异，并遵守OpenAI的使用条款，并提供指南，以帮助您安全地利用多个帐户。 Openai

See all articles