两句话，让AI生成VR场景！还是3D、HDR全景图的那种-人工智能-PHP中文网

首页

科技周边

人工智能

两句话，让AI生成VR场景！还是3D、HDR全景图的那种

王林

Apr 12, 2023 am 09:46 AM

vrai场景

大数据文摘出品

作者：Caleb

最近，ChatGPT可以说是火得不要不要的。

11月30日，OpenAI发布聊天机器人ChatGPT，并免费向公众开放进行测试以来，在国内已经被玩出了花。

和机器人对话，就是让机器人去执行某个指令，比如说输入关键字让AI生成相应的画面。

这好像也不是什么稀奇的事了，OpenAI在4月不是还更新了DALL-E的新版本吗？

OpenAI，how old are you？（怎么老是你？）

要是文摘菌说生成的是3D画面，还是HDR全景图那种，或者是基于VR的图像内容呢？

最近，新加坡南洋理工大学的研究团队就提出了这么一个AI，只要用户用文字输入一个描述得很清晰的场景，系统就能生成逼真的3D场景。

先来看看效果如何，比如输入“白天湖上的棕色木码头被绿树环绕”时，系统就给出了这样的答案，这光线和细节效果直接拉满。

该研究已经以Text2Light: Zero-Shot Text-Driven HDR Panorama Generation为题进行了发表。

论文链接：https://arxiv.org/abs/2209.09898

无需训练，即可生成3D的HDRIs

高质量的HDRI（高动态范围图像），也就是HDR全景图，是目前创建逼真的360度3D场景的热门方法。

考虑到捕捉HDRIs的难度，虽然现在有不少可利用AI生成3D场景的技术，但基本都需要进行一连串的参数设定，或是通过大量数据进行深度学习。

于是，研究人员提出了一个零拍摄文本驱动框架，即Text2Light，以生成4K+分辨率的HDRIs，并且整个过程不需要相应的训练数据。

生成HDRIs的过程可以分为两步。

第一步，基于双代码本的离散表示法将输入文本翻译成LDR全景图。输入文本首先被预训练的CLIP模型映射到文本嵌入；其次，一个文本条件的全局采样器学习根据输入文本从全局编码簿中采样整体语义；然后，一个结构感知的局部采样器合成局部补丁，并进行合成。

第二步，根据结构化的潜伏编码作为连续表示，对第一阶段的LDR结果进行升级。研究人员提出的超级分辨率反色调映射运算器（SR-iTMO）能够同时提高全景图的空间分辨率和动态范围。

如此一来，在无需进行训练之下就能生成具有4K分辨率的HDRIs，这也是迄今为止最先进的图像生成模型，清除了从LDR到HDR转换的不稳定性，并创建了一对全景图和文本供学习。

不过，目前此项技术仍处于早期研究阶段，仅能产生低解析度的360度环景图像内容，但研究团队计划在未来，对现阶段技术所产生环景图像进行升级，同时加入HDR影像强化效果，让生成的3D图像或VR场景的观看度更加流畅和有吸引力。

用文本驱动生成HDRI

接下来，我们就来看看一些操作过程。

先下载好checkpoints，注意团队分别发布了室外（local sampler outdoor）和室内（local sampler indoor）场景的模型。

从一个句子生成HDR全景图：

python text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text "YOUR SCENE DESCRIPTION" --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4

从系列文本描述中生成HDR全景图：

# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4

生成低分辨率（512x1024）LDR全景图：

# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy

以此生成的HDR全景图可以直接在任何现代图形使用。以在三维计算机图形软件Blender进行对旧金山景观进行渲染为例，当输入landscape photography of mountain ranges under purple and pink skies后，我们会得到这样的图像：

为了便于批处理，例如使用多个hdri进行渲染，在命令行中也可以提供渲染3D的脚本。

解包，检查检查Blender的使用情况：

# assume your downloaded version is 3.1.2tar -xzvf blender-3.1.2-linux-x64.tar.xzcd blender-3.1.2-linux-x64./blender --help

添加别名：

# PATH_TO_DOWNLOADED_BLENDER indicates the parent directory where you save the downloaded blenderalias blender="/PATH_TO_DOWNLOADED_BLENDER/blender-3.1.2-linux-x64/blender"

然后回到Text2Light代码库，为不同的呈现设置运行以下命令：

blender --background --python rendering_shader_ball.py -- ./rendered_balls 100 1000 PATH_TO_HDRI

就能得到这样的结果：

该项目也在GitHub上开源了：

GitHub链接：https://github.com/FrozenBurning/Text2Light

这个项目也得到了不少网友的好评。有网友就感叹到，“人类的想象力是没有边界的”，照这个趋势来看我们距离“输入文字就能3D打印出一个真实物体”的时代也不远了。

也有网友表示，当试图输入“一个四层半的榻榻米房间，房间内有推拉门、拉门、餐桌、14寸黑白电视、黑色电话机”，仍然会担心AI能否比较准确地再现这种场景。毕竟在想象中，“这应该是一个有异国情调的房间”。

对这个速成HDR全景图的AI，大家有什么看法呢？也欢迎小伙伴们在评论区分享自己的使用心得~

相关报道：https://www.itmedia.co.jp/news/articles/2210/11/news036.html

以上是两句话，让AI生成VR场景！还是3D、HDR全景图的那种的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

Gemma范围：Google＆＃039;用于凝视AI的显微镜Apr 17, 2025 am 11:55 AM

使用Gemma范围探索语言模型的内部工作了解AI语言模型的复杂性是一个重大挑战。 Google发布的Gemma Scope是一种综合工具包，为研究人员提供了一种强大的探索方式

谁是商业智能分析师以及如何成为一位？Apr 17, 2025 am 11:44 AM

解锁业务成功：成为商业智能分析师的指南想象一下，将原始数据转换为驱动组织增长的可行见解。这是商业智能（BI）分析师的力量 - 在GU中的关键作用

如何在SQL中添加列？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQL的Alter表语句：动态地将列添加到数据库在数据管理中，SQL的适应性至关重要。需要即时调整数据库结构吗？ Alter表语句是您的解决方案。本指南的详细信息添加了Colu

业务分析师与数据分析师Apr 17, 2025 am 11:38 AM

介绍想象一个繁华的办公室，两名专业人员在一个关键项目中合作。业务分析师专注于公司的目标，确定改进领域，并确保与市场趋势保持战略一致。 simu

什么是Excel中的Count和Counta？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excel 数据计数与分析：COUNT 和 COUNTA 函数详解精确的数据计数和分析在 Excel 中至关重要，尤其是在处理大型数据集时。Excel 提供了多种函数来实现此目的，其中 COUNT 和 COUNTA 函数是用于在不同条件下统计单元格数量的关键工具。虽然这两个函数都用于计数单元格，但它们的设计目标却针对不同的数据类型。让我们深入了解 COUNT 和 COUNTA 函数的具体细节，突出它们独特的特性和区别，并学习如何在数据分析中应用它们。要点概述理解 COUNT 和 COU