大數據摘要出品
作者:Caleb
#最近,ChatGPT可以說是火得不要不要的。
11月30日,OpenAI發布聊天機器人ChatGPT,並免費向公眾開放進行測試以來,在國內已經被玩出了花。
#與機器人對話,就是讓機器人去執行某個指令,比如說輸入關鍵字讓AI生成對應的畫面。
這好像也不是什麼稀奇的事了,OpenAI在4月不是還更新了DALL-E的新版本嗎?
OpenAI,how old are you? (怎麼老是你?)
要是文摘菌說生成的是3D畫面,還是HDR全景圖那種,或是基於VR的圖像內容呢?
最近,新加坡南洋理工大學的研究團隊就提出了這麼一個AI,只要使用者用文字輸入一個描述得很清晰的場景,系統就能產生逼真的3D場景。
先來看看效果如何,例如輸入「白天湖上的棕色木碼頭被綠樹環繞」時,系統就給出了這樣的答案,這光線和細節效果直接拉滿。
#該研究已以Text2Light: Zero-Shot Text-Driven HDR Panorama Generation為題進行了發表。
論文連結:https://arxiv.org/abs/2209.09898
高品質的HDRI(高動態範圍影像),也就是HDR全景圖,是目前創建逼真的360度3D場景的熱門方法。
考慮到捕捉HDRIs的難度,雖然現在有不少可利用AI產生3D場景的技術,但基本上都需要進行一連串的參數設定,或是透過大量資料進行深度學習。
於是,研究人員提出了一個零拍攝文字驅動框架,即Text2Light,以產生4K 解析度的HDRIs,並且整個過程不需要相應的訓練資料。
產生HDRIs的過程可以分成兩個步驟。
第一步,基於雙程式碼本的離散表示法將輸入文字翻譯成LDR全景圖。輸入文字首先被預先訓練的CLIP模型映射到文字嵌入;其次,一個文字條件的全局採樣器學習根據輸入文字從全局編碼簿中採樣整體語義;然後,一個結構感知的局部採樣器合成局部補丁,並進行合成。
第二步,根據結構化的潛伏編碼作為連續表示,將第一階段的LDR結果升級。研究人員提出的超級解析度反色調映射運算器(SR-iTMO)能夠同時提高全景圖的空間解析度和動態範圍。
#如此一來,在無須進行訓練之下就能產生具有4K分辨率的HDRIs,這也是迄今為止最先進的圖像生成模型,清除了從LDR到HDR轉換的不穩定性,並創建了一對全景圖和文字供學習。
不過,目前此項技術仍處於早期研究階段,僅能產生低解析度的360度環景影像內容,但研究團隊計畫在未來,對現階段技術所產生環景影像進行升級,同時加入HDR影像強化效果,讓產生的3D影像或VR場景的觀看度更加流暢、更具吸引力。
#接下來,我們就來看看一些操作過程。
先下載好checkpoints,注意團隊分別發布了室外(local sampler outdoor)和室內(local sampler indoor)場景的模型。
從一個句子產生HDR全景圖:
#
python text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text "YOUR SCENE DESCRIPTION" --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4
從系列文字描述中產生HDR全景圖:
#
# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4
產生低解析度(512x1024)LDR全景圖:
# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy############## ##以此產生的HDR全景圖可以直接在任何現代圖形使用。以在三維電腦圖形軟體Blender進行對舊金山景觀進行渲染為例,當輸入landscape photography of mountain ranges under purple and pink skies後,我們會得到這樣的圖像:#########
为了便于批处理,例如使用多个hdri进行渲染,在命令行中也可以提供渲染3D的脚本。
解包,检查检查Blender的使用情况:
# assume your downloaded version is 3.1.2tar -xzvf blender-3.1.2-linux-x64.tar.xzcd blender-3.1.2-linux-x64./blender --help
添加别名:
# PATH_TO_DOWNLOADED_BLENDER indicates the parent directory where you save the downloaded blenderalias blender="/PATH_TO_DOWNLOADED_BLENDER/blender-3.1.2-linux-x64/blender"
然后回到Text2Light代码库,为不同的呈现设置运行以下命令:
blender --background --python rendering_shader_ball.py -- ./rendered_balls 100 1000 PATH_TO_HDRI
就能得到这样的结果:
该项目也在GitHub上开源了:
GitHub链接:https://github.com/FrozenBurning/Text2Light
这个项目也得到了不少网友的好评。有网友就感叹到,“人类的想象力是没有边界的”,照这个趋势来看我们距离“输入文字就能3D打印出一个真实物体”的时代也不远了。
也有网友表示,当试图输入“一个四层半的榻榻米房间,房间内有推拉门、拉门、餐桌、14寸黑白电视、黑色电话机”,仍然会担心AI能否比较准确地再现这种场景。毕竟在想象中,“这应该是一个有异国情调的房间”。
对这个速成HDR全景图的AI,大家有什么看法呢?也欢迎小伙伴们在评论区分享自己的使用心得~
相关报道:https://www.itmedia.co.jp/news/articles/2210/11/news036.html
以上是兩句話,讓AI生成VR場景!還是3D、HDR全景圖的那種的詳細內容。更多資訊請關注PHP中文網其他相關文章!