Heim >Technologie-Peripheriegeräte >KI >In zwei Sätzen: Lassen Sie die KI VR-Szenen generieren! Oder eine Art 3D- oder HDR-Panorama?
Produziert von Big Data Digest
Autor: Caleb
In letzter Zeit kann man sagen, dass ChatGPT äußerst beliebt ist.
Am 30. November veröffentlichte OpenAI den Chat-Roboter ChatGPT und stellte ihn der Öffentlichkeit kostenlos zum Testen zur Verfügung. Seitdem erfreut er sich in China großer Beliebtheit.
Mit dem Roboter zu sprechen bedeutet, den Roboter aufzufordern, eine bestimmte Anweisung auszuführen, beispielsweise ein Schlüsselwort einzugeben und die KI das entsprechende Bild generieren zu lassen.
Das scheint nichts Ungewöhnliches zu sein. Hat OpenAI im April nicht auch eine neue Version von DALL-E aktualisiert?
OpenAI, wie alt bist du? (Warum sind es immer Sie?)
Was passiert, wenn Digest sagt, dass es sich bei den generierten Bildern um 3D-Bilder, HDR-Panoramen oder VR-basierte Bildinhalte handelt?
Kürzlich hat ein Forschungsteam der Nanyang Technological University in Singapur eine solche KI vorgeschlagen. Solange der Benutzer eine klar beschriebene Szene im Text eingibt, kann das System eine realistische 3D-Szene generieren.
Schauen wir uns zunächst den Effekt an. Wenn Sie beispielsweise „einen braunen Holzsteg am See umgeben von grünen Bäumen“ betreten, gibt das System eine Antwort wie diese direkt voll.
Die Forschung wurde unter dem Titel Text2Light: Zero-Shot Text-Driven HDR Panorama Generation veröffentlicht.
Link zum Papier: https://arxiv.org/abs/2209.09898
Hochwertige HDRI (High Dynamic Range Images), auch bekannt als HDR-Panorama ist derzeit eine beliebte Methode zur Erstellung realistischer 360-Grad-3D-Szenen.
Angesichts der Schwierigkeit, HDRIs zu erfassen, gibt es zwar viele Technologien, die KI zur Generierung von 3D-Szenen nutzen können, diese erfordern jedoch grundsätzlich eine Reihe von Parametereinstellungen oder Deep Learning durch große Datenmengen.
Daher schlugen die Forscher ein textgesteuertes Zero-Shot-Framework vor, nämlich Text2Light, um HDRIs mit einer Auflösung von 4K+ zu generieren, und für den gesamten Prozess sind keine entsprechenden Trainingsdaten erforderlich.
Der Prozess der HDRI-Erstellung kann in zwei Schritte unterteilt werden.
Im ersten Schritt wird der Eingabetext in ein LDR-Panorama übersetzt, das auf der diskreten Darstellung des dualen Codebuchs basiert. Der Eingabetext wird zunächst durch ein vorab trainiertes CLIP-Modell auf Texteinbettungen abgebildet. Anschließend lernt ein textbedingter globaler Sampler, die Gesamtsemantik aus dem globalen Codebuch entsprechend dem Eingabetext abzutasten lokale Patches und erstellen Sie eine Synthese.
Der zweite Schritt besteht darin, die LDR-Ergebnisse der ersten Stufe entsprechend der strukturierten latenten Kodierung als kontinuierliche Darstellung zu aktualisieren. Der von den Forschern vorgeschlagene Super-Resolution Inverse Tone Mapping Operator (SR-iTMO) kann gleichzeitig die räumliche Auflösung und den Dynamikbereich des Panoramas verbessern.
Dadurch können HDRIs mit 4K-Auflösung ohne Schulung generiert werden, wodurch das Problem der Konvertierung von LDR in HDR beseitigt wird erstellte ein Paar Panoramen und Texte zum Studium.
Diese Technologie befindet sich jedoch noch im frühen Forschungsstadium und kann nur 360-Grad-Panoramabildinhalte mit niedriger Auflösung erzeugen. Das Forschungsteam plant jedoch, das mit der aktuellen Technologie erzeugte Panoramabild in Zukunft zu verbessern. Fügen Sie HDR-Bildverbesserungseffekte hinzu, um die erzeugten 3D-Bilder oder VR-Szenen flüssiger und ansprechender zu gestalten.
Als nächstes werfen wir einen Blick auf einige Betriebsprozesse.
Laden Sie zuerst die Kontrollpunkte herunter und beachten Sie, dass das Team Modelle für Außenszenen (lokaler Sampler im Freien) bzw. Innenszenen (lokaler Sampler im Innenbereich) veröffentlicht hat.
Erzeugen Sie ein HDR-Panorama aus einem Satz:
python text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text "YOUR SCENE DESCRIPTION" --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4
Erzeugen Sie ein HDR-Panorama aus einer Serientextbeschreibung:
# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4
Niedrige Auflösung generieren ( 512x1024) LDR-Panorama:
# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy
Das resultierende HDR-Panorama kann direkt in jeder modernen Grafik verwendet werden. Nehmen wir als Beispiel die Darstellung der Landschaft von San Francisco in der dreidimensionalen Computergrafiksoftware Blender. Wenn wir Landschaftsfotografien von Bergketten unter violettem und rosa Himmel eingeben, erhalten wir ein Bild wie dieses:
为了便于批处理,例如使用多个hdri进行渲染,在命令行中也可以提供渲染3D的脚本。
解包,检查检查Blender的使用情况:
# assume your downloaded version is 3.1.2tar -xzvf blender-3.1.2-linux-x64.tar.xzcd blender-3.1.2-linux-x64./blender --help
添加别名:
# PATH_TO_DOWNLOADED_BLENDER indicates the parent directory where you save the downloaded blenderalias blender="/PATH_TO_DOWNLOADED_BLENDER/blender-3.1.2-linux-x64/blender"
然后回到Text2Light代码库,为不同的呈现设置运行以下命令:
blender --background --python rendering_shader_ball.py -- ./rendered_balls 100 1000 PATH_TO_HDRI
就能得到这样的结果:
该项目也在GitHub上开源了:
GitHub链接:https://github.com/FrozenBurning/Text2Light
这个项目也得到了不少网友的好评。有网友就感叹到,“人类的想象力是没有边界的”,照这个趋势来看我们距离“输入文字就能3D打印出一个真实物体”的时代也不远了。
也有网友表示,当试图输入“一个四层半的榻榻米房间,房间内有推拉门、拉门、餐桌、14寸黑白电视、黑色电话机”,仍然会担心AI能否比较准确地再现这种场景。毕竟在想象中,“这应该是一个有异国情调的房间”。
对这个速成HDR全景图的AI,大家有什么看法呢?也欢迎小伙伴们在评论区分享自己的使用心得~
相关报道:https://www.itmedia.co.jp/news/articles/2210/11/news036.html
Das obige ist der detaillierte Inhalt vonIn zwei Sätzen: Lassen Sie die KI VR-Szenen generieren! Oder eine Art 3D- oder HDR-Panorama?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!