제작: 빅데이터 다이제스트
작성자: Caleb
최근에는 ChatGPT가 엄청난 인기를 끌고 있다고 할 수 있습니다.
OpenAI는 11월 30일 챗봇 ChatGPT를 출시하고 테스트를 위해 대중에게 무료로 공개한 이후 중국에서 인기를 끌었습니다.
로봇과 대화한다는 것은 키워드를 입력하고 AI가 해당 그림을 생성하게 하는 등 특정 명령을 로봇에게 실행하도록 요청하는 것을 의미합니다.
이것은 특별한 일이 아닌 것 같습니다. OpenAI도 4월에 DALL-E의 새 버전을 업데이트하지 않았나요?
OpenAI, 당신은 몇 살인가요? (왜 맨날 너야?)
다이제스트에서 생성된 이미지가 3D 이미지, HDR 파노라마, VR 기반 이미지 콘텐츠라고 하면 어떨까요?
최근 싱가포르 난양기술대학교 연구팀이 이러한 AI를 제안했습니다. 사용자가 텍스트로 명확하게 설명된 장면을 입력하면 시스템이 사실적인 3D 장면을 생성할 수 있습니다.
먼저 효과를 살펴보겠습니다. 예를 들어 "낮에는 푸른 나무로 둘러싸인 호수 위의 갈색 목조 부두"를 입력하면 시스템이 다음과 같이 대답합니다. 직접 가득 찼습니다.
이 연구는 Text2Light: Zero-Shot Text-Driven HDR Panorama Generation이라는 제목으로 출판되었습니다.
문서 링크: https://arxiv.org/abs/2209.09898
고품질 HDRI(High Dynamic Range Images)라고도 함 HDR 파노라마는 현재 사실적인 360도 3D 장면을 만드는 데 널리 사용되는 방법입니다.
HDRI 캡처의 어려움을 고려하면 AI를 활용해 3D 장면을 생성할 수 있는 기술은 많지만, 기본적으로 일련의 매개변수 설정이나 대량의 데이터를 통한 딥러닝이 필요합니다.
그래서 연구원들은 4K+ 해상도 HDRI를 생성하기 위해 Text2Light라는 제로샷 텍스트 기반 프레임워크를 제안했으며 전체 프로세스에는 해당 교육 데이터가 필요하지 않습니다.
HDRI 생성 프로세스는 두 단계로 나눌 수 있습니다.
첫 번째 단계에서는 입력 텍스트가 이중 코드북의 이산적 표현을 기반으로 LDR 파노라마로 변환됩니다. 입력 텍스트는 먼저 미리 훈련된 CLIP 모델에 의해 텍스트 임베딩에 매핑됩니다. 두 번째로 텍스트 조건부 글로벌 샘플러는 입력 텍스트에 따라 글로벌 코드북에서 전체 의미를 샘플링하는 방법을 학습한 다음 구조 인식 로컬 샘플러를 합성합니다. 로컬 패치 및 합성을 수행합니다.
두 번째 단계는 연속 표현으로 구조화된 잠재 인코딩에 따라 첫 번째 단계의 LDR 결과를 업그레이드하는 것입니다. 연구진이 제안한 초해상도 역톤 매핑 연산자(SR-iTMO)는 파노라마의 공간 해상도와 다이내믹 레인지를 동시에 향상시킬 수 있다.
이러한 방식으로 교육 없이도 4K 해상도의 HDRI를 생성할 수 있으며 이는 LDR에서 HDR로 변환하는 문제를 해결하는 가장 진보된 이미지 생성 모델이기도 합니다. 연구용으로 한 쌍의 파노라마와 텍스트를 만들었습니다.
그러나 이 기술은 아직 초기 연구 단계로 저해상도 360도 파노라마 이미지 콘텐츠만 제작할 수 있습니다. 그러나 연구팀은 향후 현 단계 기술로 생성되는 파노라마 이미지를 업그레이드할 계획입니다. 생성된 3D 이미지 또는 VR 장면을 더욱 부드럽고 매력적으로 만들기 위해 HDR 이미지 향상 효과를 추가합니다.
다음으로 몇 가지 작업 프로세스를 살펴보겠습니다.
체크포인트를 먼저 다운로드하시고, 팀에서 실외(로컬 샘플러 실외) 장면과 실내(로컬 샘플러 실내) 장면에 대한 모델을 각각 출시했다는 점 참고하세요.
문장에서 HDR 파노라마 생성:
python text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text "YOUR SCENE DESCRIPTION" --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4
시리즈 텍스트 설명에서 HDR 파노라마 생성:
# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4
저해상도 생성( 512x1024) LDR 파노라마:
# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy
결과 HDR 파노라마는 모든 최신 그래픽에서 직접 사용할 수 있습니다. 3차원 컴퓨터 그래픽 소프트웨어 Blender에서 샌프란시스코 풍경을 렌더링하는 경우를 예로 들어 보겠습니다. 보라색과 분홍색 하늘 아래 산맥의 풍경 사진을 입력하면 다음과 같은 이미지가 생성됩니다.
为了便于批处理,例如使用多个hdri进行渲染,在命令行中也可以提供渲染3D的脚本。
解包,检查检查Blender的使用情况:
# assume your downloaded version is 3.1.2tar -xzvf blender-3.1.2-linux-x64.tar.xzcd blender-3.1.2-linux-x64./blender --help
添加别名:
# PATH_TO_DOWNLOADED_BLENDER indicates the parent directory where you save the downloaded blenderalias blender="/PATH_TO_DOWNLOADED_BLENDER/blender-3.1.2-linux-x64/blender"
然后回到Text2Light代码库,为不同的呈现设置运行以下命令:
blender --background --python rendering_shader_ball.py -- ./rendered_balls 100 1000 PATH_TO_HDRI
就能得到这样的结果:
该项目也在GitHub上开源了:
GitHub链接:https://github.com/FrozenBurning/Text2Light
这个项目也得到了不少网友的好评。有网友就感叹到,“人类的想象力是没有边界的”,照这个趋势来看我们距离“输入文字就能3D打印出一个真实物体”的时代也不远了。
也有网友表示,当试图输入“一个四层半的榻榻米房间,房间内有推拉门、拉门、餐桌、14寸黑白电视、黑色电话机”,仍然会担心AI能否比较准确地再现这种场景。毕竟在想象中,“这应该是一个有异国情调的房间”。
对这个速成HDR全景图的AI,大家有什么看法呢?也欢迎小伙伴们在评论区分享自己的使用心得~
相关报道:https://www.itmedia.co.jp/news/articles/2210/11/news036.html
위 내용은 두 문장으로 AI가 VR 장면을 생성하게 해주세요! 아니면 일종의 3D나 HDR 파노라마인가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!