사진을 3D로 변환하는 데 2분밖에 걸리지 않습니다!
질감 품질도 높고, 멀티뷰, 일관성이 높은 품종이기도 합니다.
어떤 종이든 입력 시 싱글 뷰 이미지는 여전히 이렇습니다.
2분 후 3D 버전이 완성됩니다.
Δ, Repaint123(NeRF ); 다음으로 Repaint123(GS)
새로운 방법은 Repaint123이라고 합니다. 핵심 아이디어는 2D 확산 모델의 강력한 이미지 생성 기능과 리페인트 전략의 텍스처 정렬 기능을 결합하여 높은 결과를 생성하는 것입니다. -품질, 일관된 다중 뷰 이미지.
또한, 이 연구에서는 겹치는 영역에 대한 가시성 인식 적응형 다시 그리기 강도 방법도 소개합니다.
Repaint123은 큰 다시점 편차, 텍스처 저하, 느린 생성 등 이전 방법의 문제를 단번에 해결합니다.
현재 프로젝트 코드는 GitHub에 공개되지 않았지만 100명 이상의 사람들이 이를 표시하기 위해 왔습니다.
이전에는 이미지를 3D로 변환하는 방법은 주로 SDS(Score Distillation Sampling)를 사용했습니다. 이 방법의 결과는 인상적이지만 다중 뷰 불일치, 과포화, 지나치게 부드러운 텍스처 및 느린 생성과 같은 몇 가지 문제가 있습니다.
Δ위에서 아래로: 입력, Zero123-XL, Magic123, Dream gaussian
이러한 문제를 해결하기 위해 북경대학교, 펑청연구소, 싱가포르국립대학교, 우한대학교 연구진이 Repaint123을 제안했습니다.
일반적으로 Repaint123은 다음과 같은 기여를 합니다.
(1) Repaint123은 이미지에서 3D 생성까지 제어 가능한 다시 그리기 프로세스를 종합적으로 고려하여 고품질 이미지 시퀀스를 생성하고 이러한 이미지가 여러 항목에서 일관되게 유지되도록 할 수 있습니다. 관점.
(2)Repaint123은 단일 뷰 3D 생성을 위한 간단한 기준 방법을 제안합니다.
대략 모델 단계에서는 SDS 손실 함수와 결합된 Zero123을 3D 사전으로 사용하여 Gaussian Splatter 기하학을 최적화하여 대략적인 3D 모델을 빠르게 생성합니다(단 1분).
Fine 모델 단계에서는 Stable Diffusion을 2D Prior로 사용하고 MSE(Mean Square Error) 손실 함수를 결합하여 Mesh 질감을 빠르게 다듬어 고품질의 3D 모델을 생성합니다(역시 1분 소요). .
(3) 수많은 실험을 통해 Repaint123 방법의 효과가 입증되었습니다. 단 2분 만에 단일 이미지에서 2D 생성 품질에 맞는 고품질 3D 콘텐츠를 생성할 수 있습니다.
Δ일관되고 고품질의 싱글 뷰 3D 급속 생성 달성
구체적인 방법을 살펴보겠습니다.
Repaint123은 메시 세분화 단계 최적화에 중점을 두고 있으며 주요 개선 방향은 다중 뷰 일관성을 갖춘 고품질 이미지 시퀀스 생성과 빠르고 고품질 3D 재구성 달성이라는 두 가지 측면을 다룹니다.
1. 다중 뷰 일관성을 갖춘 고품질 이미지 시퀀스 생성
다중 뷰 일관성을 갖춘 고품질 이미지 시퀀스 생성은 다음 세 부분으로 나뉩니다.
Δ멀티 뷰 일관성 이미지 생성 process
DDIM inversion
성긴 모델 단계에서 생성된 3D 일관된 저주파 텍스처 정보를 유지하기 위해 저자는 DDIM 역전을 사용하여 이미지를 결정된 잠재 공간으로 반전시켜 후속 노이즈 제거의 기반을 마련합니다. 프로세스를 통해 충실하고 일관된 이미지를 생성합니다.
제어 가능한 노이즈 제거
잡음 제거 단계에서 기하학적 일관성과 장거리 텍스처 일관성을 제어하기 위해 저자는 거친 모델에서 렌더링한 깊이 맵을 기하학적 사전 모델로 사용하는 동시에 참조의 Attention 기능을 주입하는 ControlNet을 도입했습니다. 텍스처 마이그레이션을 위한 이미지입니다.
또한, 이미지 품질을 향상시키기 위해 분류자 없는 지침을 수행하기 위해 이 논문에서는 CLIP을 사용하여 참조 이미지를 노이즈 제거 네트워크를 안내하는 이미지 단서로 인코딩합니다.
Redraw
교합 및 겹치는 부분의 점진적 다시 그리기 이미지 시퀀스에서 인접한 이미지의 겹치는 영역이 픽셀 수준에서 정렬되도록 하기 위해 저자는 점진적 로컬 다시 그리기 전략을 채택합니다.
겹치는 영역은 그대로 유지하면서 조화로운 인접한 영역을 생성하고 참조 관점에서 점차적으로 360°로 확장합니다.
그러나 아래 그림에서 볼 수 있듯이 저자는 정시 동안 이전 사시 영역의 시각적 해상도가 더 커지고 더 많은 고주파 정보가 추가되어야 하기 때문에 겹치는 영역도 다듬을 필요가 있음을 발견했습니다.
또한 얇아짐 강도는 1-cosθ*와 동일합니다. 여기서 θ*는 모든 이전 카메라 각도와 표시된 표면의 법선 벡터 사이의 각도 θ의 최대값이므로 적응적으로 겹치는 부분을 다시 그립니다. 영역.
Δ카메라 각도와 세선화 강도의 관계
품질을 향상시키면서 충실도를 보장할 수 있는 적절한 세선화 강도를 선택하기 위해 저자는 투영 정리와 이미지 초해상도 아이디어를 착안하여 제안했습니다. 겹치는 영역을 개선하기 위한 간단하고 간단한 가시성 인식 다시 그리기 전략입니다.
2. 빠르고 고품질의 3D 재구성
아래 그림과 같이 저자는 빠르고 고품질의 3D 재구성 과정에서 2단계 방식을 채택합니다.
ΔRepaint123 2단계 단일 뷰 3D 생성 프레임워크
먼저 Gaussian Splatting 표현을 활용하여 합리적인 기하학적 구조와 거친 질감을 빠르게 생성합니다.
동시에, 이전에 생성된 다중 뷰 일관된 고품질 이미지 시퀀스의 도움으로 작성자는 단순 평균 제곱 오류 (MSE) 손실을 사용하여 빠른 3D 텍스처 재구성을 수행할 수 있습니다.
연구원들은 여러 단일 뷰 생성 작업에 대한 방법을 비교했습니다.
Δ싱글 뷰 3D 생성 시각화 비교
Repaint123은 RealFusion15 및 Test-alpha 데이터 세트에서 일관성, 품질 및 속도의 세 가지 측면에서 가장 뛰어난 결과를 달성했습니다.
동시에 저자는 논문에 사용된 각 모듈의 효율성과 시야각 회전 증분에 대한 절제 실험도 수행했습니다.
그리고 시야각 간격이 60일 때를 발견했습니다. 40도 정도일수록 성능이 최고조에 이르지만, 과도한 시야각 간격은 중첩되는 면적을 줄이고 다면적인 문제 발생 가능성을 높이므로 40도를 최적의 시야각 간격으로 사용할 수 있습니다.
논문 주소: https://arxiv.org/pdf/2312.13271.pdf
코드 주소: https://pku-yuangroup.github.io/repaint123/
프로젝트 주소: https: //pku-yuangroup.github.io/repaint123/
위 내용은 북경대학교 제작: 텍스처 품질과 멀티뷰 일관성을 갖춘 최신 SOTA로 2분 안에 하나의 이미지를 3D 변환할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!