위 애니메이션은 여러 장의 사진을 바탕으로 렌더링한 완전히 3D 장면이라는 점에 유의하세요. 인간이 자신의 결점을 발견하는 것은 어렵습니다. 그럼 이 시나리오가 어떻게 구현되는지 살펴보겠습니다. 그리드와 포인트는 가장 일반적인 3D 장면 표현이며 명시적이기 때문에 빠른 GPU/CUDA 기반 래스터화에 매우 적합합니다. 이와 대조적으로, 최첨단 NeRF(Neural Radiation Field) 방법은 연속적인 장면 표현을 기반으로 구축되었으며, 종종 체적 광선 렌더링에 최적화된 다층 퍼셉트론(MLP)을 사용하여 캡처된 장면에 대한 새로운 관점을 합성합니다. 이러한 방법의 연속성은 최적화에 도움이 되지만 렌더링에 필요한 무작위 샘플링은 비용이 많이 들고 잡음이 많습니다. 프랑스 리비에라 대학의 연구원들은 이 두 가지 방법의 장점을 결합할 수 있는 새로운 방법을 도입했습니다. 3D 가우스 표현은 SOAT 시각적 품질을 가지며 훈련 시간에도 최적화되는 반면 타일 기반 눈덩이 알고리즘( 타일 기반 스플래팅)은 여러 데이터 세트에서 1080p 해상도로 SOTA 실시간 렌더링을 달성합니다. 논문 주소: https://huggingface.co/papers/2308.04079 연구팀은 목표를 세웠습니다: 여러 장의 사진으로 촬영한 장면을 실시간으로 렌더링하고 일반적인 실제에서 가장 빠른 시간을 달성하는 것입니다. 장면 최적화. Fridovich-Kei et al.이 이전에 제안한 방법은 빠른 훈련을 달성했지만 최대 48시간의 훈련 시간이 필요한 현재 SOTA NeRF 방법으로 달성한 시각적 품질을 달성하기가 어려웠습니다. 장면에 따라 대화형 렌더링(초당 10~15프레임)을 달성할 수 있는 빠르지만 품질이 낮은 방사선장 방법을 제안하는 연구도 있지만 이 방법은 고해상도에서 실시간 렌더링을 달성할 수 없습니다. 다음으로 이 글이 어떻게 구현되는지 살펴보겠습니다. 연구팀의 솔루션은 크게 세 부분으로 구성된다.
먼저 유연하고 표현력이 풍부한 장면 표현으로 3D 가우시안을 소개합니다. 입력은 NeRF 방법과 유사합니다. 즉, 카메라는 SfM(Structure-from-Motion)을 사용하여 보정되고 3D 가우스 앙상블은 SfM 프로세스에서 파생된 희소 포인트 클라우드를 사용하여 초기화됩니다. 또한 본 연구에서는 SfM 포인트만을 입력으로 사용하여 높은 품질의 결과를 얻을 수 있었습니다. NeRF 합성 데이터세트의 경우 우리의 방법은 무작위 초기화를 통해서도 고품질 결과를 얻을 수 있다는 점에 유의해야 합니다. 연구에 따르면 3D 가우스가 좋은 선택인 것으로 나타났습니다. 둘째, 3D 위치, 불투명도, 이방성 공분산 및 구면 조화(SH) 계수와 같은 3D 가우스 속성을 최적화합니다. 최적화 프로세스는 장면을 다소 간결하고 구조화되지 않은 정확한 표현으로 생성합니다.
세 번째 실시간 렌더링 솔루션인 이 연구에서는 빠른 GPU 정렬 알고리즘을 사용합니다. 그러나 3D 가우스 표현으로 인해 정렬 및 블렌딩 덕분에 가시성 순서를 존중하면서 이방성 접합을 수행할 수 있으며 필요한 만큼 정렬된 접합의 순회를 추적하여 빠르고 정확하게 역방향 전달이 가능합니다.
요약하면 이 문서는 다음과 같은 기여를 합니다.
방사선 장의 고품질 비구조적 표현으로 이방성 3D 가우스를 소개합니다. 적응형 밀도 제어와 결합하여 캡처된 장면의 고품질 표현을 생성하는 3D 가우스 속성을 위한 최적화 방법 가시성을 인식하는 GPU를 위한 빠른 미분 가능 렌더링 방법 -품질의 새로운 뷰 합성.
다음 그림은 본 글의 방법과 이전 방법의 효과를 비교한 것입니다. 위에서 아래까지의 장면은 딥 하이브리드 데이터 세트의 Mip-NeRF360 데이터 세트에 있는 자전거, 정원, 카운터 및 방입니다(자세한 비교를 보려면 원본 기사를 읽어보세요). 자전거의 살, 정원 끝자락에 있는 집의 유리, 쇠바구니의 기둥, 곰인형 등 다양한 방법에 의해 만들어진 상당한 차이가 그림에 표시되어 있습니다. 이 글에서 소개하는 방법은 이전 방법보다 세부적으로 더 많은 장점이 있다는 것을 알 수 있습니다.
동영상에서 더 확연한 차이를 볼 수 있습니다. 또한 그림 6에서는 7K 반복(~5분)에도 불구하고 이 기사의 방법이 열차의 세부 정보를 매우 잘 포착합니다. 30K 반복(~35분)에서 배경 아티팩트가 크게 감소합니다. 정원 장면의 경우 차이가 거의 눈에 띄지 않으며 7K 반복(~8분)은 이미 매우 높은 품질입니다. 연구팀은 Mip-NeRF360에서 제안한 방법을 채택하여 데이터 세트를 학습/테스트 부분으로 나누고 8장의 사진마다 테스트하여 일관되고 의미 있는 비교를 수행함으로써 오류 표시기를 생성하고 가장 일반적으로 사용되는 문헌의 표준 PSNR, L-PIPS 및 SSIM 지표는 자세한 데이터를 위해 표 1에 표시되어 있습니다. 표 1은 세 가지 데이터세트에 걸쳐 계산된 이전 작업과 비교하여 새로운 방법에 대한 정량적 평가를 보여줍니다. "†" 표시가 있는 결과는 원 논문에서 직접 채택한 결과이고, 그 외의 결과는 실험팀의 실험 결과입니다. 합성 NeRF의 PSNR 점수. 본 글의 방법은 대부분의 경우에 더 좋은 점수를 가지며 심지어 최적의 수준에 도달하는 것을 볼 수 있습니다. 연구팀은 다양한 기여와 알고리즘 선택을 분리하고 그 효과를 측정하기 위한 일련의 실험을 구성했습니다. 알고리즘의 다음 측면이 테스트되었습니다: SfM의 초기화, 치밀화 전략, 이방성 공분산, 그라데이션이 있는 무제한 수의 패치 허용, 구면 고조파 사용. 아래 표에는 각 옵션의 정량적 효과가 요약되어 있습니다. 초기화에 SfM 포인트를 사용하면 더 나은 결과를 얻을 수 있습니다. 복제 및 분할의 두 경우 모두 절제 치밀화 전략 시각적 품질에 상당한 영향을 미치는 그라데이션을 허용하는 포인트 수를 제한합니다. 왼쪽: 수신된 그라데이션을 제한하는 10개의 가우스 포인트. 오른쪽: 이 기사의 전체 방법론. 위 내용은 고화질 영상은 여러 장의 사진에 렌더링된 3D 장면으로 인해 진위 여부를 구별하기 어렵습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!