>  기사  >  기술 주변기기  >  신경 볼륨 렌더링: NeRF 이상

신경 볼륨 렌더링: NeRF 이상

WBOY
WBOY앞으로
2023-04-12 19:13:071510검색

참고 논문 요약 "NEURAL VOLUME RENDERING: NERF AND BEYOND", 2021년 1월, Georgia Tech와 MIT가 공동 집필.

신경 볼륨 렌더링: NeRF 이상

신경 렌더링은 다음과 같이 정의됩니다.

"조명, 카메라 매개변수, 포즈, 형상, 모양 및 의미 구조와 같은 장면 속성을 명시적 또는 암시적으로 제어할 수 있는 깊이 이미지 또는 비디오 생성 방법"입니다.

컴퓨터 그래픽에서 가상 세계를 사실적으로 렌더링하는 오랜 문제를 해결하는 새로운 데이터 기반 솔루션입니다.

신경 볼륨 렌더링은 광선을 장면으로 추적하고 광선의 길이를 따라 일종의 통합을 수행하여 이미지나 비디오를 생성하는 방법을 말합니다. 일반적으로 다층 퍼셉트론과 같은 신경망은 빛의 3차원 좌표부터 밀도, 색상 등의 함수를 인코딩하고 이를 통합하여 이미지를 생성합니다.

신경 볼륨 렌더링의 직접적인 선구자 작업은 신경망을 사용하여 암시적 표면 표현을 정의하는 방법입니다. 많은 3D 지각 이미지 생성 방법은 복셀, 그리드, 포인트 클라우드 또는 컨벌루션 아키텍처를 기반으로 하는 기타 표현을 사용합니다. 그러나 CVPR 2019에서는 최소 3개의 논문에서 점유 및/또는 부호 있는 거리 함수(SDF)를 정의하기 위한 스칼라 함수 근사로 신경망을 사용하는 방법을 소개했습니다.

  • 점유 네트워크는 좌표 기반 암시적 점유 학습을 도입합니다. 특징 벡터와 3D 포인트를 입력으로 사용하여 5개의 ResNet 블록으로 구성된 네트워크는 바이너리 점유를 예측합니다.
  • IM-NET은 6계층 MLP 디코더를 사용하여 특징 벡터와 3D 좌표를 바탕으로 바이너리 점유율을 예측합니다. 자동 인코딩, 모양 생성(GAN 스타일) 및 단일 뷰 재구성에 사용할 수 있습니다.
  • DeepSDF는 3D 좌표와 잠재 코드에서 직접 부호 있는 거리 함수를 추출합니다. 레이어 4에 대한 홉 연결이 있는 8레이어 MPL을 사용합니다.
  • PIFu는 3D 포인트를 픽셀 정렬된 특징 표현으로 재투영함으로써 특히 상세한 암시적 모델을 학습할 수 있음을 보여줍니다. 이는 PixelNeRF에서 반복되며 효과가 매우 좋습니다.

암시적 함수를 사용하는 다른 접근 방식은 다음과 같습니다.

  • Structured Implicit Functions(2019)에서는 이러한 암시적 표현을 결합하는 것이 가능하다는 것을 보여주었습니다.
  • CvxNet(2020)은 pointwise Max(3D)를 채택하여 부호 있는 거리 함수를 결합합니다.
  • BSP Network(2020)는 여러 면에서 CvxNet과 유사하지만 핵심적으로 이진 공간 분할을 사용하므로 값비싼 메싱 방법을 통하지 않고 다각형 메시를 로컬로 출력하는 방법이 됩니다.
  • Deep Local Shapes(2020)는 깊은 SDF 잠재 코드를 복셀 그리드에 저장하여 더 큰 확장 장면을 표현합니다.
  • Scene Representation Networks(2019) 또는 SRN은 아키텍처가 DeepSDF와 매우 유사하지만 학습된 암시적 표면의 가장 가까운 교차점을 찾기 위해 미분 가능한 레이 행진 알고리즘을 추가하고 이미지에서 학습할 수 있는 MLP 회귀 색상을 추가합니다. 여러 포즈로 .
  • Differentiable Volumetric Rendering(2019)은 암시적 장면 표현이 SRN과 유사하게 이미지에서 훈련할 수 있는 차별화 가능한 렌더러와 결합될 수 있음을 보여주었습니다. "볼륨 렌더러"라는 용어가 사용되지만 실제 주요 기여는 암시적 표면의 깊이 계산을 차별화 가능하게 만드는 영리한 트릭입니다. 볼륨에 대해 통합하지 않습니다.
  • Implicit Differentiable Renderer(2020)는 유사한 기술을 제공하지만 더 복잡한 표면 조명 필드 표현을 사용하여 훈련 중에 카메라 포즈를 최적화할 수 있음을 보여줍니다.
  • Neural Articulated Shape Approximation(2020) 또는 NASA는 인체와 같은 관절 대상을 나타내는 암시적 기능을 형성합니다.

아직 (뒤틀린) 복셀 기반 표현을 기반으로 하고 있지만 완전히 허공에 있는 것은 아니지만 Neural Volumes 논문에서는 뷰 합성을 위한 볼륨 렌더링, 3D 볼륨의 회귀 밀도 및 색상을 소개합니다. 잠재 코드를 3차원 볼륨으로 디코딩하고 볼륨 렌더링을 통해 새로운 이미지를 얻습니다.

3D 공간의 각 위치에서 불투명도와 색상으로 구성된 볼륨 표현을 사용하는 것을 제안하며, 통합 투영을 통해 렌더링이 이루어집니다. 최적화 과정에서 이 반투명 기하학적 표현은 통합 광선을 따라 기울기 정보를 분산시켜 수렴 범위를 효과적으로 확장하고 따라서 좋은 솔루션을 발견할 수 있게 해줍니다.

모두의 논의를 촉발한 논문은 Neural Radiation Field NeRF 논문(2020)입니다. 기본적으로 심층 SDF 아키텍처가 사용되지만 부호 있는 거리 함수(SDF)를 회귀하는 대신 밀도와 색상이 반환됩니다. 그런 다음 (쉽게 미분 가능한) 수치 적분 방법을 사용하여 실제 볼륨 렌더링 단계를 근사화합니다.

NeRF 모델은 체적 장면 표현을 MLP의 가중치로 저장하고 알려진 포즈가 있는 많은 이미지에 대해 훈련됩니다. 각 뷰 광선을 따라 일정한 간격으로 밀도와 색상을 통합하여 새로운 뷰가 렌더링됩니다.

NeRF가 매우 상세한 렌더링을 수행하는 이유 중 하나는 주기적인 활성화 함수 또는 푸리에 기능을 사용하여 광선의 3D 점 및 관련 뷰 방향을 인코딩하기 때문입니다. 이 혁신은 나중에 주기적 활성화 기능을 갖춘 다층 네트워크, 즉 SIREN(SInusoidal-REpresentation Networks)으로 확장되었습니다. 두 기사 모두 NeurIPS 2020에 게재되었습니다.

NeRF 종이의 영향력은 잔혹할 정도로 단순하다고 할 수 있습니다. 단 하나의 MLP가 5D 좌표의 밀도와 색상을 출력합니다. 특히 위치 인코딩 및 계층화된 샘플링 방식과 같은 몇 가지 추가 기능이 있지만 이러한 간단한 아키텍처가 이렇게 인상적인 결과를 생성할 수 있다는 것은 놀라운 일입니다. 그럼에도 불구하고 원본 NeRF는 개선할 여지가 많습니다.

  • 훈련과 렌더링 모두 느립니다.
  • 정적인 장면만 표현할 수 있습니다.
  • 고정 조명.
  • 훈련된 NeRF 표현은 다른 시나리오/목표로 일반화되지 않습니다.

일부 프로젝트/논문은 원래 NeRF 논문의 다소 느린 훈련 및 렌더링 시간을 개선하는 것을 목표로 합니다.

  • JaxNeRF(2020)는 JAX(https://github.com/google/jax)를 통한 다중 장치 교육을 지원하여 며칠을 몇 시간으로 단축하여 프로세스 속도를 크게 높입니다.
  • AutoInt(2020)는 체적 적분을 직접 학습하여 렌더링 속도를 크게 높입니다.
  • 학습된 초기화(2020)는 메타 학습을 사용하여 적절한 가중치 초기화를 찾고 훈련 속도를 높입니다.
  • DeRF(2020)는 가속기 메모리 아키텍처를 활용하여 장면을 "소프트 보로노이 그래프"로 분해합니다.
  • NERF++(2020)은 별도의 NERF를 사용하여 배경을 모델링하고 무제한 시나리오를 처리할 것을 제안합니다.
  • Neural Sparse Voxel Fields(2020)는 장면을 희소 복셀 옥트리로 구성하여 렌더링 속도를 10배 높입니다.

적어도 4개의 작품이 역동적인 장면에 초점을 맞추고 있습니다.

  • Nerfies(2020) 및 기본 D-NeRF 모델 변형 가능 비디오, 두 번째 MLP를 사용하여 비디오의 각 프레임에 변형 적용.
  • D-NeRF(2020)는 Nerfies 논문과 매우 유사하고 심지어 동일한 약어를 사용하지만 번역의 변형을 제한하는 것 같습니다.
  • 신경 장면 흐름 필드(2020)는 알려진 카메라 포즈를 입력으로 사용하고 깊이 예측을 사전에 사용하여 단안 비디오를 가져와 손실 함수에 대한 정규화를 위한 장면 흐름을 출력합니다.
  • Spatial-Temporal Neural Irradiance Field(2020)는 추가 입력으로 시간만 사용합니다. 임의의 시점 비디오(RGB-D 데이터에서!)를 렌더링하기 위해 이 방법을 성공적으로 훈련하려면 손실 함수를 신중하게 선택해야 합니다.
  • NeRFlow(2020)는 변형 MLP를 사용하여 장면 흐름을 모델링하고 시간 영역 전체를 통합하여 최종 변형을 얻습니다.
  • NR NeRF(2020)는 또한 변형 가능한 MLP를 사용하여 경직되지 않은 장면을 모델링합니다. 카메라 매개변수 외에 미리 계산된 장면 정보에 의존하지 않지만 Nerfies보다 약간 덜 명확한 출력을 생성합니다.
  • STaR(2021)은 멀티뷰 RGB 비디오를 입력으로 가져와 장면을 정적 볼륨과 동적 볼륨으로 분해합니다. 그러나 현재는 하나의 움직이는 대상만 지원합니다.

사람의 아바타/초상화에 초점을 맞춘 논문도 두 권 있습니다.

  • PortraitNeRF(2020) 정적 NeRF 스타일 아바타(Avatar)를 생성하되 하나의 RGB만으로 이미지를 캡처합니다. 이를 달성하기 위해서는 조명 스테이지 훈련 데이터가 필요하다.
  • DNRF(G2020)는 4D 아바타에 중점을 두고 변형된 얼굴 모델을 파이프라인에 통합하며 강력한 유도 바이어스를 부과합니다.

NeRF 스타일 방법이 강화된 또 다른 측면은 종종 장면을 다시 조명하는 데 사용할 수 있는 잠재 코드를 통해 조명을 처리하는 방법입니다.

  • NeRV(2020)는 임의의 주변 조명과 두 번째 "가시성" MLP를 통해 "1회 바운스" 간접 조명을 지원합니다.
  • NeRD(2020)는 국부 반사 모델을 사용하고, 게다가 주어진 장면에 대해 저해상도 구면 조화 조명을 제거한 또 다른 작품입니다.
  • Neural Reflectance Fields(2020)는 밀도 외에 로컬 반사 모델을 추가하여 NeRF를 개선합니다. 단일 점 광원에서도 불구하고 인상적인 재조명 결과를 만들어냅니다.
  • NeRF-W(2020)는 NeRF의 첫 번째 후속 작업 중 하나로, 덜 제어된 다중 뷰 컬렉션에서 신경 장면 표현을 학습할 수 있도록 잠재 모양 코드를 최적화합니다.

잠재 코드는 모양 사전 인코딩에도 사용할 수 있습니다.

  • pixelNeRF(2020)는 테스트 시 N 이미지가 사용되는 이미지 기반 렌더링에 더 가깝습니다. 이는 PIFu를 기반으로 하며 NeRF 스타일 렌더러를 평가할 때 보간되는 픽셀 정렬 기능을 생성합니다.
  • GRF(2020)는 설정에서 pixelNeRF와 매우 유사하지만 뷰 공간 대신 ​​표준 공간에서 작동합니다.
  • GRAF(2020) 또는 "방사선 장에 대한 생성 모델"은 GAN 스타일 훈련을 통해 시점 불변성을 달성하면서 잠재 코드의 모양과 형태를 추가하는 NeRF의 조건부 변형입니다.
  • pi GAN(2020), GRAF와 유사하지만 각 레이어가 잠재 코드를 사용하여 서로 다른 MLP 출력으로 변조되는 SIREN 스타일 NeRF 구현을 사용합니다.

이 중 어느 것도 많은 대상으로 구성된 대규모 장면으로 확장되지 않으므로 흥미로운 새 영역은 대상을 볼륨 렌더링 장면으로 그룹화하는 방법입니다.

  • 객체 중심 신경 장면 렌더링(2020)은 객체 중심 좌표계에서 "객체 산란 기능"을 학습하여 Monte Carlo를 사용하여 합성 장면을 렌더링하고 사실적으로 조명할 수 있도록 합니다.
  • GIRAFFE(2020)는 객체 중심 NeRF 모델에서 색상 대신 특징 벡터를 출력하는 방식으로 합성을 지원합니다. 그런 다음 이를 평균화하여 합성하고 저해상도에서 2D 특징 맵으로 렌더링한 다음 2D로 업샘플링합니다.
  • Neural Scene Graphs(2020)는 장면 그래프에서 여러 객체 중심 NeRF 모델을 지원합니다.

마지막으로 적어도 하나의 논문은 (알려진) 객체 포즈 추정의 맥락에서 NeRF 렌더링을 사용합니다.

  • iNeRF(2020)는 포즈 추정 프레임워크에서 NeRF MLP를 사용하며 포즈를 미세 조정하여 표준 데이터 세트의 뷰 합성을 향상시킬 수도 있습니다. 그러나 아직 조명을 처리할 수 없습니다.

신경 렌더링과 NeRF 스타일 논문이 궁극적으로 성공할지는 아직 알 수 없습니다. 연기, 안개, 투명도 등이 현실 세계에 존재하지만 궁극적으로 대부분의 빛은 표면에서 눈으로 산란됩니다. NeRF 스타일 네트워크는 볼륨 기반 접근 방식으로 인해 훈련하기 쉬울 수 있지만 논문이 수렴 후 표면을 발견하거나 추측하려고 시도하는 추세가 나타났습니다. 실제로 원래 NeRF 논문의 계층화된 샘플링 방식은 바로 이것이었습니다. 따라서 NeRF에서 학습할 때 적어도 추론 시간에는 SDF 스타일의 암시적 표현이나 심지어 복셀로 돌아가는 것을 쉽게 볼 수 있습니다.

위 내용은 신경 볼륨 렌더링: NeRF 이상의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제