새로운 관점 이미지 생성(NVS)은 컴퓨터 비전의 응용 분야입니다. 1998년 슈퍼볼 게임에서 CMU의 RI는 다중 카메라 스테레오 비전(MVS)이 적용된 NVS를 시연했습니다. 당시 이 기술은 미국의 한 스포츠 회사에 이전되었습니다. 미국 TV 방송국은 결국 상용화되지 않았고, 영국 BBC 방송사는 이를 위해 연구개발에 투자했지만 제대로 상용화되지 못했다.
이미지 기반 렌더링(IBR) 분야에서 NVS 애플리케이션에는 깊이 이미지 기반 렌더링(DBIR)이라는 가지가 있습니다. 또한, 2010년 큰 인기를 끌었던 3D TV 역시 단안 영상에서 양안 입체 효과를 얻어야 했지만, 기술이 미성숙하여 결국 대중화되지는 못했다. 당시에는 이미 머신러닝을 기반으로 한 방법들이 연구되기 시작했습니다. 예를 들어 Youtube는 깊이 맵을 합성하기 위해 이미지 검색 방법을 사용했습니다.
몇 년 전 저는 NVS에 딥 러닝 응용 프로그램을 소개했습니다. 딥 러닝을 기반으로 한 새로운 원근 이미지 생성 방법
최근에는 NeRF(신경 방사선 장)가 장면과 합성 사진을 사실적으로 표현하게 되었습니다. 이미지의 효과적인 예이며 가장 직접적인 적용은 NVS입니다. 기존 NeRF의 주요 한계는 훈련 관점과 크게 다른 새로운 관점에서 고품질 렌더링을 생성하는 것이 종종 불가능하다는 것입니다. 다음은 NeRF의 일반화 방법에 대한 논의입니다. 여기서는 NeRF 원리의 기본 소개가 무시됩니다. 관심이 있으신 분은 리뷰 논문을 참고해주세요:
논문 [2] 제안 우리는 장면 전체를 일반화하고 근처의 3개 입력 뷰에서만 재구성된 방사선장을 추론하는 일반 심층 신경망인 MVSNeRF를 제안합니다. 이 방법은 형상 인식 장면 추론을 위해 평면 스캔 볼륨(멀티 뷰 스테레오 비전에 널리 사용됨)을 활용하고 이를 신경 방사선 필드 재구성을 위해 물리적 기반 볼륨 렌더링과 결합합니다.
이 방법은 Deep MVS의 성공을 활용하여 비용 볼륨에 3D 컨볼루션을 적용하여 3D 재구성 작업을 위한 일반화 가능한 신경망을 훈련시킵니다. 이러한 비용 엔터티에 대해서만 깊이 추론을 수행하는 MVS 방법과 달리 이 네트워크는 장면 기하학 및 모양에 대한 추론을 수행하고 신경 방사선 필드를 출력함으로써 뷰 합성이 가능합니다. 구체적으로, 3D CNN을 사용하여 신경 장면 인코딩 볼륨이 (원본 볼륨에서) 재구성되며, 이는 로컬 장면 기하학 및 모양 정보를 인코딩하는 복셀별 신경 기능으로 구성됩니다. 그런 다음, 다층 퍼셉트론(MLP)은 삼선형으로 보간된 신경 특징을 사용하여 인코딩된 볼륨 내 임의의 연속 위치에서 볼륨 밀도와 휘도를 디코딩합니다. 본질적으로 인코딩 볼륨은 방사선 필드의 로컬 신경 표현입니다. 일단 추정되면 최종 렌더링을 위한 미분 가능한 레이 행진에 직접 사용될 수 있습니다(3D CNN 폐기).
기존 MVS 방법과 비교하여 MVSNeRF는 차별화 가능한 신경 렌더링을 가능하게 하고, 3D 감독 없이 훈련하며, 추론 시간을 최적화하여 품질을 더욱 향상시킵니다. 기존 신경 렌더링 방법과 비교하여 MVS와 유사한 아키텍처는 자연스럽게 크로스 뷰 대응 추론이 가능하므로 보이지 않는 테스트 장면을 일반화하는 데 도움이 되고 더 나은 신경 장면 재구성 및 렌더링으로 이어집니다.
그림 1은 MVSNeRF의 개요입니다. (a) 카메라 매개변수를 기반으로 먼저 2D 이미지 특징을 평면 스윕으로 워프(동형 변환)하여 이 분산 기반 비용 온톨로지 인코딩의 변경 사항을 설명합니다. 장면 형상과 뷰 관련 명암 효과로 인한 모양 변화를 고려한 다양한 입력 뷰 간의 이미지 모양. (b) 그런 다음 3D CNN을 사용하여 복셀별 신경 특징의 신경 코드 볼륨을 재구성합니다. 장면 모양 정보를 효과적으로 추론하고 전파하여 의미 있는 장면 인코딩 볼륨을 생성할 수 있는 3D UNet. 참고: 이 인코딩 볼륨은 비지도 예측이며 엔드투엔드 교육에서 볼륨 렌더링을 사용하여 추론됩니다. 다운샘플링으로 손실된 고주파수를 복구할 수 있도록 다음 볼륨 회귀 단계로 병합합니다. (c) MLP를 사용하여 볼륨 보간 특성을 인코딩하여 볼륨 밀도 및 RGB 휘도를 모든 위치에서 회귀할 수 있습니다. 차동 광선 이동에 의해 결정될 수 있으며 최종 렌더링을 수행합니다.
논문 [3]에서는 새로운 장면에 일반화할 수 있고 테스트 중에 희소 보기만 필요한 엔드투엔드 훈련된 신경 보기 합성 방법인 SRF(Stereo Radiation Field)를 제안합니다. 핵심 아이디어는 스테레오 이미지에서 유사한 이미지 영역을 찾아 표면 점을 추정하는 고전적인 다중 뷰 스테레오(MVS) 방법에서 영감을 받은 신경 아키텍처입니다. 인코더 네트워크에 10개의 뷰를 입력하고 다중 스케일 특징을 추출합니다. MLP(다층 퍼셉트론)는 기존 이미지 패치 또는 기능 일치를 대체하여 유사성 점수의 앙상블을 출력합니다. SRF에서는 각 3D 포인트에 입력 이미지의 입체적 대응 부분에 대한 인코딩이 제공되며 색상과 밀도가 미리 예측됩니다. 이 인코딩은 쌍별 유사성 앙상블(클래식 스테레오 비전 시뮬레이션)을 통해 암묵적으로 학습됩니다.
알려진 카메라 매개변수는 N개의 참조 이미지 세트가 주어지면 SRF는 3D 포인트의 색상과 밀도를 예측합니다. 기존 다중 뷰 스테레오 비전 방법과 유사한 SRF 모델 f을 구성합니다. (1) 점의 위치를 인코딩하려면 이를 각 참조 뷰에 투영하고 로컬 특징 설명자를 작성합니다. (2) 표면에 있는 경우 사진은 일관성이 있고 특징 설명자는 서로 일치해야 합니다. 학습된 함수는 특징 일치를 시뮬레이션하는 데 사용되며 모든 참조 뷰의 특징은 인코딩됩니다. (3) 인코딩은 학습된 디코더에 의해 디코딩되어 NeRF 표현이 됩니다. . 그림 2는 SRF의 개요를 제공합니다. (a) 이미지 특징 추출, (b) 학습된 유사성 함수를 통해 사진 일관성을 찾는 프로세스를 시뮬레이션하고 3차원 특징 매트릭스(SFM)를 얻습니다. 다중 뷰 기능 매트릭스(MFM); (d) 최대 풀링은 대응 및 색상의 컴팩트한 인코딩을 얻고 이를 디코딩하여 색상 및 볼륨 밀도를 얻습니다.
논문 [4]에서는 여러 이미지로부터 추정된 3D 신경 장면 표현인 DietNeRF를 제안합니다. 새로운 포즈의 사실적인 렌더링을 장려하는 보조 의미론적 일관성 손실을 도입합니다.
NeRF에서 소수의 뷰만 사용할 수 있는 경우 렌더링 문제는 제한되지 않습니다. NeRF는 엄격하게 정규화되지 않는 한 퇴화된 솔루션으로 인해 어려움을 겪는 경우가 많습니다. 그림 3에 표시된 것처럼: (A) 균일하게 샘플링된 포즈에서 객체에 대한 100개의 관찰을 수행할 때 NeRF는 상세하고 정확한 표현을 추정하여 순전히 다중 뷰 일관성을 통해 고품질 뷰 합성을 허용합니다. 8개의 보기에서 훈련 카메라의 근거리 필드에 대상을 배치하면 동일한 NeRF 과적합으로 인해 훈련 카메라 근처의 자세에서 대상 오정렬 및 성능 저하가 발생합니다. (C) 정규화, 단순화, 수동 조정 및 재초기화 시, NeRF는 수렴할 수 있지만 더 이상 미세한 세부 사항을 캡처하지 않습니다. (D) 유사한 물체에 대한 사전 지식이 없으면 단일 장면 뷰 합성은 관찰되지 않은 영역을 합리적으로 완료할 수 없습니다.
그림 4는 DietNeRF 작업의 개략도입니다. "어떤 각도에서든 객체는 객체입니다"라는 원칙을 기반으로 DietNeRF는 어떤 자세에서든 방사선장(DietNeRF 카메라)을 모니터링하여 의미를 계산합니다. 일관성 손실은 픽셀 공간이 아닌 기능 공간에서 높은 수준의 장면 속성을 캡처하므로 시각적 변환기인 CLIP을 사용하여 렌더링의 의미론적 표현을 추출한 다음 실측 뷰 표현과의 유사성을 최대화합니다.
실제로 단일 뷰 2D 이미지 인코더에서 학습한 장면 의미론에 대한 사전 지식은 3D 표현을 제한할 수 있습니다. DietNeRF는 자연어 감독 하에 웹에서 채굴한 수억 장의 단일 보기 2D 사진 모음을 통해 학습되었습니다. (1) 동일한 포즈에서 주어진 입력 보기가 주어지면 올바르게 렌더링하고, (2) 다양한 의미에 걸쳐 높은 수준의 의미를 일치시킵니다. 무작위 포즈 속성. 의미론적 손실 함수는 임의의 포즈에서 DietNeRF 모델을 감독할 수 있습니다.
논문[5]에서는 그림 5와 같이 학습 방사선장 손실과 기성 깊이 맵 감독을 사용하는 DS-NeRF를 제안합니다. 현재 NeRF 파이프라인에는 일반적으로 SFM(Structure from Motion)을 통해 추정되는 알려진 카메라 포즈가 있는 이미지가 필요하다는 사실이 있습니다. 결정적으로 SFM은 훈련 중에 "무료" 깊이 감독으로 사용되는 희박한 3D 포인트도 생성합니다. 즉, 깊이 불확실성을 포함하여 광선의 종료 깊이 분포가 주어진 3D 키포인트와 일치하도록 장려하는 손실을 추가합니다.
Paper [6]는 하나 이상의 입력 이미지를 기반으로 연속적인 신경 장면 표현을 예측하기 위한 학습 프레임워크인 pixelNeRF를 제안합니다. 이미지 입력에서 NeRF 아키텍처를 조정하는 완전 컨볼루션 방법을 도입하여 네트워크가 여러 장면에 걸쳐 훈련되어 장면에 대한 사전 지식을 학습할 수 있으므로 희박한 뷰 세트(적어도 하나)에서 진행할 수 있습니다. 피드포워드 방식으로 새로운 뷰 구성. NeRF의 볼륨 렌더링 방법을 활용하면 pixelNeRF는 추가적인 3D 감독 없이 이미지에서 직접 훈련될 수 있습니다.
구체적으로, pixelNeRF는 먼저 입력 이미지에서 완전 컨볼루셔널 이미지 특징 그리드(featuregrid)를 계산하고 입력 이미지에서 NeRF를 조정합니다. 그런 다음 시점 좌표계에서 관심 있는 각 3D 쿼리 공간 지점 x와 시점 방향 d에 대해 해당 이미지 특징이 투영 및 쌍선형 보간을 통해 샘플링됩니다. 쿼리 사양은 이미지 특징과 함께 밀도와 색상을 출력하는 NeRF 네트워크로 전송되며, 여기서 공간 이미지 특징은 각 레이어에 잔차로 공급됩니다. 여러 이미지를 사용할 수 있는 경우 입력은 먼저 각 카메라 좌표계의 잠재 표현으로 인코딩되며, 이는 색상과 밀도를 예측하기 전에 중간 레이어에서 병합됩니다. 모델 훈련은 실제 이미지와 볼륨 렌더링된 뷰 간의 재구성 손실을 기반으로 합니다.
pixelNeRF 프레임워크는 그림 6에 나와 있습니다. 뷰 방향 d, 대상 카메라 광선을 따르는 3D 쿼리 점 x의 경우 투영 및 보간을 통해 해당 이미지 특징이 특징 볼륨 W에서 추출됩니다. 기능은 NeRF 네트워크 f에 함께 전달됩니다. 출력 RGB 및 밀도 값은 볼륨 렌더링에 사용되며 카메라에 있는 좌표 x 및 d와 비교됩니다. 입력 뷰의 좌표계.
PixelNeRF와 SRF는 입력 이미지에서 추출한 로컬 CNN 특징을 사용하는 반면, MVSNeRF는 이미지 워핑을 통해 3D 몸체를 얻은 후 3D CNN으로 처리하는 것을 볼 수 있습니다. 이러한 방법을 사용하려면 다양한 장면의 여러 다중 뷰 이미지 데이터 세트에 대한 사전 교육이 필요하며, 이를 얻는 데 비용이 많이 들 수 있습니다. 또한 긴 사전 훈련 단계에도 불구하고 대부분의 방법은 테스트 시 네트워크 가중치를 미세 조정해야 하며 테스트 도메인이 변경되면 새로운 보기의 품질이 쉽게 저하될 수 있습니다.
물론 DS-NeRF는 재구성 정확도를 높이기 위해 추가적인 심층 감독을 추가합니다. Diet-NeRF는 CLIP을 낮은 해상도로 렌더링된 보이지 않는 시점 임베딩과 비교합니다. 이러한 의미론적 일관성 손실은 높은 수준의 정보만 제공할 수 있으며 희소 입력의 장면 형상을 개선할 수 없습니다.
핵심에 MLP 및 광 변환기(고전적인 변환기 아키텍처: 위치 인코딩 및 self-attention)가 포함된 논문[7]에서 제안된 IBRNet은 연속적인 5D 위치(3D 공간 위치 및 2D)의 휘도 및 볼륨 밀도를 추정하는 데 사용됩니다. 보기 방향), 여러 소스 보기에서 실시간으로 모양 정보를 렌더링합니다.
렌더링할 때 이 접근 방식은 고전적인 이미지 기반 렌더링(IBR) 작업으로 돌아갑니다. 렌더링을 위해 각 장면 기능을 최적화하는 신경 장면 표현과 달리 IBRNet은 새로운 장면으로 일반화하는 일반 뷰 보간 기능을 학습합니다. 이미지를 합성하기 위해 여전히 클래식 볼륨 렌더링을 사용하며 완전히 차별화 가능하며 다중 뷰 포즈 이미지를 감독으로 사용하여 훈련됩니다.
레이 변환기는 전체 광선을 따라 이러한 밀도 특징을 고려하여 각 샘플의 스칼라 밀도 값을 계산함으로써 더 큰 공간 규모에 대한 가시성 추론을 가능하게 합니다. 이와 별도로 색상 혼합 모듈은 2D 기능과 소스 뷰의 시선 벡터를 사용하여 각 샘플의 뷰 종속 색상을 파생합니다. 마지막으로 볼륨 렌더링은 각 광선의 최종 색상 값을 계산합니다.
그림 7은 IBRNet의 개요입니다. 1) 대상 뷰("?"로 표시된 이미지)를 렌더링하려면 먼저 인접한 소스 뷰 세트(예: A 및 B로 표시된 뷰)를 식별하고 이미지 특징을 추출합니다. 2) 그런 다음 대상 뷰의 각 광선에 대해 IBRNet(노란색 음영 영역)을 사용하여 광선을 따라 샘플 색상 및 밀도 세트를 계산합니다. 특히 각 샘플에 대해 해당 정보(이미지 색상)가 집계됩니다. 인접한 소스 보기, 특징 및 보기 방향), 색상 c 및 밀도 특징을 생성한 다음 광선 변환기를 빛의 모든 샘플의 밀도 특징에 적용하여 밀도 값을 예측합니다. 3) 마지막으로 볼륨 렌더링을 사용하여 광선을 따라 색상과 밀도를 축적합니다. 재구성된 영상 색상에 대해 end-to-end L2 손실 훈련을 수행할 수 있습니다.
그림 8과 같이 IBRNet은 연속 5D 위치의 색상 + 볼륨 밀도 예측에 사용됩니다. 먼저 모든 소스 뷰에서 추출된 2D 이미지 특징을 PointNet과 유사한 MLP에 입력하고 로컬 및 글로벌 정보를 집계하고 다중 - 뷰 지각 특징이 생성되고, 가중치를 사용하여 특징을 집중시키고, 다중 뷰 가시성 추론을 수행하고, 단일 5D 샘플의 밀도 σ를 직접 예측하는 대신 광선 변환기 모듈을 사용하여 모든 것을 집계합니다. 광선에 따른 샘플 정보, 광선 변환기 모듈은 광선의 모든 샘플에 대한 밀도 특징을 얻고 그 밀도를 예측합니다. 광선 변환기 모듈은 더 긴 범위에 대한 기하학적 추론을 가능하게 하고 색상 예측을 위한 밀도 예측을 향상시킵니다. 소스 뷰에 대한 쿼리 광선 사용 보기 방향의 경우 작은 네트워크가 입력에 연결되어 고조파 가중치 집합을 예측하고 출력 색상 c은 소스 뷰의 이미지 색상에 대한 가중 평균입니다.
여기에 한 가지 더 추가할 사항: 절대 보기 방향을 사용하는 NeRF와 달리 IBRNet은 소스 보기를 기준으로 보기 방향, 즉 d와 di의 차이, 를 고려합니다. Δd=d−di . Δd가 작을수록 일반적으로 대상 뷰의 색상이 소스 뷰 i의 해당 색상과 유사할 가능성이 높으며 그 반대의 경우도 마찬가지입니다.
논문 [8]에서 제안된 GRF(General Radiation Field)는 2D 관측에서만 3D 대상과 장면을 표현하고 렌더링합니다. 네트워크는 3D 형상을 범용 방사장으로 모델링하고, 2D 이미지 세트, 카메라 외부 포즈 및 내부 매개변수를 입력으로 사용하고, 3D 공간의 각 지점에 대한 내부 표현을 구축한 다음, 어느 각도에서나 보이는 해당 모양과 형상을 렌더링합니다. 위치. 핵심은 2D 이미지의 각 픽셀의 로컬 특징을 학습한 다음 이러한 특징을 3D 점에 투영하여 다양하고 풍부한 점 표현을 생성하는 것입니다. 또한 시각적 폐색 문제를 암시적으로 고려하기 위해 여러 2D 뷰의 픽셀 기능을 집계하는 주의 메커니즘이 통합되었습니다.
그림 9는 GRF의 개략도입니다. GRF는 각 3D 포인트 p를 각각의 M 입력 이미지에 투영하고, 각 뷰에서 각 픽셀의 특징을 수집하고, 집계하여 MLP에 공급하고, 색상 및 볼륨 밀도를 추론합니다. p 중.
GRF는 4가지 부분으로 구성됩니다. 1) 각 2D 픽셀에 대한 특징 추출기, CNN 기반 인코더-디코더 2) 2D 특징을 3D 공간으로 재투영 3) 특징 기반 주의 수집기; 4) 신경 렌더러 NeRF.
RGB 이미지와 쌍을 이루는 깊이 값이 없으므로 픽셀 특징이 어떤 특정 3D 표면 지점에 속하는지 확인할 방법이 없습니다. 재투영 모듈에서 픽셀 특징은 3D 공간에서 광선을 따른 각 위치의 표현으로 간주됩니다. 공식적으로, 3D 포인트, 관찰하는 2D 뷰, 카메라 포즈 및 고유 매개변수가 주어지면 해당 2D 픽셀 특징은 재투영 작업을 통해 검색될 수 있습니다.
기능 수집기에서 어텐션 메커니즘은 모든 입력 기능에 대한 고유 가중치를 학습한 다음 이를 함께 집계합니다. MLP를 통해 3D 포인트의 색상과 부피 밀도를 유추할 수 있습니다.
논문 [9]에서는 관찰되지 않은 시점에서 렌더링된 이미지 패치의 형상과 모양을 정규화하고 훈련 중에 빛 샘플링 공간을 어닐링하기 위해 RegNeRF를 제안합니다. 또한 정규화된 흐름 모델을 사용하여 관찰되지 않은 시점의 색상을 정규화합니다.
그림 10은 RegNeRF 모델의 개요입니다. 일련의 입력 이미지 컬렉션(파란색 카메라)이 주어지면 NeRF는 재구성 손실을 최적화하지만 희박한 입력의 경우 이 작업은 관찰되지 않은 뷰에서 작동합니다(빨간색). 카메라) 더 구체적으로, 주어진 방사선 필드에 대해 이러한 뷰에서 렌더링된 이미지 패치의 형상과 모양을 정규화하고, 장면을 통해 광선을 투사하고 관찰되지 않은 시점에서 이미지 패치를 렌더링합니다. 훈련된 정규화된 흐름 모델이 공급됩니다. 예측된 RGB 이미지 패치를 적용하고 예측의 로그 가능성을 최대화하여 모양을 정규화합니다. 렌더링된 깊이 패치에 부드러움 손실을 적용하여 형상을 정규화합니다. 사실적인 새 뷰를 렌더링하는 희박한 입력의 경우에도 3D 일관된 표현이 가능합니다. .
논문 [10]에서는 Few-Shot 이미지 합성 대신 새로운 뷰 외삽 방법을 연구합니다. 즉, (1) 훈련 이미지가 목표를 잘 설명할 수 있고, (2) 훈련 시점의 분포와 테스트 관점들 사이에는 RapNeRF(RAy Priors NeRF)라고 불리는 상당한 차이가 있습니다.
종이[10]의 통찰력은 3D 표면의 가시적 투영의 고유한 모양이 일관되어야 한다는 것입니다. 따라서 보이지 않는 뷰를 보이는 뷰로 훈련할 수 있는 무작위 레이 캐스팅 전략을 제안합니다. 추가적으로, 관찰 광선의 시선을 따라 미리 계산된 광선 아틀라스를 기반으로 외삽 뷰의 렌더링 품질이 더욱 향상될 수 있습니다. 주요 제한 사항은 RapNeRF가 다중 뷰 일관성을 활용하여 강력한 뷰 상관 관계의 효과를 제거한다는 것입니다.
랜덤 레이 캐스팅 전략에 대한 직관적인 설명은 그림 11에 나와 있습니다. 왼쪽 그림에는 3차원 점 v를 관찰하는 두 개의 광선이 있으며, r1은 훈련 공간에 위치하고 r2는 훈련에서 멀리 떨어져 있습니다. ray; NeRF Drift의 분포와 매핑 기능 Fc:(r,f)→c를 고려하면 r2를 따른 일부 샘플 광도는 부정확할 수 있습니다. v 픽셀 색상 추정보다 중간 그림은 NeRF 공식을 따라 동일한 3D 지점에 도달하는 가상 광선에 해당하는 광선을 찾는 것이 실제로 매우 불편합니다. 훈련 광선 풀; 오른쪽 그림에서 특정 훈련 광선(o에서 캐스팅하고 v를 통과함)에 대해 Random Ray Casting(RRC) 전략은 보이지 않는 가상 광선(o'에서 캐스팅하고 v를 통과함)을 무작위로 생성합니다. ) 원뿔 내에서 훈련 광선을 기반으로 온라인으로 의사 레이블을 지정합니다. RRC는 보이는 광선으로 보이지 않는 광선 훈련을 지원합니다.
RRC 전략을 사용하면 온라인 방식으로 무작위로 생성된 가상 광선에 의사 레이블을 할당할 수 있습니다. 특히 훈련 이미지 I에서 관심 있는 픽셀의 경우 보기 방향 d, 카메라 원점 o 및 세계 좌표계의 깊이 값 tz, 빛 r=o를 고려했을 때 +td. 여기서 tz는 사전 훈련된 NeRF를 사용하여 사전 계산 및 저장됩니다.
v=o+tzd가 r에 의해 닿는 가장 가까운 3D 표면 점을 나타낸다고 가정합니다. 훈련 단계에서 v는 새로운 원점으로 간주되고 중심선은 벡터 vo̅=−tzd 인 원뿔 내의 v에서 광선이 무작위로 캐스팅됩니다. 이는 vo̅를 구형 공간으로 변환하고 임의의 섭동 Δψ 및 Δθ를 ψ 및 θ로 도입하여 쉽게 달성할 수 있습니다. 여기서 Φ와 θ는 각각 vo̅의 방위각과 고도각입니다. Δψ 및 Δθ는 미리 정의된 간격 [−θ, θ]에서 균일하게 샘플링됩니다. 이것으로부터 우리는 θ′=θ+Δθ 및 Φ′=ψ+Δψ를 얻습니다. 따라서 가상 광선은 v를 통과하는 임의의 원점 o'에서 캐스팅될 수 있습니다. 이런 식으로 색상 강도 I(r)의 실제 값은 I~(r′)의 유사 레이블로 간주될 수 있습니다.
Basic NeRF는 "방향성 임베딩"을 활용하여 장면의 조명 효과를 인코딩합니다. 장면 피팅 프로세스는 훈련된 색상 예측 MLP를 시선 방향에 크게 의존하게 만듭니다. 새로운 뷰 보간의 경우 이는 문제가 되지 않습니다. 그러나 이는 훈련 및 테스트 조명 분포 간의 일부 차이로 인해 새로운 뷰 추정에는 적합하지 않을 수 있습니다. 순진한 생각은 단순히 방향성 임베딩("NeRF w/o dir"로 표시됨)을 제거하는 것입니다. 그러나 이로 인해 예상치 못한 잔물결이나 매끄럽지 않은 색상과 같은 이미지 아티팩트가 생성되는 경우가 많습니다. 이는 빛의 시야 방향이 표면 매끄러움과도 관련이 있을 수 있음을 의미합니다.
논문[10]은 광선 아틀라스를 계산하고 보간된 뷰의 문제를 포함하지 않고 외삽된 뷰의 렌더링 품질을 더욱 향상시킬 수 있음을 보여줍니다. 광선 아틀라스는 텍스처 아틀라스와 유사하지만 각 3D 정점에 대한 전역 광선 방향을 저장합니다.
특히, 각 이미지(예: 이미지 I)에 대해 광선의 시야 방향이 모든 공간 위치에 대해 포착되어 광선 맵을 생성합니다. 사전 훈련된 NeRF에서 대략적인 3D 메시(R3DM)를 추출하고 광선 방향을 3D 정점에 매핑합니다. 정점 V=(x,y,z)를 예로 들면 전역 조명 방향 d̅V는
로 표현되어야 합니다.여기서 K는 내부 카메라 매개변수이고, Γw2c(Ii)는 이미지의 카메라-세계 좌표계 변환 행렬입니다. Ii, Vuv(Ii)는 이미지의 정점 V의 2D 투영입니다. Ii 위치, L은 정점 V 재구성의 훈련 이미지 수입니다. 임의 카메라 포즈의 각 픽셀에 대해 광선 맵 텍스처(R3DM)가 포함된 3D 메시를 2D로 투영하면 d̅ 이전의 전역 광선을 얻습니다.
그림 12는 라이트 아틀라스의 개략도입니다. 즉, 훈련용 조명에서 라이트 아틀라스를 캡처하고 이를 사용하여 의자의 거친 3D 메시(R3DM)에 질감을 추가합니다. R(Ii)은 다음과 같습니다. 훈련 이미지 II의 광선 다이어그램.
RapNeRF를 훈련할 때 색상 예측을 위해 관심 픽셀 I(r)의 d̅를 사용하여 Fc의 d를 대체합니다. 이 대체 메커니즘이 발생할 확률은 0.5입니다. 테스트 단계에서 샘플 x의 광도 c는 대략 다음과 같습니다.
여기서 매핑 함수는 Fσ(x):x→(σ,f)입니다.
오리지널 NeRF는 장면 간 공유 정보를 탐색할 필요 없이 각 장면 표현을 독립적으로 최적화하며 시간이 많이 걸립니다. 이 문제를 해결하기 위해 연구자들은 조건부 입력으로 여러 관찰자 뷰를 수신하고 보편적인 신경 방사선장을 학습하는 PixelNeRF 및 MVSNeRF와 같은 모델을 제안했습니다. 분할 정복 설계 원칙에 따라 단일 이미지용 CNN 특징 추출기와 NeRF 네트워크로서의 MLP라는 두 가지 독립적인 구성 요소로 구성됩니다. 단일 뷰 스테레오 비전의 경우 이러한 모델에서 CNN은 이미지를 기능 그리드에 매핑하고 MLP는 쿼리 5D 좌표와 해당 CNN 기능을 단일 볼륨 밀도 및 뷰 종속 RGB 색상에 매핑합니다. 다중 뷰 스테레오 비전의 경우 CNN과 MLP는 입력 뷰 수를 처리할 수 없기 때문에 각 뷰 좌표계의 좌표와 해당 기능이 먼저 독립적으로 처리되고 각 뷰의 이미지 조절된 중간 표현이 획득됩니다. 다음으로, 보조 풀링 기반 모델을 사용하여 이러한 NeRF 네트워크 내에서 뷰 중간 표현을 집계합니다. 3D 이해 작업에서는 여러 보기가 장면에 대한 추가 정보를 제공합니다.
논문[11]에서는 신경 방사선장 장면을 특성화하기 위해 인코더-디코더 Transformer 프레임워크 TransNeRF를 제안합니다. TransNeRF는 단일 Transformer 기반 NeRF 주의 메커니즘을 통해 다중 뷰 간의 깊은 관계를 탐색하고 다중 뷰 정보를 좌표 기반 장면 표현으로 집계할 수 있습니다. 또한 TransNeRF는 레이캐스트 공간과 주변 뷰 공간의 해당 정보를 고려하여 장면의 모양과 모양의 로컬 기하학적 일관성을 학습합니다.
그림 13에 표시된 것처럼 TransNeRF는 대상 시야 광선에서 쿼리된 3D 지점을 렌더링합니다. TransNeRF에는 다음이 포함됩니다. 1) 주변 공간에는 밀도 뷰 디코더(Density-ViewDecoder)와 색상 뷰 디코더(Color- ViewDecoder)는 소스 뷰와 쿼리 공간 정보 ((x,y,z),d)를 3D 쿼리 포인트의 잠재 밀도 및 색상 표현에 통합합니다. 2) 레이 캐스팅 공간에서는 밀도 Ray 디코더(Density)를 사용합니다. -RayDecoder) 및 컬러 레이 디코더(Color-RayDecoder)는 대상 뷰 광선을 따라 인접한 지점을 고려하여 쿼리 밀도와 색상 표현을 향상시킵니다. 마지막으로, 대상 시선에 있는 쿼리 3D 점의 볼륨 밀도와 방향 색상을 TransNeRF에서 얻습니다.
논문[12]에서는 실시간으로 고품질 영상 합성을 제공하는 FWD라고 불리는 희소 입력을 사용하는 일반화 가능한 NVS 방법을 제안합니다. 명시적인 깊이와 차등 렌더링을 통해 FWD는 130~1000배의 속도와 더 나은 인식 품질을 달성합니다. 훈련이나 추론 중에 센서 깊이가 원활하게 통합되면 실시간 속도를 유지하면서 이미지 품질을 향상시킬 수 있습니다.
핵심 통찰력은 각 입력 픽셀의 깊이를 명시적으로 특성화하면 차별화 가능한 포인트 클라우드 렌더러를 사용하여 각 입력 뷰에 순방향 워핑을 적용할 수 있다는 것입니다. 이는 NeRF와 유사한 방법의 값비싼 볼륨 샘플링을 피하고 높은 이미지 품질을 유지하면서 실시간 속도를 달성합니다.
SynSin [1]은 단일 이미지 NVS(새 뷰 합성)를 위해 미분 가능한 포인트 클라우드 렌더러를 사용합니다. 논문 [12]에서는 SynSin을 다중 입력으로 확장하고 다중 뷰 정보를 융합하는 효과적인 방법을 탐색합니다.
FWD는 각 입력 뷰의 깊이를 추정하고 잠재 기능의 포인트 클라우드를 구축한 다음 포인트 클라우드 렌더러를 통해 새 뷰를 합성합니다. 서로 다른 시점의 관측치 간의 불일치 문제를 완화하기 위해 시점 관련 특징 MLP를 포인트 클라우드에 도입하여 시점 관련 결과를 모델링합니다. 또 다른 Transformer 기반 융합 모듈은 여러 입력의 기능을 효과적으로 결합합니다. 누락된 영역을 다시 칠하고 구성 품질을 더욱 향상시킬 수 있는 개선 모듈입니다. 전체 모델은 광도 및 지각 손실을 최소화하고 깊이와 합성 품질을 최적화하는 기능을 학습하면서 엔드투엔드 교육을 받습니다.
그림 14는 FWD의 개요입니다. 희소 이미지 세트가 주어지면 기능 네트워크 f(BigGAN 아키텍처 기반), 뷰 관련 기능 MLP ψ 및 딥 네트워크 d를 각 이미지에 사용합니다 Ii 포인트 클라우드(뷰의 기하학적 및 의미 정보 포함)를 구성합니다. Pi 이미지 외에도 d는 MVS(PatchmatchNet 기반)에서 추정한 깊이 또는 센서 깊이를 입력으로 사용하여 이미지 기능을 기반으로 한 세련된 깊이 Fi 및 상대 뷰 변경 Δv (정규화된 뷰 방향 vi 및 vt 기준, 즉 지점에서 입력 뷰의 중심까지 i 및 타겟 뷰 t), f 및 ψ 픽셀별 회귀 기능 Fi′을 사용하여 차별화 가능한 포인트 클라우드 렌더러 π(스플래팅)를 사용하여 포인트 클라우드를 투영하고 렌더링합니다. 대상 뷰, 즉 F~i; 렌더링 뷰 포인트 클라우드를 직접 집계하는 대신 Transformer T는 여러 입력의 렌더링 결과를 융합하고 개선 모듈 R을 적용하여 최종 이미지를 생성합니다. 입력에 의해 보이지 않는 영역을 의미적 및 기하학적으로 복구하고, 부정확한 깊이로 인한 로컬 오류를 수정하고, 특징 맵에 포함된 의미를 기반으로 지각 품질을 향상합니다.
로컬 이미지 특징을 사용하여 3D 개체를 재구성하는 기존 방법은 쿼리 3D 점에 입력 이미지 특징을 투영하여 색상과 밀도를 예측하고 이를 통해 3D 모양과 모양을 추론합니다. 이러한 이미지 조건부 모델은 입력 관점에 가까운 대상 관점 맵을 렌더링하는 데 적합합니다. 그러나 대상 원근이 너무 많이 이동하면 이 방법은 입력 뷰가 크게 가려지고 렌더링 품질이 급격히 떨어지며 예측이 흐릿해질 수 있습니다.
위 문제를 해결하기 위해 논문 [13]에서는 전역 및 로컬 특징을 사용하여 압축된 3D 표현을 형성하는 방법을 제안합니다. 전역 특징은 시각적 변환기에서 학습되는 반면, 로컬 특징은 2D 컨벌루션 네트워크에서 추출됩니다. 새로운 뷰를 합성하기 위해 MLP 네트워크는 학습된 3D 표현을 기반으로 볼륨 렌더링을 달성하도록 훈련됩니다. 이 표현을 사용하면 대칭 또는 표준 좌표계와 같은 강제 제약 없이 보이지 않는 영역을 재구성할 수 있습니다.
단일 이미지가 카메라 s에 있고 작업은 새로운 뷰를 합성하는 것입니다. 3D 점 x가 소스 이미지에 표시되면 해당 색상 Is(π(x))를 직접 사용할 수 있습니다. 여기서 π는 소스 뷰의 투영을 나타내며 해당 점이 새 뷰에 표시됨을 나타냅니다. x가 가려지면 투영된 π(x) 색상 이외의 정보를 사용합니다. 그림 15에서 볼 수 있듯이 이러한 종류의 정보를 얻는 데는 세 가지 가능한 솔루션이 있습니다. (a) 일반 NeRF는 3D 타겟 정보를 1D 벡터로 인코딩하는 1D 잠재 코드 기반 방법입니다. 서로 다른 3D 포인트가 동일한 코드를 공유하므로 (b) 2D 이미지 기반 방법은 픽셀별 이미지 특징에서 3D 점을 재구성합니다. 이러한 표현은 보이는 영역에서 더 나은 렌더링 품질을 보장하고 계산 효율성이 높지만 보이지 않는 영역에서는 렌더링이 흐려집니다. c) ) 3D 복셀 기반 방법은 3D 대상을 복셀 모음으로 처리하고 3D 컨볼루션을 적용하여 색상 RGB 및 밀도 벡터 σ를 생성합니다. 이는 더 빠르게 렌더링하고 3D 사전을 최대한 활용하여 렌더링합니다. 보이지 않는 형상이지만 복셀 크기와 제한된 수용 필드로 인해 렌더링 해상도가 제한됩니다.
그림 6은 전역-로컬 하이브리드 렌더링 방법의 개요입니다[13]. 먼저 입력 이미지를 N=8×8 이미지 블록으로 나누고 P 각 이미지 블록을 평면화하고 선형화합니다. 이미지 토큰(토큰) P1에 투영된 변환기 인코더는 이미지 토큰과 e를 입력으로 포함하는 학습 가능한 위치를 사용하여 전역 정보를 잠재 기능 집합으로 추출합니다. f 그런 다음 잠재 기능이 다중 레벨로 디코딩됩니다. 컨벌루션 디코더 기능 맵 WG 전역 기능 외에도 또 다른 2D CNN 모델을 사용하여 로컬 이미지 기능을 얻습니다. 마지막으로 NeRF MLP 모델을 사용하여 볼륨 렌더링 기능을 샘플링합니다.
논문[14]에서는 NeRF와 MVS의 장점을 결합하고 신경 3D 포인트 클라우드 및 관련 신경 특징을 사용하여 방사선장을 모델링하는 Point-NeRF를 제안합니다. Point-NeRF는 레이 행진 기반 렌더링 파이프라인에서 장면 표면 근처의 신경점 특징을 집계하여 효과적으로 렌더링할 수 있습니다. 또한 사전 훈련된 심층 네트워크의 직접 추론은 Point-NeRF를 초기화하여 신경 포인트 클라우드를 생성합니다. 포인트 클라우드는 NeRF의 시각적 품질을 초과하고 30배 빠르게 훈련하도록 미세 조정할 수 있습니다. Point-NeRF는 다른 3D 재구성 방법과 결합되어 재구성된 포인트 클라우드 데이터를 최적화하기 위해 성장 및 가지치기 메커니즘, 즉 높은 볼륨 밀도 영역에서 성장하고 낮은 볼륨 밀도에서 가지치기 메커니즘을 채택합니다.
Point-NeRF의 개요는 그림 17에 나와 있습니다. (a) 다중 뷰 이미지에서 Point-NeRF는 비용 볼륨 기반 3D CNN을 사용하여 각 뷰에 대한 깊이를 생성하고 다음을 통해 입력 이미지에서 2D 특징을 추출합니다. 2D CNN; 깊이 맵을 집계한 후 각 포인트가 공간적 위치, 신뢰도 및 투영되지 않은 이미지 특징을 갖는 포인트 기반 방사선 필드를 얻습니다. (b) 새로운 뷰를 합성하기 위해 차별화 가능한 광선 이동이 수행됩니다. 신경 포인트 클라우드 각 밝은 위치와 어두운 위치에서 근처의 밝은 부분과 어두운 부분을 계산합니다. Point-NeRF는 K개의 신경 포인트 이웃의 특징을 집계하고 휘도와 볼륨 밀도를 계산한 다음 볼륨 밀도 누적을 사용하여 휘도를 합산합니다. 전체 프로세스는 엔드투엔드 훈련이 가능하며 포인트 기반 방사선장은 렌더링 손실을 통해 최적화될 수 있습니다.
GRAF(Generative Radiance Field)[18]은 다중 스케일 패치 기반 판별기를 도입하여 고해상도 3D 인식 이미지의 합성과 모델 훈련을 달성하는 방사선장 생성 모델입니다. 포즈를 알 수 없는 카메라로 촬영한 2D 이미지만 필요합니다.
처리되지 않은 이미지를 학습하여 새로운 장면을 합성하는 모델을 학습하는 것이 목표입니다. 보다 구체적으로, 적대적 프레임워크는 GRAF(방사선 필드 생성 모델)를 훈련하는 데 활용됩니다.
그림 18은 GRAF 모델의 개요를 보여줍니다. 생성기는 카메라 매트릭스 K, 카메라 포즈 ξ, 2D 샘플링 모드 ν 및 모양/외관 코드를 입력으로 사용하고 이미지 패치를 예측합니다. P′; 판별자는 추론 시간에 합성 패치 P′를 실제 이미지 I에서 추출한 패치와 비교하여 각 이미지 픽셀 값에 대한 색상을 예측합니다. ; 그러나 이 작업은 훈련 시간에 너무 비용이 많이 들기 때문에 K×K픽셀 크기의 고정 패치가 예측되며, 전체 방사선 필드에 대한 그라데이션을 제공하기 위해 무작위로 크기가 조정되고 회전됩니다.
가상 K×K 패치를 생성하기 위해 중심과 스케일을 결정합니다. 무작위 패치 중심은 이미지 도메인 Ω에 걸쳐 균일한 분포에서 나오는 반면, 패치 스케일 s는 균일한 분포에서 나옵니다. 여기서 W와 H는 대상 이미지의 너비와 높이를 나타냅니다. 모양 및 모양 변수는 각각 모양 및 모양 분포 및 에서 샘플링됩니다. 실험에서는 및 모두 표준 가우스 분포를 사용합니다.방사선 필드는 완전히 연결된 심층 신경망으로 표현되며, 여기서 매개변수 θ는 3D 위치
x
의 위치 인코딩과 보는 방향 d을 RGB 색상 값으로 매핑합니다. c 및 부피 밀도 σ:
여기gθ는 두 개의 추가 잠재 코드에 따라 달라집니다. 하나는 모양 코드이고
zs는 대상 모양을 결정하고 하나의 모양 코드 za는 모양을 결정합니다. 여기서 gθ를 조건부 복사장이라고 하며 그 구조는 그림 19에 나와 있습니다. 먼저 x의 위치 코드와 모양 코드를 기반으로 모양 코드 h를 계산합니다. 밀도 헤드 σθ는 이를 볼륨 밀도 σ로 변환하여 3D 위치 x에서 색상 c을 예측하고 h의 위치 인코딩을 d과 연결합니다. 코드 za, 그리고 결과 벡터를 색상 헤드 cθ에 전달합니다. 시점 d 및 모양 코드와 독립적으로 σ를 계산하여 다중 뷰 일관성과 모양과 모양의 분리를 장려합니다. 두 개의 잠재 코드를 사용하여 모양과 모양을 분리하는 네트워크를 모델링하고 추론 중에 별도로 처리할 수 있습니다.
판별기는 컨볼루션 신경망으로 구현되어 예측된 패치 P'과 데이터 분포 pD 실제 이미지 I에서 추출된 패치 P를 비교합니다. 실제 이미지 I에서 K×K 패치를 추출하려면 먼저 위 생성기 패치를 추출하는 데 사용된 동일한 분포 pv에서 v=(u,s)를 추출한 다음 이중선형 보간 쿼리를 사용합니다. I 2D 이미지 좌표 P(u,s)에서 실제 패치 P를 샘플링합니다. Γ(I,v)를 사용하여 이 이중선형 샘플링 작업을 나타냅니다. 실험 결과, 패치가 서로 다른 규모의 무작위 위치에서 샘플링되더라도 모든 패치에 대해 공유 가중치가 있는 단일 판별자이면 충분하다는 사실이 밝혀졌습니다. 참고: 스케일에 따라 패치의 수용 필드가 결정됩니다. 따라서 교육을 용이하게 하려면 더 큰 수용 필드 패치로 시작하여 글로벌 컨텍스트를 캡처하세요. 그런 다음 더 작은 수용 필드가 있는 패치를 점진적으로 샘플링하여 로컬 세부 정보를 개선합니다. GIRAFFE[19]은 구조화되지 않은 원본 이미지를 학습하면서 제어 가능하고 사실적인 방식으로 장면을 생성하는 데 사용됩니다. 주요 기여는 두 가지 측면에 있습니다. 1) 결합된 3D 장면 표현은 생성 모델에 직접 통합되어 보다 제어 가능한 이미지 합성을 달성합니다. 2) 이 명시적인 3D 표현을 신경 렌더링 파이프라인과 결합하여 보다 빠른 추론과 더욱 사실적인 이미지를 가능하게 합니다. 이를 위해 장면 표현은 그림 20과 같이 생성된 신경 특징 필드의 조합입니다. 무작위로 샘플링된 카메라의 경우 장면의 특징 이미지는 단일 특징 필드를 기반으로 볼륨 렌더링됩니다. 렌더링 네트워크는 특징 이미지를 RGB 이미지로 변환합니다. 훈련 중에는 원본 이미지만 사용되며, 테스트 중에 카메라 포즈, 대상 포즈, 모델의 모양 및 모양을 포함한 이미지 형성 프로세스를 제어할 수 있습니다. 훈련 데이터의 범위를 넘어 확장됩니다. 예를 들어 훈련 이미지에 더 많은 객체가 있는 비율 장면을 포함하는 이미지를 합성할 수 있습니다. 씬 볼륨을 상대적으로 낮은 해상도의 피처 이미지로 렌더링하여 시간과 계산을 절약합니다. 신경망 렌더러는 이러한 특징 이미지를 처리하고 최종 렌더링을 출력합니다. 이러한 방식으로 이 방법은 고품질 이미지를 얻고 실제 장면으로 확장할 수 있습니다. 구조화되지 않은 원시 이미지 모음에 대해 학습할 때 이 방법을 사용하면 단일 및 다중 객체 장면의 제어 가능한 이미지 합성이 가능합니다. 장면을 결합할 때 고려해야 할 두 가지 상황이 있습니다: N 고정 및 N 변경(마지막 것은 배경입니다). 실제로 배경은 대상과 동일한 표현을 사용하여 표현됩니다. 단, 배율 및 이동 매개변수는 전체 장면에 걸쳐 고정되고 장면 공간 원점을 중심으로 중심이 지정됩니다. 2D 렌더링 연산자의 가중치는 특징 이미지를 최종 합성 이미지에 매핑합니다. 이 이미지는 Leaky ReLU 활성화를 통해 2D CNN으로 매개변수화할 수 있고 3x3 컨볼루션 및 가장 가까운 이웃 업샘플링과 결합하여 공간 해상도를 높일 수 있습니다. 마지막 레이어에서는 시그모이드 연산을 적용하여 최종 이미지 예측을 얻습니다. 그 개략도는 그림 21에 나와 있습니다. 판별자는 ReLU 활성화가 누출된 CNN이기도 합니다.
위 내용은 이미지 생성에 대한 새로운 관점: NeRF 기반 일반화 방법 논의의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!