아직 NeRF를 모르시나요?
올해 컴퓨터 비전 분야에서 가장 핫한 AI 기술인 NeRF는 널리 활용되고 있다고 할 수 있으며 미래가 밝습니다.
사이트 B의 친구들은 이 기술을 새로운 방식으로 적용했습니다.
그렇다면 NeRF란 정확히 무엇일까요?
NeRF(Neural Radiance Fields)는 2020 ECCV 컨퍼런스의 최우수 논문에서 처음 제안된 개념으로, 암시적 표현을 새로운 차원으로 끌어올려 복잡한 3D 장면을 2D 포즈 이미지만으로 표현할 수 있습니다.
하나의 돌이 천개의 파도를 일으켰습니다. 이후 NeRF는 급속도로 발전하여 "새로운 관점 합성, 3차원 재구성" 등 다양한 기술 방향에 적용되었습니다.
NeRF는 훈련을 위해 포즈가 포함된 희박한 다중 각도 이미지를 입력하고 신경 방사선장 모델을 얻습니다. 이 모델에 따르면 아래 그림과 같이 어떤 시야각에서도 선명한 사진을 렌더링할 수 있습니다. MLP를 사용하여 3차원 장면을 암시적으로 학습하는 것으로 간단히 요약할 수도 있습니다.
네티즌들은 자연스럽게 NeRF와 똑같이 인기 있는 Deepfake를 비교할 것입니다.
MetaPhysics가 최근 발표한 기사에서는 NeRF의 진화 역사, 과제 및 장점을 살펴보고 NeRF가 결국 Deepfake를 대체할 것이라고 예측했습니다.
딥페이크 기술에 관해 눈길을 끄는 주제의 대부분은 2017년 딥페이크가 대중의 의식에 등장한 이후 인기를 얻은 두 가지 오픈 소스 소프트웨어 패키지인 DeepFaceLab(DFL)과 FaceSwap에 관한 것입니다.
두 패키지 모두 광범위한 사용자 기반과 활발한 개발자 커뮤니티를 보유하고 있지만 두 프로젝트 모두 GitHub 코드에서 크게 벗어나지 않습니다.
물론, DFL과 FaceSwap의 개발자들은 가만히 있지 않았습니다. 이제 더 비싼 GPU가 필요하지만 더 큰 입력 이미지를 사용하여 딥페이크 모델을 훈련하는 것이 가능합니다.
그러나 사실 지난 3년 동안 언론에서 홍보한 딥페이크 이미지 품질의 향상은 주로 최종 사용자 덕분이었습니다.
그들은 모델을 훈련하는 가장 좋은 방법인 데이터 수집에 대한 시간 절약적이고 드문 경험을 축적했으며(때로는 단일 실험에 몇 주가 걸릴 수 있음) 원본 2017 코드의 가장 바깥쪽 한계를 활용하고 확장하는 방법을 배웠습니다.
VFX 및 ML 연구 커뮤니티의 일부에서는 기계 학습 모델이 최대 1024×1024의 이미지에 대해 학습할 수 있도록 아키텍처를 확장하여 인기 있는 deepfake 패키지의 "엄격한 한계"를 극복하려고 노력하고 있습니다.
픽셀은 DeepFaceLab 또는 FaceSwap의 현재 실제 범위의 두 배로, 영화 및 TV 제작에 유용한 해상도에 더 가깝습니다.
다음으로 NeRF에 대해 알아볼까요~
2020년에 등장한 NeRF(Neural Radiance Fields)는 신경망 내에서 여러 시점의 사진을 엮어 사물과 환경을 재구성하는 방식입니다.
희소 입력 뷰 세트를 사용하여 기본 연속 볼륨 장면 기능을 최적화하여 복잡한 장면 뷰를 합성하는 데 최상의 결과를 얻습니다.
알고리즘은 장면을 표현하기 위해 완전히 연결된 심층 네트워크를 사용합니다. 장면의 입력은 단일 연속 5D 좌표(공간 위치(x, y, z) 및 보기 방향(θ, ψ))이고 출력은 볼륨입니다. 공간 위치 밀도 및 관련 방출 진폭 밝기.
카메라 광선을 따라 5D 좌표를 쿼리하여 뷰를 합성하고 고전적인 볼륨 렌더링 기술을 사용하여 출력 색상과 밀도를 이미지에 투영합니다.
구현 과정:
먼저, 연속적인 장면은 5D 벡터 값 함수로 표현됩니다. 입력은 3D 위치와 2D 보기 방향이고 해당 출력은 방출 색상 c와 볼륨 밀도 σ입니다.
실제로는 3D 데카르트 단위 벡터 d가 방향을 나타내는 데 사용됩니다. 이 연속적인 5D 장면 표현은 MLP 네트워크로 근사화되고 가중치가 최적화됩니다.
또한 위치 x의 함수로 체적 밀도 σ를 예측하도록 네트워크를 제한하고 RGB 색상 c를 위치 및 보기 방향의 함수로 예측할 수 있도록 하여 표현이 여러 보기에서 일관되게 표시되도록 권장됩니다.
이를 달성하기 위해 MLP는 먼저 8개의 완전히 연결된 레이어(ReLU 활성화 및 레이어당 256개 채널 사용)로 입력 3D 좌표 x를 처리하고 σ 및 256차원 특징 벡터를 출력합니다.
이 특징 벡터는 카메라 광선의 시야 방향과 연결되어 보기와 관련된 RGB 색상을 출력하는 완전히 연결된 추가 레이어로 전달됩니다.
또한 NeRF는 고해상도의 복잡한 장면을 표현하기 위해 두 가지 개선 사항을 도입했습니다. 첫 번째는 MLP가 고주파수 기능을 나타내는 데 도움이 되는 위치 인코딩이고, 두 번째는 고주파수 표현을 효율적으로 샘플링할 수 있도록 하는 계층화된 샘플링 프로세스입니다.
우리 모두 알고 있듯이 Transformer 아키텍처의 위치 인코딩은 전체 아키텍처의 입력으로 시퀀스에서 마커의 개별 위치를 제공할 수 있습니다. NeRF는 위치 코딩을 사용하여 연속 입력 좌표를 더 높은 차원 공간에 매핑하므로 MLP가 더 높은 주파수 함수를 더 쉽게 근사화할 수 있습니다.
그림에서 볼 수 있듯이 위치 인코딩을 제거하면 고주파 기하학과 질감을 표현하는 모델의 능력이 크게 감소하여 결과적으로 지나치게 부드러운 모양이 됩니다.
각 카메라 광선을 따라 N개의 쿼리 지점에서 신경 방사선 필드 네트워크를 조밀하게 평가하는 렌더링 전략은 매우 비효율적이므로 NeRF는 최종 렌더링의 예상 효과에 비례하여 샘플을 할당하여 개선하는 계층적 표현을 마침내 채택합니다. 렌더링 효율성.
간단히 말하면, NeRF는 장면을 표현하기 위해 더 이상 하나의 네트워크만 사용하지 않고 "대략적인" 네트워크와 "세밀한" 네트워크라는 두 개의 네트워크를 동시에 최적화합니다.
NeRF는 MLP를 사용해 사물과 장면을 연속함수로 표현한다는 점에서 과거의 단점을 해결했습니다. 이전 방법과 비교하여 NeRF는 더 나은 렌더링 효과를 생성할 수 있습니다.
그러나 NeRF는 또한 많은 기술적 병목 현상에 직면해 있습니다. 예를 들어 NeRF의 가속기는 낮은 대기 시간, 더 많은 대화형 환경 및 더 적은 훈련 시간을 달성하기 위해 상대적으로 유용한 다른 기능(예: 유연성)을 희생합니다.
그래서 NeRF가 획기적인 발전을 이루었지만 완벽한 결과를 얻으려면 여전히 일정 시간이 걸립니다.
기술은 발전하고 있으며 미래는 여전히 유망합니다!
위 내용은 Deepfake를 대체할 것으로 예상되나요? 올해 가장 인기 있는 NeRF 기술이 얼마나 멋진지 공개합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!