NeRF가 제공하는 미분 가능 렌더링 덕분에 최근 3D 생성 모델은 정지된 물체에 대해 놀라운 결과를 얻었습니다. 그러나 인체와 같이 더 복잡하고 변형 가능한 범주에서 3D 생성은 여전히 큰 과제를 안고 있습니다. 본 논문에서는 초해상도 모델을 사용하지 않고도 고해상도(512x256) 3D 인체 생성이 가능한 효율적인 결합 NeRF 인체 표현을 제안합니다. EVA3D는 4개의 대규모 인체 데이터 세트에서 기존 솔루션을 크게 능가했으며 코드는 오픈 소스였습니다.
NeRF에서 제공하는 미분 가능 렌더링 알고리즘을 사용하면 EG3D 및 StyleSDF와 같은 3차원 생성 알고리즘이 정적 객체 카테고리 생성에서 매우 좋은 결과를 얻었습니다. 그러나 얼굴이나 CAD 모델과 같은 카테고리에 비해 인체는 외관과 기하학적 측면에서 더 복잡하고 변형이 가능하기 때문에 2D 이미지에서 3D 인체를 생성하는 방법을 학습하는 것은 여전히 매우 어려운 작업입니다. 연구자들은 이 작업에 대해 ENARF-GAN, GNARF 등 몇 가지 시도를 해왔지만 인간의 비효율적인 표현으로 인해 고해상도 생성을 달성할 수 없어 생성 품질도 매우 낮습니다.
이 문제를 해결하기 위해 본 논문에서는 고해상도(512x256) 3D 인체 GAN 훈련 및 생성을 달성하기 위한 효율적인 결합 3D 인체 NeRF 표현을 제안합니다. 본 논문에서 제안한 인간 NeRF 표현과 3차원 인간 GAN 훈련 프레임워크를 아래에서 소개한다.
본 글에서 제안하는 인체 NeRF는 인체 자세와 형태를 편리하게 제어할 수 있는 파라메트릭 인체 모델 SMPL을 기반으로 합니다. NeRF 모델링을 할 때, 아래 그림과 같이 이 글에서는 인체를 16부분으로 나눈다. 각 부분은 로컬 모델링을 위한 소규모 NeRF 네트워크에 해당합니다. 각 부품을 렌더링할 때 이 문서에서는 로컬 NeRF에 대해서만 추론하면 됩니다. 이 희소 렌더링 방법은 더 적은 컴퓨팅 리소스로 기본 고해상도 렌더링을 달성할 수도 있습니다.
예를 들어, 체형과 동작 매개변수가 각각인 인체를 렌더링하는 경우 먼저 카메라 매개변수에 따라 빛을 샘플링하고 빛의 샘플링 지점에 역선형 블렌드 스키닝 작업(역선형)을 적용합니다. 블렌드 스키닝) SMPL 모델과의 상대적인 관계를 기반으로 하며, 공간에서 포즈를 취한 샘플링 포인트를 표준 공간으로 변환합니다. 그런 다음 정규 공간의 샘플링 지점이 하나 또는 여러 로컬 NeRF의 경계 상자에 속하는 것으로 계산된 다음 특정 샘플링 지점에 속할 때 NeRF 모델을 추론하여 각 샘플링 지점에 해당하는 색상과 밀도를 얻습니다. 다중 로컬 NeRF 중첩 영역에서 각 NeRF 모델이 추론되고 여러 결과가 창 기능을 사용하여 보간됩니다. 마지막으로 이 정보는 최종 렌더링을 얻기 위한 조명 통합에 사용됩니다.
이 글에서는 제안된 효율적인 인간 NeRF 표현을 기반으로 3차원 인간 GAN 훈련 프레임워크를 구현합니다. 각 훈련 반복에서 이 논문은 먼저 데이터 세트에서 SMPL 매개변수와 카메라 매개변수를 샘플링하고 가우스 노이즈 z를 무작위로 생성합니다. 이 기사에서 제안한 인체 NeRF를 사용하면 이 기사에서는 샘플링된 매개변수를 가짜 샘플인 2차원 인체 사진으로 렌더링할 수 있습니다. 이 기사에서는 데이터 세트의 실제 샘플을 사용하여 GAN의 적대적 훈련을 수행합니다.
DeepFashion과 같은 2D 인체 데이터 세트는 일반적으로 2D 비전 작업을 위해 준비되므로 인체의 포즈 다양성이 매우 제한됩니다. 불균형 정도를 정량화하기 위해 이 문서에서는 DeepFashion에서 모델 얼굴 방향의 빈도를 계산합니다. 아래 그림에서 볼 수 있듯이, 주황색 선은 DeepFashion에서 얼굴 방향의 분포를 나타냅니다. 이는 극도로 불균형하여 3차원 인체 표현을 학습하기 어렵다는 것을 알 수 있습니다. 이 문제를 완화하기 위해 우리는 아래 그림의 다른 색상 선으로 표시된 것처럼 인간의 자세에 따라 분포 곡선을 평탄화하는 샘플링 방법을 제안합니다. 이를 통해 훈련 중 모델은 인체에 대한 보다 다양하고 큰 각도의 이미지를 볼 수 있어 입체적인 인체 기하학 학습에 도움이 됩니다. 아래 표에서 볼 수 있듯이 샘플링 매개변수에 대한 실험적 분석을 수행했습니다. 인간 자세 안내 샘플링 방법을 추가한 후 이미지 품질(FID)은 약간 떨어지지만 학습된 3차원 기하학(Depth)은 크게 개선되었습니다.
다음 그림은 EVA3D의 일부 생성 결과를 보여줍니다. EVA3D는 인체 외관을 무작위로 샘플링하고 렌더링 카메라 매개변수, 인체 자세 및 신체 형상을 제어할 수 있습니다.
본 논문은 DeepFashion, SHHQ, UBCFashion, AIST 등 4가지 대규모 인간 데이터 세트에 대한 실험을 수행합니다. 본 연구에서는 최첨단 정적 3D 객체 생성 알고리즘인 EG3D와 StyleSDF를 비교합니다. 동시에 연구원들은 특히 3D 인간 생성을 위한 알고리즘 ENARF-GAN을 비교했습니다. 지표 선택 시 이 기사에서는 렌더링 품질 평가(FID/KID), 인체 제어 정확도(PCK) 및 지오메트리 생성 품질(깊이)을 고려합니다. 아래 그림에서 볼 수 있듯이 이 기사는 모든 데이터 세트와 모든 지표에서 이전 솔루션을 크게 능가합니다.
마지막으로 이 기사에서는 EVA3D의 응용 가능성도 보여줍니다. 먼저, 이 연구는 잠재 공간에서 차이를 테스트했습니다. 아래 그림과 같이 이 글은 입체적인 두 사람의 자연스러운 변화가 가능하며, 중간 결과물도 높은 퀄리티를 유지하고 있습니다. 또한, 본 논문에서는 GAN inversion에 대한 실험도 진행하였으며, 연구진은 2차원 GAN inversion에 흔히 사용되는 알고리즘인 Pivotal Tuning Inversion을 사용하였다. 아래 오른쪽 그림과 같이 이 방법을 사용하면 재구성된 대상의 모양을 더 잘 복원할 수 있지만 기하학적 부분에서 많은 세부 정보가 손실됩니다. 3D GAN의 반전은 여전히 매우 어려운 작업임을 알 수 있습니다.
본 논문은 최초의 고화질 3차원 인간 NeRF 생성 알고리즘 EVA3D를 제안하며, 2차원 인간 이미지 데이터만을 이용하여 학습이 가능합니다. EVA3D는 여러 대규모 인간 데이터 세트에서 최첨단 성능을 달성하고 다운스트림 작업에 적용할 수 있는 잠재력을 보여줍니다. EVA3D의 교육 및 테스트 코드는 오픈 소스로 공개되었으며 누구나 사용해 볼 수 있습니다!
위 내용은 2D 이미지를 사용하여 3D 인체를 만들 수 있습니다. 어떤 옷이든 입고 움직임을 바꿀 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!