텍스트 한 줄만 입력하면 3D의 역동적인 장면을 만들 수 있나요?
예, 일부 연구자들은 이미 이를 수행했습니다. 현재 생성 효과는 아직 초기 단계에 있으며 일부 간단한 개체만 생성할 수 있음을 알 수 있습니다. 그러나 이 "원스텝" 방법은 여전히 많은 연구자들의 관심을 끌었습니다.
최근 논문에서 Meta의 연구자들은 처음으로 텍스트에서 3D 이미지를 생성할 수 있다고 제안했습니다. 설명 동적 장면 방법 MAV3D(Make-A-Video3D).
구체적으로 이 방법은 4D 동적 신경 방사선장(NeRF)을 사용하여 T2V(텍스트-비디오) 확산 기반 모델을 쿼리하여 장면 모양, 밀도 및 동작의 일관성을 최적화합니다. 제공된 텍스트로 생성된 동적 비디오 출력은 모든 카메라 각도나 각도에서 볼 수 있으며 모든 3D 환경으로 합성될 수 있습니다.
MAV3D에는 3D 또는 4D 데이터가 필요하지 않으며 T2V 모델은 텍스트-이미지 쌍과 레이블이 없는 비디오에 대해서만 훈련됩니다.
텍스트에서 4D 동적 장면을 생성하는 MAV3D의 효과를 살펴보겠습니다. 이미지에서 바로 이동 4D , 그 효과는 다음과 같습니다 :
연구진은 종합적인 정량적, 정성적 실험을 통해 방법의 유효성을 입증했으며, 기존에 확립된 내부 기준선도 개선되었습니다. 이는 텍스트 설명을 기반으로 3차원 동적 장면을 생성하는 최초의 방법인 것으로 알려졌다.
Method
이 연구의 목표는 자연어 설명에서 동적 3D 장면 표현을 생성할 수 있는 방법을 개발하는 것입니다. 훈련을 위한 텍스트 또는 3D 쌍이나 동적 3D 장면 데이터가 없기 때문에 이는 매우 어렵습니다. 따라서 우리는 사전 훈련된 T2V(text-to-video) 확산 모델을 사전 장면으로 사용하기로 결정했습니다. 이 모델은 대규모 이미지, 텍스트 및 대규모 이미지에 대한 훈련을 통해 장면의 사실적인 모습과 모션을 모델링하는 방법을 학습했습니다. 비디오 데이터.더 높은 수준에서 텍스트 프롬프트 p가 주어지면 연구는 공간과 시간의 어느 지점에서나 프롬프트와 일치하는 장면의 모습을 시뮬레이션하는 4D 표현에 적합할 수 있습니다. 페어링된 훈련 데이터가 없으면 연구는 의 출력을 직접 감독할 수 없습니다. 그러나 일련의 카메라 포즈가 주어지면 에서 렌더링할 수 있습니다. 일련의 이미지를 찍어 동영상으로 쌓아 V. 그런 다음 텍스트 프롬프트 p와 비디오 V는 고정되고 사전 훈련된 T2V 확산 모델로 전달됩니다. 이 모델은 비디오의 신뢰성과 프롬프트 정렬을 평가하고 SDS(Score Distillation Sampling)를 사용하여 장면 매개변수 θ의 업데이트 방향을 계산합니다.
위 파이프라인은 장면 모델에 시간적 차원을 추가하고 감독을 위해 T2I(텍스트-이미지) 모델 대신 T2V 모델을 사용하는 DreamFusion의 확장으로 간주될 수 있습니다. 그러나 고품질의 텍스트를 4D로 생성하려면 더 많은 혁신이 필요합니다.
구체적인 지침은 아래 그림을 참조하세요.
실험에서 연구원들은 텍스트 설명에서 동적 장면을 생성하는 MAV3D의 능력을 평가했습니다. 먼저, 연구원들은 Text-To-4D 작업에 대한 방법의 효율성을 평가했습니다. MAV3D가 이 작업에 대한 첫 번째 솔루션인 것으로 보고되었으므로 연구에서는 세 가지 대체 방법을 기준으로 개발했습니다. 둘째, T2V 및 Text-To-3D 하위 작업 모델의 단순화된 버전을 평가하고 이를 문헌의 기존 기준과 비교합니다. 셋째, 포괄적인 절제 연구는 방법 설계를 정당화합니다. 넷째, 실험에서는 동적 NeRF를 동적 메쉬로 변환하여 궁극적으로 모델을 Image-4D 작업으로 확장하는 프로세스를 설명합니다.
Metrics
이 연구에서는 텍스트와 생성된 장면 간의 일관성을 측정하는 CLIP R-Precision을 사용하여 생성된 비디오를 평가합니다. 보고된 측정항목은 렌더링된 프레임에서 입력 프롬프트를 검색하는 정확도입니다. 우리는 CLIP의 ViT-B/32 변형을 사용하고 다양한 뷰와 시간 단계에서 프레임을 추출했으며, 생성된 두 비디오에 대해 각각 인간 평가자에게 선호도를 묻는 네 가지 정성적 측정 기준을 사용했습니다. ii) 텍스트 프롬프트에 대한 충실도; (iii) 활동량; (iv) 움직임의 현실성. 텍스트 프롬프트 분할에 사용된 모든 기준선과 절제를 평가했습니다.
그림 1과 그림 2는 예시입니다. 더 자세한 시각화를 보려면 make-a-video3d.github.io를 참조하세요.
결과
표 1은 기준선(R - 정확도 및 인간 선호도)과의 비교를 보여줍니다. 인적 리뷰는 특정 환경의 모델과 비교하여 기준 다수를 선호하는 투표 비율로 표시됩니다.
표 2는 절제 실험의 결과를 보여줍니다.
다음과 같은 응용 프로그램에 대해 실시간 렌더링에 필요 가상현실과 전통방식을 이용한 게임 텍스처 메쉬와 같은 그래픽 엔진 표준 형식. HexPlane 모델은 아래와 같이 애니메이션 메쉬로 쉽게 변환될 수 있습니다. 먼저, 마칭 큐브 알고리즘을 사용하여 각 시간 t에서 생성된 불투명 필드에서 간단한 메시를 추출한 후 효율성을 위해 메시를 추출하고 노이즈가 있는 작은 연결 구성 요소를 제거합니다. XATLAS 알고리즘은 메시 정점을 텍스처 아틀라스에 매핑하는 데 사용되며, 텍스처는 각 정점 중심에 있는 작은 구에서 평균화된 HexPlane 색상을 사용하여 초기화됩니다. 마지막으로, 텍스처는 차별화 가능한 메시를 사용하여 HexPlane에서 렌더링한 일부 예제 프레임과 더 잘 일치하도록 더욱 최적화되었습니다. 이렇게 하면 모든 상용 3D 엔진에서 재생할 수 있는 텍스처 메시 컬렉션이 생성됩니다.
이미지를 4D로
그림 6과 10은 주어진 입력 이미지에서 깊이와 모션을 생성하여 4D 자산을 생성하는 방법의 기능을 보여줍니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
자세한 연구 내용은 원문을 참고해주세요.
위 내용은 한 줄의 텍스트가 3D의 역동적인 장면을 생성합니다. Meta의 "한 단계" 모델은 매우 강력합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!