>기술 주변기기 >일체 포함 >AIGC가 너무 빨리 발전하고 있어요! Meta는 최초의 텍스트 기반 4D 비디오 신디사이저를 출시합니다. 3D 게임 모델러도 해고됩니까?

AIGC가 너무 빨리 발전하고 있어요! Meta는 최초의 텍스트 기반 4D 비디오 신디사이저를 출시합니다. 3D 게임 모델러도 해고됩니까?

王林
王林앞으로
2023-04-08 11:21:15811검색

AI 생성 모델은 지난 기간 동안 이미지 분야에서 엄청난 발전을 이루었습니다. 사용자는 자연어 프롬프트(예: DALL-E 2, Stable Diffusion)를 입력하거나 시간 차원에서 이미지를 생성할 수 있습니다. 확장하여 연속 비디오(예: Phenaki)를 생성하거나 공간 차원을 확장하여 3D 모델(예: Dreamfusion)을 직접 생성합니다.

그러나 아직까지 이러한 작업은 여전히 ​​고립된 연구 상태에 있으며, 서로 기술적인 교차점이 없습니다.

최근 Meta AI 연구진은 비디오와 3D 생성 모델의 장점을 결합하여 자연어 설명을 input 을 사용하고 모든 관점에서 렌더링할 수 있는 동적 3차원 장면 표현을 출력합니다.

AIGC가 너무 빨리 발전하고 있어요! Meta는 최초의 텍스트 기반 4D 비디오 신디사이저를 출시합니다. 3D 게임 모델러도 해고됩니까?

논문 링크: https://arxiv.org/abs/2301.11280

프로젝트 링크: https://make-a-video3d.github.io/

MAV3D는 주어진 텍스트 설명을 기반으로 3차원의 역동적인 장면을 생성할 수 있는 최초의 모델이기도 합니다.

본 논문에서 제안하는 방법은 4D 동적 NeRF(Neural Radiation Field)를 사용하여 T2V(text-to-video) 확산 기반 모델을 쿼리하여 장면 표현, 밀도 및 동작 일관성을 최적화하고, 제공된 텍스트 비디오 출력은 모든 카메라 위치 및 각도에서 볼 수 있으며 모든 3D 환경으로 합성될 수 있습니다.

이 방법은 비디오 게임, 시각 효과 또는 증강 현실과 가상 현실을 위한 3D 자산을 생성하는 데 사용할 수 있습니다.

이미지 생성 및 비디오 생성 작업과 달리 인터넷에는 교육용으로 사용할 수 있는 캡션 데이터가 많지만 AIGC가 너무 빨리 발전하고 있어요! Meta는 최초의 텍스트 기반 4D 비디오 신디사이저를 출시합니다. 3D 게임 모델러도 해고됩니까?기성 4D 모델 컬렉션

조차 없습니다.

AIGC가 너무 빨리 발전하고 있어요! Meta는 최초의 텍스트 기반 4D 비디오 신디사이저를 출시합니다. 3D 게임 모델러도 해고됩니까?Corgi 공놀이

MAV3D의 훈련에는 3D 또는 4D 데이터가 필요하지 않습니다

. T2V 모델은 텍스트-이미지 쌍과 레이블이 없는 비디오에 대해서만 훈련하면 됩니다.

실험 부분에서 연구원들은 방법의 효율성을 입증하기 위해 포괄적인 정량적, 정성적 실험을 수행했으며, 이는 이전에 확립된 내부 기준을 크게 향상시켰습니다.

텍스트를 4D 동적 장면으로

훈련 데이터가 부족하기 때문에 연구원들은 이 작업을 해결하기 위해 몇 가지 아이디어를 고안했습니다.

한 가지 접근 방식은 사전 훈련된 2D 비디오 생성기를 찾아 생성된 비디오에서 4D 재구성을 추출하는 것일 수 있습니다. 그러나 비디오에서 변형 가능한 물체의 모양을 재구성하는 것은 여전히 ​​매우 어려운 문제, 즉 Non-Rigid Structure from Motion(NRSfM)

입니다.

한 물체에 대한 여러 개의 동시 시점이 주어지면 작업이 간단해집니다. 실제 데이터에서는 다중 카메라 설정이 드물지만 연구원들은 기존 비디오 생성기가 암시적으로 장면의 임의의 시점 모델을 생성한다고 믿습니다.

즉, 비디오 생성기는 변형 가능한 물체의 형상과 측광을 재구성하기 위한 "통계적" 다중 카메라 설정으로 사용될 수 있습니다. AIGC가 너무 빨리 발전하고 있어요! Meta는 최초의 텍스트 기반 4D 비디오 신디사이저를 출시합니다. 3D 게임 모델러도 해고됩니까?

MAV3D 알고리즘은 동적 NeRF(Neural Radiation Field)를 최적화하고 입력 텍스트를 비디오로 디코딩하고 객체 주변의 무작위 시점을 샘플링하여 이를 달성합니다.

동적 NeRF를 최적화하기 위해 비디오 생성기를 직접 사용하는 것은 만족스러운 결과를 얻지 못했습니다. 구현 프로세스 중에 극복해야 할 몇 가지 문제가 있습니다.

1 효과적인 엔드투엔드 학습 가능 알고리즘. 동적 3D 장면 표현이 필요합니다.

2. 현재 학습을 위한 대규모(텍스트, 4D) 쌍 데이터 세트가 없기 때문에 지도 학습을 위한 데이터 소스가 필요합니다. 4D 출력에는 많은 메모리와 컴퓨팅 능력이 필요하기 때문에 우주에 있고 시간 차원에서 출력 해상도를 확장합니다.

MAV3D 모델

MAV3D 모델은 신경 방사선장(NeRF)에 대한 최신 연구를 기반으로 합니다. , 효율적인(정적) NeRF와 결과를 동적 NeRF로 결합하고 4D 장면을 6개의 다중 해상도 특징 평면 모음으로 나타냅니다.

해당(텍스트, 4D) 데이터 없이 이 표현을 감독하기 위해 연구원들은 동적 장면 렌더링을 위한 다단계 교육 파이프라인을 제안하고 고품질 결과 중요성을 달성하는 데 각 구성 요소의 효율성을 보여줍니다.

주요 관찰은 T2V(텍스트-비디오) 모델을 사용하는 SDS(Score Distillation Sampling)를 사용하여 동적 장면을 직접 최적화하면 시각적 아티팩트와 차선의 수렴이 발생할 수 있다는 것입니다. AIGC가 너무 빨리 발전하고 있어요! Meta는 최초의 텍스트 기반 4D 비디오 신디사이저를 출시합니다. 3D 게임 모델러도 해고됩니까?

그래서 연구원들은 먼저 T2I(텍스트-이미지) 모델을 사용하여 정적 3D 장면을 텍스트 프롬프트와 일치시킨 다음 3D 장면 모델을 동적으로 향상하기로 결정했습니다.

또한 새로운 시간 인식 SDS 손실 및 모션 정규화 용어가 모델에 도입되었으며, 이는 현실적이고 도전적인 모션에 중요한 것으로 실험적으로 입증되었습니다.

추가 시간 인식 초해상도 미세 조정 단계를 통해 더 높은 해상도 출력으로 확장되었습니다. AIGC가 너무 빨리 발전하고 있어요! Meta는 최초의 텍스트 기반 4D 비디오 신디사이저를 출시합니다. 3D 게임 모델러도 해고됩니까?

마지막으로 T2V 모델의 초해상도 모듈 SDS를 사용하여 3D 장면 모델의 지도 학습을 위한 고해상도 그라데이션 정보를 획득하여 시각적 충실도를 높이고 작업 중에 고해상도 이미지를 처리할 수 있습니다. 추론 프로세스가 샘플링됩니다.

실험 부분

평가 지표

CLIP R-Precision을 사용하여 생성된 비디오를 평가합니다. 이는 텍스트와 생성된 장면 간의 일관성을 측정하는 데 사용할 수 있으며, 렌더링된 프레임 검색 정확도. 연구원들은 CLIP의 ViT-B/32 변형을 사용하여 다양한 뷰와 시간 단계에서 프레임을 추출했습니다.

이 외에도 생성된 두 비디오 중 선호도를 인간 주석자에게 물어봄으로써 파생될 수 있는 4가지 질적 측정항목이 사용됩니다.(i) 비디오 품질, (iii) 텍스트 단서에 대한 충실도; 운동의 진실성 및 (iv) 운동의 진정성

.

텍스트를 4D로 비교

이전에는 텍스트를 4D로 변환하는 방법이 없었기 때문에 연구원들은 비교를 위한 T2V 생성 방법을 기반으로 세 가지 기준을 설정했습니다. 시퀀스를 3차원 장면 표현으로 변환하는 데 세 가지 방법이 사용됩니다.

첫 번째 시퀀스는 원샷 신경 장면 렌더러(Point-E)를 통해 획득되고, 두 번째 시퀀스는 각 프레임에 독립적으로 pixelNeRF를 적용하여 생성되며, 세 번째 시퀀스는 COLMAP 추출 카메라와 함께 D-NeRF를 적용하여 생성됩니다. 위치.

이 방법은 객관적인 R-정확도 지표에서 기준 모델을 초과하고 모든 지표에서 인간 주석자가 더 높게 평가하는 것을 볼 수 있습니다.

AIGC가 너무 빨리 발전하고 있어요! Meta는 최초의 텍스트 기반 4D 비디오 신디사이저를 출시합니다. 3D 게임 모델러도 해고됩니까?

또한 연구원들은 다양한 카메라 시야각에서 방법의 성능을 조사했습니다.

절제 실험

AIGC가 너무 빨리 발전하고 있어요! Meta는 최초의 텍스트 기반 4D 비디오 신디사이저를 출시합니다. 3D 게임 모델러도 해고됩니까?

1 모델은 MAV3D(3단계)와 동일한 단계로 장면 초해상도(SR) 미세 조정 없이 학습되었으며, 인간 주석자는 모델을 선호합니다. 품질, 텍스트 정렬 및 모션 측면에서 SR 교육을 받았습니다.

AIGC가 너무 빨리 발전하고 있어요! Meta는 최초의 텍스트 기반 4D 비디오 신디사이저를 출시합니다. 3D 게임 모델러도 해고됩니까?

또한, 초해상도 미세 조정을 통해 렌더링된 비디오의 품질을 향상시켜 디테일이 더 세밀하고 노이즈가 적은 고해상도 비디오를 만들 수 있습니다.

AIGC가 너무 빨리 발전하고 있어요! Meta는 최초의 텍스트 기반 4D 비디오 신디사이저를 출시합니다. 3D 게임 모델러도 해고됩니까?

2. 사전 훈련 없음: 동적 장면을 직접 최적화하는 단계(정적 장면 사전 훈련 없이)가 MAV3D와 동일할 때 결과는 장면 품질이 훨씬 낮거나 수렴이 좋지 않습니다. 73% 및 65%의 경우, 정적으로 사전 훈련된 모델이 비디오 품질과 사실적인 모션 측면에서 선호됩니다.

위 내용은 AIGC가 너무 빨리 발전하고 있어요! Meta는 최초의 텍스트 기반 4D 비디오 신디사이저를 출시합니다. 3D 게임 모델러도 해고됩니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제