캐릭터가 말하는 영상을 직접 생성하려면 사진과 오디오만 있으면 됩니다!
최근 Google 연구원들은 다중 모드 확산 모델 VLOGGER를 출시하여 가상 디지털 휴먼에 한 발 더 다가갔습니다.
문서 주소: https://enriccorona.github.io/vlogger/paper.pdf
Vlogger는 단일 입력 이미지를 수집하고 텍스트 또는 오디오 드라이버를 사용하여 다음을 포함한 인간 음성 비디오를 생성할 수 있습니다. 구강의 형태, 표정, 몸의 움직임 등이 모두 매우 자연스럽습니다.
먼저 몇 가지 예를 살펴보겠습니다.
영상에서 다른 사람의 목소리가 약간 일관성이 없다고 생각되면 편집자에게 문의해 주세요. 소리를 끄는 데 도움이 됩니다.
전체 생성된 효과가 매우 우아하고 자연스럽다는 것을 알 수 있습니다.
VLOGGER는 인간을 3D 모션으로 변환하는 모델과 시간 및 공간 제어를 통해 텍스트 생성 이미지를 향상시키는 새로운 확산 기반 아키텍처를 포함하여 생성 확산 모델의 최근 성공을 기반으로 합니다.
VLOGGER는 다양한 길이의 고품질 비디오를 생성할 수 있으며 이러한 비디오는 얼굴과 신체의 고급 표현을 통해 쉽게 제어할 수 있습니다.
예를 들어, 생성된 비디오 속 사람에게 닥치라고 요청할 수 있습니다:
또는 눈을 감으십시오:
이전 유사한 모델과 비교하여 VLOGGER는 필요하지 않음 개인을 대상으로 훈련되었으며 얼굴 감지 및 자르기에 의존하지 않으며 신체 움직임, 몸통 및 배경을 포함하여 의사소통할 수 있는 정상적인 인간 성능을 구성합니다.
AI의 목소리, AI의 표현, AI의 액션, AI의 장면 인간의 가치는 처음에는 데이터를 제공하는 것이지만 앞으로는 가치가 없을 수도 있지 않을까요?
연구원들은 이전의 유사한 데이터 세트보다 훨씬 더 큰 새롭고 다양한 데이터 세트 MENTOR를 수집했습니다. 훈련 세트에는 2,200시간과 800,000개의 다른 데이터가 포함되어 있습니다. 개인의 경우, 테스트 세트는 120시간이며, 서로 다른 신원을 가진 4000명입니다.
연구원들은 VLOGGER를 세 가지 다른 벤치마크에서 평가한 결과 해당 모델이 이미지 품질, 정체성 보존 및 시간적 일관성 측면에서 최첨단 성능을 달성했음을 보여주었습니다.
VLOGGER의 목표는 머리 움직임과 몸짓을 포함하여 대상자가 말하는 전체 과정을 묘사하는 가변 길이의 사실적인 비디오를 생성하는 것입니다.
위에 표시된 것처럼 열 1에 표시된 단일 입력 이미지와 샘플 오디오 입력이 주어지면 일련의 합성 이미지가 오른쪽 열에 표시됩니다.
머리 움직임, 시선, 깜박임, 입술 움직임 등 이전 모델이 할 수 없었던 기능을 생성하는 것을 포함하여 상체와 제스처를 생성하는 것은 오디오 기반 합성의 주요 발전입니다.
VLOGGER는 무작위 확산 모델을 기반으로 하는 2단계 파이프라인을 채택하여 음성에서 비디오로의 일대다 매핑을 시뮬레이션합니다.
첫 번째 네트워크는 오디오 파형을 입력으로 사용하여 대상 비디오 길이에 걸쳐 시선, 얼굴 표정 및 제스처를 담당하는 신체 모션 컨트롤을 생성합니다.
두 번째 네트워크는 대형 이미지 확산 모델을 확장하여 예측 신체 제어를 사용하여 해당 프레임을 생성하는 시간적 이미지-이미지 변환 모델입니다. 이 프로세스를 특정 신원과 일치시키기 위해 네트워크는 대상 인물의 참조 이미지를 얻습니다.
VLOGGER는 통계 기반 3D 신체 모델을 사용하여 비디오 생성 프로세스를 규제합니다. 입력 이미지가 주어지면 예측된 모양 매개변수는 대상 ID의 기하학적 특성을 인코딩합니다.
먼저, 네트워크 M은 입력 음성을 받아 3D 얼굴 표정과 신체 포즈로 구성된 일련의 N 프레임을 생성합니다.
움직이는 3D 몸체의 조밀한 표현은 비디오 생성 단계에서 2D 컨트롤 역할을 하도록 렌더링됩니다. 입력 이미지와 함께 이러한 이미지는 시간 확산 모델 및 초해상도 모듈에 대한 입력 역할을 합니다.
파이프라인의 첫 번째 네트워크는 입력 음성을 기반으로 모션을 예측하도록 설계되었습니다. 또한, 입력된 텍스트는 텍스트-음성 모델을 통해 파형으로 변환되고, 생성된 오디오는 표준 Mel-Spectrograms로 표현됩니다.
파이프라인은 Transformer 아키텍처를 기반으로 하며 시간 차원에서 4개의 다중 헤드 어텐션 레이어를 갖습니다. 프레임 번호 및 확산 단계의 위치 인코딩은 물론 입력 오디오 및 확산 단계에 대한 MLP 내장도 포함됩니다.
각 프레임에서 인과 마스크를 사용하여 모델이 이전 프레임에만 초점을 맞추도록 합니다. 이 모델은 매우 긴 시퀀스를 생성하기 위해 가변 길이 비디오(예: TalkingHead-1KH 데이터 세트)를 사용하여 학습되었습니다.
연구원들은 3D 인체 모델의 통계 기반 추정 매개변수를 사용하여 합성 비디오에 대한 중간 제어 표현을 생성합니다.
모델은 얼굴 표정과 신체 움직임을 모두 고려하여 표현력이 뛰어나고 역동적인 제스처를 생성합니다.
게다가 이전의 얼굴 생성 작업은 일반적으로 뒤틀린 이미지에 의존했지만 확산 기반 아키텍처에서는 이 방법이 무시되었습니다.
저자는 왜곡된 이미지를 사용하여 생성 프로세스를 안내할 것을 제안합니다. 이는 네트워크 작업을 촉진하고 캐릭터의 주체 정체성을 유지하는 데 도움이 됩니다.
다음 목표는 사람의 입력 이미지에 모션 처리를 수행하여 이전에 예측된 신체 및 얼굴 움직임을 따르는 것입니다.
ControlNet에서 영감을 받아 연구원들은 초기에 훈련된 모델을 동결하고 입력 시간 제어를 채택하여 인코딩 계층의 0으로 초기화된 훈련 가능한 복사본을 만들었습니다.
저자는 시간 영역에서 1차원 컨벌루션 레이어를 인터리브합니다. 네트워크는 연속적인 N개의 프레임과 컨트롤을 획득하여 훈련되고 입력 컨트롤을 기반으로 참조 캐릭터의 액션 비디오를 생성합니다.
모델은 작성자가 구축한 MENTOR 데이터 세트를 사용하여 훈련됩니다. 훈련 과정에서 네트워크는 일련의 연속 프레임과 임의의 참조 이미지를 획득하므로 이론적으로는 모든 비디오 프레임을 참조로 지정할 수 있습니다. .
실제로 저자는 대상 클립에서 더 멀리 떨어진 곳에서 참조 샘플을 선택합니다. 더 가까운 예는 일반화 가능성이 낮기 때문입니다.
네트워크는 두 단계로 훈련됩니다. 먼저 단일 프레임에서 새로운 제어 계층을 학습한 다음 시간적 구성 요소를 추가하여 비디오에 대해 훈련합니다. 이를 통해 첫 번째 단계에서 대규모 배치 크기를 사용하고 헤드 재생 작업을 더 빠르게 학습할 수 있습니다.
저자가 채택한 학습률은 5e-5이며, 이미지 모델은 두 단계 모두 스텝 크기 400k, 배치 크기 128로 학습되었습니다.
아래 그림은 입력 영상에서 생성된 타겟 영상의 다양한 분포를 보여줍니다. 가장 오른쪽 열에는 생성된 80개의 비디오에서 얻은 픽셀 다양성이 표시됩니다.
배경은 고정된 상태에서 사람의 머리와 몸이 크게 움직이며(빨간색은 픽셀 색상의 다양성이 높다는 의미), 다양성에도 불구하고 모든 동영상이 동일하게 보입니다. 매우 사실적입니다.
의 응용 프로그램 중 하나는 기존 동영상을 편집하는 것입니다. 이 경우 VLOGGER는 동영상을 촬영한 후 입이나 눈을 감는 등 피사체의 표정을 변경합니다.
실제로 작성자는 확산 모델의 유연성을 활용하여 변경되어야 하는 이미지 부분을 복구하여 비디오 편집이 변경되지 않은 원본 픽셀과 일치하도록 만듭니다.
모델의 주요 응용 프로그램 중 하나는 비디오 번역입니다. 이 경우 VLOGGER는 특정 언어로 된 기존 동영상을 가져와 입술과 얼굴 영역을 편집하여 새 오디오(예: 스페인어)에 맞춥니다.
위 내용은 사진 한 장으로 AI 영상을 만들 수 있어요! Google의 새로운 확산 모델로 캐릭터가 움직이게 됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!