Google에서 새로운 비디오 프레임워크를 출시했습니다.
얼굴 사진과 연설 녹음만 있으면 실제와 같은 연설 비디오를 얻을 수 있습니다.
영상 길이는 가변적이며 현재 보이는 예시는 최대 10초 입니다.
입 모양이나 표정 모두 매우 자연스럽다는 것을 알 수 있습니다.
입력 이미지가 상체 전체를 덮는 경우 다양한 동작으로 사용할 수도 있습니다.
읽은 후 네티즌들은 다음과 같이 말했습니다.
이를 사용하면 더 이상 머리와 옷을 정리할 필요가 없습니다. 앞으로도 온라인 화상회의를 위해 좋은 옷을 입으세요.
그럼 인물 사진을 찍고 음성 오디오를 녹음하세요(수동 개 머리)
목소리로 인물 사진을 제어해 동영상을 생성하세요
이 프레임워크를 VLOGGER라고 합니다.
주로 확산 모델을 기반으로 하며 두 부분으로 구성됩니다.
하나는 인간과 3D 모션의 무작위 확산 모델입니다.
다른 하나는 텍스트-이미지 모델을 향상하기 위한 새로운 확산 아키텍처입니다.
그 중 전자는 오디오 파형을 입력으로 사용하여 눈, 표정 및 몸짓, 전반적인 신체 자세 등 캐릭터의 신체 제어 동작을 생성하는 역할을 담당합니다.
후자는 대규모 이미지 확산 모델을 확장하고 방금 예측된 동작을 사용하여 해당 프레임을 생성하는 데 사용되는 시간 차원 이미지 대 이미지 모델입니다.
결과가 특정 캐릭터 이미지에 일치하도록 하기 위해 VLOGGER는 매개변수 이미지의 포즈 맵도 입력으로 사용합니다.
VLOGGER 교육은 매우 큰 데이터 세트(MENTOR라는 이름)에서 완료됩니다.
얼마나 크나요? 길이는 2,200시간이며, 80만 개의 캐릭터 영상을 담고 있습니다.
그 중 테스트 세트의 영상 길이도 120시간, 총 4,000자입니다.
Google은 VLOGGER의 가장 뛰어난 성능은 다양성이라고 소개했습니다.
아래 그림과 같이 최종 픽셀 이미지의 색상이 어두울수록(빨간색) 액션이 풍부해집니다.
업계의 이전 유사한 방법과 비교할 때 VLOGGER의 가장 큰 장점은 모든 사람을 교육할 필요가 없고 얼굴 인식 및 자르기에 의존하지 않으며 생성된 비디오가 완전하다는 것입니다(얼굴과 입술 모두 포함). , 신체 움직임 포함) 등
구체적으로는 다음 표와 같습니다.
얼굴 재현 방식으로는 이러한 영상 생성을 오디오와 텍스트로 제어할 수 없습니다.
Audio-to-motion은 오디오를 3D 얼굴 움직임으로 인코딩하여 오디오를 생성할 수 있지만 생성되는 효과는 충분히 현실적이지 않습니다.
립싱크는 다양한 테마의 동영상을 처리할 수 있지만 입 움직임만 시뮬레이션할 수 있습니다.
비교해보면 후자의 두 가지 방식인 SadTaker와 Styletalk는 Google VLOGGER에 가장 근접한 성능을 발휘하지만 신체를 제어할 수 없고 영상을 추가로 편집할 수 없다는 점에서 실패합니다.
영상 편집이라고 하면, 아래 사진처럼 VLOGGER 모델의 응용 중 하나가 바로 캐릭터가 눈을 감거나, 왼쪽 눈만 감거나, 눈 전체를 뜨게 할 수 있다는 것입니다. 한 번의 클릭으로:
또 다른 응용 프로그램은 비디오 번역입니다:
예를 들어 원본 비디오의 영어 음성을 동일한 입 모양을 가진 스페인어로 변경합니다.
네티즌들은 불만을 표시했습니다
결국 "기존 규칙"에 따라 Google은 해당 모델을 공개하지 않았으며 이제 우리가 볼 수 있는 것은 더 많은 효과와 논문뿐입니다.
글쎄, 불만이 많습니다:
모델의 이미지 품질, 립싱크가 일치하지 않음, 여전히 로봇처럼 보입니다.
그래서 일부 사람들은 부정적인 리뷰를 주저하지 않고 남겼습니다.
이게 구글 수준인가요?
"VLOGGER"라는 이름을 붙여서 죄송합니다.
——OpenAI의 소라와 비교하면 네티즌의 발언은 정말 무리가 없습니다. .
어떻게 생각하세요?
추가 효과:
https://enriccorona.github.io/vlogger/
전체 보고서:
https://enriccorona.github.io/vlogger/paper.pdf
위 내용은 Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!