>하드웨어 튜토리얼 >하드웨어 검토 >Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

WBOY
WBOY앞으로
2024-03-21 12:21:381052검색

Google에서 새로운 비디오 프레임워크를 출시했습니다.

얼굴 사진과 연설 녹음만 있으면 실제와 같은 연설 비디오를 얻을 수 있습니다.

영상 길이는 가변적이며 현재 보이는 예시는 최대 10초 입니다.

입 모양이나 표정 모두 매우 자연스럽다는 것을 알 수 있습니다.

입력 이미지가 상체 전체를 덮는 경우 다양한 동작으로 사용할 수도 있습니다.

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

읽은 후 네티즌들은 다음과 같이 말했습니다.

이를 사용하면 더 이상 머리와 옷을 정리할 필요가 없습니다. 앞으로도 온라인 화상회의를 위해 좋은 옷을 입으세요.

그럼 인물 사진을 찍고 음성 오디오를 녹음하세요(수동 개 머리)

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

목소리로 인물 사진을 제어해 동영상을 생성하세요

이 프레임워크를 VLOGGER라고 합니다.

주로 확산 모델을 기반으로 하며 두 부분으로 구성됩니다.

하나는 인간과 3D 모션의 무작위 확산 모델입니다.

다른 하나는 텍스트-이미지 모델을 향상하기 위한 새로운 확산 아키텍처입니다.

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

그 중 전자는 오디오 파형을 입력으로 사용하여 눈, 표정 및 몸짓, 전반적인 신체 자세 등 캐릭터의 신체 제어 동작을 생성하는 역할을 담당합니다.

후자는 대규모 이미지 확산 모델을 확장하고 방금 예측된 동작을 사용하여 해당 프레임을 생성하는 데 사용되는 시간 차원 이미지 대 이미지 모델입니다.

결과가 특정 캐릭터 이미지에 일치하도록 하기 위해 VLOGGER는 매개변수 이미지의 포즈 맵도 입력으로 사용합니다.

VLOGGER 교육은 매우 큰 데이터 세트(MENTOR라는 이름)에서 완료됩니다.

얼마나 크나요? 길이는 2,200시간이며, 80만 개의 캐릭터 영상을 담고 있습니다.

그 중 테스트 세트의 영상 길이도 120시간, 총 4,000자입니다.

Google은 VLOGGER의 가장 뛰어난 성능은 다양성이라고 소개했습니다.

아래 그림과 같이 최종 픽셀 이미지의 색상이 어두울수록(빨간색) 액션이 풍부해집니다.

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

업계의 이전 유사한 방법과 비교할 때 VLOGGER의 가장 큰 장점은 모든 사람을 교육할 필요가 없고 얼굴 인식 및 자르기에 의존하지 않으며 생성된 비디오가 완전하다는 것입니다(얼굴과 입술 모두 포함). , 신체 움직임 포함) 등

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

구체적으로는 다음 표와 같습니다.

얼굴 재현 방식으로는 이러한 영상 생성을 오디오와 텍스트로 제어할 수 없습니다.

Audio-to-motion은 오디오를 3D 얼굴 움직임으로 인코딩하여 오디오를 생성할 수 있지만 생성되는 효과는 충분히 현실적이지 않습니다.

립싱크는 다양한 테마의 동영상을 처리할 수 있지만 입 움직임만 시뮬레이션할 수 있습니다.

비교해보면 후자의 두 가지 방식인 SadTaker와 Styletalk는 Google VLOGGER에 가장 근접한 성능을 발휘하지만 신체를 제어할 수 없고 영상을 추가로 편집할 수 없다는 점에서 실패합니다.

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

영상 편집이라고 하면, 아래 사진처럼 VLOGGER 모델의 응용 중 하나가 바로 캐릭터가 눈을 감거나, 왼쪽 눈만 감거나, 눈 전체를 뜨게 할 수 있다는 것입니다. 한 번의 클릭으로:

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

또 다른 응용 프로그램은 비디오 번역입니다:

예를 들어 원본 비디오의 영어 음성을 동일한 입 모양을 가진 스페인어로 변경합니다.

네티즌들은 불만을 표시했습니다

결국 "기존 규칙"에 따라 Google은 해당 모델을 공개하지 않았으며 이제 우리가 볼 수 있는 것은 더 많은 효과와 논문뿐입니다.

글쎄, 불만이 많습니다:

모델의 이미지 품질, 립싱크가 일치하지 않음, 여전히 로봇처럼 보입니다.

그래서 일부 사람들은 부정적인 리뷰를 주저하지 않고 남겼습니다.

이게 구글 수준인가요?

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

"VLOGGER"라는 이름을 붙여서 죄송합니다.

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

——OpenAI의 소라와 비교하면 네티즌의 발언은 정말 무리가 없습니다. .

어떻게 생각하세요?

추가 효과:

https://enriccorona.github.io/vlogger/

전체 보고서:

https://enriccorona.github.io/vlogger/paper.pdf

위 내용은 Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 myzaker.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제