Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성-하드웨어 검토-php.cn

집

하드웨어 튜토리얼

하드웨어 검토

Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 21, 2024 pm 12:21 PM

Google기계 인간번역하다효과영어아름다운 그림비디오 편집

Google에서 새로운 비디오 프레임워크를 출시했습니다.

얼굴 사진과 연설 녹음만 있으면 실제와 같은 연설 비디오를 얻을 수 있습니다.

영상 길이는 가변적이며 현재 보이는 예시는 최대 10초 입니다.

입 모양이나 표정 모두 매우 자연스럽다는 것을 알 수 있습니다.

입력 이미지가 상체 전체를 덮는 경우 다양한 동작으로 사용할 수도 있습니다.

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

읽은 후 네티즌들은 다음과 같이 말했습니다.

이를 사용하면 더 이상 머리와 옷을 정리할 필요가 없습니다. 앞으로도 온라인 화상회의를 위해 좋은 옷을 입으세요.

그럼 인물 사진을 찍고 음성 오디오를 녹음하세요(수동 개 머리)

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

목소리로 인물 사진을 제어해 동영상을 생성하세요

이 프레임워크를 VLOGGER라고 합니다.

주로 확산 모델을 기반으로 하며 두 부분으로 구성됩니다.

하나는 인간과 3D 모션의 무작위 확산 모델입니다.

다른 하나는 텍스트-이미지 모델을 향상하기 위한 새로운 확산 아키텍처입니다.

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

그 중 전자는 오디오 파형을 입력으로 사용하여 눈, 표정 및 몸짓, 전반적인 신체 자세 등 캐릭터의 신체 제어 동작을 생성하는 역할을 담당합니다.

후자는 대규모 이미지 확산 모델을 확장하고 방금 예측된 동작을 사용하여 해당 프레임을 생성하는 데 사용되는 시간 차원 이미지 대 이미지 모델입니다.

결과가 특정 캐릭터 이미지에 일치하도록 하기 위해 VLOGGER는 매개변수 이미지의 포즈 맵도 입력으로 사용합니다.

VLOGGER 교육은 매우 큰 데이터 세트(MENTOR라는 이름)에서 완료됩니다.

얼마나 크나요? 길이는 2,200시간이며, 80만 개의 캐릭터 영상을 담고 있습니다.

그 중 테스트 세트의 영상 길이도 120시간, 총 4,000자입니다.

Google은 VLOGGER의 가장 뛰어난 성능은 다양성이라고 소개했습니다.

아래 그림과 같이 최종 픽셀 이미지의 색상이 어두울수록(빨간색) 액션이 풍부해집니다.

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

업계의 이전 유사한 방법과 비교할 때 VLOGGER의 가장 큰 장점은 모든 사람을 교육할 필요가 없고 얼굴 인식 및 자르기에 의존하지 않으며 생성된 비디오가 완전하다는 것입니다(얼굴과 입술 모두 포함). , 신체 움직임 포함) 등

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

구체적으로는 다음 표와 같습니다.

얼굴 재현 방식으로는 이러한 영상 생성을 오디오와 텍스트로 제어할 수 없습니다.

Audio-to-motion은 오디오를 3D 얼굴 움직임으로 인코딩하여 오디오를 생성할 수 있지만 생성되는 효과는 충분히 현실적이지 않습니다.

립싱크는 다양한 테마의 동영상을 처리할 수 있지만 입 움직임만 시뮬레이션할 수 있습니다.

비교해보면 후자의 두 가지 방식인 SadTaker와 Styletalk는 Google VLOGGER에 가장 근접한 성능을 발휘하지만 신체를 제어할 수 없고 영상을 추가로 편집할 수 없다는 점에서 실패합니다.

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

영상 편집이라고 하면, 아래 사진처럼 VLOGGER 모델의 응용 중 하나가 바로 캐릭터가 눈을 감거나, 왼쪽 눈만 감거나, 눈 전체를 뜨게 할 수 있다는 것입니다. 한 번의 클릭으로:

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

또 다른 응용 프로그램은 비디오 번역입니다:

예를 들어 원본 비디오의 영어 음성을 동일한 입 모양을 가진 스페인어로 변경합니다.

네티즌들은 불만을 표시했습니다

결국 "기존 규칙"에 따라 Google은 해당 모델을 공개하지 않았으며 이제 우리가 볼 수 있는 것은 더 많은 효과와 논문뿐입니다.

글쎄, 불만이 많습니다:

모델의 이미지 품질, 립싱크가 일치하지 않음, 여전히 로봇처럼 보입니다.

그래서 일부 사람들은 부정적인 리뷰를 주저하지 않고 남겼습니다.

이게 구글 수준인가요?

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

"VLOGGER"라는 이름을 붙여서 죄송합니다.

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

——OpenAI의 소라와 비교하면 네티즌의 발언은 정말 무리가 없습니다. .

어떻게 생각하세요?

추가 효과:

https://enriccorona.github.io/vlogger/

전체 보고서:

https://enriccorona.github.io/vlogger/paper.pdf

위 내용은 Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 ZAKER에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

핫 AI 도구

뜨거운 도구

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는