>  기사  >  기술 주변기기  >  Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

王林
王林앞으로
2024-03-20 16:41:48464검색

Google은 새로운 비디오 프레임워크를 출시했습니다.

당신의 사진과 연설 녹음본만 있으면 당신의 연설이 담긴 생생한 비디오를 얻을 수 있습니다. 동영상 길이는 가변적이며 현재 표시되는 예시는 최대 10초입니다.

보시다시피

입 모양이든 표정이든 매우 자연스럽습니다. 입력 이미지가 상체 전체를 덮는 경우 풍부한

제스처와 함께 사용할 수도 있습니다.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성읽은 후 네티즌들은 다음과 같이 말했습니다.

이를 사용하면 더 이상 기다릴 필요가 없습니다. 앞으로는 온라인 화상 회의에 참석하기 전에 머리를 다듬고 옷을 입으십시오.

글쎄요, 인물 사진을 찍고 음성 오디오를 녹음하세요
(수동 개 머리)

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성목소리를 사용하여 인물 사진을 제어하여 비디오를 생성하세요

이 프레임워크를

VLOGGER이라고 합니다. 주로 확산 모델을 기반으로 하며 두 부분으로 구성됩니다.

하나는 무작위 인간 대 3D 모션

(인간 대 3D 모션)

확산 모델입니다. 다른 하나는 텍스트-이미지 모델을 향상하기 위한 새로운 확산 아키텍처입니다.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성그 중 전자는 오디오 파형을 입력으로 사용하여 눈, 표정 및 몸짓, 전반적인 신체 자세 등 캐릭터의 신체 제어 동작을 생성하는 역할을 담당합니다.

후자는 대규모 이미지 확산 모델을 확장하고 방금 예측된 동작을 사용하여 해당 프레임을 생성하는 데 사용되는 시간 차원 이미지 대 이미지 모델입니다.

결과가 특정 캐릭터 이미지에 일치하도록 하기 위해 VLOGGER는 매개변수 이미지의 포즈 다이어그램도 입력으로 사용합니다.

VLOGGER 교육은 매우 큰 데이터 세트

(MENTOR라는 이름)

에서 완료됩니다. 얼마나 크나요?

길이는 2200시간이며 800,000개의 캐릭터 동영상이 포함되어 있습니다. 그 중 테스트 세트의 영상 길이도 120시간, 총 4,000자입니다.

Google은 VLOGGER의 가장 뛰어난 성능은 다양성이라고 소개했습니다.

아래 그림과 같이 최종 픽셀 이미지의 부분이 어두울수록

(빨간색)

액션이 풍부해집니다.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성업계의 이전 유사한 방법과 비교할 때 VLOGGER의 가장 큰 장점은 모든 사람을 교육할 필요가 없고 얼굴 인식 및 자르기에 의존하지 않으며 생성된 비디오가 매우 완벽하다는 것입니다

(얼굴 및 입술, 신체 움직임 포함)

등등.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성구체적으로는 다음 표와 같습니다.

얼굴 재현 방식으로는 이러한 영상 생성을 오디오와 텍스트로 제어할 수 없습니다.

Audio-to-motion은 오디오를 3D 얼굴 움직임으로 인코딩하여 오디오를 생성할 수 있지만 생성되는 효과는 충분히 현실적이지 않습니다.

립싱크는 다양한 테마의 비디오를 처리할 수 있지만 입 움직임만 시뮬레이션할 수 있습니다.

비교하면 후자의 두 가지 방식인 SadTaker와 Styletalk는 Google VLOGGER에 가장 가까운 성능을 발휘하지만, 신체를 제어할 수 없고 추가로 영상을 편집할 수 없다는 점에서 패배합니다.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성영상 편집이라고 하면, 아래 사진처럼 VLOGGER 모델의 응용 중 하나가 바로 캐릭터가 눈을 감거나, 왼쪽 눈만 감거나, 눈 전체를 뜨게 할 수 있다는 것입니다. 한 번의 클릭으로:

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성 또 다른 응용 프로그램은 비디오 번역입니다:

예를 들어 원본 비디오의 영어 음성을 동일한 입 모양을 가진 스페인어로 변경합니다.

네티즌들은 불평했습니다

결국 "기존 규칙"에 따라 Google은 모델을 공개하지 않았습니다. 이제 우리가 볼 수 있는 것은 더 많은 효과와 논문뿐입니다.

글쎄, 불만이 많습니다:

모델의 이미지 품질, 립싱크가 일치하지 않음, 여전히 로봇처럼 보입니다.

따라서 일부 사람들은 주저하지 않고 부정적인 리뷰를 남겼습니다.

이게 구글 수준인가요?

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

'VLOGGER'라는 이름이 좀 아쉽네요.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

——OpenAI의 소라와 비교하면 네티즌의 발언은 정말 무리가 없습니다. .

어떻게 생각하세요?

추가 효과:https://enriccorona.github.io/vlogger/

전체 문서: https://enriccorona.github.io/vlogger/paper.pdf

위 내용은 Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제