Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성-일체 포함-php.cn

집

기술 주변기기

일체 포함

Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

王林

Mar 20, 2024 pm 04:41 PM

모델기차비디오 편집

Google은 새로운 비디오 프레임워크를 출시했습니다.

당신의 사진과 연설 녹음본만 있으면 당신의 연설이 담긴 생생한 비디오를 얻을 수 있습니다. 동영상 길이는 가변적이며 현재 표시되는 예시는 최대 10초입니다.

보시다시피

입 모양이든 표정이든 매우 자연스럽습니다. 입력 이미지가 상체 전체를 덮는 경우 풍부한

제스처와 함께 사용할 수도 있습니다.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성 읽은 후 네티즌들은 다음과 같이 말했습니다.

이를 사용하면 더 이상 기다릴 필요가 없습니다. 앞으로는 온라인 화상 회의에 참석하기 전에 머리를 다듬고 옷을 입으십시오.

글쎄요, 인물 사진을 찍고 음성 오디오를 녹음하세요

(수동 개 머리)

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성 목소리를 사용하여 인물 사진을 제어하여 비디오를 생성하세요

이 프레임워크를

VLOGGER이라고 합니다. 주로 확산 모델을 기반으로 하며 두 부분으로 구성됩니다.

하나는 무작위 인간 대 3D 모션

(인간 대 3D 모션)

확산 모델입니다. 다른 하나는 텍스트-이미지 모델을 향상하기 위한 새로운 확산 아키텍처입니다.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성 그 중 전자는 오디오 파형을 입력으로 사용하여 눈, 표정 및 몸짓, 전반적인 신체 자세 등 캐릭터의 신체 제어 동작을 생성하는 역할을 담당합니다.

후자는 대규모 이미지 확산 모델을 확장하고 방금 예측된 동작을 사용하여 해당 프레임을 생성하는 데 사용되는 시간 차원 이미지 대 이미지 모델입니다.

결과가 특정 캐릭터 이미지에 일치하도록 하기 위해 VLOGGER는 매개변수 이미지의 포즈 다이어그램도 입력으로 사용합니다.

VLOGGER 교육은 매우 큰 데이터 세트

(MENTOR라는 이름)

에서 완료됩니다. 얼마나 크나요?

길이는 2200시간이며 800,000개의 캐릭터 동영상이 포함되어 있습니다. 그 중 테스트 세트의 영상 길이도 120시간, 총 4,000자입니다.

Google은 VLOGGER의 가장 뛰어난 성능은 다양성이라고 소개했습니다.

아래 그림과 같이 최종 픽셀 이미지의 부분이 어두울수록

(빨간색)

액션이 풍부해집니다.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성 업계의 이전 유사한 방법과 비교할 때 VLOGGER의 가장 큰 장점은 모든 사람을 교육할 필요가 없고 얼굴 인식 및 자르기에 의존하지 않으며 생성된 비디오가 매우 완벽하다는 것입니다

(얼굴 및 입술, 신체 움직임 포함)

등등.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성 구체적으로는 다음 표와 같습니다.

얼굴 재현 방식으로는 이러한 영상 생성을 오디오와 텍스트로 제어할 수 없습니다.

Audio-to-motion은 오디오를 3D 얼굴 움직임으로 인코딩하여 오디오를 생성할 수 있지만 생성되는 효과는 충분히 현실적이지 않습니다.

립싱크는 다양한 테마의 비디오를 처리할 수 있지만 입 움직임만 시뮬레이션할 수 있습니다.

비교하면 후자의 두 가지 방식인 SadTaker와 Styletalk는 Google VLOGGER에 가장 가까운 성능을 발휘하지만, 신체를 제어할 수 없고 추가로 영상을 편집할 수 없다는 점에서 패배합니다.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성 영상 편집이라고 하면, 아래 사진처럼 VLOGGER 모델의 응용 중 하나가 바로 캐릭터가 눈을 감거나, 왼쪽 눈만 감거나, 눈 전체를 뜨게 할 수 있다는 것입니다. 한 번의 클릭으로:

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성 또 다른 응용 프로그램은 비디오 번역입니다:

예를 들어 원본 비디오의 영어 음성을 동일한 입 모양을 가진 스페인어로 변경합니다.

네티즌들은 불평했습니다

결국 "기존 규칙"에 따라 Google은 모델을 공개하지 않았습니다. 이제 우리가 볼 수 있는 것은 더 많은 효과와 논문뿐입니다.

글쎄, 불만이 많습니다:

모델의 이미지 품질, 립싱크가 일치하지 않음, 여전히 로봇처럼 보입니다.

따라서 일부 사람들은 주저하지 않고 부정적인 리뷰를 남겼습니다.

이게 구글 수준인가요?

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

'VLOGGER'라는 이름이 좀 아쉽네요.

Google, Vlogger 모델 출시: 사진 한 장으로 10초짜리 동영상 생성

——OpenAI의 소라와 비교하면 네티즌의 발언은 정말 무리가 없습니다. .

어떻게 생각하세요?

추가 효과:https://enriccorona.github.io/vlogger/

전체 문서: https://enriccorona.github.io/vlogger/paper.pdf

위 내용은 Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Gemma Scope : AI의 사고 과정으로 들여다 보는 Google의 현미경Apr 17, 2025 am 11:55 AM

젬마 범위로 언어 모델의 내부 작업 탐색 AI 언어 모델의 복잡성을 이해하는 것은 중요한 도전입니다. 포괄적 인 툴킷 인 Gemma Scope의 Google 릴리스는 연구원에게 강력한 강력한 방법을 제공합니다.

비즈니스 인텔리전스 분석가는 누구이며 하나가되는 방법은 무엇입니까?Apr 17, 2025 am 11:44 AM

비즈니스 성공 잠금 해제 : 비즈니스 인텔리전스 분석가가되는 가이드 원시 데이터를 조직의 성장을 이끌어내는 실행 가능한 통찰력으로 바꾸는 것을 상상해보십시오. 이것은 비즈니스 인텔리전스 (BI) 분석가의 힘 - GU에서 중요한 역할입니다.

SQL에서 열을 추가하는 방법? - 분석 VidhyaApr 17, 2025 am 11:43 AM

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

비즈니스 분석가 대 데이터 분석가Apr 17, 2025 am 11:38 AM

소개 두 전문가가 중요한 프로젝트에 대해 협력하는 번화 한 사무실을 상상해보십시오. 비즈니스 분석가는 회사의 목표, 개선 영역을 식별하며 시장 동향과의 전략적 조정을 보장합니다. 시무

Excel의 Count와 Counta는 무엇입니까? - 분석 VidhyaApr 17, 2025 am 11:34 AM

Excel 데이터 계산 및 분석 : 카운트 및 카운트 기능에 대한 자세한 설명 정확한 데이터 계산 및 분석은 특히 큰 데이터 세트로 작업 할 때 Excel에서 중요합니다. Excel은이를 달성하기위한 다양한 기능을 제공하며, 카운트 및 카운타 기능은 다른 조건에서 셀 수를 계산하기위한 핵심 도구입니다. 두 기능 모두 셀을 계산하는 데 사용되지만 설계 목표는 다른 데이터 유형을 대상으로합니다. Count 및 Counta 기능의 특정 세부 사항을 파고 고유 한 기능과 차이점을 강조하고 데이터 분석에 적용하는 방법을 배우겠습니다. 핵심 포인트 개요 수를 이해하고 쿠션하십시오