Google은 새로운 비디오 프레임워크를 출시했습니다.
당신의 사진과 연설 녹음본만 있으면 당신의 연설이 담긴 생생한 비디오를 얻을 수 있습니다. 동영상 길이는 가변적이며 현재 표시되는 예시는 최대 10초입니다.
보시다시피
입 모양이든 표정이든 매우 자연스럽습니다. 입력 이미지가 상체 전체를 덮는 경우 풍부한
제스처와 함께 사용할 수도 있습니다.
읽은 후 네티즌들은 다음과 같이 말했습니다.
글쎄요, 인물 사진을 찍고 음성 오디오를 녹음하세요(수동 개 머리)
목소리를 사용하여 인물 사진을 제어하여 비디오를 생성하세요
이 프레임워크를
VLOGGER이라고 합니다. 주로 확산 모델을 기반으로 하며 두 부분으로 구성됩니다.
하나는 무작위 인간 대 3D 모션
(인간 대 3D 모션)확산 모델입니다. 다른 하나는 텍스트-이미지 모델을 향상하기 위한 새로운 확산 아키텍처입니다.
그 중 전자는 오디오 파형을 입력으로 사용하여 눈, 표정 및 몸짓, 전반적인 신체 자세 등 캐릭터의 신체 제어 동작을 생성하는 역할을 담당합니다.
후자는 대규모 이미지 확산 모델을 확장하고 방금 예측된 동작을 사용하여 해당 프레임을 생성하는 데 사용되는 시간 차원 이미지 대 이미지 모델입니다.
결과가 특정 캐릭터 이미지에 일치하도록 하기 위해 VLOGGER는 매개변수 이미지의 포즈 다이어그램도 입력으로 사용합니다.
VLOGGER 교육은 매우 큰 데이터 세트
(MENTOR라는 이름)에서 완료됩니다. 얼마나 크나요?
길이는 2200시간이며 800,000개의 캐릭터 동영상이 포함되어 있습니다. 그 중 테스트 세트의 영상 길이도 120시간, 총 4,000자입니다.
Google은 VLOGGER의 가장 뛰어난 성능은 다양성이라고 소개했습니다.
아래 그림과 같이 최종 픽셀 이미지의 부분이 어두울수록
(빨간색)액션이 풍부해집니다.
업계의 이전 유사한 방법과 비교할 때 VLOGGER의 가장 큰 장점은 모든 사람을 교육할 필요가 없고 얼굴 인식 및 자르기에 의존하지 않으며 생성된 비디오가 매우 완벽하다는 것입니다
등등.
구체적으로는 다음 표와 같습니다.
얼굴 재현 방식으로는 이러한 영상 생성을 오디오와 텍스트로 제어할 수 없습니다.
Audio-to-motion은 오디오를 3D 얼굴 움직임으로 인코딩하여 오디오를 생성할 수 있지만 생성되는 효과는 충분히 현실적이지 않습니다.
립싱크는 다양한 테마의 비디오를 처리할 수 있지만 입 움직임만 시뮬레이션할 수 있습니다.
비교하면 후자의 두 가지 방식인 SadTaker와 Styletalk는 Google VLOGGER에 가장 가까운 성능을 발휘하지만, 신체를 제어할 수 없고 추가로 영상을 편집할 수 없다는 점에서 패배합니다.
영상 편집이라고 하면, 아래 사진처럼 VLOGGER 모델의 응용 중 하나가 바로 캐릭터가 눈을 감거나, 왼쪽 눈만 감거나, 눈 전체를 뜨게 할 수 있다는 것입니다. 한 번의 클릭으로:
또 다른 응용 프로그램은 비디오 번역입니다:
예를 들어 원본 비디오의 영어 음성을 동일한 입 모양을 가진 스페인어로 변경합니다.
네티즌들은 불평했습니다
결국 "기존 규칙"에 따라 Google은 모델을 공개하지 않았습니다. 이제 우리가 볼 수 있는 것은 더 많은 효과와 논문뿐입니다.
글쎄, 불만이 많습니다:
모델의 이미지 품질, 립싱크가 일치하지 않음, 여전히 로봇처럼 보입니다.
따라서 일부 사람들은 주저하지 않고 부정적인 리뷰를 남겼습니다.
이게 구글 수준인가요?
'VLOGGER'라는 이름이 좀 아쉽네요.
——OpenAI의 소라와 비교하면 네티즌의 발언은 정말 무리가 없습니다. .
어떻게 생각하세요?
추가 효과:https://enriccorona.github.io/vlogger/
전체 문서: https://enriccorona.github.io/vlogger/paper.pdf
위 내용은 Google, 'Vlogger' 모델 출시: 사진 한 장으로 10초짜리 동영상 생성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

젬마 범위로 언어 모델의 내부 작업 탐색 AI 언어 모델의 복잡성을 이해하는 것은 중요한 도전입니다. 포괄적 인 툴킷 인 Gemma Scope의 Google 릴리스는 연구원에게 강력한 강력한 방법을 제공합니다.

비즈니스 성공 잠금 해제 : 비즈니스 인텔리전스 분석가가되는 가이드 원시 데이터를 조직의 성장을 이끌어내는 실행 가능한 통찰력으로 바꾸는 것을 상상해보십시오. 이것은 비즈니스 인텔리전스 (BI) 분석가의 힘 - GU에서 중요한 역할입니다.

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

소개 두 전문가가 중요한 프로젝트에 대해 협력하는 번화 한 사무실을 상상해보십시오. 비즈니스 분석가는 회사의 목표, 개선 영역을 식별하며 시장 동향과의 전략적 조정을 보장합니다. 시무

Excel 데이터 계산 및 분석 : 카운트 및 카운트 기능에 대한 자세한 설명 정확한 데이터 계산 및 분석은 특히 큰 데이터 세트로 작업 할 때 Excel에서 중요합니다. Excel은이를 달성하기위한 다양한 기능을 제공하며, 카운트 및 카운타 기능은 다른 조건에서 셀 수를 계산하기위한 핵심 도구입니다. 두 기능 모두 셀을 계산하는 데 사용되지만 설계 목표는 다른 데이터 유형을 대상으로합니다. Count 및 Counta 기능의 특정 세부 사항을 파고 고유 한 기능과 차이점을 강조하고 데이터 분석에 적용하는 방법을 배우겠습니다. 핵심 포인트 개요 수를 이해하고 쿠션하십시오

Chrome 's AI Revolution : 개인화되고 효율적인 탐색 경험 인공 지능 (AI)은 우리의 일상 생활을 빠르게 변화시키고 있으며 Chrome은 웹 브라우징 경기장에서 요금을 주도하고 있습니다. 이 기사는 흥분을 탐구합니다

재구성 영향 : 4 배의 결론 너무 오랫동안 대화는 AI의 영향에 대한 좁은 견해로 인해 주로 이익의 결론에 중점을 두었습니다. 그러나보다 전체적인 접근 방식은 BU의 상호 연결성을 인식합니다.

상황이 그 시점을 꾸준히 움직이고 있습니다. 양자 서비스 제공 업체와 신생 기업에 쏟아지는 투자는 업계의 중요성을 이해하고 있음을 보여줍니다. 그리고 점점 더 많은 실제 사용 사례가 그 가치를 보여주기 위해 떠오르고 있습니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

드림위버 CS6
시각적 웹 개발 도구

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기
