>  기사  >  기술 주변기기  >  Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 "유리 청소" 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다!

Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 "유리 청소" 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다!

WBOY
WBOY앞으로
2023-12-15 12:39:16930검색

애니메이트애니원(AnimateAnyone) 이후 또 다른 알리바바 페이퍼 '댄스워크(Dance Work)'가 돌풍을 일으켰습니다

이제 얼굴 사진과 간단한 설명만 업로드하면 어디서나 춤을 출 수 있습니다!

예를 들어 아래 "유리 청소" 댄스 영상은 다음과 같습니다.

Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다!Picture

인물 사진을 업로드하고 해당 프롬프트 정보를 입력하기만 하면 됩니다

가을의 황금빛 단풍 속에서, 소녀 하늘색 드레스를 입고 웃는 얼굴로 춤을 춰보세요

프롬프트가 바뀌면 그에 따라 캐릭터의 배경과 의상도 바뀌게 됩니다. 예를 들어, 몇 가지 문장을 더 바꿀 수 있습니다:

한 소녀가 목조 주택에서 웃고 춤을 추고 있습니다. 그녀는 스웨터와 바지를 입고 있습니다.

한 소녀가 타임스퀘어에서 웃고 춤을 추고 있습니다. 그녀는 드레스 같은 옷을 입고 있습니다. 긴 바지가 달린 흰색 셔츠.

Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다!Pictures

누구나 언제 어디서나 춤출 수 있도록 하는 데 초점을 맞춘 Ali의 최신 연구인 DreaMoving입니다.

Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다!사진

그리고 실제 인물뿐만 아니라 만화, 애니메이션 캐릭터도 담을 수 있어요~

Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다!사진

프로젝트가 나오자마자 많은 네티즌들의 관심을 끌기도 했는데요. 사람들은 효과를 보고 "믿기지 않는다"고 했어요~

Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다!사진

그럼 이 결과는 어떻게 나온 걸까요? 이번 연구는 어떻게 진행됐나요?

이면의 원리

Stable Video Diffusion 및 Gen2와 같은 T2V(text-to-video) 모델의 출현으로 비디오 생성 분야에서 큰 발전을 이루었지만 여전히 많은 과제에 직면해 있습니다

예를 들어, 데이터 세트 측면에서 현재 오픈 소스 인간 댄스 비디오 데이터 세트가 부족하고 해당하는 정확한 텍스트 설명을 얻는 데 어려움이 있어 모델이 다양성, 프레임 일관성 및 더 긴 지속 시간을 갖춘 비디오를 생성하기가 어렵습니다. 그리고 인간 중심의 콘텐츠 생성 분야에서는 생성된 결과의 개인화 및 제어 가능성도 핵심 요소입니다.

사진Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다!이 두 가지 문제를 해결하기 위해 Alibaba 팀은 먼저 데이터 세트 처리를 시작했습니다.

연구원들은 먼저 인터넷에서 약 1,000개의 고품질 인간 댄스 동영상을 수집했습니다. 그런 다음 이 비디오를 약 6000개의 짧은 비디오(각각 8~10초)로 잘라서 비디오 클립에 전환이나 특수 효과가 없는지 확인했는데, 이는 시간 모델의 훈련에 도움이 됩니다

또한, 비디오의 텍스트 설명을 생성하기 위해 Minigpt-v2를 비디오 캡션 작성자(비디오 캡션 작성자)로 사용했으며 특히 "접지" 버전을 사용하여 프레임을 자세히 설명하라는 지시를 받았습니다.

키프레임 중앙 프레임을 기반으로 자막을 생성함으로써 영상의 주제와 배경 내용을 정확하게 표현할 수 있습니다

프레임워크 측면에서 알리바바 팀은 Stable Diffusion을 기반으로 한 DreaMoving이라는 모델을 제안했습니다.

주로 Denoising U-Net, Video ControlNet, Content Guider 등 3개의 신경망으로 구성되어 있습니다.

사진Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다!

그 중 Video ControlNet은 각 U-Net 블록 이후 Motion Block에 주입된 이미지 제어 네트워크로, 제어 시퀀스(포즈 또는 깊이)를 추가 시간 잔차로 처리합니다.

Denoising U-Net은 Stable- Diffusion U-Net의 파생물입니다. Net, 비디오 생성을 위한 모션 블록 포함.

콘텐츠 가이드는 입력 텍스트 프롬프트와 모양 표현(예: 얼굴)을 콘텐츠 삽입으로 전송합니다.

이를 통해 DreaMoving은 고품질의 충실도가 높은 비디오

Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다!사진

을 생성할 수 있지만 매우 안타깝게도 현재 DreaMoving 프로젝트에 대한 오픈 소스 코드가 없습니다.

이에 관심이 있으신 분들은 먼저 관심을 갖고 오픈소스 코드 공개를 기다리시면 됩니다~

다음 링크를 참고해주세요: [1]https://dreamoving.github.io/dreamoving/ [2]https://arxiv.org/abs/2312.05107[3]https://twitter.com/ProperPrompter/status/1734192772465258499[4]https://github.com/dreamoving/dreamoving-project

위 내용은 Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 "유리 청소" 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제