Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 '유리 청소' 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다!-일체 포함-php.cn

집

기술 주변기기

일체 포함

Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 '유리 청소' 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 15, 2023 pm 12:39 PM

프로젝트promptt2v

애니메이트애니원(AnimateAnyone) 이후 또 다른 알리바바 페이퍼 '댄스워크(Dance Work)'가 돌풍을 일으켰습니다

이제 얼굴 사진과 간단한 설명만 업로드하면 어디서나 춤을 출 수 있습니다!

예를 들어 아래 "유리 청소" 댄스 영상은 다음과 같습니다.

Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다! Picture

인물 사진을 업로드하고 해당 프롬프트 정보를 입력하기만 하면 됩니다

가을의 황금빛 단풍 속에서, 소녀 하늘색 드레스를 입고 웃는 얼굴로 춤을 춰보세요

프롬프트가 바뀌면 그에 따라 캐릭터의 배경과 의상도 바뀌게 됩니다. 예를 들어, 몇 가지 문장을 더 바꿀 수 있습니다:

한 소녀가 목조 주택에서 웃고 춤을 추고 있습니다. 그녀는 스웨터와 바지를 입고 있습니다.

한 소녀가 타임스퀘어에서 웃고 춤을 추고 있습니다. 그녀는 드레스 같은 옷을 입고 있습니다. 긴 바지가 달린 흰색 셔츠.

Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다! Pictures

누구나 언제 어디서나 춤출 수 있도록 하는 데 초점을 맞춘 Ali의 최신 연구인 DreaMoving입니다.

Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다! 사진

그리고 실제 인물뿐만 아니라 만화, 애니메이션 캐릭터도 담을 수 있어요~

Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다! 사진

프로젝트가 나오자마자 많은 네티즌들의 관심을 끌기도 했는데요. 사람들은 효과를 보고 "믿기지 않는다"고 했어요~

Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다! 사진

그럼 이 결과는 어떻게 나온 걸까요? 이번 연구는 어떻게 진행됐나요?

이면의 원리

Stable Video Diffusion 및 Gen2와 같은 T2V(text-to-video) 모델의 출현으로 비디오 생성 분야에서 큰 발전을 이루었지만 여전히 많은 과제에 직면해 있습니다

예를 들어, 데이터 세트 측면에서 현재 오픈 소스 인간 댄스 비디오 데이터 세트가 부족하고 해당하는 정확한 텍스트 설명을 얻는 데 어려움이 있어 모델이 다양성, 프레임 일관성 및 더 긴 지속 시간을 갖춘 비디오를 생성하기가 어렵습니다. 그리고 인간 중심의 콘텐츠 생성 분야에서는 생성된 결과의 개인화 및 제어 가능성도 핵심 요소입니다.

사진 Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다! 이 두 가지 문제를 해결하기 위해 Alibaba 팀은 먼저 데이터 세트 처리를 시작했습니다.

연구원들은 먼저 인터넷에서 약 1,000개의 고품질 인간 댄스 동영상을 수집했습니다. 그런 다음 이 비디오를 약 6000개의 짧은 비디오(각각 8~10초)로 잘라서 비디오 클립에 전환이나 특수 효과가 없는지 확인했는데, 이는 시간 모델의 훈련에 도움이 됩니다

또한, 비디오의 텍스트 설명을 생성하기 위해 Minigpt-v2를 비디오 캡션 작성자(비디오 캡션 작성자)로 사용했으며 특히 "접지" 버전을 사용하여 프레임을 자세히 설명하라는 지시를 받았습니다.

키프레임 중앙 프레임을 기반으로 자막을 생성함으로써 영상의 주제와 배경 내용을 정확하게 표현할 수 있습니다

프레임워크 측면에서 알리바바 팀은 Stable Diffusion을 기반으로 한 DreaMoving이라는 모델을 제안했습니다.

주로 Denoising U-Net, Video ControlNet, Content Guider 등 3개의 신경망으로 구성되어 있습니다.

사진 Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다!

그 중 Video ControlNet은 각 U-Net 블록 이후 Motion Block에 주입된 이미지 제어 네트워크로, 제어 시퀀스(포즈 또는 깊이)를 추가 시간 잔차로 처리합니다.

Denoising U-Net은 Stable- Diffusion U-Net의 파생물입니다. Net, 비디오 생성을 위한 모션 블록 포함.

콘텐츠 가이드는 입력 텍스트 프롬프트와 모양 표현(예: 얼굴)을 콘텐츠 삽입으로 전송합니다.

이를 통해 DreaMoving은 고품질의 충실도가 높은 비디오

Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 유리 청소 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다! 사진

을 생성할 수 있지만 매우 안타깝게도 현재 DreaMoving 프로젝트에 대한 오픈 소스 코드가 없습니다.

이에 관심이 있으신 분들은 먼저 관심을 갖고 오픈소스 코드 공개를 기다리시면 됩니다~

다음 링크를 참고해주세요: [1]https://dreamoving.github.io/dreamoving/ [2]https://arxiv.org/abs/2312.05107[3]https://twitter.com/ProperPrompter/status/1734192772465258499[4]https://github.com/dreamoving/dreamoving-project

위 내용은 Ali가 다시 한 번 혁신을 일으켰습니다. 문장과 사람의 얼굴로 '유리 청소' 댄스를 구현할 수 있으며 의상과 배경을 자유롭게 전환할 수 있습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

AI 내부 배포의 숨겨진 위험 : 거버넌스 격차 및 치명적인 위험Apr 28, 2025 am 11:12 AM

Apollo Research의 새로운 보고서에 따르면 고급 AI 시스템의 점검되지 않은 내부 배치는 상당한 위험을 초래합니다. 주요 AI 기업들 사이에서 널리 퍼져있는 이러한 감독 부족은 uncont에서 범위에 이르는 잠재적 인 치명적인 결과를 허용합니다.

AI Polygraph 구축Apr 28, 2025 am 11:11 AM

전통적인 거짓말 탐지기는 구식입니다. 손목 대역으로 연결된 포인터에 의존하는 것은 대상의 활력 징후와 물리적 반응을 인쇄하는 거짓말 탐지기가 거짓말을 식별하는 데 정확하지 않습니다. 그렇기 때문에 거짓말 탐지 결과는 일반적으로 법원에서 채택되지는 않지만 많은 무고한 사람들이 감옥에 갇히게되었습니다. 대조적으로, 인공 지능은 강력한 데이터 엔진이며, 작동 원리는 모든 측면을 관찰하는 것입니다. 이것은 과학자들이 다양한 방식으로 진실을 찾는 응용 분야에 인공 지능을 적용 할 수 있음을 의미합니다. 한 가지 방법은 거짓말 탐지기처럼 심문을받는 사람의 중요한 부호 반응을 분석하지만보다 상세하고 정확한 비교 분석을 분석하는 것입니다. 또 다른 방법은 언어 마크 업을 사용하여 사람들이 실제로 말하는 것을 분석하고 논리와 추론을 사용하는 것입니다. 말이 갈 때, 한 거짓말은 또 다른 거짓말을 번식시키고 결국

항공 우주 산업에서 AI가 이륙을 위해 청산 되었습니까?Apr 28, 2025 am 11:10 AM

혁신의 선구자 인 항공 우주 산업은 AI를 활용하여 가장 복잡한 도전을 해결하고 있습니다. Modern Aviation의 복잡성 증가는 AI의 자동화 및 실시간 인텔리전스 기능이 필요합니다.

베이징의 봄 로봇 레이스를보고 있습니다Apr 28, 2025 am 11:09 AM

로봇 공학의 빠른 발전은 우리에게 매혹적인 사례 연구를 가져 왔습니다. Noetix의 N2 로봇의 무게는 40 파운드가 넘고 키가 3 피트이며 백 플립을 할 수 있다고합니다. Unitree의 G1 로봇의 무게는 N2 크기의 약 2 배이며 키는 약 4 피트입니다. 경쟁에 참여하는 작은 휴머노이드 로봇도 많으며 팬이 앞으로 나아가는 로봇도 있습니다. 데이터 해석 하프 마라톤은 12,000 명 이상의 관중을 끌어 들였지만 21 명의 휴머노이드 로봇 만 참여했습니다. 정부는 참여 로봇이 경쟁 전에 "집중 훈련"을 수행했다고 지적했지만 모든 로봇이 전체 경쟁을 완료 한 것은 아닙니다. 챔피언 -Tiangong Ult Beijing Humanoid Robot Innovation Center가 개발했습니다.

거울 함정 : AI 윤리와 인간 상상력의 붕괴Apr 28, 2025 am 11:08 AM

인공 지능은 현재 형태로 진정으로 지능적이지 않습니다. 기존 데이터를 모방하고 정제하는 데 능숙합니다. 우리는 인공 지능을 만들지 않고 오히려 인공적인 추론을 만들고 있습니다.

새로운 Google Leak은 Handy Google 사진 기능 업데이트가 공개됩니다Apr 28, 2025 am 11:07 AM

보고서에 따르면 Google Photos Android 버전 7.26 코드에 업데이트 된 인터페이스가 숨겨져 있으며 사진을 볼 때마다 새로 감지 된 얼굴 썸네일 행이 화면 하단에 표시됩니다. 새로운 얼굴 썸네일에는 이름 태그가 없으므로 탐지 된 각 사람에 대한 자세한 정보를 보려면 개별적으로 클릭해야한다고 생각합니다. 현재이 기능은 Google 사진이 이미지에서 찾은 사람들 외에는 정보를 제공하지 않습니다. 이 기능은 아직 사용할 수 없으므로 Google이 어떻게 정확하게 사용할 것인지 모릅니다. Google은 썸네일을 사용하여 선택된 사람들의 더 많은 사진을 찾는 속도를 높이거나 편집 할 개인을 선택하는 것과 같은 다른 목적으로 사용될 수 있습니다. 기다렸다가 보자. 지금은

강화 조정 안내서 - 분석 VidhyaApr 28, 2025 am 09:30 AM

강화 결합은 인간의 피드백을 기반으로 조정하도록 모델을 가르치면서 AI 개발을 흔들었다. 감독 학습 기초가 보상 기반 업데이트와 혼합되어 더 안전하고 정확하며 진정으로 도움을줍니다.

Let 's Dance : 인간 신경 그물을 미세 조정하기위한 구조화 된 움직임Apr 27, 2025 am 11:09 AM

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

Dreamweaver Mac版

시각적 웹 개발 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.