>  기사  >  기술 주변기기  >  MotionClone: ​​교육이 필요하지 않으며 원클릭으로 비디오 동작을 복제합니다.

MotionClone: ​​교육이 필요하지 않으며 원클릭으로 비디오 동작을 복제합니다.

PHPz
PHPz원래의
2024-07-18 17:06:12922검색
MotionClone: ​​교육이 필요하지 않으며 원클릭으로 비디오 동작을 복제합니다.
AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

글로벌 카메라 움직임이든 프롬프트 단어로 지정된 새 장면에서 참조 비디오의 움직임을 복제할 필요가 없습니다. 또는 로컬 신체 움직임을 한 번만 클릭하면 완료됩니다. MotionClone: ​​교육이 필요하지 않으며 원클릭으로 비디오 동작을 복제합니다.

  • 페이퍼: https://arxiv.org/abs/2406.05338

  • 홈페이지: https://bujiazi.github.io/motionclone.github.io/

  • 코드: https:// github.com/Bujiazi/MotionClone

이 기사에서는 MotionClone이라는 새로운 프레임워크를 제안합니다. 참조 비디오가 주어지면 모델 훈련이나 미세 조정 없이 해당 모션 정보를 추출할 수 있습니다. 비디오를 텍스트 프롬프트와 함께 사용하여 맞춤형 모션으로 텍스트 생성 비디오를 얻을 수 있습니다(text2video).

MotionClone: ​​교육이 필요하지 않으며 원클릭으로 비디오 동작을 복제합니다.

이전 연구와 비교하여 MotionClone에는 다음과 같은 장점이 있습니다.

  • 교육이나 미세 조정이 필요하지 않습니다. 이전 방법에서는 일반적으로 모션 큐를 인코딩하기 위한 교육 모델이 필요하거나 특정 모션 패턴에 맞게 비디오 확산 모델을 미세 조정해야 합니다. . 동작 신호를 인코딩하는 훈련 모델은 훈련 영역 외부의 동작에 대한 일반화 능력이 좋지 않으며 기존 비디오 생성 모델을 미세 조정하면 기본 모델의 기본 비디오 생성 품질이 손상될 수 있습니다. MotionClone은 추가 교육이나 미세 조정이 필요하지 않으므로 기본 모델의 생성 품질을 최대한 유지하면서 모션 일반화 기능을 향상시킵니다.

  • 더 높은 모션 품질: 기존 오픈 소스 Wensheng 비디오 모델은 크고 합리적인 움직임을 생성하기 어렵습니다. MotionClone은 생성된 비디오의 모션 진폭을 크게 향상시키는 동시에 모션 합리성을 효과적으로 보장하는 주요 구성요소 타이밍 주의 모션 안내를 도입합니다.

  • 더 나은 공간 위치 관계: 직접 모션 복제로 인해 발생할 수 있는 공간 의미 불일치를 방지하기 위해 MotionClone은 교차 어텐션 마스크를 기반으로 한 공간 의미 정보 안내를 제안하여 올바른 공간 의미 정보와 시공간 모션 정보를 지원합니다. . 커플 링.

시간적 주의 모듈의 동작 정보

MotionClone: ​​교육이 필요하지 않으며 원클릭으로 비디오 동작을 복제합니다.

텍스트로 생성된 비디오 작업에서 시간적 주의 모듈(Temporal Attention)은 비디오의 프레임 간 상관 관계를 모델링하는 데 널리 사용됩니다. 시간적 주의 모듈의 주의 점수(주의 맵 점수)는 프레임 간의 상관 관계를 특성화하므로 직관적인 아이디어는 주의 점수를 완전히 일관되게 제한하여 모션 복제를 달성함으로써 프레임 간 연결을 복제할 수 있는지 여부입니다.

그러나 실험에 따르면 완전한 어텐션 맵(일반 제어)을 직접 복사하면 매우 대략적인 모션 전송만 달성할 수 있는 것으로 나타났습니다. 이는 어텐션의 가중치 대부분이 노이즈 또는 매우 미묘한 모션 정보에 해당하기 때문에 결합하기 어렵기 때문입니다. 반면에 텍스트로 지정된 새로운 시나리오에서는 잠재적으로 효과적인 이동 지침이 모호해집니다.

이 문제를 해결하기 위해 MotionClone은 시간적 주의의 주요 구성 요소만 사용하여 영상 생성을 드물게 안내함으로써 노이즈와 미묘한 움직임을 필터링하는 주성분 시간적 주의 유도 메커니즘(Primary Tempo-Attention Guidance)을 도입합니다. 정보의 영향을 통해 텍스트에 지정된 새로운 시나리오에서 모션을 효과적으로 복제할 수 있습니다.

MotionClone: ​​교육이 필요하지 않으며 원클릭으로 비디오 동작을 복제합니다.

공간 의미 교정

주요 구성 요소인 시간적 주의 모션 안내는 참조 비디오의 모션 복제를 달성할 수 있지만 움직이는 피사체가 사용자의 의도와 일치하는지 확인할 수 없으므로 비디오 생성 품질이 저하됩니다. .어떤 경우에는 움직이는 피사체의 탈구로 이어질 수도 있습니다.

위 문제를 해결하기 위해 MotionClone에서는 공간 의미 안내 메커니즘(위치 인식 의미 안내)을 도입하고 Cross Attention Mask를 통해 영상의 앞 배경 영역과 뒷 배경 영역을 구분하고 각각 의미 정보를 제한하여 이를 보장합니다. 비디오의 전면 및 후면 배경 공간 의미론의 합리적인 레이아웃은 시간적 움직임과 공간 의미론의 올바른 결합을 촉진합니다.

MotionClone 구현 세부 정보

MotionClone: ​​교육이 필요하지 않으며 원클릭으로 비디오 동작을 복제합니다.

  1. DDIM 반전: MotionClone은 DDIM 반전을 사용하여 입력 참조 비디오를 잠재 공간으로 반전하여 참조 비디오의 시간적 주의 주성분 추출을 구현합니다.

  2. 안내 단계: 각 잡음 제거 중에 MotionClone은 제어 가능한 비디오 생성을 위한 포괄적인 모션 및 의미론적 지침을 제공하기 위해 함께 작동하는 주요 구성 요소인 시간적 주의 모션 안내와 공간 의미론적 정보 안내를 동시에 도입합니다.

  3. Gaussian Mask: 공간 의미론적 안내 메커니즘에서 Gaussian 커널 기능은 잠재적인 구조적 정보의 영향을 제거하기 위해 교차 주의 마스크를 흐리게 하는 데 사용됩니다.

DAVIS 데이터 세트의 30개 비디오가 테스트에 사용되었습니다. 실험 결과에 따르면 MotionClone은 텍스트 맞춤, 타이밍 일관성 및 여러 사용자 설문 조사 지표에서 이전 모션 전송 방법을 능가하는 상당한 개선을 달성했습니다. 구체적인 결과는 아래 표에 나와 있습니다.

MotionClone: ​​교육이 필요하지 않으며 원클릭으로 비디오 동작을 복제합니다.

MotionClone의 생성 결과와 기존 모션 마이그레이션 방식을 비교하면 아래 그림과 같이 MotionClone이 앞선 성능을 가지고 있음을 알 수 있습니다.

MotionClone: ​​교육이 필요하지 않으며 원클릭으로 비디오 동작을 복제합니다.

요약하자면, MotionClone은 훈련이나 미세 조정 없이 사용자가 지정한 프롬프트 단어로 지정된 새로운 장면에 참조 비디오의 모션을 효과적으로 복제할 수 있는 새로운 모션 전송 프레임워크입니다. 기존 Vincent 비디오 모델을 위한 모션 맞춤화 솔루션입니다.

MotionClone은 기존 기본 모델의 생성 품질을 유지하는 기반으로 효율적인 주성분 동작 정보 안내 및 공간 의미 안내를 도입하여 텍스트와의 의미 정렬 능력을 보장하면서 참조 비디오와의 동작 일관성을 크게 향상시킵니다. 고품질의 제어 가능한 비디오 생성을 달성합니다.

또한 MotionClone은 풍부한 커뮤니티 모델에 직접 적응하여 다양한 비디오 생성을 달성할 수 있으며 확장성이 매우 높습니다.

위 내용은 MotionClone: ​​교육이 필요하지 않으며 원클릭으로 비디오 동작을 복제합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.