지난 2년 동안 LAION-5B와 같은 대규모 이미지 및 텍스트 데이터 세트가 공개되면서 이미지 생성 분야에서는 Stable Diffusion, DALL-E 등 놀라운 효과를 갖는 일련의 방법이 등장했습니다. 2, ControlNet 및 Composer. 이러한 방법의 출현은 이미지 생성 분야에서 큰 혁신과 발전을 가져왔습니다. 이미지 생성 분야는 지난 2년 동안 급속도로 발전했습니다.
그러나 비디오 세대는 여전히 큰 도전에 직면해 있습니다. 첫째, 이미지 생성에 비해 비디오 생성은 더 높은 차원의 데이터를 처리해야 하며 추가적인 시간 차원을 고려해야 하므로 타이밍 모델링 문제가 발생합니다. 시간적 역학 학습을 촉진하려면 더 많은 비디오-텍스트 쌍 데이터가 필요합니다. 그러나 비디오의 정확한 시간적 주석은 비용이 많이 들고 비디오 텍스트 데이터세트의 크기가 제한됩니다. 현재 기존 WebVid10M 비디오 데이터 세트에는 10.7M 비디오-텍스트 쌍만 포함되어 있으며 LAION-5B 이미지 데이터 세트와 비교하면 데이터 크기가 크게 다릅니다. 이는 비디오 생성 모델의 대규모 확장 가능성을 심각하게 제한합니다.
위 문제를 해결하기 위해 화중 과학기술대학교, 알리바바 그룹, 저장대학교 및 Ant 그룹의 공동 연구팀은 최근 TF-T2V 비디오 솔루션을 출시했습니다.
Paper 주소: https: //arxiv.org/abs/2312.15770
프로젝트 홈페이지: https://tf-t2v.github.io/
소스 코드는 곧 공개됩니다: https://github.com /ali-vilab/i2vgen -xl (VGen 프로젝트).
이 솔루션은 새로운 접근 방식을 취하고 풍부한 모션 역학을 학습할 수 있는 대규모 텍스트 프리 주석 비디오 데이터를 기반으로 비디오 생성을 제안합니다.
먼저 TF-T2V의 영상 생성 효과를 살펴보겠습니다:
빈센트 영상 과제
프롬트 단어: 눈 위의 거대한 서리 같은 생물의 영상을 생성하세요- 덮힌 땅.
프롬프트: 만화 꿀벌의 애니메이션 비디오를 생성하세요.
프롬프트: 미래형 판타지 오토바이가 포함된 비디오를 생성하세요.
프롬프트: 행복하게 웃고 있는 어린 소년의 동영상을 생성하세요.
프롬프트: 두통을 느끼는 노인의 영상을 생성하세요. tf-t2v는 제어 가능한 비디오 생성이 가능합니다. 해상도 비디오 합성:
준감시 설정
준감시 설정의 TF-T2V 방식은 "사람이 오른쪽에서 왼쪽으로 달린다"와 같은 동작의 텍스트 설명과 일치하는 동영상도 생성할 수 있습니다.
TF-T2V의 핵심 아이디어는 모델을 모션 브랜치와 외관 브랜치로 나누고, 모션 브랜치를 사용하여 모션 역학을 모델링하는 것입니다. 모양 분기는 시각 정보를 학습하는 데 사용됩니다. 이 두 가지 분기는 공동으로 훈련되어 최종적으로 텍스트 기반 비디오 생성을 달성할 수 있습니다.
생성된 비디오의 시간적 일관성을 향상시키기 위해 저자 팀은 비디오 프레임 간의 연속성을 명시적으로 학습하기 위한 시간적 일관성 손실도 제안했습니다.
TF-T2V는 Vincent 비디오 작업뿐만 아니라 스케치-비디오, 비디오 인페인팅, 첫 번째 프레임과 같은 결합된 비디오 생성 작업에도 적합한 일반 프레임워크라는 점을 언급할 가치가 있습니다. -비디오 등
구체적인 내용과 더 많은 실험 결과는 원 논문이나 프로젝트 홈페이지를 참고해주세요.
또한 저자 팀은 TF-T2V를 교사 모델로 사용하고 일관성 증류 기술을 사용하여 VideoLCM 모델을 얻었습니다:
논문 주소: https://arxiv.org/abs/ 2312.09109
프로젝트 홈페이지 : https://tf-t2v.github.io/
소스코드 공개 예정 : https://github.com/ali-vilab/i2vgen-xl (VGen 프로젝트) .
약 50단계의 DDIM 노이즈 제거 단계가 필요했던 기존 영상 생성 방식과 달리, TF-T2V 기반의 VideoLCM 방식은 약 4단계의 추론 노이즈 제거만으로 고화질 영상을 생성할 수 있어 영상 생성 효율성이 크게 향상됩니다. 능률.
VideoLCM의 4단계 노이즈 제거 추론 결과를 살펴보겠습니다.
자세한 내용과 더 많은 실험 결과는 VideoLCM 원본 논문이나 프로젝트를 참조하세요. 홈페이지.
전체적으로 TF-T2V 솔루션은 비디오 생성 분야에 새로운 아이디어를 제공하고 데이터 세트 크기 및 라벨링 문제로 인한 문제를 극복합니다. TF-T2V는 텍스트가 없는 대규모 주석 비디오 데이터를 활용하여 고품질 비디오를 생성할 수 있으며 다양한 비디오 생성 작업에 적용됩니다. 이러한 혁신은 비디오 생성 기술의 발전을 촉진하고 모든 계층에 더 광범위한 응용 시나리오와 비즈니스 기회를 제공할 것입니다.
위 내용은 Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!