찾다
기술 주변기기일체 포함Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

지난 2년 동안 LAION-5B와 같은 대규모 이미지 및 텍스트 데이터 세트가 공개되면서 이미지 생성 분야에서는 Stable Diffusion, DALL-E 등 놀라운 효과를 갖는 일련의 방법이 등장했습니다. 2, ControlNet 및 Composer. 이러한 방법의 출현은 이미지 생성 분야에서 큰 혁신과 발전을 가져왔습니다. 이미지 생성 분야는 지난 2년 동안 급속도로 발전했습니다.

그러나 비디오 세대는 여전히 큰 도전에 직면해 있습니다. 첫째, 이미지 생성에 비해 비디오 생성은 더 높은 차원의 데이터를 처리해야 하며 추가적인 시간 차원을 고려해야 하므로 타이밍 모델링 문제가 발생합니다. 시간적 역학 학습을 촉진하려면 더 많은 비디오-텍스트 쌍 데이터가 필요합니다. 그러나 비디오의 정확한 시간적 주석은 비용이 많이 들고 비디오 텍스트 데이터세트의 크기가 제한됩니다. 현재 기존 WebVid10M 비디오 데이터 세트에는 10.7M 비디오-텍스트 쌍만 포함되어 있으며 LAION-5B 이미지 데이터 세트와 비교하면 데이터 크기가 크게 다릅니다. 이는 비디오 생성 모델의 대규모 확장 가능성을 심각하게 제한합니다.

위 문제를 해결하기 위해 화중 과학기술대학교, 알리바바 그룹, 저장대학교 및 Ant 그룹의 공동 연구팀은 최근 TF-T2V 비디오 솔루션을 출시했습니다.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!


Paper 주소: https: //arxiv.org/abs/2312.15770

프로젝트 홈페이지: https://tf-t2v.github.io/

소스 코드는 곧 공개됩니다: https://github.com /ali-vilab/i2vgen -xl (VGen 프로젝트).

이 솔루션은 새로운 접근 방식을 취하고 풍부한 모션 역학을 학습할 수 있는 대규모 텍스트 프리 주석 비디오 데이터를 기반으로 비디오 생성을 제안합니다.

먼저 TF-T2V의 영상 생성 효과를 살펴보겠습니다:

빈센트 영상 과제

프롬트 단어: 눈 위의 거대한 서리 같은 생물의 영상을 생성하세요- 덮힌 땅.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

프롬프트: 만화 꿀벌의 애니메이션 비디오를 생성하세요.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

프롬프트: 미래형 판타지 오토바이가 포함된 비디오를 생성하세요.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

프롬프트: 행복하게 웃고 있는 어린 소년의 동영상을 생성하세요.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

프롬프트: 두통을 느끼는 노인의 영상을 생성하세요. tf-t2v는 제어 가능한 비디오 생성이 가능합니다. 해상도 비디오 합성:

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

준감시 설정

준감시 설정의 TF-T2V 방식은 "사람이 오른쪽에서 왼쪽으로 달린다"와 같은 동작의 텍스트 설명과 일치하는 동영상도 생성할 수 있습니다.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

방법 소개

TF-T2V의 핵심 아이디어는 모델을 모션 브랜치와 외관 브랜치로 나누고, 모션 브랜치를 사용하여 모션 역학을 모델링하는 것입니다. 모양 분기는 시각 정보를 학습하는 데 사용됩니다. 이 두 가지 분기는 공동으로 훈련되어 최종적으로 텍스트 기반 비디오 생성을 달성할 수 있습니다.

생성된 비디오의 시간적 일관성을 향상시키기 위해 저자 팀은 비디오 프레임 간의 연속성을 명시적으로 학습하기 위한 시간적 일관성 손실도 제안했습니다.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

TF-T2V는 Vincent 비디오 작업뿐만 아니라 스케치-비디오, 비디오 인페인팅, 첫 번째 프레임과 같은 결합된 비디오 생성 작업에도 적합한 일반 프레임워크라는 점을 언급할 가치가 있습니다. -비디오 등

구체적인 내용과 더 많은 실험 결과는 원 논문이나 프로젝트 홈페이지를 참고해주세요.

또한 저자 팀은 TF-T2V를 교사 모델로 사용하고 일관성 증류 기술을 사용하여 VideoLCM 모델을 얻었습니다:

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

논문 주소: https://arxiv.org/abs/ 2312.09109

프로젝트 홈페이지 : https://tf-t2v.github.io/

소스코드 공개 예정 : https://github.com/ali-vilab/i2vgen-xl (VGen 프로젝트) .

약 50단계의 DDIM 노이즈 제거 단계가 필요했던 기존 영상 생성 방식과 달리, TF-T2V 기반의 VideoLCM 방식은 약 4단계의 추론 노이즈 제거만으로 고화질 영상을 생성할 수 있어 영상 생성 효율성이 크게 향상됩니다. 능률.

VideoLCM의 4단계 노이즈 제거 추론 결과를 살펴보겠습니다.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

자세한 내용과 더 많은 실험 결과는 VideoLCM 원본 논문이나 프로젝트를 참조하세요. 홈페이지.

전체적으로 TF-T2V 솔루션은 비디오 생성 분야에 새로운 아이디어를 제공하고 데이터 세트 크기 및 라벨링 문제로 인한 문제를 극복합니다. TF-T2V는 텍스트가 없는 대규모 주석 비디오 데이터를 활용하여 고품질 비디오를 생성할 수 있으며 다양한 비디오 생성 작업에 적용됩니다. 이러한 혁신은 비디오 생성 기술의 발전을 촉진하고 모든 계층에 더 광범위한 응용 시나리오와 비즈니스 기회를 제공할 것입니다.

위 내용은 Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
Microsoft Work Trend Index 2025는 작업장 용량 변형을 보여줍니다Microsoft Work Trend Index 2025는 작업장 용량 변형을 보여줍니다Apr 24, 2025 am 11:19 AM

AI의 빠른 통합으로 악화 된 직장의 급성장 용량 위기는 점진적인 조정을 넘어 전략적 변화를 요구합니다. 이것은 WTI의 발견에 의해 강조됩니다. 직원의 68%가 작업량으로 어려움을 겪고 BUR로 이어

AI가 이해할 수 있습니까? 중국의 객실 논쟁은 아니오라고 말하지만 맞습니까?AI가 이해할 수 있습니까? 중국의 객실 논쟁은 아니오라고 말하지만 맞습니까?Apr 24, 2025 am 11:18 AM

John Searle의 중국 방 주장 : AI 이해에 대한 도전 Searle의 사고 실험은 인공 지능이 진정으로 언어를 이해할 수 있는지 또는 진정한 의식을 가질 수 있는지 직접 의문을 제기합니다. Chines를 무시하는 사람을 상상해보십시오

중국의 '스마트'AI 조수는 Microsoft Recall의 개인 정보 결함을 반향합니다중국의 '스마트'AI 조수는 Microsoft Recall의 개인 정보 결함을 반향합니다Apr 24, 2025 am 11:17 AM

중국의 기술 거대 기업은 서부에 비해 AI 개발 과정에서 다른 과정을 차트하고 있습니다. 기술 벤치 마크 및 API 통합에만 초점을 맞추는 대신 "스크린 인식"AI 비서 우선 순위를 정합니다.

Docker는 AI 모델 및 MCP 도구에 친숙한 컨테이너 워크 플로를 제공합니다.Docker는 AI 모델 및 MCP 도구에 친숙한 컨테이너 워크 플로를 제공합니다.Apr 24, 2025 am 11:16 AM

MCP : AI 시스템이 외부 도구에 액세스 할 수 있도록 권한을 부여합니다 MCP (Model Context Protocol)를 사용하면 AI 애플리케이션이 표준화 된 인터페이스를 통해 외부 도구 및 데이터 소스와 상호 작용할 수 있습니다. MCP를 통해 MCP는 인류에 의해 개발되고 주요 AI 제공 업체가 지원하는 언어 모델 및 에이전트가 사용 가능한 도구를 발견하고 적절한 매개 변수로 전화 할 수 있습니다. 그러나 환경 충돌, 보안 취약점 및 일관되지 않은 교차 ​​플랫폼 동작을 포함하여 MCP 서버 구현에는 몇 가지 과제가 있습니다. Forbes 기사 "Anthropic의 모델 컨텍스트 프로토콜은 AI 에이전트 개발의 큰 단계입니다."저자 : Janakiram MSVDocker는 컨테이너화를 통해 이러한 문제를 해결합니다. Docker Hub Infrastructure를 구축했습니다

6 억 달러 규모의 스타트 업을 구축하기 위해 6 개의 AI Street-Smart 전략 사용6 억 달러 규모의 스타트 업을 구축하기 위해 6 개의 AI Street-Smart 전략 사용Apr 24, 2025 am 11:15 AM

최첨단 기술을 활용하고 비즈니스 통제력을 발휘하여 통제력을 유지하면서 수익성이 높고 확장 가능한 회사를 창출하는 비전 기업가가 사용하는 6 가지 전략. 이 안내서는

Google 사진 업데이트 모든 사진에 대한 멋진 Ultra HDR 잠금 해제Google 사진 업데이트 모든 사진에 대한 멋진 Ultra HDR 잠금 해제Apr 24, 2025 am 11:14 AM

Google 사진의 새로운 Ultra HDR 도구 : 이미지 향상을위한 게임 체인저 Google Photos는 강력한 Ultra HDR 변환 도구를 도입하여 표준 사진을 활기차고 높은 동기 범위 이미지로 변환했습니다. 이 향상은 사진가 a

Descope는 AI 에이전트 통합을위한 인증 프레임 워크를 구축합니다Descope는 AI 에이전트 통합을위한 인증 프레임 워크를 구축합니다Apr 24, 2025 am 11:13 AM

기술 아키텍처는 새로운 인증 문제를 해결합니다 에이전트 Identity Hub는 문제를 해결합니다. 많은 조직이 AI 에이전트 구현을 시작한 후에 만 ​​기존 인증 방법이 기계 용으로 설계되지 않았다는 것을 발견 한 후에 만 ​​발견합니다.

Google Cloud 다음 2025 및 현대 작업의 연결된 미래Google Cloud 다음 2025 및 현대 작업의 연결된 미래Apr 24, 2025 am 11:12 AM

(참고 : Google은 회사 인 Moor Insights & Strategy의 자문 고객입니다.) AI : 실험에서 Enterprise Foundation까지 Google Cloud Next 2025는 실험 기능에서 엔터프라이즈 기술의 핵심 구성 요소까지 AI의 진화를 보여주었습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.