Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!-일체 포함-php.cn

집

기술 주변기기

일체 포함

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 11, 2024 pm 04:12 PM

동영상데이터

지난 2년 동안 LAION-5B와 같은 대규모 이미지 및 텍스트 데이터 세트가 공개되면서 이미지 생성 분야에서는 Stable Diffusion, DALL-E 등 놀라운 효과를 갖는 일련의 방법이 등장했습니다. 2, ControlNet 및 Composer. 이러한 방법의 출현은 이미지 생성 분야에서 큰 혁신과 발전을 가져왔습니다. 이미지 생성 분야는 지난 2년 동안 급속도로 발전했습니다.

그러나 비디오 세대는 여전히 큰 도전에 직면해 있습니다. 첫째, 이미지 생성에 비해 비디오 생성은 더 높은 차원의 데이터를 처리해야 하며 추가적인 시간 차원을 고려해야 하므로 타이밍 모델링 문제가 발생합니다. 시간적 역학 학습을 촉진하려면 더 많은 비디오-텍스트 쌍 데이터가 필요합니다. 그러나 비디오의 정확한 시간적 주석은 비용이 많이 들고 비디오 텍스트 데이터세트의 크기가 제한됩니다. 현재 기존 WebVid10M 비디오 데이터 세트에는 10.7M 비디오-텍스트 쌍만 포함되어 있으며 LAION-5B 이미지 데이터 세트와 비교하면 데이터 크기가 크게 다릅니다. 이는 비디오 생성 모델의 대규모 확장 가능성을 심각하게 제한합니다.

위 문제를 해결하기 위해 화중 과학기술대학교, 알리바바 그룹, 저장대학교 및 Ant 그룹의 공동 연구팀은 최근 TF-T2V 비디오 솔루션을 출시했습니다.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

Paper 주소: https: //arxiv.org/abs/2312.15770

프로젝트 홈페이지: https://tf-t2v.github.io/

소스 코드는 곧 공개됩니다: https://github.com /ali-vilab/i2vgen -xl (VGen 프로젝트).

이 솔루션은 새로운 접근 방식을 취하고 풍부한 모션 역학을 학습할 수 있는 대규모 텍스트 프리 주석 비디오 데이터를 기반으로 비디오 생성을 제안합니다.

먼저 TF-T2V의 영상 생성 효과를 살펴보겠습니다:

빈센트 영상 과제

프롬트 단어: 눈 위의 거대한 서리 같은 생물의 영상을 생성하세요- 덮힌 땅.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

프롬프트: 만화 꿀벌의 애니메이션 비디오를 생성하세요.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

프롬프트: 미래형 판타지 오토바이가 포함된 비디오를 생성하세요.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

프롬프트: 행복하게 웃고 있는 어린 소년의 동영상을 생성하세요.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

프롬프트: 두통을 느끼는 노인의 영상을 생성하세요. tf-t2v는 제어 가능한 비디오 생성이 가능합니다. 해상도 비디오 합성:

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

준감시 설정

준감시 설정의 TF-T2V 방식은 "사람이 오른쪽에서 왼쪽으로 달린다"와 같은 동작의 텍스트 설명과 일치하는 동영상도 생성할 수 있습니다.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

방법 소개

TF-T2V의 핵심 아이디어는 모델을 모션 브랜치와 외관 브랜치로 나누고, 모션 브랜치를 사용하여 모션 역학을 모델링하는 것입니다. 모양 분기는 시각 정보를 학습하는 데 사용됩니다. 이 두 가지 분기는 공동으로 훈련되어 최종적으로 텍스트 기반 비디오 생성을 달성할 수 있습니다.

생성된 비디오의 시간적 일관성을 향상시키기 위해 저자 팀은 비디오 프레임 간의 연속성을 명시적으로 학습하기 위한 시간적 일관성 손실도 제안했습니다.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

TF-T2V는 Vincent 비디오 작업뿐만 아니라 스케치-비디오, 비디오 인페인팅, 첫 번째 프레임과 같은 결합된 비디오 생성 작업에도 적합한 일반 프레임워크라는 점을 언급할 가치가 있습니다. -비디오 등

구체적인 내용과 더 많은 실험 결과는 원 논문이나 프로젝트 홈페이지를 참고해주세요.

또한 저자 팀은 TF-T2V를 교사 모델로 사용하고 일관성 증류 기술을 사용하여 VideoLCM 모델을 얻었습니다:

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

논문 주소: https://arxiv.org/abs/ 2312.09109

프로젝트 홈페이지 : https://tf-t2v.github.io/

소스코드 공개 예정 : https://github.com/ali-vilab/i2vgen-xl (VGen 프로젝트) .

약 50단계의 DDIM 노이즈 제거 단계가 필요했던 기존 영상 생성 방식과 달리, TF-T2V 기반의 VideoLCM 방식은 약 4단계의 추론 노이즈 제거만으로 고화질 영상을 생성할 수 있어 영상 생성 효율성이 크게 향상됩니다. 능률.

VideoLCM의 4단계 노이즈 제거 추론 결과를 살펴보겠습니다.

Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!

자세한 내용과 더 많은 실험 결과는 VideoLCM 원본 논문이나 프로젝트를 참조하세요. 홈페이지.

전체적으로 TF-T2V 솔루션은 비디오 생성 분야에 새로운 아이디어를 제공하고 데이터 세트 크기 및 라벨링 문제로 인한 문제를 극복합니다. TF-T2V는 텍스트가 없는 대규모 주석 비디오 데이터를 활용하여 고품질 비디오를 생성할 수 있으며 다양한 비디오 생성 작업에 적용됩니다. 이러한 혁신은 비디오 생성 기술의 발전을 촉진하고 모든 계층에 더 광범위한 응용 시나리오와 비즈니스 기회를 제공할 것입니다.

위 내용은 Huake, Ali 및 기타 기업이 공동 개발한 TF-T2V 기술로 AI 영상 제작 비용이 절감됩니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Microsoft Work Trend Index 2025는 작업장 용량 변형을 보여줍니다Apr 24, 2025 am 11:19 AM

AI의 빠른 통합으로 악화 된 직장의 급성장 용량 위기는 점진적인 조정을 넘어 전략적 변화를 요구합니다. 이것은 WTI의 발견에 의해 강조됩니다. 직원의 68%가 작업량으로 어려움을 겪고 BUR로 이어

AI가 이해할 수 있습니까? 중국의 객실 논쟁은 아니오라고 말하지만 맞습니까?Apr 24, 2025 am 11:18 AM

John Searle의 중국 방 주장 : AI 이해에 대한 도전 Searle의 사고 실험은 인공 지능이 진정으로 언어를 이해할 수 있는지 또는 진정한 의식을 가질 수 있는지 직접 의문을 제기합니다. Chines를 무시하는 사람을 상상해보십시오

중국의 '스마트'AI 조수는 Microsoft Recall의 개인 정보 결함을 반향합니다Apr 24, 2025 am 11:17 AM

중국의 기술 거대 기업은 서부에 비해 AI 개발 과정에서 다른 과정을 차트하고 있습니다. 기술 벤치 마크 및 API 통합에만 초점을 맞추는 대신 "스크린 인식"AI 비서 우선 순위를 정합니다.

Docker는 AI 모델 및 MCP 도구에 친숙한 컨테이너 워크 플로를 제공합니다.Apr 24, 2025 am 11:16 AM

MCP : AI 시스템이 외부 도구에 액세스 할 수 있도록 권한을 부여합니다 MCP (Model Context Protocol)를 사용하면 AI 애플리케이션이 표준화 된 인터페이스를 통해 외부 도구 및 데이터 소스와 상호 작용할 수 있습니다. MCP를 통해 MCP는 인류에 의해 개발되고 주요 AI 제공 업체가 지원하는 언어 모델 및 에이전트가 사용 가능한 도구를 발견하고 적절한 매개 변수로 전화 할 수 있습니다. 그러나 환경 충돌, 보안 취약점 및 일관되지 않은 교차 플랫폼 동작을 포함하여 MCP 서버 구현에는 몇 가지 과제가 있습니다. Forbes 기사 "Anthropic의 모델 컨텍스트 프로토콜은 AI 에이전트 개발의 큰 단계입니다."저자 : Janakiram MSVDocker는 컨테이너화를 통해 이러한 문제를 해결합니다. Docker Hub Infrastructure를 구축했습니다

6 억 달러 규모의 스타트 업을 구축하기 위해 6 개의 AI Street-Smart 전략 사용Apr 24, 2025 am 11:15 AM

최첨단 기술을 활용하고 비즈니스 통제력을 발휘하여 통제력을 유지하면서 수익성이 높고 확장 가능한 회사를 창출하는 비전 기업가가 사용하는 6 가지 전략. 이 안내서는

Google 사진 업데이트 모든 사진에 대한 멋진 Ultra HDR 잠금 해제Apr 24, 2025 am 11:14 AM

Google 사진의 새로운 Ultra HDR 도구 : 이미지 향상을위한 게임 체인저 Google Photos는 강력한 Ultra HDR 변환 도구를 도입하여 표준 사진을 활기차고 높은 동기 범위 이미지로 변환했습니다. 이 향상은 사진가 a

Descope는 AI 에이전트 통합을위한 인증 프레임 워크를 구축합니다Apr 24, 2025 am 11:13 AM

기술 아키텍처는 새로운 인증 문제를 해결합니다 에이전트 Identity Hub는 문제를 해결합니다. 많은 조직이 AI 에이전트 구현을 시작한 후에 만 기존 인증 방법이 기계 용으로 설계되지 않았다는 것을 발견 한 후에 만 발견합니다.

Google Cloud 다음 2025 및 현대 작업의 연결된 미래Apr 24, 2025 am 11:12 AM

(참고 : Google은 회사 인 Moor Insights & Strategy의 자문 고객입니다.) AI : 실험에서 Enterprise Foundation까지 Google Cloud Next 2025는 실험 기능에서 엔터프라이즈 기술의 핵심 구성 요소까지 AI의 진화를 보여주었습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.