>기술 주변기기 >일체 포함 >중국의 새로운 AI 비디오 스타 : STEP-VIEDO-T2V

중국의 새로운 AI 비디오 스타 : STEP-VIEDO-T2V

Jennifer Aniston
Jennifer Aniston원래의
2025-03-04 11:00:12587검색
중국은 생성 AI에서 빠르게 발전하여 Deepseek 모델과 Kimi K1.5와 같은 성공을 구축하고 있습니다. 이제 3D 모델링 및 비디오 합성에서 Omnihuman 및 Goku가 뛰어난 비전 도메인을 이끌고 있습니다. STEP-VIEDO-T2V를 통해 중국은 SORA, VEO 2 및 StepFun AI가 개발 한 최고의 텍스트-비디오 모델에 직접 도전하는 Step-Video-T2V는 고품질의 204- 프레임 비디오를 생성하는 30B 패러 아메리카 모델입니다. 비디오 VAE, 이중 언어 인코더 및 3D- 텐션 DIT를 활용하여 새로운 비디오 생성 표준을 설정합니다. 텍스트-비디오의 핵심 과제를 다루나요? 다이빙합시다.

목차

텍스트-비디오 모델의 도전
    스텝 비디오 T2V이 문제를 해결하는 방법? 이중 언어 이해를 가진 텍스트 인코딩 (video-vae)을 사용하여 텍스트를 인코딩하는 방법 Adaptive Layer Normalization (Adaln-single)
  • 스텝 비디오 입력은 어떻게 작동합니까?
      사용자 입력 (텍스트 encoding) video-vae (video-vae) (deffeation) 3D 전체주의)
    • 최적화 (미세 조정 및 비디오 -DPO 교육)
    • 최종 출력 (고품질 204- 프레임 비디오)
    • 경쟁사에 대한 벤치마킹
vidoes의 예제에 대한 벤치 마크 STEP-VIDEO-T2V
  • 파리의 Van Gogh
    • Millennium Falcon Journey
    • 결론
    • 텍스트-비디오 모델의 도전
    • 텍스트-비디오 모델이 먼 길을 왔지만 여전히 근본적인 장애물에 직면 해 있습니다.
    • 복잡한 액션 시퀀스
    • - 현재 모델은 플립을 연주하는 체조 선수 또는 현실적으로 튀는 농구와 같은 복잡한 액션 시퀀스를 따르는 현실적인 비디오를 생성하기 위해 노력합니다.
    물리 및 인과성 -대부분의 확산 기반 모델은 실제 세계를 효과적으로 시뮬레이션하지 못합니다. 객체 상호 작용, 중력 및 물리 법칙은 종종 간과됩니다 다음 - 모델이 종종 사용자 프롬프트의 주요 세부 사항을 자주 놓치고, 특히 드문 개념을 다룰 때 (예 : 펭귄과 같은 비디오의 코끼리)
  • 계산 비용
  • -고해상도의 장기 비디오 생성
  • 매우 리소스 집약적 인
      , 연구원과 제작자의 접근성을 제한합니다. 캡션 및 정렬 - 비디오 모델은 대규모 데이터 세트에 의존하지만 비디오 캡션 불량은 약한 신속한 준수를 초래하여
  • 환각 된 컨텐츠로 이어지는 입니다. Step-Video-T2V가 이러한 문제를 해결하는 방법은 무엇입니까? STEP-VIEDO-T2V는

    몇 가지 혁신 : 와 함께 이러한 과제를 해결합니다 깊은 압축 비디오 vae : 를 달성하고, 비디오 품질이 높을 때 계산 요구 사항을 크게 줄입니다.

  • 이중 언어 텍스트 인코더 : hunyuan-clip 및 step-llm 를 통합하여 모델이 및 영어 에서 효과적으로 프롬프트를 처리 할 수 ​​있도록합니다. 3d Full-Ottention DIT : 전통적인 공간-시간주의 대신이 접근법은
  • 모션 연속성과 장면 일관성을 향상시킵니다. Video-DPO (직접 기본 설정 최적화) : 인간 피드백 루프 를 통합하여 아티팩트를 줄이고 현실주의를 개선하며 사용자의 기대와 생성 된 컨텐츠를 정렬합니다. 모델 아키텍처 STEP-VIEDO-T2V 모델 아키텍처는 텍스트 프롬프트를 효과적으로 처리하고 고품질 비디오를 생성하기 위해 3 부 파이프 라인 주위에 구성되어 있습니다. 이 모델은 이중 언어 텍스트 인코더, 변형 자동 인코더 (비디오 VAE) 및 3D 주의력이있는 확산 변압기 (DIT)를 통합하여 전통적인 텍스트-비디오 모델과 차별화됩니다. . 1. 이중 언어 이해를 가진 텍스트 인코딩
  • 입력 단계에서 STEP-VIEDO-T2V는 두 개의 강력한 이중 언어 텍스트 인코더를 사용합니다 : Hunyuan-Clip : 텍스트와 이미지 사이의 시맨틱 정렬
  • 에 최적화 된 비전 언어 모델.
  • step-llm : 중국어와 영어 . 이 인코더는 사용자 프롬프트를 처리하고이를 의미있는 잠재적 표현으로 변환하여 모델이 지침을 정확하게 따르도록합니다.
  • 2. 압축에 대한 변형 자동 인코딩 (Video-VAE) 길고 고해상도 비디오 생성은 계산적으로 비쌉니다. STEP-VIEDO-T2V는

    깊은 압축 변형 자동 인코더 (Video-VAE) 로이 문제를 해결하여 비디오 데이터를 효율적으로 감소시킵니다.

    공간 압축 (16 × 16) 및 시간 압축 (8x) 모션 세부 사항을 보존하는 동안 비디오 크기를 줄입니다.

    이것은 더 긴 시퀀스 (204 프레임)를 가능하게합니다. 가 이전 모델보다 낮은 계산 비용 중국의 새로운 AI 비디오 스타 : STEP-VIEDO-T2V.

    3. 3D 전액주의를 가진 확산 변압기 (DIT) Step-Video-T2V의 핵심은 3D 전체주의를 가진

    확산 변압기 (DIT)이며, 이는 모션 매끄러움과 장면 일관성을 크게 향상시킵니다.

    중국의 새로운 AI 비디오 스타 : STEP-VIEDO-T2V

    DIT의 는 비디오 생성 프로세스를 개선하는 여러 구성 요소로 구성됩니다. 각 변압기 블록의 주요 구성 요소 크로스-네이션 :

    더 나은 텍스트-비디오 정렬 를 보장합니다. 자체 변환 (로프 -3D 포함) : 로터리 위치 인코딩 (rope-3d) 를 사용하여 공간적 이해력

    를 향상시키고 물체가 자연스럽게 프레임을 가로 질러 움직일 수 있도록합니다. QK-Norm (Query-Key Normalization)
      :주의 메커니즘의 안정성을 향상시켜 객체 위치에서 불일치를 줄입니다. 게이트 메커니즘
    • : 적응 형 게이트 정보 흐름을 조절하여 과 적합성을 특정 패턴 에 방해하고 일반화를 향상시킵니다. 스케일/시프트 작업 : 중간 표현을 정규화하고 미세 조정하여 비디오 프레임 사이의 원활한 전환을 보장합니다.
    • 4. 적응 형 층 정규화 (adaln-single) 모델에는 timestep (t) . 이것은 비디오 시퀀스를 가로 질러 시간적 일관성 를 보장합니다
    • STEP-Video-T2V는 어떻게 작동합니까?
    • step-video-t2v 모델은 텍스트 설명을 기반으로 고품질 모션이 풍부한 비디오를 생성하는 최첨단 텍스트-비디오 ai 시스템입니다. 작업 메커니즘에는 여러 정교한 AI 기술이 포함되어있어 원활한 움직임, 프롬프트 준수 및 사실적인 출력을 보장합니다. 단계별로 분해합시다 :

      1. 사용자 입력 (텍스트 인코딩)

      모델은 사용자 입력 처리 에 의해 시작되며, 이는 원하는 비디오를 설명하는 텍스트 프롬프트입니다. 이것은 이중 언어 텍스트 인코더 (예 : hunyuan-clip and step-llm )를 사용하여 수행됩니다.
    • 이중 언어 기능
    • 는 의 프롬프트가 영어와 중국어 모두 정확하게 이해 될 수 있도록 보장합니다. 2. 잠재적 표현 (Video-VAE를 사용한 압축) 비디오 생성은 계산적으로 무겁기 때문에 모델은 .
    • 비디오 VAE의 기능 : 모션 연속성, 텍스처 및 객체 세부 사항과 같은 주요 비디오 품질 측면 를 유지합니다. 는 A

    3. 데노이징 공정 (3D 전체주의를 가진 확산 변압기)
      잠재적 표현을 얻은 후, 다음 단계는
    • denoising process 이며, 비디오 프레임을 개선합니다. . 이것은 매우 현실적인 비디오를 생성하도록 설계된 고급 모델 인 확산 변압기 (DIT) 를 사용하여 수행됩니다. 주요 혁신 :
    • 확산 변압기 는 3d Full Attention을 적용합니다. 흐름 일치
        >
      • > > 프레임에 걸쳐 움직임 일관성을 향상시켜 더 부드러운 비디오 전환을 보장합니다.
      • 4. 최적화 (미세 조정 및 비디오 -DPO 교육)
      • 복잡한 프롬프트를 따르는 능력을 향상시키기 위해 고품질 데이터로 모델을 미세 조정합니다. video-dpo (직접 환경 설정 최적화) 인간 피드백 원치 않는 유물을 줄입니다 움직임과 질감의 현실주의를 향상시킵니다 비디오 생성을 사용자 기대치와 정렬합니다
    • 5. 최종 출력 (고품질 204- 프레임 비디오)

      최종 비디오는 이며, 이는 스토리 텔링에 대한 중요한 지속 시간을 제공합니다. 고해상도 생성 는 선명한 비주얼과 명확한 물체 렌더링을 보장합니다 강력한 움직임 현실주의 비디오는 매끄럽고 자연스러운 움직임을 유지함으로써 를 의미합니다. 경쟁자에 대한 벤치마킹 STEP-VIEDO-T2V는 step-video-t2v-eval , a 스포츠, 음식, 풍경, 초현실주의, 사람 및 애니메이션 에서 평가됩니다. 주요 모델과 비교하여 모션 역학 및 현실주의에서 최첨단 성능을 제공합니다.
    • 전반적인 비디오 품질과 매끄러움에서 Hunyuanvideo보다 성능이 우수합니다 라이벌 라이벌 영화 gen 비디오 그러나 제한된 고품질 레이블이있는 데이터로 인해 세밀한 미학이 지연됩니다. 는 활주로 gen-3 alpha 를 움직이지 만 영화 적 호소력에서 약간 지연됩니다.
    • 최고 중국 상업용 모델 (T2VTopa 및 T2VTopb) 에 도전하지만 해상도가 낮기 때문에 미적 품질이 부족합니다 (540p vs. 1080p).

      성능 메트릭

      step-video-t2v는

      새로운 평가 기준 : 를 소개합니다

      다음 - 생성 된 비디오가 프롬프트와 얼마나 잘 일치하는지를 측정합니다. 모션 매끄러움 - 비디오의 자연적인 행동 흐름을 평가합니다. 물리적 타당성 - 운동이 물리 법칙을 따르는 지 여부를 평가합니다. 미학적 호소 - 비디오의 예술적이고 시각적 품질을 판단합니다. 인간의 평가에서 step-video-t2v는 경쟁 업체가 일관되게 모션 매끄러움과 물리적 타당성을 능가하여 가장 진보 된 오픈 소스 모델 중 하나입니다. Step-Video-T2V에 액세스하는 방법? 1 단계 : 공식 웹 사이트를 방문하십시오 2 단계 : 휴대폰 번호를 사용하여 가입하십시오 참고 :
        현재 등록은 제한된 수의 국가에 대해서만 열려 있습니다. 불행히도 인도에서는 사용할 수 없으므로 가입 할 수 없었습니다. 그러나 지원되는 지역에 있으면 시도 할 수 있습니다.
      1. 3 단계 :
      2. 프롬프트를 추가하고 놀라운 비디오 생성을 시작하십시오!
      3. step-video-t2v 에 의해 생성 된 비대의 예 이 도구에서 생성 된 일부 비디오는 다음과 같습니다. 나는 이것들을 그들의 공식 사이트에서 가져 왔습니다.
      4. 파리의 van Gogh 프롬프트 :

        “파리의 거리에서 Van Gogh는 카페 외부에 앉아 도면 보드가있는 나이트 장면을 손에 넣습니다. 카메라는 중간 샷으로 촬영되어 초점을 맞춘 표현과 빠르게 움직이는 브러시를 보여줍니다. 백그라운드의 가로등과 보행자는 얕은 피사계 심도를 사용하여 그의 이미지를 강조합니다. 시간이 지남에 따라 하늘은 황혼에서 밤으로 바뀌고 별이 점차 나타납니다. 카메라는 천천히 그의 완성 된 작업과 실제 야간 장면의 비교를보기 위해 천천히 끌어 당깁니다.

        밀레니엄 팔콘 여행 프롬프트 : “

        광대 한 우주에서, 스타 워즈의 밀레니엄 팔콘은 별을 가로 질러 여행하고 있습니다. 카메라는 우주선이 별을 먼 곳에서 날아 다니는 것을 보여줍니다. 카메라는 우주선의 궤적을 신속하게 따라 고속 셔틀을 보여줍니다. 조종석에 들어가면 카메라는 악기를 긴장하게 작동하는 Han Solo와 Chewbacca의 얼굴 표정에 중점을 둡니다. 대시 보드의 조명이 깜박이고 배경 별이 빛나는 하늘은 현관 밖에서 빠르게지나갑니다. 결론 step-video-t2v는 아직 중국 밖에서 사용할 수 없습니다. 일단 공개되면 검토를 테스트하고 공유하겠습니다. 그럼에도 불구하고, 그것은 중국의 생성 AI의 큰 발전을 알리며, 실험실이 Openai 및 Deepmind와 함께 멀티 모달 AI의 미래를 형성하고 있음을 증명합니다. 비디오 생성의 다음 단계는 더 나은 교육 추종, 물리 시뮬레이션 및 더 풍부한 데이터 세트를 요구합니다. Step-Video-T2V는 오픈 소스 비디오 모델을위한 길을 열어 글로벌 연구원과 제작자에게 권한을 부여합니다. 중국의 AI 모멘텀은보다 현실적이고 효율적인 텍스트-비디오 혁신 혁신을 제안합니다.

    위 내용은 중국의 새로운 AI 비디오 스타 : STEP-VIEDO-T2V의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

    성명:
    본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.