首頁 >科技週邊 >人工智慧 >中國新的AI視頻明星:Step-Video-T2V

中國新的AI視頻明星:Step-Video-T2V

Jennifer Aniston
Jennifer Aniston原創
2025-03-04 11:00:12587瀏覽

中國在生成AI中迅速發展,基於DeepSeek模型和Kimi K1.5的成功,語言模型中的成功。現在,它以Omnihuman和Goku在3D建模和視頻綜合方面取得了卓越的表現。借助Step-Video-T2V,中國直接挑戰了Sora,Weo 2和Stepfun AI開發的電影《 video 2》和《電影將軍》,Step-Video-T2V是一個30B參數模型,它會產生高質量的204-Frame視頻。它利用視頻VAE,雙語編碼器和3D注意事項來設定新的視頻生成標準。它是否應對文本訪問的核心挑戰?讓我們潛入。

Table of contents

    Challenges in Text-to-Video Models
  • How Step-Video-T2V is Solving These Problems?
  • Model Architecture
    • Text Encoding with Bilingual Understanding
    • Variational Autoencoder (Video-VAE) for Compression
    • Diffusion具有3D全神貫注的變壓器(DIT)
    • >自適應層的歸一化(adaln-single)
    • >
    • > step-video-t2v如何工作? 3D全部關注)
    • 優化(微調和視頻DPO培訓)
    • 最終輸出(高質量的204-frame Video)
    • van gogh in Paris
>千年獵鷹旅程
  • 結論 文本到視頻模型中的挑戰

    雖然文本到視頻模型已經走了很長一段路,但他們仍然面臨著基本的障礙:
    • 複雜的動作序列
    • - 當前的模型難以生成遵循複雜動作序列的現實視頻,例如,體操運動員表現翻轉或籃球實際上彈跳。
    • > 物理和因果關係
    • - 大多數基於擴散的模型無法有效地模擬現實世界。物體相互作用,重力和物理定律經常被忽略。
    • >以下說明
    • - 模型經常錯過用戶提示中的關鍵細節,尤其是在處理稀有概念時(例如,同一視頻中的企鵝和大象)。
    • > >計算成本 - 生成高分辨率,長期視頻是極其資源密集型
    • ,限制了研究人員和創作者的可訪問性。
    • > >字幕和對齊 - 視頻模型依賴於大量數據集,但是較差的視頻字幕會導致較弱的迅速依從性,導致幻覺的內容
    • >。

    step-video-t2v如何解決這些問題?

    中國新的AI視頻明星:Step-Video-T2V

    > step-video-t2v通過幾個創新來應對這些挑戰

    • 深度壓縮視頻vae:成就 16×16空間和8x時間壓縮,在保持高視頻質量的同時大大降低了計算要求。 >
    • >雙語文本編碼器:集成,允許該模型在中文和英語>。 中有效地處理提示 > 3D全注意力:而不是傳統的時空注意力,而是增強了運動連續性和場景一致性
    • video-dpo(直接偏好優化):合併>人類的反饋循環
    • 以減少工件,改善現實主義和使生成的內容與用戶期望保持一致。
    • > 模型體系結構 > Step-Video-T2V模型體系結構圍繞三部分管道構建,以有效地處理文本提示並生成高質量的視頻。該模型集成了雙語文本編碼器,變量自動編碼器(視頻VAE)和一個具有3D注意的擴散變壓器(DIT),將其與傳統的文本到視頻模型區分開來。

    1。用雙語理解編碼的文本

    在輸入階段,step-video-t2v採用

    >兩個強大的雙語文本編碼:中國新的AI視頻明星:Step-Video-T2V

    > hunyuan-clip:一種針對文本和圖像之間的語義對齊優化的視覺模型。

      step-llm
    • :一種專門了解複雜說明中文和英語的大型語言模型。 這些編碼器處理
    • 用戶提示
    • 並將其轉換為有意義的潛在表示,以確保模型準確地遵循說明。 2。用於壓縮的變量自動編碼器(視頻VAE) 生成長,高分辨率的視頻在計算上很昂貴。 Step-Video-T2V使用A 深度壓縮變化自動編碼器(Video-Vae)>有效地降低視頻數據的問題:>
    >空間壓縮(16×16)

    >和時間壓縮(8x)>降低視頻尺寸的同時保留運動詳細信息。 此啟用更長的序列(204幀)

    比以前的型號低的計算成本

    3。擴散變壓器(DIT)具有3D的全部注意
      Step-Video-T2V的核心是其
    • 擴散變壓器(DIT),具有3D的全部注意力,它顯著提高了運動平滑度和場景相干性。

      中國新的AI視頻明星:Step-Video-T2V

      DIT的

      > ITH塊由多個組成的組件組成,這些組件完善了視頻生成過程:> 每個變壓器塊的關鍵組件

        交叉注意:通過對文本嵌入式上生成的幀進行調節,請確保更好的文本對視頻對齊
      • >自我注意事項(帶有繩索3D):使用旋轉位置編碼(rope-3d)以增強
      • 時空的理解
      • ,確保對象自然地跨幀。 qk-norm(Query-Key規範化):提高注意力機制的穩定性,減少對象定位的不一致。 柵極機制:這些自適應門
      • 調節信息流,防止過度適合特定模式
      • >並改善概括。 >
      • 比例/偏移操作
      • :歸一化和微調中間表示,確保視頻幀之間的平滑過渡。 4。自適應層歸一化(Adaln-single) 該模型還包括
      • 自適應層的歸一化(adaln-single)
      • ,該>基於> timeStep(t)
      • 這可以確保
      跨視頻序列的時間一致性。

        step-video-t2v如何工作?
      • step-video-t2v模型是一種尖端的
      • 文本到視頻AI系統,它基於文本描述生成高質量的運動豐富的視頻。工作機制涉及多種複雜的AI技術,以確保運動,遵守提示和現實輸出。讓我們逐步將其分解:
      • 1。用戶輸入(文本編碼)

        • 該模型以處理用戶輸入開始,這是一個文本提示,描述了所需的視頻。
        • 這是使用>雙語文本編碼器完成的(例如,)。
    • 雙語能力
    • 確保可以準確理解英語和中文的提示。 > 2。潛在表示(帶視頻VAE的壓縮)
    視頻生成在計算上很重,因此該模型採用a

    差異自動編碼器(vae)

    >專門用於視頻壓縮,稱為 video-vae-vae
      >。
    • 視頻vae的函數: 將視頻幀壓縮到A
    • >較低維的潛在空間
    • ,大大降低了計算成本
      • 維護關鍵的視頻質量方面,例如運動連續性,紋理和對象詳細信息
      • >使用
      • 16×16的空間和8x時間壓縮,在保留高保真度的同時使模型有效。
      • 3。去核過程(擴散變壓器具有3D的全部注意力)
      • 獲得潛在表示後,下一步是 denoising Process
      • ,它可以完善視頻幀。
    • 這是使用
    擴散變壓器(DIT)

    的高級模型來完成的,該模型旨在生成高度逼真的視頻。

    • 密鑰創新:
    • 擴散變壓器適用3D完全注意
    • ,這是一種強大的機制,專注於空間,時間和運動動力學
    • 的使用流量匹配
        >
      • 在跨幀的範圍內增強運動一致性,以確保視頻過渡更平滑。 4。優化(微調和視頻DPO培訓)
      • 生成的視頻經歷了一個優化階段,使其更加準確,連貫和視覺吸引力。這涉及:
      • 用高質量數據來提高其遵循複雜提示的能力。
    • > video-dpo(直接偏好優化)
    培訓,其中包含人類的反饋

    >:

    減少不需要的偽影。 中國新的AI視頻明星:Step-Video-T2V

    改善運動和紋理的現實主義。

    >將視頻生成與用戶期望相結合。

    • 5。最終輸出(高質量204框架視頻)
      • 最終視頻是> 204幀長,這意味著它為講故事提供了重要的持續時間。 >高分辨率生成
      • 確保視覺效果清晰和清除對象渲染。
      • >強烈的運動現實主義
      • 表示視頻保持
      • 平穩而自然的運動,使其適用於人類手勢,對象相互作用和動態背景等複雜場景。 針對競爭對手的>基準測試
      • > step-video-t2v在
      > spep-video-t2v-eval

      上進行評估,

      > 128-prompt-prompt Benchmark

      覆蓋體育,食物,美食,風景,超現實主義,人,人和動畫>>。與領先的模型相比,它在運動動力學和現實主義中提供了最先進的表現。 在整體視頻質量和光滑方面,優勝於hunyuanvideo 競爭對手電影gen video ,但由於有限的高質量標籤數據而導致細粒度的美學滯後。

        擊敗運動一致性的跑道gen-3 alpha
      1. ,但在電影吸引力中略有滯後。
      2. 挑戰中國頂級商業模型(T2VTOPA和T2VTOPB)
      3. ,但由於較低的分辨率而降低了美學質量(540p vs. 1080p)。 >性能指標
      4. step-video-t2v介紹新評估標準
      5. >以下說明
      6. - 測量生成的視頻與提示的對齊程度。

      運動平滑度

      - 評分視頻中動作的自然流動。 身體合理性

      - 評估運動是否遵循物理定律。
      • 美學上的吸引力 - 判斷視頻的藝術和視覺質量。
      • 在人類評估中, Step-Video-T2V始終優於運動平滑性和物理合理性的競爭者,使其成為最先進的開源模型之一。 >如何訪問step-video-t2v?
      • >>步驟1:訪問此處的官方網站。 >
      • 步驟2:
      • 使用您的手機號碼註冊。 > >注意:
      • 當前,註冊僅針對有限數量的國家開放。不幸的是,它在印度不可用,所以我無法註冊。但是,如果您位於受支持的地區,則可以嘗試。
      >

      >

      步驟3:

      >添加您的提示符,然後開始生成驚人的視頻!

      由step-video-t2v

      創建的vidoes的示例 這是該工俱生成的一些視頻。我從他們的官方網站上拿走了這些。 van gogh在巴黎

      >

      提示:在巴黎的街道上,梵高坐在咖啡館外面,用手裡拿著繪圖板畫一個夜面場景。相機以中型拍攝拍攝,顯示了他專注的表情和快速移動的刷子。背景中的路燈和行人略微模糊,使用了淺水深度來突出他的形象。隨著時間的流逝,天空從黃昏變成了夜晚,星星逐漸出現。相機慢慢拉開,看看他完成的作品與真實的夜幕界之間的比較。 提示:

      “在廣闊的宇宙中,《星球大戰》中的千年獵鷹正在穿越星星。相機顯示航天器在遙遠的視野中飛行。相機很快遵循航天器的軌跡,顯示了其高速班車。進入駕駛艙後,攝像機專注於緊張地操作樂器的Han Solo和Chewbacca的面部表情。儀表板閃爍的燈光,背景星空迅速在舷窗外面穿過。

      結論 在中國以外的情況下, Step-Video-T2V尚不可用。公開後,我將測試並分享我的評論。儘管如此,它仍然標誌著中國生物AI的重大進步,證明其實驗室正在與Openai和DeepMind一起塑造多模式AI的未來。視頻生成的下一步需要更好的指導遵循,物理模擬和更豐富的數據集。 Step-Video-T2V為開源視頻模型鋪平了道路,從而增強了全球研究人員和創作者的能力。中國的人工智能勢頭表明之前更現實,更有效的文本與視頻創新

    以上是中國新的AI視頻明星:Step-Video-T2V的詳細內容。更多資訊請關注PHP中文網其他相關文章!

    陳述:
    本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn