ホームページ  >  記事  >  テクノロジー周辺機器  >  AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

王林
王林転載
2024-01-22 13:06:12907ブラウズ

AI ビデオ生成は、最近最も注目されている分野の 1 つです。さまざまな大学の研究室、インターネット大手の AI Labs、新興企業が AI ビデオ生成トラックに参加しています。 Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM などのビデオ生成モデルのリリースはさらに目を引きます。 v⁽ⁱ⁾

誰もが次の質問に興味があるはずです:

  • どのビデオ生成モデルが最適ですか?
  • 各モデルの特徴は何ですか?
  • AI動画生成分野で解決すべき注目すべき課題は何でしょうか?

この目的を達成するために、私たちは包括的な「ビデオ生成モデルの評価フレームワーク」である VBench を立ち上げました。これは、さまざまなビデオ生成モデルの長所、短所、特性に関する情報をユーザーに提供するように設計されています。ビデオモデル。 VBench を通じて、ユーザーはさまざまなビデオ モデルの長所と利点を理解できます。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?


  • 論文: https://arxiv.org/abs / 2311.17982
  • コード: https://github.com/Vchitect/VBench
  • ウェブページ: https://vchitect.github.io /VBench -project/
  • 論文タイトル: VBench: ビデオ生成モデルのための包括的なベンチマーク スイート

VBench は、包括的かつ詳細な機能を備えているだけではありません。ビデオ生成効果を正確に評価でき、また人々の感覚体験に沿った評価を提供できるため、時間とエネルギーを節約できます。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

    VBench には 16 の階層化された分離された評価ディメンションが含まれています
  • #VBench Wensheng ビデオの生成と評価のためのプロンプト リスト システムをオープンソース化しました
  • #VBench の各側面の評価計画は人間の認識と評価と一致しています
  • VBench は、AI ビデオ生成の将来の探求を容易にする多視点の洞察を提供します

「VBench」 - 「ビデオ生成モデル」包括的なベンチマーク スイートAIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

#AI ビデオ生成モデル - 評価結果AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

オープンソース AI ビデオ生成モデル

#VBench 上のさまざまなオープンソース AI ビデオ生成モデルのパフォーマンスは次のとおりです。

#VBench 上のさまざまなオープンソース AI ビデオ生成モデルのパフォーマンス。レーダー チャートでは、比較をより明確に視覚化するために、各次元の結果が 0.3 ~ 0.8 になるように正規化しました。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

#VBench 上のさまざまなオープンソース AI ビデオ生成モデルのパフォーマンス。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

上記の 6 つのモデルの中で、VideoCrafter-1.0 と Show-1 がほとんどの点で相対的に優れていることがわかります。

スタートアップのビデオ生成モデル

VBench は現在、Gen-2 と Pika の 2 つのスタートアップを提供しています 企業の評価結果モデル。

VBench での Gen-2 と Pika のパフォーマンス。レーダーチャートでは、比較をより明確に視覚化するために、VideoCrafter-1.0とShow-1をリファレンスとして追加し、各次元の評価結果が0.3~0.8になるように正規化しました。 AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

Gen-2 和 Pika 在 VBench 上的表現。我們加入了 VideoCrafter-1.0 和 Show-1 的數值結果作為參考。

可以看到,Gen-2 和Pika 在視訊品質(Video Quality)上有明顯優勢,例如時序一致性(Temporal Consistency)和單幀品質(Aesthetic Quality 和Imaging Quality)相關維度。在與使用者輸入的 prompt 的語意一致性上(例如 Human Action 和 Appearance Style),部分維度開源模型會更勝一籌。

影片產生模型VS 圖片產生模型

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

影片產生模型VS圖片生成模型。其中 SD1.4,SD2.1 和 SDXL 是圖片產生模型。

影片產生模型在8 大場景類別上的表現

#下面是不同模型在8 個不同類別上的評測結果。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

VBench 現已開源,一鍵即可安裝

目前,VBench 已全面開源,且支援一鍵安裝。歡迎大家來玩,測試一下有興趣的模型,一起推動影片生成社群的發展。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?


開源位址:https://github.com/Vchitect/VBench


AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

我們也開源了一系列Prompt List :https://github.com/Vchitect/VBench/tree/master/prompts,包含在不同能力維度上用於評測的Benchmark,以及在不同場景內容上的評測Benchmark。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

左邊詞雲展示了我們 Prompt Suites 的高頻詞分佈,右圖展示了不同維度和類別的 prompt 數量統計。

VBench 準不準?

針對每個向度,我們計算了 VBench 評測結果與人工評測結果之間的相關度,進而驗證我們方法與人類觀感的一致性。下圖中,橫軸代表不同維度的人工評測結果,縱軸則展示了 VBench 方法自動評測的結果,可以看到我們方法在各個維度都與人類感知高度對齊。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

VBench 帶給AI 影片產生的思考

VBench 不僅可以對現有模型進行評測,更重要的是,還可以發現不同模型中可能存在的各種問題,為未來AI 視訊生成的發展提供有價值的insights。

「時序連貫性」以及「影片的動態程度」:不要二選一,而應同時提升

我們發現時序連貫性(例如Subject Consistency、Background Consistency、Motion Smoothness)與影片中運動的幅度(Dynamic Degree)之間有一定的權衡關係。比方說,Show-1 和VideoCrafter-1.0 在背景一致性和動作流暢度方面表現很好,但在動態程度方面得分較低;這可能是因為產生 「沒有動起來」 的畫面更容易顯得「在時序上很連貫」。另一方面,VideoCrafter-0.9 在與時序一致性的維度上弱一些,但在 Dynamic Degree 上得分很高。

這說明,同時做好「時序連貫性」 和「較高的動態程度」 確實挺難的;未來不應只關注其中一方面的提升,而應該同時提升「時序連貫性」以及「影片的動態程度」 這兩方面,這才是有意義的。

分場景內容進行評測,發掘各家模型潛力

有些模型在不同類別上表現出的表現有較大差異,例如在美學品質(Aesthetic Quality)上,CogVideo 在「Food」 類別上表現不錯,而在「LifeStyle」 類別得分較低。如果透過訓練資料的調整,CogVideo 在 “LifeStyle” 這些類別上的美學品質是否可以提升上去,進而提升模型整體的視訊美學品質?

這也告訴我們,在評估影片產生模型時,需要考慮模型在不同類別或主題下的表現,挖掘模型在某個能力維度的上限,進而針對性地提升「拖後腿」 的場景類別。

有複雜運動的類別:時空表現都不佳

#在空間上複雜度高的類別,在美學品質維度得分都比較低。例如,「LifeStyle」 類別對複雜元素在空間中的佈局有比較高的要求,而「Human」 類別則由於鉸鍊式結構的產生帶來了挑戰。

對於時序複雜的類別,例如「Human」 類別通常涉及複雜的動作、「Vehicle」 類別會經常出現較快的移動,它們在所有測試的維度上得分都相對較低。這表明目前模型在處理時序建模方面仍然存在一定的不足,時序上的建模限制可能會導致空間上的模糊與扭曲,從而導致影片在時間和空間上的品質都不理想。

難產生的類別:提升資料量效益不大

我們對常用的影片資料集WebVid- 10M 進行了統計,發現其中約有26% 的數據與「Human」 有關,在我們統計的八個類別中佔比最高。然而,在評估結果中,「Human」 類別卻是八個類別中表現最差的之一。

這說明對於「Human」 這樣複雜的類別,僅增加資料量可能不會對效能帶來顯著的改善。一個潛在的方法是透過引入 「Human」 相關的先驗知識或控制,例如 Skeletons 等,來指導模型的學習。

百萬量級的資料集:提升資料品質優先於資料量

「Food」 類別雖然在WebVid-10M 中僅佔11%,但在評測中幾乎總是擁有最高的美學品質分數。於是我們進一步分析了 WebVid-10M 資料集不同類別內容的美學品質表現,發現 「Food」 類別在 WebVid-10M 中也有最高的美學評分。

這意味著,在百萬量級資料的基礎上,篩選 / 提升資料品質比增加資料量更有幫助。

待提升的能力:準確生成生成多物體,以及物體間的關係

##目前的影片生成模型在「多物件生成」(Multiple Objects)和「空間關係」(Spatial Relationship)方面還是追不上圖片產生模型(尤其是SDXL),凸顯了提升組合能力的重要性。所謂組合能力指的是模型在影片生成中是否能準確展示多個對象,及它們之間的空間及互動關係。

解決此問題的潛在方法可能包括:

  • #資料打標:建立影片資料集,提供對影片中多個物體的明確描述,以及物體間空間位置關係以及互動關係的描述。
  • 在影片產生過程中加入中間模態 / 模組來輔助控制物件的組合和空間位置關係。
  • 使用更好的文字編碼器(Text Encoder)也會對模型的組合產生能力有比較大的影響。
  • 曲線救國:將 T2V 做不好的 「物體組合」 問題交給 T2I,透過 T2I I2V 的方式來產生影片。這做法針對其他很多影片生成的問題或許也有效。
  • #

以上がAIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。