検索
ホームページテクノロジー周辺機器AIAIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

AI ビデオ生成は、最近最も注目されている分野の 1 つです。さまざまな大学の研究室、インターネット大手の AI Labs、新興企業が AI ビデオ生成トラックに参加しています。 Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM などのビデオ生成モデルのリリースはさらに目を引きます。 v⁽ⁱ⁾

誰もが次の質問に興味があるはずです:

  • どのビデオ生成モデルが最適ですか?
  • 各モデルの特徴は何ですか?
  • AI動画生成分野で解決すべき注目すべき課題は何でしょうか?

この目的を達成するために、私たちは包括的な「ビデオ生成モデルの評価フレームワーク」である VBench を立ち上げました。これは、さまざまなビデオ生成モデルの長所、短所、特性に関する情報をユーザーに提供するように設計されています。ビデオモデル。 VBench を通じて、ユーザーはさまざまなビデオ モデルの長所と利点を理解できます。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?


  • 論文: https://arxiv.org/abs / 2311.17982
  • コード: https://github.com/Vchitect/VBench
  • ウェブページ: https://vchitect.github.io /VBench -project/
  • 論文タイトル: VBench: ビデオ生成モデルのための包括的なベンチマーク スイート

VBench は、包括的かつ詳細な機能を備えているだけではありません。ビデオ生成効果を正確に評価でき、また人々の感覚体験に沿った評価を提供できるため、時間とエネルギーを節約できます。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

    VBench には 16 の階層化された分離された評価ディメンションが含まれています
  • #VBench Wensheng ビデオの生成と評価のためのプロンプト リスト システムをオープンソース化しました
  • #VBench の各側面の評価計画は人間の認識と評価と一致しています
  • VBench は、AI ビデオ生成の将来の探求を容易にする多視点の洞察を提供します

「VBench」 - 「ビデオ生成モデル」包括的なベンチマーク スイートAIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

#AI ビデオ生成モデル - 評価結果AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

オープンソース AI ビデオ生成モデル

#VBench 上のさまざまなオープンソース AI ビデオ生成モデルのパフォーマンスは次のとおりです。

#VBench 上のさまざまなオープンソース AI ビデオ生成モデルのパフォーマンス。レーダー チャートでは、比較をより明確に視覚化するために、各次元の結果が 0.3 ~ 0.8 になるように正規化しました。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

#VBench 上のさまざまなオープンソース AI ビデオ生成モデルのパフォーマンス。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

上記の 6 つのモデルの中で、VideoCrafter-1.0 と Show-1 がほとんどの点で相対的に優れていることがわかります。

スタートアップのビデオ生成モデル

VBench は現在、Gen-2 と Pika の 2 つのスタートアップを提供しています 企業の評価結果モデル。

VBench での Gen-2 と Pika のパフォーマンス。レーダーチャートでは、比較をより明確に視覚化するために、VideoCrafter-1.0とShow-1をリファレンスとして追加し、各次元の評価結果が0.3~0.8になるように正規化しました。 AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

Gen-2 和 Pika 在 VBench 上的表現。我們加入了 VideoCrafter-1.0 和 Show-1 的數值結果作為參考。

可以看到,Gen-2 和Pika 在視訊品質(Video Quality)上有明顯優勢,例如時序一致性(Temporal Consistency)和單幀品質(Aesthetic Quality 和Imaging Quality)相關維度。在與使用者輸入的 prompt 的語意一致性上(例如 Human Action 和 Appearance Style),部分維度開源模型會更勝一籌。

影片產生模型VS 圖片產生模型

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

影片產生模型VS圖片生成模型。其中 SD1.4,SD2.1 和 SDXL 是圖片產生模型。

影片產生模型在8 大場景類別上的表現

#下面是不同模型在8 個不同類別上的評測結果。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

VBench 現已開源,一鍵即可安裝

目前,VBench 已全面開源,且支援一鍵安裝。歡迎大家來玩,測試一下有興趣的模型,一起推動影片生成社群的發展。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?


開源位址:https://github.com/Vchitect/VBench


AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

我們也開源了一系列Prompt List :https://github.com/Vchitect/VBench/tree/master/prompts,包含在不同能力維度上用於評測的Benchmark,以及在不同場景內容上的評測Benchmark。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

左邊詞雲展示了我們 Prompt Suites 的高頻詞分佈,右圖展示了不同維度和類別的 prompt 數量統計。

VBench 準不準?

針對每個向度,我們計算了 VBench 評測結果與人工評測結果之間的相關度,進而驗證我們方法與人類觀感的一致性。下圖中,橫軸代表不同維度的人工評測結果,縱軸則展示了 VBench 方法自動評測的結果,可以看到我們方法在各個維度都與人類感知高度對齊。

AIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?

VBench 帶給AI 影片產生的思考

VBench 不僅可以對現有模型進行評測,更重要的是,還可以發現不同模型中可能存在的各種問題,為未來AI 視訊生成的發展提供有價值的insights。

「時序連貫性」以及「影片的動態程度」:不要二選一,而應同時提升

我們發現時序連貫性(例如Subject Consistency、Background Consistency、Motion Smoothness)與影片中運動的幅度(Dynamic Degree)之間有一定的權衡關係。比方說,Show-1 和VideoCrafter-1.0 在背景一致性和動作流暢度方面表現很好,但在動態程度方面得分較低;這可能是因為產生 「沒有動起來」 的畫面更容易顯得「在時序上很連貫」。另一方面,VideoCrafter-0.9 在與時序一致性的維度上弱一些,但在 Dynamic Degree 上得分很高。

這說明,同時做好「時序連貫性」 和「較高的動態程度」 確實挺難的;未來不應只關注其中一方面的提升,而應該同時提升「時序連貫性」以及「影片的動態程度」 這兩方面,這才是有意義的。

分場景內容進行評測,發掘各家模型潛力

有些模型在不同類別上表現出的表現有較大差異,例如在美學品質(Aesthetic Quality)上,CogVideo 在「Food」 類別上表現不錯,而在「LifeStyle」 類別得分較低。如果透過訓練資料的調整,CogVideo 在 “LifeStyle” 這些類別上的美學品質是否可以提升上去,進而提升模型整體的視訊美學品質?

這也告訴我們,在評估影片產生模型時,需要考慮模型在不同類別或主題下的表現,挖掘模型在某個能力維度的上限,進而針對性地提升「拖後腿」 的場景類別。

有複雜運動的類別:時空表現都不佳

#在空間上複雜度高的類別,在美學品質維度得分都比較低。例如,「LifeStyle」 類別對複雜元素在空間中的佈局有比較高的要求,而「Human」 類別則由於鉸鍊式結構的產生帶來了挑戰。

對於時序複雜的類別,例如「Human」 類別通常涉及複雜的動作、「Vehicle」 類別會經常出現較快的移動,它們在所有測試的維度上得分都相對較低。這表明目前模型在處理時序建模方面仍然存在一定的不足,時序上的建模限制可能會導致空間上的模糊與扭曲,從而導致影片在時間和空間上的品質都不理想。

難產生的類別:提升資料量效益不大

我們對常用的影片資料集WebVid- 10M 進行了統計,發現其中約有26% 的數據與「Human」 有關,在我們統計的八個類別中佔比最高。然而,在評估結果中,「Human」 類別卻是八個類別中表現最差的之一。

這說明對於「Human」 這樣複雜的類別,僅增加資料量可能不會對效能帶來顯著的改善。一個潛在的方法是透過引入 「Human」 相關的先驗知識或控制,例如 Skeletons 等,來指導模型的學習。

百萬量級的資料集:提升資料品質優先於資料量

「Food」 類別雖然在WebVid-10M 中僅佔11%,但在評測中幾乎總是擁有最高的美學品質分數。於是我們進一步分析了 WebVid-10M 資料集不同類別內容的美學品質表現,發現 「Food」 類別在 WebVid-10M 中也有最高的美學評分。

這意味著,在百萬量級資料的基礎上,篩選 / 提升資料品質比增加資料量更有幫助。

待提升的能力:準確生成生成多物體,以及物體間的關係

##目前的影片生成模型在「多物件生成」(Multiple Objects)和「空間關係」(Spatial Relationship)方面還是追不上圖片產生模型(尤其是SDXL),凸顯了提升組合能力的重要性。所謂組合能力指的是模型在影片生成中是否能準確展示多個對象,及它們之間的空間及互動關係。

解決此問題的潛在方法可能包括:

  • #資料打標:建立影片資料集,提供對影片中多個物體的明確描述,以及物體間空間位置關係以及互動關係的描述。
  • 在影片產生過程中加入中間模態 / 模組來輔助控制物件的組合和空間位置關係。
  • 使用更好的文字編碼器(Text Encoder)也會對模型的組合產生能力有比較大的影響。
  • 曲線救國:將 T2V 做不好的 「物體組合」 問題交給 T2I,透過 T2I I2V 的方式來產生影片。這做法針對其他很多影片生成的問題或許也有效。
  • #

以上がAIビデオ生成フレームワークテストコンテスト:Pika、Gen-2、ModelScope、SEINE、誰が優勝できるでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ロボット工学者になる方法は?ロボット工学者になる方法は?Apr 15, 2025 am 09:41 AM

ロボット工学:急速に拡大するフィールドでのやりがいのあるキャリアパス ロボット工学の分野は、爆発的な成長を経験しており、多くのセクターにわたって革新を促進し、日常生活を送っています。 自動製造から医療ロボットや自動運転車まで、

Excelで複製を削除する方法は? - 分析VidhyaExcelで複製を削除する方法は? - 分析VidhyaApr 15, 2025 am 09:20 AM

データの整合性:正確な分析のためにExcelで重複を削除します クリーンデータは、効果的な意思決定には非常に重要です。 Excelスプレッドシートの複製エントリは、エラーや信頼できない分析につながる可能性があります。このガイドは、DUPを簡単に削除する方法を示しています

トップ10の電話インタビューのヒント - 分析Vidhyaトップ10の電話インタビューのヒント - 分析VidhyaApr 15, 2025 am 09:19 AM

電話インタビューの芸術をマスターする:成功へのあなたのガイド 電話インタビューを成功させると、求人プロセスの次の段階に進む可能性が大幅に増加する可能性があります。 この重要な第一印象は、多くの場合唯一のfacです

統計学者になる方法は?統計学者になる方法は?Apr 15, 2025 am 09:15 AM

導入 ヘルスケア、金融、スポーツなどの分野で自分とあなたの会社のために情報に基づいた決定を下す力を持っていることを想像してください。それが統計学者の役割です。 組織でのデータの使用の増加に伴い、統計学者の需要

AIはどのように機能しますか? - 分析VidhyaAIはどのように機能しますか? - 分析VidhyaApr 15, 2025 am 09:14 AM

人工知能:包括的なガイド テクノロジーにより、マシンが私たちの好みを理解し、私たちのニーズを予測し、過去の相互作用から学び、より良い結果を提供する世界を想像することができました。これはサイエンスフィクションではありません。その

Pictogramグラフとは何ですか? - 分析VidhyaPictogramグラフとは何ですか? - 分析VidhyaApr 15, 2025 am 09:09 AM

導入 データ分析の世界では、効果的なコミュニケーションが重要です。 Pictogramグラフは強力なソリューションを提供し、視覚的に魅力的で簡単に消化可能な形式で情報を提示します。複雑なチャートや図、絵文字も異なります

llama-3.1-storm-8b:8b LLMはメタとエルメスを上回るllama-3.1-storm-8b:8b LLMはメタとエルメスを上回るApr 15, 2025 am 09:08 AM

Llama 3.1 Storm 8b:効率的な言語モデルのブレークスルー 効率的で正確な言語モデルの追求により、80億パラメーターモデルカテゴリの大幅な進歩であるLlama 3.1 Storm 8Bの開発が発生しました。 これは洗練されています

Gitのインストール方法は? - 分析VidhyaGitのインストール方法は? - 分析VidhyaApr 15, 2025 am 09:07 AM

Git:バージョン制御とコラボレーションへの本質的なガイド GITは、開発者にとって重要なツールであり、プロジェクトのコラボレーションとバージョン制御を簡素化します。 このガイドは、Linux、MacOS、およびWindにGitをインストールするための簡単な手順を提供します

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール