搜索
首页科技周边人工智能AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?

AI 视频生成,是最近最热门的领域之一。各个高校实验室、互联网巨头 AI Lab、创业公司纷纷加入了 AI 视频生成的赛道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等视频生成模型的发布,更是让人眼前一亮。v⁽ⁱ⁾

大家肯定对以下几个问题感到好奇:

  • 到底哪个视频生成模型最牛?
  • 每个模型有什么特长?
  • AI 视频生成领域目前还有哪些值得关注的问题待解决?

为此,我们推出了VBench,一个全面的「视频生成模型的评测框架」,旨在向用户提供关于各种视频模型的优劣和特点。通过VBench,用户可以了解不同视频模型的强项和优势。

AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?


  • 论文:https://arxiv.org/abs/2311.17982
  • 代码:https://github.com/Vchitect/VBench
  • 网页:https://vchitect.github.io/VBench-project/
  • 论文标题:VBench: Comprehensive Benchmark Suite for Video Generative Models

VBench不仅能全面、细致地评估视频生成效果,还能提供符合人们感官体验的评估,节省时间和精力。

AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?

  • VBench 包含 16 个分层和解耦的评测维度 
  • VBench 开源了用于文生视频生成评测的 Prompt List 体系
  • VBench 每个维度的评测方案与人类的观感与评价对齐 
  • VBench 提供了多视角的洞察,助力未来对于 AI 视频生成的探索

AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?

“VBench” - 「视频生成模型」的全面基准测试套件

AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?

AI 视频生成模型 - 评测结果

已开源的 AI 视频生成模型

各个开源的 AI 视频生成模型在 VBench 上的表现如下。

AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?

各家已开源的 AI 视频生成模型在 VBench 上的表现。在雷达图中,为了更清晰地可视化比较,我们将每个维度的评测结果归一化到了 0.3 与 0.8 之间。

AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?

各家已开源的 AI 视频生成模型在 VBench 上的表现。

在以上 6 个模型中,可以看到 VideoCrafter-1.0 和 Show-1 在大多数维度都有相对优势。

创业公司的视频生成模型

VBench 目前给出了 Gen-2 和 Pika 这两家创业公司模型的评测结果。

AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?

Gen-2 和 Pika 在 VBench 上的表现。在雷达图中,为了更清晰地可视化比较,我们加入了 VideoCrafter-1.0 和 Show-1 作为参考,同时将每个维度的评测结果归一化到了 0.3 与 0.8 之间。

AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?

Gen-2 和 Pika 在 VBench 上的表现。我们加入了 VideoCrafter-1.0 和 Show-1 的数值结果作为参考。

可以看到,Gen-2 和 Pika 在视频质量(Video Quality)上有明显优势,例如时序一致性(Temporal Consistency)和单帧质量(Aesthetic Quality 和 Imaging Quality)相关维度。在与用户输入的 prompt 的语义一致性上(例如 Human Action 和 Appearance Style),部分维度开源模型会更胜一筹。

视频生成模型 VS 图片生成模型

AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?

视频生成模型 VS 图片生成模型。其中 SD1.4,SD2.1 和 SDXL 是图片生成模型。

视频生成模型在 8 大场景类别上的表现

下面是不同模型在 8 个不同类别上的评测结果。

AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?

VBench 现已开源,一键即可安装

目前,VBench 已全面开源,且支持一键安装。欢迎大家来玩,测试一下感兴趣的模型,一起推动视频生成社区的发展。

AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?

AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?

AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?


开源地址:https://github.com/Vchitect/VBench


AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?

我们也开源了一系列 Prompt List:https://github.com/Vchitect/VBench/tree/master/prompts,包含在不同能力维度上用于评测的 Benchmark,以及在不同场景内容上的评测 Benchmark。

AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?

左边词云展示了我们 Prompt Suites 的高频词分布,右图展示了不同维度和类别的 prompt 数量统计。

VBench 准不准?

针对每个维度,我们计算了 VBench 评测结果与人工评测结果之间的相关度,进而验证我们方法与人类观感的一致性。下图中,横轴代表不同维度的人工评测结果,纵轴则展示了 VBench 方法自动评测的结果,可以看到我们方法在各个维度都与人类感知高度对齐。

AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?

VBench 带给 AI 视频生成的思考

VBench 不仅可以对现有模型进行评测,更重要的是,还可以发现不同模型中可能存在的各种问题,为未来 AI 视频生成的发展提供有价值的 insights。

「时序连贯性」以及「视频的动态程度」:不要二选一,而应同时提升

我们发现时序连贯性(例如 Subject Consistency、Background Consistency、Motion Smoothness)与视频中运动的幅度(Dynamic Degree)之间有一定的权衡关系。比如说,Show-1 和 VideoCrafter-1.0 在背景一致性和动作流畅度方面表现很好,但在动态程度方面得分较低;这可能是因为生成 「没有动起来」 的画面更容易显得 「在时序上很连贯」。另一方面,VideoCrafter-0.9 在与时序一致性的维度上弱一些,但在 Dynamic Degree 上得分很高。

这说明,同时做好 「时序连贯性」 和 「较高的动态程度」 确实挺难的;未来不应只关注其中一方面的提升,而应该同时提升 「时序连贯性」 以及 「视频的动态程度」 这两方面,这才是有意义的。

分场景内容进行评测,发掘各家模型潜力

有些模型在不同类别上表现出的性能存在较大差异,比如在美学质量(Aesthetic Quality)上,CogVideo 在 「Food」 类别上表现不错,而在 「LifeStyle」 类别得分较低。如果通过训练数据的调整,CogVideo 在 「LifeStyle」 这些类别上的美学质量是否可以提升上去,进而提升模型整体的视频美学质量?

这也告诉我们,在评估视频生成模型时,需要考虑模型在不同类别或主题下的表现,挖掘模型在某个能力维度的上限,进而针对性地提升 「拖后腿」 的场景类别。

有复杂运动的类别:时空表现都不佳

在空间上复杂度高的类别,在美学质量维度得分都比较低。例如,「LifeStyle」 类别对复杂元素在空间中的布局有比较高的要求,「Human」 类别由于铰链式结构的生成带来了挑战。

对于时序复杂的类别,比如 「Human」 类别通常涉及复杂的动作、「Vehicle」 类别会经常出现较快的移动,它们在所有测试的维度上得分都相对较低。这表明当前模型在处理时序建模方面仍然存在一定的不足,时序上的建模局限可能会导致空间上的模糊与扭曲,从而导致视频在时间和空间上的质量都不理想。

难生成的类别:提升数据量收益不大

我们对常用的视频数据集 WebVid-10M 进行了统计,发现其中约有 26% 的数据与 「Human」 有关,在我们统计的八个类别中占比最高。然而,在评估结果中,「Human」 类别却是八个类别中表现最差的之一。

这说明对于 「Human」 这样复杂的类别,仅仅增加数据量可能不会对性能带来显著的改善。一种潜在的方法是通过引入 「Human」 相关的先验知识或控制,比如 Skeletons 等,来指导模型的学习。

百万量级的数据集:提升数据质量优先于数据量

「Food」 类别虽然在 WebVid-10M 中仅占据 11%,但在评测中几乎总是拥有最高的美学质量分数。于是我们进一步分析了 WebVid-10M 数据集不同类别内容的美学质量表现,发现 「Food」 类别在 WebVid-10M 中也有最高的美学评分。

这意味着,在百万量级数据的基础上,筛选 / 提升数据质量比增加数据量更有帮助。

待提升的能力:准确生成生成多物体,以及物体间的关系

当前的视频生成模型在 「多对象生成」(Multiple Objects)和 「空间关系」(Spatial Relationship)方面还是追不上图片生成模型(尤其是 SDXL),这凸显了提升组合能力的重要性。所谓组合能力指的是模型在视频生成中是否能准确展示多个对象,及它们之间的空间及互动关系。

解决这一问题的潜在方法可能包括:

  • 数据打标:构建视频数据集,提供对视频中多个物体的明确描述,以及物体间空间位置关系以及互动关系的描述。
  • 在视频生成过程中添加中间模态 / 模块来辅助控制物体的组合和空间位置关系。
  • 使用更好的文本编码器(Text Encoder)也会对模型的组合生成能力有比较大的影响。
  • 曲线救国:将 T2V 做不好的 「物体组合」 问题交给 T2I,通过 T2I+I2V 的方式来生成视频。这一做法针对其他很多视频生成中的问题或许也有效。

以上是AI视频生成框架测试竞争:Pika、Gen-2、ModelScope、SEINE,谁能胜出?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
在没有人类干预的情况下训练LLM的7种方法在没有人类干预的情况下训练LLM的7种方法Apr 15, 2025 am 10:38 AM

解锁自治AI:自我训练LLMS的7种方法 想象一个未来AI系统在没有人类干预的情况下学习和发展的未来,就像孩子独立掌握复杂概念的孩子一样。这不是科幻小说;这是自我的应许

通过AI和NLG进行财务报告 - 分析Vidhya通过AI和NLG进行财务报告 - 分析VidhyaApr 15, 2025 am 10:35 AM

AI驱动的财务报告:通过自然语言产生革新见解 在当今动态的业务环境中,准确及时的财务分析对于战略决策至关重要。 传统财务报告

这款Google DeepMind机器人会在2028年奥运会上演奏吗?这款Google DeepMind机器人会在2028年奥运会上演奏吗?Apr 15, 2025 am 10:16 AM

Google DeepMind的乒乓球机器人:体育和机器人技术的新时代 巴黎2024年奥运会可能已经结束,但是由于Google DeepMind,运动和机器人技术的新时代正在兴起。 他们的开创性研究(“实现人类水平的竞争

使用Gemini Flash 1.5型号构建食物视觉网络应用使用Gemini Flash 1.5型号构建食物视觉网络应用Apr 15, 2025 am 10:15 AM

双子座闪光灯1.5解锁效率和可伸缩性:烧瓶食物视觉webapp 在快速发展的AI景观中,效率和可扩展性至关重要。 开发人员越来越多地寻求高性能模型,以最大程度地减少成本和延迟

使用LlamainDex实施AI代理使用LlamainDex实施AI代理Apr 15, 2025 am 10:11 AM

利用LlamainDex的AI特工的力量:逐步指南 想象一下,一个私人助理了解您的要求并完美地执行它们,无论是快速计算还是检索最新的市场新闻。本文探索

将.ipynb文件转换为PDF- Analytics Vidhya的5种方法将.ipynb文件转换为PDF- Analytics Vidhya的5种方法Apr 15, 2025 am 10:06 AM

Jupyter Notebook (.ipynb) 文件广泛用于数据分析、科学计算和交互式编码。虽然这些 Notebook 非常适合开发和与其他数据科学家共享代码,但有时您需要将其转换为更普遍易读的格式,例如 PDF。本指南将引导您逐步了解将 .ipynb 文件转换为 PDF 的各种方法,以及技巧、最佳实践和故障排除建议。 目录 为什么将 .ipynb 转换为 PDF? 将 .ipynb 文件转换为 PDF 的方法 使用 Jupyter Notebook UI 使用 nbconve

LLM量化和用例的综合指南LLM量化和用例的综合指南Apr 15, 2025 am 10:02 AM

介绍 大型语言模型(LLM)正在彻底改变自然语言处理,但它们的巨大规模和计算要求限制了部署。 量化是一种缩小模型和降低计算成本的技术,是至关重要的

python的硒综合指南python的硒综合指南Apr 15, 2025 am 09:57 AM

介绍 本指南探讨了用于Web自动化和测试的Selenium和Python的强大组合。 Selenium可自动化浏览器交互,从而显着提高了大型Web应用程序的测试效率。 本教程重点o

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中