搜索
首页科技周边人工智能结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

扩散模型的引入推动了文本生成视频技术的发展,然而,这些方法往往计算成本高昂,且难以实现流畅的物体运动视频

为了应对这些问题,来自中国科学院深圳先进技术研究院、中国科学院大学和VIVO人工智能实验室的研究人员联合提出了一种名为GPT4Motion的新框架,该框架无需训练即可生成文本视频。GPT4Motion 结合了GPT等大型语言模型的规划能力、Blender软件提供的物理模拟能力以及扩散模型的文生成图能力,旨在大幅提升视频合成的质量

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频


  • 项目链接:https://gpt4motion.github.io/
  • 论文链接:https://arxiv.org/pdf/2311.12631.pdf
  • 代码链接:https://github.com/jiaxilv/GPT4Motion

GPT4Motion 使用 GPT-4 基于用户输入的文本 prompt 生成 Blender 脚本。它利用 Blender 的物理引擎来创建基本的场景组件,并将其封装为连续的跨帧运动。然后,将这些组件输入到扩散模型中,生成与文本 prompt 相匹配的视频

实验结果表明,GPT4Motion 能够高效地生成高质量的视频,同时保持了运动的一致性和实体的一致性。需要注意的是,GPT4Motion 使用了物理引擎,使得生成的视频更加真实。这为文本生成视频提供了新的视角

让我们先看看GPT4Motion的生成效果,例如输入文本提示:「一件白色T恤在微风中飘动」、「一件白色T恤在风中飘动」、「一件白色T恤在大风中飘动」。由于风的强度不同,GPT4Motion生成的视频中白色T恤的飘动幅度也不同:

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

在液体流动形态方面,GPT4Motion 生成的视频也能够很好地表现出来:

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

篮球从空中旋转着落下:

方法介绍

该研究的目标是根据使用者对一些基本物理运动场景的 prompt,生成一个符合物理特性的视频。物理特性通常与物体的材料有关。研究者的重点在于模拟日常生活中常见的三种物体材料:1)刚性物体,在受力时能保持形状不发生变化;2)布料,其特点是柔软且易飘动;3)液体,表现出连续和可变形的运动。

此外,研究人员还特别关注这些材料的几种典型运动模式,包括碰撞(物体之间的直接撞击)、风效应(气流引起的运动)和流动(连续且朝着一个方向移动)。模拟这些物理场景通常需要经典力学、流体力学和其他物理知识。目前专注于文本生成视频的扩散模型很难通过训练获取这些复杂的物理知识,因此无法制作出符合物理特性的视频

GPT4Motion的优势在于:确保生成的视频不仅与用户输入的提示一致,而且在物理上也是正确的。GPT-4的语义理解和代码生成能力可以将用户的提示转化为Blender的Python脚本,该脚本可以驱动Blender的内置物理引擎来模拟相应的物理场景。此外,该研究还使用了ControlNet,将Blender模拟的动态结果作为输入,指导扩散模型逐帧生成视频

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

利用 GPT-4 激活 Blender 进行模拟操作

研究者观察到,虽然 GPT-4 对 Blender 的 Python API 有一定的了解,但它根据用户 prompt 生成 Blender 的 Python 脚本的能力仍然有所欠缺。一方面,要求 GPT-4 直接在 Blender 中创建哪怕是一个简单的 3D 模型(如篮球)似乎都是一项艰巨的任务。另一方面,由于 Blender 的 Python API 资源较少且 API 版本更新较快,GPT-4 很容易误用某些功能或因版本差异而出错。为了解决这些问题,该研究提出了以下方案:

  1. 使用外部 3D 模型
  2. 封装 Blender 函数
  3. 将用户 prompt 转化为物理特性

图 3 显示了该研究为 GPT-4 设计的通用 prompt 模板。它包括封装的 Blender 函数、外部工具和用户指令。研究者在模板中定义了虚拟世界的尺寸标准,并提供了有关摄像机位置和视角的信息。这些信息有助于 GPT-4 更好地理解三维空间的布局。之后基于用户输入的 prompt 生成相应的指令,引导 GPT-4 生成相应的 Blender Python 脚本。最后,通过该脚本,Blender 渲染出物体的边缘和深度,并以图像序列的形式输出。

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

重写后的内容:制作遵循物理规律的视频

这项研究旨在根据用户提供的提示和Blender所提供的相应物理运动条件,生成与文字内容一致且视觉效果逼真的视频。为此,研究采用了扩散模型XL(SDXL)来完成生成任务,并对其进行了改进

  1. 物理运动约束
  2. 时间一致性约束

实验结果

控制物理特性

图4展示了GPT4Motion在三种提示下生成的篮球运动视频,涉及篮球的下落和碰撞。在图4的左侧,篮球在旋转时保持了高度逼真的纹理,并准确地复制了与地面碰撞后的弹跳行为。图4的中间显示,此方法可以精确控制篮球的数量,并有效地生成多个篮球落地时发生的碰撞和弹跳。令人惊喜的是,如图4右侧所示,当用户要求将篮球抛向摄像机时,GPT-4会根据生成脚本中篮球的下落时间计算出必要的初速度,从而实现逼真的视觉效果。这表明,GPT4Motion可以与GPT-4所掌握的物理知识相结合,从而控制生成的视频内容

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

在风中飘动的布料。图 5 和图 6 验证了 GPT4Motion 在生成在风力影响下运动的布匹的能力。利用现有的物理引擎进行模拟,GPT4Motion 可生成不同风力下布的波动和波浪。在图 5 展示了一面飘动旗帜的生成结果。在不同风力下,旗帜呈现出复杂的波纹和波浪图案。图 6 显示了不规则布料物体 —— T 恤,在不同风力下的运动情况。受织物弹性和重量等物理特性的影响,T 恤发生了抖动和扭曲,并出现了明显的褶皱变化。

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

图 7 展示了将不同粘度的水倒入马克杯的三段视频。当水的粘度较低时,流动的水与杯子中的水发生碰撞并融合,形成复杂的湍流现象。随着粘度的增加,水流变得缓慢,并且液体开始相互黏连在一起

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

与基线方法对比

在图1中,GPT4Motion与其他基线方法进行了直观对比。很明显,基线方法的结果与用户的提示不符。DirecT2V和Text2Video-Zero在纹理逼真度和动作一致性方面存在缺陷,而AnimateDiff和ModelScope虽然提高了视频的流畅度,但在纹理一致性和动作逼真度方面仍有提升空间。与这些方法相比,GPT4Motion可以在篮球下落和与地板碰撞后的弹跳过程中生成平滑的纹理变化,看起来更加逼真

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

如图 8(第一行)所示,AnimateDiff 和 Text2Video-Zero 生成的视频在旗帜上出现了伪影 / 扭曲,而 ModelScope 和 DirecT2V 则无法平滑地生成旗帜在风中飘动的渐变。但是,如图 5 中间所示,GPT4Motion 生成的视频可以显示出旗帜在重力和风力作用下皱纹和波纹的连续变化。

结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频

所有基线的结果都与用户提示不符,如图8中的第二行所示。尽管AnimateDiff和ModelScope的视频反映了水流的变化,但它们无法捕捉到水倒入杯子的物理效果。另一方面,由Text2VideoZero和DirecT2V生成的视频则创造了一个不断抖动的杯子。与此相比,如图7(左)所示,GPT4Motion生成的视频准确地描述了水流与马克杯碰撞时的激荡,效果更加逼真

有兴趣的读者可以阅读原始论文,以了解更多的研究内容

以上是结合物理引擎,GPT-4+扩散模型生成逼真、连贯、合理视频的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
10 GPT-4O图像生成会提示今天尝试!10 GPT-4O图像生成会提示今天尝试!Apr 24, 2025 am 10:26 AM

AI世界中发生了绝对野生的事情。 Openai的本地形象生成现在很疯狂。我们正在谈论令人jaw目结舌的视觉效果,可怕的细节和抛光的输出

用帆板编码的氛围指南用帆板编码的氛围指南Apr 24, 2025 am 10:25 AM

毫不费力地将您的编码愿景带入Codeium's Windsurf,这是您的AI驱动的编码伴侣。 Windsurf简化了整个软件开发生命周期,从编码和调试到优化,将过程转换为INTU

使用RMGB v2.0探索图像背景删除使用RMGB v2.0探索图像背景删除Apr 24, 2025 am 10:20 AM

Braiai的RMGB v2.0:强大的开源背景拆卸模型 图像分割模型正在彻底改变各个领域,而背景删除是进步的关键领域。 Braiai的RMGB v2.0是最先进的开源M

评估大语模型中的毒性评估大语模型中的毒性Apr 24, 2025 am 10:14 AM

本文探讨了大语言模型(LLM)中的毒性至关重要问题以及用于评估和减轻它的方法。 LLM,为从聊天机器人到内容生成的各种应用程序提供动力,需要强大的评估指标,机智

Rag Reranker的综合指南Rag Reranker的综合指南Apr 24, 2025 am 10:10 AM

检索增强发电(RAG)系统正在改变信息访问,但其有效性取决于检索到的数据的质量。 这是重读者变得至关重要的地方 - 充当搜索结果的质量过滤器,以确保仅确保

如何使用Gemma 3&Docling构建多模式抹布?如何使用Gemma 3&Docling构建多模式抹布?Apr 24, 2025 am 10:04 AM

该教程通过在Google Colab中构建精致的多式联运检索一代(RAG)管道来指导您。 我们将使用Gemma 3(用于语言和视觉),文档(文档转换),Langchain等尖端工具

可扩展AI和机器学习应用的射线指南可扩展AI和机器学习应用的射线指南Apr 24, 2025 am 10:01 AM

雷:扩展AI和Python应用程序的有力框架 Ray是一个革命性的开源框架,旨在轻松扩展AI和Python应用程序。 它的直观API使研究人员和开发人员可以通过其代码过渡

如何将OpenAI MCP集成用于建筑代理?如何将OpenAI MCP集成用于建筑代理?Apr 24, 2025 am 09:58 AM

OpenAI通过支持人类的模型上下文协议(MCP)来涵盖互操作性,这是一种开源标准,简化了与不同数据系统的AI助手集成。这项合作为AI应用程序奠定了一个统一的框架

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),