搜索
首页科技周边人工智能清华、华为等提出iVideoGPT:专攻交互式世界模型

iVideoGPT,满足世界模型高交互性需求。

近年来,生成模型取得了显着进展,其中视频生成正在成为一个新的前沿领域。这些生成视频模型的一个重要应用是,在多样化的互联网规模数据上以无监督方式学习,用于构建预测世界模型。这些世界模型有望积累关于世界如何运作的常识性知识,从而能够基于智能体的行为预测潜在的未来结果。

通过利用这些世界模型,采用基于强化学习的智能体可以在世界模型中进行想象、推理和规划,从而在现实世界中通过少量试验就能更安全、更有效地获得新技能。

尽管生成模型和世界模型有着基本的联系,但用于视频生成的生成模型和用于智能体学习的世界模型的发展之间仍然存在显着的差距。主要挑战之一是如何在交互性和可扩展性之间取得最佳平衡。

在基于模型的强化学习领域,世界模型主要使用循环网络架构。这种设计允许在每一步中基于动作传递观察或潜在状态,从而促进交互行为学习。然而,这些模型大多专注于游戏或模拟环境,数据简单,并且对大规模复杂的 in-the-wild 数据进行建模的能力有限。

相比之下,互联网规模的视频生成模型可以合成逼真的长视频,这些视频可以通过文本描述或未来动作序列进行控制。虽然这样的模型允许高层次的、长期的规划,但它们的轨迹级交互性并没有为智能体提供足够的粒度来有效地学习精确的行为作为基本技能。

来自清华大学、华为诺亚方舟实验室、天津大学的研究者提出了iVideoGPT(Interactive VideoGPT),这是一个可扩展的自回归Transformer 框架,它将多模态信号(视觉观察、动作和奖励)集成到一系列token 中,通过预测下一个Token 使智能体能够进行交互体验。

iVideoGPT 采用新颖的压缩 tokenization 技术,可有效离散高维视觉观察。利用其可扩展架构,研究者能够在数百万人类和机器人操作轨迹上对 iVideoGPT 进行预训练,从而建立一个多功能基础,可用作各种下游任务的交互式世界模型。该研究促进了交互式通用世界模型的发展。
清华、华为等提出iVideoGPT:专攻交互式世界模型
  • 论文地址:https://arxiv.org/pdf/2405.15223
  • 论文标题: iVideoGPT: Interactive VideoGPTs are Scalable World Models

方法

在这一部分,研究团队介绍了一种可扩展的世界模型架构——iVideoGPT,其具有极高的灵活性,能够整合多模态信息,包括视觉观察、动作、奖励以及其他潜在的输入。

iVideoGPT 的核心包括一个压缩 tokenizer,用于离散化视频帧,以及一个自回归 transformer,用于预测后续 token。通过在多样化的视频数据上进行预训练,该模型可以获得广泛的世界知识,然后有效地迁移到下游任务中。
清华、华为等提出iVideoGPT:专攻交互式世界模型
架构

压缩 tokenization。 Transformer 在处理离散 token 序列方面表现特别出色。 VQGAN 是一种常用的视觉 tokenizer,用于将原始像素转换为离散 token。研究者提出用一种由双编码器和解码器 {(E_c, D_c),(E_p, D_p)} 组成的新型条件 VQGAN 对视频进行 token 化。

如图3a 所示,初始上下文帧清华、华为等提出iVideoGPT:专攻交互式世界模型包含丰富的上下文信息,通过N 个token 独立地进行token 化和重构:

清华、华为等提出iVideoGPT:专攻交互式世界模型

相比之下,由于上下文帧和未来帧之间存在时间冗余,只有必要的变化信息如移动对象的位置和姿态,才需要被编码。上述过程是通过使用条件编码器和解码器实现的:

清华、华为等提出iVideoGPT:专攻交互式世界模型

研究人员通过在多尺度特征图之间使用交叉注意力来实现条件机制。总的来说,tokenizer 是通过以下目标进行训练的:

清华、华为等提出iVideoGPT:专攻交互式世界模型

该研究提出的tokenization 主要有两个好处:

  • 首先,它显着减少了token 化后视频的序列长度,该长度随帧数的增加而线性增长,但增长率n 要小得多;
  • 其次,通过条件编码,预测后续token 的transformer 可以更容易地保持上下文的时间一致性,并专注于建模必要的动态信息。

Transformer 的可交互预测。 Token 化后,视频被展平成一系列 token:

清华、华为等提出iVideoGPT:专攻交互式世界模型

长度为清华、华为等提出iVideoGPT:专攻交互式世界模型。特殊的 slot token [S] 被插入以划定帧边界,并促进额外低维模态(如动作)的融合。如图 3b 所示,一个类似 GPT 的自回归 transformer 被用于通过逐帧生成 next-token 来进行交互式视频预测。在这项工作中,该团队使用了 GPT-2 的模型大小,但采用了 LLaMA 架构,以便利用 LLM 架构的最新创新,如旋转位置嵌入。

预训练 

大语言模型可以通过next-word 预测以自监督的方式从互联网文本中获得广泛的知识。同样,世界模型的无动作(action-free)视频预训练范式将视频预测作为预训练目标,为 LLM 缺乏的物理世界知识提供互联网规模的监督。

研究人员在这一通用目标上预训练 iVideoGPT,应用交叉熵损失来预测后续视频 token:

清华、华为等提出iVideoGPT:专攻交互式世界模型

预训练数据。虽然互联网上有大量视频可用,但由于计算限制,研究人员特别为机器人操作领域预训练了 iVideoGPT。他们利用来自 Open X-Embodiment(OXE)数据集和 Something-Something v2(SSv2)数据集的 35 个数据集的混合,共计 150 万条轨迹。 

微调

动作条件与奖励预测。该团队的架构被设计为灵活地整合额外模态以学习交互式世界模型,如图 3b 所示。动作通过线性投影并添加到 slot token 嵌入中进行整合。对于奖励预测,他们没有学习独立的奖励预测器,而是在每个观察的最后一个 token 的隐藏状态上添加了一个线性头(linear head)。

这种多任务学习方法可以增强模型对任务相关信息的关注,从而提高控制任务的预测准确性。他们在方程式(3)的交叉熵损失之外,还使用了均方误差损失进行奖励预测。

Tokenizer 适应。研究团队选择更新完整模型,包括 tokenizer,以适应下游任务,并发现这一策略比参数高效的微调方法更有效。

很少有文献探讨将 VQGAN tokenizer 用于特定领域的数据。在这项工作中,由于 tokenization 将动态信息与上下文条件解耦,并假设虽然此模型可能在下游任务中遇到未见过的对象,如不同类型的机器人,但 transformer 从多样化场景中学到的基本物理知识 —— 如运动和交互是共享的。

这一假设得到了实验的支持,他们将 iVideoGPT 从混合预训练数据迁移到未见过的 BAIR 数据集,其中预训练的 transformer 可以零样本泛化预测自然运动,仅需对未见过的机器人抓手的 tokenizer 进行微调(见图 7)。这一特性对于将类似 GPT 的 transformer 扩展到大型尺寸尤为重要,能够在保持 transformer 完整的同时实现跨领域的轻量级对齐。
清华、华为等提出iVideoGPT:专攻交互式世界模型
实验

如表 1 所示,与 SOTA 方法相比,iVideoGPT 展现出了具有竞争力的性能,同时在其架构中实现了交互性和可扩展性。虽然初步实验是在 64×64 的低分辨率下进行的,但 iVideoGPT 可以轻松扩展到 RoboNet 的 256×256。
清华、华为等提出iVideoGPT:专攻交互式世界模型
有关定性结果,请参阅图 9。
清华、华为等提出iVideoGPT:专攻交互式世界模型
图 4 显示了 iVideoGPT 与基准模型相比的成功率。iVideoGPT 在两个 RoboDesk 任务中大幅优于所有基线,并实现了与最强模型 SVG' 相当的平均性能。
清华、华为等提出iVideoGPT:专攻交互式世界模型
图 6 显示基于模型的算法不仅比无模型算法提高了样本效率,而且达到或超过了 DreamerV3 的性能。
清华、华为等提出iVideoGPT:专攻交互式世界模型
接下来该研究分析了大规模预训练 iVideoGPT 在未见过的 BAIR 数据集上的零样本视频预测能力。有趣的是,研究者在图 7 的第二行观察到,iVideoGPT 在没有微调的情况下,预测了一个机器人抓手的自然运动 —— 尽管与预训练数据集不同。这表明,尽管由于预训练数据的多样性不足,模型在完全未见过的机器人上的零样本泛化能力有限,但它有效地将场景上下文与运动动态分离开来。相比之下,使用经过适应的 tokenizer,未经过微调的 Transformer 成功地迁移了预训练知识,并在第三行预测了新型机器人的运动,提供了与第四行中完全微调的 Transformer 相似的感知质量,定量结果见图 8a。 
清华、华为等提出iVideoGPT:专攻交互式世界模型
了解更多结果,请参考原论文。

以上是清华、华为等提出iVideoGPT:专攻交互式世界模型的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
如何使用LM Studio在本地运行LLM? - 分析Vidhya如何使用LM Studio在本地运行LLM? - 分析VidhyaApr 19, 2025 am 11:38 AM

轻松在家运行大型语言模型:LM Studio 使用指南 近年来,软件和硬件的进步使得在个人电脑上运行大型语言模型 (LLM) 成为可能。LM Studio 就是一个让这一过程变得轻松便捷的优秀工具。本文将深入探讨如何使用 LM Studio 在本地运行 LLM,涵盖关键步骤、潜在挑战以及在本地拥有 LLM 的优势。无论您是技术爱好者还是对最新 AI 技术感到好奇,本指南都将提供宝贵的见解和实用技巧。让我们开始吧! 概述 了解在本地运行 LLM 的基本要求。 在您的电脑上设置 LM Studi

盖伊·佩里(Guy Peri)通过数据转换帮助麦考密克的未来盖伊·佩里(Guy Peri)通过数据转换帮助麦考密克的未来Apr 19, 2025 am 11:35 AM

盖伊·佩里(Guy Peri)是麦考密克(McCormick)的首席信息和数字官。尽管他的角色仅七个月,但Peri正在迅速促进公司数字能力的全面转变。他的职业生涯专注于数据和分析信息

迅速工程中的情感链是什么? - 分析Vidhya迅速工程中的情感链是什么? - 分析VidhyaApr 19, 2025 am 11:33 AM

介绍 人工智能(AI)不仅要理解单词,而且要理解情感,从而以人的触感做出反应。 这种复杂的互动对于AI和自然语言处理的快速前进的领域至关重要。 Th

12个最佳数据科学工作流程的AI工具-Analytics Vidhya12个最佳数据科学工作流程的AI工具-Analytics VidhyaApr 19, 2025 am 11:31 AM

介绍 在当今以数据为中心的世界中,利用先进的AI技术对于寻求竞争优势和提高效率的企业至关重要。 一系列强大的工具使数据科学家,分析师和开发人员都能构建,Depl

AV字节:OpenAI的GPT-4O Mini和其他AI创新AV字节:OpenAI的GPT-4O Mini和其他AI创新Apr 19, 2025 am 11:30 AM

本周的AI景观爆炸了,来自Openai,Mistral AI,Nvidia,Deepseek和Hugging Face等行业巨头的开创性发行。 这些新型号有望提高功率,负担能力和可访问性,这在TR的进步中推动了

报告发现,困惑的Android应用程序有安全缺陷。报告发现,困惑的Android应用程序有安全缺陷。Apr 19, 2025 am 11:24 AM

但是,该公司的Android应用不仅提供搜索功能,而且还充当AI助手,并充满了许多安全问题,可以将其用户暴露于数据盗用,帐户收购和恶意攻击中

每个人都擅长使用AI:关于氛围编码的想法每个人都擅长使用AI:关于氛围编码的想法Apr 19, 2025 am 11:17 AM

您可以查看会议和贸易展览中正在发生的事情。您可以询问工程师在做什么,或咨询首席执行官。 您看的任何地方,事情都以惊人的速度发生变化。 工程师和非工程师 有什么区别

火箭发射模拟和分析使用Rocketpy -Analytics Vidhya火箭发射模拟和分析使用Rocketpy -Analytics VidhyaApr 19, 2025 am 11:12 AM

模拟火箭发射的火箭发射:综合指南 本文指导您使用强大的Python库Rocketpy模拟高功率火箭发射。 我们将介绍从定义火箭组件到分析模拟的所有内容

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。