搜索
首页科技周边人工智能深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

机器人技术为什么远远落后于自然语言处理(NLP)、视觉和其他人工智能领域?除了其他困难外,数据短缺是主要原因。为了解决这个问题,谷歌 DeepMind 联合其他机构推出了开放式 X-Embodiment 数据集,并成功训练出了更强大的 RT-X 模型

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
在大模型不断取得突破的 2023,把大模型当做大脑来辅助运行的具身智能机器人研究也在被迅速推进。

2 个多月前,谷歌 DeepMind 推出了第一个控制机器人的视觉 - 语言 - 动作(VLA)模型 ——RT-2。这个模型让机器人不仅能解读人类的复杂指令,还能看懂眼前的物体(即使这个物体之前从未见过),并按照指令采取动作。比如,你让机器人拿起桌上「已灭绝的动物」。它会抓起眼前的恐龙玩偶。

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

当时,一位谷歌高管称,RT-2 是机器人制造和编程方式的重大飞跃。「由于这一变化,我们不得不重新考虑我们的整个研究规划了。」

更令人吃惊的是,时间仅仅过去了两个多月,DeepMind 的这个机器人模型又进步了,而且一下就提高了两倍。

这是怎么实现的呢?

我们知道,机器人通常在做某一件事情上非常专业,但通用能力很差。一般情况下,你必须针对每项任务、每个机器人和环境训练一个模型。改变一个变量往往需要从头开始。但是,如果我们能将各种机器人学的知识结合起来,创造出一种训练通用机器人的方法呢?

这就是 DeepMind 在过去一段时间所做的事情。他们汇集了来自 22 种不同机器人类型的数据,以创建 Open X-Embodiment 数据集,然后在之前的模型(RT-1 和 RT-2)的基础上,训练出了能力更强的 RT-X(分别为 RT-1-X 和 RT-2-X)。

他们在五个不同的研究实验室测试了 RT-1-X 模型,结果显示,与针对每个机器人独立开发的方法相比,新方法在五种不同的常用机器人中平均成功率提高了 50%。他们还表明,在上述数据集上训练的 RT-2-X 在现实世界机器人技能上的表现提高了 2 倍,而且,通过学习新数据,RT-2-X 掌握了很多新技能。这项工作表明,在来自多个机器人类型数据上训练的单个模型比在来自单个机器人类型数据上训练的模型在多个机器人上的性能要好得多。

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

值得一提的是,这项研究并非由 DeepMind 独立完成,而是他们与 33 家学术实验室通力合作的结果。他们致力于以开放和负责任的方式开发这项技术。
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
目前,Open X-Embodiment 数据集和 RT-1-X 模型检查点已经对广泛的研究社区开放。
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
英伟达高级人工智能科学家Jim Fan表示今天可能是机器人的ImageNet时刻。

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

谷歌研究员Karol Hausman也表达了同样的感叹:机器人的ImageNet时刻终于到来了。

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

Open X-Embodiment 数据集,机器人的 ImageNet 时刻

数据集以及基于数据集训练的模型在推进 AI 进步方面发挥了关键作用。正如 ImageNet 推动了计算机视觉的研究,Open X-Embodiment 同样推动了机器人技术的发展。 

一直以来,构建多样化数据集是训练通用模型的关键,这些训练好的模型可以控制许多不同类型的机器人,遵循不同的指令,对复杂任务进行基本推理,并有效地进行泛化。然而,对于任何单个实验室来说,收集这样的数据集都过于耗费资源。

为此,DeepMind 与 33 家机构的学术研究实验室展开合作,从而构建了 Open X-Embodiment 数据集。他们从 22 个机器人实例中收集数据,这些数据涵盖超过 100 万个片段,展示了机器人 500 多项技能和在 150000 项任务上的表现。该数据集是同类中最全面的机器人数据集。
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
                                来自 Open X-Embodiment 数据集的样本,包括 500 多种技能和 150000 个任务。
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
                                                       Open X-Embodiment 基本信息

RT-1-X:成功率提升 50%

RT-X 基于两个 robotics transformer(RT)模型构建而成。

具体而言,他们使用 RT-1 训练 RT-1-X,其中 RT-1 是建立在 Transformer 架构上的 35M 参数网络,专为机器人控制而设计,如图 3 所示。

此外,他们还在 RT-2 上训练 RT-2-X,其中 RT-2 是一系列大型视觉语言动作模型 (VLA),在互联网规模的视觉和语言数据以及机器人控制数据上训练而成。
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
为了评估 RT-1-X,DeepMind 将其与在特定任务上(例如开门)开发的模型进行了比较。结果显示,使用 Open X-Embodiment 数据集训练的 RT-1-X 平均性能优于原始模型 50%。
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
                                       RT-1-X 平均成功率比原始方法提高 50%。

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

                                      来自不同合作机构的关于 RT-1-X 的效果展示

RT-2-X:无障碍解锁新技能

为了研究 RT-X 的知识迁移能力,DeepMind 又进行了其他实验。这些实验涉及 RT-2 数据集中不存在的对象和技能,但这些对象和技能存在于另一个机器人的数据集中。结果表明,在掌握新技能方面,RT-2-X 的成功率是其之前的最佳模型 RT-2 的三倍。这也说明了,与其他平台的数据进行联合训练可以为 RT-2-X 赋予原始数据集中不存在的额外技能,使其能够执行新颖的任务。
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
                                                      上图展示了 RT-2-X 对物体之间空间关系的理解。

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

一系列结果表明,RT-2-X 实现了 RT-2 以前无法实现的技能,包括对空间更好的理解。例如,如果我们要求机器人「将苹果移动到布料附近」、又或者要求机器人「将苹果移动到布料上」,为了实现目标要求,机器人会采取完全不同的轨迹。只需将介词从「near」更改为「on」,就可以调整机器人采取的动作。

RT-2-X 表明,将其他机器人的数据结合到 RT-2-X 训练中可以改善机器人的任务执行范围,但前提是使用足够高容量的架构。

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

                             RT-2-X (55B): 迄今为止在学术实验室执行未知任务的最大模型之一

研究启发:机器人需要相互学习,研究人员也一样

机器人研究正处于令人兴奋的早期阶段。DeepMind 的这项新研究表明,通过利用更多样化的数据和更好的模型进行扩展学习,有可能开发出更有用的辅助机器人。与世界各地的实验室合作并共享资源,对于以开放和负责任的方式推进机器人研究至关重要。DeepMind 希望通过开放数据源和提供安全但有限的模型来减少障碍,加快研究。机器人技术的未来有赖于机器人之间的相互学习,最重要的是,让研究人员能够相互学习。

这项工作证明,模型可以在不同环境下通用,无论是在谷歌 DeepMind 的机器人上,还是在世界各地不同大学的机器人上,其性能都得到了显著提高。未来的研究可以探索如何将这些进步与 RoboCat 的自我完善特性相结合,使模型能够根据自身经验不断改进。未来的另一个方向是进一步探索不同数据集的混合会如何影响跨具身智能体泛化,以及这种泛化是如何是实现的。

如果你想了解有关 RT-X 的更多信息,可以参考 DeepMind 发布的这篇论文:
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
  • 论文链接:https://robotics-transformer-x.github.io/paper.pdf
  • 项目链接:https://robotics-transformer-x.github.io/

参考链接:https://www.deepmind.com/blog/scaling-up-learning-across-many-different-robot-types

以上是深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
个人黑客将是一只非常凶猛的熊个人黑客将是一只非常凶猛的熊May 11, 2025 am 11:09 AM

网络攻击正在发展。 通用网络钓鱼电子邮件的日子已经一去不复返了。 网络犯罪的未来是超个性化的,利用了容易获得的在线数据和AI来制作高度针对性的攻击。 想象一个知道您的工作的骗子

教皇狮子座XIV揭示了AI如何影响他的名字选择教皇狮子座XIV揭示了AI如何影响他的名字选择May 11, 2025 am 11:07 AM

新当选的教皇狮子座(Leo Xiv)在对红衣主教学院的就职演讲中,讨论了他的同名人物教皇里奥XIII的影响,他的教皇(1878-1903)与汽车和汽车和汽车公司的黎明相吻合

AI可以使指导比以往任何时候都更有意义AI可以使指导比以往任何时候都更有意义May 10, 2025 am 11:17 AM

我完全同意。 我的成功与导师的指导密不可分。 他们的见解,尤其是关于业务管理,构成了我的信念和实践的基石。 这种经验强调了我对导师的承诺

AI发掘了采矿业的新潜力AI发掘了采矿业的新潜力May 10, 2025 am 11:16 AM

AI 增强型矿业设备 矿业作业环境恶劣且危险重重。人工智能系统通过将人类从最危险的环境中移除并增强人类能力,帮助提高整体效率和安全性。人工智能越来越多地用于为矿业作业中使用的自动驾驶卡车、钻机和装载机提供动力。 这些 AI 驱动的车辆能够在危险环境中精确作业,从而提高安全性和生产力。一些公司已经开发出用于大型矿业作业的自动驾驶采矿车辆。 在挑战性环境中运行的设备需要持续维护。然而,维护会使关键设备离线并消耗资源。更精确的维护意味着昂贵且必要的设备的正常运行时间增加以及显着的成本节约。 AI 驱动

为什么AI代理会触发25年来最大的工作场所革命为什么AI代理会触发25年来最大的工作场所革命May 10, 2025 am 11:15 AM

Salesforce首席执行官Marc Benioff预测了由AI代理商驱动的巨大的工作场所革命,这是Salesforce及其客户群中已经进行的转型。 他设想从传统市场转变为一个较大的市场,重点是

随着AI采用的飙升,人力资源将摇滚我们的世界随着AI采用的飙升,人力资源将摇滚我们的世界May 10, 2025 am 11:14 AM

人力资源中AI的崛起:与机器人同事一起导航劳动力 将人工智能集成到人力资源(HR)不再是未来派的概念。它正在迅速成为新现实。 这种转变影响了人力资源专业人员和员工,DEM

5 Chatgpt提示突破收入高原5 Chatgpt提示突破收入高原May 10, 2025 am 11:13 AM

您的营收突破就在眼前。打破天花板,将您的业务提升到一个全新的高度。这是可能的。复制、粘贴并修改 ChatGPT 中的方括号内容,并保持相同的聊天窗口打开,以便上下文得以延续。 利用 ChatGPT 打破营收障碍:释放您的增长潜力 10 倍增长思维 您的目标让您感到厌倦。曾经让您兴奋的商业愿景现在感觉令人痛苦地安全。您达到了目标,却感觉空虚。成功者并非凭运气。他们设定大胆的目标,既令人恐惧又令人振奋。他们将商业视为一场游戏,您也可以如此。追求更高的赌注。梦想更大。计划更大。执行更大。看着您的成果超

浪漫故事通过生成AI达到新的衷心高度浪漫故事通过生成AI达到新的衷心高度May 10, 2025 am 11:12 AM

让我们探索浪漫和生成AI的令人兴奋的交集。该分析是我正在进行的《福布斯》专栏的一部分,该列是AI的最新进步,重点关注有影响力的AI复杂性(请参阅此处的链接)。 重新定义浪漫:现代观点 我们已经

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境