搜索
首页科技周边人工智能深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

机器人技术为什么远远落后于自然语言处理(NLP)、视觉和其他人工智能领域?除了其他困难外,数据短缺是主要原因。为了解决这个问题,谷歌 DeepMind 联合其他机构推出了开放式 X-Embodiment 数据集,并成功训练出了更强大的 RT-X 模型

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
在大模型不断取得突破的 2023,把大模型当做大脑来辅助运行的具身智能机器人研究也在被迅速推进。

2 个多月前,谷歌 DeepMind 推出了第一个控制机器人的视觉 - 语言 - 动作(VLA)模型 ——RT-2。这个模型让机器人不仅能解读人类的复杂指令,还能看懂眼前的物体(即使这个物体之前从未见过),并按照指令采取动作。比如,你让机器人拿起桌上「已灭绝的动物」。它会抓起眼前的恐龙玩偶。

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

当时,一位谷歌高管称,RT-2 是机器人制造和编程方式的重大飞跃。「由于这一变化,我们不得不重新考虑我们的整个研究规划了。」

更令人吃惊的是,时间仅仅过去了两个多月,DeepMind 的这个机器人模型又进步了,而且一下就提高了两倍。

这是怎么实现的呢?

我们知道,机器人通常在做某一件事情上非常专业,但通用能力很差。一般情况下,你必须针对每项任务、每个机器人和环境训练一个模型。改变一个变量往往需要从头开始。但是,如果我们能将各种机器人学的知识结合起来,创造出一种训练通用机器人的方法呢?

这就是 DeepMind 在过去一段时间所做的事情。他们汇集了来自 22 种不同机器人类型的数据,以创建 Open X-Embodiment 数据集,然后在之前的模型(RT-1 和 RT-2)的基础上,训练出了能力更强的 RT-X(分别为 RT-1-X 和 RT-2-X)。

他们在五个不同的研究实验室测试了 RT-1-X 模型,结果显示,与针对每个机器人独立开发的方法相比,新方法在五种不同的常用机器人中平均成功率提高了 50%。他们还表明,在上述数据集上训练的 RT-2-X 在现实世界机器人技能上的表现提高了 2 倍,而且,通过学习新数据,RT-2-X 掌握了很多新技能。这项工作表明,在来自多个机器人类型数据上训练的单个模型比在来自单个机器人类型数据上训练的模型在多个机器人上的性能要好得多。

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

值得一提的是,这项研究并非由 DeepMind 独立完成,而是他们与 33 家学术实验室通力合作的结果。他们致力于以开放和负责任的方式开发这项技术。
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
目前,Open X-Embodiment 数据集和 RT-1-X 模型检查点已经对广泛的研究社区开放。
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
英伟达高级人工智能科学家Jim Fan表示今天可能是机器人的ImageNet时刻。

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

谷歌研究员Karol Hausman也表达了同样的感叹:机器人的ImageNet时刻终于到来了。

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

Open X-Embodiment 数据集,机器人的 ImageNet 时刻

数据集以及基于数据集训练的模型在推进 AI 进步方面发挥了关键作用。正如 ImageNet 推动了计算机视觉的研究,Open X-Embodiment 同样推动了机器人技术的发展。 

一直以来,构建多样化数据集是训练通用模型的关键,这些训练好的模型可以控制许多不同类型的机器人,遵循不同的指令,对复杂任务进行基本推理,并有效地进行泛化。然而,对于任何单个实验室来说,收集这样的数据集都过于耗费资源。

为此,DeepMind 与 33 家机构的学术研究实验室展开合作,从而构建了 Open X-Embodiment 数据集。他们从 22 个机器人实例中收集数据,这些数据涵盖超过 100 万个片段,展示了机器人 500 多项技能和在 150000 项任务上的表现。该数据集是同类中最全面的机器人数据集。
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
                                来自 Open X-Embodiment 数据集的样本,包括 500 多种技能和 150000 个任务。
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
                                                       Open X-Embodiment 基本信息

RT-1-X:成功率提升 50%

RT-X 基于两个 robotics transformer(RT)模型构建而成。

具体而言,他们使用 RT-1 训练 RT-1-X,其中 RT-1 是建立在 Transformer 架构上的 35M 参数网络,专为机器人控制而设计,如图 3 所示。

此外,他们还在 RT-2 上训练 RT-2-X,其中 RT-2 是一系列大型视觉语言动作模型 (VLA),在互联网规模的视觉和语言数据以及机器人控制数据上训练而成。
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
为了评估 RT-1-X,DeepMind 将其与在特定任务上(例如开门)开发的模型进行了比较。结果显示,使用 Open X-Embodiment 数据集训练的 RT-1-X 平均性能优于原始模型 50%。
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
                                       RT-1-X 平均成功率比原始方法提高 50%。

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

                                      来自不同合作机构的关于 RT-1-X 的效果展示

RT-2-X:无障碍解锁新技能

为了研究 RT-X 的知识迁移能力,DeepMind 又进行了其他实验。这些实验涉及 RT-2 数据集中不存在的对象和技能,但这些对象和技能存在于另一个机器人的数据集中。结果表明,在掌握新技能方面,RT-2-X 的成功率是其之前的最佳模型 RT-2 的三倍。这也说明了,与其他平台的数据进行联合训练可以为 RT-2-X 赋予原始数据集中不存在的额外技能,使其能够执行新颖的任务。
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
                                                      上图展示了 RT-2-X 对物体之间空间关系的理解。

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

一系列结果表明,RT-2-X 实现了 RT-2 以前无法实现的技能,包括对空间更好的理解。例如,如果我们要求机器人「将苹果移动到布料附近」、又或者要求机器人「将苹果移动到布料上」,为了实现目标要求,机器人会采取完全不同的轨迹。只需将介词从「near」更改为「on」,就可以调整机器人采取的动作。

RT-2-X 表明,将其他机器人的数据结合到 RT-2-X 训练中可以改善机器人的任务执行范围,但前提是使用足够高容量的架构。

深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

                             RT-2-X (55B): 迄今为止在学术实验室执行未知任务的最大模型之一

研究启发:机器人需要相互学习,研究人员也一样

机器人研究正处于令人兴奋的早期阶段。DeepMind 的这项新研究表明,通过利用更多样化的数据和更好的模型进行扩展学习,有可能开发出更有用的辅助机器人。与世界各地的实验室合作并共享资源,对于以开放和负责任的方式推进机器人研究至关重要。DeepMind 希望通过开放数据源和提供安全但有限的模型来减少障碍,加快研究。机器人技术的未来有赖于机器人之间的相互学习,最重要的是,让研究人员能够相互学习。

这项工作证明,模型可以在不同环境下通用,无论是在谷歌 DeepMind 的机器人上,还是在世界各地不同大学的机器人上,其性能都得到了显著提高。未来的研究可以探索如何将这些进步与 RoboCat 的自我完善特性相结合,使模型能够根据自身经验不断改进。未来的另一个方向是进一步探索不同数据集的混合会如何影响跨具身智能体泛化,以及这种泛化是如何是实现的。

如果你想了解有关 RT-X 的更多信息,可以参考 DeepMind 发布的这篇论文:
深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑
  • 论文链接:https://robotics-transformer-x.github.io/paper.pdf
  • 项目链接:https://robotics-transformer-x.github.io/

参考链接:https://www.deepmind.com/blog/scaling-up-learning-across-many-different-robot-types

以上是深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
在LLMS中调用工具在LLMS中调用工具Apr 14, 2025 am 11:28 AM

大型语言模型(LLMS)的流行激增,工具称呼功能极大地扩展了其功能,而不是简单的文本生成。 现在,LLM可以处理复杂的自动化任务,例如Dynamic UI创建和自主a

多动症游戏,健康工具和AI聊天机器人如何改变全球健康多动症游戏,健康工具和AI聊天机器人如何改变全球健康Apr 14, 2025 am 11:27 AM

视频游戏可以缓解焦虑,建立焦点或支持多动症的孩子吗? 随着医疗保健在全球范围内挑战,尤其是在青年中的挑战,创新者正在转向一种不太可能的工具:视频游戏。现在是世界上最大的娱乐印度河之一

没有关于AI的投入:获胜者,失败者和机遇没有关于AI的投入:获胜者,失败者和机遇Apr 14, 2025 am 11:25 AM

“历史表明,尽管技术进步推动了经济增长,但它并不能自行确保公平的收入分配或促进包容性人类发展,”乌托德秘书长Rebeca Grynspan在序言中写道。

通过生成AI学习谈判技巧通过生成AI学习谈判技巧Apr 14, 2025 am 11:23 AM

易于使用,使用生成的AI作为您的谈判导师和陪练伙伴。 让我们来谈谈。 对创新AI突破的这种分析是我正在进行的《福布斯》列的最新覆盖范围的一部分,包括识别和解释

泰德(Ted)从Openai,Google,Meta透露出庭,与我自己自拍泰德(Ted)从Openai,Google,Meta透露出庭,与我自己自拍Apr 14, 2025 am 11:22 AM

在温哥华举行的TED2025会议昨天在4月11日举行了第36版。它有来自60多个国家 /地区的80个发言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主题“人类重新构想”是量身定制的

约瑟夫·斯蒂格利兹(Joseph Stiglitz约瑟夫·斯蒂格利兹(Joseph StiglitzApr 14, 2025 am 11:21 AM

约瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的经济学家,是诺贝尔经济奖的获得者。斯蒂格利茨认为,AI可能会使现有的不平等和合并权力恶化,并在几个主导公司的手中加剧,最终破坏了经济的经济。

什么是图形数据库?什么是图形数据库?Apr 14, 2025 am 11:19 AM

图数据库:通过关系彻底改变数据管理 随着数据的扩展及其特征在各个字段中的发展,图形数据库正在作为管理互连数据的变革解决方案的出现。与传统不同

LLM路由:策略,技术和Python实施LLM路由:策略,技术和Python实施Apr 14, 2025 am 11:14 AM

大型语言模型(LLM)路由:通过智​​能任务分配优化性能 LLM的快速发展的景观呈现出各种各样的模型,每个模型都具有独特的优势和劣势。 有些在创意内容gen上表现出色

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。