搜索
首页科技周边人工智能用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

仅仅通过使用7500条轨迹数据进行训练,这个机器人可以展示出12种不同的操作技能,在38个任务中,不仅仅限于拾取和推动,还包括关节对象操纵和物体重新定位。而且,这些技能还可以应用于数百个不同的未知情境,包括未知物体、未知任务,甚至完全未知的厨房环境。这样的机器人真的很酷吧!

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

数十年来,创造一个能够在不同环境中操纵任意物体的机器人一直是一个遥不可及的目标。其中一个原因是缺乏多样化的机器人数据集,无法训练这样的智能体,同时也缺乏能够生成此类数据集的通用智能体

为了克服这个难题,来自卡内基梅隆大学和Meta AI的作者花费了两年时间开发了一个通用的RoboAgent。他们的主要目标是开发一种高效的范例,可以在数据有限的情况下训练一个能够具备多种技能的通用智能体,并将这些技能推广应用于各种未知情境

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

RoboAgent 由以下模块化构成 :

  • RoboPen - 一个采用通用硬件构建的分布式机器人基础设施,能够长期不间断运行;
  • RoboHive - 一个统一的框架,用于在模拟和真实世界操作中进行机器人学习;
  • RoboSet - 一个高质量的数据集,代表了各种场景中使用日常物品的多种技能;
  • MT-ACT - 一种高效的语言条件多任务离线模仿学习框架,通过在现有机器人经验的基础上创建多样的语义增强集合,从而扩大了离线数据集,并采用了一种新颖的策略架构和高效的动作表示方法,在有限的数据预算下恢复出性能良好的策略。

RoboSet:多技能、多任务、多模态数据集

构建一个能够在许多不同情境下推广的机器人智能体,首先需要一个具有广泛覆盖范围的数据集。鉴于扩大规模的努力通常会有所帮助(例如,RT-1 展示了约 130,000 条机器人轨迹的结果),因此需要在数据集有限的情况下理解学习系统的效率和泛化原则,低数据情境往往会导致过拟合。因此,作者的主要目标是开发一种强大的范例,可以在低数据情境下学习可推广的通用策略,同时避免过拟合问题。

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

机器人学习中的技能与数据全景是一个重要的领域。在机器人学习中,技能是指机器人通过学习和训练获得的能力,可以用于执行特定的任务。这些技能的发展离不开大量的数据支持。数据是机器人学习的基础,通过分析和处理数据,机器人可以从中学习并改进自己的技能。因此,技能和数据是机器人学习中不可或缺的两个方面。只有通过不断学习和获取新的数据,机器人才能不断提升自己的技能水平,并在各种任务中展现出更高的智能和效率

用于训练 RoboAgent 的数据集 RoboSet(MT-ACT)仅包括 7,500 条轨迹(比 RT-1 的数据少 18 倍)。该数据集提前收集并保持冻结状态。该数据集由在多个任务和场景中使用商品机器人硬件(Franka-Emika 机器人配备 Robotiq 夹具)进行人类遥操作收集的高质量轨迹组成。RoboSet(MT-ACT)在几个不同的情境下稀疏地涵盖了 12 种独特技能。数据通过将日常厨房活动(如泡茶、烘焙)分为不同的子任务来收集,每个子任务代表一个独特的技能。数据集包括常见的拾取 - 放置技能,还包括接触丰富的技能,如擦拭、盖盖子,以及涉及关节物体的技能。 重写后的内容: 用于训练 RoboAgent 的数据集 RoboSet(MT-ACT)仅包括 7,500 条轨迹(比 RT-1 的数据少 18 倍)。该数据集提前收集并保持冻结状态。该数据集由在多个任务和场景中使用商品机器人硬件(Franka-Emika 机器人配备 Robotiq 夹具)进行人类遥操作收集的高质量轨迹组成。RoboSet(MT-ACT)在几个不同的情境下稀疏地涵盖了 12 种独特技能。数据通过将日常厨房活动(如泡茶、烘焙)分为不同的子任务来收集,每个子任务代表一个独特的技能。数据集包括常见的拾取 - 放置技能,还包括接触丰富的技能,如擦拭、盖盖子,以及涉及关节物体的技能

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

MT-ACT:多任务动作分块 Transformer

RoboAgent基于两个关键洞察在低数据情境下学习通用策略。它利用基础模型的世界先验知识以避免模式崩溃,并采用了一种新颖的高效策略表示,能够摄取高度多模态的数据

需要进行改写的内容是:1、语义增强:RoboAgent通过对RoboSet(MT-ACT)进行语义增强,将来自现有基础模型的世界先验知识注入其中。由此产生的数据集将机器人的经验与世界先验知识相结合,而无需额外的人力/机器人成本。使用SAM对目标物体进行分割,并在形状、颜色、纹理变化方面对其进行语义增强。 改写后的内容:1、语义增强:RoboAgent通过对RoboSet(MT-ACT)进行语义增强,将来自现有基础模型的世界先验知识注入其中。这样,机器人的经验和世界先验知识就能结合起来,而不需要额外的人力/机器人成本。使用SAM对目标物体进行分割,并在形状、颜色、纹理变化方面进行语义增强

2、高效策略表示:由此产生的数据集是严重多模态的,包含丰富多样的技能、任务和情景。我们将动作分块方法应用于多任务设置,开发了一种新颖的高效策略表示——MT-ACT,能够在数据量较少的情况下获取高度多模态的数据集,同时避免过拟合问题

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

实验结果

RoboAgent的样本效率比现有方法更高

下图比较了作者提出的MT-ACT策略表示与几种模仿学习架构。作者仅使用了包括物体姿态变化和部分光照变化的环境变化。与之前的研究相似,作者将此归于L1泛化。从RoboAgent的结果可以清楚地看到,使用动作分块来建模子轨迹明显优于所有基准方法,从而更证明了作者提出的策略表示在样本效率学习方面的有效性

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

RoboAgent 在多个抽象层面上表现出色

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

在下图中展示了作者对不同泛化层次上测试方法的结果。同时,还通过可视化展示了泛化级别,其中L1代表物体姿态变化,L2代表多样的桌面背景和干扰因素,L3代表新颖的技能-物体组合。接下来,作者展示了每种方法在这些泛化层次上的表现。在严格的评估研究中,MT-ACT在比其他方法中表现显着优异,特别是在更困难的泛化层次(L3)上

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

RoboAgent 具有高度的可扩展性

作者对RoboAgent在不断增加的语义增强级别下的表现进行了评估,并在一个包含5个技能的活动中进行了评估。从下图可以看出,随着数据的增加(即每帧增强的数量增加),在所有泛化级别上的性能都有显着提升。尤其值得注意的是,在更难的任务(L3泛化)中,性能提升更为明显

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

RoboAgent 能够展示其技能在各种不同的活动中

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平


用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平


用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

以上是用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
10个生成AI编码扩展,在VS代码中,您必须探索10个生成AI编码扩展,在VS代码中,您必须探索Apr 13, 2025 am 01:14 AM

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

烹饪创新:人工智能如何改变食品服务烹饪创新:人工智能如何改变食品服务Apr 12, 2025 pm 12:09 PM

AI增强食物准备 在新生的使用中,AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务,例如翻转汉堡,制作披萨或组装SA

Python名称空间和可变范围的综合指南Python名称空间和可变范围的综合指南Apr 12, 2025 pm 12:00 PM

介绍 了解Python功能中变量的名称空间,范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中,我们将研究各种ASP

视觉语言模型(VLMS)的综合指南视觉语言模型(VLMS)的综合指南Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容联发科技与kompanio Ultra和Dimenty 9400增强优质阵容Apr 12, 2025 am 11:52 AM

继续使用产品节奏,本月,Mediatek发表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分,其中包括智能手机的芯片

本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:现在是星期一早上。作为AI驱动的招聘人员,您更聪明,而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购,审查和计划的FO

生成的AI遇到心理摩托车生成的AI遇到心理摩托车Apr 12, 2025 am 11:50 AM

我猜你一定是。 我们似乎都知道,心理障碍包括各种chat不休,这些chat不休,这些chat不休,混合了各种心理术语,并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

原型:科学家将纸变成塑料原型:科学家将纸变成塑料Apr 12, 2025 am 11:49 AM

根据本周发表的一项新研究,只有在2022年制造的塑料中,只有9.5%的塑料是由回收材料制成的。同时,塑料在垃圾填埋场和生态系统中继续堆积。 但是有帮助。一支恩金团队

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具