搜索
首页科技周边人工智能机器人:基础模型的进展如何

机器人是一种拥有无限潜力的技术,尤其在智能技术的支持下。最近,一些具有革命性应用的大型模型被认为可能成为机器人的智能大脑,能够帮助机器人感知和理解世界,并做出决策和规划。最近,由CMU的Yonatan Bisk和Google DeepMind的夏斐(Fei Xia)领导的一个联合团队发布了一篇综述报告,介绍了基础模型在机器人领域的应用和发展情况。

人类一直以来都梦想着开发一种机器人,它能够自主地适应不同的环境。然而,实现这个梦想是一条漫长而充满挑战的道路。

以前,机器人的感知系统通常使用传统的深度学习方法,这需要大量标注数据来训练监督学习模型。然而,通过众包方式标注大型数据集的成本非常高昂。

机器人:基础模型的进展如何

另外,经典的监督学习方法在泛化能力上存在一定的限制。为了将这些训练好的模型应用到具体的场景或任务中,通常需要进行领域适应技术的精心设计,这往往需要进一步的数据收集和标注。同样,传统的机器人规划和控制方法也需要对环境、智能体自身以及其他智能体的动态进行精确建模。这些模型通常是针对特定的环境或任务而构建的,当情况发生变化时,就需要重新构建模型。这表明经典模型的迁移性能也是有限的。

事实上,对于很多用例,构建有效模型的成本要么太高,要么完全无法办到。尽管基于深度(强化)学习的运动规划和控制方法有助于缓解这些问题,但它们仍旧会受到分布移位(distribution shift)和泛化能力降低的影响。

虽然在开发通用型机器人系统上正面临诸多挑战,但自然语言处理(NLP)和计算机视觉(CV)领域近来却进展迅猛,其中包括用于 NLP 的大型语言模型(LLM)、用于高保真图像生成的扩散模型、用于零样本 / 少样本生成等 CV 任务的能力强大的视觉模型和视觉语言模型。

所谓的「基础模型(foundation model)」其实就是大型预训练模型(LPTM)。它们具备强大的视觉和语言能力。近来这些模型也已经在机器人领域得到应用,并有望赋予机器人系统开放世界感知、任务规划甚至运动控制能力。除了将现有的视觉和 / 或语言基础模型用于机器人领域,也有研究团队正针对机器人任务开发基础模型,比如用于操控的动作模型或用于导航的运动规划模型。这些机器人基础模型展现出了强大的泛化能力,能适应不同的任务甚至具身方案。

也有研究者直接将视觉 / 语言基础模型用于机器人任务,这展现出了将不同机器人模块融合成单一统一模型的可能性。

尽管视觉和语言基础模型在机器人领域前景可期,全新的机器人基础模型也正在开发中,但机器人领域仍有许多挑战难以解决。

从实际部署角度看,模型往往是不可复现的,无法泛化到不同的机器人形态(多具身泛化)或难以准确理解环境中的哪些行为是可行的(或可接受的)。此外大多数研究使用的都是基于 Transformer 的架构,关注的重点是对物体和场景的语义感知、任务层面的规划、控制。而机器人系统的其它部分则少有人研究,比如针对世界动态的基础模型或可以执行符号推理的基础模型。这些都需要跨领域泛化能力。

最后,我们也需要更多大型真实世界数据以及支持多样化机器人任务的高保真度模拟器。

这篇综述论文总结了机器人领域使用的基础模型,目标是理解基础模型能以怎样的方式帮助解决或缓解机器人领域的核心挑战。

机器人:基础模型的进展如何

论文地址:https://arxiv.org/pdf/2312.08782.pdf

在这篇综述中,研究者使用的「用于机器人的基础模型(foundation models for robotics)」这一术语涵盖两个方面:(1) 用于机器人的现有的(主要)视觉和语言模型,主要是通过零样本和上下文学习;(2) 使用机器人生成的数据专门开发和利用机器人基础模型,以解决机器人任务。他们总结了用于机器人的基础模型的相关论文中的方法,并对这些论文的实验结果进行了元分析(meta-analysis)。

机器人:基础模型的进展如何

图 1 展示了这篇综述报告的主要组成部分。

机器人:基础模型的进展如何

图 2 给出了这篇综述的整体结构。

预备知识

为了帮助读者更好地理解这篇综述的内容,该团队首先给出了一节预备知识内容。

他们首先将介绍机器人学的基础知识以及当前最佳技术。这里主要聚焦于基础模型时代之前机器人领域使用的方法。这里简单说明一下,详情参阅原论文。 

  • 机器人的主要组件可分为感知、决策和规划、动作生成三大部分。
  • 该团队将机器人感知分为被动感知、主动感知和状态估计。
  • 在机器人决策和规划部分,研究者分经典规划方法和基于学习的规划方法进行了介绍。
  • 机器的动作生成也有经典控制方法和基于学习的控制方法。
  • 接下来该团队又会介绍基础模型并主要集中在 NLP 和 CV 领域,涉及的模型包括:LLM、VLM、视觉基础模型、文本条件式图像生成模型。

机器人领域面临的挑战

这一节总结了典型机器人系统的不同模块所面临的五大核心挑战。图 3 给出了这五大挑战的分类情况。

机器人:基础模型的进展如何

1.泛化

机器人系统往往难以准确地感知和理解其环境。它们也没有能力将在一个任务上的训练成果泛化到另一个任务,这会进一步限制它们在真实世界中的实用性。此外,由于机器人硬件不同,将模型迁移用于不同形态的机器人也很困难。通过将基础模型用于机器人,可以部分地解决泛化问题。

而在不同机器人形态上泛化这样更进一步的问题还有待解答。

2.数据稀缺

为了开发出可靠的机器人模型,大规模的高质量数据至关重要。人们已经在努力尝试从现实世界收集大规模数据集,包括自动价值、机器人操作轨迹等。并且从人类演示收集机器人数据的成本很高。而由于任务和环境的多样性,在现实世界收集足够且广泛的数据的过程还会更加复杂。此外,在现实世界收集数据还会有安全方面的疑虑。

为了解决这些挑战,许多研究工作都尝试了在模拟环境中生成合成数据。这些模拟能提供真实感很强的虚拟世界,让机器人可以在接近真实的场景中学习和使用自己的技能。但是,使用模拟环境也有局限性,尤其是在物体的多样性方面,这使得所学到的技能难以直接用于真实世界情况。

另外,在现实世界中,大规模收集数据非常困难,而要收集到训练基础模型所使用的互联网规模级的图像 / 文本数据,那就更困难了。

一种颇具潜力的方法是协作式数据收集,即将不同实验室环境和机器人类型的数据收集到一起,如图 4a 所示。但是,该团队深度研究了 Open-X Embodiment Dataset,发现在数据类型可用性方面还存在一些局限性。

机器人:基础模型的进展如何

3.模型和原语要求

经典的规划和控制方法通常需要精心设计的环境和机器人模型。之前的基于学习的方法(如模仿学习和强化学习)是以端到端的方式训练策略,也就是直接根据感官输入获取控制输出,这样能避免构建和使用模型。这些方法能部分解决依赖明确模型的问题,但它们往往难以泛化用于不同的环境和任务。

这就引出了两个问题:(1) 怎么学习能很好泛化的与模型无关的策略?(2) 怎么学习好的世界模型,以便应用经典的基于模型的方法?

4.任务规范

为了得到通用型智能体,一大关键挑战是理解任务规范并将其根植于机器人对世界的当前理解中。通常而言,这些任务规范由用户提供,但用户只能有限地理解机器人的认知和物理能力的局限性。这会带来很多问题,不仅包括能为这些任务规范提供什么样的最佳实践,而且还有起草这些规范是否足够自然和简单。基于机器人对自身能力的理解,理解和解决任务规范中的模糊性也充满挑战。

5.不确定性和安全性

为了在现实世界中部署机器人,一大关键挑战是处理环境和任务规范中固有的不确定性。根据来源的不同,不确定性可以分为认知不确定性(由缺乏知识导致不确定)和偶然不确定性(环境中固有的噪声)。

不确定性量化(UQ)的成本可能会高得让研究和应用难以为继,也可能让下游任务无法被最优地解决。有鉴于基础模型大规模过度参数化的性质,为了在不牺牲模型泛化性能的同时实现可扩展性,提供能保留训练方案同时又尽可能不改变底层架构的 UQ 方法至关重要。设计能提供对自身行为的可靠置信度估计,并反过来智能地请求清晰说明反馈的机器人仍然是一个尚未解决的挑战。

近来虽有一些进展,但要确保机器人有能力学习经验,从而在全新环境中微调自己的策略并确保安全,这一点依然充满挑战。

当前研究方法概况

这一节总结了用于机器人的基础模型的当前研究方法。该团队将机器人领域使用的基础模型分成了两大类:用于机器人的基础模型和机器人基础模型(RFM)。

用于机器人的基础模型主要是指以零样本的方式将视觉和语言基础模型用于机器人,也就是说无需额外的微调或训练。机器人基础模型则可能使用视觉 - 语言预训练初始化来进行热启动和 / 或直接在机器人数据集上训练模型。

机器人:基础模型的进展如何

图 5 给出了分类详情

1.用于机器人的基础模型

这一小节关注的是视觉和语言基础模型在机器人领域的零样本应用。这主要包括将 VLM 以零样本方式部署到机器人感知应用中,将 LLM 的上下文学习能力用于任务层面和运动层面的规划以及动作生成。图 6 展示了一些代表性的研究工作。

机器人:基础模型的进展如何

2.机器人基础模型(RFM)

机器人:基础模型的进展如何

随着包含来自真实机器人的状态 - 动作对的机器人数据集的增长,机器人基础模型(RFM)类别同样变得越来越有可能成功。这些模型的特点是使用了机器人数据来训练模型解决机器人任务。

这一小节将总结和讨论不同类型的 RFM。首先是能在单一机器人模块中执行一类任务的 RFM,这也被称为单目标机器人基础模型。比如能生成控制机器人的低层级动作的 RFM 或可以生成更高层运动规划的模型。

之后会介绍能在多个机器人模块中执行任务的 RFM,也就是能执行感知、控制甚至非机器人任务的通用模型。

3.基础模型能怎样帮助解决机器人挑战?

前面列出了机器人领域面临的五大挑战。这一小节将介绍基础模型可以怎样帮助解决这些挑战。

所有与视觉信息相关的基础模型(如 VFM、VLM 和 VGM)都可用于机器人的感知模块。而 LLM 的功能更多样,可用于规划和控制。机器人基础模型(RFM)通常用于规划和动作生成模块。表 1 总结了解决不同机器人挑战的基础模型。

机器人:基础模型的进展如何

从表中可以看到,所有基础模型都擅长泛化各种机器人模块的任务。LLM 尤其擅长任务规范。另一方面,RFM 擅长应对动态模型的挑战,因为大多数 RFM 都是无模型方法。对于机器人感知来说,泛化能力和模型的挑战是相互耦合的,因为如果感知模型已经具有很好的泛化能力,就不需要获取更多数据来执行领域适应或额外微调。

另外,在安全挑战方面还缺乏研究,这会是一个重要的未来研究方向。

当前的实验和评估概况

这一节总结了当前研究成果的数据集、基准和实验。

1.数据集和基准

仅依靠从语言和视觉数据集学到的知识是存在局限的。正如一些研究成果表明的那样,摩擦力和重量等一些概念无法仅通过这些模态轻松学习到。

因此,为了让机器人智能体能更好地理解世界,研究社区不仅在适应来自语言和视觉领域的基础模型,也在推进开发用于训练和微调这些模型的大型多样化多模态机器人数据集。

目前这些工作分为两大方向:从现实世界收集数据以及从模拟世界收集数据再将其迁移到现实世界。每个方向都各有优劣。其中从现实世界收集的数据集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。而常用的模拟器有 Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等。

2.对当前方法的评估分析

该团队的另一大贡献是对本综述报告中提到的论文中的实验进行了元分析,这可以帮助作者理清以下问题:

  • 人们研究解决的是哪些任务?
  • 训练模型使用了哪些数据集或模拟器?测试用的机器人平台有哪些?
  • 研究社区使用了哪些基础模型?解决任务的效果如何?
  • 这些方法中更常使用哪些基础模型?

表 2-7 和图 11 给出了分析结果。

机器人:基础模型的进展如何

机器人:基础模型的进展如何

机器人:基础模型的进展如何

机器人:基础模型的进展如何

机器人:基础模型的进展如何

机器人:基础模型的进展如何

机器人:基础模型的进展如何

该团队从中总结出了一些关键趋势:

  • 研究社区对机器人操作任务的关注不平衡
  • 泛化能力和稳健性需要提升
  • 对低层动作的探索很有限
  • 控制频率太低,无法部署在真实机器人中
  • 缺乏统一的测试基准

讨论和未来方向

该团队总结了一些仍待解决的挑战和值得讨论的研究方向:

  • 为机器人具身设定标准基础(grounding)
  • 安全和不确定性
  • 端到端方法和模块化方法是否无法兼容?
  • 对具身的物理变化的适应能力
  • 世界模型方法还是与模型无关的方法?
  • 新型机器人平台和多感官信息
  • 持续学习
  • 标准化和可复现能力

以上是机器人:基础模型的进展如何的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介绍 假设有一个农民每天在几周内观察农作物的进展。他研究了增长率,并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI(被定义为AI系统,旨在使用近似推理,模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。 但是这对业务意味着什么

为AI前沿的不断发展的安全框架为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变,AI需要专门为AI独特需求而设计的新型安全解决方案。 云计算和安全课程的兴起 在

生成AI的3种方法放大了企业家:当心平均值!生成AI的3种方法放大了企业家:当心平均值!Apr 15, 2025 am 11:33 AM

企业家,并使用AI和Generative AI来改善其业务。同时,重要的是要记住生成的AI,就像所有技术一样,都是一个放大器 - 使得伟大和平庸,更糟。严格的2024研究O

Andrew Ng的新简短课程Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

大语言模型(LLM)中的幻觉是不可避免的吗?大语言模型(LLM)中的幻觉是不可避免的吗?Apr 15, 2025 am 11:31 AM

大型语言模型(LLM)和不可避免的幻觉问题 您可能使用了诸如Chatgpt,Claude和Gemini之类的AI模型。 这些都是大型语言模型(LLM)的示例,在大规模文本数据集上训练的功能强大的AI系统

60%的问题 -  AI搜索如何消耗您的流量60%的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根据行业和搜索类型,AI概述可能导致有机交通下降15-64%。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。 新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大学(Elon University)想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”,得出的结论是,大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具