搜索
首页科技周边人工智能揭示基础模型与机器人发展道路的综述

无需改变原意,机器人是一种技术,可以有无限的可能性,尤其是当与智能技术结合时。最近,一些具有革命性应用的大型模型有望成为机器人的智能中枢,帮助机器人感知和理解世界,做出决策和规划

近日,CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐(Fei Xia)领导的一个联合团队发布了一篇综述报告,介绍了基础模型在机器人领域的应用和发展情况。报告的 first aurthor 是 CMU 的博士四年级学生胡亚非(Yafei Hu),他的研究集中在机器人和人工智能的交叉应用上。与他合作的是谢泉廷(Quanting Xie),专注于通过基础模型探索具身智能(embodied intelligence)。

揭示基础模型与机器人发展道路的综述

论文地址:https://arxiv.org/pdf/2312.08782.pdf

开发能自主适应不同环境的机器人是人类一直以来的一个梦想,但这却是一条漫长且充满挑战的道路。之前,利用传统深度学习方法的机器人感知系统通常需要大量有标注数据来训练监督学习模型,而如果通过众包方式来标注大型数据集,成本又非常高。

此外,由于经典监督学习方法的泛化能力有限,为了将这些模型部署到具体的场景或任务,这些训练得到的模型通常还需要精心设计的领域适应技术,而这又通常需要进一步的数据收集和标注步骤。类似地,经典的机器人规划和控制方法通常需要仔细地建模世界、智能体自身的动态和 / 或其它智能体的动态。这些模型通常是针对各个具体环境或任务构建的,而当情况有变时,就需要重新构建模型。这说明经典模型的迁移性能也有限。

事实上,对于很多用例,构建有效模型的成本要么太高,要么就完全无法办到。尽管基于深度(强化)学习的运动规划和控制方法有助于缓解这些问题,但它们仍旧会受到分布移位(distribution shift)和泛化能力降低的影响。

虽然在开发通用型机器人系统上正面临诸多挑战,但自然语言处理(NLP)和计算机视觉(CV)领域近来却进展迅猛,其中包括用于 NLP 的大型语言模型(LLM)、用于高保真图像生成的扩散模型、用于零样本 / 少样本生成等 CV 任务的能力强大的视觉模型和视觉语言模型。

所谓的「基础模型(foundation model)」其实就是大型预训练模型(LPTM)。它们具备强大的视觉和语言能力。近来这些模型也已经在机器人领域得到应用,并有望赋予机器人系统开放世界感知、任务规划甚至运动控制能力。除了将现有的视觉和 / 或语言基础模型用于机器人领域,也有研究团队正针对机器人任务开发基础模型,比如用于操控的动作模型或用于导航的运动规划模型。这些机器人基础模型展现出了强大的泛化能力,能适应不同的任务甚至具身方案。也有研究者直接将视觉 / 语言基础模型用于机器人任务,这展现出了将不同机器人模块融合成单一统一模型的可能性。

尽管视觉和语言基础模型在机器人领域前景可期,全新的机器人基础模型也正在开发中,但机器人领域仍有许多挑战难以解决。

从实际部署角度看,模型往往是不可复现的,无法泛化到不同的机器人形态(多具身泛化)或难以准确理解环境中的哪些行为是可行的(或可接受的)。此外,大多数研究使用的都是基于 Transformer 的架构,关注的重点是对物体和场景的语义感知、任务层面的规划、控制。而机器人系统的其它部分则少有人研究,比如针对世界动态的基础模型或可以执行符号推理的基础模型。这些都需要跨领域泛化能力。

最后,我们也需要更多大型真实世界数据以及支持多样化机器人任务的高保真度模拟器。

这篇综述论文总结了机器人领域使用的基础模型,目标是理解基础模型能以怎样的方式帮助解决或缓解机器人领域的核心挑战。

在这篇综述中,研究人员使用的"基础模型(foundation models)"这个术语包含了机器人领域的两个方面:(1) 目前已存在的主要视觉和语言模型,主要是通过零样本和上下文学习来实现;(2) 使用机器人生成的数据专门开发和应用基础模型,解决机器人任务。研究人员总结了相关论文中关于基础模型的方法,并对这些论文的实验结果进行了元分析

揭示基础模型与机器人发展道路的综述


揭示基础模型与机器人发展道路的综述

综述的整体结构

预备知识

为了帮助读者更好地理解这篇综述的内容,团队首先提供了一节预备知识的内容

他们首先将介绍机器人学的基础知识以及当前最佳技术。这里主要聚焦于基础模型时代之前机器人领域使用的方法。这里进行简单说明,详情参阅原论文。 

  • 机器人的主要组件可分为感知、决策和规划、动作生成三大部分。该团队将机器人感知分为被动感知、主动感知和状态估计。
  • 在机器人决策和规划部分,研究者分经典规划方法和基于学习的规划方法进行了介绍。
  • 机器的动作生成也有经典控制方法和基于学习的控制方法。

接下来该团队又会介绍基础模型并主要集中在 NLP 和 CV 领域,涉及的模型包括:LLM、VLM、视觉基础模型、文本条件式图像生成模型。

机器人领域面临的挑战

典型机器人系统的不同模块所面临的五大核心挑战。图 3 展示了这五大挑战的分类情况。

揭示基础模型与机器人发展道路的综述

泛化

机器人系统往往难以准确地感知和理解其环境。它们也没有能力将在一个任务上的训练成果泛化到另一个任务,这会进一步限制它们在真实世界中的实用性。此外,由于机器人硬件不同,将模型迁移用于不同形态的机器人也很困难。通过将基础模型用于机器人,可以部分地解决泛化问题。而在不同机器人形态上泛化这样更进一步的问题还有待解答。

数据稀缺

为了开发出可靠的机器人模型,大规模的高质量数据至关重要。人们已经在努力尝试从现实世界收集大规模数据集,包括自动驾驶、机器人操作轨迹等。并且从人类演示收集机器人数据的成本很高。不过,由于任务和环境的多样性,在现实世界收集足够且广泛的数据的过程还会更加复杂。在现实世界收集数据还会有安全方面的疑虑。另外,在现实世界中,大规模收集数据非常困难,而要收集到训练基础模型所使用的互联网规模级的图像/文本数据,那就更困难了。

为了解决这些挑战,许多研究工作都试图在模拟环境中生成合成数据。这些模拟环境能够提供非常逼真的虚拟世界,使得机器人能够在接近真实场景的情况下学习和运用自己的技能。然而,使用模拟环境也存在一些局限性,特别是在物体多样性方面,这导致所学到的技能难以直接应用于真实世界情境

一种颇具潜力的方法是协作式数据收集,即将不同实验室环境和机器人类型的数据收集到一起,如图 4a 所示。但是,该团队深度研究了 Open-X Embodiment Dataset,发现在数据类型可用性方面还存在一些局限性。

揭示基础模型与机器人发展道路的综述

模型和原语要求

经典的规划和控制方法通常需要精心设计的环境和机器人模型。之前的基于学习的方法(如模仿学习和强化学习)是以端到端的方式训练策略,也就是直接根据感官输入获取控制输出,这样能避免构建和使用模型。这些方法能部分解决依赖明确模型的问题,但它们往往难以泛化用于不同的环境和任务。

有两个问题需要解决:(1) 如何学习那些与模型无关,能够良好泛化的策略?(2) 如何学习优秀的世界模型,从而应用经典的基于模型的方法?

任务规范

为了得到通用型智能体,一大关键挑战是理解任务规范并将其根植于机器人对世界的当前理解中。通常而言,这些任务规范由用户提供,但用户只能有限地理解机器人的认知和物理能力的局限性。这会带来很多问题,包括能为这些任务规范提供什么样的最佳实践,还有起草这些规范是否足够自然和简单。基于机器人对自身能力的理解,理解和解决任务规范中的模糊性也充满挑战。

不确定性和安全性

为了在现实世界中部署机器人,一大关键挑战是处理环境和任务规范中固有的不确定性。根据来源的不同,不确定性可以分为认知不确定性(由缺乏知识导致不确定)和偶然不确定性(环境中固有的噪声)。

不确定性量化(UQ)的成本可能会高得让研究和应用难以为继,也可能让下游任务无法被最优地解决。有鉴于基础模型大规模过度参数化的性质,为了在不牺牲模型泛化性能的同时实现可扩展性,提供能保留训练方案同时又尽可能不改变底层架构的 UQ 方法至关重要。设计能提供对自身行为的可靠置信度估计,并反过来智能地请求清晰说明反馈的机器人仍然是一个尚未解决的挑战。

近来虽有一些进展,但要确保机器人有能力学习经验,从而在全新环境中微调自己的策略并确保安全,这一点还依然充满挑战。

当前研究方法概况

本文还总结了用于机器人的基础模型的当前研究方法。该团队将机器人领域使用的基础模型分成了两大类:用于机器人的基础模型和重写的内容是:机器人基础模型(RFM)。

机器人的基础模型是指无需额外微调或训练,以零样本的方式将视觉和语言基础模型用于机器人。机器人基础模型可以通过视觉 - 语言预训练初始化来进行热启动,或直接在机器人数据集上训练模型

揭示基础模型与机器人发展道路的综述

详细分类

用于机器人的基础模型

这段内容的重写如下:这部分内容关注于在机器人领域中将视觉和语言基础模型应用到零样本情境。其中,主要包括将VLM零样本部署到机器人感知应用中,以及将LLM的上下文学习能力应用于任务层面和运动层面的规划与动作生成。图6展示了一些典型的研究工作

揭示基础模型与机器人发展道路的综述

重写的内容是:机器人基础模型(RFM)

揭示基础模型与机器人发展道路的综述

随着包含来自真实机器人的状态-动作对的机器人数据集的增长,重写的内容是:机器人基础模型(RFM)类别同样变得越来越有可能成功。这些模型的特点是使用了机器人数据来训练模型解决机器人任务。

研究团队在讨论中总结了不同类型的 RFM。首先是能够在单个机器人模块中执行特定任务的 RFM,也被称为单目标机器人基础模型。例如,能够生成控制机器人低层动作的 RFM 或者能够生成更高层运动规划的模型。文章中还介绍了能够在多个机器人模块中执行任务的 RFM,即通用模型,可以执行感知、控制甚至非机器人任务

基础模型在解决机器人挑战方面有什么作用?

前文列出了机器人领域面临的五大挑战。这里将介绍基础模型可以怎样帮助解决这些挑战。

所有与视觉信息相关的基础模型(如 VFM、VLM 和 VGM)都可用于机器人的感知模块。而 LLM 的功能更多样,可用于规划和控制。重写的内容是:机器人基础模型(RFM)通常用于规划和动作生成模块。表 1 总结了解决不同机器人挑战的基础模型。

揭示基础模型与机器人发展道路的综述

从表中可以看出,所有的基础模型都能够很好地泛化不同机器人模块的任务。特别是LLM在任务规范方面表现出色。另一方面,RFM则擅长应对动态模型的挑战,因为大多数RFM都是无模型方法。对于机器人的感知能力而言,泛化能力和模型的挑战是相互关联的。如果感知模型已经具备了良好的泛化能力,那么就不需要获取更多的数据来进行领域适应或额外微调了

另外,在安全挑战方面还缺乏研究,这会是一个重要的未来研究方向。

当前的实验和评估概况

这一部分总结了当前研究成果的数据集、基准和实验。

数据集和基准

仅依靠从语言和视觉数据集学到的知识是存在局限的。正如一些研究成果表明的那样,摩擦力和重量等一些概念无法仅通过这些模态轻松学习到。

因此,为了让机器人智能体能更好地理解世界,研究社区不仅在适应来自语言和视觉领域的基础模型,也在推进开发用于训练和微调这些模型的大型多样化多模态机器人数据集。

目前这些工作可以分为两个主要方向:一方面是从现实世界收集数据,另一方面是从模拟世界收集数据并将其迁移到现实世界。每个方向都有其优势和劣势。从现实世界收集的数据集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。常用的模拟器包括 Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等

对当前方法的评估分析(Meta-Analysis)

该团队的另一大贡献是对本综述报告中提到的论文中的实验进行了元分析,这可以为理清以下问题有所帮助:

1. 人们研究解决的是哪些任务?

2. 训练模型使用了哪些数据集或模拟器?测试用的机器人平台有哪些?

3. 研究社区使用了哪些基础模型?解决任务的效果如何?

4. 这些方法中更常使用哪些基础模型?

表 2-7 和图 11 给出了分析结果。

揭示基础模型与机器人发展道路的综述

揭示基础模型与机器人发展道路的综述


揭示基础模型与机器人发展道路的综述


揭示基础模型与机器人发展道路的综述

该团队通过 Meta-analysis 得到的一些主要观察:

研究社区对机器人操作任务(Manipulation)的关注不平衡

泛化能力(Generalization)和稳健性需要提升

对低层动作(Low-level Control)的探索很有限

控制频率太低(

缺乏统一的测试基准(Metrics)和测试平台(Simulation or Hardware),使得对比变得非常困难。

讨论和未来方向

该团队总结了一些仍待解决的挑战和值得讨论的研究方向:

  • 如何为机器人具身设定标准基础(grounding)?
  • 安全(Safety)和不确定性(Uncertainty)?
  • 端到端方法(end-to-end)和模块化(Modular)方法是否无法兼容?
  • 对具身的物理变化的适应能力
  • 世界模型(World Model)方法还是与模型无关的方法?
  • 新型机器人平台和多感官信息
  • 持续学习(Continue Learning)
  • 标准化和可复现能力(Reproducibility)

以上是揭示基础模型与机器人发展道路的综述的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具