揭示基础模型与机器人发展道路的综述-人工智能-PHP中文网

首页

科技周边

人工智能

揭示基础模型与机器人发展道路的综述

王林

Jan 15, 2024 pm 09:24 PM

模型训练

无需改变原意，机器人是一种技术，可以有无限的可能性，尤其是当与智能技术结合时。最近，一些具有革命性应用的大型模型有望成为机器人的智能中枢，帮助机器人感知和理解世界，做出决策和规划

近日，CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐（Fei Xia）领导的一个联合团队发布了一篇综述报告，介绍了基础模型在机器人领域的应用和发展情况。报告的 first aurthor 是 CMU 的博士四年级学生胡亚非（Yafei Hu），他的研究集中在机器人和人工智能的交叉应用上。与他合作的是谢泉廷（Quanting Xie），专注于通过基础模型探索具身智能（embodied intelligence）。

揭示基础模型与机器人发展道路的综述

论文地址：https://arxiv.org/pdf/2312.08782.pdf

开发能自主适应不同环境的机器人是人类一直以来的一个梦想，但这却是一条漫长且充满挑战的道路。之前，利用传统深度学习方法的机器人感知系统通常需要大量有标注数据来训练监督学习模型，而如果通过众包方式来标注大型数据集，成本又非常高。

此外，由于经典监督学习方法的泛化能力有限，为了将这些模型部署到具体的场景或任务，这些训练得到的模型通常还需要精心设计的领域适应技术，而这又通常需要进一步的数据收集和标注步骤。类似地，经典的机器人规划和控制方法通常需要仔细地建模世界、智能体自身的动态和 / 或其它智能体的动态。这些模型通常是针对各个具体环境或任务构建的，而当情况有变时，就需要重新构建模型。这说明经典模型的迁移性能也有限。

事实上，对于很多用例，构建有效模型的成本要么太高，要么就完全无法办到。尽管基于深度（强化）学习的运动规划和控制方法有助于缓解这些问题，但它们仍旧会受到分布移位（distribution shift）和泛化能力降低的影响。

虽然在开发通用型机器人系统上正面临诸多挑战，但自然语言处理（NLP）和计算机视觉（CV）领域近来却进展迅猛，其中包括用于 NLP 的大型语言模型（LLM）、用于高保真图像生成的扩散模型、用于零样本 / 少样本生成等 CV 任务的能力强大的视觉模型和视觉语言模型。

所谓的「基础模型（foundation model）」其实就是大型预训练模型（LPTM）。它们具备强大的视觉和语言能力。近来这些模型也已经在机器人领域得到应用，并有望赋予机器人系统开放世界感知、任务规划甚至运动控制能力。除了将现有的视觉和 / 或语言基础模型用于机器人领域，也有研究团队正针对机器人任务开发基础模型，比如用于操控的动作模型或用于导航的运动规划模型。这些机器人基础模型展现出了强大的泛化能力，能适应不同的任务甚至具身方案。也有研究者直接将视觉 / 语言基础模型用于机器人任务，这展现出了将不同机器人模块融合成单一统一模型的可能性。

尽管视觉和语言基础模型在机器人领域前景可期，全新的机器人基础模型也正在开发中，但机器人领域仍有许多挑战难以解决。

从实际部署角度看，模型往往是不可复现的，无法泛化到不同的机器人形态（多具身泛化）或难以准确理解环境中的哪些行为是可行的（或可接受的）。此外，大多数研究使用的都是基于 Transformer 的架构，关注的重点是对物体和场景的语义感知、任务层面的规划、控制。而机器人系统的其它部分则少有人研究，比如针对世界动态的基础模型或可以执行符号推理的基础模型。这些都需要跨领域泛化能力。

最后，我们也需要更多大型真实世界数据以及支持多样化机器人任务的高保真度模拟器。

这篇综述论文总结了机器人领域使用的基础模型，目标是理解基础模型能以怎样的方式帮助解决或缓解机器人领域的核心挑战。

在这篇综述中，研究人员使用的"基础模型（foundation models）"这个术语包含了机器人领域的两个方面：(1) 目前已存在的主要视觉和语言模型，主要是通过零样本和上下文学习来实现；(2) 使用机器人生成的数据专门开发和应用基础模型，解决机器人任务。研究人员总结了相关论文中关于基础模型的方法，并对这些论文的实验结果进行了元分析

揭示基础模型与机器人发展道路的综述

综述的整体结构

预备知识

为了帮助读者更好地理解这篇综述的内容，团队首先提供了一节预备知识的内容

他们首先将介绍机器人学的基础知识以及当前最佳技术。这里主要聚焦于基础模型时代之前机器人领域使用的方法。这里进行简单说明，详情参阅原论文。

机器人的主要组件可分为感知、决策和规划、动作生成三大部分。该团队将机器人感知分为被动感知、主动感知和状态估计。
在机器人决策和规划部分，研究者分经典规划方法和基于学习的规划方法进行了介绍。
机器的动作生成也有经典控制方法和基于学习的控制方法。

接下来该团队又会介绍基础模型并主要集中在 NLP 和 CV 领域，涉及的模型包括：LLM、VLM、视觉基础模型、文本条件式图像生成模型。

机器人领域面临的挑战

典型机器人系统的不同模块所面临的五大核心挑战。图 3 展示了这五大挑战的分类情况。

揭示基础模型与机器人发展道路的综述

泛化

机器人系统往往难以准确地感知和理解其环境。它们也没有能力将在一个任务上的训练成果泛化到另一个任务，这会进一步限制它们在真实世界中的实用性。此外，由于机器人硬件不同，将模型迁移用于不同形态的机器人也很困难。通过将基础模型用于机器人，可以部分地解决泛化问题。而在不同机器人形态上泛化这样更进一步的问题还有待解答。

数据稀缺

为了开发出可靠的机器人模型，大规模的高质量数据至关重要。人们已经在努力尝试从现实世界收集大规模数据集，包括自动驾驶、机器人操作轨迹等。并且从人类演示收集机器人数据的成本很高。不过，由于任务和环境的多样性，在现实世界收集足够且广泛的数据的过程还会更加复杂。在现实世界收集数据还会有安全方面的疑虑。另外，在现实世界中，大规模收集数据非常困难，而要收集到训练基础模型所使用的互联网规模级的图像/文本数据，那就更困难了。

为了解决这些挑战，许多研究工作都试图在模拟环境中生成合成数据。这些模拟环境能够提供非常逼真的虚拟世界，使得机器人能够在接近真实场景的情况下学习和运用自己的技能。然而，使用模拟环境也存在一些局限性，特别是在物体多样性方面，这导致所学到的技能难以直接应用于真实世界情境

一种颇具潜力的方法是协作式数据收集，即将不同实验室环境和机器人类型的数据收集到一起，如图 4a 所示。但是，该团队深度研究了 Open-X Embodiment Dataset，发现在数据类型可用性方面还存在一些局限性。

揭示基础模型与机器人发展道路的综述

模型和原语要求

经典的规划和控制方法通常需要精心设计的环境和机器人模型。之前的基于学习的方法（如模仿学习和强化学习）是以端到端的方式训练策略，也就是直接根据感官输入获取控制输出，这样能避免构建和使用模型。这些方法能部分解决依赖明确模型的问题，但它们往往难以泛化用于不同的环境和任务。

有两个问题需要解决：(1) 如何学习那些与模型无关，能够良好泛化的策略？(2) 如何学习优秀的世界模型，从而应用经典的基于模型的方法？

任务规范

为了得到通用型智能体，一大关键挑战是理解任务规范并将其根植于机器人对世界的当前理解中。通常而言，这些任务规范由用户提供，但用户只能有限地理解机器人的认知和物理能力的局限性。这会带来很多问题，包括能为这些任务规范提供什么样的最佳实践，还有起草这些规范是否足够自然和简单。基于机器人对自身能力的理解，理解和解决任务规范中的模糊性也充满挑战。

不确定性和安全性

为了在现实世界中部署机器人，一大关键挑战是处理环境和任务规范中固有的不确定性。根据来源的不同，不确定性可以分为认知不确定性（由缺乏知识导致不确定）和偶然不确定性（环境中固有的噪声）。

不确定性量化（UQ）的成本可能会高得让研究和应用难以为继，也可能让下游任务无法被最优地解决。有鉴于基础模型大规模过度参数化的性质，为了在不牺牲模型泛化性能的同时实现可扩展性，提供能保留训练方案同时又尽可能不改变底层架构的 UQ 方法至关重要。设计能提供对自身行为的可靠置信度估计，并反过来智能地请求清晰说明反馈的机器人仍然是一个尚未解决的挑战。

近来虽有一些进展，但要确保机器人有能力学习经验，从而在全新环境中微调自己的策略并确保安全，这一点还依然充满挑战。

当前研究方法概况

本文还总结了用于机器人的基础模型的当前研究方法。该团队将机器人领域使用的基础模型分成了两大类：用于机器人的基础模型和重写的内容是：机器人基础模型（RFM）。

机器人的基础模型是指无需额外微调或训练，以零样本的方式将视觉和语言基础模型用于机器人。机器人基础模型可以通过视觉 - 语言预训练初始化来进行热启动，或直接在机器人数据集上训练模型

揭示基础模型与机器人发展道路的综述

详细分类

用于机器人的基础模型

这段内容的重写如下：这部分内容关注于在机器人领域中将视觉和语言基础模型应用到零样本情境。其中，主要包括将VLM零样本部署到机器人感知应用中，以及将LLM的上下文学习能力应用于任务层面和运动层面的规划与动作生成。图6展示了一些典型的研究工作

揭示基础模型与机器人发展道路的综述

重写的内容是：机器人基础模型（RFM）

揭示基础模型与机器人发展道路的综述

随着包含来自真实机器人的状态-动作对的机器人数据集的增长，重写的内容是：机器人基础模型（RFM）类别同样变得越来越有可能成功。这些模型的特点是使用了机器人数据来训练模型解决机器人任务。

研究团队在讨论中总结了不同类型的 RFM。首先是能够在单个机器人模块中执行特定任务的 RFM，也被称为单目标机器人基础模型。例如，能够生成控制机器人低层动作的 RFM 或者能够生成更高层运动规划的模型。文章中还介绍了能够在多个机器人模块中执行任务的 RFM，即通用模型，可以执行感知、控制甚至非机器人任务

基础模型在解决机器人挑战方面有什么作用？

前文列出了机器人领域面临的五大挑战。这里将介绍基础模型可以怎样帮助解决这些挑战。

所有与视觉信息相关的基础模型（如 VFM、VLM 和 VGM）都可用于机器人的感知模块。而 LLM 的功能更多样，可用于规划和控制。重写的内容是：机器人基础模型（RFM）通常用于规划和动作生成模块。表 1 总结了解决不同机器人挑战的基础模型。

揭示基础模型与机器人发展道路的综述

从表中可以看出，所有的基础模型都能够很好地泛化不同机器人模块的任务。特别是LLM在任务规范方面表现出色。另一方面，RFM则擅长应对动态模型的挑战，因为大多数RFM都是无模型方法。对于机器人的感知能力而言，泛化能力和模型的挑战是相互关联的。如果感知模型已经具备了良好的泛化能力，那么就不需要获取更多的数据来进行领域适应或额外微调了

另外，在安全挑战方面还缺乏研究，这会是一个重要的未来研究方向。

当前的实验和评估概况

这一部分总结了当前研究成果的数据集、基准和实验。

数据集和基准

仅依靠从语言和视觉数据集学到的知识是存在局限的。正如一些研究成果表明的那样，摩擦力和重量等一些概念无法仅通过这些模态轻松学习到。

因此，为了让机器人智能体能更好地理解世界，研究社区不仅在适应来自语言和视觉领域的基础模型，也在推进开发用于训练和微调这些模型的大型多样化多模态机器人数据集。

目前这些工作可以分为两个主要方向：一方面是从现实世界收集数据，另一方面是从模拟世界收集数据并将其迁移到现实世界。每个方向都有其优势和劣势。从现实世界收集的数据集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。常用的模拟器包括 Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等

对当前方法的评估分析（Meta-Analysis）

该团队的另一大贡献是对本综述报告中提到的论文中的实验进行了元分析，这可以为理清以下问题有所帮助：

1. 人们研究解决的是哪些任务？

2. 训练模型使用了哪些数据集或模拟器？测试用的机器人平台有哪些？

3. 研究社区使用了哪些基础模型？解决任务的效果如何？

4. 这些方法中更常使用哪些基础模型？

表 2-7 和图 11 给出了分析结果。

揭示基础模型与机器人发展道路的综述

该团队通过 Meta-analysis 得到的一些主要观察：

研究社区对机器人操作任务（Manipulation）的关注不平衡

泛化能力（Generalization）和稳健性需要提升

对低层动作（Low-level Control）的探索很有限

控制频率太低（

缺乏统一的测试基准（Metrics）和测试平台（Simulation or Hardware），使得对比变得非常困难。

讨论和未来方向

该团队总结了一些仍待解决的挑战和值得讨论的研究方向：

如何为机器人具身设定标准基础（grounding）？
安全（Safety）和不确定性（Uncertainty）？
端到端方法（end-to-end）和模块化（Modular）方法是否无法兼容？
对具身的物理变化的适应能力
世界模型（World Model）方法还是与模型无关的方法？
新型机器人平台和多感官信息
持续学习（Continue Learning）
标准化和可复现能力（Reproducibility）

以上是揭示基础模型与机器人发展道路的综述的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

[带AI的吉卜力风格图像]介绍如何使用Chatgpt和版权创建免费图像May 13, 2025 am 01:57 AM

OpenAI发布的最新模型GPT-4o，不仅能生成文本，还具备图像生成功能，引发广泛关注。其中最受瞩目的功能便是“吉卜力风格插画”的生成。只需将照片上传至ChatGPT，并给出简单的指令，即可生成宛如吉卜力工作室作品般梦幻的图像。本文将详细解读实际操作流程、效果感受，以及需要注意的错误和版权问题。 OpenAI发布的最新模型“o3”详情请点击此处⬇️ OpenAI o3(ChatGPT o3)详解：特性、定价体系及o4-mini介绍吉卜力风格文章的英文版请点击此处⬇️ 利用ChatGPT创作吉

解释在地方政府中使用和实施CANTGPT的示例！还介绍了禁止的地方政府May 13, 2025 am 01:53 AM

作为一种新的交流方法，在地方政府中使用和引入Chatgpt引起了人们的关注。尽管这种趋势在广泛的领域正在发展，但一些地方政府拒绝使用Chatgpt。在本文中，我们将介绍地方政府中ChatGPT实施的示例。我们将通过各种改革实例，包括支持文件创建和与公民对话，从而探索如何通过各种改革实例来实现地方政府服务的质量和效率提高。不仅旨在减少员工工作量并改善公民的便利性的地方政府官员，而且都对高级用例感兴趣。

chatgpt中的福卡式风格提示是什么？示例句子的详尽解释！May 13, 2025 am 01:52 AM

您是否听说过一个名为“福卡斯提示系统”的框架？诸如ChatGpt之类的语言模型非常出色，但是适当的提示对于发挥其潜力至关重要。福卡（Fukatsu）提示是旨在提高输出准确性的最受欢迎的提示技术之一。本文解释了福卡式风格提示的原理和特征，包括特定的用法方法和示例。此外，我们还引入了其他众所周知的及时模板和有用的技术来及时设计，因此，根据这些设计，我们将介绍C。

什么是chatgpt搜索？解释主要功能，用法和费用结构！May 13, 2025 am 01:51 AM

CHATGPT搜索：使用创新的AI搜索引擎有效获取最新信息！在本文中，我们将彻底解释OpenAI提供的新的ChatGpt功能“ ChatGpt搜索”。让我们仔细研究一下功能，用法以及该工具如何根据实时网络信息和直观的易用性来帮助您提高信息收集效率。 chatgpt搜索提供了一种对话互动搜索体验，该体验在舒适，隐藏的环境中回答用户问题，以隐藏广告

易于理解的解释如何在Chatgpt和提示中创建构图！May 13, 2025 am 01:50 AM

信息爆炸的现代社会，创作出令人信服的文章并非易事。如何在有限的时间和精力内，发挥创造力，撰写出吸引读者的文章，需要高超的技巧和丰富的经验。这时，作为革命性的写作辅助工具，ChatGPT 备受瞩目。ChatGPT 利用庞大的数据训练出的语言生成模型，能够生成自然流畅、精炼的文章。本文将介绍如何有效利用 ChatGPT，高效创作高质量文章的技巧。我们将逐步讲解使用 ChatGPT 的写作流程，并结合具体案例，详细阐述其优缺点、适用场景以及安全使用注意事项。ChatGPT 将成为作家克服各种障碍，

如何使用chatgpt创建图！还解释了插图的加载和插件May 13, 2025 am 01:49 AM

使用AI创建图表的有效指南视觉材料对于有效传达信息至关重要，但是创建它需要大量时间和精力。但是，由于AI技术（例如Chatgpt和dall-e 3）的兴起，图表创建过程正在发生巨大变化。本文使用这些尖端工具提供了有关有效而有吸引力的图创建方法的详细说明。它涵盖了从想法到完成的所有内容，并包含大量信息，可用于创建图表，从可以使用的特定步骤，提示，插件和API以及如何使用图像一代AI“ dall-e 3.”）

易于理解的解释Chatgpt加上定价结构和付款方式！May 13, 2025 am 01:48 AM

解锁ChatGPT Plus：费用、支付方式及升级指南全球瞩目的顶尖生成式AI，ChatGPT已广泛应用于日常生活和商业领域。虽然ChatGPT基本免费，但付费版ChatGPT Plus提供多种增值服务，例如插件、图像识别等，显着提升工作效率。本文将详细解读ChatGPT Plus的收费标准、支付方式及升级流程。 OpenAI最新图像生成技术“GPT-4o图像生成”详情请点击： GPT-4o图像生成详解：使用方法、提示词示例、商业应用及与其他AI的差异目录 ChatGPT Plus费用 Ch

解释如何使用chatgpt创建设计！我们还介绍了使用和提示示例May 13, 2025 am 01:47 AM

如何使用Chatgpt简化您的设计工作并提高创造力本文将详细说明如何使用ChatGpt创建设计。我们将介绍在各个设计领域中使用Chatgpt的示例，例如思想，文本生成和网页设计。我们还将介绍点，以帮助您提高各种创意作品的效率和质量，例如图形设计，插图和徽标设计。请看一下AI如何大大扩展您的设计可能性。目录 chatgpt：设计创建的强大工具

See all articles