大模型+机器人，详尽的综述报告来了，多位华人学者参与-人工智能-PHP中文网

首页

科技周边

人工智能

大模型+机器人，详尽的综述报告来了，多位华人学者参与

PHPz

Jan 12, 2024 am 08:33 AM

机器人大模型产业

大模型的出色能力有目共睹，而如果将它们整合进机器人，则有望让机器人拥有一个更加智能的大脑，为机器人领域带来新的可能性，比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。

预训练的大型语言模型（LLM）、大型视觉 - 语言模型（VLM）、大型音频 - 语言模型（ALM）和大型视觉导航模型（VNM）可以被用于更好地处理机器人领域的各种任务。将基础模型整合进机器人是一个快速发展的领域，机器人社区最近已经开始探索将这些大模型用于需要重新书写的是：知觉、预测、规划和控制等机器人领域。

最近，一支由斯坦福大学、普林斯顿大学以及英伟达和Google DeepMind等多家企业组成的联合研究团队发布了一篇综述报告，总结了机器人研究领域中基础模型的发展情况和未来挑战

大模型+机器人，详尽的综述报告来了，多位华人学者参与

论文地址：https://arxiv.org/pdf/2312.07843.pdf
重写的内容是：论文库：https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

团队成员中有很多我们熟悉的华人学者，包括朱玉可、宋舒然、吴佳俊、卢策吾等。

广泛使用大规模数据进行预训练的基础模型，在微调后可以适用于各种下游任务。这些基础模型在视觉和语言处理领域取得了重大突破，其中包括 BERT、GPT-3、GPT-4、CLIP、DALL-E和PaLM-E等相关模型

在基础模型出现之前，用于机器人的传统深度学习模型的训练使用的都是为不同任务收集的有限数据集。相反，基础模型则是会使用大范围多样化数据进行预训练，在其他领域（比如自然语言处理、计算机视觉和医疗保健）的应用证明了其适应能力、泛化能力和总体性能表现。最终，基础模型也有望在机器人领域展现出自己的潜力。图 1 展示了基础模型在机器人领域的概况。

大模型+机器人，详尽的综述报告来了，多位华人学者参与

相比于针对特定任务的模型，从基础模型迁移知识有可能减少训练时间和计算资源。尤其是在机器人相关领域，多模态基础模型可以将从不同传感器收集的多模态异构数据融合和对齐成紧凑的紧凑同质表征，而这正是机器人理解和推理所需的。其学习到的表征可望用于自动化技术栈的任何部分，包括需要重新书写的是：知觉、决策和控制。

不仅如此，基础模型还能提供零样本学习能力，也就是让 AI 系统有能力在没有任何示例或针对性训练的前提下执行任务。这能让机器人将所学知识泛化到全新的用例，增强机器人在非结构化环境中的适应能力和灵活性。

将基础模型整合进机器人系统能提升机器人需要重新书写的是：知觉环境以及与环境交互的能力，有可能实现上下文需要重新书写的是：知觉型机器人系统。

举个例子，在需要重新书写的是：知觉领域，大型视觉 - 语言模型（VLM）能够学习视觉和文本数据之间的关联，从而具备跨模态理解能力，从而辅助零样本图像分类、零样本目标检测和 3D 分类等任务。再举个例子，3D 世界中的语言定基（language grounding，即将 VLM 的上下文理解与 3D 现实世界对齐）可以通过将话语与 3D 环境中的具体对象、位置或动作关联起来，从而增强机器人的空间需要重新书写的是：知觉能力。

在决策或规划领域，研究发现 LLM 和 VLM 可以辅助机器人规范涉及高层规划的任务。

通过利用与操作、导航和交互有关的语言线索，机器人可以执行更加复杂的任务。比如对于模仿学习和强化学习等机器人策略学习技术，基础模型似乎有能力提升数据效率和上下文理解能力。特别是语言驱动的奖励可通过提供经过塑造的奖励来引导强化学习智能体。

另外，研究者也已经在利用语言模型来为策略学习技术提供反馈。一些研究表明，VLM 模型的视觉问答（VQA）能力可以用于机器人用例。举个例子，已有研究者使用 VLM 来回答与视觉内容有关的问题，从而帮助机器人完成任务。另外，也有研究者使用 VLM 来帮助数据标注，为视觉内容生成描述标签。

尽管基础模型在视觉和语言处理方面具备变革性的能力，但对于现实世界的机器人任务来说，基础模型的泛化和微调依然颇具挑战性。

这些挑战包括：

1) 数据缺乏：如何获取互联网规模级的数据来支持机器人操作、定位、导航等任务，并且如何利用这些数据进行自我监督训练；

2) 巨大的差异性：如何应对物理环境、实体机器人平台和潜在的机器人任务的巨大多样性，同时保持基础模型所需的通用性；

3) 不确定性的量化问题：如何解决实例层面的不确定性（比如语言歧义或 LLM 幻觉）、分布层面的不确定性和分布移位问题，尤其是闭环的机器人部署引起的分布移位问题。

4) 安全评估：如何在部署之前、更新过程中、工作过程中对基于基础模型的机器人系统进行严格测试。

5) 实时性能：如何应对某些基础模型推理时间长的问题 —— 这会有碍基础模型在机器人上的部署，以及如何加速基础模型的推理 —— 这是在线决策所需的。

这篇综述论文总结了目前机器人领域中基础模型的使用情况。研究人员调查了当前的方法、应用和挑战，并提出了未来研究方向来解决这些挑战。他们还指出了将基础模型用于实现机器人自主能力可能存在的潜在风险

基础模型背景知识

基础模型具有数以十亿计的参数，而且使用互联网级别的大规模数据进行预训练。训练如此庞大和复杂的模型需要非常高昂的成本。获取、处理和管理数据的成本也会很高。其训练过程需要大量的计算资源，需要使用GPU或TPU等专用硬件，并且还需要用于模型训练的软件和基础设施，这都需要资金投入。此外，基础模型的训练时间也很长，这也会导致高成本。因此，这些模型通常作为可插拔模块使用，即将基础模型整合到各种应用中，而无需进行大量的定制工作

表 1 给出了常用基础模型的细节。

大模型+机器人，详尽的综述报告来了，多位华人学者参与

本节将重点介绍LLM、视觉Transformer、VLM、具身多模态语言模型和视觉生成模型。此外，还将介绍用于训练基础模型的不同训练方法

他们首先介绍了一些相关的术语和数学知识，其中涉及 token 化、生成模型、判别模型、Transformer 架构、自回归模型、掩码式自动编码、对比学习和扩散模型。

然后他们介绍了大型语言模型（LLM）的示例和历史背景。之后重点说明了视觉 Transformer、多模态视觉 - 语言模型（VLM）、具身多模态语言模型、视觉生成模型。

机器人研究

这一节关注的是机器人决策、规划和控制。在这一领域，大型语言模型（LLM）和视觉语言模型（VLM）都有潜力用于增强机器人的能力。举个例子，LLM 可以促进任务规范过程，让机器人可以接收和解读来自人类的高级指令。

VLM 也有望为这一领域做出贡献。VLM 擅长分析视觉数据。要让机器人做出明智的决策和执行复杂的任务，视觉理解能力是至关重要的。现在，机器人可以使用自然语言线索来增强自己执行操作、导航和交互相关任务的能力。

基于目标的视觉 - 语言策略学习（不管是通过模仿学习还是强化学习）有望通过基础模型获得提升。语言模型还能为策略学习技术提供反馈。这个反馈循环有助于持续提升机器人的决策能力，因为机器人可以根据从 LLM 收到的反馈优化自己的行动。

这一节关注的是 LLM 和 VLM 在机器人决策领域的应用。

这一节分为六部分。其中第一部分介绍了用于决策和控制和机器人策略学习，其中包括基于语言的模仿学习和语言辅助的强化学习。

第二部分是基于目标的语言 - 图像价值学习。

第三部分介绍了使用大型语言模型来规划机器人任务，其中包括通过语言指令来说明任务以及使用语言模型生成任务规划的代码。

第四部分是用于决策的上下文学习（ICL）。

下一个要介绍的是机器人变形金刚

第六部分则是开放词汇库的机器人导航和操作。

表 2 给出了一些特定于机器人的基础模型，其中报告了模型的大小和架构、预训练任务、推理时间和硬件设置。

大模型+机器人，详尽的综述报告来了，多位华人学者参与

需要重新书写的是：知觉

与周围环境交互的机器人会接收不同模态的感官信息，比如图像、视频、音频和语言。这种高维数据对机器人在环境中的理解、推理和互动而言至关重要。基础模型可以将这些高维输入转换成容易解读和操作的抽象结构化表征。尤其是多模态基础模型可让机器人将不同感官的输入整合成一个统一的表征，其中包含语义、空间、时间和可供性信息。这些多模态模型需要跨模态的交互，通常需要对齐不同模态的元素来确保一致性和互相对应。比如图像描述任务就需要文本和图像数据对齐。

这一节将关注与机器人需要重新书写的是：知觉相关的一系列任务，这些任务可使用基础模型来对齐模态，从而获得提升。其中的重点是视觉和语言。

这一节分为五部分，首先是开放词汇库的目标检测和 3D 分类，然后是开放词汇库的语义分割，接下来是开放词汇库的 3D 场景和目标表征，再然后是学习到的功能可供性，最后是预测模型。

具身 AI

近段时间，有研究表明 LLM 可以成功用于具身 AI 领域，其中「具身（embodied）」通常是指在世界模拟器中的虚拟具身，而非具有实体机器人身体。

这方面已经出现了一些有趣的框架、数据集和模型。其中尤其值得一提的是将 Minecraft 游戏用作训练具身智能体的平台。举个例子，Voyager 使用了 GPT-4 来引导智能体探索 Minecraft 环境。其能通过上下文 prompt 设计来与 GPT-4 互动，而无需对 GPT-4 的模型参数进行微调。

强化学习是机器人学习领域的一个重要研究方向，研究者们正在尝试使用基础模型来设计奖励函数以优化强化学习

对于机器人执行高层规划，研究者们一直在探索使用基础模型来辅助。此外，还有一些研究者试图将基于思维链的推理和动作生成方法应用于具身智能体

挑战和未来方向

这一节会给出将基础模型用于机器人的相关挑战。该团队也会探索可望解决这些挑战的未来研究方向。

第一个挑战是克服训练用于机器人的基础模型时的数据稀缺问题，其中包括：

1. 使用未经结构化的游戏数据和未标记的人类视频来拓展机器人学习

2. 使用图像修复（Inpainting）来增强数据

3. 克服训练 3D 基础模型时的缺少 3D 数据的问题

4. 通过高保真模拟来生成合成数据

5. 使用 VLM 进行数据增强使用 VLM 进行数据增强是一种有效的方法

6. 机器人的物理技能受限于技能的分布

第二个挑战则与实时性能有关，其中关键的是基础模型的推理时间。

第三个挑战涉及到多模态表征的局限性。

第四个挑战则是如何量化不同层级的不确定性的问题，比如实例层面和分布层面，另外还涉及到如何校准以及应对分布移位的难题。

第五个挑战涉及到安全评估，包括部署之前的安全测试和运行时的监控和对分布外情况的检测。

第六个挑战则涉及到如何选择：使用现有的基础模型还是为机器人构建新的基础模型？

第七个挑战涉及到机器人设置中的高度可变性。

第八个挑战是如何在机器人设置中进行基准评估以及保证可复现性。

更多研究细节，可参考原论文。

以上是大模型+机器人，详尽的综述报告来了，多位华人学者参与的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：机器之心。如有侵权，请联系admin@php.cn删除

您必须在无知的面纱后面建立工作场所Apr 29, 2025 am 11:15 AM

在约翰·罗尔斯1971年具有开创性的著作《正义论》中，他提出了一种思想实验，我们应该将其作为当今人工智能设计和使用决策的核心：无知的面纱。这一理念为理解公平提供了一个简单的工具，也为领导者如何利用这种理解来公平地设计和实施人工智能提供了一个蓝图。设想一下，您正在为一个新的社会制定规则。但有一个前提：您事先不知道自己在这个社会中将扮演什么角色。您最终可能富有或贫穷，健康或残疾，属于多数派或边缘少数群体。在这种“无知的面纱”下运作，可以防止规则制定者做出有利于自身的决策。相反，人们会更有动力制定公

决策，决策……实用应用AI的下一步Apr 29, 2025 am 11:14 AM

许多公司专门从事机器人流程自动化（RPA），提供机器人以使重复性任务自动化 - UIPATH，在任何地方自动化，蓝色棱镜等。同时，过程采矿，编排和智能文档处理专业

AI的未来超越了简单的单词预测和对话模拟。 AI代理人正在出现，能够独立行动和任务完成。这种转变已经在诸如Anthropic的Claude之类的工具中很明显。 AI代理：研究

为什么同情在AI驱动的未来中对领导者更重要Apr 29, 2025 am 11:12 AM

快速的技术进步需要对工作未来的前瞻性观点。当AI超越生产力并开始塑造我们的社会结构时，会发生什么？ Topher McDougal即将出版的书Gaia Wakes：

用于产品分类的AI：机器可以总税法吗？Apr 29, 2025 am 11:11 AM

产品分类通常涉及复杂的代码，例如诸如统一系统（HS）等系统的“ HS 8471.30”，对于国际贸易和国内销售至关重要。这些代码确保正确的税收申请，影响每个INV

数据中心的需求会引发气候技术反弹吗？Apr 29, 2025 am 11:10 AM

数据中心能源消耗与气候科技投资的未来本文探讨了人工智能驱动的数据中心能源消耗激增及其对气候变化的影响，并分析了应对这一挑战的创新解决方案和政策建议。能源需求的挑战：大型超大规模数据中心耗电量巨大，堪比数十万个普通北美家庭的总和，而新兴的AI超大规模中心耗电量更是数十倍于此。2024年前八个月，微软、Meta、谷歌和亚马逊在AI数据中心建设和运营方面的投资已达约1250亿美元（摩根大通，2024）（表1）。不断增长的能源需求既是挑战也是机遇。据Canary Media报道，迫在眉睫的电

AI和好莱坞的下一个黄金时代Apr 29, 2025 am 11:09 AM

生成式AI正在彻底改变影视制作。Luma的Ray 2模型，以及Runway的Gen-4、OpenAI的Sora、Google的Veo等众多新模型，正在以前所未有的速度提升生成视频的质量。这些模型能够轻松制作出复杂的特效和逼真的场景，甚至连短视频剪辑和具有摄像机感知的运动效果也已实现。虽然这些工具的操控性和一致性仍有待提高，但其进步速度令人惊叹。生成式视频正在成为一种独立的媒介形式。一些模型擅长动画制作，另一些则擅长真人影像。值得注意的是，Adobe的Firefly和Moonvalley的Ma

Chatgpt是否会慢慢成为AI最大的Yes-Man？Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降：是模型退化还是用户期望？近期，大量ChatGPT付费用户抱怨其性能下降，引发广泛关注。用户报告称模型响应速度变慢，答案更简短、缺乏帮助，甚至出现更多幻觉。一些用户在社交媒体上表达了不满，指出ChatGPT变得“过于讨好”，倾向于验证用户观点而非提供批判性反馈。这不仅影响用户体验，也给企业客户带来实际损失，例如生产力下降和计算资源浪费。性能下降的证据许多用户报告了ChatGPT性能的显着退化，尤其是在GPT-4（即将于本月底停止服务）等旧版模型中。这

See all articles