搜索
首页科技周边人工智能一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

近期,具身智能方向取得了诸多进展。从谷歌的 RT-H 到 OpenAI、Figure 联合打造的 Figure 01,机器人的交互性、通用性越来越强。

如果未来机器人成为人们日常生活的助手,你期待它们能够完成哪些任务?泡一杯热气腾腾的手冲咖啡,整理桌面,甚至帮你精心安排一场浪漫的约会,这些任务,只需一句指令,清华的具身智能新框架「CoPa」都能完成。

CoPa(Robotic Manipulation through Spatial Constraints of Parts)是清华大学机器人研究团队在高阳教授的领导下提出的最新智能框架。这一框架首次实现了机器人在多种场景下,面对长距离任务和复杂的3D行为时的泛化能力。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

  • 论文地址:https://arxiv.org/abs/2403.08248

  • 项目主页:https://copa-2024.github.io/

由于对视觉语言大模型(VLMs)的独特应用,CoPa 在没有经过任何特定训练的情况下可以在开放的场景中泛化,并且可以处理复杂的指令。CoPa 最引人瞩目的地方在于展现出对场景中物体物理属性的深入理解,以及其精确的规划和操作能力。

例如,CoPa 能够帮助研究人员制作一杯手冲咖啡:一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

在该任务中,CoPa 不仅可以理解复杂桌面陈设中每个物体的作用,还可以通过精确的控制,完成对它们的物理操作。比如「把水从水壶倒到漏斗中」这一任务,机器人将水壶移动到漏斗的上方,精确地将其旋转至合适的角度,使得水可以从壶口流到漏斗中。

CoPa 还能精心安排一场浪漫的约会。在了解研究人员的约会需求后,CoPa 帮助其布置了精美的西餐桌。一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

在深入理解用户需求的同时,CoPa 还展现出了精确的操作物体本领。比如「把花插入花瓶」这一任务,机器人首先抓住了花的茎,将其旋转至正对着花瓶,最后将其插入。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

方法介绍

算法流程

大多数操作任务可以被分解为两个阶段:物体的抓取,以及完成任务所需的后续动作。比如,在开抽屉时,我们需要先抓住抽屉的把手,再沿着直线拉出抽屉。基于此,研究人员设计了两个阶段,即首先通过「任务导向的抓取模块(Task-Oriented Grasping)」生成机器人抓取物体的位姿,再通过「任务相关的运动规划模块(Task-Aware Motion Planning)」生成抓取后完成任务所需的位姿。机器人在相邻位姿之间的转移可以通过传统的路径规划算法实现。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

重要部分检测模块

研究人员观察到大多数操作任务都需要对场景中的物体具有细致的「部分级(part-level)理解」。比如在用小刀切东西时,我们会握着刀柄而非刀刃;在戴眼镜时,我们会拿着镜框而非镜片。基于这个观察,研究团队设计了「由粗到细的部分检测(coarse-to-fine part grounding)模块」来定位场景中和任务相关的部分。具体来说,CoPa 先通过粗粒度物体检测来定位场景中和任务相关的物体,随后通过细粒度部分检测来定位这些物体上和任务相关的部分。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

在「任务导向的抓取模块」中,CoPa 首先通过该重要部分检测模块定位抓取的位置(比如工具的柄),该位置信息被用来过滤 GraspNet(一个可以生成场景中所有可能的抓取位姿的模型)生成的抓取位姿,进而得到最终的抓取位姿。

任务相关的运动规划模块

为了让视觉语言大模型来帮助机器人进行操作任务,该研究需要设计一个接口,该接口既可以让大模型以语言的方式推理,又有利于机器人操作。研究团队发现,在执行任务的过程中,任务相关的物体通常会受到许多的空间几何限制。比如,在给手机充电时,充电头必须正对着充电口;在盖瓶盖时,盖子必须被正放在瓶口位置。基于此,研究团队提出使用空间限制作为视觉语言大模型和机器人之间的桥梁。具体来说,CoPa 首先通过视觉语言大模型生成任务相关的物体在完成任务时需要满足的空间限制,再通过一个求解模块基于这些限制解出机器人的位姿。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

实验结果

CoPa 能力评估

CoPa 在现实世界操作任务中展现了极强的泛化能力。得益于对视觉语言大模型中蕴含的常识知识的利用,CoPa 对场景中物体的物理属性具有深入的理解。

例如,在「锤钉子」任务中,CoPa 首先抓住了锤柄,再将锤子旋转至锤头正对着钉子,最后向下锤。该任务要求精确识别出锤柄、锤面以及钉面,并充分理解它们的空间关系,证明 CoPa 对场景中物体的物理属性具有深入的理解。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

在「把橡皮放进抽屉」任务中,CoPa 首先定位到了橡皮的位置,然后发现橡皮的一部分被纸包裹着,于是聪明地抓取了该部分,确保橡皮不会被弄脏。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

在「把勺子插入杯子」任务中,CoPa 首先抓住了勺柄,将其平移旋转至竖直朝下,并正对着杯子,最后将其插入杯中,证明 CoPa 可以很好的理解完成任务时物体需要满足的空间几何限制。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

研究团队在 10 个现实世界任务上进行了充分的定量实验。如表一所示,CoPa 在处理这些复杂任务的表现上显著超过了基线方法以及许多消融变种方法。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

消融实验

研究人员通过一系列消融实验证明了 CoPa 框架中如下三个组成部分的重要性:基础模型、由粗到细的部分检测、空间限制生成。实验结果如上方表一中所示。

  • 基础模型

表中 CoPa w/o foundation 消融实验去除了 CoPa 中对基础模型的使用,转而通过检测模型来定位物体,以及基于规则的方法生成空间限制。实验结果表明该消融变种的成功率很低,证明了基础模型中蕴含的丰富常识知识在 CoPa 中的重要作用。比如在「扫螺母」任务中,该消融变种不知道场景中哪个工具适合用来扫。

  • 由粗到细的部分检测

表中 CoPa w/o coarse-to-fine 消融实验去除了 CoPa 由粗到细的部分检测设计,转而直接使用细粒度分割来定位物体。该变种在定位物体重要部分相对困难的任务中表现显著降低。比如在「锤钉子」任务中,缺少「由粗到细」这一设计导致很难识别出锤面。

  • 空间限制生成

表中 CoPa w/o constraint 消融实验去除了 CoPa 的空间限制生成模块,转而让视觉语言大模型直接输出机器人的目标位姿的具体数值。实验表明根据场景图片直接输出机器人目标位姿是十分困难的。比如在「倒水」任务中,水壶需要被倾斜一定的角度,该变种完全无法生成此时机器人的位姿。

了解更多内容,请参考原论文。

以上是一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
Gemma范围:Google'用于凝视AI的显微镜Gemma范围:Google'用于凝视AI的显微镜Apr 17, 2025 am 11:55 AM

使用Gemma范围探索语言模型的内部工作 了解AI语言模型的复杂性是一个重大挑战。 Google发布的Gemma Scope是一种综合工具包,为研究人员提供了一种强大的探索方式

谁是商业智能分析师以及如何成为一位?谁是商业智能分析师以及如何成为一位?Apr 17, 2025 am 11:44 AM

解锁业务成功:成为商业智能分析师的指南 想象一下,将原始数据转换为驱动组织增长的可行见解。 这是商业智能(BI)分析师的力量 - 在GU中的关键作用

如何在SQL中添加列? - 分析Vidhya如何在SQL中添加列? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

业务分析师与数据分析师业务分析师与数据分析师Apr 17, 2025 am 11:38 AM

介绍 想象一个繁华的办公室,两名专业人员在一个关键项目中合作。 业务分析师专注于公司的目标,确定改进领域,并确保与市场趋势保持战略一致。 simu

什么是Excel中的Count和Counta? - 分析Vidhya什么是Excel中的Count和Counta? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excel 数据计数与分析:COUNT 和 COUNTA 函数详解 精确的数据计数和分析在 Excel 中至关重要,尤其是在处理大型数据集时。Excel 提供了多种函数来实现此目的,其中 COUNT 和 COUNTA 函数是用于在不同条件下统计单元格数量的关键工具。虽然这两个函数都用于计数单元格,但它们的设计目标却针对不同的数据类型。让我们深入了解 COUNT 和 COUNTA 函数的具体细节,突出它们独特的特性和区别,并学习如何在数据分析中应用它们。 要点概述 理解 COUNT 和 COU

Chrome在这里与AI:每天都有新事物!Chrome在这里与AI:每天都有新事物!Apr 17, 2025 am 11:29 AM

Google Chrome的AI Revolution:个性化和高效的浏览体验 人工智能(AI)正在迅速改变我们的日常生活,而Google Chrome正在领导网络浏览领域的负责人。 本文探讨了兴奋

AI的人类方面:福祉和四人底线AI的人类方面:福祉和四人底线Apr 17, 2025 am 11:28 AM

重新构想影响:四倍的底线 长期以来,对话一直以狭义的AI影响来控制,主要集中在利润的最低点上。但是,更全面的方法认识到BU的相互联系

您应该知道的5个改变游戏规则的量子计算用例您应该知道的5个改变游戏规则的量子计算用例Apr 17, 2025 am 11:24 AM

事情正稳步发展。投资投入量子服务提供商和初创企业表明,行业了解其意义。而且,越来越多的现实用例正在出现以证明其价值超出

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具