近期,具身智慧方向取得了許多進展。從Google的 RT-H 到 OpenAI、Figure 聯合打造的 Figure 01,機器人的互動性、通用性越來越強。
如果未來機器人成為人們日常生活的助手,你期待它們能完成哪些任務?泡一杯熱氣騰騰的手沖咖啡,整理桌面,甚至幫你精心安排一場浪漫的約會,這些任務,只需一句指令,清華的具身智能新框架“CoPa”都能完成。
CoPa(Robotic Manipulation through Spatial Constraints of Parts)是清華大學機器人研究團隊在高陽教授的領導下提出的最新智慧框架。這個框架首次實現了機器人在多種場景下,面對長距離任務和複雜的3D行為時的泛化能力。
論文網址:https://arxiv.org/abs/2403.08248
計畫首頁: https://copa-2024.github.io/
由於對視覺語言大模型(VLMs)的獨特應用,CoPa 在沒有經過任何特定訓練的情況下可以在開放的場景中泛化,並且可以處理複雜的指令。 CoPa 最引人注目的地方在於展現出對場景中物體物理屬性的深入理解,以及其精確的規劃和操作能力。
在該任務中,CoPa 不僅可以理解複雜桌面陳設中每個物體的作用,還可以透過精確的控制,完成對它們的物理操作。例如「把水從水壺倒到漏斗中」這項任務,機器人將水壺移動到漏斗的上方,精確地將其旋轉至適當的角度,使得水可以從壺口流到漏斗中。
CoPa 還能精心安排一場浪漫的約會。在了解研究人員的約會需求後,CoPa 幫助其佈置了精美的西餐桌。
在深入理解使用者需求的同時,CoPa 也展現了精確的操作物體本領。例如「把花插入花瓶」這個任務,機器人首先抓住了花的莖,將其旋轉至正對著花瓶,最後將其插入。

方法介紹
#演算法流程
#大多數操作任務可以分解為兩個階段:物體的抓取,以及完成任務所需的後續動作。例如,在開抽屜時,我們需要先抓住抽屜的把手,再沿著直線拉出抽屜。基於此,研究人員設計了兩個階段,即首先透過「任務導向的抓取模組(Task-Oriented Grasping)」產生機器人抓取物體的位姿,再透過「任務相關的運動規劃模組(Task-Aware Motion Planning)」產生抓取後完成任務所需的位姿。機器人在相鄰位姿之間的轉移可以透過傳統的路徑規劃演算法來實現。
重要部分偵測模組
研究人員觀察到大多數操作任務都需要對場景中的物件具有細緻的“部分級(part-level)理解」。例如在用小刀切東西時,我們會握著刀柄而非刀刃;在戴眼鏡時,我們會拿著鏡框而非鏡片。基於這個觀察,研究團隊設計了「由粗到細的部分檢測(coarse-to-fine part grounding)模組」來定位場景中和任務相關的部分。具體來說,CoPa 先透過粗粒度物體偵測來定位場景中和任務相關的物體,隨後透過細粒度部分偵測來定位這些物體上和任務相關的部分。
在「任務導向的抓取模組」中,CoPa 首先透過此重要部分偵測模組定位抓取的位置(例如工具的柄),該位置資訊被用來過濾GraspNet(可以產生場景中所有可能的抓取位姿的模型)所產生的抓取位姿,進而得到最終的抓取位姿。
任務相關的運動規劃模組
為了讓視覺語言大模型來幫助機器人進行操作任務,該研究需要設計一個接口,該接口既可以讓大模型以語言的方式推理,又有利於機器人操作。研究團隊發現,在執行任務的過程中,與任務相關的物體通常會受到許多空間幾何的限制。例如,在為手機充電時,充電頭必須正對著充電口;在蓋瓶蓋時,蓋子必須被正放在瓶口位置。基於此,研究團隊提出使用空間限製作為視覺語言大模型和機器人之間的橋樑。具體來說,CoPa 首先透過視覺語言大模型產生任務相關的物體在完成任務時需要滿足的空間限制,再透過一個求解模組基於這些限制解出機器人的位姿。
實驗結果
#CoPa 能力評估
CoPa 在現實世界中操作任務中展現了極強的泛化能力。得益於對視覺語言大模型中蘊含的常識知識的利用,CoPa 對場景中物體的物理屬性有深入的理解。
例如,在「錘釘子」任務中,CoPa 首先抓住了錘柄,再將錘子旋轉至鎚頭正對著釘子,最後向下錘。此任務要求精確辨識出錘柄、錘面以及釘面,並充分理解它們的空間關係,證明 CoPa 對場景中物體的物理屬性具有深入的理解。
在「把橡皮放进抽屉」任务中,CoPa 首先定位到了橡皮的位置,然后发现橡皮的一部分被纸包裹着,于是聪明地抓取了该部分,确保橡皮不会被弄脏。
在「把勺子插入杯子」任务中,CoPa 首先抓住了勺柄,将其平移旋转至竖直朝下,并正对着杯子,最后将其插入杯中,证明 CoPa 可以很好的理解完成任务时物体需要满足的空间几何限制。
研究团队在 10 个现实世界任务上进行了充分的定量实验。如表一所示,CoPa 在处理这些复杂任务的表现上显著超过了基线方法以及许多消融变种方法。
消融实验
研究人员通过一系列消融实验证明了 CoPa 框架中如下三个组成部分的重要性:基础模型、由粗到细的部分检测、空间限制生成。实验结果如上方表一中所示。
基础模型
表中 CoPa w/o foundation 消融实验去除了 CoPa 中对基础模型的使用,转而通过检测模型来定位物体,以及基于规则的方法生成空间限制。实验结果表明该消融变种的成功率很低,证明了基础模型中蕴含的丰富常识知识在 CoPa 中的重要作用。比如在「扫螺母」任务中,该消融变种不知道场景中哪个工具适合用来扫。
由粗到细的部分检测
表中 CoPa w/o coarse-to-fine 消融实验去除了 CoPa 由粗到细的部分检测设计,转而直接使用细粒度分割来定位物体。该变种在定位物体重要部分相对困难的任务中表现显著降低。比如在「锤钉子」任务中,缺少「由粗到细」这一设计导致很难识别出锤面。
空间限制生成
表中 CoPa w/o constraint 消融实验去除了 CoPa 的空间限制生成模块,转而让视觉语言大模型直接输出机器人的目标位姿的具体数值。实验表明根据场景图片直接输出机器人目标位姿是十分困难的。比如在「倒水」任务中,水壶需要被倾斜一定的角度,该变种完全无法生成此时机器人的位姿。
了解更多内容,请参考原论文。
以上是一句指令就能沖咖啡、倒紅酒、鎚釘子,清華具身智能CoPa「動」手了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

你可能听过以下犀利的观点:1.跟着NVIDIA的技术路线,可能永远也追不上NVIDIA的脚步。2.DSA或许有机会追赶上NVIDIA,但目前的状况是DSA濒临消亡,看不到任何希望另一方面,我们都知道现在大模型正处于风口位置,业界很多人想做大模型芯片,也有很多人想投大模型芯片。但是,大模型芯片的设计关键在哪,大带宽大内存的重要性好像大家都知道,但做出来的芯片跟NVIDIA相比,又有何不同?带着问题,本文尝试给大家一点启发。纯粹以观点为主的文章往往显得形式主义,我们可以通过一个架构的例子来说明Sam

2021年9月25日,阿里云发布了开源项目通义千问140亿参数模型Qwen-14B以及其对话模型Qwen-14B-Chat,并且可以免费商用。Qwen-14B在多个权威评测中表现出色,超过了同等规模的模型,甚至有些指标接近Llama2-70B。此前,阿里云还开源了70亿参数模型Qwen-7B,仅一个多月的时间下载量就突破了100万,成为开源社区的热门项目Qwen-14B是一款支持多种语言的高性能开源模型,相比同类模型使用了更多的高质量数据,整体训练数据超过3万亿Token,使得模型具备更强大的推

在法国巴黎举行了国际计算机视觉大会ICCV(InternationalConferenceonComputerVision)本周开幕作为全球计算机视觉领域顶级的学术会议,ICCV每两年召开一次。ICCV的热度一直以来都与CVPR不相上下,屡创新高在今天的开幕式上,ICCV官方公布了今年的论文数据:本届ICCV共有8068篇投稿,其中有2160篇被接收,录用率为26.8%,略高于上一届ICCV2021的录用率25.9%在论文主题方面,官方也公布了相关数据:多视角和传感器的3D技术热度最高在今天的开

随着智慧司法的兴起,智能化方法驱动的智能法律系统有望惠及不同群体。例如,为法律专业人员减轻文书工作,为普通民众提供法律咨询服务,为法学学生提供学习和考试辅导。由于法律知识的独特性和司法任务的多样性,此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法,难以满足对司法领域提供支撑性服务的需求,离应用落地有不小的距离。而大型语言模型(LLMs)在不同的传统任务上展示出强大的能力,为智能法律系统的进一步发展带来希望。近日,复旦大学数据智能与社会计算实验室(FudanDISC)发布大语言模型驱动的中

8月31日,文心一言首次向全社会全面开放。用户可以在应用商店下载“文心一言APP”或登录“文心一言官网”(https://yiyan.baidu.com)进行体验据报道,百度计划推出一系列经过全新重构的AI原生应用,以便让用户充分体验生成式AI的理解、生成、逻辑和记忆等四大核心能力今年3月16日,文心一言开启邀测。作为全球大厂中首个发布的生成式AI产品,文心一言的基础模型文心大模型早在2019年就在国内率先发布,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。李彦宏表示,当文心

不得不说,Llama2的「二创」项目越来越硬核、有趣了。自Meta发布开源大模型Llama2以来,围绕着该模型的「二创」项目便多了起来。此前7月,特斯拉前AI总监、重回OpenAI的AndrejKarpathy利用周末时间,做了一个关于Llama2的有趣项目llama2.c,让用户在PyTorch中训练一个babyLlama2模型,然后使用近500行纯C、无任何依赖性的文件进行推理。今天,在Karpathyllama2.c项目的基础上,又有开发者创建了一个启动Llama2的演示操作系统,以及一个

保险行业对于社会民生和国民经济的重要性不言而喻。作为风险管理工具,保险为人民群众提供保障和福利,推动经济的稳定和可持续发展。在新的时代背景下,保险行业面临着新的机遇和挑战,需要不断创新和转型,以适应社会需求的变化和经济结构的调整近年来,中国的保险科技蓬勃发展。通过创新的商业模式和先进的技术手段,积极推动保险行业实现数字化和智能化转型。保险科技的目标是提升保险服务的便利性、个性化和智能化水平,以前所未有的速度改变传统保险业的面貌。这一发展趋势为保险行业注入了新的活力,使保险产品更贴近人民群众的实际

腾讯与中国宋庆龄基金会合作,于9月1日发布了名为“AI编程第一课”的公益项目。该项目旨在为全国零基础的青少年提供AI和编程启蒙平台。只需在微信中搜索“腾讯AI编程第一课”,即可通过官方小程序免费体验该项目由北京师范大学任学术指导单位,邀请全球顶尖高校专家联合参研。“AI编程第一课”首批上线内容结合中国航天、未来交通两项国家重大科技议题,原创趣味探索故事,通过剧本式、“玩中学”的方式,让青少年在1小时的学习实践中认识A


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

禪工作室 13.0.1
強大的PHP整合開發環境

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

記事本++7.3.1
好用且免費的程式碼編輯器

Atom編輯器mac版下載
最受歡迎的的開源編輯器