這幾天,家事都被機器人搶著乾了。
前腳來自史丹佛的會用鍋子的機器人剛登場,後腳又來了個會用咖啡機的機器人 Figure-01 。
Figure-01只需觀看示範視頻,再進行10小時的訓練,就能熟練操作咖啡機。從放入咖啡膠囊到按下啟動鍵,一氣呵成。
然而,要使機器人能夠獨立學會使用各種家具和家電,遇到它們時不需要示範視頻,這是一個難以解決的問題。這需要機器人具備強大的視覺感知和決策規劃能力,以及精確的操縱技能。
論文連結:https://arxiv.org/abs/2312.01307
計畫首頁:https://geometry.stanford.edu/projects/ sage/
程式碼:https://github.com/geng-haoran/SAGE
研究問題概述
##圖1:根據人類指令,機械手臂能夠無師自通地使用各種家用電器。
近日,PaLM-E 和 GPT-4V 帶動了圖文大模型在機器人任務規劃中的應用,視覺語言引導下的泛化機器人操控成為了熱門研究領域。 過去的常見方法是建立一個兩層的系統,上層的圖文大模型做規劃和技能調度,下層的操控技能策略模型負責物理地執行動作。但當機器人在家務活中面對各種從未見過並且需要多步驟操作的家用電器時,現有方法中的上下兩層都將束手無策。 以目前最先進的圖文大模型GPT-4V 為例,雖然它可以對單張圖片進行文字描述,但涉及可操作零件檢測、計數、定位及狀態估計時,它仍然錯誤百出。圖二中的紅色高亮部分是 GPT-4V 在描述抽屜櫃、烤箱和立櫃的圖片時出現的各種錯誤。基於錯誤的描述,機器人再進行技能調度,顯然不太可靠。圖2:GP#T-4V 無法很好地處理計數,偵測,定位,狀態估計等泛化操控所關注的任務。
下層的操控技能策略模型負責在各種各樣的實際情況中執行上層圖文大模型給出的任務。現有的研究成果大部分是基於規則生硬地對一些已知物體的抓取點位和操作方式進行了編碼,無法泛應對沒見過的新物體類別。而基於端到端的操作模型(如 RT-1,RT-2 等)只使用了 RGB 模態,缺乏對距離的準確感知,對新環境中如高度等變化的泛化性較差。 受王鶴教授團隊先前的 CVPR Highlight 工作 GAPartNet [1] 啟迪,研究團隊將重點放在了各種類別的家用電器中的通用零件(GAPart)之上。雖然家用電器千變萬化,但總有幾樣零件不可或缺,每個家電和這些通用的零件之間存在相似的幾何和互動模式。 由此,研究團隊在 GAPartNet [1] 這篇論文中引入了 GAPart 這個概念。 GAPart 指可泛化可互動的零件。 GAPart 出現在不同類別的鉸接物上,例如,在保險箱,衣櫃,冰箱中都能找到鉸接門這種零件。如圖 3,GAPartNet [1] 在各類物件上標示了 GAPart 的語意與位姿。圖3:GAPart:可泛化可互動的零件[1]。 #
在先前研究的基礎上,研究團隊創造性地將基於三維視覺的 GAPart 引入了機器人的物體操控系統 SAGE 。 SAGE 將透過可泛化的三維零件檢測 (part detection),精確的位姿估計 (pose estimation) 為 VLM 和 LLM 提供資訊。新方法在決策層解決了二維圖文模型精細計算和推理能力不足的問題;在執行層,新方法透過基於 GAPart 位姿的魯棒物理操作 API 實現了對各個零件的泛化性操作。
SAGE 構成了首個三維具身圖文大模型系統,為機器人從感知、物理交互再到反饋的全鏈路提供了新思路,為機器人能夠智能、通用地操控家具家電等複雜物體探尋了一條可行的道路。
系統介紹
圖 4 展示了 SAGE 的基本流程。首先,一個能夠解讀上下文的指令解釋模組將解析輸入機器人的指令和其觀察結果,將這些解析轉換為下一步機器人動作程式以及與其相關的語義部分。接下來,SAGE 將語意部分(如容器 container)與需要進行操作部分(如滑動按鈕 slider button)對應起來,並產生動作(如按鈕的 「按壓 press」 動作)來完成任務。
圖 4:方法概覽。
#图 12:真机演示。
研究团队同时也进行了大规模真实世界实验,他们使用 UFACTORY xArm 6 和多种不同的铰接物体进行操作。上图的左上部分展示了一个启动搅拌器的案例。搅拌器的顶部被感知为一个用于装果汁的容器,但其实际功能需要按下一个按钮来开启。SAGE 的框架有效地连接了其语义和动作理解,并成功执行了任务。
上图右上部分展示了机器人,需要按下(下压)紧急停止按钮来停止操作,旋转(向上)来重启。借助用户手册的辅助输入,在 SAGE 指导下的机械臂完成了这两个任务。上图底部的图片展示了开启微波炉任务中的更多细节。
图 13:更多真机演示和指令解读示例。
总结
团队介绍
SAGE 这一研究成果来自斯坦福大学 Leonidas Guibas 教授实验室、北京大学王鹤教授具身感知和交互(EPIC Lab)以及智源人工智能研究院。论文的作者为北京大学学生、斯坦福大学访问学者耿浩然(共同一作)、北京大学博士生魏松林(共同一作)、斯坦福大学博士生邓丛悦,沈博魁,指导老师为 Leonidas Guibas 教授和王鹤教授。
参考文献:
[1] Haoran Geng,Helin Xu,Chengyang Zhao,Chao Xu,Li Yi,Siyuan Huang,and He Wang。Gapartnet: Cross-category domaingeneralizable object perception and manipulation via generalizable and actionable parts。arXiv preprint arXiv:2211.05272,2022.
[2] Kirillov,Alexander,Eric Mintun,Nikhila Ravi,Hanzi Mao,Chloe Rolland,Laura Gustafson,Tete Xiao et al。"Segment anything." arXiv preprint arXiv:2304.02643 (2023).
[3] Zhang,Hao,Feng Li,Shilong Liu,Lei Zhang,Hang Su,Jun Zhu,Lionel M。 Ni,and Heung-Yeung Shum。 "Dino: Detr with improved denoising anchor boxes for end-to-end object detection." arXiv preprint arXiv:2203.03605 (2022).
###########################################################################################' ,Fanbo,Yuzhe Qin,Kaichun Mo,Yikuan Xia,Hao Zhu,Fangchen Liu,Minghua Liu et al。 "Sapien: A simulated part-based interactive environment." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,pp。 11097-11107。2020.#########
以上是家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!