這幾天,家事都被機器人搶著乾了。
前腳來自史丹佛的會用鍋子的機器人剛登場,後腳又來了個會用咖啡機的機器人 Figure-01 。
Figure-01只需觀看示範視頻,再進行10小時的訓練,就能熟練操作咖啡機。從放入咖啡膠囊到按下啟動鍵,一氣呵成。
然而,要使機器人能夠獨立學會使用各種家具和家電,遇到它們時不需要示範視頻,這是一個難以解決的問題。這需要機器人具備強大的視覺感知和決策規劃能力,以及精確的操縱技能。
論文連結:https://arxiv.org/abs/2312.01307
計畫首頁:https://geometry.stanford.edu/projects/ sage/
程式碼:https://github.com/geng-haoran/SAGE
研究問題概述
##圖1:根據人類指令,機械手臂能夠無師自通地使用各種家用電器。
近日,PaLM-E 和 GPT-4V 帶動了圖文大模型在機器人任務規劃中的應用,視覺語言引導下的泛化機器人操控成為了熱門研究領域。 過去的常見方法是建立一個兩層的系統,上層的圖文大模型做規劃和技能調度,下層的操控技能策略模型負責物理地執行動作。但當機器人在家務活中面對各種從未見過並且需要多步驟操作的家用電器時,現有方法中的上下兩層都將束手無策。 以目前最先進的圖文大模型GPT-4V 為例,雖然它可以對單張圖片進行文字描述,但涉及可操作零件檢測、計數、定位及狀態估計時,它仍然錯誤百出。圖二中的紅色高亮部分是 GPT-4V 在描述抽屜櫃、烤箱和立櫃的圖片時出現的各種錯誤。基於錯誤的描述,機器人再進行技能調度,顯然不太可靠。圖2:GP#T-4V 無法很好地處理計數,偵測,定位,狀態估計等泛化操控所關注的任務。
下層的操控技能策略模型負責在各種各樣的實際情況中執行上層圖文大模型給出的任務。現有的研究成果大部分是基於規則生硬地對一些已知物體的抓取點位和操作方式進行了編碼,無法泛應對沒見過的新物體類別。而基於端到端的操作模型(如 RT-1,RT-2 等)只使用了 RGB 模態,缺乏對距離的準確感知,對新環境中如高度等變化的泛化性較差。 受王鶴教授團隊先前的 CVPR Highlight 工作 GAPartNet [1] 啟迪,研究團隊將重點放在了各種類別的家用電器中的通用零件(GAPart)之上。雖然家用電器千變萬化,但總有幾樣零件不可或缺,每個家電和這些通用的零件之間存在相似的幾何和互動模式。 由此,研究團隊在 GAPartNet [1] 這篇論文中引入了 GAPart 這個概念。 GAPart 指可泛化可互動的零件。 GAPart 出現在不同類別的鉸接物上,例如,在保險箱,衣櫃,冰箱中都能找到鉸接門這種零件。如圖 3,GAPartNet [1] 在各類物件上標示了 GAPart 的語意與位姿。圖3:GAPart:可泛化可互動的零件[1]。 #
在先前研究的基礎上,研究團隊創造性地將基於三維視覺的 GAPart 引入了機器人的物體操控系統 SAGE 。 SAGE 將透過可泛化的三維零件檢測 (part detection),精確的位姿估計 (pose estimation) 為 VLM 和 LLM 提供資訊。新方法在決策層解決了二維圖文模型精細計算和推理能力不足的問題;在執行層,新方法透過基於 GAPart 位姿的魯棒物理操作 API 實現了對各個零件的泛化性操作。
SAGE 構成了首個三維具身圖文大模型系統,為機器人從感知、物理交互再到反饋的全鏈路提供了新思路,為機器人能夠智能、通用地操控家具家電等複雜物體探尋了一條可行的道路。
系統介紹
圖 4 展示了 SAGE 的基本流程。首先,一個能夠解讀上下文的指令解釋模組將解析輸入機器人的指令和其觀察結果,將這些解析轉換為下一步機器人動作程式以及與其相關的語義部分。接下來,SAGE 將語意部分(如容器 container)與需要進行操作部分(如滑動按鈕 slider button)對應起來,並產生動作(如按鈕的 「按壓 press」 動作)來完成任務。
圖 4:方法概覽。
#





图 12:真机演示。
研究团队同时也进行了大规模真实世界实验,他们使用 UFACTORY xArm 6 和多种不同的铰接物体进行操作。上图的左上部分展示了一个启动搅拌器的案例。搅拌器的顶部被感知为一个用于装果汁的容器,但其实际功能需要按下一个按钮来开启。SAGE 的框架有效地连接了其语义和动作理解,并成功执行了任务。
上图右上部分展示了机器人,需要按下(下压)紧急停止按钮来停止操作,旋转(向上)来重启。借助用户手册的辅助输入,在 SAGE 指导下的机械臂完成了这两个任务。上图底部的图片展示了开启微波炉任务中的更多细节。
图 13:更多真机演示和指令解读示例。
总结
团队介绍
SAGE 这一研究成果来自斯坦福大学 Leonidas Guibas 教授实验室、北京大学王鹤教授具身感知和交互(EPIC Lab)以及智源人工智能研究院。论文的作者为北京大学学生、斯坦福大学访问学者耿浩然(共同一作)、北京大学博士生魏松林(共同一作)、斯坦福大学博士生邓丛悦,沈博魁,指导老师为 Leonidas Guibas 教授和王鹤教授。
参考文献:
[1] Haoran Geng,Helin Xu,Chengyang Zhao,Chao Xu,Li Yi,Siyuan Huang,and He Wang。Gapartnet: Cross-category domaingeneralizable object perception and manipulation via generalizable and actionable parts。arXiv preprint arXiv:2211.05272,2022.
[2] Kirillov,Alexander,Eric Mintun,Nikhila Ravi,Hanzi Mao,Chloe Rolland,Laura Gustafson,Tete Xiao et al。"Segment anything." arXiv preprint arXiv:2304.02643 (2023).
[3] Zhang,Hao,Feng Li,Shilong Liu,Lei Zhang,Hang Su,Jun Zhu,Lionel M。 Ni,and Heung-Yeung Shum。 "Dino: Detr with improved denoising anchor boxes for end-to-end object detection." arXiv preprint arXiv:2203.03605 (2022).
###########################################################################################' ,Fanbo,Yuzhe Qin,Kaichun Mo,Yikuan Xia,Hao Zhu,Fangchen Liu,Minghua Liu et al。 "Sapien: A simulated part-based interactive environment." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,pp。 11097-11107。2020.#########
以上是家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Star模式是用於數據倉庫和商業智能的高效數據庫設計。它將數據組織到鏈接到周圍尺寸表的中心事實表中。這種類似恆星的結構簡化了複雜Q

介紹 人工智能進入了一個新時代。模型將基於預定義的規則輸出信息的日子已經一去不復返了。當今AI中的尖端方法圍繞抹布(檢索-Aigmente)

您是否希望您可以簡單地與數據庫交談,用簡單的語言提出問題,並在不編寫複雜的SQL查詢或通過電子表格進行分類的情況下獲得即時答案?使用Langchain的SQL工具包,Groq A

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。