搜尋
首頁科技週邊人工智慧深度學習技術如何解決機器人處理可變形物體的難題

深度學習技術如何解決機器人處理可變形物體的難題

Apr 12, 2023 am 09:25 AM
人工智慧機器人深度學習

譯者 | 李睿

審校 | 孫淑娟

對人類來說,處理可變形物體並不比處理剛性物體困難多少。人們自然學會塑造它們,折疊它們,並以不同的方式操縱它們,並且仍然能夠識別它們。 

深度學習技術如何解決機器人處理可變形物體的難題

但對於機器人和人工智慧系統來說,操縱可變形物體是一個巨大的挑戰。例如機器人必須採取一系列步驟將麵團做成披薩餅皮。當麵團改變形狀時必須進行記錄和跟踪,同時,它必須為每一步的工作選擇正確的工具。對於目前的人工智慧系統來說,這些都是具有挑戰性的任務,它們在處理具有更可預測狀態的剛體物體時更加穩定。

現在,麻省理工學院、卡內基美隆大學和加州大學聖地牙哥分校的研究人員開發的一種新的深度學習技術,有望使機器人系統在處理可變形物體時更加穩定。這項名為DiffSkill的技術使用深度神經網路來學習簡單的技能,並使用規劃模組來結合這些技能,以解決需要多個步驟和工具的任務。 

透過強化學習和深度學習處理可變形物體  

如果人工智慧系統想要處理一個物體,它必須能夠偵測和定義它的狀態,並預測它未來的樣子。對於剛性物體來說,這是一個基本上已經解決的問題。透過一組良好的訓練範例,深度神經網路將能夠從不同角度檢測剛性物體。當涉及可變形物體時,其多種狀態空間變得更加複雜。

卡內基美隆大學博士生、DiffSkill論文的主要作者林星宇說,「對於剛性物體,我們可以用六個數字來描述它的狀態:三個數字表示它的XYZ座標,另外三個數字表示它的方向。 

然而,諸如麵團或織物之類的可變形物體具有無限的自由度,因此更難精確地描述它們的狀態。此外,與剛性物體相比,它們的變形方式也更難用數學方法建模。」

可微物理模擬器的發展使基於梯度的方法能夠應用於解決可變形物體操作任務。這與傳統的強化學習方法不同,傳統的強化學習方法試圖透過純粹的試誤互動來學習環境和物件的動態。 

DiffSkill的靈感來自PlasticineLab,這是一個可微分的實體模擬器,並在2021的ICLR會議上展出。 PlasticineLab表明,可微模擬器可以幫助完成短期任務。

深度學習技術如何解決機器人處理可變形物體的難題 

PlasticineLab是一個基於可微分物理的可變形物件模擬器。它適用於訓練基於梯度的模型

但是可微分模擬器仍然在處理需要多個步驟和使用不同工具的長期問題。基於可微分模擬器的人工智慧系統還要求了解環境的完整模擬狀態和相關物理參數。這對於現實世界的應用程式尤其有限制,在這些應用程式中,代理通常透過視覺和深度感覺資料(RGB-D)感知世界。

林星宇說,「我們開始詢問是否可以將完成任務所需的步驟提取為技能,並學習有關技能的抽象概念,以便我們可以將它們連結起來以解決更複雜的任務。」 

DiffSkill是一個框架,其中人工智慧代理使用可微物理模型學習技能抽象,並將它們組合起來以完成複雜的操作任務。 

他過去的工作重點是使用強化學習來操縱可變形的物體,例如布料、繩索和液體。對於DiffSkill,他選擇麵團操作是因為它帶來的挑戰。

他說,「麵團操作特別有趣,因為它不容易用機器人抓取器完成,而是需要依次使用不同的工具,這是人類擅長但機器人不太常見的事情。」 

經過訓練,DiffSkill可以只使用RGB-D輸入成功完成一組麵團操作任務。

採用神經網路學習抽象技能 

深度學習技術如何解決機器人處理可變形物體的難題

DiffSkill訓練神經網路從可微物理模擬器獲得的初始狀態和參數預測目標狀態的可行性

DiffSkill由兩個關鍵組件組成:一個是使用神經網路學習個人技能的“神經技能抽象器”,另一個是用於解決長期任務的“規劃器”。

DiffSkill使用可微分物理模擬器為技能抽象器產生訓練範例。這些範例顯示如何使用單一工具實現短期目標,例如使用擀麵棍攤開麵團或使用抹刀移動麵團。 

這些範例以RGB-D視訊的形式呈現給技能抽象化者。給定圖像觀察,技能抽象器必須預測期望的目標是否可行。該模型透過將其預測與物理模擬器的實際結果進行比較來學習和調整其參數。 

對麵團等可變形物體的機器人操作需要對不同工具的使用進行長期推理。 DiffSkill方法利用可微分的模擬器來學習和組合這些具有挑戰性的任務的技能。

同時,DiffSkill訓練變分自編碼器(VAE)以學習物理模擬器產生的範例的潛在空間表示。變分自編碼器(VAE)在保留重要特徵,並丟棄與任務無關的資訊。透過將高維度影像空間轉換為潛在空間,變分自編碼器(VAE)在使DiffSkill能夠在較長的視野內進行規劃和透過觀察感官資料預測結果方面發揮了重要作用。

訓練變分自編碼器(VAE)的重要挑戰之一是確保它學習正確的特徵並推廣到現實世界。在真實世界中,視覺資料的組成不同於實體模擬器產生的資料。例如,擀麵棍或砧板的顏色與任務無關,但擀麵棍的位置和角度以及麵團的位置與任務有關。

目前,研究人員正在使用一種稱為「域隨機化」的技術,將訓練環境的不相關屬性(如背景和照明)隨機化,並保留工具的位置和方向等重要特徵。這使得訓練變分自編碼器(VAE)在應用於現實世界時更加穩定。

林星宇說,「做到這一點並不容易,因為我們需要涵蓋模擬和現實世界(稱為sim2real gap)之間所有可能的差異,更好的方法是使用3D點雲作為場景的表示,這更容易從模擬轉移到現實世界。事實上,我們正​​在開發一個使用點雲作為輸入的後續項目。」 

規劃可變形物體的長期任務 

深度學習技術如何解決機器人處理可變形物體的難題

DiffSkill使用規劃模組來評估可以實現目標的不同技能組合和序列

#一旦技能抽象器被訓練,DiffSkill使用規劃器模組來解決長期任務。規劃者必須確定從初始狀態到目的地所需的技能數量和順序。 

這個規劃器會迭代可能的技能組合以及它們所產生的中間結果。變分自動編碼器在這裡派上用場。 DiffSkill不是預測完整的圖像結果,而是使用VAE來預測實現最終目標的中間步驟的潛在空間結果。 

抽象技能和潛在空間表示的組合使得繪製從初始狀態到目標的軌蹟的計算效率更高。事實上,研究人員不需要優化搜尋功能,而是對所有組合進行了詳盡的搜尋。

林星宇說,「由於我們正在規劃技能,計算工作不會太多,而且時間也不長。這種詳盡的搜尋消除了為規劃師設計草圖的需要,可能會導致設計師沒有以更一般的方式考慮新穎的解決方案,儘管我們在嘗試的有限任務中沒有觀察到這一點。此外,還可以應用更複雜的搜尋技術。」

DiffSkill論文指出,「在在單一NVIDIA 2080Ti GPU上,每個技能組合的最佳化都可以在大約10秒鐘內高效完成。」

使用DiffSkill準備比薩麵團 

深度學習技術如何解決機器人處理可變形物體的難題

#研究人員對DiffSkill的性能進行了測試,比較了幾種已應用於可變形物體的基線方法,包括兩種無模型強化學習演算法和一種僅使用物理模擬器的軌跡優化器

#這些模型在需要多個步驟和工具的多個任務上進行了測試。例如在其中一項任務中,人工智慧代理人必須用抹刀將麵團提起,將其放在砧板上,然後用擀麵杖將其攤開。 

研究結果表明,DiffSkill在僅使用感官資訊解決長期、多工具任務方面明顯優於其他技術。實驗表明,在經過良好訓練後,DiffSkill的規劃器可以在初始狀態和目標狀態之間找到良好的中間狀態,並找到合適的技能序列來解決任務。  

深度學習技術如何解決機器人處理可變形物體的難題

DiffSkill的規劃器可以非常精確地預測中間步驟

林星宇说,“其中一个要点是,一组技能可以提供非常重要的时间抽象,使我们能够进行长期推理。这也类似于人类处理不同任务的方式:在不同的时间抽象中思考,而不是思考下一秒该做什么。”

但是,DiffSkill的容量也有限制。例如,当执行需要三阶段规划的任务之一时,DiffSkill的性能会显著下降(尽管它仍然优于其他技术)。林星宇还提到,在某些情况下,可行性预测器会产生误报。研究人员认为,学习更好的潜在空间可以帮助解决这个问题。  

研究人员还在探索改进DiffSkill的其他方向,包括一种更有效的规划算法,可以用于更长时间的任务。

林星宇表示,希望有一天,他可以在真正的披萨制作机器人上使用DiffSkill。他说,“我们还远远没有做到这一点。控制、sim2real转移和安全方面出现了各种挑战。但我们现在更有信心尝试开展一些长期任务。”

 原文标题:This deep learning technique solves one of the tough challenges of robotics,作者:Ben Dickson


以上是深度學習技術如何解決機器人處理可變形物體的難題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

AI分析師的崛起:為什麼這可能是AI革命中最重要的工作AI分析師的崛起:為什麼這可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。