深度學習技術如何解決機器人處理可變形物體的難題-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

深度學習技術如何解決機器人處理可變形物體的難題

王林

Apr 12, 2023 am 09:25 AM

人工智慧機器人深度學習

譯者 | 李睿

審校 | 孫淑娟

對人類來說，處理可變形物體並不比處理剛性物體困難多少。人們自然學會塑造它們，折疊它們，並以不同的方式操縱它們，並且仍然能夠識別它們。

深度學習技術如何解決機器人處理可變形物體的難題

但對於機器人和人工智慧系統來說，操縱可變形物體是一個巨大的挑戰。例如機器人必須採取一系列步驟將麵團做成披薩餅皮。當麵團改變形狀時必須進行記錄和跟踪，同時，它必須為每一步的工作選擇正確的工具。對於目前的人工智慧系統來說，這些都是具有挑戰性的任務，它們在處理具有更可預測狀態的剛體物體時更加穩定。

現在，麻省理工學院、卡內基美隆大學和加州大學聖地牙哥分校的研究人員開發的一種新的深度學習技術，有望使機器人系統在處理可變形物體時更加穩定。這項名為DiffSkill的技術使用深度神經網路來學習簡單的技能，並使用規劃模組來結合這些技能，以解決需要多個步驟和工具的任務。

透過強化學習和深度學習處理可變形物體

如果人工智慧系統想要處理一個物體，它必須能夠偵測和定義它的狀態，並預測它未來的樣子。對於剛性物體來說，這是一個基本上已經解決的問題。透過一組良好的訓練範例，深度神經網路將能夠從不同角度檢測剛性物體。當涉及可變形物體時，其多種狀態空間變得更加複雜。

卡內基美隆大學博士生、DiffSkill論文的主要作者林星宇說，「對於剛性物體，我們可以用六個數字來描述它的狀態：三個數字表示它的XYZ座標，另外三個數字表示它的方向。

然而，諸如麵團或織物之類的可變形物體具有無限的自由度，因此更難精確地描述它們的狀態。此外，與剛性物體相比，它們的變形方式也更難用數學方法建模。」

可微物理模擬器的發展使基於梯度的方法能夠應用於解決可變形物體操作任務。這與傳統的強化學習方法不同，傳統的強化學習方法試圖透過純粹的試誤互動來學習環境和物件的動態。

DiffSkill的靈感來自PlasticineLab，這是一個可微分的實體模擬器，並在2021的ICLR會議上展出。 PlasticineLab表明，可微模擬器可以幫助完成短期任務。

深度學習技術如何解決機器人處理可變形物體的難題

PlasticineLab是一個基於可微分物理的可變形物件模擬器。它適用於訓練基於梯度的模型

但是可微分模擬器仍然在處理需要多個步驟和使用不同工具的長期問題。基於可微分模擬器的人工智慧系統還要求了解環境的完整模擬狀態和相關物理參數。這對於現實世界的應用程式尤其有限制，在這些應用程式中，代理通常透過視覺和深度感覺資料(RGB-D)感知世界。

林星宇說，「我們開始詢問是否可以將完成任務所需的步驟提取為技能，並學習有關技能的抽象概念，以便我們可以將它們連結起來以解決更複雜的任務。」

DiffSkill是一個框架，其中人工智慧代理使用可微物理模型學習技能抽象，並將它們組合起來以完成複雜的操作任務。

他過去的工作重點是使用強化學習來操縱可變形的物體，例如布料、繩索和液體。對於DiffSkill，他選擇麵團操作是因為它帶來的挑戰。

他說，「麵團操作特別有趣，因為它不容易用機器人抓取器完成，而是需要依次使用不同的工具，這是人類擅長但機器人不太常見的事情。」

經過訓練，DiffSkill可以只使用RGB-D輸入成功完成一組麵團操作任務。

採用神經網路學習抽象技能

深度學習技術如何解決機器人處理可變形物體的難題

DiffSkill訓練神經網路從可微物理模擬器獲得的初始狀態和參數預測目標狀態的可行性

DiffSkill由兩個關鍵組件組成：一個是使用神經網路學習個人技能的“神經技能抽象器”，另一個是用於解決長期任務的“規劃器”。

DiffSkill使用可微分物理模擬器為技能抽象器產生訓練範例。這些範例顯示如何使用單一工具實現短期目標，例如使用擀麵棍攤開麵團或使用抹刀移動麵團。

這些範例以RGB-D視訊的形式呈現給技能抽象化者。給定圖像觀察，技能抽象器必須預測期望的目標是否可行。該模型透過將其預測與物理模擬器的實際結果進行比較來學習和調整其參數。

對麵團等可變形物體的機器人操作需要對不同工具的使用進行長期推理。 DiffSkill方法利用可微分的模擬器來學習和組合這些具有挑戰性的任務的技能。

同時，DiffSkill訓練變分自編碼器(VAE)以學習物理模擬器產生的範例的潛在空間表示。變分自編碼器(VAE)在保留重要特徵，並丟棄與任務無關的資訊。透過將高維度影像空間轉換為潛在空間，變分自編碼器(VAE)在使DiffSkill能夠在較長的視野內進行規劃和透過觀察感官資料預測結果方面發揮了重要作用。

訓練變分自編碼器(VAE)的重要挑戰之一是確保它學習正確的特徵並推廣到現實世界。在真實世界中，視覺資料的組成不同於實體模擬器產生的資料。例如，擀麵棍或砧板的顏色與任務無關，但擀麵棍的位置和角度以及麵團的位置與任務有關。

目前，研究人員正在使用一種稱為「域隨機化」的技術，將訓練環境的不相關屬性（如背景和照明）隨機化，並保留工具的位置和方向等重要特徵。這使得訓練變分自編碼器(VAE)在應用於現實世界時更加穩定。

林星宇說，「做到這一點並不容易，因為我們需要涵蓋模擬和現實世界（稱為sim2real gap）之間所有可能的差異，更好的方法是使用3D點雲作為場景的表示，這更容易從模擬轉移到現實世界。事實上，我們正在開發一個使用點雲作為輸入的後續項目。」

規劃可變形物體的長期任務

深度學習技術如何解決機器人處理可變形物體的難題

DiffSkill使用規劃模組來評估可以實現目標的不同技能組合和序列

#一旦技能抽象器被訓練，DiffSkill使用規劃器模組來解決長期任務。規劃者必須確定從初始狀態到目的地所需的技能數量和順序。

這個規劃器會迭代可能的技能組合以及它們所產生的中間結果。變分自動編碼器在這裡派上用場。 DiffSkill不是預測完整的圖像結果，而是使用VAE來預測實現最終目標的中間步驟的潛在空間結果。

抽象技能和潛在空間表示的組合使得繪製從初始狀態到目標的軌蹟的計算效率更高。事實上，研究人員不需要優化搜尋功能，而是對所有組合進行了詳盡的搜尋。

林星宇說，「由於我們正在規劃技能，計算工作不會太多，而且時間也不長。這種詳盡的搜尋消除了為規劃師設計草圖的需要，可能會導致設計師沒有以更一般的方式考慮新穎的解決方案，儘管我們在嘗試的有限任務中沒有觀察到這一點。此外，還可以應用更複雜的搜尋技術。」

DiffSkill論文指出，「在在單一NVIDIA 2080Ti GPU上，每個技能組合的最佳化都可以在大約10秒鐘內高效完成。」

使用DiffSkill準備比薩麵團

深度學習技術如何解決機器人處理可變形物體的難題

#研究人員對DiffSkill的性能進行了測試，比較了幾種已應用於可變形物體的基線方法，包括兩種無模型強化學習演算法和一種僅使用物理模擬器的軌跡優化器

#這些模型在需要多個步驟和工具的多個任務上進行了測試。例如在其中一項任務中，人工智慧代理人必須用抹刀將麵團提起，將其放在砧板上，然後用擀麵杖將其攤開。

研究結果表明，DiffSkill在僅使用感官資訊解決長期、多工具任務方面明顯優於其他技術。實驗表明，在經過良好訓練後，DiffSkill的規劃器可以在初始狀態和目標狀態之間找到良好的中間狀態，並找到合適的技能序列來解決任務。

深度學習技術如何解決機器人處理可變形物體的難題

DiffSkill的規劃器可以非常精確地預測中間步驟

林星宇说，“其中一个要点是，一组技能可以提供非常重要的时间抽象，使我们能够进行长期推理。这也类似于人类处理不同任务的方式：在不同的时间抽象中思考，而不是思考下一秒该做什么。”

但是，DiffSkill的容量也有限制。例如，当执行需要三阶段规划的任务之一时，DiffSkill的性能会显著下降（尽管它仍然优于其他技术）。林星宇还提到，在某些情况下，可行性预测器会产生误报。研究人员认为，学习更好的潜在空间可以帮助解决这个问题。

研究人员还在探索改进DiffSkill的其他方向，包括一种更有效的规划算法，可以用于更长时间的任务。

林星宇表示，希望有一天，他可以在真正的披萨制作机器人上使用DiffSkill。他说，“我们还远远没有做到这一点。控制、sim2real转移和安全方面出现了各种挑战。但我们现在更有信心尝试开展一些长期任务。”

原文标题：This deep learning technique solves one of the tough challenges of robotics，作者：Ben Dickson

以上是深度學習技術如何解決機器人處理可變形物體的難題的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

您必須在無知的面紗後面建立工作場所Apr 29, 2025 am 11:15 AM

在約翰·羅爾斯1971年具有開創性的著作《正義論》中，他提出了一種思想實驗，我們應該將其作為當今人工智能設計和使用決策的核心：無知的面紗。這一理念為理解公平提供了一個簡單的工具，也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。設想一下，您正在為一個新的社會制定規則。但有一個前提：您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮，健康或殘疾，屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作，可以防止規則制定者做出有利於自身的決策。相反，人們會更有動力製定公

決策，決策……實用應用AI的下一步Apr 29, 2025 am 11:14 AM

許多公司專門從事機器人流程自動化（RPA），提供機器人以使重複的任務自動化 - UIPATH，在任何地方自動化，藍色棱鏡等。同時，過程採礦，編排和智能文檔處理專業

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現，能夠獨立行動和任務完成。這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理：研究

為什麼同情在AI驅動的未來中比控制者更重要Apr 29, 2025 am 11:12 AM

快速的技術進步需要對工作未來的前瞻性觀點。當AI超越生產力並開始塑造我們的社會結構時，會發生什麼？ Topher McDougal即將出版的書Gaia Wakes：

用於產品分類的AI：機器可以總稅法嗎？Apr 29, 2025 am 11:11 AM

產品分類通常涉及復雜的代碼，例如諸如統一系統（HS）等系統的“ HS 8471.30”，對於國際貿易和國內銷售至關重要。這些代碼確保正確的稅收申請，影響每個INV

數據中心的需求會引發氣候技術反彈嗎？Apr 29, 2025 am 11:10 AM

數據中心能源消耗與氣候科技投資的未來本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響，並分析了應對這一挑戰的創新解決方案和政策建議。能源需求的挑戰：大型超大規模數據中心耗電量巨大，堪比數十萬個普通北美家庭的總和，而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月，微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元（摩根大通，2024）（表1）。不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導，迫在眉睫的電

AI和好萊塢的下一個黃金時代Apr 29, 2025 am 11:09 AM

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型，以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型，正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景，甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高，但其進步速度令人驚嘆。生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作，另一些則擅長真人影像。值得注意的是，Adobe的Firefly和Moonvalley的Ma

Chatgpt是否會慢慢成為AI最大的Yes-Man？Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降：是模型退化还是用户期望？近期，大量ChatGPT付费用户抱怨其性能下降，引发广泛关注。用户报告称模型响应速度变慢，答案更简短、缺乏帮助，甚至出现更多幻觉。一些用户在社交媒体上表达了不满，指出ChatGPT变得“过于讨好”，倾向于验证用户观点而非提供批判性反馈。这不仅影响用户体验，也给企业客户带来实际损失，例如生产力下降和计算资源浪费。性能下降的证据许多用户报告了ChatGPT性能的显著退化，尤其是在GPT-4（即将于本月底停止服务）等旧版模型中。这

See all articles