搜索
首页科技周边人工智能深度学习技术如何解决机器人处理可变形物体的难题

深度学习技术如何解决机器人处理可变形物体的难题

Apr 12, 2023 am 09:25 AM
人工智能机器人深度学习

译者 | 李睿

审校 | 孙淑娟

对于人类来说,处理可变形物体并不比处理刚性物体困难多少。人们很自然地学会塑造它们,折叠它们,并以不同的方式操纵它们,并且仍然能够识别它们。  

深度学习技术如何解决机器人处理可变形物体的难题

但是对于机器人和人工智能系统来说,操纵可变形物体是一个巨大的挑战。例如机器人必须采取一系列步骤将面团做成比萨饼皮。当面团改变形状时必须进行记录和跟踪,与此同时,它必须为每一步的工作选择正确的工具。对于当前的人工智能系统来说,这些都是具有挑战性的任务,它们在处理具有更可预测状态的刚体物体时更加稳定。

现在,麻省理工学院、卡内基梅隆大学和加州大学圣地亚哥分校的研究人员开发的一种新的深度学习技术,有望使机器人系统在处理可变形物体时更加稳定。这项名为DiffSkill的技术使用深度神经网络来学习简单的技能,并使用一个规划模块来结合这些技能,以解决需要多个步骤和工具的任务。  

通过强化学习和深度学习处理可变形物体  

如果人工智能系统想要处理一个物体,它必须能够检测和定义它的状态,并预测它未来的样子。对于刚性物体来说,这是一个基本上已经解决的问题。通过一组良好的训练示例,深度神经网络将能够从不同角度检测刚性物体。当涉及到可变形物体时,其多种状态空间变得更加复杂。

卡内基梅隆大学博士生、DiffSkill论文的主要作者林星宇说,“对于刚性物体,我们可以用六个数字来描述它的状态:三个数字表示它的XYZ坐标,另外三个数字表示它的方向。  

然而,诸如面团或织物之类的可变形物体具有无限的自由度,因此更难精确地描述它们的状态。此外,与刚性物体相比,它们的变形方式也更难用数学方法建模。”

可微物理模拟器的发展使基于梯度的方法能够应用于解决可变形物体操作任务。这与传统的强化学习方法不同,传统的强化学习方法试图通过纯粹的试错交互来学习环境和物体的动态。  

DiffSkill的灵感来自PlasticineLab,这是一种可微分的物理模拟器,并在2021的ICLR会议上展出。PlasticineLab表明,可微模拟器可以帮助完成短期任务。

深度学习技术如何解决机器人处理可变形物体的难题 

PlasticineLab是一个基于可微分物理的可变形物体模拟器。它适用于训练基于梯度的模型

但是可微分模拟器仍然在处理需要多个步骤和使用不同工具的长期问题。基于可微分模拟器的人工智能系统还要求了解环境的完整模拟状态和相关物理参数。这对于现实世界的应用程序尤其有限制,在这些应用程序中,代理通常通过视觉和深度感觉数据(RGB-D)感知世界。  

林星宇说,“我们开始询问是否可以将完成任务所需的步骤提取为技能,并学习有关技能的抽象概念,以便我们可以将它们链接起来以解决更复杂的任务。”  

DiffSkill是一个框架,其中人工智能代理使用可微物理模型学习技能抽象,并将它们组合起来以完成复杂的操作任务。  

他在过去的工作重点是使用强化学习来操纵可变形的物体,例如布料、绳索和液体。对于DiffSkill,他选择面团操作是因为它带来的挑战。  

他说,“面团操作特别有趣,因为它不容易用机器人抓取器完成,而是需要依次使用不同的工具,这是人类擅长但机器人不太常见的事情。”  

经过训练,DiffSkill可以仅使用RGB-D输入成功完成一组面团操作任务。  

采用神经网络学习抽象技能  

深度学习技术如何解决机器人处理可变形物体的难题

DiffSkill训练神经网络从可微物理模拟器获得的初始状态和参数预测目标状态的可行性

DiffSkill由两个关键组件组成:一个是使用神经网络学习个人技能的“神经技能抽象器”,另一个是用于解决长期任务的“规划器”。

DiffSkill使用可微分物理模拟器为技能抽象器生成训练示例。这些示例展示了如何使用单一工具实现短期目标,例如使用擀面杖摊开面团或使用抹刀移动面团。  

这些示例以RGB-D视频的形式呈现给技能抽象者。给定图像观察,技能抽象器必须预测期望的目标是否可行。该模型通过将其预测与物理模拟器的实际结果进行比较来学习和调整其参数。  

对面团等可变形物体的机器人操作需要对不同工具的使用进行长期推理。DiffSkill方法利用可微分的模拟器来学习和组合这些具有挑战性的任务的技能。

与此同时,DiffSkill训练变分自编码器(VAE)以学习物理模拟器生成的示例的潜在空间表示。变分自编码器(VAE)在保留重要特征,并丢弃与任务无关的信息。通过将高维图像空间转换为潜在空间,变分自编码器(VAE)在使DiffSkill能够在较长的视野内进行规划和通过观察感官数据预测结果方面发挥了重要作用。

训练变分自编码器(VAE)的重要挑战之一是确保它学习正确的特征并推广到现实世界。在真实世界中,视觉数据的组成不同于物理模拟器生成的数据。例如,擀面杖或砧板的颜色与任务无关,但擀面杖的位置和角度以及面团的位置与任务有关。

目前,研究人员正在使用一种称为“域随机化”的技术,该技术将训练环境的不相关属性(如背景和照明)随机化,并保留工具的位置和方向等重要特征。这使得训练变分自编码器(VAE)在应用于现实世界时更加稳定。  

林星宇说,“做到这一点并不容易,因为我们需要涵盖模拟和现实世界(称为sim2real gap)之间所有可能的差异,更好的方法是使用3D点云作为场景的表示,这更容易从模拟转移到现实世界。事实上,我们正在开发一个使用点云作为输入的后续项目。”  

规划可变形物体的长期任务  

深度学习技术如何解决机器人处理可变形物体的难题

DiffSkill使用规划模块来评估可以实现目标的不同技能组合和序列

一旦技能抽象器被训练,DiffSkill使用规划器模块来解决长期任务。规划者必须确定从初始状态到目的地所需的技能数量和顺序。  

这个规划器会迭代可能的技能组合以及它们产生的中间结果。变分自动编码器在这里派上用场。DiffSkill不是预测完整的图像结果,而是使用VAE来预测实现最终目标的中间步骤的潜在空间结果。  

抽象技能和潜在空间表示的结合使得绘制从初始状态到目标的轨迹的计算效率更高。事实上,研究人员不需要优化搜索功能,而是对所有组合进行了详尽的搜索。  

林星宇说,“由于我们正在规划技能,计算工作也不会太多,而且时间也不长。这种详尽的搜索消除了为规划师设计草图的需要,可能会导致设计师没有以更一般的方式考虑新颖的解决方案,尽管我们在尝试的有限任务中没有观察到这一点。此外,还可以应用更复杂的搜索技术。”

DiffSkill论文指出,“在单个NVIDIA 2080Ti GPU上,每种技能组合的优化都可以在大约10秒钟内高效完成。”

使用DiffSkill准备比萨面团  

深度学习技术如何解决机器人处理可变形物体的难题

研究人员对DiffSkill的性能进行了测试,对比了几种已应用于可变形物体的基线方法,包括两种无模型强化学习算法和一种仅使用物理模拟器的轨迹优化器

这些模型在需要多个步骤和工具的多个任务上进行了测试。例如在其中一项任务中,人工智能代理必须用抹刀将面团提起,将其放在砧板上,然后用擀面杖将其摊开。  

研究结果表明,DiffSkill在仅使用感官信息解决长期、多工具任务方面明显优于其他技术。实验表明,在经过良好训练后,DiffSkill的规划器可以在初始状态和目标状态之间找到良好的中间状态,并找到合适的技能序列来解决任务。   

深度学习技术如何解决机器人处理可变形物体的难题

DiffSkill的规划器可以非常准确地预测中间步骤

林星宇说,“其中一个要点是,一组技能可以提供非常重要的时间抽象,使我们能够进行长期推理。这也类似于人类处理不同任务的方式:在不同的时间抽象中思考,而不是思考下一秒该做什么。”

但是,DiffSkill的容量也有限制。例如,当执行需要三阶段规划的任务之一时,DiffSkill的性能会显着下降(尽管它仍然优于其他技术)。林星宇还提到,在某些情况下,可行性预测器会产生误报。研究人员认为,学习更好的潜在空间可以帮助解决这个问题。  

研究人员还在探索改进DiffSkill的其他方向,包括一种更有效的规划算法,可以用于更长时间的任务。

林星宇表示,希望有一天,他可以在真正的披萨制作机器人上使用DiffSkill。他说,“我们还远远没有做到这一点。控制、sim2real转移和安全方面出现了各种挑战。但我们现在更有信心尝试开展一些长期任务。”

 原文标题:This deep learning technique solves one of the tough challenges of robotics,作者:Ben Dickson


以上是深度学习技术如何解决机器人处理可变形物体的难题的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
免费生成的AI课程:开创创新的未来免费生成的AI课程:开创创新的未来Apr 19, 2025 am 10:01 AM

生成的AI:革命性的创造力和创新 生成的AI通过按下按钮来创建文本,图像,音乐和虚拟世界来改变行业。 它的影响跨越视频编辑,音乐制作,艺术,娱乐,HEA

使用通用句子编码器和Wikiqa创建QA模型使用通用句子编码器和Wikiqa创建QA模型Apr 19, 2025 am 10:00 AM

利用嵌入模型的力量来回答高级问题 在当今信息丰富的世界中,立即获得精确答案的能力至关重要。 本文展示了使用强大的提问(QA)模型

前十名必须阅读机器学习研究论文前十名必须阅读机器学习研究论文Apr 19, 2025 am 09:53 AM

本文探讨了十个彻底改变人工智能(AI)和机器学习(ML)的开创性出版物。 我们将研究神经网络和算法的最新突破,并解释驱动现代AI的核心概念。 Th

替换SEO机构的11个AI工具 - 分析Vidhya替换SEO机构的11个AI工具 - 分析VidhyaApr 19, 2025 am 09:49 AM

AI在SEO中的崛起:超过SEO代理商的前11个工具 AI的快速发展已深刻地重塑了SEO景观。 旨在提高顶级搜索引擎排名的企业正在利用AI优化其在线策略的能力。 来自AU

前10个免费的AI游乐场供您在2025年尝试-Analytics Vidhya前10个免费的AI游乐场供您在2025年尝试-Analytics VidhyaApr 19, 2025 am 09:45 AM

探索2024年最好的免费AI游乐场:综合指南 访问正确的工具和平台是在不断发展的人工智能(AI)领域学习和创新的关键。 AI游乐场提供了绝佳的机会

矢量数据库中索引算法的详细指南矢量数据库中索引算法的详细指南Apr 19, 2025 am 09:41 AM

介绍 向量数据库是专门的数据库,旨在有效地存储和检索高维矢量数据。 这些向量代表数据点的特征或属性,范围从数十到数千个维度,具体取决于

反向扩散过程是什么? - 分析Vidhya反向扩散过程是什么? - 分析VidhyaApr 19, 2025 am 09:40 AM

稳定的扩散:揭示反向扩散的魔力 稳定的扩散是一种强大的生成模型,能够从噪声中产生高质量的图像。此过程涉及两个关键步骤:正向扩散过程(在上一个A中详细介绍

掌握及时工程中的字典技术链掌握及时工程中的字典技术链Apr 19, 2025 am 09:38 AM

解锁AI潜力:词典链,用于增强及时工程 在人工智能和自然语言处理的快速发展的景观中,速度和效率至关重要。 词典方法e

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热工具

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器