首页 >科技周边 >人工智能 >新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

WBOY
WBOY转载
2023-12-04 18:41:411406浏览

北京大学的研究人员提出了一种新的类别级6D物体位姿估计方法,这是一个基础且重要的问题,广泛应用于机器人、虚拟现实和增强现实等领域。他们在这篇论文中取得了新的SOTA结果,并且已被机器学习领域的顶级会议NeurIPS 2023接收

6D 物体位姿估计作为计算机视觉领域的一个重要任务,在机器人、虚拟现实和增强现实等领域有众多应用。尽管实例级别的物体位姿估计已经取得了显着进展,但它需要事先了解物体的特性,因此无法轻松适用于新的物体,这限制了其实际应用。为了解决这一问题,近年来,越来越多的研究工作集中在类别级别的物体位姿估计上。类别级别的位姿估计要求算法不依赖于物体的 CAD 模型,能够直接应用到与训练数据中相同类别的新物体。

目前,目前广泛使用的6D物体位姿估计方法可以分为两大类:一是直接回归的端到端方法,二是基于物体类别先验的两阶段方法。然而,这些方法都将问题建模为回归任务,因此在处理对称物体和部分可见物体时,需要特殊的设计来应对多解问题

为了克服这些挑战,北京大学的研究团队提出了一种全新的类别级6D 物体位姿估计范式,将该问题重新定义为条件分布建模问题,从而实现了最新的最优性能。他们还将这一方法成功应用于机器人操作任务,如在视频中展示的倒水等任务。

新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

请点击以下链接查看论文:https://arxiv.org/abs/2306.10531

新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果类别级6D 物体姿态估计中的多解问题

在6D物体姿态估计的类别级别上,多解问题是指在相同的观测条件下可能存在多个合理的姿态估计。这种情况主要由两个因素引起,如图1所示:对称物体和部分观测。对于对称物体,例如球形或圆柱形的物体,在不同的方向上观测时可能完全相同,因此从理论上讲,它们有无限多个可能的姿态真值。同时,单一视角无法获得完整的物体观测,例如马克杯,在没有观察到杯柄的情况下,也存在无限多个可能的姿态真值

新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

图1. 多解问题的来源:对称物体和部分观测

方法介绍

怎样应对上述的多解问题呢?作者将此问题视为条件分布建模问题,并提出了一种名为GenPose的方法,该方法利用扩散模型来估计物体位姿的条件分布。该方法首先使用基于分数的扩散模型生成物体位姿的候选项。然后通过两个步骤对候选项进行聚合:首先,通过似然估计筛选掉异常值,然后通过平均池化对剩余候选位姿进行聚合。为了避免在估计似然时需要繁琐的积分计算,研究作者还引入了一种基于能量的扩散模型的训练方法,以实现端到端的似然估计

新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

重新表达为:图片2展示了GenPose的框架结构

以分数为基础的扩散模型用于生成物体姿态候选

重写后的内容:这一步骤的目的是解决多解问题,那么怎样对物体位姿的条件概率分布进行建模呢?作者采用了基于分数的扩散模型,并利用 VE SDE(变分欧拉随机微分方程)构建了一个连续的扩散过程。在模型的训练过程中,其目标是估计扰动条件姿态分布的分数函数,并最终通过 Probability Flow ODE(常微分方程)从条件分布中采样物体姿态的候选项

新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

根据得分的扩散模型生成物体姿态候选,如图3所示

应用以提高物体识别的准确性

通过训练好的条件分布,可以产生无限个物体的姿态候选。从这些候选中,如何得出最终的物体姿态呢?最简单的方法是随机采样,但是这种方法可能无法保证预测结果的稳定性。是否可以通过平均池化的方式来聚合这些姿态候选呢?但是这种聚合方式没有考虑姿态候选的质量,容易受到异常值的影响。作者认为,可以通过似然估计的方式来考虑姿态候选的质量,并进行聚合。具体来说,根据似然估计的结果,对物体姿态候选进行排序,过滤掉似然估计较低的异常值,然后对剩余的姿态候选进行平均池化,就可以得到聚合后的姿态估计结果。但是,使用扩散模型进行似然估计需要进行复杂的积分计算,这严重影响了推理速度,限制了其实际应用。为了解决这个问题,作者提出了训练一个基于能量的扩散模型,直接用于进行端到端的似然估计,从而实现快速聚合候选

新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

图4. 基于能量的扩散模型用于似然估计与物体姿态候选聚合

实验与结果

作者在 REAL275 数据集上对 GenPose 性能进行了验证,可以看出 GenPose 在各项指标上都大幅优于之前的方法,即使是与使用更多模态信息的方法进行对比,GenPose 依然有很大的领先优势,表 1 展示了作者提出的生成式物体姿态估计范式的优势。图 5 是可视化的结果。

新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

需要重写的内容是:与其他方法的对比

新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

第五幅图展示了不同方法的预测可视化效果

作者还研究了不同聚合方法(随机采样、随机排序后聚合、基于能量排序后聚合、GT排序后聚合)的影响。结果显示,使用能量模型进行排序明显优于随机抽样方法。此外,作者提出的基于能量的扩散模型对物体姿态候选进行聚合的方法也明显优于随机采样和随机排序后平均池化的方法

新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

表 2. 不同聚合方式的对比

为了更好地分析能量模型的影响,作者进一步研究了估计的位姿误差与预测的能量之间的相关性。如图 4 所示,预测的位姿误差和能量之间存在一般的负相关关系。能量模型在识别误差较大的姿态时表现较好,而在识别误差较小的姿态时表现较差,这解释了为什么预测的能量被用来去除离群点,而非直接选出能量最大的候选

新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

图6. 能量与预测误差相关性分析

作者还展示了该方法在跨类别泛化方面的能力,该方法不依赖于类别先验知识,并且在跨类别泛化方面的表现也明显优于之前的方法

新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

表格三显示了跨类别泛化效果。左边的斜线表示在训练数据集中包含测试类别时的性能,右边的斜线表示在训练时将测试类别移除后的性能

同时,由于扩散模型的闭环生成过程,文章中的单帧姿态估计框架还可以直接用于 6D 物体姿态跟踪任务,没有任何特殊的设计,该方法在多项指标中优于最先进的 6D 物体姿态跟踪方法,结果如表 4 所示。

新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

表 4. 类别级 6D 物体姿态追踪性能对比

总结与展望

这项工作提出了一个类别级 6D 物体位姿估计新范式,训练过程无需针对对称物体和部分观测带来的多解问题做任何特殊设计,取得了新的 SOTA 性能。未来的工作会利用扩散模型的最新进展来加速推理过程,并考虑结合强化学习来实现主动式 6D 物体位姿估计。

研究团队介绍:

本次研究的通讯作者董豪为北京大学的助理教授、博导、博雅青年学者、智源学者,其创立并领导北大超平面实验室(Hyperplane Lab)。

论文共同一作张继耀、吴铭东为北京大学博士生,导师为董豪老师,详见个人主页。 需要重写的内容是:张继耀和吴铭东是北京大学的博士生,他们共同合作撰写了一篇论文,而董豪老师是他们的导师。具体信息请查看他们的个人主页

  • 需要重写的是:https://jiyao06.github.io/

  • https://aaronanima.github.io/

以上是新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文转载于:jiqizhixin.com。如有侵权,请联系admin@php.cn删除