首頁 >科技週邊 >人工智慧 >僅需10%參數量即超越SOTA!浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

僅需10%參數量即超越SOTA!浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

WBOY
WBOY轉載
2023-04-17 21:40:01858瀏覽

賦予機器人對日常物件的 3D 理解是機器人應用中的一項重大挑戰。

在未知環境中進行探索時,由於物體形狀的多樣性,現有的物體位姿估計方法仍然不能令人滿意。

僅需10%參數量即超越SOTA!浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

最近浙江大學、位元組跳動人工智慧實驗室和香港中文大學的研究者聯合提出了一個新的框架,用於從單一RGB-D 影像進行類別級物體形狀和位姿估計。

僅需10%參數量即超越SOTA!浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

#論文網址:https://arxiv.org/abs/2210.01112

#專案連結:https://zju3dv.github.io/gCasp

為了處理類別內物件的形狀變化,研究人員採用語意原始表示,將不同的形狀編碼到一個統一的隱空間中,這種表示是在觀察到的點雲和估計的形狀之間建立可靠對應關係的關鍵。

然後透過設計的對剛體相似變換不變的形狀描述子,解耦了物體的形狀和位姿估計,從而支持任意位姿中目標物體的隱式形狀最佳化。實驗顯示所提出的方法在公開資料集中實現了領先的位姿估計性能

研究背景

在機器人的感知與操作領域,估計日常物體的形狀和位姿是一項基本功能,並且具有多種應用,其中包括3D 場景理解、機器人操作和自主倉儲。

該任務的早期工作大多集中在實例級位姿估計上,這些工作主要透過將觀察到的物體與給定的 CAD 模型對齊來獲得物體位姿。

然而,這樣的設定在現實世界的場景中是有限的,因為很難預先獲得一個任意給定物體的確切模型。

為了推廣到那些沒見過但是在語義上熟悉的物體,類別層級物體位姿估計正在引起越來越多的研究關注,因為它可以潛在地處理真實場景中同一類別的各種實例。

僅需10%參數量即超越SOTA!浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

現有的類別級位姿估計方法通常會嘗試預測一個類別中實例的像素級歸一化座標,或採用形變之後的參考先驗模型來估計物體位姿。

儘管這些工作已經取得了很大的進步,但是當同一類別中存在較大的形狀差異時,這些一次性預測方法仍然面臨困難。

為了處理同一類內物體的多樣性,一些工作利用神經隱式表示,透過迭代優化隱式空間中的位姿和形狀來適應目標物體的形狀,並獲得了更好的性能。

在類別級物體位姿估計中有兩個主要挑戰,一是巨大的類內形狀差異,二是現有的方法將形狀和位姿的耦合在一起進行最佳化,這樣容易導致最佳化問題更加複雜。

在這篇論文中,研究人員透過設計的對剛體相似變換不變的形狀描述子,解耦了物體的形狀和位姿估計,從而支持任意位姿中目標物體的隱式形狀優化。最後再根據估計形狀與觀測之間的語意關聯,求解物體的尺度與位姿。

演算法介紹

演算法由三個模組組成,語意原語提取生成式形狀估計物體位姿估計

僅需10%參數量即超越SOTA!浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

#

演算法的輸入是單張 RGB-D 影像,演算法使用預先訓練好的 Mask R-CNN 來獲得 RGB 影像的語意分割結果,然後根據相機內參反投影得到每個物件的點雲。此方法主要對點雲進行處理,最終求得每個物體的尺度與6DoF位姿。

語意原語提取

DualSDF[1] 中提出了一種針對同類物體的語意原語的表示方法。如下圖左所示,在同一類物體中,每個實例都被分成了一定數量的語義原語,每個原語的標籤對應著某一類物體的特定部位。

為了從觀測點雲中提取物體的語義原語,作者利用了一個點雲分割網絡,將觀測點雲分割成了帶有標籤的語義原語。

僅需10%參數量即超越SOTA!浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

生成式的形狀估計值

3D的生成模型(如DeepSDF)大多是在歸一化的座標系下運行的。

然而在真實世界觀測中的物體與歸一化座標系之間會存在一個相似位姿變換(旋轉、平移以及尺度)。

為了在位姿未知時來求解當前觀測對應的歸一化形狀,作者基於語意原語表示,提出了一種對相似變換不變的形狀描述子。

這個描述子如下圖所示,它描述了不同原語構成的向量之間的夾角:

僅需10%參數量即超越SOTA!浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

作者透過這個描述子來衡量當前觀測與估計形狀之間的誤差,並透過梯度下降來使得估計形狀與觀測之間更加一致,過程如下圖所示。 

僅需10%參數量即超越SOTA!浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

作者另外展示了更多的形狀最佳化範例。

僅需10%參數量即超越SOTA!浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

位姿估計

#最後,透過觀測點雲與求解形狀之間的語意原語言對應關係,作者使用Umeyama 演算法求解了觀測形狀的位姿。

僅需10%參數量即超越SOTA!浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

實驗結果

作者在NOCS 提供的REAL275(真實資料集) 和CAMERA25(合成資料集) 資料集上進行了對比實驗,與其他方法在位姿估計精度上進行了對比,所提出的方法在多項指標上遠超其他方法。

同時,作者也比較了需要在 NOCS 提供的訓練集上訓練的參數量,作者需要最少的2.3M的參數量便達到了最先進水平。

僅需10%參數量即超越SOTA!浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

#

以上是僅需10%參數量即超越SOTA!浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除