僅需10%參數量即超越SOTA！浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

僅需10%參數量即超越SOTA！浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 17, 2023 pm 09:40 PM

參數模型

賦予機器人對日常物件的 3D 理解是機器人應用中的一項重大挑戰。

在未知環境中進行探索時，由於物體形狀的多樣性，現有的物體位姿估計方法仍然不能令人滿意。

僅需10%參數量即超越SOTA！浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

最近浙江大學、位元組跳動人工智慧實驗室和香港中文大學的研究者聯合提出了一個新的框架，用於從單一RGB-D 影像進行類別級物體形狀和位姿估計。

僅需10%參數量即超越SOTA！浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

#論文網址：https://arxiv.org/abs/2210.01112

#專案連結：https://zju3dv.github.io/gCasp

為了處理類別內物件的形狀變化，研究人員採用語意原始表示，將不同的形狀編碼到一個統一的隱空間中，這種表示是在觀察到的點雲和估計的形狀之間建立可靠對應關係的關鍵。

然後透過設計的對剛體相似變換不變的形狀描述子，解耦了物體的形狀和位姿估計，從而支持任意位姿中目標物體的隱式形狀最佳化。實驗顯示所提出的方法在公開資料集中實現了領先的位姿估計性能。

研究背景

在機器人的感知與操作領域，估計日常物體的形狀和位姿是一項基本功能，並且具有多種應用，其中包括3D 場景理解、機器人操作和自主倉儲。

該任務的早期工作大多集中在實例級位姿估計上，這些工作主要透過將觀察到的物體與給定的 CAD 模型對齊來獲得物體位姿。

然而，這樣的設定在現實世界的場景中是有限的，因為很難預先獲得一個任意給定物體的確切模型。

為了推廣到那些沒見過但是在語義上熟悉的物體，類別層級物體位姿估計正在引起越來越多的研究關注，因為它可以潛在地處理真實場景中同一類別的各種實例。

僅需10%參數量即超越SOTA！浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

現有的類別級位姿估計方法通常會嘗試預測一個類別中實例的像素級歸一化座標，或採用形變之後的參考先驗模型來估計物體位姿。

儘管這些工作已經取得了很大的進步，但是當同一類別中存在較大的形狀差異時，這些一次性預測方法仍然面臨困難。

為了處理同一類內物體的多樣性，一些工作利用神經隱式表示，透過迭代優化隱式空間中的位姿和形狀來適應目標物體的形狀，並獲得了更好的性能。

在類別級物體位姿估計中有兩個主要挑戰，一是巨大的類內形狀差異，二是現有的方法將形狀和位姿的耦合在一起進行最佳化，這樣容易導致最佳化問題更加複雜。

在這篇論文中，研究人員透過設計的對剛體相似變換不變的形狀描述子，解耦了物體的形狀和位姿估計，從而支持任意位姿中目標物體的隱式形狀優化。最後再根據估計形狀與觀測之間的語意關聯，求解物體的尺度與位姿。

演算法介紹

演算法由三個模組組成，語意原語提取、生成式形狀估計和物體位姿估計。

僅需10%參數量即超越SOTA！浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

演算法的輸入是單張 RGB-D 影像，演算法使用預先訓練好的 Mask R-CNN 來獲得 RGB 影像的語意分割結果，然後根據相機內參反投影得到每個物件的點雲。此方法主要對點雲進行處理，最終求得每個物體的尺度與6DoF位姿。

語意原語提取

DualSDF[1] 中提出了一種針對同類物體的語意原語的表示方法。如下圖左所示，在同一類物體中，每個實例都被分成了一定數量的語義原語，每個原語的標籤對應著某一類物體的特定部位。

為了從觀測點雲中提取物體的語義原語，作者利用了一個點雲分割網絡，將觀測點雲分割成了帶有標籤的語義原語。

僅需10%參數量即超越SOTA！浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

生成式的形狀估計值

3D的生成模型（如DeepSDF）大多是在歸一化的座標系下運行的。

然而在真實世界觀測中的物體與歸一化座標系之間會存在一個相似位姿變換（旋轉、平移以及尺度）。

為了在位姿未知時來求解當前觀測對應的歸一化形狀，作者基於語意原語表示，提出了一種對相似變換不變的形狀描述子。

這個描述子如下圖所示，它描述了不同原語構成的向量之間的夾角：

僅需10%參數量即超越SOTA！浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

作者透過這個描述子來衡量當前觀測與估計形狀之間的誤差，並透過梯度下降來使得估計形狀與觀測之間更加一致，過程如下圖所示。

僅需10%參數量即超越SOTA！浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

作者另外展示了更多的形狀最佳化範例。

僅需10%參數量即超越SOTA！浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

位姿估計

#最後，透過觀測點雲與求解形狀之間的語意原語言對應關係，作者使用Umeyama 演算法求解了觀測形狀的位姿。

僅需10%參數量即超越SOTA！浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

實驗結果

作者在NOCS 提供的REAL275（真實資料集）和CAMERA25（合成資料集）資料集上進行了對比實驗，與其他方法在位姿估計精度上進行了對比，所提出的方法在多項指標上遠超其他方法。

同時，作者也比較了需要在 NOCS 提供的訓練集上訓練的參數量，作者需要最少的2.3M的參數量便達到了最先進水平。

僅需10%參數量即超越SOTA！浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

以上是僅需10%參數量即超越SOTA！浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

如何使用OpenAI O1構建遊戲？ - 分析VidhyaApr 12, 2025 am 10:03 AM

介紹 OpenAI O1模型家族大大提高了推理能力和經濟表現，尤其是在科學，編碼和解決問題方面。 Openai的目標是創建越來越高的AI和O1模型

流行的LLM代理工具用於客戶查詢管理Apr 12, 2025 am 10:01 AM

介紹如今，客戶查詢管理的世界正在以前所未有的速度移動，每天都有新的工具成為頭條新聞。大型語言模型（LLM）代理是在這種情況下的最新創新，增強了Cu

100天企業的AI實施計劃Apr 12, 2025 am 09:56 AM

介紹採用生成AI可能是任何公司的變革旅程。但是，Genai實施過程通常會繁瑣且令人困惑。 Niit Lim的董事長兼聯合創始人Rajendra Singh Pawar

Pixtral 12B與QWEN2-VL-72BApr 12, 2025 am 09:52 AM

介紹人工智能革命引起了創造力的新時代，文本對圖像模型正在重新定義藝術，設計和技術的交集。 pixtral 12b和qwen2-vl-72b是兩個開創性的力量。

什麼是PaperQA？如何幫助科學研究？Apr 12, 2025 am 09:51 AM

介紹隨著人工智能的發展，科學研究已經發生了巨大的轉變。每年在不同的技術和部門上發表數百萬篇論文。但是，將這片信息海洋瀏覽到Retr

數據學：對幻覺的LLM接地-Analytics VidhyaApr 12, 2025 am 09:46 AM

介紹大型語言模型正在迅速改變行業 - 迄今為止，它們為從銀行業的個性化客戶服務到全球溝通中的實時語言翻譯提供了動力。他們可以回答任務

如何使用Crewai和Ollama建立多代理系統？Apr 12, 2025 am 09:44 AM

介紹不想在API上花錢，還是您擔心隱私？還是您只想在本地運行LLMS？不用擔心;本指南將幫助您使用本地LLMS構建代理和多代理框架

AV字節：Openai＆＃039; apple apple and visual ai等 - 分析vidhyaApr 12, 2025 am 09:38 AM

介紹本週，人工智能（AI）世界上充滿了重大更新。從OpenAI的O1模型展示高級推理到蘋果的開創性視覺智能技術，Tech

See all articles

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

Atom編輯器mac版下載

最受歡迎的的開源編輯器

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具，用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

EditPlus 中文破解版

體積小，語法高亮，不支援程式碼提示功能

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合，這些清單在安全評估過程中經常使用，而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表，幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上，他就可以存取所需的每種類型的清單。

僅需10%參數量即超越SOTA！浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架

研究背景

演算法介紹

語意原語提取

生成式的形狀估計值

位姿估計

實驗結果

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

Atom編輯器mac版下載

MantisBT

ZendStudio 13.5.1 Mac

EditPlus 中文破解版

SecLists

熱門話題