賦予機器人對日常物件的 3D 理解是機器人應用中的一項重大挑戰。
在未知環境中進行探索時,由於物體形狀的多樣性,現有的物體位姿估計方法仍然不能令人滿意。
最近浙江大學、位元組跳動人工智慧實驗室和香港中文大學的研究者聯合提出了一個新的框架,用於從單一RGB-D 影像進行類別級物體形狀和位姿估計。
#論文網址:https://arxiv.org/abs/2210.01112
#專案連結:https://zju3dv.github.io/gCasp
為了處理類別內物件的形狀變化,研究人員採用語意原始表示,將不同的形狀編碼到一個統一的隱空間中,這種表示是在觀察到的點雲和估計的形狀之間建立可靠對應關係的關鍵。
然後透過設計的對剛體相似變換不變的形狀描述子,解耦了物體的形狀和位姿估計,從而支持任意位姿中目標物體的隱式形狀最佳化。實驗顯示所提出的方法在公開資料集中實現了領先的位姿估計性能。
研究背景
在機器人的感知與操作領域,估計日常物體的形狀和位姿是一項基本功能,並且具有多種應用,其中包括3D 場景理解、機器人操作和自主倉儲。
該任務的早期工作大多集中在實例級位姿估計上,這些工作主要透過將觀察到的物體與給定的 CAD 模型對齊來獲得物體位姿。
然而,這樣的設定在現實世界的場景中是有限的,因為很難預先獲得一個任意給定物體的確切模型。
為了推廣到那些沒見過但是在語義上熟悉的物體,類別層級物體位姿估計正在引起越來越多的研究關注,因為它可以潛在地處理真實場景中同一類別的各種實例。
現有的類別級位姿估計方法通常會嘗試預測一個類別中實例的像素級歸一化座標,或採用形變之後的參考先驗模型來估計物體位姿。
儘管這些工作已經取得了很大的進步,但是當同一類別中存在較大的形狀差異時,這些一次性預測方法仍然面臨困難。
為了處理同一類內物體的多樣性,一些工作利用神經隱式表示,透過迭代優化隱式空間中的位姿和形狀來適應目標物體的形狀,並獲得了更好的性能。
在類別級物體位姿估計中有兩個主要挑戰,一是巨大的類內形狀差異,二是現有的方法將形狀和位姿的耦合在一起進行最佳化,這樣容易導致最佳化問題更加複雜。
在這篇論文中,研究人員透過設計的對剛體相似變換不變的形狀描述子,解耦了物體的形狀和位姿估計,從而支持任意位姿中目標物體的隱式形狀優化。最後再根據估計形狀與觀測之間的語意關聯,求解物體的尺度與位姿。
演算法介紹
演算法由三個模組組成,語意原語提取、生成式形狀估計和物體位姿估計。
演算法的輸入是單張 RGB-D 影像,演算法使用預先訓練好的 Mask R-CNN 來獲得 RGB 影像的語意分割結果,然後根據相機內參反投影得到每個物件的點雲。此方法主要對點雲進行處理,最終求得每個物體的尺度與6DoF位姿。
語意原語提取
DualSDF[1] 中提出了一種針對同類物體的語意原語的表示方法。如下圖左所示,在同一類物體中,每個實例都被分成了一定數量的語義原語,每個原語的標籤對應著某一類物體的特定部位。
為了從觀測點雲中提取物體的語義原語,作者利用了一個點雲分割網絡,將觀測點雲分割成了帶有標籤的語義原語。
生成式的形狀估計值
3D的生成模型(如DeepSDF)大多是在歸一化的座標系下運行的。
然而在真實世界觀測中的物體與歸一化座標系之間會存在一個相似位姿變換(旋轉、平移以及尺度)。
為了在位姿未知時來求解當前觀測對應的歸一化形狀,作者基於語意原語表示,提出了一種對相似變換不變的形狀描述子。
這個描述子如下圖所示,它描述了不同原語構成的向量之間的夾角:
作者透過這個描述子來衡量當前觀測與估計形狀之間的誤差,並透過梯度下降來使得估計形狀與觀測之間更加一致,過程如下圖所示。
作者另外展示了更多的形狀最佳化範例。
位姿估計
#最後,透過觀測點雲與求解形狀之間的語意原語言對應關係,作者使用Umeyama 演算法求解了觀測形狀的位姿。
實驗結果
作者在NOCS 提供的REAL275(真實資料集) 和CAMERA25(合成資料集) 資料集上進行了對比實驗,與其他方法在位姿估計精度上進行了對比,所提出的方法在多項指標上遠超其他方法。
同時,作者也比較了需要在 NOCS 提供的訓練集上訓練的參數量,作者需要最少的2.3M的參數量便達到了最先進水平。
以上是僅需10%參數量即超越SOTA!浙大、位元組、香港中文聯合提出「類別級位姿估計」任務新框架的詳細內容。更多資訊請關注PHP中文網其他相關文章!

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版
SublimeText3 Linux最新版