SOTA を超えるために必要なパラメーターはわずか 10% です。浙江大学、Byte、Hong Kong Chinese が共同で「カテゴリレベルの姿勢推定」タスクの新しいフレームワークを提案

SOTA を超えるために必要なパラメーターはわずか 10% です。浙江大学、Byte、Hong Kong Chinese が共同で「カテゴリレベルの姿勢推定」タスクの新しいフレームワークを提案

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 17, 2023 pm 09:40 PM

パラメータモデル

ロボットに日常の物体を 3D で理解させることは、ロボット工学アプリケーションにおける大きな課題です。

未知の環境を探索する場合、オブジェクトの形状が多様であるため、既存のオブジェクトの姿勢推定方法では依然として満足のいくものではありません。

最近、浙江大学、バイトダンス人工知能研究所、香港中文大学の研究者が共同で、カテゴリレベルのオブジェクト形状の新しいフレームワークを提案しました。単一の RGB-D 画像からの姿勢推定。

文書アドレス: https://arxiv.org/abs/2210.01112

##プロジェクトリンク: https://zju3dv.github.io/gCasp

#カテゴリ内のオブジェクトの形状変化を処理するには、研究者意味論的なプリミティブ表現を採用して、さまざまな形状を統一された潜在空間にエンコードするこの表現は、観察された点群と推定された形状

の間に信頼できる対応関係を確立する鍵となります。

次に、剛体相似変換に対して不変である

形状記述子を設計することにより、オブジェクトの形状と姿勢の推定が切り離され、それによってあらゆる姿勢がサポートされます。ターゲットオブジェクトの形状の最適化。実験により、提案された方法が公開データセットで

最高の姿勢推定パフォーマンスを達成することが示されています。研究背景

ロボットの認知・操作分野において、日常物体の形状や姿勢を推定することは基本的な機能であり、3Dを含むさまざまな応用が可能です。現場の理解、ロボット操作、自律倉庫保管。

このタスクの初期の作業は、インスタンスレベルの姿勢推定に主に焦点を当てていました。これは主に、観察されたオブジェクトを特定の CAD モデルと位置合わせすることによってオブジェクトの姿勢を取得します。

ただし、特定のオブジェクトの正確なモデルを事前に取得するのは難しいため、このようなセットアップは現実のシナリオでは限定されます。

目に見えないが意味的によく知られたオブジェクトを一般化するために、カテゴリレベルのオブジェクト姿勢推定は、シーン内の同じカテゴリの実際のさまざまなインスタンスを潜在的に処理できるため、研究の注目が高まっています。

#既存のクラスレベルの姿勢推定方法は、通常、クラス内のインスタンスのピクセルレベルで正規化された座標を予測しようとするか、変形された座標を使用します。オブジェクトの姿勢を推定するための以前のモデル。 SOTA を超えるために必要なパラメーターはわずか 10% です。浙江大学、Byte、Hong Kong Chinese が共同で「カテゴリレベルの姿勢推定」タスクの新しいフレームワークを提案

これらの研究は大きく進歩しましたが、同じカテゴリ内に大きな形状の違いがある場合、これらのワンショット予測方法は依然として困難に直面しています。

同じカテゴリ内のオブジェクトの多様性を処理するために、一部の作品では、ニューラル暗黙的表現を利用して、暗黙的表現でポーズと形状を繰り返し最適化することで、ターゲットオブジェクトの形状に適応します。スペースが広くなり、より良いパフォーマンスが得られました。

カテゴリレベルのオブジェクトの姿勢推定には 2 つの主な課題があります。1 つはクラス内の大きな形状の違いであり、もう 1 つは形状と姿勢を結合する既存の手法です。より複雑な最適化問題を簡単に引き起こす可能性があります。

この論文では、研究者は、剛体相似変換に対して不変である形状記述子を設計することにより、オブジェクトの形状と姿勢の推定を分離し、それによって任意の姿勢をサポートしますターゲットオブジェクトの暗黙的な形状最適化。最後に、推定された形状と観測値の間の意味的な関連に基づいて、オブジェクトのスケールと姿勢が解決されます。

アルゴリズムの紹介

アルゴリズムは、

意味プリミティブ抽出

、

生成形状推定、およびの 3 つのモジュールで構成されます。オブジェクトの姿勢推定。

アルゴリズムの入力は単一の RGB-D 画像です。アルゴリズムは、事前トレーニングされたマスク R-CNN を使用して、RGB 画像のセマンティックセグメンテーションの結果を取得し、その点群を逆投影します。各オブジェクトはカメラの内部パラメータに基づいています。この手法は主に点群を処理し、最終的に各オブジェクトのスケールと 6DoF 姿勢を取得します。

セマンティックプリミティブ抽出

DualSDF[1] は、類似オブジェクトのセマンティックプリミティブの表現方法を提案しています。以下の図の左側に示すように、同じ種類のオブジェクトでは、各インスタンスは特定の数のセマンティックプリミティブに分割され、各プリミティブのラベルは特定の種類のオブジェクトの特定の部分に対応します。

観測点群からオブジェクトのセマンティックプリミティブを抽出するために、著者は点群セグメンテーションネットワークを利用して、観測点群をラベル付きのセマンティックプリミティブにセグメント化します。

#生成形状推定

3D 生成モデル (DeepSDF など)ほとんどの場合、正規化された座標系で動作します。

ただし、現実世界の観察におけるオブジェクトと正規化された座標系の間には、同様の姿勢変換 (回転、平行移動、スケール) が発生します。

姿勢が不明な場合に現在の観察に対応する正規化された形状を解決するために、著者は意味論的なプリミティブ表現に基づいた同様の変換に対して不変な形状記述子を提案します。

#この記述子は次の図に示されており、さまざまなプリミティブで構成されるベクトル間の角度を記述します。

##著者は、この記述子を使用して現在の観測値と推定形状の間の誤差を測定し、勾配降下法を使用して推定形状と観測値の一貫性を高めます。そのプロセスを次の図に示します。

著者は、さらに形状最適化の例も示しています。

姿勢推定

最後に、点群を観察し、形状間の意味論的な起源を解決します。著者は、言語対応関係に基づいて、梅山アルゴリズムを使用して、観察された形状の姿勢を解決します。

SOTA を超えるために必要なパラメーターはわずか 10% です。浙江大学、Byte、Hong Kong Chinese が共同で「カテゴリレベルの姿勢推定」タスクの新しいフレームワークを提案 #実験結果

著者は、提供されている REAL275 (実際のデータセット) および CAMERA25 (合成データセット) データセットを使用しています。 NOCSによる姿勢推定精度を他の手法と比較実験を行ったところ、提案手法は複数の指標において他の手法を大きく上回った。

同時に、著者は、NOCS が提供するトレーニングセットでトレーニングする必要があるパラメータの量も比較しました。著者は、目標に到達するには、少なくとも 230 万のパラメータが必要です。最先端レベル。

以上がSOTA を超えるために必要なパラメーターはわずか 10% です。浙江大学、Byte、Hong Kong Chinese が共同で「カテゴリレベルの姿勢推定」タスクの新しいフレームワークを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

ホットツール

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。