検索
ホームページテクノロジー周辺機器AIMicrosoft、AR/VR 身体姿勢キャプチャ向けに多関節オブジェクトの姿勢を予測する特許技術を提案

(Nweon 2023 年 9 月 18 日) 人間のユーザーの現実世界の姿勢を正確に表現するには、通常、ユーザーの身体部分の位置と方向に関する比較的詳細な情報が必要ですが、この情報は常に利用できるわけではありません。たとえば、ヘッドセットを使用して仮想現実体験を提供する場合、システムはユーザーの頭と手に関連する空間情報しか取得できない場合があります。ただし、ほとんどの場合、人間のユーザーの実際のポーズを正確に再現するにはこれでは十分ではありません

そこでマイクロソフトは、「多関節オブジェクトの姿勢予測」という特許出願で、多関節オブジェクトの姿勢を予測する技術を提案しました。特に、機械学習モデルは、多関節オブジェクトのn個の異なる関節の空間情報を受け取ります。ここで、n個の関節は、多関節オブジェクトのすべての関節よりも小さいです。

人間ユーザーの場合、n 個の関節には人間ユーザーの頭部関節および/または 1 つまたは 2 つの手首関節が含まれ、これらはユーザーの頭および/または手のパラメーターの詳細を示す空間情報に関連付けられます

機械学習モデルは、多関節オブジェクトの n m 個のジョイントに関する入力空間情報を受け取るようにトレーニングされています。ここで、m は 1 以上です。たとえば、初期トレーニング中に、機械学習モデルは、多関節オブジェクトのほぼすべての関節に対応する入力データを受け取ります。 n m 個の関節は、多関節オブジェクトの各関節を含み得る。

他の例では、多関節オブジェクトのすべてのジョイントよりも少ない n m 個のジョイントが存在する可能性があります。トレーニング プロセス中、機械学習モデルに入力されたデータは徐々に隠蔽される場合があります。事前定義された値を使用して、m 個のノード内の特定のノードの対応する入力データを置き換えることも、単純に

を省略することもできます。

言い換えれば、機械学習モデルは、多関節オブジェクトのさまざまな可動部分の位置/方向に関する情報が徐々に少なくなり、多関節オブジェクトの姿勢を正確に予測するようにトレーニングされます。

Microsoft、AR/VR 身体姿勢キャプチャ向けに多関節オブジェクトの姿勢を予測する特許技術を提案

このアプローチを使用すると、機械学習モデルは実行時に多関節オブジェクトの姿勢を正確に予測でき、必要なのはまばらな入力データだけです。 Microsoft は、このテクノロジにより、各関節の向きに関する大量の情報を必要とせずに、人間のユーザーに対して多関節オブジェクトの現実世界のポーズを正確に再現できると述べています。

言い換えれば、発明は、人間のユーザーの実世界のジェスチャーをより正確に再現することにより、人間とコンピューターの対話を改善する技術的利点を提供することができます。これらの技術的利点には、仮想現実体験の没入感の向上やジェスチャ認識システムの精度の向上が含まれます

さらに、説明されているテクノロジーは、姿勢予測プロセスへの入力として収集する必要があるデータの量を削減することで、人間のユーザーの実際の姿勢を正確に再現しながら、コンピューティング リソースの消費を削減できます。

例の方法 200 は、多関節物体の姿勢を予測するための図 2 を示しています。

Microsoft、AR/VR 身体姿勢キャプチャ向けに多関節オブジェクトの姿勢を予測する特許技術を提案

ポイント 202 で、多関節オブジェクトに使用される n 個のジョイントの空間情報を受け取ります。システムは、多関節オブジェクトの n 個の関節の空間情報を受け取ります。これには、多関節オブジェクトのすべての関節よりも少ない関節が含まれます。関節の空間情報を身体各部を結ぶ6自由度の位置と向きとして表現し、関節の状態を推定することができます

###一例として、n個の関節は人体の頭部関節を含むことができ、頭部関節の空間情報は人体の頭部のパラメータを詳細に記述することができる。また、n個の関節は、人体の1つ以上の手首関節を含み、1つ以上の手首関節の空間情報は、人体の1つ以上の手のパラメータを詳細に記述することができる。

Microsoft、AR/VR 身体姿勢キャプチャ向けに多関節オブジェクトの姿勢を予測する特許技術を提案 図 3 は人間のユーザーを示しています。人間のユーザは、頭300と2つの手302Aおよび302Bを有する。コンピューティングシステムは、頭部および/または手首の関節を含む、人間のユーザーの1つまたは複数の関節に関する空間情報を受信することができる。

多関節オブジェクトの n 個の関節の空間情報は、1 つまたは複数のセンサーによって出力された位置データから導き出すことができます。センサーは、人間のユーザーの対応する体の部分によって保持または着用される 1 つまたは複数のデバイスに統合することができます。

たとえば、センサーには、ヘッドマウント ディスプレイ デバイスおよび/またはハンドヘルド コントローラーに統合された 1 つまたは複数の慣性測定ユニットが含まれる場合があります。別の例として、センサーには 1 つ以上のカメラが含まれる場合があります。

図 3 は、さまざまな種類のセンサーを概略的に示しており、センサーからの出力には空間情報が含まれるか、空間情報の導出に使用されます。具体的には、人間のユーザは、頭部300にヘッドマウントディスプレイ装置304を装着する。

### さらに、人間のユーザは、ユーザの手の動きを検出してヘッドセット304および/または空間情報を受信するように構成された別のコンピューティングシステムに報告するように構成され得る位置センサ306Aおよび306Bを保持する。

図 2 では、204 の状況に戻ります。 n 個の関節の空間情報を、事前にトレーニングされた機械学習モデルに渡します。このモデルは、n m 個の関節の空間情報を入力として受け取ります。ここで、m の値は 1 以上です。言い換えれば、前のトレーニング モデルと比較して、この機械学習モデルは受け取る関節空間の情報が少なくなります

####206において、関節オブジェクトの姿勢予測が機械学習モデルからの出力として受信される。予測は少なくともn個の関節の空間情報に基づいており、それらの関節の空間情報は含まれない。つまり、m 個の関節の空間情報が提供されていなくても、機械学習モデルは関節オブジェクトの完全な姿勢を予測できます。

回路図4は、このプロセスを説明するための機械学習モデル400の例を示しています。

Microsoft、AR/VR 身体姿勢キャプチャ向けに多関節オブジェクトの姿勢を予測する特許技術を提案図4では、機械学習モデルは、3つの異なる関節J1、J2、およびJ3に対応する空間情報402を受け取ります。関節の空間情報は、関節に接続された身体部分の位置および/または方向を特定する、またはそれらを導出するために使用できる任意の適切なコンピュータデータの形式をとることができる。

####たとえば、空間情報は、身体部分の位置および方向を直接指定することができ、および/または空間情報は、1つまたは複数の回転軸に対する関節の1つまたは複数の回転を指定することができる。図4では、ユーザの体に重ねられた影付きの円によって示されるように、関節J1、J2、J3は、人間のユーザの頭部関節404Aと2つの手首関節404B/404Cに対応する。

この例では、n 個の関節には人体の頭関節と手首関節に相当する 3 つの関節が含まれています。入力空間情報402に基づいて、機械学習モデルは多関節物体の予測姿勢406を出力する。

さらに、機械学習モデルは、仮想ヒンジによって表される関節に対応する予測された空間情報を出力できます。人間のユーザーは、漫画のようなプロポーションまたは人間以外のプロポーションを持つアバターで表すことができます。例えば、予測された空間情報は、SMPLによって表される関節に対応することができる。

言い換えれば、多関節表現の仮想表現の関節は、多関節オブジェクトの関節と 1:1 の対応関係を持つ必要はありません。したがって、機械学習モデルによって予測される空間情報出力は、多関節オブジェクトの n m 個の関節に直接対応しない関節に関するものである可能性があります。たとえば、仮想表現では、多関節オブジェクトよりも脊椎関節の数が少ない場合があります。

機械学習モデルは、適切な方法でトレーニングできます。一実施形態では、機械学習モデルは、多関節オブジェクトのグラウンドトゥルースラベルを含むトレーニング入力データを使用して事前にトレーニングされていてもよい。

言い換えれば、多関節オブジェクトの関節のトレーニング空間情報を機械学習モデルに提供し、空間情報に対応する多関節オブジェクトの実際の姿勢を指定するグラウンド トゥルース ラベルとしてマークすることができます。

前述したように、機械学習モデルは、n m 個の関節の空間情報を入力として受け取るようにトレーニングできます。これには、最初のトレーニング反復で、すべての n m ジョイントのトレーニング入力データを機械学習モデルに提供することが含まれます。後続の一連のトレーニング反復では、m 個の関節のトレーニング入力データを徐々にマスクすることができます。

たとえば、2 回目のトレーニング反復では、m 個のジョイントのうちの最初のジョイントをマスクできます。この場合、トレーニング データセット内のジョイントの空間情報は、マスクされたジョイントを表す事前定義された値に置き換えられるか、単に省略されます。

例として。 3 回目のトレーニング反復では、m 個のジョイントのうち 2 番目のジョイントをマスクすることができ、m 個のジョイントすべてがマスクされるまで続き、n 個のジョイントの空間情報のみが機械学習モデルに提供されます。

このプロセスは、図 5a ~ 5d に示されています。具体的には、図5Aでは、機械学習モデル400にトレーニング入力データセットが提供される。この実施形態では、トレーニング入力データは、第1の姿勢502Aおよび第2の姿勢502Bを含む多関節オブジェクトの複数の異なる姿勢に対応する空間情報を含む。

図 5A では、機械学習モデルの多関節オブジェクトの n m 個の関節の空間情報を提供します。この人体の簡略化された表現では、関節を表す各円が白い塗りつぶしパターンで表現されています。ただし、図 5B では、コネクタ 504A の円

を表す黒い塗りつぶしパターンで示されているように、504A をシールドしています。

言い換えると、図 5A はトレーニング プロセスの最初の反復を表しており、n m 個の関節すべての空間情報が機械学習モデルに提供されます。図5Bは、訓練プロセスの2回目の繰り返しを示しており、m個の関節のうちの最初の関節504A##がマスクされている。

Microsoft、AR/VR 身体姿勢キャプチャ向けに多関節オブジェクトの姿勢を予測する特許技術を提案 #### 図5Cでは、ヒンジによって表されるm個の関節のうちの第2関節504Bがブロックされている。同様に、図 5D では、m 個の関節のうち 3 番目の関節が閉塞されています。 m 個の関節のそれぞれの空間情報がマスクされ、n 個の関節の空間情報のみが機械学習モデルに提供されるまで、複数のトレーニング反復を続けることができます。

上記のシナリオでは、多関節オブジェクトが人体の全身である状況を説明します。ただし、多関節オブジェクトは他の形式を取ることもできます

Microsoft、AR/VR 身体姿勢キャプチャ向けに多関節オブジェクトの姿勢を予測する特許技術を提案図 7 に示すように、多関節オブジェクトは人間の手であり、人体全体ではありません。具体的には、図7は、機械学習モデル700の例を示す。

####機械学習モデル700は、関節J1、J2、およびJ3に関する空間情報を受け取る。これらは、この例では人間の手706の形態をとる多関節オブジェクトの3つの関節704A〜Cに対応する。

この場合、具体的には、n 個の関節には、人間の手の 1 つ以上の指の関節が含まれます。 1 つまたは複数の指の関節の空間情報は、人間の手の 1 つまたは複数の指または指セグメントのパラメータを詳細に示します。たとえば、空間情報は、手の指の位置/方向、および/または手の関節に適用される回転を指定する場合があります。 #### 位置センサー708などを介して、任意の適切な方法を使用して関節腔情報を収集することができる。たとえば、位置センサーは、手を画像化するように構成されたカメラの形式を取ることができます。別の例として、位置センサーには、手の表面を電磁場にさらし、アンテナでの電磁場インピーダンスに対する導電性人間の皮膚の動きと近接の影響を評価するように構成された適切な無線周波数アンテナが含まれる場合があります。

入力空間情報 702 に従って、機械学習モデルは予測された空間情報のセット 710 を出力します。空間情報710は、多関節物体の予測された姿勢を構築するために使用され得る。前述したように、この空間情報は多関節オブジェクトの身体部分の位置と方向を表すことができます。

関連特許

: Microsoft Patent | 多関節オブジェクトの姿勢予測

マイクロソフトは当初、2022 年 6 月に「多関節オブジェクトのポーズ予測」という特許出願を提出しており、この出願は最近米国特許商標庁によって公開されました。

以上がMicrosoft、AR/VR 身体姿勢キャプチャ向けに多関節オブジェクトの姿勢を予測する特許技術を提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は搜狐で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
1つのプロンプトは、すべての主要なLLMのセーフガードをバイパスできます1つのプロンプトは、すべての主要なLLMのセーフガードをバイパスできますApr 25, 2025 am 11:16 AM

HiddenLayerの画期的な研究は、主要な大規模な言語モデル(LLMS)における重大な脆弱性を明らかにしています。 彼らの発見は、ほぼすべての主要なLLMSを回避できる「政策の人形劇」と呼ばれる普遍的なバイパス技術を明らかにしています

5つの間違いほとんどの企業が今年持続可能性を備えています5つの間違いほとんどの企業が今年持続可能性を備えていますApr 25, 2025 am 11:15 AM

環境責任と廃棄物の削減の推進は、企業の運営方法を根本的に変えています。 この変革は、製品開発、製造プロセス、顧客関係、パートナーの選択、および新しいものの採用に影響します

H20チップバンジョルツチャイナ企業ですが、彼らはインパクトのために長い間支えられてきましたH20チップバンジョルツチャイナ企業ですが、彼らはインパクトのために長い間支えられてきましたApr 25, 2025 am 11:12 AM

高度なAIハードウェアに関する最近の制限は、AI優位のためのエスカレートする地政学的競争を強調し、中国の外国半導体技術への依存を明らかにしています。 2024年、中国は3,850億ドル相当の半導体を大量に輸入しました

OpenaiがChromeを購入すると、AIはブラウザ戦争を支配する場合がありますOpenaiがChromeを購入すると、AIはブラウザ戦争を支配する場合がありますApr 25, 2025 am 11:11 AM

GoogleからのChromeの強制的な売却の可能性は、ハイテク業界での激しい議論に火をつけました。 Openaiが65%の世界市場シェアを誇る大手ブラウザを取得する見込みは、THの将来について重要な疑問を提起します

AIが小売メディアの成長する痛みをどのように解決できるかAIが小売メディアの成長する痛みをどのように解決できるかApr 25, 2025 am 11:10 AM

全体的な広告の成長を上回っているにもかかわらず、小売メディアの成長は減速しています。 この成熟段階は、生態系の断片化、コストの上昇、測定の問題、統合の複雑さなど、課題を提示します。 ただし、人工知能

「aiは私たちであり、それは私たち以上のものです」「aiは私たちであり、それは私たち以上のものです」Apr 25, 2025 am 11:09 AM

古いラジオは、ちらつきと不活性なスクリーンのコレクションの中で静的なパチパチと鳴ります。簡単に不安定になっているこの不安定な電子機器の山は、没入型展示会の6つのインスタレーションの1つである「e-waste land」の核心を形成しています。

Google Cloudは、次の2025年にインフラストラクチャについてより深刻になりますGoogle Cloudは、次の2025年にインフラストラクチャについてより深刻になりますApr 25, 2025 am 11:08 AM

Google Cloudの次の2025年:インフラストラクチャ、接続性、およびAIに焦点を当てています Google Cloudの次の2025年の会議では、多くの進歩を紹介しました。 特定の発表の詳細な分析については、私の記事を参照してください

Baby Ai Meme、Arcanaの550万ドルのAI映画パイプライン、IRの秘密の支援者が明らかにした話Baby Ai Meme、Arcanaの550万ドルのAI映画パイプライン、IRの秘密の支援者が明らかにした話Apr 25, 2025 am 11:07 AM

今週はAIとXR:AIを搭載した創造性の波が、音楽の世代から映画制作まで、メディアとエンターテイメントを席巻しています。 見出しに飛び込みましょう。 AIに生成されたコンテンツの影響力の高まり:テクノロジーコンサルタントのShelly Palme

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター