AR/VR ジェスチャインタラクションのオブジェクト検出と追跡構成を改善するクアルコムの特許提案-AI-php.cn

ホームページ

テクノロジー周辺機器

AR/VR ジェスチャインタラクションのオブジェクト検出と追跡構成を改善するクアルコムの特許提案

PHPz

Jan 05, 2024 pm 12:38 PM

最適化された物体検出と追跡構成

（英伟网Nweon 2024年1月4日）拡張現実デバイスは、カメラを通じて対象のイベントやオブジェクトを検出、追跡、識別できます。従来の追跡システムは、ユーザーの素手や物体を持つユーザーによって実行されるジェスチャなどのユーザージェスチャを正しく検出できない場合があります。

「拡張現実デバイスにおけるオブジェクトの検出と追跡」というタイトルの特許出願で、クアルコムは最適化されたオブジェクトの検出と追跡構成を提案しました。

＃＃＃一実施形態では、物体検出および追跡デバイスは、１つまたは複数の光学要素を含むことができ、仮想環境内の１つまたは複数の物体またはユーザの身体部分を検出して、ユーザによって実行された入力ジェスチャを識別することができる。物体検出および追跡デバイスは、カメラの視野内の物体を検出し、その物体が特定のユーザーに対応するものであると判断します。

たとえば、物体検出および追跡デバイスは、その物体がユーザーに対応し、入力ジェスチャを提供するために使用されていると判断する場合があります。物体検出および追跡装置は、追加的または代替的に、その物体がユーザに対応しないため、入力ジェスチャを提供するために使用されないと判断することもできる。

＃＃＃＃別の実施形態では、物体検出および追跡装置は、物体検出および追跡装置のメモリに格納された命令を実行して、ユーザの固有のシルエットがユーザの物体を検出することに基づいて動作を実行する１つまたは複数のプロセッサを含んでもよい。

たとえば、ユーザーの固有の輪郭には、ユーザーの手、掌紋、手のひらの輪郭、ユーザーの爪のサイズ、ユーザーの爪の形状、オブジェクトの色などを特徴付ける1つまたは複数の形状が含まれる場合があります。物体検出および追跡装置は、ユーザのプロファイルに基づいてユーザからの１つまたは複数の入力ジェスチャを検出するために、ユーザのプロファイルに基づいて物体を追跡するための命令を実行することができる。

＃＃＃一実施形態では、物体検出および追跡装置は、１つまたは複数のプロセッサを含むことができ、プロセッサは、１つまたは複数の訓練された機械学習プロセスを実行して、追跡するためのユーザの物体を検出し、１つまたは複数のジェスチャ入力を受信する。

＃＃＃＃例えば、初期化プロセス中に、ターゲット検出および追跡デバイスは、ターゲット検出および追跡デバイスのカメラまたはセンサによって検出されたオブジェクトを、ユーザのジェスチャ入力を検出するためのオブジェクトとして選択するようにユーザに促してもよい。物体検出および追跡装置は、訓練された機械学習プロセスを選択された物体を特徴付ける画像データに適用して、選択された物体の複数のデータ点および選択された物体の多次元モデルを生成することができる。

さらに、ターゲット検出および追跡デバイスは、トレーニングされた機械学習プロセスをターゲットの多次元モデルに適用して、アクションポイントを推定できます。一例では、物体検出および追跡装置は、機械学習プロセスが対応するジェスチャの三次元空間内のアクションポイントを反復的に変更できる機械学習プロセスのトレーニングモードを実装することができる。

＃＃＃＃例えば、ターゲット検出および追跡装置は、生成されたアクションポイントに基づいてジェスチャを決定し、決定されたジェスチャが正しいかどうかを確認するためにユーザに検証を要求および受信することができる。

1 つ以上のプロセッサは、機械学習プロセスをオブジェクトの多次元モデルに適用して、ルックアップテーブルを生成できます。ルックアップテーブルは、ジェスチャのリストと、ジェスチャ中にオブジェクトが広がる可能性のある３次元空間内の一連の追跡点を含むことができる。追跡ポイントには、3 次元空間内の各追跡ポイントの x、y、および z 座標が含まれる場合があります。

トレーニングプロセスが完了すると、1つまたは複数のプロセッサは、追跡ポイントおよび対応するジェスチャの値およびシーケンスを、ルックアップテーブルとして物体検出および追跡デバイスの記憶装置に保存することができる。オブジェクトに対応するルックアップテーブルにより、１つまたは複数のプロセッサが、オブジェクトの動きを追跡しながら、オブジェクトによって行われたジェスチャを検出および認識できるようにすることができる。

＃＃＃図１は、例示的な目標検出および追跡装置１００のブロック図である。図１の実施形態に示されるように、ターゲット検出および追跡デバイス１００は、イメージセンサ１１２Ａなどの１つまたは複数のイメージセンサ１１２、レンズ１１３Ａ、およびカメラプロセッサ１１４などの１つまたは複数のカメラプロセッサを含み得る。

＃＃＃＃物体検出および追跡装置１００は、中央処理装置１１６、エンコーダ／デコーダ１１７、グラフィックス処理装置１１８、ＧＰＵ１１８のローカルメモリ１２０、ユーザインターフェース１２２、システムメモリ１３０および命令メモリ１３２。メモリコントローラ１２４およびディスプレイインターフェース１２６にアクセスされる。

＃＃＃＃物体検出および追跡装置１００は、ユーザインターフェース１２２を介してユーザ入力を受信することができ、受信したユーザ入力に応答して、ＣＰＵ１１６および／またはカメラプロセッサ１１４は、ＣＰＵ１１６および／またはカメラプロセッサ１１４に対応するレンズを作動させることができる。。例えば、受信されたユーザ入力は、レンズ１１３Ａによって見られる物体／手が、入力ジェスチャに関して追跡されるべきユーザの物体／手であるという確認に対応し得る。

AR/VR ジェスチャインタラクションのオブジェクト検出と追跡構成を改善するクアルコムの特許提案

図 2A は、XR システムの追跡範囲を示しています。図２Ａには、視野２０４を有するユーザ２０２が含まれている。図２Ａに示すように、ユーザ２０２の視野２０４は、１２０度の角度広がりを有し得る。視野２０４は、ＶＲ、ＡＲ、またはＸＲシステムがユーザ入力ジェスチャ２０２を追跡できる領域であり得る。

＃＃＃＃たとえば、ＶＲ、ＡＲ、またはＸＲシステムは、視野２０４内の物体、すなわちユーザの手を追跡することができる。視野２０４は、ユーザからの第１の半径からユーザからの第２の半径まで広がることができる。図２Ａに示すように、視野２０４は、ユーザ２０２の目から半径約１０センチメートルからユーザから半径６０〜８０センチメートルまで広がることができる。

＃＃＃＃図２Ａは、視野２０４内にユーザ２０２の手を示しているが、異なるユーザの複数の手が視野２０４内に現れ得る。ＶＲ、ＡＲ、またはＸＲシステムは、視野２０４に挿入された手を検出し、各手が対応するユーザに関連付けられているかどうかを判断し、対応するユーザに関連付けられた手を追跡することができる。たとえば、VR、AR、または XR システムは、各ユーザーからの入力ジェスチャを検出できます。

＃＃＃図２Ｂは、ターゲットの検出および追跡を初期化するための配置領域２０６を有するユーザの視野２０４を示す。図２Ｂは、視野２０４を有するユーザ２０２と、視野２０４内の配置エリア２０６を含む。 AR/VR ジェスチャインタラクションのオブジェクト検出と追跡構成を改善するクアルコムの特許提案＃＃＃一実施形態では、物体検出および追跡プロセスの初期化中に、物体検出および追跡装置１００は、仮想環境内の配置領域２０６のハイライトを生成し、ユーザ２０２に表示することができる。

＃＃＃＃例えば、ＣＰＵ１１６は、検出ユニット１３２Ａに格納された命令を実行して、ユーザ２０２にオブジェクトを配置領域２０６に挿入する要求を生成することができる。表示ユニット２０８は、配置領域２０６を強調表示させることができる。初期化の際、物体検出及び追跡装置１００は、配置領域２０６内に存在する物体を、ユーザ２０２からの入力ジェスチャを認識するために追跡されるべきユーザ２０２の物体として検出することができる。

＃＃＃＃図３は、図１の物体検出および追跡装置１００を使用したＸＲシステムの追跡範囲への物体の挿入を示す図である。図３は、配置領域３０８を含み、ユーザ２０２の手３１０を配置領域３０８に挿入する挿入角度および方向がユーザ２０２に対して強調表示されている。図３の装置は、配置領域３０８の境界３０４および３０６によって囲まれた配置領域３０８を投影することができる投影装置３０２を含む。

＃＃＃＃投影装置３０２は、物体検出および追跡装置１００による検出のために、ユーザが配置領域３０８に手３１０を挿入できる角度をユーザに強調表示することができる。一例では、投影装置３０２は、配置領域３０８への挿入方向を特定し、手３１０を検出する画像を仮想環境内に生成して表示することができる。

＃＃＃一実施形態において、ターゲット検出追跡装置１００は、手３１０の挿入角度が所定の範囲内であるか否かを判断し、その判断に基づいて手３１０をユーザの手として識別する輪郭データを生成してもよい。例えば、所定の範囲は、ユーザ２０２の視野に基づく角度値の範囲であってもよい。

＃＃＃＃ターゲット検出追跡装置１００は、ハンド３１０の検出挿入角度が所定値範囲内であると判断した場合、ハンド３１０をユーザの追跡対象として登録することができる。同様に、物体検出および追跡装置１００は、配置領域３０８への挿入方向が適切な方向であると判断することができる（また、物体検出および追跡装置１００は、ユーザの追跡対象物体として手３１０を登録することができる）。 ## ＃＃＃別の例として、物体検出追跡装置１００は、手３１０の挿入角度が所定の数値範囲内にないと判断し、手３１０をユーザと関連付けなくてもよい。同様に、物体検出および追跡装置１００は、配置領域３０８への挿入方向が適切な方向ではないと判断することがあり、手３１０をユーザに関連付けないことがある。

＃＃＃＃このように、物体検出追跡装置１００は、手３１０を追跡対象として登録しなくてもよい。一実施形態では、物体検出および追跡装置１００は、提案された角度および／または方向で手３１０を再入力するようにユーザ２０２に要求することができる。 AR/VR ジェスチャインタラクションのオブジェクト検出と追跡構成を改善するクアルコムの特許提案＃＃＃＃たとえば、物体検出および追跡装置１００は、配置領域３０８内またはその近くの投影を通じて視覚的な手がかりを提供して、挿入角度および／または挿入方向をユーザ２０２に示し、ユーザ２０２は挿入角度および／または挿入方向を伝えることができる。方向は手３１０を挿入し、それによって、ＸＲシステムを介して手３１０をユーザ２０２の手として首尾よく登録する。

図 4 は、手を識別するために使用されるマーキング手法を示しています。図４は手４０２および４０４を含み、そのそれぞれは複数のランドマーク４０６および４０８を含む。物体検出および追跡装置１００は、ランドマーク４０６および４０８に基づいて、本明細書に記載されるようにユーザ２０２の手を一意に識別し得る。

＃＃＃＃たとえば、各ランドマーク４０６および４０８は、それぞれ、ユーザ２０２の手４０２および４０４の形状を一意に記述する点のセットであり得る。物体検出および追跡装置１００は、手の線画に基づいて手４０２および４０４を検出および識別することができる。

＃＃＃＃目標検出および追跡装置１００は、ランドマーク４０６および４０８を、目標検出および追跡装置１００のメモリに記憶された点のセットと比較することができる。一致の検出に成功した後、物体検出および追跡装置１００は、配置領域に挿入された手がユーザ２０２の手であると判断し、検出された物体をユーザ２０２の物体として登録し、それによって、ユーザ２０２からの入力ジェスチャを追跡および受信することができる。ユーザー２０２。

AR/VR ジェスチャインタラクションのオブジェクト検出と追跡構成を改善するクアルコムの特許提案

図 5A は、手を一意に識別するために使用できる手のひらの線を示しています。図５Ａに示すように、図５Ａは掌紋５０６（１行目から７行目）を含む。物体検出および追跡装置１００は、掌線５０６を特徴付けるデータと、掌線を特徴付ける物体検出装置のメモリに格納された別のデータセットとを比較することに基づいて、図５Ａに示される特徴を有する物体を一意に識別し、検出することができる。追跡装置１００手の掌の線。

＃＃＃＃マッチが成功したと判定した後、ターゲット検出および追跡装置１００は、配置領域３０８に挿入された手をユーザ２０２の手として判定し、ジェスチャを判定するなど、手の動きを追跡することができる。ユーザー202の。物体検出および追跡装置１００は、一致の成功を決定するために上述のように掌線５０６を利用することに限定されない。

＃＃＃一実施形態では、物体検出および追跡装置１００は、手を一意に識別するために、手のひらの輪郭、手の形状、爪のサイズ、爪の形状、手の色など、ユーザ２０２の手の他の固有の特徴を利用することができる。はユーザー 202 の手です。検出されると、物体検出および追跡デバイス１００は、手をＸＲシステムのユーザ２０２のものとして登録する輪郭データを生成することができる。物体検出および追跡装置１００は、輪郭データに基づいてユーザ２０２から入力ジェスチャを受信するために手の動きを追跡することができる。

図 5B は、手を一意に識別するために使用できる手のひらの輪郭マップを示しています。図５Ｂは、図５Ｂに示すような手のひら輪郭画像データ５０４を含む。手のひらプロファイル画像データ５０４は、物体検出および追跡装置１００のカメラ１１５によって捕捉された画像に基づくものとすることができる。物体検出および追跡装置１００は、手のひら輪郭画像データ５０４によって表される手のひら輪郭を有する手を一意に識別し、検出することができる。

＃＃＃＃たとえば、ターゲット検出および追跡装置１００は、手のひらプロファイル画像データ５０４を、ターゲット検出および追跡装置１００のメモリに記憶された手のひらプロファイルデータと比較して、手のひらプロファイルが一致するかどうかを判定することができる。

＃＃＃一実施形態では、システムメモリ１３２は、複数のユーザの手のひらプロファイルデータを格納する。手のひらの輪郭データは、画像に取り込まれた手の輪郭に沿った複数のピクセル位置を識別し、特徴付けることができます。物体検出および追跡装置１００は、ユーザの手のひらプロファイルデータが手のひらプロファイル画像データ５０４のプロファイルと一致するかどうかを判定してユーザを識別するための動作を実行することができる。

＃＃＃＃マッチが成功したことを決定した後、ターゲット検出および追跡デバイス１００は、配置領域３０８に挿入された手をユーザ２０２の手として決定することができ、手のジェスチャをユーザ２０２の入力ジェスチャとして検出および追跡することができる。ユーザー202。

図 6 は、XR システムの追跡テクノロジーを示しています。図６には、視野６０４を有するユーザ６０２が含まれている。ユーザ６０２の視野６０４は、図６に示すように１２０度など、数度の角度範囲を有し得る。通常、視野６０４は、ＶＲ、ＡＲ、またはＸＲシステムがユーザ６０２の入力ジェスチャを追跡できる実環境内の領域であり得る。

＃＃＃＃図６に示すように、視野６０４は、ユーザ６０２の目から約１０ｃｍの半径からユーザから６０〜８０ｃｍの範囲内の半径まで広がることができる。

AR/VR ジェスチャインタラクションのオブジェクト検出と追跡構成を改善するクアルコムの特許提案

図 7 は、手の 20 個の異なる点を使用した手の追跡図を示しています。その中で、20 個のポイントのそれぞれが、共通の手上の特定の位置によって説明されています。ただし、ユーザーの手の形状が不規則である場合 (指が 5 本ではなく 4 本である場合、またはユーザーが手に覆いをしている場合)、図 7A に示す 20 個の点のそれぞれが存在しないか、識別できない場合があります。

＃＃＃＃例えば、図８Ａは、被覆物を装着した手を示す模式図である。図８Ａは、手を覆うミトンを備えた手８０２と、手８０２の形状を表す輪郭８０４を含む。 AR/VR ジェスチャインタラクションのオブジェクト検出と追跡構成を改善するクアルコムの特許提案

図7と比較すると、ユーザーの手を認識および検出するために使用される20点モデルは、入力ジェスチャを認識するために使用される手802の動きを検出または追跡するために使用できない可能性があります。これは、少なくとも手802が動作できないためです。２０点すべてにマッピングされるか、または２０点技術を使用して手８０２を検出および追跡するのに十分な数の点にマッピングされる。

図８Ｂは、不規則な形状を有する手を示す模式図である。図８Ｂは、不規則な形状（例えば、中指が欠けている）を有する手８０６、手８０６の形状を表す輪郭８０８を含む。図７とは対照的に、ユーザーの手を識別および検出するために使用される２０点モデルは、少なくとも手８０２がマッピングされていない可能性があるため、入力ジェスチャを認識するために使用される手８０６の動きを検出または追跡するために使用することはできない可能性がある。２０点すべてにマッピングするか、２０点技術を使用して手８０２を検出および追跡するのに十分な数の点にマッピングする。

AR/VR ジェスチャインタラクションのオブジェクト検出と追跡構成を改善するクアルコムの特許提案

＃＃＃しかし、図９に示される初期化起動技術により、物体検出および追跡装置１００が物体の予期せぬ形状およびサイズを検出できる可能性がある。

具体的には、図 9 は、予期せぬ形状または不規則な形状を持つ手を追跡するためのハンドトラッキング技術を示しています。図９は、輪郭線９０４を有する手９０２を含む。覆われた手（または不規則な形状の手）を検出した後、物体検出および追跡装置１００は、手９０２の画像に基づいて、手９０２に関する複数のデータポイント９０６を生成することができる。＃＃＃物体検出および追跡装置１００は、複数のデータ点９０６に基づいて手９０２の多次元モデルを生成することができる。例えば、物体検出および追跡装置１００は、ＸＲシステムのハイブリッド環境の実環境において手９０２の１つまたは複数の画像を取り込み、３次元空間にデータ点９０６をプロットして、多次元モデルを生成することができる。手９０２の。

＃＃＃＃多次元モデルは、手９０２の３Ｄモデルであってもよい。物体検出および追跡装置１００は、手９０２の多次元モデルおよび検出されたジェスチャに基づいて複数のアクションポイントを生成することもできる。物体検出および追跡装置１００は、複数の追跡点をさらに決定することができる。

＃＃＃＃追跡点は、ジェスチャを行うときに手９０２がまたがると予想される３次元空間内の点であってもよく、追跡点は手９０２に特有のルックアップテーブルに格納されてもよい。ルックアップテーブル内の追跡ポイントの各シーケンスは、ジェスチャに対応し得る。手９０２が三次元空間内で移動するとき、物体検出および追跡装置１００は、ルックアップテーブルを使用して手９０２のジェスチャを決定することができる。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。