ホームページ > 記事 > テクノロジー周辺機器 > AR/VR ジェスチャ インタラクションのオブジェクト検出と追跡構成を改善するクアルコムの特許提案
最適化された物体検出と追跡構成
(英伟网Nweon 2024年1月4日) 拡張現実デバイスは、カメラを通じて対象のイベントやオブジェクトを検出、追跡、識別できます。従来の追跡システムは、ユーザーの素手や物体を持つユーザーによって実行されるジェスチャなどのユーザー ジェスチャを正しく検出できない場合があります。
「拡張現実デバイスにおけるオブジェクトの検出と追跡」というタイトルの特許出願で、クアルコムは最適化されたオブジェクトの検出と追跡構成を提案しました。
### 一実施形態では、物体検出および追跡デバイスは、1つまたは複数の光学要素を含むことができ、仮想環境内の1つまたは複数の物体またはユーザの身体部分を検出して、ユーザによって実行された入力ジェスチャを識別することができる。物体検出および追跡デバイスは、カメラの視野内の物体を検出し、その物体が特定のユーザーに対応するものであると判断します。たとえば、物体検出および追跡デバイスは、その物体がユーザーに対応し、入力ジェスチャを提供するために使用されていると判断する場合があります。物体検出および追跡装置は、追加的または代替的に、その物体がユーザに対応しないため、入力ジェスチャを提供するために使用されないと判断することもできる。
####別の実施形態では、物体検出および追跡装置は、物体検出および追跡装置のメモリに格納された命令を実行して、ユーザの固有のシルエットがユーザの物体を検出することに基づいて動作を実行する1つまたは複数のプロセッサを含んでもよい。
たとえば、ユーザーの固有の輪郭には、ユーザーの手、掌紋、手のひらの輪郭、ユーザーの爪のサイズ、ユーザーの爪の形状、オブジェクトの色などを特徴付ける1つまたは複数の形状が含まれる場合があります。物体検出および追跡装置は、ユーザのプロファイルに基づいてユーザからの1つまたは複数の入力ジェスチャを検出するために、ユーザのプロファイルに基づいて物体を追跡するための命令を実行することができる。
### 一実施形態では、物体検出および追跡装置は、1つまたは複数のプロセッサを含むことができ、プロセッサは、1つまたは複数の訓練された機械学習プロセスを実行して、追跡するためのユーザの物体を検出し、1つまたは複数のジェスチャ入力を受信する。####例えば、初期化プロセス中に、ターゲット検出および追跡デバイスは、ターゲット検出および追跡デバイスのカメラまたはセンサによって検出されたオブジェクトを、ユーザのジェスチャ入力を検出するためのオブジェクトとして選択するようにユーザに促してもよい。物体検出および追跡装置は、訓練された機械学習プロセスを選択された物体を特徴付ける画像データに適用して、選択された物体の複数のデータ点および選択された物体の多次元モデルを生成することができる。
さらに、ターゲット検出および追跡デバイスは、トレーニングされた機械学習プロセスをターゲットの多次元モデルに適用して、アクション ポイントを推定できます。一例では、物体検出および追跡装置は、機械学習プロセスが対応するジェスチャの三次元空間内のアクションポイントを反復的に変更できる機械学習プロセスのトレーニングモードを実装することができる。
####例えば、ターゲット検出および追跡装置は、生成されたアクションポイントに基づいてジェスチャを決定し、決定されたジェスチャが正しいかどうかを確認するためにユーザに検証を要求および受信することができる。1 つ以上のプロセッサは、機械学習プロセスをオブジェクトの多次元モデルに適用して、ルックアップ テーブルを生成できます。ルックアップテーブルは、ジェスチャのリストと、ジェスチャ中にオブジェクトが広がる可能性のある3次元空間内の一連の追跡点を含むことができる。追跡ポイントには、3 次元空間内の各追跡ポイントの x、y、および z 座標が含まれる場合があります。
トレーニングプロセスが完了すると、1つまたは複数のプロセッサは、追跡ポイントおよび対応するジェスチャの値およびシーケンスを、ルックアップテーブルとして物体検出および追跡デバイスの記憶装置に保存することができる。オブジェクトに対応するルックアップテーブルにより、1つまたは複数のプロセッサが、オブジェクトの動きを追跡しながら、オブジェクトによって行われたジェスチャを検出および認識できるようにすることができる。
### 図1は、例示的な目標検出および追跡装置100のブロック図である。図1の実施形態に示されるように、ターゲット検出および追跡デバイス100は、イメージセンサ112Aなどの1つまたは複数のイメージセンサ112、レンズ113A、およびカメラプロセッサ114などの1つまたは複数のカメラプロセッサを含み得る。
#### 物体検出および追跡装置100は、中央処理装置116、エンコーダ/デコーダ117、グラフィックス処理装置118、GPU118のローカルメモリ120、ユーザインターフェース122、システムメモリ130および命令メモリ132。メモリコントローラ124およびディスプレイインターフェース126にアクセスされる。
#### 物体検出および追跡装置100は、ユーザインターフェース122を介してユーザ入力を受信することができ、受信したユーザ入力に応答して、CPU116および/またはカメラプロセッサ114は、CPU116および/またはカメラプロセッサ114に対応するレンズを作動させることができる。 。例えば、受信されたユーザ入力は、レンズ113Aによって見られる物体/手が、入力ジェスチャに関して追跡されるべきユーザの物体/手であるという確認に対応し得る。
図 2A は、XR システムの追跡範囲を示しています。図2Aには、視野204を有するユーザ202が含まれている。図2Aに示すように、ユーザ202の視野204は、120度の角度広がりを有し得る。視野204は、VR、AR、またはXRシステムがユーザ入力ジェスチャ202を追跡できる領域であり得る。
####たとえば、VR、AR、またはXRシステムは、視野204内の物体、すなわちユーザの手を追跡することができる。視野204は、ユーザからの第1の半径からユーザからの第2の半径まで広がることができる。図2Aに示すように、視野204は、ユーザ202の目から半径約10センチメートルからユーザから半径60〜80センチメートルまで広がることができる。#### 図2Aは、視野204内にユーザ202の手を示しているが、異なるユーザの複数の手が視野204内に現れ得る。 VR、AR、またはXRシステムは、視野204に挿入された手を検出し、各手が対応するユーザに関連付けられているかどうかを判断し、対応するユーザに関連付けられた手を追跡することができる。たとえば、VR、AR、または XR システムは、各ユーザーからの入力ジェスチャを検出できます。
### 図2Bは、ターゲットの検出および追跡を初期化するための配置領域206を有するユーザの視野204を示す。図2Bは、視野204を有するユーザ202と、視野204内の配置エリア206を含む。 ### 一実施形態では、物体検出および追跡プロセスの初期化中に、物体検出および追跡装置100は、仮想環境内の配置領域206のハイライトを生成し、ユーザ202に表示することができる。
#### 例えば、CPU116は、検出ユニット132Aに格納された命令を実行して、ユーザ202にオブジェクトを配置領域206に挿入する要求を生成することができる。表示ユニット208は、配置領域206を強調表示させることができる。初期化の際、物体検出及び追跡装置100は、配置領域206内に存在する物体を、ユーザ202からの入力ジェスチャを認識するために追跡されるべきユーザ202の物体として検出することができる。#### 図3は、図1の物体検出および追跡装置100を使用したXRシステムの追跡範囲への物体の挿入を示す図である。図3は、配置領域308を含み、ユーザ202の手310を配置領域308に挿入する挿入角度および方向がユーザ202に対して強調表示されている。図3の装置は、配置領域308の境界304および306によって囲まれた配置領域308を投影することができる投影装置302を含む。
#### 投影装置302は、物体検出および追跡装置100による検出のために、ユーザが配置領域308に手310を挿入できる角度をユーザに強調表示することができる。一例では、投影装置302は、配置領域308への挿入方向を特定し、手310を検出する画像を仮想環境内に生成して表示することができる。### 一実施形態において、ターゲット検出追跡装置100は、手310の挿入角度が所定の範囲内であるか否かを判断し、その判断に基づいて手310をユーザの手として識別する輪郭データを生成してもよい。例えば、所定の範囲は、ユーザ202の視野に基づく角度値の範囲であってもよい。
####ターゲット検出追跡装置100は、ハンド310の検出挿入角度が所定値範囲内であると判断した場合、ハンド310をユーザの追跡対象として登録することができる。同様に、物体検出および追跡装置100は、配置領域308への挿入方向が適切な方向であると判断することができる(また、物体検出および追跡装置100は、ユーザの追跡対象物体として手310を登録することができる)。 ## ###別の例として、物体検出追跡装置100は、手310の挿入角度が所定の数値範囲内にないと判断し、手310をユーザと関連付けなくてもよい。同様に、物体検出および追跡装置100は、配置領域308への挿入方向が適切な方向ではないと判断することがあり、手310をユーザに関連付けないことがある。####このように、物体検出追跡装置100は、手310を追跡対象として登録しなくてもよい。一実施形態では、物体検出および追跡装置100は、提案された角度および/または方向で手310を再入力するようにユーザ202に要求することができる。 #### たとえば、物体検出および追跡装置100は、配置領域308内またはその近くの投影を通じて視覚的な手がかりを提供して、挿入角度および/または挿入方向をユーザ202に示し、ユーザ202は挿入角度および/または挿入方向を伝えることができる。方向は手310を挿入し、それによって、XRシステムを介して手310をユーザ202の手として首尾よく登録する。
図 4 は、手を識別するために使用されるマーキング手法を示しています。図4は手402および404を含み、そのそれぞれは複数のランドマーク406および408を含む。物体検出および追跡装置100は、ランドマーク406および408に基づいて、本明細書に記載されるようにユーザ202の手を一意に識別し得る。
####たとえば、各ランドマーク406および408は、それぞれ、ユーザ202の手402および404の形状を一意に記述する点のセットであり得る。物体検出および追跡装置100は、手の線画に基づいて手402および404を検出および識別することができる。
#### 目標検出および追跡装置100は、ランドマーク406および408を、目標検出および追跡装置100のメモリに記憶された点のセットと比較することができる。一致の検出に成功した後、物体検出および追跡装置100は、配置領域に挿入された手がユーザ202の手であると判断し、検出された物体をユーザ202の物体として登録し、それによって、ユーザ202からの入力ジェスチャを追跡および受信することができる。ユーザー202。
図 5A は、手を一意に識別するために使用できる手のひらの線を示しています。図5Aに示すように、図5Aは掌紋506(1行目から7行目)を含む。物体検出および追跡装置100は、掌線506を特徴付けるデータと、掌線を特徴付ける物体検出装置のメモリに格納された別のデータセットとを比較することに基づいて、図5Aに示される特徴を有する物体を一意に識別し、検出することができる。追跡装置100 手の掌の線。
####マッチが成功したと判定した後、ターゲット検出および追跡装置100は、配置領域308に挿入された手をユーザ202の手として判定し、ジェスチャを判定するなど、手の動きを追跡することができる。ユーザー202の。物体検出および追跡装置100は、一致の成功を決定するために上述のように掌線506を利用することに限定されない。
### 一実施形態では、物体検出および追跡装置100は、手を一意に識別するために、手のひらの輪郭、手の形状、爪のサイズ、爪の形状、手の色など、ユーザ202の手の他の固有の特徴を利用することができる。はユーザー 202 の手です。検出されると、物体検出および追跡デバイス100は、手をXRシステムのユーザ202のものとして登録する輪郭データを生成することができる。物体検出および追跡装置100は、輪郭データに基づいてユーザ202から入力ジェスチャを受信するために手の動きを追跡することができる。図 5B は、手を一意に識別するために使用できる手のひらの輪郭マップを示しています。図5Bは、図5Bに示すような手のひら輪郭画像データ504を含む。手のひらプロファイル画像データ504は、物体検出および追跡装置100のカメラ115によって捕捉された画像に基づくものとすることができる。物体検出および追跡装置100は、手のひら輪郭画像データ504によって表される手のひら輪郭を有する手を一意に識別し、検出することができる。
####たとえば、ターゲット検出および追跡装置100は、手のひらプロファイル画像データ504を、ターゲット検出および追跡装置100のメモリに記憶された手のひらプロファイルデータと比較して、手のひらプロファイルが一致するかどうかを判定することができる。
### 一実施形態では、システムメモリ132は、複数のユーザの手のひらプロファイルデータを格納する。手のひらの輪郭データは、画像に取り込まれた手の輪郭に沿った複数のピクセル位置を識別し、特徴付けることができます。物体検出および追跡装置100は、ユーザの手のひらプロファイルデータが手のひらプロファイル画像データ504のプロファイルと一致するかどうかを判定してユーザを識別するための動作を実行することができる。####マッチが成功したことを決定した後、ターゲット検出および追跡デバイス100は、配置領域308に挿入された手をユーザ202の手として決定することができ、手のジェスチャをユーザ202の入力ジェスチャとして検出および追跡することができる。ユーザー202。
図 6 は、XR システムの追跡テクノロジーを示しています。図6には、視野604を有するユーザ602が含まれている。ユーザ602の視野604は、図6に示すように120度など、数度の角度範囲を有し得る。通常、視野604は、VR、AR、またはXRシステムがユーザ602の入力ジェスチャを追跡できる実環境内の領域であり得る。
#### 図6に示すように、視野604は、ユーザ602の目から約10cmの半径からユーザから60〜80cmの範囲内の半径まで広がることができる。
図 7 は、手の 20 個の異なる点を使用した手の追跡図を示しています。その中で、20 個のポイントのそれぞれが、共通の手上の特定の位置によって説明されています。ただし、ユーザーの手の形状が不規則である場合 (指が 5 本ではなく 4 本である場合、またはユーザーが手に覆いをしている場合)、図 7A に示す 20 個の点のそれぞれが存在しないか、識別できない場合があります。
####例えば、図8Aは、被覆物を装着した手を示す模式図である。図8Aは、手を覆うミトンを備えた手802と、手802の形状を表す輪郭804を含む。
図7と比較すると、ユーザーの手を認識および検出するために使用される20点モデルは、入力ジェスチャを認識するために使用される手802の動きを検出または追跡するために使用できない可能性があります。これは、少なくとも手802が動作できないためです。 20点すべてにマッピングされるか、または20点技術を使用して手802を検出および追跡するのに十分な数の点にマッピングされる。図8Bは、不規則な形状を有する手を示す模式図である。図8Bは、不規則な形状(例えば、中指が欠けている)を有する手806、手806の形状を表す輪郭808を含む。図7とは対照的に、ユーザーの手を識別および検出するために使用される20点モデルは、少なくとも手802がマッピングされていない可能性があるため、入力ジェスチャを認識するために使用される手806の動きを検出または追跡するために使用することはできない可能性がある。 20点すべてにマッピングするか、20点技術を使用して手802を検出および追跡するのに十分な数の点にマッピングする。
### しかし、図9に示される初期化起動技術により、物体検出および追跡装置100が物体の予期せぬ形状およびサイズを検出できる可能性がある。
具体的には、図 9 は、予期せぬ形状または不規則な形状を持つ手を追跡するためのハンド トラッキング技術を示しています。図9は、輪郭線904を有する手902を含む。覆われた手(または不規則な形状の手)を検出した後、物体検出および追跡装置100は、手902の画像に基づいて、手902に関する複数のデータポイント906を生成することができる。 ### 物体検出および追跡装置100は、複数のデータ点906に基づいて手902の多次元モデルを生成することができる。例えば、物体検出および追跡装置100は、XRシステムのハイブリッド環境の実環境において手902の1つまたは複数の画像を取り込み、3次元空間にデータ点906をプロットして、多次元モデルを生成することができる。手902の。
####多次元モデルは、手902の3Dモデルであってもよい。物体検出および追跡装置100は、手902の多次元モデルおよび検出されたジェスチャに基づいて複数のアクションポイントを生成することもできる。物体検出および追跡装置100は、複数の追跡点をさらに決定することができる。
####追跡点は、ジェスチャを行うときに手902がまたがると予想される3次元空間内の点であってもよく、追跡点は手902に特有のルックアップテーブルに格納されてもよい。ルックアップテーブル内の追跡ポイントの各シーケンスは、ジェスチャに対応し得る。手902が三次元空間内で移動するとき、物体検出および追跡装置100は、ルックアップテーブルを使用して手902のジェスチャを決定することができる。
関連特許
: クアルコム特許 | 拡張現実デバイスにおける物体の検出と追跡https://patent.nweon.com/32609
「拡張現実デバイスにおけるオブジェクト検出と追跡」というタイトルのクアルコム特許出願は、もともと 2022 年 6 月に提出され、最近米国特許商標庁によって公開されました。一般的に、米国特許出願は審査後、出願日または優先日から 18 か月後に自動的に公開されるか、または要求に応じて出願日から 18 か月以内に公開されることに注意してください。申請者の。特許出願の公開は、特許が承認されることを意味するものではないことに注意してください。特許出願後、USPTO は実際の審査を必要とし、審査には 1 ~ 3 年かかる場合があります。
また、これはあくまで特許出願であり、必ず承認されるわけではなく、実際に商品化されるかどうか、実際の出願効果は不明です。
---
元のリンク: https://news.nweon.com/116552
以上がAR/VR ジェスチャ インタラクションのオブジェクト検出と追跡構成を改善するクアルコムの特許提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。