最適化された物体検出と追跡構成
(英伟网Nweon 2024年1月4日) 拡張現実デバイスは、カメラを通じて対象のイベントやオブジェクトを検出、追跡、識別できます。従来の追跡システムは、ユーザーの素手や物体を持つユーザーによって実行されるジェスチャなどのユーザー ジェスチャを正しく検出できない場合があります。
「拡張現実デバイスにおけるオブジェクトの検出と追跡」というタイトルの特許出願で、クアルコムは最適化されたオブジェクトの検出と追跡構成を提案しました。
### 一実施形態では、物体検出および追跡デバイスは、1つまたは複数の光学要素を含むことができ、仮想環境内の1つまたは複数の物体またはユーザの身体部分を検出して、ユーザによって実行された入力ジェスチャを識別することができる。物体検出および追跡デバイスは、カメラの視野内の物体を検出し、その物体が特定のユーザーに対応するものであると判断します。たとえば、物体検出および追跡デバイスは、その物体がユーザーに対応し、入力ジェスチャを提供するために使用されていると判断する場合があります。物体検出および追跡装置は、追加的または代替的に、その物体がユーザに対応しないため、入力ジェスチャを提供するために使用されないと判断することもできる。
####別の実施形態では、物体検出および追跡装置は、物体検出および追跡装置のメモリに格納された命令を実行して、ユーザの固有のシルエットがユーザの物体を検出することに基づいて動作を実行する1つまたは複数のプロセッサを含んでもよい。
たとえば、ユーザーの固有の輪郭には、ユーザーの手、掌紋、手のひらの輪郭、ユーザーの爪のサイズ、ユーザーの爪の形状、オブジェクトの色などを特徴付ける1つまたは複数の形状が含まれる場合があります。物体検出および追跡装置は、ユーザのプロファイルに基づいてユーザからの1つまたは複数の入力ジェスチャを検出するために、ユーザのプロファイルに基づいて物体を追跡するための命令を実行することができる。
### 一実施形態では、物体検出および追跡装置は、1つまたは複数のプロセッサを含むことができ、プロセッサは、1つまたは複数の訓練された機械学習プロセスを実行して、追跡するためのユーザの物体を検出し、1つまたは複数のジェスチャ入力を受信する。####例えば、初期化プロセス中に、ターゲット検出および追跡デバイスは、ターゲット検出および追跡デバイスのカメラまたはセンサによって検出されたオブジェクトを、ユーザのジェスチャ入力を検出するためのオブジェクトとして選択するようにユーザに促してもよい。物体検出および追跡装置は、訓練された機械学習プロセスを選択された物体を特徴付ける画像データに適用して、選択された物体の複数のデータ点および選択された物体の多次元モデルを生成することができる。
さらに、ターゲット検出および追跡デバイスは、トレーニングされた機械学習プロセスをターゲットの多次元モデルに適用して、アクション ポイントを推定できます。一例では、物体検出および追跡装置は、機械学習プロセスが対応するジェスチャの三次元空間内のアクションポイントを反復的に変更できる機械学習プロセスのトレーニングモードを実装することができる。
####例えば、ターゲット検出および追跡装置は、生成されたアクションポイントに基づいてジェスチャを決定し、決定されたジェスチャが正しいかどうかを確認するためにユーザに検証を要求および受信することができる。1 つ以上のプロセッサは、機械学習プロセスをオブジェクトの多次元モデルに適用して、ルックアップ テーブルを生成できます。ルックアップテーブルは、ジェスチャのリストと、ジェスチャ中にオブジェクトが広がる可能性のある3次元空間内の一連の追跡点を含むことができる。追跡ポイントには、3 次元空間内の各追跡ポイントの x、y、および z 座標が含まれる場合があります。
トレーニングプロセスが完了すると、1つまたは複数のプロセッサは、追跡ポイントおよび対応するジェスチャの値およびシーケンスを、ルックアップテーブルとして物体検出および追跡デバイスの記憶装置に保存することができる。オブジェクトに対応するルックアップテーブルにより、1つまたは複数のプロセッサが、オブジェクトの動きを追跡しながら、オブジェクトによって行われたジェスチャを検出および認識できるようにすることができる。
### 図1は、例示的な目標検出および追跡装置100のブロック図である。図1の実施形態に示されるように、ターゲット検出および追跡デバイス100は、イメージセンサ112Aなどの1つまたは複数のイメージセンサ112、レンズ113A、およびカメラプロセッサ114などの1つまたは複数のカメラプロセッサを含み得る。
#### 物体検出および追跡装置100は、中央処理装置116、エンコーダ/デコーダ117、グラフィックス処理装置118、GPU118のローカルメモリ120、ユーザインターフェース122、システムメモリ130および命令メモリ132。メモリコントローラ124およびディスプレイインターフェース126にアクセスされる。
#### 物体検出および追跡装置100は、ユーザインターフェース122を介してユーザ入力を受信することができ、受信したユーザ入力に応答して、CPU116および/またはカメラプロセッサ114は、CPU116および/またはカメラプロセッサ114に対応するレンズを作動させることができる。 。例えば、受信されたユーザ入力は、レンズ113Aによって見られる物体/手が、入力ジェスチャに関して追跡されるべきユーザの物体/手であるという確認に対応し得る。
図 2A は、XR システムの追跡範囲を示しています。図2Aには、視野204を有するユーザ202が含まれている。図2Aに示すように、ユーザ202の視野204は、120度の角度広がりを有し得る。視野204は、VR、AR、またはXRシステムがユーザ入力ジェスチャ202を追跡できる領域であり得る。
####たとえば、VR、AR、またはXRシステムは、視野204内の物体、すなわちユーザの手を追跡することができる。視野204は、ユーザからの第1の半径からユーザからの第2の半径まで広がることができる。図2Aに示すように、視野204は、ユーザ202の目から半径約10センチメートルからユーザから半径60〜80センチメートルまで広がることができる。#### 図2Aは、視野204内にユーザ202の手を示しているが、異なるユーザの複数の手が視野204内に現れ得る。 VR、AR、またはXRシステムは、視野204に挿入された手を検出し、各手が対応するユーザに関連付けられているかどうかを判断し、対応するユーザに関連付けられた手を追跡することができる。たとえば、VR、AR、または XR システムは、各ユーザーからの入力ジェスチャを検出できます。
### 図2Bは、ターゲットの検出および追跡を初期化するための配置領域206を有するユーザの視野204を示す。図2Bは、視野204を有するユーザ202と、視野204内の配置エリア206を含む。
### 一実施形態では、物体検出および追跡プロセスの初期化中に、物体検出および追跡装置100は、仮想環境内の配置領域206のハイライトを生成し、ユーザ202に表示することができる。
#### 図3は、図1の物体検出および追跡装置100を使用したXRシステムの追跡範囲への物体の挿入を示す図である。図3は、配置領域308を含み、ユーザ202の手310を配置領域308に挿入する挿入角度および方向がユーザ202に対して強調表示されている。図3の装置は、配置領域308の境界304および306によって囲まれた配置領域308を投影することができる投影装置302を含む。
#### 投影装置302は、物体検出および追跡装置100による検出のために、ユーザが配置領域308に手310を挿入できる角度をユーザに強調表示することができる。一例では、投影装置302は、配置領域308への挿入方向を特定し、手310を検出する画像を仮想環境内に生成して表示することができる。### 一実施形態において、ターゲット検出追跡装置100は、手310の挿入角度が所定の範囲内であるか否かを判断し、その判断に基づいて手310をユーザの手として識別する輪郭データを生成してもよい。例えば、所定の範囲は、ユーザ202の視野に基づく角度値の範囲であってもよい。
####ターゲット検出追跡装置100は、ハンド310の検出挿入角度が所定値範囲内であると判断した場合、ハンド310をユーザの追跡対象として登録することができる。同様に、物体検出および追跡装置100は、配置領域308への挿入方向が適切な方向であると判断することができる(また、物体検出および追跡装置100は、ユーザの追跡対象物体として手310を登録することができる)。 ## ###別の例として、物体検出追跡装置100は、手310の挿入角度が所定の数値範囲内にないと判断し、手310をユーザと関連付けなくてもよい。同様に、物体検出および追跡装置100は、配置領域308への挿入方向が適切な方向ではないと判断することがあり、手310をユーザに関連付けないことがある。
####このように、物体検出追跡装置100は、手310を追跡対象として登録しなくてもよい。一実施形態では、物体検出および追跡装置100は、提案された角度および/または方向で手310を再入力するようにユーザ202に要求することができる。
#### たとえば、物体検出および追跡装置100は、配置領域308内またはその近くの投影を通じて視覚的な手がかりを提供して、挿入角度および/または挿入方向をユーザ202に示し、ユーザ202は挿入角度および/または挿入方向を伝えることができる。方向は手310を挿入し、それによって、XRシステムを介して手310をユーザ202の手として首尾よく登録する。
図 4 は、手を識別するために使用されるマーキング手法を示しています。図4は手402および404を含み、そのそれぞれは複数のランドマーク406および408を含む。物体検出および追跡装置100は、ランドマーク406および408に基づいて、本明細書に記載されるようにユーザ202の手を一意に識別し得る。
####たとえば、各ランドマーク406および408は、それぞれ、ユーザ202の手402および404の形状を一意に記述する点のセットであり得る。物体検出および追跡装置100は、手の線画に基づいて手402および404を検出および識別することができる。
#### 目標検出および追跡装置100は、ランドマーク406および408を、目標検出および追跡装置100のメモリに記憶された点のセットと比較することができる。一致の検出に成功した後、物体検出および追跡装置100は、配置領域に挿入された手がユーザ202の手であると判断し、検出された物体をユーザ202の物体として登録し、それによって、ユーザ202からの入力ジェスチャを追跡および受信することができる。ユーザー202。
####マッチが成功したと判定した後、ターゲット検出および追跡装置100は、配置領域308に挿入された手をユーザ202の手として判定し、ジェスチャを判定するなど、手の動きを追跡することができる。ユーザー202の。物体検出および追跡装置100は、一致の成功を決定するために上述のように掌線506を利用することに限定されない。
### 一実施形態では、物体検出および追跡装置100は、手を一意に識別するために、手のひらの輪郭、手の形状、爪のサイズ、爪の形状、手の色など、ユーザ202の手の他の固有の特徴を利用することができる。はユーザー 202 の手です。検出されると、物体検出および追跡デバイス100は、手をXRシステムのユーザ202のものとして登録する輪郭データを生成することができる。物体検出および追跡装置100は、輪郭データに基づいてユーザ202から入力ジェスチャを受信するために手の動きを追跡することができる。図 5B は、手を一意に識別するために使用できる手のひらの輪郭マップを示しています。図5Bは、図5Bに示すような手のひら輪郭画像データ504を含む。手のひらプロファイル画像データ504は、物体検出および追跡装置100のカメラ115によって捕捉された画像に基づくものとすることができる。物体検出および追跡装置100は、手のひら輪郭画像データ504によって表される手のひら輪郭を有する手を一意に識別し、検出することができる。
####たとえば、ターゲット検出および追跡装置100は、手のひらプロファイル画像データ504を、ターゲット検出および追跡装置100のメモリに記憶された手のひらプロファイルデータと比較して、手のひらプロファイルが一致するかどうかを判定することができる。
### 一実施形態では、システムメモリ132は、複数のユーザの手のひらプロファイルデータを格納する。手のひらの輪郭データは、画像に取り込まれた手の輪郭に沿った複数のピクセル位置を識別し、特徴付けることができます。物体検出および追跡装置100は、ユーザの手のひらプロファイルデータが手のひらプロファイル画像データ504のプロファイルと一致するかどうかを判定してユーザを識別するための動作を実行することができる。####マッチが成功したことを決定した後、ターゲット検出および追跡デバイス100は、配置領域308に挿入された手をユーザ202の手として決定することができ、手のジェスチャをユーザ202の入力ジェスチャとして検出および追跡することができる。ユーザー202。
図 6 は、XR システムの追跡テクノロジーを示しています。図6には、視野604を有するユーザ602が含まれている。ユーザ602の視野604は、図6に示すように120度など、数度の角度範囲を有し得る。通常、視野604は、VR、AR、またはXRシステムがユーザ602の入力ジェスチャを追跡できる実環境内の領域であり得る。
#### 図6に示すように、視野604は、ユーザ602の目から約10cmの半径からユーザから60〜80cmの範囲内の半径まで広がることができる。
図 7 は、手の 20 個の異なる点を使用した手の追跡図を示しています。その中で、20 個のポイントのそれぞれが、共通の手上の特定の位置によって説明されています。ただし、ユーザーの手の形状が不規則である場合 (指が 5 本ではなく 4 本である場合、またはユーザーが手に覆いをしている場合)、図 7A に示す 20 個の点のそれぞれが存在しないか、識別できない場合があります。
####例えば、図8Aは、被覆物を装着した手を示す模式図である。図8Aは、手を覆うミトンを備えた手802と、手802の形状を表す輪郭804を含む。
図8Bは、不規則な形状を有する手を示す模式図である。図8Bは、不規則な形状(例えば、中指が欠けている)を有する手806、手806の形状を表す輪郭808を含む。図7とは対照的に、ユーザーの手を識別および検出するために使用される20点モデルは、少なくとも手802がマッピングされていない可能性があるため、入力ジェスチャを認識するために使用される手806の動きを検出または追跡するために使用することはできない可能性がある。 20点すべてにマッピングするか、20点技術を使用して手802を検出および追跡するのに十分な数の点にマッピングする。
具体的には、図 9 は、予期せぬ形状または不規則な形状を持つ手を追跡するためのハンド トラッキング技術を示しています。図9は、輪郭線904を有する手902を含む。覆われた手(または不規則な形状の手)を検出した後、物体検出および追跡装置100は、手902の画像に基づいて、手902に関する複数のデータポイント906を生成することができる。 ### 物体検出および追跡装置100は、複数のデータ点906に基づいて手902の多次元モデルを生成することができる。例えば、物体検出および追跡装置100は、XRシステムのハイブリッド環境の実環境において手902の1つまたは複数の画像を取り込み、3次元空間にデータ点906をプロットして、多次元モデルを生成することができる。手902の。
####多次元モデルは、手902の3Dモデルであってもよい。物体検出および追跡装置100は、手902の多次元モデルおよび検出されたジェスチャに基づいて複数のアクションポイントを生成することもできる。物体検出および追跡装置100は、複数の追跡点をさらに決定することができる。
####追跡点は、ジェスチャを行うときに手902がまたがると予想される3次元空間内の点であってもよく、追跡点は手902に特有のルックアップテーブルに格納されてもよい。ルックアップテーブル内の追跡ポイントの各シーケンスは、ジェスチャに対応し得る。手902が三次元空間内で移動するとき、物体検出および追跡装置100は、ルックアップテーブルを使用して手902のジェスチャを決定することができる。
関連特許
: クアルコム特許 | 拡張現実デバイスにおける物体の検出と追跡https://patent.nweon.com/32609
「拡張現実デバイスにおけるオブジェクト検出と追跡」というタイトルのクアルコム特許出願は、もともと 2022 年 6 月に提出され、最近米国特許商標庁によって公開されました。一般的に、米国特許出願は審査後、出願日または優先日から 18 か月後に自動的に公開されるか、または要求に応じて出願日から 18 か月以内に公開されることに注意してください。申請者の。特許出願の公開は、特許が承認されることを意味するものではないことに注意してください。特許出願後、USPTO は実際の審査を必要とし、審査には 1 ~ 3 年かかる場合があります。
また、これはあくまで特許出願であり、必ず承認されるわけではなく、実際に商品化されるかどうか、実際の出願効果は不明です。
---
元のリンク: https://news.nweon.com/116552
以上がAR/VR ジェスチャ インタラクションのオブジェクト検出と追跡構成を改善するクアルコムの特許提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 中国語版
中国語版、とても使いやすい

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境
