優化的對象偵測與追蹤配置
(映維網Nweon 2024年01月04日)擴充現實裝置可以透過相機偵測、追蹤和辨識目標事件或物件。傳統的追蹤系統可能無法正確地偵測使用者的手勢,例如透過使用者的裸手或透過使用者持有物件執行的姿勢。
在名為「Object detection and tracking in extended reality devices」專利申請中,高通提出了一種最佳化的物件偵測和追蹤配置。
在一個實施例中,物件偵測和追蹤設備可以包括一個或多個光學元件,並且可以偵測虛擬環境中使用者的一個或多個物件或身體部位,以識別使用者執行的輸入手勢。目標偵測和追蹤設備可以在攝影機的視場中偵測對象,並確定所述對象對應於特定使用者。
例如,物件偵測和追蹤裝置可以確定物件對應於使用者並且正在用於提供輸入手勢。所述對象檢測和追蹤設備可以另外或可選地確定所述對像不對應於所述用戶,所以將不用於提供輸入手勢。
在另一實施例中,所述物件偵測和追蹤裝置可以包括一個或多個處理器,所述處理器執行儲存在所述物件偵測和追蹤裝置的記憶體中的指令,以基於所述使用者的唯一輪廓偵測所述使用者的物件。
例如,使用者的唯一輪廓可以包括表徵使用者手部的一個或多個形狀、掌紋、手掌輪廓、使用者指甲的大小、使用者指甲的形狀、物件的顏色等。所述物件偵測和追蹤設備可根據所述使用者的輪廓執行追蹤所述物件的指令,以基於使用者的輪廓來偵測來自使用者的一個或多個輸入手勢。
在一個實施例中,物件偵測和追蹤設備可以包括一個或多個處理器,而處理器執行一個或多個經過訓練的機器學習過程來偵測使用者的對象,以追蹤和接收一個或多個手勢輸入。
例如在初始化過程中,目標偵測和追蹤裝置可以提示使用者選擇被目標偵測和追蹤裝置的攝影機或感測器偵測到的物件作為用於偵測使用者手勢輸入的物件。所述物件偵測和追蹤設備可將所訓練的機器學習過程應用於表徵所選物件的影像數據,以產生所選物件的多個資料點和所選物件的多維模型。
另外,目標偵測和追蹤設備可以將訓練好的機器學習過程應用於目標的多維模型以估計動作點。在一個實例中,目標偵測和追蹤設備可以實現用於機器學習過程的訓練模式,在過程中,機器學習過程可以迭代地改變對應手勢的三維空間中的動作點。
例如,目標偵測和追蹤裝置可以基於產生的動作點來確定手勢,並且可以請求和接收來自使用者的驗證以確認所確定的手勢是否正確。
一個或多個處理器可以將機器學習過程套用到物件的多維模型以產生查找表。所述查詢表可以包括手勢列表和物件在手勢期間可能跨越的三維空間中的追蹤點序列。追蹤點可以包括三維空間中每個追蹤點的x、y、z座標。
當訓練過程完成時,一個或多個處理器可以將追蹤點的值和序列以及對應的手勢作為查找表儲存在物件偵測和追蹤裝置的儲存裝置中。與物件對應的查詢表可以使一個或多個處理器能夠在追蹤物件的運動時測和識別物件所做的手勢。
圖1是示例性目標偵測與追蹤設備100的框圖。如圖1的實施例所示,目標偵測與追蹤設備100可以包括一個或多個影像感測器112,例如影像感測器112A、透鏡113A和一個或多個相機處理器,例如相機處理器114。
物件偵測與追蹤設備100可進一步包括中央處理單元116、編碼器/解碼器117、圖形處理單元118、GPU 118的本機記憶體120、使用者介面122、提供對系統記憶體130和指令記憶體132的存取的記憶體控制器124、以及顯示介面126。
物件偵測和追蹤設備100可以透過使用者介面122接收使用者輸入,並且對接收到的使用者輸入的回應,CPU 116和/或相機處理器114可以啟動透鏡對應的CPU 116和/或相機處理器114。例如,接收到的使用者輸入可以對應於一個確認,即透鏡113A所看到的物件/手是應該被追蹤以進行輸入手勢的使用者的物件/手。
圖2A示出XR系統中的追蹤範圍。圖2A包括具有視場204的用戶202。如圖2A所示,使用者202的視場204可以有120度的角展開。視場204可以是VR、AR或XR系統可以追蹤使用者輸入手勢202的區域。
例如,VR、AR或XR系統可以在視野204內追蹤對象,也就是使用者的手。視場204可以從從使用者的第一半徑延伸到從使用者的第二半徑。如圖2A所示,視場204可以從距離使用者202的眼睛約10公分的半徑延伸到距離使用者60-80公分的半徑。
儘管圖2A顯示了視場204中用戶202的手,但是不同用戶的多隻手可能出現在視場204中。 VR、AR或XR系統可以偵測插入視場204的手,確定每隻手是否與對應的使用者相關聯,並且可以追蹤與對應使用者相關聯的手。例如,VR、AR或XR系統可以偵測來自每個使用者所做的輸入手勢。
圖2B示出具有用於初始化目標偵測和追蹤的放置區域206的使用者的視場204。圖2B包括具有視場204的使用者202,以及在視場204內的放置區域206。
在一個實施例中,在物件偵測和追蹤過程的初始化期間,物件偵測和追蹤裝置100可以在虛擬環境中產生並向使用者202顯示放置區域206的高亮。
例如,CPU 116可以執行儲存在偵測單元132A中的指令,以產生用戶202將物件(插入放置區域206的請求。顯示單元208可使放置區域206在虛擬環境中反白並顯示給用戶202。在初始化時,對象檢測和追蹤設備100可以檢測放置區域206中存在的對像作為待追蹤的用戶202的對象,以識別來自用戶202的輸入手勢。
圖3是顯示利用圖1的物件偵測與追蹤設備100將物件插入XR系統的追蹤範圍。圖3包含放置區域308,向使用者202突顯使用者202的手310插入到放置區域308中的插入角度和插入方向。圖3包括投影裝置302),其可投影由放置區域308的邊界304和306包圍的放置區域308。
投影裝置302可以向使用者突出插入到放置區域308的角度,使用者可以透過所述角度插入手310以供對象檢測和追蹤設備100檢測。在一個範例中,投影設備302可以在虛擬環境中產生並顯示識別插入方向的影像,以插入到放置區域308中並偵測手310。
在一個實施例中,目標偵測與追蹤設備100可以確定手310的插入角度是否在預定範圍內,並且可以基於該確定產生辨識手310為使用者的手的輪廓資料。例如,預定範圍可以是基於使用者202的視界的角度值的範圍。
當目標偵測與追蹤裝置100確定手310的偵測插入角度在預定的數值範圍內時,目標偵測與追蹤裝置100可將手310註冊為供使用者追蹤的物件。類似地,物件偵測和追蹤裝置100可以確定插入放置區域308的方向是適當的方向(,並且物件偵測和追蹤裝置100可以將手310註冊為要為使用者追蹤的物件。
作為另一個範例,所述物件偵測與追蹤裝置100可以確定所述手310的插入角度不在預定的數值範圍內,並且可以不將所述手310與所述使用者關聯。類似地,物件偵測和追蹤裝置100可以確定插入放置區域308的方向不是適當的方向,並且可以不將手310與使用者關聯。
這樣,物件偵測與追蹤設備100可以不將手310註冊為要追蹤的物件。在一個實施例中,物件偵測和追蹤設備100可以請求使用者202以建議的角度和/或方向重新進入手310。
例如,物件偵測和追蹤裝置100可以透過放置區域308內或附近的投影提供視覺線索,以向使用者202指示插入角落和/或插入方向,然後使用者202可以透過該插入角落和/或插入方向插入手310,從而透過XR系統成功地將手310註冊為用戶202的手。
圖4顯示出用於辨識手的標記技術。圖4包括手402和404,每個手分別包括多個landmark 406和408。目標偵測與追蹤設備100可以基於landmark 406和408唯一地辨識本文所述的使用者202的手。
例如,每個landmark 406和408可以是一組點,它們分別唯一地描述使用者202的手402和404的幾何形狀。所述對象檢測和追蹤設備100可基於手線繪圖圖檢測和識別所述手402和404。
目標偵測和追蹤裝置100可以將landmark 406和408與儲存在目標偵測和追蹤裝置100的記憶體中的一組點進行比較。在偵測到匹配成功後,對象檢測和追蹤設備100可以確定插入放置區域中的手是用戶202的手,並將檢測到的對象註冊為用戶202的對象,從而追蹤並接收來自用戶202的輸入手勢。
圖5A說明可用於唯一辨識一隻手的手掌線條。如圖5A所示,圖5A包括手掌紋506(線1-7)。物件偵測和追蹤設備100可以基於將表徵手掌線506的資料與另一組表徵手掌線並儲存在物件偵測和追蹤裝置100的記憶體中的資料進行比較,以唯一地識別和偵測具有圖5A所示手掌線的手。
在確定配對成功後,目標偵測與追蹤裝置100可以將插入放置區域308中的手確定為使用者202的手,並且可以追蹤手的運動,例如確定使用者202的手勢。目標偵測和追蹤設備100不限於利用如上所述的手掌線506來確定成功匹配。
在一個實施例中,目標檢測和追蹤設備100可以利用使用者202的手的其他獨特特徵,例如手掌輪廓、手的形狀、指甲的大小、指甲的形狀、手的顏色等來唯一地識別該手為用戶202的手。一旦被偵測到,所述物件偵測和追蹤設備100可以產生輪廓數據,所述輪廓數據將所述手註冊為所述XR系統所述用戶202的手。物件偵測與追蹤設備100可以追蹤手的移動,以便基於輪廓資料接收來自使用者202的輸入手勢。
圖5B顯示可用於唯一辨識手的手掌輪廓映射。圖5B包含如圖5B所示的手掌輪廓影像資料504。手掌輪廓影像資料504可以基於由物件偵測和追蹤裝置100的相機115所擷取的影像。物件偵測和追蹤設備100可以唯一地辨識和偵測具有手掌輪廓影像資料504表徵的手掌輪廓的手。
例如,目標偵測和追蹤裝置100可以將手掌輪廓影像資料504與儲存在上述目標偵測和追蹤裝置100的記憶體中的手掌輪廓資料進行比較,以確定手掌輪廓是否相符。
在一個實施例中,系統記憶體132為多個使用者儲存手掌輪廓資料。手掌輪廓資料可以沿著影像中捕捉的手的輪廓識別和表徵多個像素位置。目標偵測和追蹤裝置100可以執行操作以確定用於使用者的任何手掌輪廓資料是否與手掌輪廓影像資料504的輪廓相符,以識別使用者。
在確定配對成功後,目標偵測與追蹤裝置100可以將插入放置區域308中的手確定為使用者202的手,並且可以將手的手勢偵測和追蹤為使用者202的輸入手勢。
圖6示出XR系統中的追蹤技術。圖6包括具有視場604的使用者602。使用者602的視場604可以具有若干度的角擴展,如圖6所示的120度。通常情況下,視場604可能是真實環境中的一個區域,VR、AR或XR系統可以追蹤使用者602的輸入手勢。
如圖6所示,視場604可以從距離使用者602眼睛約10公分的半徑延伸到距離使用者60-80公分範圍內的半徑。
圖7顯示使用手的20個不同點的手部追蹤圖。其中,20點中的每一個描述為它們在普通手上的特定位置。然而,當使用者的手的形狀不規則,例如有四個手指而不是五個手指;或者使用者在手上有覆蓋物時,圖7A中所示的20個點中的每一個都可能不存在或無法辨識。
例如,圖8A是顯示具有覆蓋物的手的示意圖。圖8A包括手802,其連指手套覆蓋在所述手,輪廓線804表示所述手802的形狀。
與圖7相比,用於識別和檢測使用者的手的20點模型可能無法用於檢測或追蹤用於識別輸入手勢的手802的運動,至少因為手802不能映射到所有的20點,或映射到使用20點技術檢測和追蹤手802的足夠數量的點。
圖8B是顯示出具有不規則形狀的手的示意圖。圖8B包括具有不規則形狀(例如缺少中指)的手806,輪廓線808描述手806的形狀。與圖7相比,用於識別和檢測使用者的手的20點模型可能無法用於檢測或追蹤用於識別輸入手勢的手806的運動,至少因為手802可能無法映射到所有的20點,或者映射到使用20點技術檢測和追蹤手802的足夠數量的點。
然而,圖9示出地初始化啟動技術可允許物件偵測和追蹤裝置100偵測物件的意外形狀和大小。
具體地說,圖9示出用於追蹤具有意外或不規則形狀的手的手追蹤技術。圖9包括具有等高線904的手902。物件偵測與追蹤裝置100在偵測到具有覆蓋物的手(或具有不規則形狀的手後,可以基於手902的影像為手902產生多個資料點906。
物件偵測與追蹤設備100可以基於多個資料點906產生手902的多維模型。例如,目標偵測與追蹤設備100可以在XR系統的混合環境的真實環境中擷取手902的一個或多個影像,並在三維空間中繪製資料點906,以產生手902的多維模型。
所述多維模型可以是手902的3D模型。所述物件偵測與追蹤設備100還可以基於所述手902的多維模型和所述被偵測手勢產生多個動作點。物件偵測和追蹤裝置100可以進一步確定多個追蹤點。
所述追蹤點可以是手902在做出手勢時期望跨越的三維空間中的點,並且可以將追蹤點儲存在特定於手902的查找表中。查找表中的每個追蹤點序列可能對應於一個手勢。當手902在三維空間中進行運動時,目標偵測與追蹤設備100可以利用查找表確定手902的手勢。
相關專利:Qualcomm Patent | Object detection and tracking in extended reality devices
https://patent.nweon.com/32609
名為「Object detection and tracking in extended reality devices」的高通專利申請最初在2022年6月提交,並在日前由美國專利商標局公佈。
要注意的是,一般來說,美國專利申請接收審查後,自申請日或優先權日起18個月自動公佈或根據申請人要求在申請日起18個月內進行公開。注意,專利申請公開不代表專利核准。在專利申請後,美國專利商標局需要實際審查,時間可能在1年至3年不等。
另外,這只是一份專利申請,不代表一定通過,同時不確定是否會實際商用及實際的應用效果。
---
原文連結:https://news.nweon.com/116552
以上是改進AR/VR手勢互動的物件偵測與追蹤配置的高通專利提案的詳細內容。更多資訊請關注PHP中文網其他相關文章!