优化的对象检测和追踪配置
(映维网Nweon 2024年01月04日)扩展现实设备可以通过摄像头来检测、追踪和识别目标事件或对象。传统的追踪系统可能无法正确地检测用户的手势,例如通过用户的裸手或通过用户持有对象执行的姿势。
在名为“Object detection and tracking in extended reality devices”专利申请中,高通提出了一种优化的对象检测和追踪配置。
在一个实施例中,对象检测和追踪设备可以包括一个或多个光学元件,并且可以检测虚拟环境中用户的一个或多个对象或身体部位,以识别用户执行的输入手势。目标检测和追踪设备可以在摄像头的视场中检测对象,并确定所述对象对应于特定用户。
例如,对象检测和追踪设备可以确定对象对应于用户并且正在用于提供输入手势。所述对象检测和追踪设备可以另外或可选地确定所述对象不对应于所述用户,所以将不用于提供输入手势。
在另一实施例中,所述对象检测和追踪设备可以包括一个或多个处理器,所述处理器执行存储在所述对象检测和追踪设备的存储器中的指令,以基于所述用户的唯一轮廓检测所述用户的对象。
例如,用户的唯一轮廓可以包括表征用户手部的一个或多个形状、掌纹、手掌轮廓、用户指甲的大小、用户指甲的形状、对象的颜色等。所述对象检测和追踪设备可根据所述用户的轮廓执行追踪所述对象的指令,以基于用户的轮廓来检测来自用户的一个或多个输入手势。
在一个实施例中,对象检测和追踪设备可以包括一个或多个处理器,而处理器执行一个或多个经过训练的机器学习过程来检测用户的对象,以追踪和接收一个或多个手势输入。
例如在初始化过程中,目标检测和追踪设备可以提示用户选择被目标检测和追踪设备的摄像头或传感器检测到的对象作为用于检测用户手势输入的对象。所述对象检测和追踪设备可将所训练的机器学习过程应用于表征所选对象的图像数据,以生成所选对象的多个数据点和所选对象的多维模型。
另外,目标检测和追踪设备可以将训练好的机器学习过程应用于目标的多维模型以估计动作点。在一个实例中,目标检测和追踪设备可以实现用于机器学习过程的训练模式,在过程中,机器学习过程可以迭代地改变相应手势的三维空间中的动作点。
例如,目标检测和追踪设备可以基于生成的动作点确定手势,并且可以请求和接收来自用户的验证以确认所确定的手势是否正确。
一个或多个处理器可以将机器学习过程应用于对象的多维模型以生成查找表。所述查询表可以包括手势列表和对象在手势期间可能跨越的三维空间中的追踪点序列。追踪点可以包括三维空间中每个追踪点的x、y、z坐标。
当训练过程完成时,一个或多个处理器可以将追踪点的值和序列以及相应的手势作为查找表存储在对象检测和追踪设备的存储设备中。与对象对应的查询表可以使一个或多个处理器能够在追踪对象的运动时测和识别对象所做的手势。
图1是示例性目标检测和追踪设备100的框图。如图1的实施例所示,目标检测和追踪设备100可以包括一个或多个图像传感器112,例如图像传感器112A、透镜113A和一个或多个摄像头处理器,例如摄像头处理器114。
对象检测和追踪设备100可进一步包括中央处理单元116、编码器/解码器117、图形处理单元118、GPU 118的本地存储器120、用户界面122、提供对系统存储器130和指令存储器132的访问的存储器控制器124、以及显示接口126。
对象检测和追踪设备100可以通过用户界面122接收用户输入,并且对接收到的用户输入的响应,CPU 116和/或摄像头处理器114可以激活透镜相应的CPU 116和/或摄像头处理器114。例如,接收到的用户输入可以对应于一个确认,即透镜113A所看到的对象/手是应该被追踪以进行输入手势的用户的对象/手。
图2A示出XR系统中的追踪范围。图2A包括具有视场204的用户202。如图2A所示,用户202的视场204可以具有120度的角展开。视场204可以是VR、AR或XR系统可以追踪用户输入手势202的区域。
例如,VR、AR或XR系统可以在视场204内追踪对象,亦即用户的手。视场204可以从从用户的第一半径延伸到从用户的第二半径。如图2A所示,视场204可以从距离用户202的眼睛约10厘米的半径延伸到距离用户60-80厘米的半径。
尽管图2A显示了视场204中用户202的手,但是不同用户的多只手可能出现在视场204中。VR、AR或XR系统可以检测插入视场204的手,确定每只手是否与相应的用户相关联,并且可以追踪与相应用户相关联的手。例如,VR、AR或XR系统可以检测来自每个用户做出的输入手势。
图2B示出具有用于初始化目标检测和追踪的放置区域206的用户的视场204。图2B包括具有视场204的用户202,以及在视场204内的放置区域206。
在一个实施例中,在对象检测和追踪过程的初始化期间,对象检测和追踪设备100可以在虚拟环境中生成并向用户202显示放置区域206的高亮。
例如,CPU 116可以执行存储在检测单元132A中的指令,以生成用户202将对象(插入放置区域206的请求。显示单元208可使放置区域206在虚拟环境中突出显示并显示给用户202。在初始化时,对象检测和追踪设备100可以检测放置区域206中存在的对象作为待追踪的用户202的对象,以识别来自用户202的输入手势。
图3是示出利用图1的对象检测和追踪设备100将对象插入到XR系统的追踪范围。图3包括放置区域308,向用户202突出显示用户202的手310插入到放置区域308中的插入角度和插入方向。图3包括投影装置302),其可以投影由放置区域308的边界304和306包围的放置区域308。
投影装置302可以向用户突出插入到放置区域308的角度,用户可以通过所述角度插入手310以供对象检测和追踪设备100检测。在一个示例中,投影设备302可以在虚拟环境中生成并显示识别插入方向的图像,以插入到放置区域308中并检测手310。
在一个实施例中,目标检测和追踪设备100可以确定手310的插入角度是否在预定范围内,并且可以基于该确定生成识别手310为用户的手的轮廓数据。例如,预定范围可以是基于用户202的视界的角度值的范围。
当目标检测与追踪装置100确定手310的检测插入角度在预定的数值范围内时,目标检测与追踪设备100可将手310注册为供用户追踪的对象。类似地,对象检测和追踪装置100可以确定插入放置区域308的方向是适当的方向(,并且对象检测和追踪设备100可以将手310注册为要为用户追踪的对象。
作为另一示例,所述对象检测与追踪装置100可以确定所述手310的插入角度不在预定的数值范围内,并且可以不将所述手310与所述用户关联。类似地,对象检测和追踪装置100可以确定插入放置区域308的方向不是适当的方向,并且可以不将手310与用户关联。
这样,对象检测和追踪设备100可以不将手310注册为要追踪的对象。在一个实施例中,对象检测和追踪设备100可以请求用户202以建议的角度和/或方向重新进入手310。
例如,对象检测和追踪设备100可以通过放置区域308内或附近的投影提供视觉线索,以向用户202指示插入角和/或插入方向,然后用户202可以通过该插入角和/或插入方向插入手310,从而通过XR系统成功地将手310注册为用户202的手。
图4示出用于识别手的标记技术。图4包括手402和404,每个手分别包括多个landmark 406和408。目标检测和追踪设备100可以基于landmark 406和408唯一地识别本文所述的用户202的手。
例如,每个landmark 406和408可以是一组点,它们分别唯一地描述用户202的手402和404的几何形状。所述对象检测和追踪设备100可基于手线绘图图检测和识别所述手402和404。
目标检测和追踪设备100可以将landmark 406和408与存储在目标检测和追踪设备100的存储器中的一组点进行比较。在检测到匹配成功后,对象检测和追踪设备100可以确定插入放置区域中的手是用户202的手,并将检测到的对象注册为用户202的对象,从而追踪和接收来自用户202的输入手势。
图5A说明可用于唯一识别一只手的手掌线条。如图5A所示,图5A包括手掌纹506(线1-7)。对象检测和追踪设备100可以基于将表征手掌线506的数据与另一组表征手掌线并存储在对象检测和追踪设备100的存储器中的数据进行比较,以唯一地识别和检测具有图5A所示手掌线的手。
在确定匹配成功后,目标检测和追踪设备100可以将插入放置区域308中的手确定为用户202的手,并且可以追踪手的运动,例如确定用户202的手势。目标检测和追踪设备100不限于利用如上所述的手掌线506来确定成功匹配。
在一个实施例中,目标检测和追踪设备100可以利用用户202的手的其他独特特征,例如手掌轮廓、手的形状、指甲的大小、指甲的形状、手的颜色等来唯一地识别该手为用户202的手。一旦被检测到,所述对象检测和追踪设备100可以生成轮廓数据,所述轮廓数据将所述手注册为所述XR系统所述用户202的手。对象检测和追踪设备100可以追踪手的运动,以便基于轮廓数据接收来自用户202的输入手势。
图5B示出可用于唯一识别手的手掌轮廓映射。图5B包括如图5B所示的手掌轮廓图像数据504。手掌轮廓图像数据504可以基于由对象检测和追踪设备100的摄像头115捕获的图像。对象检测和追踪设备100可以唯一地识别和检测具有手掌轮廓图像数据504表征的手掌轮廓的手。
例如,目标检测和追踪设备100可以将手掌轮廓图像数据504与存储在上述目标检测和追踪设备100的存储器中的手掌轮廓数据进行比较,以确定手掌轮廓是否匹配。
在一个实施例中,系统存储器132为多个用户存储手掌轮廓数据。手掌轮廓数据可以沿着图像中捕获的手的轮廓识别和表征多个像素位置。目标检测和追踪设备100可以执行操作以确定用于用户的任何手掌轮廓数据是否与手掌轮廓图像数据504的轮廓相匹配,以识别用户。
在确定匹配成功后,目标检测和追踪装置100可以将插入放置区域308中的手确定为用户202的手,并且可以将手的手势检测和追踪为用户202的输入手势。
图6示出XR系统中的追踪技术。图6包括具有视场604的用户602。用户602的视场604可以具有若干度的角扩展,如图6所示的120度。通常情况下,视场604可能是真实环境中的一个区域,VR、AR或XR系统可以追踪用户602的输入手势。
如图6所示,视场604可以从距离用户602眼睛约10厘米的半径延伸到距离用户60-80厘米范围内的半径。
图7示出使用手的20个不同点的手部追踪图。其中,20点中的每一个描述为它们在普通手上的特定位置。然而,当使用者的手的形状不规则,例如有四个手指而不是五个手指;或者使用者在手上有覆盖物时,图7A中所示的20个点中的每一个都可能不存在或无法识别。
例如,图8A是示出具有覆盖物的手的示意图。图8A包括手802,其连指手套覆盖在所述手,轮廓线804表示所述手802的形状。
与图7相比,用于识别和检测用户的手的20点模型可能不能用于检测或追踪用于识别输入手势的手802的运动,至少因为手802不能映射到所有的20点,或者映射到使用20点技术检测和追踪手802的足够数量的点。
图8B是示出具有不规则形状的手的示意图。图8B包括具有不规则形状(例如缺少中指)的手806,轮廓线808描述手806的形状。与图7相比,用于识别和检测用户的手的20点模型可能不能用于检测或追踪用于识别输入手势的手806的运动,至少因为手802可能不能映射到所有的20点,或者映射到使用20点技术检测和追踪手802的足够数量的点。
然而,图9示出地初始化启动技术可允许对象检测和追踪设备100检测对象的意外形状和大小。
具体地说,图9示出用于追踪具有意外或不规则形状的手的手追踪技术。图9包括具有等高线904的手902。对象检测和追踪装置100在检测到具有覆盖物的手(或具有不规则形状的手后,可以基于手902的图像为手902生成多个数据点906。
对象检测和追踪设备100可以基于多个数据点906生成手902的多维模型。例如,目标检测和追踪设备100可以在XR系统的混合环境的真实环境中捕获手902的一个或多个图像,并在三维空间中绘制数据点906,以生成手902的多维模型。
所述多维模型可以是手902的3D模型。所述对象检测和追踪设备100还可以基于所述手902的多维模型和所述被检测手势生成多个动作点。对象检测和追踪装置100可以进一步确定多个追踪点。
所述追踪点可以是手902在做出手势时期望跨越的三维空间中的点,并且可以将追踪点存储在特定于手902的查找表中。查找表中的每个追踪点序列可能对应于一个手势。当手902在三维空间中进行运动时,目标检测和追踪设备100可以利用查找表确定手902的手势。
相关专利:Qualcomm Patent | Object detection and tracking in extended reality devices
https://patent.nweon.com/32609
名为“Object detection and tracking in extended reality devices”的高通专利申请最初在2022年6月提交,并在日前由美国专利商标局公布。
需要注意的是,一般来说,美国专利申请接收审查后,自申请日或优先权日起18个月自动公布或根据申请人要求在申请日起18个月内进行公开。注意,专利申请公开不代表专利获批。在专利申请后,美国专利商标局需要进行实际审查,时间可能在1年至3年不等。
另外,这只是一份专利申请,不代表一定通过,同时不确定是否会实际商用及实际的应用效果。
---
原文链接:https://news.nweon.com/116552
以上是改进AR/VR手势交互的对象检测和追踪配置的高通专利提案的详细内容。更多信息请关注PHP中文网其他相关文章!