(2023년 9월 18일) 인간 사용자의 실제 자세를 정확하게 표현하려면 일반적으로 사용자 신체 부위의 위치와 방향에 대한 상대적으로 자세한 정보가 필요하지만 이 정보가 항상 제공되는 것은 아닙니다. 예를 들어, 가상 현실 경험을 제공하기 위해 헤드셋을 사용할 때 시스템은 사용자의 머리와 손과 관련된 공간 정보만 얻을 수 있습니다. 그러나 대부분의 경우 이는 인간 사용자의 실제 자세를 정확하게 재현하기에는 충분하지 않습니다
그래서 마이크로소프트는 "관절형 물체의 자세 예측"이라는 특허 출원에서 관절형 물체의 자세를 예측하는 기술을 제안했습니다. 특히, 기계 학습 모델은 관절 개체의 n개의 서로 다른 관절의 공간 정보를 수신합니다. 여기서 n개의 관절은 관절 개체의 모든 관절보다 작습니다.
인간 사용자의 경우, n개의 관절에는 인간 사용자의 머리 관절 및/또는 하나 또는 두 개의 손목 관절이 포함될 수 있으며, 이는 사용자의 머리 및/또는 손의 매개변수를 자세히 설명하는 공간 정보와 연관됩니다.
기계 학습 모델은 관절로 연결된 물체의 n+m개 관절에 대한 입력 공간 정보를 수신하도록 훈련되었습니다. 여기서 m은 1보다 크거나 같습니다. 예를 들어, 초기 훈련 중에 기계 학습 모델은 연결된 개체의 거의 모든 관절에 해당하는 입력 데이터를 받습니다. n+m개의 관절은 다관절체의 각 관절을 포함할 수 있다.
다른 예에서는 관절로 연결된 물체의 모든 관절보다 적은 수의 관절이 n+m개 있을 수 있습니다. 훈련 과정에서 기계 학습 모델에 입력된 데이터가 점차 숨겨질 수 있습니다. m개의 노드 중 특정 노드의 해당 입력 데이터를 미리 정의된 값으로 바꾸거나 간단히 생략할 수 있습니다
즉, 기계 학습 모델은 관절로 연결된 개체의 다양한 이동 가능한 부분의 위치/방향에 대한 점점 더 적은 정보를 기반으로 관절로 연결된 개체의 자세를 정확하게 예측하도록 훈련됩니다.
이 접근 방식을 사용하면 기계 학습 모델은 희박한 입력 데이터만으로 런타임에 연결된 개체의 자세를 정확하게 예측할 수 있습니다. Microsoft는 이 기술이 각 관절의 방향에 대한 많은 정보를 요구하지 않고도 인간 사용자를 위해 관절 개체의 실제 자세를 정확하게 재현할 수 있다고 지적합니다
즉, 발명품은 인간 사용자의 실제 제스처를 보다 정확하게 재현함으로써 인간과 컴퓨터의 상호 작용을 향상시키는 기술적 이점을 제공할 수 있습니다. 이러한 기술적 이점에는 가상 현실 경험의 몰입도 향상과 제스처 인식 시스템의 정확성 향상이 포함됩니다
또한 설명된 기술은 자세 예측 프로세스에 입력으로 수집해야 하는 데이터의 양을 줄임으로써 인간 사용자의 실제 자세를 정확하게 재현하면서 컴퓨팅 리소스 소비를 줄일 수 있습니다.
예제 방법 200은 관절로 연결된 물체의 자세를 예측하기 위한 그림 2를 보여줍니다
202번 지점에서 관절화된 물체에 사용되는 n개의 관절의 공간정보를 수신합니다. 시스템은 관절 객체의 n개 관절의 공간 정보를 수신하는데, 이는 관절 객체의 모든 관절보다 적은 수의 관절을 포함합니다. 관절의 공간정보를 신체 부위를 연결하는 6자유도의 위치와 방향으로 표현하여 관절의 상태를 유추할 수 있습니다
일례로, n개의 관절에는 인체의 머리 관절이 포함될 수 있으며, 머리 관절의 공간 정보는 인간 머리의 매개변수를 자세하게 기술할 수 있습니다. 또한, n개의 관절은 인체의 하나 이상의 손목 관절을 포함할 수 있으며, 하나 이상의 손목 관절의 공간 정보는 인체의 하나 이상의 손의 파라미터를 상세하게 기술할 수 있다.
그림 3은 인간 사용자를 보여줍니다. 인간 사용자는 머리(300)와 두 손(302A, 302B)을 가지고 있다. 컴퓨팅 시스템은 머리 및/또는 손목 관절을 포함할 수 있는 인간 사용자의 하나 이상의 관절에 대한 공간 정보를 수신할 수 있습니다.
관절로 연결된 물체의 n개 관절의 공간 정보는 하나 이상의 센서에서 출력되는 위치 데이터에서 파생될 수 있습니다. 센서는 인간 사용자의 해당 신체 부위에 의해 유지되거나 착용되는 하나 이상의 장치에 통합될 수 있습니다.
예를 들어 센서에는 머리 장착형 디스플레이 장치 및/또는 휴대용 컨트롤러에 통합된 하나 이상의 관성 측정 장치가 포함될 수 있습니다. 다른 예로서, 센서는 하나 이상의 카메라를 포함할 수 있습니다.
그림 3은 센서의 출력에 공간 정보가 포함되거나 사용될 수 있는 다양한 유형의 센서를 개략적으로 보여줍니다. 구체적으로, 인간 사용자는 머리(300)에 머리 장착형 디스플레이 장치(304)를 착용한다.
또한, 인간 사용자는 위치 센서(306A 및 306B)를 보유하고 있으며, 이는 사용자 손의 움직임을 감지하여 헤드셋(304) 및/또는 공간 정보를 수신하도록 구성된 다른 컴퓨팅 시스템에 보고하도록 구성될 수 있습니다.
그림 2에서는 204 상황으로 돌아갑니다. n개 관절의 공간 정보를 이전에 훈련된 기계 학습 모델에 전달합니다. 이 모델은 n+m개의 관절의 공간정보를 입력으로 받으며, m의 값은 1보다 크거나 같습니다. 즉, 이전 훈련 모델에 비해 이 머신러닝 모델은 관절 공간 정보를 덜 받습니다
206에서는 기계 학습 모델로부터 관절로 연결된 물체의 포즈 예측을 출력으로 수신합니다. 예측은 적어도 n개 관절의 공간 정보를 기반으로 하며 해당 관절의 공간 정보를 포함하지 않습니다. 즉, m개의 관절의 공간정보가 제공되지 않더라도 머신러닝 모델은 관절 객체의 완전한 자세를 예측할 수 있다.
그림 4는 이 프로세스를 설명하기 위한 기계 학습 모델 400의 예를 보여줍니다
그림 4에서 기계 학습 모델은 세 개의 서로 다른 관절 J1, J2, J3에 해당하는 공간 정보(402)를 수신합니다. 관절에 대한 공간 정보는 관절에 연결된 신체 부위의 위치 및/또는 방향을 지정하거나 파생하는 데 사용될 수 있는 적합한 컴퓨터 데이터의 형태를 취할 수 있습니다.
예를 들어 공간 정보는 신체 부위의 위치와 방향을 직접 지정할 수 있으며, 공간 정보는 하나 이상의 회전 축을 기준으로 관절의 하나 이상의 회전을 지정할 수 있습니다. 도 4에서, 관절 J1, J2, J3은 사용자의 신체에 중첩된 음영 원으로 도시된 바와 같이 인간 사용자의 머리 관절(404A) 및 두 개의 손목 관절(404B/404C)에 대응한다.
이 예에서 n개의 관절에는 인체의 머리 관절과 손목 관절에 해당하는 3개의 관절이 포함되어 있습니다. 입력 공간 정보(402)에 기초하여, 기계 학습 모델은 관절로 연결된 물체의 예측된 자세(406)를 출력합니다.
또한 머신러닝 모델은 가상 관절로 표현되는 관절에 해당하는 예측 공간 정보를 출력할 수 있습니다. 인간 사용자는 만화적이거나 인간이 아닌 비율의 아바타로 표현될 수 있습니다. 예를 들어, 예측된 공간정보는 SMPL로 표현되는 관절에 해당할 수 있다.
즉, 관절 표현의 가상 표현의 관절은 관절 개체의 관절과 1:1 대응을 가질 필요가 없습니다. 따라서 기계 학습 모델에 의해 예측된 공간 정보 출력은 관절로 연결된 물체의 n+m 관절과 직접적으로 대응되지 않는 관절에 대한 것일 수 있습니다. 예를 들어, 가상 표현은 관절로 연결된 물체보다 척추 관절 수가 더 적을 수 있습니다.
머신러닝 모델은 어떤 적절한 방식으로든 훈련될 수 있습니다. 일 실시예에서, 기계 학습 모델은 연결된 객체에 대한 실측 라벨이 있는 훈련 입력 데이터를 사용하여 이전에 훈련되었을 수 있습니다.
즉, 기계 학습 모델은 관절 개체의 관절에 대한 학습 공간 정보를 제공하고 공간 정보에 해당하는 관절 개체의 실제 자세를 지정하는 Ground Truth Label로 라벨링할 수 있습니다.
위에서 언급한 것처럼 기계 학습 모델은 n+m개 관절의 공간 정보를 입력으로 받도록 훈련될 수 있습니다. 여기에는 첫 번째 훈련 반복에서 모든 n+m 관절에 대한 훈련 입력 데이터를 기계 학습 모델에 제공하는 것이 포함됩니다. 일련의 후속 훈련 반복에서 m개 관절의 훈련 입력 데이터가 점진적으로 마스킹될 수 있습니다.
예를 들어, 두 번째 훈련 반복에서는 m개의 관절 중 첫 번째 관절을 마스크할 수 있으며, 여기서 훈련 데이터 세트의 관절의 공간 정보는 마스크된 관절을 나타내는 사전 정의된 값으로 대체되거나 간단히 생략됩니다.
예를 들어. 세 번째 훈련 반복에서는 m개의 관절 중 두 번째 관절을 마스크할 수 있으며, 이러한 방식으로 모든 m개의 관절이 마스크되고 n개의 관절의 공간 정보만 기계 학습 모델에 제공됩니다.
이 프로세스는 그림 5a-5d에 설명되어 있습니다. 구체적으로, 도 5A에서 기계 학습 모델(400)에는 훈련 입력 데이터 세트가 제공됩니다. 본 실시예에서, 훈련 입력 데이터는 제1 자세(502A) 및 제2 자세(502B)를 포함하여 관절 대상의 복수의 서로 다른 자세에 대응하는 공간 정보를 포함한다.
그림 5A에서는 기계 학습 모델의 관절 개체에 대한 n+m 관절의 공간 정보를 제공합니다. 인체를 단순화한 이 표현에서 관절을 나타내는 각 원은 흰색 채우기 패턴으로 표시됩니다. 그러나 그림 5B에서는 커넥터 504A의 원을 나타내기 위해 검정색 채우기 패턴으로 표시된 대로 504A를 차폐했습니다.
즉, 그림 5A는 모든 n+m 관절에 대한 공간 정보가 기계 학습 모델에 제공되는 훈련 프로세스의 초기 반복을 나타냅니다. 그림 5B는 m개의 관절 중 첫 번째 관절(504A)이 마스크되는 훈련 과정의 두 번째 반복을 보여줍니다
그림 5C에서는 힌지로 표현된 m개의 관절 중 두 번째 관절(504B)이 폐색되어 있습니다. 마찬가지로, 그림 5D에서는 m개의 관절 중 세 번째 관절이 폐색되어 있습니다. m개 관절 각각의 공간 정보가 마스킹될 때까지 여러 번의 훈련 반복이 계속될 수 있으며, n개 관절의 공간 정보만 기계 학습 모델에 제공됩니다.
위 시나리오에서는 관절화된 물체가 인체 전체인 상황을 설명합니다. 그러나 관절로 연결된 물체는 다른 형태를 취할 수도 있습니다
그림 7에서 볼 수 있듯이 관절로 연결된 물체는 인체 전체가 아닌 사람의 손입니다. 특히, 그림 7은 기계 학습 모델(700)의 예를 보여줍니다.
기계 학습 모델(700)은 관절형 물체의 세 관절(704A-C)에 대응하는 관절(J1, J2, J3)에 대한 공간 정보를 수신하며, 이 경우 인간 손(706)의 형태를 취합니다.
이 경우 구체적으로 n개의 관절에는 사람 손의 손가락 관절이 하나 이상 포함됩니다. 하나 이상의 손가락 관절의 공간 정보는 하나 이상의 손가락 또는 인간 손의 손가락 세그먼트의 매개변수를 자세히 설명합니다. 예를 들어 공간 정보는 손 손가락의 위치/방향 및/또는 손 관절에 적용되는 회전을 지정할 수 있습니다
위치 센서(708) 등 관절 공간 정보를 수집하는 데 적합한 방법을 사용할 수 있습니다. 예를 들어, 위치 센서는 손을 이미지화하도록 구성된 카메라 형태를 취할 수 있습니다. 또 다른 예로, 위치 센서에는 손 표면을 전자기장에 노출시키고 전도성 인간 피부의 움직임과 근접성이 안테나의 전자기장 임피던스에 미치는 영향을 평가하도록 구성된 적절한 무선 주파수 안테나가 포함될 수 있습니다.
입력된 공간 정보(702)를 기반으로 기계 학습 모델은 일련의 예측 공간 정보(710)를 출력합니다. 공간 정보(710)는 관절로 연결된 물체의 예측된 자세를 구성하는 데 사용될 수 있습니다. 앞서 언급했듯이 이 공간 정보는 관절로 연결된 물체의 신체 부위의 위치와 방향을 나타낼 수 있습니다
관련 특허: 관절로 연결된 물체의 자세 예측 |Microsoft는 원래 2022년 6월에 "관절형 개체에 대한 자세 예측"이라는 특허 출원을 제출했으며 해당 출원은 최근 미국 특허청에 공개되었습니다
위 내용은 Microsoft는 AR/VR 신체 자세 캡처를 위해 관절형 물체의 자세를 예측하는 특허 기술을 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!