>  기사  >  기술 주변기기  >  6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

王林
王林앞으로
2023-05-17 21:16:261925검색

이 기사는 관성 모션 캡처의 "눈"을 열려고 시도합니다. 추가 휴대폰 카메라를 착용함으로써 우리의 알고리즘은 "시각"을 갖게 됩니다. 인간의 움직임을 포착하면서 환경 정보를 감지하여 인체의 정확한 위치를 파악할 수 있습니다. 이 연구는 칭화대학교 Xu Feng 팀이 수행했으며 컴퓨터 그래픽 분야 최고의 국제 컨퍼런스인 SIGGRAPH2023에서 승인되었습니다.

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

  • 논문 주소: https://arxiv.org/abs/2305.01599
  • 프로젝트 홈페이지: https://xinyu-yi.github.io/EgoLocate/
  • 오픈 소스 코드: https://github.com/Xinyu-Yi/EgoLocate

소개

컴퓨터 기술의 발전으로 인체 인식과 환경 인식은 현대 지능형 응용 프로그램에서 없어서는 안 될 두 가지 부분이 되었습니다. 인체 감지 기술은 인체 움직임과 동작을 포착하여 인간과 컴퓨터의 상호 작용, 지능형 의료, 게임 및 기타 응용 프로그램을 실현할 수 있습니다. 환경 인식 기술은 장면 모델을 재구성하여 3차원 재구성, 장면 분석, 지능형 탐색 등의 응용을 실현할 수 있습니다. 두 가지 업무는 상호의존적이지만, 국내외 기존 기술은 대부분 독립적으로 처리하고 있다. 연구팀은 인간의 움직임과 환경에 대한 결합된 인식이 인간이 환경과 상호작용하는 시나리오에 매우 중요하다고 믿습니다. 첫째, 인간의 신체와 환경을 동시에 감지함으로써 인간과 환경의 상호작용의 효율성과 안전성을 향상시킬 수 있다. 예를 들어, 자율주행차에서는 운전자의 행동과 주변 환경을 동시에 감지하면 운전의 안전성과 부드러움을 더 잘 보장할 수 있습니다. 둘째, 인체와 환경을 동시에 인식하면 더 높은 수준의 인간-컴퓨터 상호 작용을 달성할 수 있습니다. 예를 들어 가상 현실과 증강 현실에서는 사용자의 행동과 주변 환경을 동시에 인식하면 몰입감 있는 경험을 더 잘 얻을 수 있습니다. . 그러므로 인간의 신체와 환경에 대한 동시적인 인식은 우리에게 보다 효율적이고 안전하며 스마트한 인간-컴퓨터 상호 작용 및 환경 적용 경험을 제공할 수 있습니다.

이를 바탕으로 청화대학교 Xu Feng 팀은 6개의 관성 센서(IMU)와 1개의 단안 컬러 카메라를 사용하여 동시 실시간 인간 모션 캡처, 위치 확인 및 환경 매핑 기술을 제안했습니다 (그림 참조) 1)에 표시된 그림. 관성 모션 캡처(mocap) 기술은 인체 동작 신호와 같은 '내부' 정보를 탐색하는 반면, SLAM(동시 위치 파악 및 매핑) 기술은 주로 카메라가 캡처한 환경인 '외부' 정보에 의존합니다. 전자는 안정성이 좋지만 외부의 정확한 참조가 없기 때문에 장기간 이동 중에 전역 위치 드리프트가 누적됩니다. 후자는 장면에서 전역 위치를 높은 정확도로 추정할 수 있지만 환경 정보를 신뢰할 수 없는 경우(예: 텍스처가 없거나 폐색이 있는 경우) 추적을 잃기 쉽습니다.

따라서 이 문서에서는 이 두 가지 보완 기술(mocap 및 SLAM)을 효과적으로 결합합니다. 강력하고 정확한 인간 위치 파악 및 지도 재구성은 인간의 움직임 사전 정보와 여러 핵심 알고리즘에 대한 시각적 추적의 융합을 통해 달성됩니다.

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

그림 1 이 기사에서는 동시 인간 모션 캡처 및 환경 매핑 기술을 제안합니다.

구체적으로, 이 연구는 인간의 팔다리, 머리 및 등에 6개의 IMU를 착용하며, 단안 컬러 카메라는 머리에 고정되어 바깥쪽으로 발사됩니다. 이 디자인은 실제 인간 행동에서 영감을 얻었습니다. 인간은 새로운 환경에 있을 때 눈을 통해 환경을 관찰하고 위치를 결정하여 장면 내에서의 움직임을 계획합니다.

우리 시스템에서 단안 카메라는 인간의 눈 역할을 하여 이 기술에 대한 실시간 장면 재구성 및 자체 위치 지정을 위한 시각적 신호를 제공하는 반면 IMU는 인간의 팔다리와 머리의 움직임을 측정합니다. 이 설정은 기존 VR 장비와 호환되며 VR 헤드셋의 카메라와 추가 IMU를 사용하여 안정적이고 드리프트 없는 전신 모션 캡처 및 환경 인식을 수행할 수 있습니다. 처음으로 전체 시스템은 단 6개의 IMU와 1개의 카메라를 기반으로 동시에 인간 모션 캡처와 환경 희소 지점 재구성을 달성했습니다. 실행 속도는 CPU에서 60fps에 도달하고 정확도는 두 분야 모두에서 가장 진보된 기술을 능가합니다. 동시. 이 시스템의 실시간 예는 그림 2와 그림 3에 나와 있습니다.

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

그림 2 70미터의 복잡한 움직임에서 이 시스템은 인체의 위치를 ​​정확하게 추적하고 뚜렷한 위치 드리프트 없이 인체의 움직임을 포착합니다.

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

그림 3 인간의 움직임과 장면의 희소 지점을 동시에 재구성하는 이 시스템의 실시간 예입니다.

방법 소개

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

그림 4 전반적인 방법 흐름

시스템의 임무는 6개 물체의 방향 및 가속도 측정에서 실시간 정보를 얻는 것입니다. IMU 센서와 카메라가 촬영한 컬러 사진을 통해 인간의 움직임, 3차원 장면의 희박한 포인트 클라우드를 재구성하고 장면에서 사람의 위치를 ​​찾습니다. 우리는 희박 관성 모션 캡처 및 SLAM 기술의 보완적인 이점을 완전히 활용하기 위해 깊게 결합된 프레임워크를 설계합니다. 이 프레임워크에서는 인간 모션 사전이 SLAM의 여러 주요 구성 요소와 결합되고 SLAM의 포지셔닝 결과도 인간 모션 캡처에 피드백됩니다. 그림 4에서 볼 수 있듯이 기능에 따라 시스템을 관성 모션 캡처 모듈(Inertial Motion Capture), 카메라 추적 모듈(Camera Tracking), 매핑 및 폐쇄 루프 감지 모듈(Mapping)의 네 가지 모듈로 나눕니다. & Loop Closing) 및 인간 움직임 업데이트 모듈(Body Translation Updater). 각 모듈은 아래에 소개되어 있습니다.

관성 모션 캡처

관성 모션 캡처 모듈은 6개의 IMU 측정값을 통해 인간의 자세와 모션을 추정합니다. 이 모듈의 디자인은 이전 PIP [1] 작업을 기반으로 하지만 이 작업에서는 더 이상 장면이 평평한 지면이라고 가정하지 않고 3D 공간에서 자유로운 인간 움직임을 캡처하는 것을 고려합니다. 이를 위해 본 논문에서는 PIP 최적화 알고리즘을 적응적으로 수정합니다.

구체적으로 이 모듈은 먼저 다단계 순환 신경망을 통해 IMU 측정을 통해 인간의 관절 회전, 속도, 발 및 지면 접촉 확률을 예측합니다. PIP에서 제안하는 듀얼 PD 컨트롤러는 인간 관절의 최적 제어 각가속도6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.와 선형 가속도6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.를 해결하는 데 사용됩니다. 이어서, 이 모듈은 접촉 제약 조건 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.C:

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

을 만족하면서 PD 컨트롤러에 의해 제공되는 가속도를 달성할 수 있도록 인체의 자세 가속도

를 최적화합니다. J 는 조인트 야코비 행렬이고, 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.는 지면에 닿는 발의 선형 속도이며, 제약 조건 C에서는 지면에 닿는 발의 속도가 작아야 합니다(아니요). 미끄러짐이 발생합니다). 이 2차 계획법 문제를 해결하려면 PIP[1]을 참조하세요. 자세 가속도 통합을 통해 인체 자세와 모션을 획득한 후, 후속 모듈에서는 인체에 ​​바인딩된 카메라의 자세를 획득할 수 있습니다.

카메라 추적

카메라 추적 모듈은 관성 모션 캡처 모듈에서 제공하는 초기 카메라 자세와 카메라에서 캡처한 컬러 이미지를 입력으로 사용하고, 이미지 정보를 사용하여 카메라 자세를 최적화하고 위치 드리프트를 제거합니다. 구체적으로, 이 모듈은 ORB-SLAM3 [2]를 기반으로 설계되었습니다. 먼저 이미지의 ORB 특징점을 추출하고 특징 유사성을 사용하여 재구성된 희소 지도 점(아래 설명)과 특징 매칭을 수행하여 일치하는 2D-3D 점을 얻습니다. 그런 다음 재투영 오류를 최적화하여 카메라 포즈를 최적화합니다. 재투영 오류만 최적화하면 잘못된 일치의 영향을 받아 카메라 포즈 최적화 결과가 좋지 않을 수 있다는 점은 주목할 가치가 있습니다. 따라서 이 기사에서는 카메라 추적 최적화에 인간의 움직임 사전 정보를 통합하고, 관성 모션 캡처 결과를 제약 조건으로 사용하고, 재투영 오류의 최적화 프로세스를 제한하고, 잘못된 특징 포인트 맵 포인트 매칭을 시기적절하게 발견하고 제거합니다.

지도 지점의 세계 좌표를 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.로 기억하고 일치하는 2D 이미지 특징점의 픽셀 좌표를 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.로 기억하여 모든 일치 관계를 나타냅니다.

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

이 최적화 전 초기 카메라 포즈를 나타내도록 하면 이 모듈은 카메라 포즈를 최적화합니다. R,t:

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

그중에서 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.은 후버 커널 함수 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.는 3차원 회전을 3차원 벡터 공간으로 매핑하고, 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.는 원근 투영 작업이며, 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.은 모션 캡처 회전 계수와 변환 조건을 제어합니다. 이 최적화는 세 번 수행되며, 매번 재투영 오류를 기준으로 2D-3D 일치 항목을 올바른 항목과 잘못된 항목으로 분류합니다. 다음 최적화에서는 올바른 항목만 사용하고 잘못된 일치 항목은 삭제합니다. 모션 캡처 제약 조건을 통해 제공되는 강력한 사전 지식을 통해 이 알고리즘은 올바른 일치와 잘못된 일치를 더 잘 구별할 수 있으므로 카메라 추적 정확도가 향상됩니다. 카메라 포즈를 해결한 후 이 모듈은 정확하게 일치하는 맵 포인트 쌍의 수를 추출하고 이를 카메라 포즈의 신뢰성으로 사용합니다.

매핑 및 루프 폐쇄 감지

매핑 및 루프 폐쇄 감지 모듈은 키 프레임을 사용하여 희소 지도 지점을 재구성하고 누적 오류를 수정하기 위해 인체가 원래 위치에 도달했는지 여부를 감지합니다. 매핑 프로세스 중에 모션 캡처 제한 번들 조정(번들 조정, BA)을 사용하여 희소 맵 포인트 위치와 키프레임 카메라 포즈를 동시에 최적화하고 맵 포인트 신뢰도를 도입하여 모션 캡처 제약 조건과 재투영의 상대적 강도의 동적인 균형을 맞춥니다. 오류 용어를 통해 결과의 정확성이 향상됩니다. 인간의 움직임에 폐쇄 루프가 발생하면 모션 캡처 지원 포즈 그래프 최적화가 수행되어 폐쇄 루프 오류를 수정합니다. 마지막으로, 다음 프레임에서 알고리즘을 실행하는 데 사용되는 최적화된 스파스 맵 포인트 위치와 키 프레임 포즈를 얻습니다.

구체적으로 이 모듈은 먼저 후속 BA 최적화에 사용되는 지도 지점 관찰을 기반으로 신뢰 수준을 계산합니다. 아래 그림 5에서 볼 수 있듯이, 관찰된 지도 지점의 키 프레임 위치에 따라 이 모듈은 키 프레임 기준선 길이 bi와 관찰 각도 θi를 계산하여 지도 지점 i의 신뢰도 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.를 결정합니다. 여기서 k는 제어 계수.

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

그림 5 (a) 맵 포인트 신뢰도 계산. (b) 동일한 기준선 길이 b1=b2를 사용하면 더 큰 관찰 각도(파란색)가 카메라 자세의 교란에 더 잘 저항할 수 있으므로 지도 지점 위치 오류가 더 작아집니다(e1

그런 다음 마지막 20개 키프레임과 관찰된 지도 지점의 카메라 포즈를 동시에 최적화합니다. 이러한 맵 포인트를 보는 다른 키프레임 포즈는 최적화 중에 고정됩니다. 모든 최적화 가능한 키 프레임 집합을 K0으로, 모든 고정 키 프레임 집합을 Kf로, 키 프레임 j로 측정된 맵 포인트 집합을 Xj로 나타냅니다. note

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

는 최적화해야 하는 키프레임 방향과 3차원 위치를 나타내고,

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

은 지도 지점 위치를 나타냅니다. 그런 다음 모션 캡처 제약 조건의 빔 조정 최적화는 다음과 같이 정의됩니다.

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

여기서

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

은 키 프레임 j의 이전 키 프레임을 나타냅니다.

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

은 모션 캡처 제약 조건의 계수입니다. 이 최적화를 위해서는 맵 포인트의 재투영 오류가 작아야 하며 각 키 프레임의 회전 및 상대 위치가 모션 캡처 결과에 가까워야 합니다. 맵 포인트 신뢰도 ci는 모션 캡처 제약 조건과 맵 포인트를 동적으로 결정합니다. 재투영 항목 간의 상대적 무게 관계: 완전히 재구성되지 않은 영역의 경우 시스템은 모션 캡처 결과를 믿을 가능성이 더 높으며, 반대로 영역을 반복적으로 관찰하면 시스템이 시각적 추적을 믿으세요. 최적화된 요인 그래프 표현은 아래 그림 6에 나와 있습니다.


6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

그림 6 모션 캡처 제약 조건에 대한 빔 조정 방법의 최적화 계수 그래프 표현.

궤적 폐쇄 루프가 감지되면 시스템은 폐쇄 루프 최적화를 수행합니다. ORB-SLAM3 [2]를 기반으로 포즈 그래프의 꼭지점 집합은 F이고 가장자리 집합은 C입니다. 그런 다음 모션 캡처 제약 조건의 포즈 그래프 최적화는 다음과 같이 정의됩니다.

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

그 중 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.은 키프레임 j의 포즈, 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.는 포즈맵 최적화 전 키프레임 i와 j의 상대적 포즈, 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.는 모션캡처로 얻은 카메라 포즈의 초기값이다. , 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다. 포즈를 6차원 벡터 공간으로 매핑합니다. 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.은 모션 캡처 제약 조건의 상대 계수입니다. 이 최적화는 이전 모션 캡처에 의해 안내되며 폐쇄 루프 오류를 각 키프레임에 분산시킵니다.

인간 모션 업데이트

인간 모션 업데이트 모듈은 최적화된 카메라 포즈와 카메라 추적 모듈의 신뢰성을 사용하여 모션 캡처 모듈에서 제공하는 인체의 전역 위치를 업데이트합니다. 이 모듈은 칼만 필터의 예측-수정 알고리즘을 사용하여 구현됩니다. 그 중 모션 캡처 모듈은 인체 모션 가속도의 일정한 변화를 제공하여 인체의 전체 위치(사전 분포)를 예측하는 데 사용할 수 있으며, 카메라 추적 모듈은 다음과 같은 데 사용되는 카메라 위치 관찰 및 신뢰도를 제공합니다. 인체의 전체적인 위치를 수정합니다(후방 분포). 그 중 카메라 위치 관찰의 공분산 행렬 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.은 대략 다음과 같은 대각 행렬로 일치하는 지도 지점의 수로 계산됩니다. 제수가 0이 되는 것을 방지합니다. 즉, 카메라 추적에서 성공적으로 일치하는 지도 지점의 수가 많을수록 카메라 자세 관측의 분산이 작아집니다. 칼만 필터 알고리즘은 인체의 전역 위치를 최종적으로 예측하는 데 사용됩니다.

더 자세한 방법 소개와 공식 도출은 논문의 원문과 부록을 참고해주세요. 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

실험

Mocap과의 비교이 방법은 주로 희소 관성 모션 캡처(Mocap)에서 전역 위치 드리프트 문제를 해결하므로 주요 테스트 지표는 인체의 전역 위치 오류입니다. TotalCapture와 HPS의 두 공개 데이터 세트에 대한 SOTA mocap 방법 TransPose[3], TIP[4] 및 PIP[1]의 정량적 테스트 결과 비교는 아래 표 1에 나와 있습니다. 아래 그림 7과 8에 나와 있습니다. 이 기사의 방법은 전역 위치 정확도(TotalCapture 및 HPS에서 각각 41% 및 38% 향상)에서 이전 관성 모션 캡처 방법을 크게 초과하고 궤적이 실제 값과 가장 높은 유사성을 가짐을 알 수 있습니다. 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

표 1 관성 모션 캡처 작업과 전역 위치 오류의 정량적 비교(단위: 미터). TotalCapture 데이터 세트는 액션별로 분류되고, HPS 데이터 세트는 장면별로 분류됩니다. 우리 작업에서는 9번의 테스트를 거쳐 중앙값과 표준편차를 보고합니다.

그림 7 관성 모션 캡처 작업과 전역 위치 오류의 질적 비교. 실제 값은 녹색으로 표시되고, 다양한 방법의 예측 결과는 파란색으로 표시됩니다. 각 이미지의 모서리에는 인체의 이동 궤적과 현재 위치(주황색 점)가 표시됩니다.

그림 8 관성 모션 캡처 작업과 전역 위치 오류의 질적 비교(비디오). 실제 값은 녹색으로 표시되고, 본 논문의 방법은 흰색으로 표시되며, 이전 작업의 방법은 다른 색상을 사용합니다(범례 참조).

SLAM과의 비교

이 기사에서는 위치 정확도와 지도 재구성 정확도라는 두 가지 관점에서 SOTA SLAM 작업 ORB-SLAM3[2]의 단안 및 단안 관성 버전을 비교합니다. 위치 정확도의 정량적 비교 결과는 표 2에 나와 있습니다. 지도 재구성 정확도의 정량적 비교 결과는 Table 3에, 정성적 비교 결과는 Figure 9에 나타내었다. SLAM과 비교하여 본 논문의 방법은 시스템 견고성, 위치 정확도 및 지도 재구성 정확도를 크게 향상시키는 것을 볼 수 있습니다.

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

표 2 SLAM 작업과 위치 오차의 정량적 비교(오차 단위: 미터). M/MI는 각각 ORB-SLAM3의 단안/단안 관성 버전을 나타내고, On/Off는 SLAM의 실시간 및 오프라인 결과를 나타냅니다. SLAM은 종종 추적을 잃기 때문에 SLAM에 대해 전체 시퀀스(전체) 및 성공적으로 추적된 프레임(추적)에 대한 평균 위치 지정 오류를 각각 보고합니다. 이 방법에는 추적 손실이 없으므로 전체 시퀀스의 결과를 보고합니다. 각 방법은 9회 테스트되었으며 중앙값과 표준편차가 보고되었습니다. 성공적으로 추적된 프레임에 대한 오류의 경우 성공률을 추가로 보고합니다. 메서드가 여러 번 실패하면 이를 실패로 표시합니다("-"로 표시).

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

표 3 SLAM 작업으로 인한 지도 재구성 오류의 정량적 비교(오차 단위: 미터). M/MI는 각각 ORB-SLAM3의 단안/단안 관성 버전을 나타냅니다. 세 가지 다른 장면(사무실, 실외, 공장)에 대해 장면 표면 형상에서 재구성된 모든 3D 지도 지점의 평균 오류를 테스트합니다. 각 방법은 9회 테스트되었으며 중앙값과 표준편차가 보고되었습니다. 메서드가 여러 번 실패하면 이를 실패로 표시합니다("-"로 표시).

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

그림 9 SLAM 작업과 지도 재구성 오류의 질적 비교. 다양한 방법으로 재구성된 장면 포인트를 표시하며, 색상은 각 포인트의 오류를 나타냅니다.

또한 이 시스템은 인간의 움직임을 사전에 도입하여 시각적 추적 손실에 대한 견고성을 크게 향상시킵니다. 시각적 특징이 좋지 않은 경우 이 시스템은 다른 SLAM 시스템과 같이 추적 및 재설정 또는 새 지도 생성을 잃지 않고 추적을 계속하기 위해 인간의 움직임을 활용할 수 있습니다. 아래 그림 10과 같습니다.

6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.

그림 10 SLAM 작업과 교합 견고성 비교. 실제 궤적 참조는 오른쪽 상단에 표시됩니다. SLAM 초기화의 무작위성으로 인해 전역 좌표계와 타임스탬프가 완전히 정렬되지 않습니다.

더 많은 실험 결과는 논문 원문, 프로젝트 홈페이지, 논문 영상을 참고해주세요.

요약

이 논문은 실시간 동시 인간 모션 캡처, 위치 지정 및 매핑을 달성하기 위해 관성 모캡과 SLAM을 결합한 최초의 작업을 제안합니다. 이 시스템은 6개의 관성 측정 장치와 휴대폰 카메라를 포함하여 신체에 착용하는 소수의 센서 세트만 필요할 정도로 가볍습니다. 온라인 추적의 경우 제한된 최적화와 Kalman 필터링 기술을 통해 mocap과 SLAM을 융합하여 보다 정확한 인간 위치 지정을 달성합니다. 백엔드 최적화를 위해 SLAM의 빔 조정 최적화 및 폐쇄 루프 최적화에 앞서 사람의 움직임을 통합함으로써 위치 지정 및 매핑 오류가 더욱 감소됩니다.

이 연구는 인간의 신체 인식과 환경에 대한 인식을 통합하는 것을 목표로 합니다. 이 작업은 주로 현지화 측면에 초점을 맞추고 있지만, 우리는 이 작업이 공동 모션 캡처와 세밀한 환경 인식 및 재구성을 향한 첫 번째 단계를 나타낸다고 믿습니다.

위 내용은 6개의 관성 센서와 휴대폰으로 인체 모션 캡처, 포지셔닝 및 환경 재구성을 실현합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제