가상 현실, 증강 현실, 게임 및 인간-컴퓨터 상호 작용 분야에서는 가상 캐릭터가 화면 외부의 플레이어와 상호 작용할 수 있도록 해야 하는 경우가 많습니다. 이 상호 작용은 실시간으로 이루어지므로 가상 캐릭터가 운영자의 움직임에 따라 동적으로 조정되어야 합니다. 아바타로 의자를 움직이는 것과 같은 일부 상호 작용에는 개체가 포함되기도 하는데, 이는 운영자 손의 정확한 움직임에 특별한 주의가 필요합니다. 지능적이고 상호작용적인 가상 캐릭터의 출현은 인간 플레이어와 가상 캐릭터 간의 사회적 경험을 크게 향상시키고 새로운 엔터테인먼트 방식을 가져올 것입니다.
본 연구에서 저자는 인간과 가상 인간 사이의 상호작용 과제, 특히 사물과 관련된 상호작용 과제에 주목하고, 온라인 전신 행동 반응 합성이라는 새로운 과제를 제안한다. 새로운 작업은 인간의 움직임을 기반으로 가상의 인간 반응을 생성합니다. 이전 연구는 주로 작업의 개체를 고려하지 않고 인간과 인간의 상호 작용에 중점을 두었으며 생성된 신체 반응에는 손 움직임이 포함되지 않았습니다. 또한, 이전 연구에서는 작업을 온라인 추론으로 처리하지 않았습니다. 실제 상황에서 가상 인간은 구현 상황을 기반으로 다음 단계를 예측합니다.
새로운 작업을 지원하기 위해 저자는 먼저 각각 HHI와 CoChair라는 두 개의 데이터 세트를 구축하고 통일된 방법을 제안했습니다. 구체적으로, 저자는 먼저 사회적 어포던스 표현을 구성합니다. 이를 위해 그들은 사회적 어포던스 벡터를 선택하고 SE(3) 등변 신경망을 사용하여 벡터에 대한 로컬 좌표계를 학습한 후 마지막으로 소셜 어포던스를 정규화합니다. 또한 저자는 가상 인간이 예측을 기반으로 의사결정을 내릴 수 있도록 하는 사회적 여유도 예측 방식도 제안합니다.
연구 결과에 따르면 이 방법은 HHI 및 CoChair 데이터 세트에서 고품질 반응 동작을 효과적으로 생성할 수 있으며 A100에서 초당 25프레임의 실시간 추론 속도를 달성할 수 있는 것으로 나타났습니다. 또한 저자는 기존 인간 상호 작용 데이터 세트인 Interhuman 및 Chi3D에 대한 검증을 통해 방법의 효율성도 입증합니다.
자세한 내용은 다음 문서 주소를 참조하세요: [https://arxiv.org/pdf/2312.08983.pdf]. 여전히 퍼즐을 풀 방법을 찾고 있는 플레이어에게 도움이 되기를 바랍니다.
퍼즐 풀이 방법에 대한 자세한 내용은 프로젝트 홈페이지 https://yunzeliu.github.io/iHuman/을 방문하세요.
이 기사에서 저자는 온라인 전신 동작 반응 합성 작업을 지원하기 위해 두 개의 데이터 세트를 구성했습니다. 그 중 하나는 2인 상호작용 데이터 세트 HHI이고, 다른 하나는 2인 상호작용 데이터 세트 CoChair입니다. 이 두 데이터 세트는 연구자에게 전신 모션 합성 분야를 더 깊이 탐구할 수 있는 귀중한 리소스를 제공합니다. HHI 데이터세트는 두 사람 사이의 다양한 상호작용을 기록하고, CoChair 데이터세트는 두 사람과 사물 사이의 상호작용을 기록합니다. 이러한 데이터 세트의 구축은 연구자에게 더 많은 실험을 제공합니다
HHI 데이터 세트는 30개의 상호 작용 범주, 10쌍의 인간 골격 유형 및 총 5000개의 골격 유형을 포함하는 대규모 전신 동작 반응 데이터 세트입니다. 대화형 시퀀스.
HHI 데이터 세트에는 세 가지 특징이 있습니다. 첫 번째 특징은 신체와 손의 상호작용을 포함하여 여러 사람의 전신 상호작용이 포함된다는 것입니다. 저자는 여러 사람의 상호 작용에서 악수, 포옹, 핸드오버 중에 손의 상호 작용을 무시할 수 없다고 믿습니다. 두 번째 특징은 HHI 데이터 세트가 명확한 행동 개시자와 반응자를 구별할 수 있다는 것입니다. 예를 들어, 악수, 방향 지시, 인사, 인도 등의 상황에서 HHI 데이터세트는 행동의 개시자를 식별할 수 있으며, 이는 연구자가 문제를 더 잘 정의하고 평가하는 데 도움이 됩니다. 세 번째 특징은 HHI 데이터 세트에는 두 사람 사이의 30가지 유형의 상호 작용을 포함할 뿐만 아니라 동일한 행위자에 대해 여러 가지 합리적인 반응을 제공하는 등 더욱 다양한 유형의 상호 작용 및 반응이 포함되어 있다는 것입니다. 예를 들어, 누군가가 당신에게 인사할 때 고개를 끄덕이거나 한 손으로 응답하거나 양손으로 응답할 수 있습니다. 이는 자연스러운 특징이기도 하지만 이전 데이터 세트에서는 거의 관심을 기울이거나 논의되지 않았습니다.
CoChair는 총 3000개의 시퀀스에 대해 8개의 의자, 5개의 상호 작용 모드 및 10쌍의 다양한 골격을 포함하는 대규모 다중 사용자 및 개체 상호 작용 데이터 세트입니다. CoChair에는 두 가지 중요한 특성이 있습니다. 첫째, CoChair는 협업 과정에서 정보 비대칭성을 가지고 있습니다. 모든 작업에는 실행자/개시자(휴대품의 목적지를 아는 사람)와 응답자(목적지를 모르는 사람)가 있습니다. 둘째, 다양한 휴대 모드가 있습니다. 데이터 세트에는 한 손 고정 휴대, 한 손 모바일 휴대, 양손 고정 휴대, 양손 모바일 휴대, 양손 유연한 휴대 등 5가지 운반 모드가 포함되어 있습니다.
소셜 어포던스 캐리어는 소셜 어포던스 정보를 인코딩하는 객체 또는 사람을 의미합니다. 인간이 가상 인간과 상호 작용할 때 인간은 일반적으로 가상 인간과 직접 또는 간접적으로 접촉하게 됩니다. 그리고 사물의 경우 인간은 일반적으로 사물을 만집니다.
상호작용에서 직접적이거나 잠재적인 접촉 정보를 시뮬레이션하려면 인간, 벡터 자체 및 이들 사이의 관계를 동시에 나타내는 벡터를 선택해야 합니다. 본 연구에서 캐리어는 인간이 접촉할 수 있는 사물이나 가상의 인간 템플릿을 의미한다.
이를 바탕으로 저자는 통신사 중심의 사회적 여유 표현을 정의합니다. 구체적으로, 벡터가 주어지면 인간의 행동을 인코딩하여 조밀한 인간-차량 관절 표현을 얻습니다. 이 표현을 기반으로 저자는 인간 행동의 행동, 벡터의 동적 기하학적 특성, 각 시간 단계의 사람-차량 관계를 포함하는 사회적 어포던스 표현을 제안합니다.
소셜 어포던스 표현은 단일 프레임의 표현이 아닌 시작 순간부터 특정 시간 단계까지의 데이터 흐름을 의미한다는 점에 유의해야 합니다. 이 방법의 장점은 캐리어의 로컬 영역을 인간 행동 움직임과 밀접하게 연관시켜 네트워크 학습에 편리한 표현을 형성한다는 것입니다.
소셜 어포던스 표현을 통해 저자는 더욱 소셜 어포던스 정규화를 채택하여 표현 공간을 단순화합니다. 첫 번째 단계는 벡터의 로컬 프레임워크를 배우는 것입니다. SE(3) 등변 네트워크를 통해 캐리어의 로컬 좌표계를 학습합니다. 구체적으로 말하면, 인간의 행동은 먼저 각 지역 좌표계에서 행동으로 변환됩니다. 다음으로, 조밀한 벡터 중심 동작 표현을 얻기 위해 각 지점의 관점에서 인간 캐릭터의 동작을 조밀하게 인코딩합니다. 이는 "관찰자"를 차량의 각 로컬 지점에 바인딩하는 것으로 생각할 수 있으며, 각 "관찰자"는 1인칭 관점에서 인간 행동을 인코딩합니다. 이 접근 방식의 장점은 인간, 가상 인간, 사물 간의 접촉으로 생성된 정보를 모델링하는 동안 소셜 어포던스 정규화를 통해 소셜 어포던스의 분포를 단순화하고 네트워크 학습을 용이하게 한다는 것입니다.
가상 인간과 상호작용하는 인간의 행동을 예측하기 위해 저자는 소셜 어포던스 예측 모듈을 제안합니다. 실제 상황에서 가상 인간은 인간 행동의 역사적 역학만을 관찰할 수 있습니다. 저자는 가상 인간이 자신의 행동을 더 잘 계획하기 위해서는 인간의 행동을 예측할 수 있는 능력이 있어야 한다고 믿습니다. 예를 들어, 누군가 손을 들고 당신에게 다가올 때, 당신은 그 사람이 당신과 악수를 하려고 하고 그것을 받을 준비가 되어 있다고 가정할 수 있습니다.
훈련 단계에서 가상 인간은 인간의 모든 행동을 관찰할 수 있습니다. 실제 예측 단계에서 가상 인간은 인간 행동의 과거 역학만 관찰할 수 있습니다. 제안된 예측 모듈은 가상 인간에 대한 인식을 향상시키기 위해 인간이 취할 행동을 예측할 수 있습니다. 저자는 모션 예측 모듈을 사용하여 인간 행위자의 동작과 객체의 동작을 예측합니다. 2인 상호작용에서 저자는 HumanMAC을 예측 모듈로 사용했습니다. 2인-객체 상호작용에서 저자는 InterDiff를 기반으로 모션 예측 모듈을 구축하고, 사람-객체 접촉이 안정적이라는 사전 조건을 추가하여 객체 모션 예측의 어려움을 단순화했습니다.
정량 테스트를 통해 연구 방법이 모든 지표에서 기존 방법보다 우수한 것으로 나타났습니다. 방법의 각 설계의 효율성을 검증하기 위해 저자는 HHI 데이터 세트에 대한 절제 실험을 수행했습니다. 이 방법은 소셜 어포던스 정규화 없이는 성능이 크게 떨어지는 것을 볼 수 있습니다. 이는 기능 공간 복잡성을 단순화하기 위해 사회적 어포던스 정규화를 사용하는 것이 필요함을 시사합니다. 사회적 어포던스 예측이 없으면 우리 방법은 인간 행위자의 행동을 예측하는 능력을 상실하여 성능 저하를 초래합니다. 로컬 좌표계 사용의 필요성을 검증하기 위해 저자는 전역 좌표계를 사용했을 때의 효과도 비교한 결과, 로컬 좌표계가 훨씬 더 우수함을 알 수 있다. 이는 또한 지역 좌표계를 사용하여 지역 기하학과 잠재적인 접촉을 설명하는 것의 가치를 보여줍니다.
기사의 방법을 사용하여 훈련된 가상 캐릭터는 이전과 비교하여 더 빠르게 반응하고 로컬 제스처를 더 잘 캡처할 수 있어 협업 시 더욱 사실적이고 인터랙티브한 이미지를 생성하는 시각화 결과를 볼 수 있습니다. 잡는 행동.
자세한 연구 내용은 원본 논문을 참조하세요.
위 내용은 감성지능이 높은 NPC는 손을 내밀자마자 다음 동작에 협력할 준비가 되어 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!