Home  >  Article  >  Technology peripherals  >  CVPR'24 Highlight | One framework to generate character movements, down to hand movements

CVPR'24 Highlight | One framework to generate character movements, down to hand movements

王林
王林Original
2024-07-17 02:09:301002browse
CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动
The AIxiv column is a column where academic and technical content is published on this site. In the past few years, the AIxiv column of this site has received more than 2,000 reports, covering top laboratories from major universities and companies around the world, effectively promoting academic exchanges and dissemination. If you have excellent work that you want to share, please feel free to contribute or contact us for reporting. Submission email: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

The author of this article, Jiang Nan, is a second-year doctoral student in the School of Intelligence, Peking University, with the instructor Professor Zhu Yixin, and Dr. Huang Siyuan from the Beijing Institute of General Artificial Intelligence. Jointly carry out research work. His research focuses on human-object interaction understanding and digital human action generation, and he has published multiple papers at top conferences such as ICCV, CVPR and ECCV.

In recent years, research on character action generation has made significant progress and has received widespread attention in many fields, such as computer vision, computer graphics, robotics, and human-computer interaction. However, most existing work only focuses on the action itself, and research using both scene and action categories as constraints is still in its infancy.

In order to solve this problem, the Beijing Institute of General Artificial Intelligence, together with researchers from Peking University and Beijing Institute of Technology, proposed an action generation framework using the autoregressive conditional diffusion model to achieve real, semantic, and scene-compliant actions. And action generation without length limit. In addition, the article released the large-scale character-scene interaction data set TRUMANS, which contains accurate and rich annotation information for character actions and three-dimensional scenes.

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

  • Paper link: https://arxiv.org/pdf/2403.08629
  • Project homepage: https://jnnan.github.io/trumans/
  • Code and data link: https ://github.com/jnnan/trumans_utils

Research overview

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

                                                                                                    TRUMANS dataset

with The interaction of scene objects is an important part of people's daily activities, such as sitting on a chair, picking up a bottle, or opening a drawer. Nowadays, simulating human body movements has become an important task in the fields of computer vision, computer graphics, robotics, and human-computer interaction. The core goal of generating human motion is to create natural, realistic, and diverse dynamic patterns. The rise of deep learning technology has led to the rapid development of human action generation methods. Major breakthroughs in human body modeling technology have also made it easier to build a huge human action database. Based on these developments, data-driven human action generation technology has received increasing attention from the research community in recent years.

Currently, most action generation methods use semantics as a control variable, and the research on generating actions under given interactive objects [1] and scenes [2] is still in its infancy, mainly due to the lack of high-quality human body Action and scene interaction data set. Existing real-scene datasets still fall short in terms of human motion capture quality. Although motion capture datasets recorded with devices such as VICON can bring quality improvements, these datasets lack the diversity of human-object interactions in 3D scenes. Recently, synthetic data sets using virtual simulation technology have attracted the attention of researchers due to their low cost and high adaptability.

Aiming at the shortcomings of existing methods, this paper proposes an action generation framework that integrates scene and semantic information. It is driven by an autoregressive diffusion model and can generate actions given action categories and path points. Character actions that conform to scene constraints. In order to obtain action data in the scene, this work releases a new character-scene interaction data set TRUMANS, which contains 15 hours of action data captured in the real world and synthesized into 3D virtual scenes, covering bedrooms, restaurants, offices, etc. 100 scene configurations. TRUMANS encompasses a comprehensive range of everyday behaviors including pathfinding, object manipulation, and interaction with rigid and articulated objects.

Action generation framework

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

ㅋㅋ ~  그림 2. 본 글에서 제안하는 액션 생성 프레임워크는 자동 회귀 메커니즘을 사용하여 장면과 액션 카테고리를 조건으로 사용하여 액션 생성을 제어합니다.
본 연구에서 제안한 방법은 자동 회귀 접근 방식을 사용하여 하나씩 작업을 생성합니다. 세그먼트 내의 초기 동작은 이전 세그먼트의 끝에서 시작되고 후속 동작은 확산 모델에 의해 생성됩니다. 생성된 액션이 장면 제약 조건을 따르도록 하기 위해 저자는 공간 점유 그리드를 기반으로 하는 로컬 장면 퍼셉트론을 제안합니다. 이는 각 액션이 끝날 무렵의 환경 특성을 인코딩하고 이를 액션 생성 모델의 조건에 통합합니다. . 프레임별 동작 레이블을 제어 가능한 조건으로 통합하기 위해 동작 정보 인코더는 시간 정보를 동작 세그먼트에 통합하여 모델이 언제든지 명령을 받아들이고 주어진 동작 레이블을 따르는 동작을 생성할 수 있도록 합니다.
본 글에서 제안하는 방법은 경로 궤적 제약과 정밀한 관절 위치 제어를 지원할 수 있습니다. 본 논문의 방법은 자동회귀 세그먼트별 생성 메커니즘을 채택하므로, 액션 생성의 각 세그먼트에 대한 하위 목표를 설정하여 경로 및 관절 제약 조건을 달성할 수 있습니다. 걷기 모션 제어의 경우 각 하위 목표는 현재 세그먼트 끝의 수평면에서 캐릭터 골반의 사전 설정된 위치를 설명합니다. 모델은 현재 세그먼트의 시작 위치와 끝 위치 사이의 장면 정보를 기반으로 골반 운동 궤적을 포함한 전신 움직임을 생성합니다. 예를 들어 하위 대상이 의자에 있으면 캐릭터가 앉아야 합니다. 물체를 잡는 동작과 관련된 동작의 경우 손 위치 제어에도 동일한 기술이 사용됩니다. 예를 들어, 병을 잡거나 문을 미는 등의 동작을 생성할 때 손 관절 위치를 하위 타겟으로 설정하고, 사용자가 객체에 원하는 위치를 설정합니다. 모델은 관절의 소음을 없애고 나머지 인간 동작을 채웁니다. 물체에 대한 손의 상대적인 위치를 최적화함으로써 더욱 미세한 접촉이 달성됩니다.
로컬 장면 퍼셉트론은 로컬 장면 기하학 정보를 얻고 이를 모션 생성의 조건으로 사용하는 데 사용됩니다. 구체적으로, 주어진 시나리오에서 전역 점유 그리드가 먼저 생성되고 각 셀에는 도달 가능 여부를 나타내는 부울 값이 할당됩니다. 1은 도달 가능을 나타내고 0은 도달 불가능을 나타냅니다. 로컬 점유 그리드는 현재 루프 섹션의 하위 대상을 중심으로 하는 3차원 그리드로, 수직 범위는 0~1.8미터이며 첫 번째 프레임에서 캐릭터 골반의 요 방향과 정렬되도록 방향이 지정됩니다. 로컬 점유 그리드의 값은 글로벌 점유 그리드를 쿼리하여 얻습니다. 본 논문에서는 ViT(Vision Transformer)를 사용하여 복셀 그리드를 인코딩하는 방법을 제안합니다. 토큰은 xy 평면을 따라 로컬 점유 그리드를 분할하고 z축을 기능 채널로 처리하여 구성되며 이러한 토큰을 ViT 모델에 입력합니다. ViT로 인코딩된 장면 출력은 액션 생성 모델의 조건으로 사용됩니다.
단일 액션 설명을 기반으로 완전한 액션 시퀀스를 생성하는 이전 방법과 달리, 본 논문에서는 장기 액션을 생성할 때 프레임별로 액션 레이블을 조건으로 사용합니다. 이 모델에서는 특정 작업이 하나의 주기 섹션을 넘어 확장되어 여러 주기 섹션에서 계속될 수 있습니다. 따라서 모델은 작업 실행의 진행 상황을 이해해야 합니다. 이 문제를 해결하기 위해 이 연구에서는 프레임별 작업 범주 라벨링을 지원하는 진행 식별자를 도입합니다. 구체적인 구현 방법은 원래 멀티 핫 작업 태그의 완전한 상호 작용마다 시간에 따라 선형적으로 증가하는 0과 1 사이의 숫자를 추가하는 것입니다. 이러한 작업을 통해 모델은 여러 루프 섹션에 걸쳐 있는 작업에 대처하고 생성된 작업 시퀀스의 의미 무결성과 연속성을 향상할 수 있습니다.

Dataset
이 기사에서는 데이터 품질과 규모를 모두 포함하여 3D 합성 장면을 물리적 환경에 정확하게 복제하는 새로운 캐릭터-장면 상호 작용 데이터 세트 TRUMANS를 출시합니다. 침실, 거실, 사무실 등을 포함한 100개의 실내 장면을 지원하는 15시간의 긴 시퀀스 인간 모션 캡처. 비록 합성된 장면이지만, 작가는 각 합성 장면을 꼼꼼하게 복원하여 사람과 사물의 상호작용이 자연스럽고 정밀하게 유지되도록 합니다. TRUMANS 액션은 길 찾기, 잡기, 단단하고 연결된 물체와의 상호 작용을 포함한 일상적인 인간 행동을 다룹니다. 데이터의 확장성을 더욱 향상시키기 위해 이 기사에서는 기존 데이터를 기반으로 데이터 향상 방법을 적용하여 데이터 세트의 개체가 특정 범위 내에서 위치와 크기를 변경할 수 있고 캐릭터의 동작이 이에 맞게 자동으로 업데이트됩니다. 변화들. 그림 3. TRUMANS 모션 캡처 데이터 세트的 그림 4. 변화하는 객체의 크기에 따라 자동으로 액션을 조정하고 데이터 규모를 효율적으로 확장

실험 결과
다음은 액션 생성 방법의 적용 시나리오입니다. 이 기사에서 제안했습니다.
(1) 이 방법은 주어진 경로 핵심 포인트를 기반으로 다양한 장면에서 걷는 동작을 생성할 수 있으며, 캐릭터는 장면의 장애물에 대해 자연스러운 피드백을 갖습니다.
(2) 이 기사의 방법은 손에 들고 작은 물체를 파악하고 대화형 액션을 생성하는 데 적합합니다. 예를 들어, 테이블 위에 놓인 물병에 다가가서 물을 마시는 동작을 취해보세요. 완료 과정에서 장면 레이아웃에 따라 작업을 조정해야 합니다.
(3) 주어진 손 움직임 궤적을 기반으로 궤적을 만족하고 장면의 객체와 충돌하지 않는 전신 동작을 생성합니다.成 그림 5. 액션 생성의 다양성

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

그림 6. 손의 움직임 궤적과 장면의 전신 움직임을 고려 7. 손에 들고 있는 작은 물체의 인터랙티브 액션 생성

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

순서. 이 방법의 성능을 정량화하기 위해 저자는 대화형 개체가 움직일 수 있는지 여부에 따라 두 가지 평가 시스템 세트를 구성했습니다. 정적 대화형 개체의 경우 이 기사에서 평가되는 작업에는 현장에 앉기, 누워서 걷기 등이 포함됩니다. 평가 지표는 주로 액션이 장면을 가로지르는지, 발이 미끄러지는지 여부와 생성 품질에 대한 주체의 주관적인 평가에 중점을 둡니다. 동적 대화형 개체의 경우 이 문서에서는 파악 프로세스와 후속 대화형 작업에 중점을 둡니다. 평가지표는 해당 행위가 주어진 카테고리에 부합하는지, 행위의 다양성, 곰팡이 침투 정도, 피험자의 주관적 평가를 정량화한다. 또한 이 연구에서는 TRUMANS와 기존 PROX 및 GRAB 데이터 세트를 사용한 훈련을 통해 얻은 동작 생성의 품질을 비교합니다. 실험 결과는 본 논문에서 제안한 방법의 우수성과 TRUMANS 데이터가 캐릭터-장면 상호작용 생성 작업에 가져오는 전반적인 품질 향상을 확인시켜준다.

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

 ~         

The above is the detailed content of CVPR'24 Highlight | One framework to generate character movements, down to hand movements. For more information, please follow other related articles on the PHP Chinese website!

Statement:
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn