>  기사  >  기술 주변기기  >  애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

WBOY
WBOY앞으로
2023-04-11 21:04:111765검색

AIGC에 새로운 마법이 생겼어요!

애니메이터의 손K가 필요하지 않으며, 습관 캡처나 빛 캡처도 필요하지 않습니다. 동영상만 제공하면 이 AI 모션 캡처 소프트웨어가 자동으로 동작을 출력합니다. 단 몇 분만에 가상인간의 애니메이션이 완성됩니다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

팔다리의 대형 프레임 움직임뿐만 아니라 손의 디테일까지 정확하게 포착할 수 있습니다.

단일 보기 비디오 외에도 다중 보기 비디오도 지원할 수 있습니다. 단안 인식만 지원하는 다른 모션 캡처 소프트웨어에 비해 이 소프트웨어는 더 높은 모션 캡처 품질을 제공할 수 있습니다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

동시에 소프트웨어는 인식된 인체 핵심 포인트, 부드러움, 발자국 세부 정보 등의 편집 및 수정도 지원합니다. 일반 플레이어의 관심 경험부터 하드코어 플레이어의 전문적인 요구까지 모든 것을 만족시킬 수 있습니다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

이것은 NetEase Interactive Entertainment AI Lab에서 수년 동안 개발한 AIxPose 비디오 모션 캡처 소프트웨어로, 전문적인 아트 피드백을 기반으로 지속적으로 반복적으로 최적화되고 로우 키입니다. 해당 소프트웨어는 수십 시간이 넘는 영상 리소스를 처리했으며 게임 플롯 애니메이션, 인기 댄스 애니메이션 및 기타 리소스 제작 과정에 사용된 것으로 알려졌다. 1분짜리 댄스 애니메이션을 손으로 제작하려면 20일 이상이 소요될 수 있지만, AIxPose 지원으로 제작하는 데는 3일밖에 걸리지 않으며, 전체 과정이 80% 이상 단축된다는 것이 실제 프로젝트를 통해 검증되었습니다.

최근 NetEase Interactive Entertainment AI Lab에서는 이 소프트웨어의 개발 경험과 모션 캡처 분야의 관련 연구 성과를 집대성하여 작성한 논문 "Learning Analytical Posterior Probability for Human Mesh Recovery"를 출판했습니다. CVPR 2023의 컴퓨터 비전 승인.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

  • 홈페이지 주소: https://netease-gameai.github.io/ProPose/
  • 논문 주소: https://netease-gameai.github.io/ProPose/static /assets/CVPR2023_ProPose.pdf

본 논문은 단일 이미지, 다중 센서 융합 등 다양한 설정에서 정확한 3차원 이미지를 얻을 수 있는 사후 확률 기반 비디오 모션 캡처 기술 ProPose를 혁신적으로 제안합니다. 견적. 기술적 정확도는 사전 분석을 사용한 기준 확률적 방법보다 19% 더 높으며, 공개 데이터 세트 3DPW, Human3.6M 및 AGORA에서 과거 방법보다 성능이 뛰어납니다. 또한 다중 센서 융합 작업의 경우 이 기술은 새로운 센서 도입으로 인해 신경망의 백본을 수정하지 않고도 기본 모델보다 더 높은 정확도를 달성할 수도 있습니다.

기술적 배경

본 연구의 과제는 RGB 이미지로부터 HMR(Human Mesh Recovery)을 예측하는 것입니다. 기존 방법은 직접 방법과 간접 방법의 두 가지 범주로 요약할 수 있습니다. 직접 방법은 신경망을 사용하여 인간 관절의 엔드투엔드 회전 표현(예: 축 각도, 회전 행렬, 6D 벡터 등)을 회귀하는 반면, 간접 방법은 먼저 일부 중간 표현(예: 3차원 표현)을 예측합니다. 차원의 핵심 포인트, 세분화 등)을 수행한 후 이러한 중간체를 통과하여 관절 회전이 획득되었음을 나타냅니다.

그러나 두 가지 방법 모두 몇 가지 문제가 있습니다. 직접 방법의 경우 이러한 유형의 방법은 네트워크가 회전과 같은 추상 표현을 직접 학습해야 하기 때문에 핵심 사항 및 분할 학습에 비해 회전 학습이 상대적으로 어렵기 때문에 네트워크에서 출력되는 결과가 이미지와 일치하기 어려운 경우가 있습니다. 아래 그림(a)의 첫 번째 행에 있는 오른발과 같은 일부 큰 동작은 뒤로 완전히 뻗을 수 없습니다. 대조적으로, 간접 방법은 일반적으로 더 높은 정확도를 생성하지만 이러한 유형의 방법의 성능은 중간 표현의 정확성에 크게 의존합니다. 중간 표현이 노이즈로 인해 오류를 생성하는 경우 최종 회전이 매우 명확해지기 쉽습니다. 아래 (b)의 두 번째 줄 왼쪽에 표시된 대로 오류가 발생합니다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

앞서 언급한 결정론적 방법 외에도 특정 확률 분포를 학습하여 인간 자세의 불확실성을 모델링함으로써 소음을 고려하고 시스템 견고성을 향상시키는 몇 가지 방법도 있습니다. 현재 주요 확률 모델링 방법에는 다변량 가우스 분포, 정규화된 흐름, 신경망 암시적 모델링 등이 포함되지만 non-SO(3)에 대한 이러한 확률 분포는 관절 회전의 불확실성을 실제로 반영할 수 없습니다. 예를 들어, 불확실성이 큰 경우 SO(3)에 대한 가우스 분포의 로컬 선형성 가정이 유지되지 않습니다. 최근 연구에서는 행렬 Fisher 분포의 매개변수를 학습하기 위해 네트워크를 직접 사용했습니다. 이는 SO(3)에 대한 분포이지만 이 방법의 학습 방법은 직접 방법과 유사하며 수렴 성능은 수렴 성능을 비교할 수 없습니다. 기존 간접 방식.

높은 정확성과 견고성을 모두 고려하고 확률적 방법의 성능을 향상시키기 위해 ProPose는 관절 회전의 분석적 사후 확률을 도출합니다. 이는 다양한 관찰 변수로 인한 높은 정확성의 이점을 누릴 수 있을 뿐만 아니라 불확실성을 측정하고 노이즈가 알고리즘에 미치는 영향을 최대한 줄입니다. 아래 그림과 같이 입력 영상에 대해 ProPose는 출력 확률 분포를 통해 다양한 방향의 관절 회전의 불확실성을 어느 정도 측정할 수 있습니다. 왼팔이 위아래로 흔들리는 정도, 왼쪽 종아리의 거리 정도 등.

기술적 구현

인체 모델링

이 연구의 목표는 뼈 방향과 같은 일부 관찰된 변수의 조건에서 관절 회전 R의 후방을 찾는 것입니다. d 등) 확률 p(R|d,⋯).

구체적으로 인체의 관절 회전은 SO(3)에 위치하고, 부모 관절을 기준으로 한 자식 관절의 단위 뼈 방향은 S^2에 위치하므로 확률을 기반으로 할 수 있습니다. 이 두 다양체에 대한 분포를 분석합니다.

먼저, SO(3)에 대한 행렬 Fisher 분포 MF(⋅)는 다음 공식 F∈R^(3×3)과 같이 관절 회전 R의 사전 분포로 사용될 수 있습니다. 는 이 분포의 매개변수이고, c(F)는 정규화 상수이고, tr은 행렬의 자취를 나타냅니다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

다음 수식에서 볼 수 있듯이 F는 평균 M과 SVD 분해를 통해 분포 집계 정도를 나타내는 집계 항 K에 대해 직접 풀 수 있습니다. 그 중 Δ=diag(1,1,|UV|)는 대각 직교행렬로, M의 행렬식을 1로 하여 특수 직교군에 속할 수 있도록 하기 위해 사용된다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

둘째, 관절 회전을 통해 뼈의 방향을 계산할 수 있다는 점을 고려하면 관절 회전 R은 은닉 변수로, 뼈 방향 d는 관찰 변수로 간주할 수 있습니다. 주어진 R, S^ 2의 단위 방향 d는 von Mises-Fisher 분포를 따릅니다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

여기서, κ∈R과 d∈S^2는 각각 분포의 집합항과 평균입니다. , l 은 기준 자세(예: T-pose의 단위 뼈 방향은 이론적으로 Rl=d를 만족합니다. 즉, 기준 뼈 방향은 관절 회전을 통해 현재 뼈 방향으로 전달됩니다.

베이지안 이론을 사용하여 사전 분포 p(R) 및 우도 함수 p(d|R)가 주어지면 뼈 방향을 조건으로 하는 관절 회전의 사후 확률 p(R|d)를 계산할 수 있습니다. 분석 형식 의 .

위의 사후 확률은 인간 골격의 방향만을 관찰량으로 고려한 것입니다. 마찬가지로 다른 방향의 관찰량 d_i 또는 회전 관찰량 D_j(IMU와 같은 다른 센서에 의해 생성될 수 있음)로 확장될 수도 있습니다. 등), 다음과 같이 구해집니다. 분석적 사후 확률의 일반적인 형태: 애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

여기서 κ_i와 K_j는 집계 용어입니다. g(⋅)는 방향 관찰을 회전 추정으로 변환할 수 있는 IK 형식의 매핑입니다. g(d_i)=dl^T와 같은 가장 간단한 형식을 취할 수 있습니다. Z_1과 Z_3은 각각 방향 관측 및 회전 관측 세트를 나타냅니다.

특성

이 섹션에서는 사후 확률 분포가 사전 확률 분포보다 집계 수준이 더 높다는 점을 추가로 설명합니다.

앞 섹션에서는 새로운 매개변수 F'를 특징으로 하는 인간 관절 회전의 사후 확률에 대한 분석 형식을 소개했습니다. 사후 매개변수 F^'는 다른 관점에서 이해될 수 있습니다. 즉, F^'는 F와 동일한 평균 항 M과 새로운 집계 항 K^'의 곱입니다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

여기서 M^T dl^ T=ll^T 는 랭크 1 실수대칭행렬이고, K 도 실수대칭행렬, 즉 사후집합항 K' 도 실수대칭행렬이다. 행렬해석에서 실수대칭행렬에 대한 시차정리(staggered theorem)에 따르면 K'의 고유값 ​​λ_i'와 K의 고유값 ​​λ_i는 다음과 같은 부등식 관계를 갖는다는 것을 얻을 수 있다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

집계항의 고유값은 분포와 동일합니다. 매개변수의 특이값은 분포의 신뢰도를 반영할 수 있습니다. 따라서 우도항이 0이 아닌 경우 사후 추정치가 더 크다는 결론을 내릴 수 있습니다. 이전 추정치보다 집중되어 우도 함수 선호 모드로 빠르게 수렴할 수 있으므로 더 쉽게 학습할 수 있습니다.

선험적 확률법 외에 또 다른 주요 벤치마킹 방법은 역운동학(IK)을 사용하여 뼈 방향을 통해 직접 회전을 계산하는 것입니다. 다음 그림은 사후 확률법과 결정론적 방법의 차이를 직관적으로 보여줍니다. IK 방법 사이의 대비.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

위 사진은 사람의 팔꿈치 관절을 예로 든 것입니다. 실제 3차원 좌표축은 실제 값을 나타내고, 투명한 3차원 좌표축은 추정값을 나타냅니다. 첫 번째 선은 결정론적 IK 방법을 나타냅니다. 이 유형의 모델링 방법은 뼈 방향을 나타내는 벡터입니다. 뼈 방향이 정확하게 추정되면 나머지 1 자유도(비틀림)는 원으로 축소될 수 있습니다. 그림 공의 점선 원) 뼈 방향이 부정확하게 추정되면 가능한 모든 추정치가 실제 값에서 벗어나게 됩니다. 두 번째 선은 다양한 유형의 모델을 융합한 본 연구의 사후 확률 모델을 나타냅니다. 구의 빨간색 영역은 뼈 방향 추정에 오류가 있더라도 특정 회전의 확률을 나타냅니다. , 이 방법은 선험적 또는 기타 관찰을 통해 뼈 방향의 노이즈를 최대한 완화할 수 있기 때문에 이를 실제 값으로 되돌릴 수 있습니다.

네트워크 프레임워크 다이어그램 및 손실 함수

앞서 설명한 이론과 도출을 바탕으로 아래 그림과 같은 프레임워크 다이어그램을 직접 구성할 수 있습니다. 다중 분기 네트워크는 단일 이미지에서 사전 분포 매개변수 F, 3차원 키 포인트 J(뼈 방향 d가 계산되는 기준) 및 모양 매개변수 β를 추정하는 데 사용됩니다. Bayes' rule을 통해 사후 확률을 계산하고, 최종적으로 사후 분포로부터 자세 추정을 구하여 휴먼 메쉬를 출력할 수 있다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

손실 함수의 선택은 비교적 간단하며 다음 네 가지 제약 조건의 가중 합입니다. 여기서 L_J는 키 포인트 제약 조건을 나타내고, L_β는 모양 매개 변수 제약 조건을 나타내고, L_θ는 행렬의 자세 매개 변수 제약 조건을 나타냅니다. form이고 L_s는 샘플링 후 포즈 제약 조건의 분포를 나타냅니다. 분포에 대한 제약과 관련하여 정규화 매개변수의 수치적 안정성이 고려되므로 여기서는 MAP를 직접 사용하지 않습니다. 샘플링 전략에 관해서는 이전 작업과 유사하게 행렬 Fisher 분포를 쿼터니언 형식의 등가 Bingham 분포로 변환한 다음 거부 샘플링을 통해 얻습니다. 여기서 거부 샘플링에 권장되는 분포는 각도 중심 가우스 분포를 채택합니다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

실험 결과

실험 부분에서는 Human3.6M, 3DPW, AGORA, TotalCapture의 공개 데이터 세트를 대상으로 기존 방법과 정량적 비교를 진행했습니다. 본 연구의 방법은 이전의 많은 방법을 능가한다는 것을 알 수 있다. 오른쪽 아래 표의 마지막 회색 행 두 개는 같은 시기의 작품으로, 목록의 완성도를 높이기 위해 여기에 나열합니다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

다음 그림은 기존 SOTA 방법인 HybrIK, PARE, CLIFF와 질적 비교를 보여줍니다. 일부 교합 상황에서는 ProPose가 더 나은 결과를 얻을 수 있음을 알 수 있습니다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

아래 표는 ProPose의 정확성과 견고성을 주로 보여주는 일련의 절제 실험을 보여줍니다. 벤치마크 방법에는 3차원 키 포인트를 사용하지 않음, 사전 확률을 사용하지 않음, 테스트 중 사전 확률을 사용하지 않음, 백본 네트워크의 다른 위치에서 특징을 선택하는 등이 포함됩니다. 아래 왼쪽 표는 제안된 사후 확률 분포가 더 높다는 것을 완전히 검증합니다. 정확성. 아래 오른쪽 표는 사후 방법과 결정론적 IK 방법의 노이즈에 대한 견고성을 비교한 것입니다. 사후 방법이 노이즈 간섭에 더 큰 저항력을 갖고 있음을 알 수 있습니다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.

본 연구에서는 위의 HMR 작업 외에도 다중 센서 융합 작업도 평가했습니다. 단일 뷰 및 IMUs 융합의 효과는 다음과 같습니다.

위 내용은 애니메이션 제작 효율이 80% UP! 이 AI 소프트웨어는 원클릭으로 고정밀 비디오 모션 캡처를 실현합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제