>  기사  >  기술 주변기기  >  비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.

비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.

王林
王林앞으로
2024-04-01 11:31:32581검색

현재 VPT(Video Pose Transformer)는 비디오 기반 3D 인간 자세 추정 분야에서 가장 선도적인 성능을 달성했습니다. 최근 몇 년 동안 이러한 VPT의 계산 작업량은 점점 더 커지고 있으며 이러한 엄청난 계산 작업량으로 인해 이 분야의 추가 개발도 제한되었습니다. 컴퓨팅 자원이 부족한 연구자들에게는 매우 불친절합니다. 예를 들어, 243 프레임 VPT 모델을 훈련하는 데는 일반적으로 며칠이 걸리므로 연구 진행 속도가 심각하게 느려지고 긴급하게 해결해야 하는 해당 분야의 주요 문제점이 됩니다.

그렇다면 정확도를 거의 잃지 않으면서 VPT의 효율성을 효과적으로 향상시키는 방법은 무엇일까요?

북경대학교 팀은 기존 VPT(Video Pose Transformer)의 높은 컴퓨팅 요구 사항 문제를 해결하기 위해 모래시계 Tokenizer를 기반으로 하는 효율적인 3D 인간 자세 추정 프레임워크 HoT를 제안했습니다. 프레임워크는 플러그 앤 플레이가 가능하며 MHFormer, MixSTE 및 MotionBERT와 같은 모델에 원활하게 통합되어 정확도를 잃지 않고 모델 계산을 거의 40% 줄일 수 있습니다. 코드는 오픈 소스로 제공됩니다.

비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.


  • 제목: 효율적인 변압기 기반 3D 인간 자세 추정을 위한 모래시계 토크나이저
  • 문서 주소: https://arxiv.org/abs/2311.12 02 8
  • 코드 주소: https://github.com/NationalGAILab/HoT

비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.


비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.

연구 동기

VPT 모델에서는 일반적으로 비디오의 각 프레임이 수백 프레임(일반적으로 243~351프레임)의 비디오 시퀀스를 처리하여 우수한 성능을 달성하고 Transformer의 모든 레이어에서 전체 길이 시퀀스 표현을 유지하는 독립형 포즈 토큰입니다. 그러나 VPT의 self-attention 메커니즘의 계산 복잡성은 토큰 수(즉, 비디오 프레임 수)의 제곱에 비례하기 때문에 이러한 모델은 필연적으로 더 높은 시계열 해상도로 비디오 입력을 처리할 때 엄청난 비효율성을 가져옵니다. 계산 오버헤드로 인해 제한된 컴퓨팅 리소스를 사용하는 실제 응용 프로그램에 널리 배포하기가 어렵습니다. 또한, 전체 시퀀스를 처리하는 이러한 방식은 비디오 시퀀스 내의 중복성, 특히 시각적 변화가 명확하지 않은 연속 프레임 간의 중복성을 고려하지 않으므로 이 정보의 중복은 불필요한 계산 부담을 추가할 뿐만 아니라 모델 성능 향상에 크게 기여하지 않습니다.

따라서 효율적인 VPT를 달성하려면 이 기사에서는 두 가지 요소를 먼저 고려해야 한다고 생각합니다.

  • 시간 수용 필드가 커야 합니다. 입력 시퀀스의 길이를 직접 단축하면 시간을 향상시킬 수 있지만 그렇게 하면 모델의 시간적 수용 필드가 줄어들어 모델이 풍부한 시공간 정보를 캡처하도록 제한되어 성능 향상이 제한됩니다. 따라서 효율적인 설계 전략을 추구할 때 정확한 추정을 달성하려면 큰 시간적 수용 필드를 유지하는 것이 중요합니다.

  • 동영상 중복을 제거해야 합니다. 인접한 프레임 간의 동작 유사성으로 인해 동영상에 많은 양의 중복 정보가 포함되는 경우가 많습니다. 또한, 기존 연구에서는 Transformer 아키텍처에서는 레이어가 깊어질수록 토큰 간의 차이가 점점 작아지는 것으로 지적되었습니다. 따라서 Transformer의 깊은 계층에서 전체 길이 Pose Token을 사용하면 불필요한 중복 계산이 발생하고 이러한 중복 계산이 최종 추정 결과에 제한적으로 기여할 것이라고 추론할 수 있습니다.

이 두 가지 관찰을 바탕으로 저자는 VPT의 전반적인 효율성을 향상시키면서 비디오 프레임의 중복성을 줄이기 위해 deep Transformer의 포즈 토큰을 정리할 것을 제안합니다. 그러나 이는 새로운 과제를 제기합니다. 가지치기 작업으로 인해 토큰 수가 감소하게 됩니다. 이때 모델은 원본 비디오 시퀀스와 일치하는 3차원 포즈 추정 결과의 수를 직접 추정할 수 없습니다. 이는 기존 VPT 모델에서 각 토큰이 일반적으로 비디오의 한 프레임에 해당하고 가지치기 후 남은 시퀀스가 ​​원본 비디오의 모든 프레임을 포괄하기에 충분하지 않기 때문입니다. 이는 3차원을 추정할 때 문제가 됩니다. 영상 속 모든 프레임의 인간 포즈는 상당한 장애물이 됩니다. 따라서 효율적인 VPT를 달성하려면 또 다른 중요한 요소를 고려해야 합니다.

  • Seq2seq 추론: 실제 3D 인간 자세 추정 시스템은 seq2seq를 통해 빠른 추론을 수행할 수 있어야 합니다. 즉, 입력 비디오에서 모든 프레임의 3D 인간 포즈를 한 번에 추정할 수 있어야 합니다. 따라서 기존 VPT 프레임워크와의 원활한 통합과 빠른 추론을 위해서는 토큰 시퀀스의 무결성을 보장하는 것, 즉 입력 비디오 프레임 수와 동일한 전체 길이의 토큰을 복구하는 것이 필요합니다.

위의 세 가지 고려 사항을 바탕으로 저자는 모래시계 구조를 기반으로 하는 효율적인 3차원 인간 자세 추정 프레임워크인 ⏳ Hourglass Tokenizer(HoT)를 제안합니다. 일반적으로 이 방법에는 두 가지 주요 특징이 있습니다.

  • Simple Baseline, Transformer 기반의 보편적이고 효율적인 프레임워크

HoT는 Transformer A 플러그를 기반으로 한 최초의 효율적인 3D 인간 자세 추정입니다. 앤 플레이 프레임워크. 아래 그림에서 볼 수 있듯이 기존 VPT는 "직사각형" 패러다임을 채택합니다. 즉, 모델의 모든 레이어에서 포즈 토큰의 전체 길이를 유지하므로 높은 계산 비용과 기능 중복이 발생합니다. 기존 VPT와 달리 HoT는 먼저 중복 토큰을 제거한 다음 전체 토큰 시퀀스("모래시계"처럼 보임)를 복원하여 Transformer의 중간 계층에 소량의 토큰만 유지되므로 효과적으로 효과적으로 모델의 효율성을 향상시킵니다. HoT는 또한 매우 높은 다양성을 보여줍니다. seq2seq 또는 seq2frame 기반 VPT와 같은 기존 VPT 모델에 완벽하게 통합될 수 있을 뿐만 아니라 다양한 토큰 정리 및 복구 전략에도 적용할 수 있습니다.

비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.


  • 효율성과 정확성 모두

HoT는 전체 길이의 포즈 시퀀스를 유지하는 것이 중복되며, Pose Token의 소수의 대표 프레임을 사용하면 동시에 높은 목표를 달성할 수 있음을 밝혔습니다. 효율성과 고성능. 기존 VPT 모델과 비교하여 HoT는 처리 효율성을 크게 향상시킬 뿐만 아니라 경쟁력이 높거나 더 나은 결과를 달성합니다. 예를 들어, 성능 저하 없이 MotionBERT의 FLOP를 거의 50%까지 줄일 수 있는 반면, MixSTE의 FLOP는 0.2%의 약간의 성능 저하만으로 거의 40%까지 줄일 수 있습니다.

비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.

model method

에서 제안한 HoT의 전체 프레임워크는 아래 그림과 같습니다. 토큰 정리 및 복구를 보다 효과적으로 수행하기 위해 이 기사에서는 TPC(Token Pruning Cluster)와 TRA(Token Recovery Attention)라는 두 가지 모듈을 제안합니다. 그 중에서 TPC 모듈은 비디오 프레임의 중복을 완화하면서 의미론적 다양성이 높은 소수의 대표 토큰을 동적으로 선택합니다. TRA 모듈은 선택된 토큰을 기반으로 상세한 시공간 정보를 복구하여 빠른 추론을 위해 네트워크 출력을 원래의 전체 길이 시간 해상도로 확장합니다.

비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.

토큰 가지치기 및 클러스터링 모듈

이 기사에서는 정확한 3차원 인간 자세 추정을 위해 풍부한 정보가 포함된 소수의 포즈 토큰을 선택하는 것이 어려운 문제라고 생각합니다.

이 문제를 해결하려면 의미적 다양성이 높은 대표 토큰을 선택하는 것이 핵심이라고 생각합니다. 이러한 토큰은 비디오 중복성을 줄이면서 필요한 정보를 유지할 수 있기 때문입니다. 이 개념을 기반으로 이 기사에서는 추가 매개 변수가 필요하지 않은 간단하고 효과적인 TPC(Token Pruning Cluster) 모듈을 제안합니다. 이 모듈의 핵심은 의미상 거의 기여하지 않는 토큰을 식별 및 제거하고 최종 3차원 인간 자세 추정을 위한 핵심 정보를 제공할 수 있는 토큰에 집중하는 것입니다. TPC는 클러스터링 알고리즘을 사용하여 클러스터 센터를 대표 토큰으로 동적으로 선택함으로써 클러스터 센터의 특성을 활용하여 원본 데이터의 풍부한 의미를 유지합니다.

TPC의 구조는 아래 그림과 같습니다. 먼저 입력 포즈 토큰을 공간 차원에서 풀링한 다음 풀링된 토큰의 특징 유사성을 사용하여 입력 토큰을 클러스터링하고 클러스터 중심으로 선택합니다. 대표 토큰.

비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.

토큰 복원 주의 모듈

TPC 모듈은 포즈 토큰 수를 효과적으로 줄입니다. 그러나 가지치기 작업으로 인한 시간 해상도 감소로 인해 빠른 seq2seq 추론을 위한 VPT가 제한됩니다. 따라서 토큰을 복원해야 합니다. 동시에 효율성 요소를 고려하여 복구 모듈은 전체 모델 계산 비용에 미치는 영향을 최소화하도록 경량으로 설계되어야 합니다.

위 과제를 해결하기 위해 이 기사에서는 선택한 토큰을 기반으로 상세한 시공간 정보를 복구할 수 있는 경량 Token Recovery Attention(TRA) 모듈을 설계합니다. 이러한 방식으로 가지치기 작업으로 인해 발생하는 낮은 시간적 해상도는 원래 전체 시퀀스의 시간적 해상도로 효과적으로 확장되어 네트워크가 모든 프레임의 3차원 인간 자세 시퀀스를 한 번에 추정할 수 있게 하여 빠른 seq2seq 추론을 달성할 수 있습니다.

TRA 모듈의 구조는 아래 그림에 나와 있습니다. 이는 Transformer의 마지막 계층에 있는 대표 토큰과 0으로 초기화된 학습 가능한 토큰을 사용하여 간단한 교차 주의 메커니즘을 통해 전체 토큰 시퀀스를 복구합니다.

비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.

기존 VPT에 적용

제안한 방법을 기존 VPT에 적용하는 방법을 논의하기에 앞서, 본 논문에서는 먼저 기존 VPT 아키텍처를 요약한다. 아래 그림에서 볼 수 있듯이 VPT 아키텍처는 주로 포즈 시퀀스의 공간적, 시간적 정보를 인코딩하기 위한 포즈 임베딩 모듈, 전역 시공간 표현을 학습하기 위한 다층 변환기, 회귀를 위한 회귀 헤드 모듈의 세 가지 구성 요소로 구성됩니다. 3D 인간 자세 결과를 출력합니다.

비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.

출력 프레임 수에 따라 기존 VPT는 seq2frame과 seq2seq의 두 가지 추론 프로세스로 나눌 수 있습니다. seq2seq 파이프라인에서 출력은 입력 비디오의 모든 프레임이므로 원래 전체 길이 타이밍 해상도를 복원해야 합니다. HoT 프레임워크 다이어그램에 표시된 것처럼 TPC와 TRA 모듈이 모두 VPT에 내장되어 있습니다. seq2frame 프로세스에서 출력은 비디오 중앙 프레임의 3D 포즈입니다. 따라서 이 과정에서 TRA 모듈은 불필요하고 TPC 모듈만 VPT에 통합된다. 그 프레임워크는 아래 그림에 나와 있습니다.

비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.

실험 결과

절제 실험

아래 표에서 이 기사는 seq2seq(*) 및 seq2frame(†) 추론 프로세스에서 비교를 제공합니다. 결과는 제안된 방법을 기존 VPT에 적용함으로써 모델 매개변수의 수를 거의 변경하지 않으면서 FLOP를 크게 줄이고 FPS를 크게 향상시킬 수 있음을 보여줍니다. 또한 제안한 방법은 원래 모델과 비교하여 기본적으로 성능이 동일하거나 더 나은 성능을 얻을 수 있다.

비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.

이 기사에서는 어텐션 스코어 프루닝, 균일 샘플링, 더 큰 모션 양으로 상위 k 토큰을 선택하는 모션 프루닝 전략을 포함한 다양한 토큰 프루닝 전략도 비교합니다. 최고의 성능.

비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.

이 기사에서는 최근접 이웃 보간 및 선형 보간을 포함한 다양한 토큰 복구 전략도 비교합니다. 제안된 TRA가 최고의 성능을 달성하는 것을 볼 수 있습니다.

비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.

SOTA 방법과의 비교

현재 Human3.6M 데이터 세트에서 3D 인간 자세 추정을 위한 주요 방법은 모두 Transformer 기반 아키텍처를 사용합니다. 이 방법의 효율성을 검증하기 위해 저자는 이를 세 가지 최신 VPT 모델인 MHForme, MixSTE 및 MotionBERT에 적용하고 매개변수 수량, FLOP 및 MPJPE 측면에서 비교합니다.

아래 표와 같이 이 방법은 원래의 정확도를 유지하면서 SOTA VPT 모델의 계산량을 크게 줄입니다. 이러한 결과는 이 방법의 효율성과 높은 효율성을 검증할 뿐만 아니라 기존 VPT 모델에 계산 중복이 있으며 이러한 중복은 최종 추정 성능에 거의 기여하지 않으며 성능 저하로 이어질 수도 있음을 나타냅니다. 또한 이 방법을 사용하면 경쟁력이 높거나 더 나은 성능을 달성하면서 불필요한 계산을 제거할 수 있습니다.

비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.

Code running

저자는 YOLOv3 인간 탐지기, HRNet 2차원 태도 탐지기, HoT w를 통합한 데모 실행(https://github.com/NationalGAILab/HoT)도 제공합니다. MixSTE 2D-3D 포즈 강화기. 저자가 제공하는 사전 훈련된 모델을 다운로드하고, 사람이 포함된 짧은 영상을 입력하면, 코드 한 줄로 3D 인간 자세 추정 데모를 직접 출력할 수 있습니다.

python demo/vis.py --video sample_video.mp4

샘플 영상을 실행하여 얻은 결과:

비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.

Summary

이 기사에서는 기존 Video Pose의 높은 계산 비용 문제를 해결하기 위해 Hourglass Tokenizer(Hourglass Tokenizer)를 제안합니다. Transforme(VPT), ​​HoT)는 비디오에서 효율적인 Transformer 기반 3D 인간 자세 추정을 위한 플러그 앤 플레이 토큰 정리 및 복원 프레임워크입니다. 이 연구는 VPT에서 전체 길이의 포즈 시퀀스를 유지하는 것이 불필요하며 포즈 토큰의 소수의 대표 프레임을 사용하면 높은 정확성과 효율성을 모두 얻을 수 있음을 발견했습니다. 많은 실험을 통해 이 방법의 높은 호환성과 광범위한 적용 가능성이 검증되었습니다. seq2seq 기반 VPT든 seq2frame 기반 VPT든 다양한 일반 VPT 모델에 쉽게 통합될 수 있으며 다양한 토큰 정리 및 복구 전략에 효과적으로 적응할 수 있어 큰 잠재력을 보여줍니다. 저자는 HoT가 더 강력하고 빠른 VPT 개발을 주도할 것으로 기대합니다.

위 내용은 비디오 포즈 Transformer를 빠르게 만들기 위해 Peking University는 효율적인 3D 인간 포즈 추정 프레임워크 HoT를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제