ホームページ  >  記事  >  テクノロジー周辺機器  >  ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

王林
王林転載
2024-04-01 11:31:32647ブラウズ

現在、Video Pose Transformer (VPT) は、ビデオベースの 3 次元人物姿勢推定の分野で最高のパフォーマンスを達成しています。近年、これらの VPT の計算負荷はますます大きくなり、これらの膨大な計算負荷により、この分野のさらなる開発も制限されています。コンピューティングリソースが不十分な研究者にとっては非常に不親切です。たとえば、243 フレームの VPT モデルのトレーニングには通常数日かかり、研究の進行が大幅に遅くなり、この分野では早急に解決する必要がある大きな問題点となっています。

では、精度をほとんど損なうことなく、VPT の効率を効果的に向上させるにはどうすればよいでしょうか?

北京大学のチームは、既存の Video Pose Transformer (VPT) の高い計算コストを解決するために、Hourglass Tokenizer に基づいた効率的な 3 次元の人間の姿勢推定フレームワーク HoT を提案しました。需要の。このフレームワークはプラグ アンド プレイで、MHFormer、MixSTE、MotionBERT などのモデルにシームレスに統合でき、精度を損なうことなくモデルの計算を 40% 近く削減できます。コードはオープンソース化されています。

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案


  • タイトル: トランスフォーマーベースの効率的な 3D 人間の姿勢推定のための砂時計トークナイザー
  • ペーパーアドレス: https://arxiv.org/abs/2311.12028
  • コードアドレス: https://github.com/NationalGAILab/HoT

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案


ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

##研究動機

VPT モデルでは、通常、ビデオの各フレームが独立したポーズ トークンに処理されます。数百のフレームを処理することで、ビデオ シーケンス (通常は 243 ~ 351 フレーム) を使用して、優れたパフォーマンスを実現し、Transformer のすべてのレイヤーにわたって全長シーケンス表現を維持します。ただし、VPT のセルフ アテンション メカニズムの計算の複雑さはトークンの数 (つまり、ビデオ フレームの数) の 2 乗に比例するため、これらのモデルは、より高い時系列解像度でビデオ入力を処理する場合、必然的に大幅な非効率をもたらします。計算オーバーヘッドにより、限られたコンピューティング リソースで実際のアプリケーションに広く導入することが困難になります。さらに、シーケンス全体を処理するこの方法では、ビデオ シーケンス内の冗長性、特に視覚的な変化が明らかではない連続フレーム間の冗長性が考慮されていないため、この情報の重複は不必要な計算負荷を追加するだけでなく、モデルのパフォーマンスの向上にはほとんど貢献しません。

したがって、効率的な VPT を達成するには、この記事では 2 つの要素を最初に考慮する必要があると考えています。

    時間知覚フィールドは大きくなければなりません : 入力シーケンスの長さを直接短縮すると VPT の効率を向上させることができますが、そうすることでモデルの時間的受容野が減少し、それによってモデルが豊富な時空間情報を捕捉することが制限され、パフォーマンスの向上が制限されます。したがって、効率的な設計戦略を追求する場合、正確な推定を達成するには、大きな時間的受容野を維持することが重要です。


  • ビデオの冗長性を削除する必要があります: 隣接するフレーム間のアクションが類似しているため、ビデオには大量の冗長な情報が含まれることがよくあります。 。さらに、既存の研究では、Transformer アーキテクチャでは、層が深くなるにつれて、トークン間の差異がますます小さくなることが指摘されています。したがって、Transformer の深い層で全長ポーズ トークンを使用すると、不必要な冗長な計算が導入され、これらの冗長な計算が最終的な推定結果に与える影響は限定的になると推測できます。
これら 2 つの観察に基づいて、著者は、ビデオ フレームの冗長性を減らし、VPT の全体的な効率を向上させるために、ディープ トランスフォーマーのポーズ トークンをプルーニングすることを提案します。ただし、枝刈り操作によりトークンの数が減少するという新たな課題が発生し、現時点では、モデルは元のビデオ シーケンスと一致する 3 次元姿勢推定結果の数を直接推定することができません。これは、従来の VPT モデルでは、通常、各トークンはビデオの 1 フレームに対応しており、プルーニング後の残りのシーケンスでは、元のビデオのすべてのフレームをカバーするのに十分ではないためです。ビデオ内のすべてのフレームのポーズが重大な障害になります。したがって、効率的な VPT を達成するには、別の重要な要素を考慮する必要があります。

  • Seq2seq 推論: 実際の 3D 人間の姿勢推定システムは、seq2seq を通じて高速な推論を実行できる必要があります。つまり、入力ビデオからすべてのフレームの 3D 人間の姿勢を一度に推定できます。したがって、既存の VPT フレームワークとのシームレスな統合を実現し、高速な推論を実現するには、トークン シーケンスの整合性を確保する必要があります。つまり、入力ビデオ フレームの数に等しい完全長のトークンを復元する必要があります。

上記の 3 つの考慮事項に基づいて、著者は、砂時計構造に基づく効率的な 3 次元人間の姿勢推定フレームワーク、⏳ Hourglass Tokenizer (HoT) を提案します。一般に、この方法には 2 つの大きな特徴があります。

  • Simple Baseline、Transformer に基づく汎用的で効率的なフレームワーク

#HoT は、効率的な 3D 人間の姿勢推定のための初の Transformer ベースのプラグアンドプレイ フレームワークです。以下の図に示すように、従来の VPT は「長方形」パラダイムを採用しています。つまり、モデルのすべての層でポーズ トークンの全長を維持するため、高い計算コストと機能の冗長性が生じます。従来の VPT とは異なり、HoT は最初にプルーニングして冗長なトークンを削除し、次にトークンのシーケンス全体 (「砂時計」のように見える) を復元するため、トランスフォーマーの中間層には少量のトークンのみが保持され、効果的にモデルの効率が向上します。また、HoT は非常に高い汎用性を示しており、seq2seq ベースの VPT や seq2frame ベースの VPT など、従来の VPT モデルにシームレスに統合できるだけでなく、さまざまなトークンプルーニングやリカバリ戦略にも適応できます。

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案


  • 効率性と精度の両立

HoT は、全長のポーズ シーケンスを維持するのは冗長であり、少数の代表フレームのポーズ トークンを使用することで高効率と高性能の両方を達成できることを明らかにしました。従来の VPT モデルと比較して、HoT は処理効率を大幅に向上させるだけでなく、非常に競争力の高い、またはそれ以上の結果を達成します。たとえば、パフォーマンスを犠牲にすることなく MotionBERT の FLOP を 50% 近く削減できますが、MixSTE の FLOP は 0.2% というわずかなパフォーマンスの低下で 40% 近く削減できます。

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

#モデル手法

提案する HoT の全体的な枠組みを以下の図に示します。トークン プルーニングと回復をより効果的に実行するために、この記事では、トークン プルーニング クラスター (TPC) とトークン リカバリ アテンション (TRA) という 2 つのモジュールを提案します。その中で、TPC モジュールは、ビデオ フレームの冗長性を軽減しながら、セマンティック多様性の高い少数の代表的なトークンを動的に選択します。 TRA モジュールは、選択されたトークンに基づいて詳細な時空間情報を復元し、それによってネットワーク出力を元の全長の時間解像度に拡張して、高速推論を実現します。

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

#トークンプルーニングおよびクラスタリングモジュール

この記事では、人間の 3 次元姿勢を正確に推定するために、豊富な情報を持つ少数のポーズ トークンを選択することは困難な問題であると考えています。

この問題を解決するために、この記事では、意味論的多様性の高い代表的なトークンを選択することが重要であると考えています。なぜなら、そのようなトークンはビデオの冗長性を減らしながら必要な情報を保持できるからです。この概念に基づいて、この記事では、シンプルかつ効果的で追加のパラメーターを必要としないトークン プルーニング クラスター (TPC) モジュールを提案します。このモジュールの核心は、意味論的にほとんど寄与しないトークンを特定して削除し、最終的な 3 次元の人間の姿勢推定に重要な情報を提供できるトークンに焦点を当てることです。 TPC はクラスタリング アルゴリズムを使用して、クラスタ センターを代表トークンとして動的に選択し、それによってクラスタ センターの特性を利用して元のデータの豊富なセマンティクスを保持します。

TPC の構造は下図のとおりで、入力された Pose Token を空間次元でプールし、プールした Token の特徴類似度を利用して処理を行います。入力トークンをクラスター化して、クラスターの中心を代表トークンとして選択します。

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

トークン復元アテンション モジュール

TPC モジュールはポーズ トークンの数を効果的に削減しますが、プルーニング操作による時間分解能の低下により、高速 seq2seq 推論のための VPT が制限されます。したがって、トークンを復元する必要があります。同時に、効率係数を考慮して、モデル全体の計算コストへの影響を最小限に抑えるために、回復モジュールは軽量になるように設計する必要があります。

上記の課題を解決するために、この記事では、選択されたトークンに基づいて詳細な時空間情報を回復できる軽量のトークン回復アテンション (TRA) モジュールを設計します。このようにして、枝刈り操作によって引き起こされる低い時間解像度が、元の完全なシーケンスの時間解像度まで効果的に拡張され、ネットワークがすべてのフレームの 3 次元の人間のポーズ シーケンスを一度に推定できるようになり、高速な seq2seq 推論が実現します。

TRA モジュールの構造は次の図に示されており、Transformer の最後の層にある代表的なトークンと、単純なクロスアテンションを通じてゼロに初期化された学習可能なトークンを使用します。完全なトークン シーケンスを復元します。

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

既存の VPT に適用する

すべてを適用する方法について説明します 適用する前に提案手法を既存の VPT に適用するために、本稿ではまず既存の VPT アーキテクチャを要約します。以下の図に示すように、VPT アーキテクチャは主に 3 つのコンポーネントで構成されます。ポーズ シーケンスの時空間情報をエンコードするポーズ埋め込みモジュール、グローバルな時空間表現を学習するための多層トランスフォーマー、回帰のための回帰ヘッド モジュールです。 3D 人間の姿勢結果を出力します。

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

#出力フレームの数に応じて、既存の VPT は seq2frame と seq2seq の 2 つの推論プロセスに分割できます。 seq2seq パイプラインでは、出力は入力ビデオのすべてのフレームであるため、元の全長のタイミング解像度を復元する必要があります。 HoT フレームワーク図に示されているように、TPC モジュールと TRA モジュールの両方が VPT に組み込まれています。 seq2frame プロセスでは、出力はビデオの中央フレームの 3D ポーズです。したがって、このプロセスでは、TRA モジュールは不要となり、TPC モジュールのみが VPT に統合されます。その枠組みを下図に示します。

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案#実験結果

##アブレーション実験

#以下の表では、この記事では seq2seq (*) と seq2frame (†) の推論プロセスでの比較を示しています。その結果、提案手法を既存の VPT に適用することで、モデルパラメータの数をほとんど変えずに FLOP を大幅に削減し、FPS を大幅に向上できることがわかりました。さらに、提案手法は元のモデルと比較して、基本的に性能が同じか、より優れた性能を達成できます。

この記事では、注意スコアの枝刈り、均一サンプリング、モーションのより大きな上位 k 個のトークンの選択など、さまざまなトークン枝刈り戦略も比較しています。モーション トークンの枝刈り戦略から、提案された TPC が最高のパフォーマンスを達成していることがわかります。 ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

この記事では、最近傍補間や線形補間など、さまざまなトークン回復戦略も比較しています。提案された TRA が最高のパフォーマンスを達成していることがわかります。 。 ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

#SOTA 方式との比較ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

現在Human3.6M データセットでは、3D 人間の姿勢推定の主要な方法はすべて、Transformer ベースのアーキテクチャを採用しています。この手法の有効性を検証するために、著者らはこの手法を 3 つの最新の VPT モデル (MHForme、MixSTE、MotionBERT) に適用し、パラメータ量、FLOP、MPJPE の観点から比較しました。

以下の表に示すように、この方法では、元の精度を維持しながら、SOTA VPT モデルの計算量が大幅に削減されます。これらの結果は、この方法の有効性と高効率を検証するだけでなく、既存の VPT モデルには計算の冗長性があり、これらの冗長性が最終的な推定パフォーマンスにほとんど寄与せず、パフォーマンスの低下につながる可能性があることも明らかにしています。さらに、この方法では、これらの不必要な計算を排除しながら、非常に競争力の高い、またはさらに優れたパフォーマンスを実現できます。

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

コード操作

作者はデモ操作も提供しています (https://github.com/ NationalGAILab/HoT)、YOLOv3 人間検出器、HRNet 2D ポーズ検出器、HoT と MixSTE 2D から 3D ポーズ エンハンサーを統合します。著者が提供する事前トレーニング済みモデルをダウンロードし、人物が含まれる短いビデオを入力するだけで、1 行のコードで 3D 人間の姿勢推定のデモを直接出力できます。

python demo/vis.py --video sample_video.mp4

サンプル ビデオを実行して得られた結果:

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

概要

#この記事では、既存のビデオ ポーズ変換 (VPT) の高い計算コストの問題を解決するための、プラグ アンド プレイのトークン プルーニングである Hourglass Tokenizer (HoT) と、その回復フレームワークを提案します。 Transformer ベースのビデオからの効率的な 3D 人間の姿勢推定。この研究では、VPT で全長のポーズ シーケンスを維持する必要がなく、少数の代表フレームのポーズ トークンを使用することで高い精度と効率の両方を達成できることがわかりました。多数の実験により、この方法の高い互換性と幅広い適用可能性が検証されています。 seq2seq ベースの VPT であっても seq2frame ベースの VPT であっても、さまざまな一般的な VPT モデルに簡単に統合でき、さまざまなトークン プルーニングおよび回復戦略に効果的に適応でき、その大きな可能性を実証します。著者らは、HoT がより強力で高速な VPT の開発を推進すると期待しています。

以上がビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。