ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案-AI-php.cn

ホームページ

テクノロジー周辺機器

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

王林

Apr 01, 2024 am 11:31 AM

フレームai

現在、Video Pose Transformer (VPT) は、ビデオベースの 3 次元人物姿勢推定の分野で最高のパフォーマンスを達成しています。近年、これらの VPT の計算負荷はますます大きくなり、これらの膨大な計算負荷により、この分野のさらなる開発も制限されています。コンピューティングリソースが不十分な研究者にとっては非常に不親切です。たとえば、243 フレームの VPT モデルのトレーニングには通常数日かかり、研究の進行が大幅に遅くなり、この分野では早急に解決する必要がある大きな問題点となっています。

では、精度をほとんど損なうことなく、VPT の効率を効果的に向上させるにはどうすればよいでしょうか?

北京大学のチームは、既存の Video Pose Transformer (VPT) の高い計算コストを解決するために、Hourglass Tokenizer に基づいた効率的な 3 次元の人間の姿勢推定フレームワーク HoT を提案しました。需要の。このフレームワークはプラグアンドプレイで、MHFormer、MixSTE、MotionBERT などのモデルにシームレスに統合でき、精度を損なうことなくモデルの計算を 40% 近く削減できます。コードはオープンソース化されています。

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

タイトル: トランスフォーマーベースの効率的な 3D 人間の姿勢推定のための砂時計トークナイザー
ペーパーアドレス: https://arxiv.org/abs/2311.12028
コードアドレス: https://github.com/NationalGAILab/HoT

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

##研究動機

VPT モデルでは、通常、ビデオの各フレームが独立したポーズトークンに処理されます。数百のフレームを処理することで、ビデオシーケンス (通常は 243 ～ 351 フレーム) を使用して、優れたパフォーマンスを実現し、Transformer のすべてのレイヤーにわたって全長シーケンス表現を維持します。ただし、VPT のセルフアテンションメカニズムの計算の複雑さはトークンの数 (つまり、ビデオフレームの数) の 2 乗に比例するため、これらのモデルは、より高い時系列解像度でビデオ入力を処理する場合、必然的に大幅な非効率をもたらします。計算オーバーヘッドにより、限られたコンピューティングリソースで実際のアプリケーションに広く導入することが困難になります。さらに、シーケンス全体を処理するこの方法では、ビデオシーケンス内の冗長性、特に視覚的な変化が明らかではない連続フレーム間の冗長性が考慮されていないため、この情報の重複は不必要な計算負荷を追加するだけでなく、モデルのパフォーマンスの向上にはほとんど貢献しません。

したがって、効率的な VPT を達成するには、この記事では 2 つの要素を最初に考慮する必要があると考えています。

これら 2 つの観察に基づいて、著者は、ビデオフレームの冗長性を減らし、VPT の全体的な効率を向上させるために、ディープトランスフォーマーのポーズトークンをプルーニングすることを提案します。ただし、枝刈り操作によりトークンの数が減少するという新たな課題が発生し、現時点では、モデルは元のビデオシーケンスと一致する 3 次元姿勢推定結果の数を直接推定することができません。これは、従来の VPT モデルでは、通常、各トークンはビデオの 1 フレームに対応しており、プルーニング後の残りのシーケンスでは、元のビデオのすべてのフレームをカバーするのに十分ではないためです。ビデオ内のすべてのフレームのポーズが重大な障害になります。したがって、効率的な VPT を達成するには、別の重要な要素を考慮する必要があります。

Seq2seq 推論: 実際の 3D 人間の姿勢推定システムは、seq2seq を通じて高速な推論を実行できる必要があります。つまり、入力ビデオからすべてのフレームの 3D 人間の姿勢を一度に推定できます。したがって、既存の VPT フレームワークとのシームレスな統合を実現し、高速な推論を実現するには、トークンシーケンスの整合性を確保する必要があります。つまり、入力ビデオフレームの数に等しい完全長のトークンを復元する必要があります。

上記の 3 つの考慮事項に基づいて、著者は、砂時計構造に基づく効率的な 3 次元人間の姿勢推定フレームワーク、⏳ Hourglass Tokenizer (HoT) を提案します。一般に、この方法には 2 つの大きな特徴があります。

Simple Baseline、Transformer に基づく汎用的で効率的なフレームワーク

#HoT は、効率的な 3D 人間の姿勢推定のための初の Transformer ベースのプラグアンドプレイフレームワークです。以下の図に示すように、従来の VPT は「長方形」パラダイムを採用しています。つまり、モデルのすべての層でポーズトークンの全長を維持するため、高い計算コストと機能の冗長性が生じます。従来の VPT とは異なり、HoT は最初にプルーニングして冗長なトークンを削除し、次にトークンのシーケンス全体 (「砂時計」のように見える) を復元するため、トランスフォーマーの中間層には少量のトークンのみが保持され、効果的にモデルの効率が向上します。また、HoT は非常に高い汎用性を示しており、seq2seq ベースの VPT や seq2frame ベースの VPT など、従来の VPT モデルにシームレスに統合できるだけでなく、さまざまなトークンプルーニングやリカバリ戦略にも適応できます。

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

効率性と精度の両立

HoT は、全長のポーズシーケンスを維持するのは冗長であり、少数の代表フレームのポーズトークンを使用することで高効率と高性能の両方を達成できることを明らかにしました。従来の VPT モデルと比較して、HoT は処理効率を大幅に向上させるだけでなく、非常に競争力の高い、またはそれ以上の結果を達成します。たとえば、パフォーマンスを犠牲にすることなく MotionBERT の FLOP を 50% 近く削減できますが、MixSTE の FLOP は 0.2% というわずかなパフォーマンスの低下で 40% 近く削減できます。

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

#モデル手法

提案する HoT の全体的な枠組みを以下の図に示します。トークンプルーニングと回復をより効果的に実行するために、この記事では、トークンプルーニングクラスター (TPC) とトークンリカバリアテンション (TRA) という 2 つのモジュールを提案します。その中で、TPC モジュールは、ビデオフレームの冗長性を軽減しながら、セマンティック多様性の高い少数の代表的なトークンを動的に選択します。 TRA モジュールは、選択されたトークンに基づいて詳細な時空間情報を復元し、それによってネットワーク出力を元の全長の時間解像度に拡張して、高速推論を実現します。

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

#トークンプルーニングおよびクラスタリングモジュール

この記事では、人間の 3 次元姿勢を正確に推定するために、豊富な情報を持つ少数のポーズトークンを選択することは困難な問題であると考えています。

この問題を解決するために、この記事では、意味論的多様性の高い代表的なトークンを選択することが重要であると考えています。なぜなら、そのようなトークンはビデオの冗長性を減らしながら必要な情報を保持できるからです。この概念に基づいて、この記事では、シンプルかつ効果的で追加のパラメーターを必要としないトークンプルーニングクラスター (TPC) モジュールを提案します。このモジュールの核心は、意味論的にほとんど寄与しないトークンを特定して削除し、最終的な 3 次元の人間の姿勢推定に重要な情報を提供できるトークンに焦点を当てることです。 TPC はクラスタリングアルゴリズムを使用して、クラスタセンターを代表トークンとして動的に選択し、それによってクラスタセンターの特性を利用して元のデータの豊富なセマンティクスを保持します。

TPC の構造は下図のとおりで、入力された Pose Token を空間次元でプールし、プールした Token の特徴類似度を利用して処理を行います。入力トークンをクラスター化して、クラスターの中心を代表トークンとして選択します。

ビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案

トークン復元アテンションモジュール

TPC モジュールはポーズトークンの数を効果的に削減しますが、プルーニング操作による時間分解能の低下により、高速 seq2seq 推論のための VPT が制限されます。したがって、トークンを復元する必要があります。同時に、効率係数を考慮して、モデル全体の計算コストへの影響を最小限に抑えるために、回復モジュールは軽量になるように設計する必要があります。

上記の課題を解決するために、この記事では、選択されたトークンに基づいて詳細な時空間情報を回復できる軽量のトークン回復アテンション (TRA) モジュールを設計します。このようにして、枝刈り操作によって引き起こされる低い時間解像度が、元の完全なシーケンスの時間解像度まで効果的に拡張され、ネットワークがすべてのフレームの 3 次元の人間のポーズシーケンスを一度に推定できるようになり、高速な seq2seq 推論が実現します。

TRA モジュールの構造は次の図に示されており、Transformer の最後の層にある代表的なトークンと、単純なクロスアテンションを通じてゼロに初期化された学習可能なトークンを使用します。完全なトークンシーケンスを復元します。

既存の VPT に適用する

すべてを適用する方法について説明します適用する前に提案手法を既存の VPT に適用するために、本稿ではまず既存の VPT アーキテクチャを要約します。以下の図に示すように、VPT アーキテクチャは主に 3 つのコンポーネントで構成されます。ポーズシーケンスの時空間情報をエンコードするポーズ埋め込みモジュール、グローバルな時空間表現を学習するための多層トランスフォーマー、回帰のための回帰ヘッドモジュールです。 3D 人間の姿勢結果を出力します。

#出力フレームの数に応じて、既存の VPT は seq2frame と seq2seq の 2 つの推論プロセスに分割できます。 seq2seq パイプラインでは、出力は入力ビデオのすべてのフレームであるため、元の全長のタイミング解像度を復元する必要があります。 HoT フレームワーク図に示されているように、TPC モジュールと TRA モジュールの両方が VPT に組み込まれています。 seq2frame プロセスでは、出力はビデオの中央フレームの 3D ポーズです。したがって、このプロセスでは、TRA モジュールは不要となり、TPC モジュールのみが VPT に統合されます。その枠組みを下図に示します。

#実験結果

##アブレーション実験

#以下の表では、この記事では seq2seq (*) と seq2frame (†) の推論プロセスでの比較を示しています。その結果、提案手法を既存の VPT に適用することで、モデルパラメータの数をほとんど変えずに FLOP を大幅に削減し、FPS を大幅に向上できることがわかりました。さらに、提案手法は元のモデルと比較して、基本的に性能が同じか、より優れた性能を達成できます。

この記事では、注意スコアの枝刈り、均一サンプリング、モーションのより大きな上位 k 個のトークンの選択など、さまざまなトークン枝刈り戦略も比較しています。モーショントークンの枝刈り戦略から、提案された TPC が最高のパフォーマンスを達成していることがわかります。

この記事では、最近傍補間や線形補間など、さまざまなトークン回復戦略も比較しています。提案された TRA が最高のパフォーマンスを達成していることがわかります。。

#SOTA 方式との比較

現在Human3.6M データセットでは、3D 人間の姿勢推定の主要な方法はすべて、Transformer ベースのアーキテクチャを採用しています。この手法の有効性を検証するために、著者らはこの手法を 3 つの最新の VPT モデル (MHForme、MixSTE、MotionBERT) に適用し、パラメータ量、FLOP、MPJPE の観点から比較しました。

以下の表に示すように、この方法では、元の精度を維持しながら、SOTA VPT モデルの計算量が大幅に削減されます。これらの結果は、この方法の有効性と高効率を検証するだけでなく、既存の VPT モデルには計算の冗長性があり、これらの冗長性が最終的な推定パフォーマンスにほとんど寄与せず、パフォーマンスの低下につながる可能性があることも明らかにしています。さらに、この方法では、これらの不必要な計算を排除しながら、非常に競争力の高い、またはさらに優れたパフォーマンスを実現できます。

コード操作

作者はデモ操作も提供しています (https://github.com/ NationalGAILab/HoT)、YOLOv3 人間検出器、HRNet 2D ポーズ検出器、HoT と MixSTE 2D から 3D ポーズエンハンサーを統合します。著者が提供する事前トレーニング済みモデルをダウンロードし、人物が含まれる短いビデオを入力するだけで、1 行のコードで 3D 人間の姿勢推定のデモを直接出力できます。

python demo/vis.py --video sample_video.mp4

サンプルビデオを実行して得られた結果:

概要

#この記事では、既存のビデオポーズ変換 (VPT) の高い計算コストの問題を解決するための、プラグアンドプレイのトークンプルーニングである Hourglass Tokenizer (HoT) と、その回復フレームワークを提案します。 Transformer ベースのビデオからの効率的な 3D 人間の姿勢推定。この研究では、VPT で全長のポーズシーケンスを維持する必要がなく、少数の代表フレームのポーズトークンを使用することで高い精度と効率の両方を達成できることがわかりました。多数の実験により、この方法の高い互換性と幅広い適用可能性が検証されています。 seq2seq ベースの VPT であっても seq2frame ベースの VPT であっても、さまざまな一般的な VPT モデルに簡単に統合でき、さまざまなトークンプルーニングおよび回復戦略に効果的に適応でき、その大きな可能性を実証します。著者らは、HoT がより強力で高速な VPT の開発を推進すると期待しています。

以上がビデオポーズTransformerを高速化するために、北京大学が効率的な3D人間姿勢推定フレームワークHoTを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。