ホームページ  >  記事  >  テクノロジー周辺機器  >  セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

WBOY
WBOY転載
2024-01-11 22:39:17724ブラウズ

ビデオから興味深いクリップを見つけるにはどうすればよいですか? Temporal Action Localization (TAL) は一般的な方法です。

ビデオ コンテンツをモデリングに使用した後は、ビデオ全体内を自由に検索できます。

華中科技大学とミシガン大学の共同チームは最近、このテクノロジーに新たな進歩をもたらしました-

以前は、TAL でのモデリングは断片またはインスタンスにすぎませんでした。レベル; これで、ビデオ内の

の 1 フレームだけが を達成でき、その効果は完全な監視の場合と同等になります。

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

華中科技大学のチームは、点ラベル付き教師付き時間動作検出のための HR-Pro と呼ばれる新しいフレームワークを提案しました。

マルチレベルの信頼性の伝播を通じて、HR-Pro は、より識別可能なフラグメント レベルの特徴と、より信頼性の高いインスタンス レベルの境界をオンラインで学習できます。

HR-Pro は 2 つの信頼性を意識したステージで構成されており、セグメント レベルおよびインスタンス レベルのポイント アノテーションから信頼性の高いキューを効果的に伝播することができ、ネットワークがより識別的なフラグメント表現とより信頼性の高い提案を学習できるようになります。

複数のベンチマーク データセットでの実験では、HR-Pro が既存の手法よりも優れた最先端の結果を示し、ポイント アノテーションの有効性と可能性を実証しています。

完全監視方式と同等のパフォーマンス

次の図は、THUMOS14 テスト ビデオでの時間的動作検出における HR-Pro と LACP のパフォーマンスの比較を示しています。

HR-Pro は、より正確なアクション インスタンスの検出を示します。特に:

    「ゴルフ スイング」動作の場合、HR-Pro は動作とコンテキスト セグメントを効果的に区別し、LACP の扱いにくい False を軽減します。肯定的な予測;
  • 円盤投げ動作の場合、HR-Pro は、非差別的な動作セグメントの活性化値が低い LACP よりも完全なセグメントを検出します。

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

#データセットのテスト結果も、この直感的な感覚を裏付けています。

THUMOS14 データセットの検出結果を視覚化すると、インスタンスレベルの整合性学習の後、高品質の予測と低品質の予測の差が大幅に増加することがわかります。

(左側はインスタンスレベルの整合性学習前の結果、右側は学習後の結果です。横軸と縦軸はそれぞれ時間と信頼性スコアを表します。)

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

全体として、一般的に使用される 4 つのデータ セットにおいて、HR-Pro のパフォーマンスは、最先端のポイント監視手法や、ポイント監視手法の平均 mAP を大幅に上回っています。 THUMOS14 データセットは 60.3% に達し、以前の SoTA 手法 (53.7%) と比較して 6.5% の改善があり、一部の完全監視手法と同等の結果を達成できます。

THUMOS14 テスト セットに関する以下の表にある以前の最先端のメソッドと比較すると、HR-Pro は 0.1 ~ 0.7 の IoU しきい値で平均 mAP 60.3% を達成しており、これは THUMOS14 テスト セットよりも優れています。以前の最先端の方法である CRRC-Net は 6.5% 高いです。

そして、HR-Pro は、AFSD などの完全に監視された競合手法と同等のパフォーマンスを達成できます (平均 mAP は、0.3 ~ 0.7 の IoU しきい値で 51.1% 対 52.0%)。

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得
△THUMOS14 データセットでの HR-Pro と以前の SOTA 手法の比較

さまざまなベンチマーク データセットでの汎用性と優位性の点で、HR-また、Pro は既存の方法を大幅に上回り、GTEA、BEOID、ActivityNet 1.3 でそれぞれ 3.8%、7.6%、2.0% の改善を達成しました。

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得
△HR-Pro と、GTEA および他のデータセットでの以前の SOTA メソッドとの比較

それでは、HR-Pro はどのように実装されるのでしょうか?

学習は2段階で実行されます

研究チームは、フラグメントレベルで信頼性の高いフラグメントメモリモジュールを導入し、クロスアテンション法を使用して伝播する、マルチレベルの信頼性の高い伝播手法を提案しました。ポイント監視に基づく提案生成は、フラグメントとインスタンスを関連付けて、異なる信頼性を持つ提案を生成し、インスタンス レベルで提案の信頼性と境界をさらに最適化するために提案されています。

HR-Pro のモデル構造は、次の図に示されています。時間的行動検出は、

フラグメントレベルの識別学習インスタンスという 2 段階の学習プロセスに分かれています。 -レベル完了性的学習

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

フェーズ 1: セグメントレベルの識別学習

研究チームは、信頼性を意識したセグメントレベルの識別学習を導入し、カテゴリごとに信頼できるプロトタイプを保存することを提案し、これらのプロトタイプから他のクリップに信頼性の高いキューを伝播するために、ビデオ to メソッドおよびビデオ to ビデオ メソッド内でそれらを使用します。

フラグメント レベルの信頼できるプロトタイプの構築

フラグメント レベルで信頼できるプロトタイプを構築するために、チームは、さまざまな動作の信頼できるプロトタイプを保存するオンライン更新プロトタイプ メモリを作成しました。 mc (c = 1, 2, …, C) は、データセット全体の特徴情報を利用できるようにするためのものです。

研究チームは、点ラベル付きセグメント特徴を使用してプロトタイプを初期化することを選択しました:

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

次に、研究者は、疑似ラベル付き行動セグメント特徴を使用して、各セグメントを更新しました。カテゴリプロトタイプは具体的には以下のように表現されます。

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

フラグメントレベルの信頼性認識最適化

フラグメントの特徴情報を組み合わせるために-レベルの信頼できるプロトタイプ 他のフラグメントに渡されることで、研究チームは信頼性を意識したアテンション ブロック (RAB) を設計し、クロスアテンションを通じてプロトタイプから他のフラグメントに信頼できる情報を注入することで、フラグメントの特徴の堅牢性を強化し、識別性の低いものへの注目を高めました。セグメント。

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

さらに識別可能なフラグメントの特徴を学習するために、チームは信頼性を意識したフラグメント比較損失も構築しました:

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

フェーズ 2: インスタンス レベルの整合性学習

インスタンス レベルの動作の時間構造を完全に調査し、提案されたスコア ランキングを最適化するために、チームはインスタンス レベルのアクション整合性学習を導入しました。

このアプローチは、信頼性の高いインスタンス プロトタイプに基づいたインスタンス レベルの特徴学習を通じて、提案の信頼スコアと境界を改善することを目的としています。

インスタンスレベルの信頼できるプロトタイプの構築

トレーニングプロセス中にポイントアノテーションのインスタンスレベルの事前情報を利用するために、チームは次のような提案生成方法を提案しました。オンポイントアノテーション さまざまな信頼性を持つ提案を生成するために使用されます。

信頼性スコアと相対的なポイントの注釈付きタイミング位置に従って、これらの提案は 2 つのタイプに分類できます。

  • ##信頼できる提案 (信頼できる提案、RP):各カテゴリの各ポイントについて、提案にはこのポイントが含まれており、最も信頼性が高くなります;
  • 肯定的な提案 (肯定的な提案、PP): 残りのすべての候補提案。
ポジティブなサンプルとネガティブなサンプルのバランスの取れた数を確保するために、研究チームは、カテゴリに依存しない注意スコアが事前に定義された値より低いクリップをネガティブ プロポーザル (NP) にグループ化しました。

インスタンスレベルの信頼性を意識した最適化

各提案の完全性スコアを予測するために、研究チームは、敏感な境界の提案特徴をスコア予測ヘッド φs に入力します。 :

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

次に、ポジティブ/ネガティブ サンプル提案と信頼できる提案の IoU をガイドとして使用して、提案の完全性スコア予測を監視します。

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

#より正確な境界動作提案を取得するために、研究者は各 PP の提案の開始領域の特徴と終了領域の特徴を回帰予測ヘッド φr に入力して、提案の開始と提案のオフセットを予測します。終了時間。

さらに洗練された提案を計算し、洗練された提案が信頼できる提案と一致することを期待します。

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得
セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得
セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

# つまり、HR-Pro は、わずかな注釈を追加するだけで優れた結果を達成できます。タグの取得コストが低く、同時に強力な一般化機能を備えているため、実際の展開アプリケーションに有利な条件を提供します。

これによると、著者は HR-Pro が行動分析、人間とコンピュータのインタラクション、運転分析などの分野で幅広い応用の可能性を秘めていると予測しています。

論文アドレス: https://arxiv.org/abs/2308.12608

以上がセグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。