セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 11, 2024 pm 10:39 PM

ai電車

ビデオから興味深いクリップを見つけるにはどうすればよいですか? Temporal Action Localization (TAL) は一般的な方法です。

ビデオコンテンツをモデリングに使用した後は、ビデオ全体内を自由に検索できます。

華中科技大学とミシガン大学の共同チームは最近、このテクノロジーに新たな進歩をもたらしました-

以前は、TAL でのモデリングは断片またはインスタンスにすぎませんでした。レベル; これで、ビデオ内の

の 1 フレームだけが を達成でき、その効果は完全な監視の場合と同等になります。

華中科技大学のチームは、点ラベル付き教師付き時間動作検出のための HR-Pro と呼ばれる新しいフレームワークを提案しました。

マルチレベルの信頼性の伝播を通じて、HR-Pro は、より識別可能なフラグメントレベルの特徴と、より信頼性の高いインスタンスレベルの境界をオンラインで学習できます。

HR-Pro は 2 つの信頼性を意識したステージで構成されており、セグメントレベルおよびインスタンスレベルのポイントアノテーションから信頼性の高いキューを効果的に伝播することができ、ネットワークがより識別的なフラグメント表現とより信頼性の高い提案を学習できるようになります。

複数のベンチマークデータセットでの実験では、HR-Pro が既存の手法よりも優れた最先端の結果を示し、ポイントアノテーションの有効性と可能性を実証しています。

完全監視方式と同等のパフォーマンス

次の図は、THUMOS14 テストビデオでの時間的動作検出における HR-Pro と LACP のパフォーマンスの比較を示しています。

HR-Pro は、より正確なアクションインスタンスの検出を示します。特に:

円盤投げ動作の場合、HR-Pro は、非差別的な動作セグメントの活性化値が低い LACP よりも完全なセグメントを検出します。

#データセットのテスト結果も、この直感的な感覚を裏付けています。

THUMOS14 データセットの検出結果を視覚化すると、インスタンスレベルの整合性学習の後、高品質の予測と低品質の予測の差が大幅に増加することがわかります。

(左側はインスタンスレベルの整合性学習前の結果、右側は学習後の結果です。横軸と縦軸はそれぞれ時間と信頼性スコアを表します。)

全体として、一般的に使用される 4 つのデータセットにおいて、HR-Pro のパフォーマンスは、最先端のポイント監視手法や、ポイント監視手法の平均 mAP を大幅に上回っています。 THUMOS14 データセットは 60.3% に達し、以前の SoTA 手法 (53.7%) と比較して 6.5% の改善があり、一部の完全監視手法と同等の結果を達成できます。

THUMOS14 テストセットに関する以下の表にある以前の最先端のメソッドと比較すると、HR-Pro は 0.1 ～ 0.7 の IoU しきい値で平均 mAP 60.3% を達成しており、これは THUMOS14 テストセットよりも優れています。以前の最先端の方法である CRRC-Net は 6.5% 高いです。

そして、HR-Pro は、AFSD などの完全に監視された競合手法と同等のパフォーマンスを達成できます (平均 mAP は、0.3 ～ 0.7 の IoU しきい値で 51.1% 対 52.0%)。

△THUMOS14 データセットでの HR-Pro と以前の SOTA 手法の比較

さまざまなベンチマークデータセットでの汎用性と優位性の点で、HR-また、Pro は既存の方法を大幅に上回り、GTEA、BEOID、ActivityNet 1.3 でそれぞれ 3.8%、7.6%、2.0% の改善を達成しました。

△HR-Pro と、GTEA および他のデータセットでの以前の SOTA メソッドとの比較

それでは、HR-Pro はどのように実装されるのでしょうか?

学習は2段階で実行されます

研究チームは、フラグメントレベルで信頼性の高いフラグメントメモリモジュールを導入し、クロスアテンション法を使用して伝播する、マルチレベルの信頼性の高い伝播手法を提案しました。ポイント監視に基づく提案生成は、フラグメントとインスタンスを関連付けて、異なる信頼性を持つ提案を生成し、インスタンスレベルで提案の信頼性と境界をさらに最適化するために提案されています。

HR-Pro のモデル構造は、次の図に示されています。時間的行動検出は、

フラグメントレベルの識別学習とインスタンスという 2 段階の学習プロセスに分かれています。 -レベル完了性的学習。

フェーズ 1: セグメントレベルの識別学習

研究チームは、信頼性を意識したセグメントレベルの識別学習を導入し、カテゴリごとに信頼できるプロトタイプを保存することを提案し、これらのプロトタイプから他のクリップに信頼性の高いキューを伝播するために、ビデオ to メソッドおよびビデオ to ビデオメソッド内でそれらを使用します。

フラグメントレベルの信頼できるプロトタイプの構築

フラグメントレベルで信頼できるプロトタイプを構築するために、チームは、さまざまな動作の信頼できるプロトタイプを保存するオンライン更新プロトタイプメモリを作成しました。 mc (c = 1, 2, …, C) は、データセット全体の特徴情報を利用できるようにするためのものです。

研究チームは、点ラベル付きセグメント特徴を使用してプロトタイプを初期化することを選択しました:

次に、研究者は、疑似ラベル付き行動セグメント特徴を使用して、各セグメントを更新しました。カテゴリプロトタイプは具体的には以下のように表現されます。

フラグメントレベルの信頼性認識最適化

フラグメントの特徴情報を組み合わせるために-レベルの信頼できるプロトタイプ他のフラグメントに渡されることで、研究チームは信頼性を意識したアテンションブロック (RAB) を設計し、クロスアテンションを通じてプロトタイプから他のフラグメントに信頼できる情報を注入することで、フラグメントの特徴の堅牢性を強化し、識別性の低いものへの注目を高めました。セグメント。

さらに識別可能なフラグメントの特徴を学習するために、チームは信頼性を意識したフラグメント比較損失も構築しました:

フェーズ 2: インスタンスレベルの整合性学習

インスタンスレベルの動作の時間構造を完全に調査し、提案されたスコアランキングを最適化するために、チームはインスタンスレベルのアクション整合性学習を導入しました。

このアプローチは、信頼性の高いインスタンスプロトタイプに基づいたインスタンスレベルの特徴学習を通じて、提案の信頼スコアと境界を改善することを目的としています。

インスタンスレベルの信頼できるプロトタイプの構築

トレーニングプロセス中にポイントアノテーションのインスタンスレベルの事前情報を利用するために、チームは次のような提案生成方法を提案しました。オンポイントアノテーションさまざまな信頼性を持つ提案を生成するために使用されます。

信頼性スコアと相対的なポイントの注釈付きタイミング位置に従って、これらの提案は 2 つのタイプに分類できます。

##信頼できる提案 (信頼できる提案、RP):各カテゴリの各ポイントについて、提案にはこのポイントが含まれており、最も信頼性が高くなります;
肯定的な提案 (肯定的な提案、PP): 残りのすべての候補提案。

ポジティブなサンプルとネガティブなサンプルのバランスの取れた数を確保するために、研究チームは、カテゴリに依存しない注意スコアが事前に定義された値より低いクリップをネガティブプロポーザル (NP) にグループ化しました。

インスタンスレベルの信頼性を意識した最適化

各提案の完全性スコアを予測するために、研究チームは、敏感な境界の提案特徴をスコア予測ヘッド φs に入力します。 :

次に、ポジティブ/ネガティブサンプル提案と信頼できる提案の IoU をガイドとして使用して、提案の完全性スコア予測を監視します。

#より正確な境界動作提案を取得するために、研究者は各 PP の提案の開始領域の特徴と終了領域の特徴を回帰予測ヘッド φr に入力して、提案の開始と提案のオフセットを予測します。終了時間。

さらに洗練された提案を計算し、洗練された提案が信頼できる提案と一致することを期待します。

# つまり、HR-Pro は、わずかな注釈を追加するだけで優れた結果を達成できます。タグの取得コストが低く、同時に強力な一般化機能を備えているため、実際の展開アプリケーションに有利な条件を提供します。

これによると、著者は HR-Pro が行動分析、人間とコンピュータのインタラクション、運転分析などの分野で幅広い応用の可能性を秘めていると予測しています。

論文アドレス: https://arxiv.org/abs/2308.12608

以上がセグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください