ホームページ >テクノロジー周辺機器 >AI >セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得
ビデオから興味深いクリップを見つけるにはどうすればよいですか? Temporal Action Localization (TAL) は一般的な方法です。
ビデオ コンテンツをモデリングに使用した後は、ビデオ全体内を自由に検索できます。 華中科技大学とミシガン大学の共同チームは最近、このテクノロジーに新たな進歩をもたらしました-以前は、TAL でのモデリングは断片またはインスタンスにすぎませんでした。レベル; これで、ビデオ内のの 1 フレームだけが を達成でき、その効果は完全な監視の場合と同等になります。
(左側はインスタンスレベルの整合性学習前の結果、右側は学習後の結果です。横軸と縦軸はそれぞれ時間と信頼性スコアを表します。)
フラグメントレベルの識別学習とインスタンスという 2 段階の学習プロセスに分かれています。 -レベル完了性的学習。
研究チームは、信頼性を意識したセグメントレベルの識別学習を導入し、カテゴリごとに信頼できるプロトタイプを保存することを提案し、これらのプロトタイプから他のクリップに信頼性の高いキューを伝播するために、ビデオ to メソッドおよびビデオ to ビデオ メソッド内でそれらを使用します。
フラグメント レベルの信頼できるプロトタイプの構築
フラグメント レベルで信頼できるプロトタイプを構築するために、チームは、さまざまな動作の信頼できるプロトタイプを保存するオンライン更新プロトタイプ メモリを作成しました。 mc (c = 1, 2, …, C) は、データセット全体の特徴情報を利用できるようにするためのものです。
研究チームは、点ラベル付きセグメント特徴を使用してプロトタイプを初期化することを選択しました:
次に、研究者は、疑似ラベル付き行動セグメント特徴を使用して、各セグメントを更新しました。カテゴリプロトタイプは具体的には以下のように表現されます。
フラグメントレベルの信頼性認識最適化
フラグメントの特徴情報を組み合わせるために-レベルの信頼できるプロトタイプ 他のフラグメントに渡されることで、研究チームは信頼性を意識したアテンション ブロック (RAB) を設計し、クロスアテンションを通じてプロトタイプから他のフラグメントに信頼できる情報を注入することで、フラグメントの特徴の堅牢性を強化し、識別性の低いものへの注目を高めました。セグメント。
さらに識別可能なフラグメントの特徴を学習するために、チームは信頼性を意識したフラグメント比較損失も構築しました:
インスタンス レベルの動作の時間構造を完全に調査し、提案されたスコア ランキングを最適化するために、チームはインスタンス レベルのアクション整合性学習を導入しました。
このアプローチは、信頼性の高いインスタンス プロトタイプに基づいたインスタンス レベルの特徴学習を通じて、提案の信頼スコアと境界を改善することを目的としています。
インスタンスレベルの信頼できるプロトタイプの構築
トレーニングプロセス中にポイントアノテーションのインスタンスレベルの事前情報を利用するために、チームは次のような提案生成方法を提案しました。オンポイントアノテーション さまざまな信頼性を持つ提案を生成するために使用されます。
信頼性スコアと相対的なポイントの注釈付きタイミング位置に従って、これらの提案は 2 つのタイプに分類できます。
インスタンスレベルの信頼性を意識した最適化
各提案の完全性スコアを予測するために、研究チームは、敏感な境界の提案特徴をスコア予測ヘッド φs に入力します。 :
# つまり、HR-Pro は、わずかな注釈を追加するだけで優れた結果を達成できます。タグの取得コストが低く、同時に強力な一般化機能を備えているため、実際の展開アプリケーションに有利な条件を提供します。
これによると、著者は HR-Pro が行動分析、人間とコンピュータのインタラクション、運転分析などの分野で幅広い応用の可能性を秘めていると予測しています。
論文アドレス: https://arxiv.org/abs/2308.12608
以上がセグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。