


セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得
ビデオから興味深いクリップを見つけるにはどうすればよいですか? Temporal Action Localization (TAL) は一般的な方法です。
ビデオ コンテンツをモデリングに使用した後は、ビデオ全体内を自由に検索できます。 華中科技大学とミシガン大学の共同チームは最近、このテクノロジーに新たな進歩をもたらしました-以前は、TAL でのモデリングは断片またはインスタンスにすぎませんでした。レベル; これで、ビデオ内のの 1 フレームだけが を達成でき、その効果は完全な監視の場合と同等になります。
- 「ゴルフ スイング」動作の場合、HR-Pro は動作とコンテキスト セグメントを効果的に区別し、LACP の扱いにくい False を軽減します。肯定的な予測;
- 円盤投げ動作の場合、HR-Pro は、非差別的な動作セグメントの活性化値が低い LACP よりも完全なセグメントを検出します。
(左側はインスタンスレベルの整合性学習前の結果、右側は学習後の結果です。横軸と縦軸はそれぞれ時間と信頼性スコアを表します。)
フラグメントレベルの識別学習とインスタンスという 2 段階の学習プロセスに分かれています。 -レベル完了性的学習。
フェーズ 1: セグメントレベルの識別学習
研究チームは、信頼性を意識したセグメントレベルの識別学習を導入し、カテゴリごとに信頼できるプロトタイプを保存することを提案し、これらのプロトタイプから他のクリップに信頼性の高いキューを伝播するために、ビデオ to メソッドおよびビデオ to ビデオ メソッド内でそれらを使用します。
フラグメント レベルの信頼できるプロトタイプの構築
フラグメント レベルで信頼できるプロトタイプを構築するために、チームは、さまざまな動作の信頼できるプロトタイプを保存するオンライン更新プロトタイプ メモリを作成しました。 mc (c = 1, 2, …, C) は、データセット全体の特徴情報を利用できるようにするためのものです。
研究チームは、点ラベル付きセグメント特徴を使用してプロトタイプを初期化することを選択しました:
次に、研究者は、疑似ラベル付き行動セグメント特徴を使用して、各セグメントを更新しました。カテゴリプロトタイプは具体的には以下のように表現されます。
フラグメントレベルの信頼性認識最適化
フラグメントの特徴情報を組み合わせるために-レベルの信頼できるプロトタイプ 他のフラグメントに渡されることで、研究チームは信頼性を意識したアテンション ブロック (RAB) を設計し、クロスアテンションを通じてプロトタイプから他のフラグメントに信頼できる情報を注入することで、フラグメントの特徴の堅牢性を強化し、識別性の低いものへの注目を高めました。セグメント。
さらに識別可能なフラグメントの特徴を学習するために、チームは信頼性を意識したフラグメント比較損失も構築しました:
フェーズ 2: インスタンス レベルの整合性学習
インスタンス レベルの動作の時間構造を完全に調査し、提案されたスコア ランキングを最適化するために、チームはインスタンス レベルのアクション整合性学習を導入しました。
このアプローチは、信頼性の高いインスタンス プロトタイプに基づいたインスタンス レベルの特徴学習を通じて、提案の信頼スコアと境界を改善することを目的としています。
インスタンスレベルの信頼できるプロトタイプの構築
トレーニングプロセス中にポイントアノテーションのインスタンスレベルの事前情報を利用するために、チームは次のような提案生成方法を提案しました。オンポイントアノテーション さまざまな信頼性を持つ提案を生成するために使用されます。
信頼性スコアと相対的なポイントの注釈付きタイミング位置に従って、これらの提案は 2 つのタイプに分類できます。
- ##信頼できる提案 (信頼できる提案、RP):各カテゴリの各ポイントについて、提案にはこのポイントが含まれており、最も信頼性が高くなります;
- 肯定的な提案 (肯定的な提案、PP): 残りのすべての候補提案。
インスタンスレベルの信頼性を意識した最適化
各提案の完全性スコアを予測するために、研究チームは、敏感な境界の提案特徴をスコア予測ヘッド φs に入力します。 :
# つまり、HR-Pro は、わずかな注釈を追加するだけで優れた結果を達成できます。タグの取得コストが低く、同時に強力な一般化機能を備えているため、実際の展開アプリケーションに有利な条件を提供します。
これによると、著者は HR-Pro が行動分析、人間とコンピュータのインタラクション、運転分析などの分野で幅広い応用の可能性を秘めていると予測しています。
論文アドレス: https://arxiv.org/abs/2308.12608
以上がセグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ドリームウィーバー CS6
ビジュアル Web 開発ツール

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません
