ホームページ > 記事 > テクノロジー周辺機器 > クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオ オブジェクト セグメンテーション手法は、単一の段階のみを必要とします。
VOS の参照 (RVOS) は、新たに登場したタスクであり、参照テキストに基づいて、ビデオ シーケンスからテキストによって参照されるオブジェクトをセグメント化することを目的としています。半教師ありビデオ オブジェクト セグメンテーションと比較して、RVOS はピクセル レベルの参照マスクではなく抽象言語記述のみに依存し、人間とコンピューターの対話により便利なオプションを提供するため、幅広い注目を集めています。
論文リンク: https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf
この研究の主な目的は、既存の RVOS タスクが直面する 2 つの主要な課題を解決することです。
これに関して、この研究では、クロスモーダル要素移行のためのエンドツーエンドの RVOS フレームワークを提案します - YOFO 、その主な貢献と革新は次のとおりです:
YOFO フレームワークの主なプロセスは次のとおりです。入力された画像とテキストは、まず画像エンコーダーと言語エンコーダーを通過して特徴を抽出します。 、その後、融合のためのマルチスケールのクロスモーダル特徴マイニング モジュールで。融合された二峰性特徴は、メモリ ライブラリを含むメタ転送モジュールで単純化され、言語特徴の冗長な情報が削除され、同時に時間情報を保存して時間的相関性が強化され、最終的にセグメンテーション結果が得られます。デコーダ。
#図 1: YOFO フレームワークのメイン プロセス。
#マルチスケール クロスモーダル特徴マイニング モジュール: このモジュールは、異なるスケールの 2 つのモーダル特徴を融合することで、画像特徴によって伝えられるスケール情報と言語特徴の間の一貫性を維持できます。さらに重要なのは、言語情報がマルチスケールの画像情報によって薄められたり圧倒されたりすることがないことです。融合プロセス。
# 図 2: マルチスケールのクロスモーダル特徴マイニング モジュール。メタ移行モジュール
##: Learning-to-Learn 戦略が採用されており、そのプロセスは次のマッピング関数として簡単に説明できます。移行関数 は畳み込みであり、 はその畳み込みカーネル パラメーターです:
最適化プロセスは次の目的関数として表現できます。
その中で, M は、履歴情報を保存できるメモリ バンクを表します。W は、さまざまな位置の重みを表し、特徴内のさまざまな位置にさまざまな注意を向けることができます。Y は、メモリ バンクに保存されている各ビデオ フレームの二峰性特徴を表します。この最適化プロセスにより、二峰性の特徴を再構築するメタ伝達関数の能力が最大化され、フレームワーク全体をエンドツーエンドでトレーニングできるようになります。
##トレーニングとテスト: トレーニングで使用される損失関数は lovasz 損失で、トレーニング セットは 2 つのビデオ データ セット Ref-DAVIS2017 です。 Ref-Youtube-VOS を使用し、静的データセット Ref-COCO を使用してランダム アフィン変換を実行し、補助トレーニングとしてビデオ データをシミュレートします。メタマイグレーション プロセスはトレーニングと予測中に実行され、ネットワーク全体が 1080ti で 10FPS の速度で実行されます。
実験結果研究で使用された方法は、2 つの主流の RVOS データセット (Ref-DAVIS2017 および Ref-Youtube-VOS) で優れた結果を達成しました。
## 図 3: 2 つの主流データセットの定量的指標。
# 図 4: VOS データセットの視覚化。# 図 5: YOFO のその他の視覚化効果。
#研究では、特徴マイニング モジュール (FM) とメタ転送モジュール (MT) の有効性を示すために、一連のアブレーション実験も実施しました。
図 6: 特徴マイニング モジュール (FM) とメタ転送モジュール (MT) の有効性。
さらに、この研究では、MT モジュールを使用した場合と使用しない場合のデコーダーの出力特徴を視覚化しました。MT モジュールが、で説明されているコンテンツを正しくキャプチャできることが明確にわかります。言語と干渉ノイズのフィルタリング。
図 7: MT モジュールを使用する前後のデコーダ出力機能の比較。
研究チームについてこの論文は、Meitu Imaging Research Institute (MT Lab) の研究者と大連大学 Lu Huchuan チームの研究者によって共同提案されました。テクノロジーの。 Meitu Imaging Research Institute (MT Lab) は、コンピューター ビジョン、機械学習、拡張現実、クラウド コンピューティングなどの分野におけるアルゴリズム研究、エンジニアリング開発、製品化に特化した Meitu のチームであり、Meitu の既存および将来の製品の基礎を提供します。コアアルゴリズムのサポートを提供し、最先端技術を通じて Meitu 製品の開発を促進しており、「Technology Center of Meitu」として知られており、CVPR、ICCV、ECCV などの主要な国際コンピューター ビジョン会議に参加し、優勝しています。 10回以上の優勝と準優勝。
以上がクロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオ オブジェクト セグメンテーション手法は、単一の段階のみを必要とします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。