ホームページ > 記事 > テクノロジー周辺機器 > BAT 方式: AAAI 2024 の最初のマルチモーダル ターゲット追跡ユニバーサル双方向アダプター
オブジェクト追跡は、コンピュータ ビジョンの基本タスクの 1 つであり、近年、単一モダリティ (RGB) オブジェクト追跡が大幅に進歩しました。ただし、単一のイメージ センサーには限界があるため、複雑な環境で全天候型ターゲット追跡を実現するには、この欠点を補うためにマルチモーダル画像 (RGB、赤外線など) を導入する必要があります。このようなマルチモーダル画像を適用すると、より包括的な情報が提供され、ターゲットの検出と追跡の精度と堅牢性が向上します。マルチモーダルターゲット追跡の開発は、より高度なコンピュータビジョンアプリケーションを実現するために非常に重要です。
しかし、既存のマルチモーダル追跡タスクは、次の 2 つの主な問題にも直面しています。
RGB シーケンスで事前トレーニングしてからマルチモーダル シーンに合わせて完全に微調整する多くのマルチモーダル トラッキング作業には、時間と効率の問題があり、パフォーマンスも制限されています。 。
完全な微調整方法に加えて、自然言語処理 (NLP) の分野におけるパラメーターの効率的な微調整方法からもインスピレーションを得ています。最近のいくつかの手法では、マルチモーダル トラッキングにおけるパラメータ効率の高いプロンプト微調整が導入されています。これらの方法では、バックボーン ネットワーク パラメータを凍結し、学習可能なパラメータのセットを追加することでこれを実現します。
通常、これらの方法は、1 つのモダリティ (通常は RGB) を主モダリティとして、もう 1 つのモダリティを補助モダリティとして焦点を当てます。しかし、この方法ではマルチモーダルデータ間の動的な相関関係が無視されるため、複雑なシーンではマルチモーダル情報の相補効果を十分に活用できず、追跡性能が制限されます。
図 1: 複雑なシナリオにおけるさまざまな主要モード。
上記の問題を解決するために、天津大学の研究者は、マルチモーダル追跡用双方向アダプター (BAT) と呼ばれるソリューションを提案しました。従来の方式とは異なり、BAT方式は固定のドミナントモードと補助モードに依存せず、有効な情報を動的に抽出するプロセスを通じて補助モードからドミナントモードへの変更時に優れたパフォーマンスを獲得します。この方法の革新的な点は、さまざまなデータ特性やタスク要件に適応できるため、下流タスクにおける基本モデルの表現能力が向上することです。研究者らは、BAT 手法を使用することで、より柔軟で効率的なマルチモーダル追跡ソリューションを提供し、関連分野の研究や応用により良い結果をもたらすことを期待しています。
BAT は、モーダル ブランチに固有の共有パラメーターを備えた 2 つの基本モデル エンコーダーと一般的な双方向アダプターで構成されます。トレーニング プロセス中、BAT は基本モデルを完全には微調整しませんでしたが、ステップバイステップのトレーニング方法を採用しました。特定のモダリティ ブランチはそれぞれ、固定パラメーターを持つ基本モデルを使用して初期化され、新しく追加された双方向アダプターのみがトレーニングされます。各モーダル ブランチは他のモダリティからキュー情報を学習し、それを現在のモダリティの特徴情報と組み合わせて表現機能を強化します。 2 つのモダリティ固有のブランチは、ユニバーサル双方向アダプターを介して相互作用し、主要な情報と補助的な情報を互いに動的に融合して、マルチモーダル非固定関連付けのパラダイムに適応します。この設計により、BAT は元のコンテンツの意味を変更することなくコンテンツを微調整できるようになり、モデルの表現能力と適応性が向上します。
ユニバーサル双方向アダプタは軽量の砂時計構造を採用しており、基本モデルのトランスエンコーダの各層に埋め込むことができるため、多数の学習可能なパラメータの導入を避けることができます。少数のトレーニング パラメーター (0.32M) のみを追加することで、ユニバーサル双方向アダプターは、完全に微調整された方法やキュー学習ベースの方法と比較して、トレーニング コストが低くなり、より優れた追跡パフォーマンスを実現します。
論文「マルチモーダル追跡のための双方向アダプター」:
論文リンク: https://arxiv.org/abs/2312.10611
コードリンク: https://github.com/SparkTempest/BAT
図 2 に示すように、双方向アダプターに基づいたマルチモーダル追跡ビジュアル キュー フレームワークを提案します。 (BAT) のフレームワークには、RGB モダリティと熱赤外線モダリティを備えたデュアル ストリーム エンコーダ構造があり、各ストリームは同じ基本モデル パラメータを使用します。双方向アダプターは、2 つのモダリティからのマルチモーダル データをクロスキューするために、デュアル ストリーム エンコーダー層と並行してセットアップされます。
このメソッドは、基本モデルを完全には微調整しません。軽量の双方向アダプターを学習することによって、事前にトレーニングされた RGB トラッカーをマルチモーダル シーンに効率的に転送するだけです。優れたマルチモードを実現します。 -モーダル相補性と優れた追跡精度。
図 2: BAT の全体的なアーキテクチャ。
まず、各モダリティの テンプレート フレーム (最初のフレームの対象オブジェクトの最初のフレーム) ) と の検索フレーム (後続の追跡画像) は に変換され、結合されて N-それぞれレイヤーデュアルストリームトランスフォーマーエンコーダー。
双方向アダプターは、あるモダリティから別のモダリティへの特徴キューを学習するために、デュアルストリーム エンコーダー層と並行してセットアップされます。この目的のために、2 つのブランチの出力特徴が加算されて予測ヘッド H に入力され、最終的な追跡結果ボックス B が得られます。
双方向アダプターはモジュラー設計を採用しており、右に示すように、マルチヘッドセルフアテンションステージとMLPステージにそれぞれ組み込まれています。図 1 の側面。特徴キューを 1 つのモダリティから別のモダリティに転送するように設計された詳細な構造。 3 つの線形投影層で構成され、tn は各モダリティのトークンの数を表します。入力されたトークンは、まず下方投影によって de に次元削減され、線形投影層を通過し、次に元の次元 dt に上方投影されてフィードバックされます。機能プロンプトとして、Transformer エンコーダー レイヤを他のモダリティに変換します。
この単純な構造により、双方向アダプターは モダリティ間で機能プロンプトを効果的に実行し、マルチモーダル追跡を実現できます。
トランスエンコーダーと予測ヘッドはフリーズされているため、新しく追加されたアダプターのパラメーターのみを最適化する必要があります。特に、ほとんどの従来のアダプターとは異なり、当社の双方向アダプターは、主要なモダリティを動的に変更するためのクロスモーダル機能キューとして機能し、オープンワールドで優れた追跡パフォーマンスを保証します。
表 1 に示すように、RGBT234 と LasHeR の 2 つのデータセットを比較すると、この方法が精度と成功率の両方を備えていることがわかります。 -最先端のメソッド。図 3 に示すように、LasHeR データセットのさまざまなシーン特性の下での最先端の手法とのパフォーマンスの比較からも、提案された手法の優位性が実証されています。
これらの実験は、当社のデュアル ストリーム追跡フレームワークと双方向アダプターが、最も複雑な環境でターゲットを正常に追跡し、動的に変化する支配-補助モードから適応的に切り替えることを完全に証明しています。システムから有効な情報を抽出し、最先端のパフォーマンスを実現します。
#表 1 RGBT234 および LasHeR データセットの全体的なパフォーマンス。
図 3 LasHeR データセットのさまざまな属性における BAT と競合メソッドの比較。
実験では、複雑なシナリオで変化する支配-補助パターンから効果的な情報を動的に促す有効性を実証しています。図4に示すように、ドミナントモードを固定する関連方法と比較して、RGBとTIRの両方が後続のシーンで有効な情報を提供できる場合、私たちの方法はRGBが完全に利用できない場合でもターゲットを効果的に追跡でき、追跡効果ははるかに優れています。 。当社の双方向アダプタは、RGB モダリティと IR モダリティの両方からターゲットの効果的な特徴を動的に抽出し、より正確なターゲットの応答位置を捕捉し、RGB モダリティからの干渉を排除します。
# 図 4 追跡結果の視覚化。
# RGBE トレース データセットでもメソッドを評価します。図 5 に示すように、VisEvent テスト セットの他の方法と比較して、私たちの方法はさまざまな複雑なシナリオで最も正確な追跡結果が得られ、BAT モデルの有効性と一般化が証明されています。
図 5 VisEvent データ セットでの結果の追跡。
# 図 6 アテンションの重みの視覚化。
図 6 では、ターゲットを追跡するさまざまなレイヤーの注意の重みを視覚化します。ベースライン デュアル (基本モデル パラメーター初期化用のデュアル ストリーム フレームワーク) 方式と比較して、当社の BAT は補助モードを効果的に駆動して、ドミナント モードからより補完的な情報を学習しながら、ネットワークの深さが増加してもドミナント モードの有効性を維持します。これにより、全体的な追跡パフォーマンスが向上します。
実験により、BAT がマルチモーダルな相補情報をうまく捕捉し、サンプルの適応動的追跡を実現できることが示されました。
以上がBAT 方式: AAAI 2024 の最初のマルチモーダル ターゲット追跡ユニバーサル双方向アダプターの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。