ホームページ  >  記事  >  テクノロジー周辺機器  >  DynRefer は CVPR 2024 メソッドを超え、地域レベルのマルチモーダル認識タスクで複数の SOTA を実現します

DynRefer は CVPR 2024 メソッドを超え、地域レベルのマルチモーダル認識タスクで複数の SOTA を実現します

WBOY
WBOYオリジナル
2024-06-20 20:31:51609ブラウズ

高精度の領域レベルのマルチモーダル理解を達成するために、この論文は人間の視覚認知システムをシミュレートする動的解像度スキームを提案します。

この記事の著者は、中国科学院LAMP研究室の出身です。筆頭著者のZhao Yuzhongは、2023年に中国科学院の博士課程の学生であり、共著者のLiuは、フェンは、2020 年に中国科学院大学の博士課程の直接の学生です。彼らの主な研究方向は、視覚言語モデルと視覚物体知覚です。

はじめに

DynRefer は、人間の視覚認知プロセスをシミュレートすることにより、地域レベルのマルチモーダル認識機能を大幅に向上させます。人間の目の動的解像度メカニズムを導入することで、DynRefer は領域認識、領域属性検出、領域レベルのキャプション作成のタスクを 1 つのモデルで同時に完了し、上記すべてのタスクで SOTA パフォーマンスを達成できます。そのうち、RefCOCOg データセットの地域レベルのキャプションタスクでは 115.7 CIDEr が達成され、これは、RegionGPT、GlaMM、Osprey、Alpha-CLIP などの CVPR 2024 手法よりも大幅に高くなりました。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

  • 論文タイトル: DynRefer: 動的解決による領域レベルのマルチモダリティタスクの詳細
  • 論文リンク: https://arxiv.org/abs/2405.16071
  • 論文コード: https ://github.com/callsys/DynRefer

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Motivation

領域レベルのマルチモーダルタスクは、指定された画像領域を人間の好みに合わせた言語記述に変換することに特化しています。人間は、地域レベルのマルチモーダルタスクを完了するとき、解像度適応能力を持っています。つまり、関心のある領域は高解像度であり、注目していない領域は低解像度です。ただし、現在の地域レベルのマルチモーダル大規模言語モデルは、多くの場合、固定解像度のエンコード スキームを採用しています。つまり、画像全体をエンコードしてから、RoI Align を通じて地域の特徴を抽出します。このアプローチには、人間の視覚認知システムの解像度適応能力が欠けており、関心のある領域に対するエンコード効率と能力が低くなります。高精度の領域レベルのマルチモーダル理解を達成するために、以下の図に示すように、人間の視覚認知システムをシミュレートする動的解像度スキームを提案します。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

区 図 1: 従来の地域マルチモーダル手法 (左) と Dynrefer 手法 (右) の比較。

方法

1. 動的解像度画像をシミュレートします(マルチビュー構築)。
主流の事前トレーニング済み視覚言語モデル (CLIP) は均一解像度の入力のみを受け取ることができるため、複数の均一解像度ビューを構築することで動的解像度画像をシミュレートします。画像は、参照領域では解像度が高く、非参照領域では解像度が低くなります。具体的なプロセスを図 2 に示します。元の画像 x が切り取られ、複数の候補ビューにサイズ変更されます。トリミング領域は
として計算されます。ここで、 。ここで、は参照領域のバウンディングボックス、超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTAは画像全体のサイズ、tは補間係数を表します。トレーニング中に、候補ビューから n 個のビューをランダムに選択し、視線や素早い目の動きによって生成される画像をシミュレートします。これらの n 個のビューは、補間係数 t (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) に対応します。参照領域 (つまり 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) のみを含むビューを固定的に保持します。このビューは、地域の詳細を保存するのに役立つことが実験的に証明されており、これはすべての地域のマルチモーダル タスクにとって重要です。 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
図 2: DynRefer トレーニング (上) )と推論(下)。

2. 確率的マルチビュー埋め込み。 具体的なプロセスを図 3 に示します。サンプリングされた n 個のビューは、フリーズされた CLIP を介して空間特徴にエンコードされ、RoI-Align モジュールによって処理されて領域埋め込み (つまり 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) が取得されます。これを図 3 の左側に示します。これらの領域の埋め込みは、トリミング、サイズ変更、および RoI-Align によって導入される空間誤差により、空間的に位置合わせされていません。変形可能な畳み込み演算にヒントを得て、超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA に位置合わせすることでバイアスを低減する位置合わせモジュールを提案します。ここで、DynRefer は CVPR 2024 メソッドを超え、地域レベルのマルチモーダル認識タスクで複数の SOTA を実現します は参照領域のみを含むビュー エンコーディングの領域埋め込みです。 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTAを埋め込んだ各領域について、最初に超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTAと連結され、次に畳み込み層を通じて2Dオフセットマップが計算されます。 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA の空間特徴は、2D オフセットに基づいてリサンプリングされます。最後に、位置合わせされた領域の埋め込みがチャネル寸法に沿って連結され、線形層を介して融合されます。出力は視覚的なリサンプリング モジュール、つまり Q フォーマーを通じてさらに圧縮され、それによって元の画像 x の参照領域 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA の領域表現が抽出されます (図 3 の 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA )。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

️ 。
確率的マルチビュー埋め込みモジュールによって計算された領域表現 は、図 3 (右) に示すように 3 つのデコーダ によってデコードされ、それぞれ 3 つのマルチモーダル タスクによって監視されます:

i ) 画像領域ラベル世代。領域ラベルの生成には、軽量のクエリベースの認識デコーダーを採用しています。デコーダ を図 3 (右) に示します。タグ付けプロセスは、クエリとしてタグ、キーと値として を使用して、事前定義されたタグの信頼度を計算することで完了します。認識デコーダーを監視するために、グラウンドトゥルース字幕からラベルを解析します。 ii) 領域とテキストの対照学習。領域タグ デコーダと同様に、デコーダ 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA はクエリベースの認識デコーダとして定義されます。デコーダは、SigLIP 損失を使用して監視され、字幕と地域特徴間の類似性スコアを計算します。 iii) 言語モデリング。事前トレーニングされた大規模言語モデル 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA を使用して、地域表現
を言語記述に変換します。

図 4: 領域レベルのマルチモーダル タスクにおけるデュアルビュー (n=2) DynRefer モデルのパフォーマンス。異なる補間係数 t の下では、超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA。ビュー 1 は固定 (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA)、ビュー 2 はランダムに選択または固定されます。

4. 推論プロセス中、トレーニングされた DynRefer モデルは、動的な解像度で画像に対してマルチモーダル タスクを実行します。サンプリングされた n 個のビューの補間係数 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA を調整することで、動的解像度特性を備えた領域表現を取得できます。さまざまな動的解像度でプロパティを評価するために、デュアルビュー (n=2) DynRefer モデルをトレーニングし、4 つのマルチモーダル タスクで評価しました。図 4 の曲線からわかるように、属性検出はコンテキスト情報のないビューでより良い結果を達成します (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA)。これは、このようなタスクでは詳細な地域情報が必要になることが多いという事実によって説明できます。領域レベルのキャプションタスクと高密度キャプションタスクの場合、参照領域を完全に理解するにはコンテキストリッチビュー (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) が必要です。コンテキスト (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) が多すぎるビューでは、リージョンに関係のない情報が多すぎるため、すべてのタスクのパフォーマンスが低下することに注意することが重要です。タスクのタイプがわかっている場合は、タスクの特性に基づいて適切なビューをサンプリングできます。タスクのタイプが不明な場合、最初に異なる補間係数 t、超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA の下で候補ビューのセットを構築します。候補セットから、貪欲な検索アルゴリズムを介して n 個のビューがサンプリングされます。検索の目的関数は次のように定義されます:

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA ここで、超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTAは i 番目のビューの補間係数を表し、超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA は i 番目のビューを表し、pHASH (・) は知覚画像ハッシュ関数を表し、超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA は XOR を表します手術。視点の情報を大局的に比較するため、「pHASH(・)」関数を用いて視点を空間領域から周波数領域に変換し、ハッシュコードに符号化します。この項目 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA では、冗長な情報が多すぎることを避けるために、コンテキスト豊富なビューの重みを減らします。

実験

地域レベルのキャプション

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

地域字幕生成のタスクでは、DynRefer は RefCOCOg データセットと VG データセットの両方でより小さいモデル (4.2B 対 7B) を使用します。 METEOR および CIDEr インジケーターは、R​​egionGPT、GlaMM、Alpha-CLIP、Osprey などの CVPR 2024 の多くのメソッドを大幅に上回り、DynRefer のパフォーマンスの大きな利点を示しています。

高密度キャプション

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

高密度字幕生成のタスクでは、VG1.2 データセットで、DynRefer は以前の SOTA メソッド GRiT と比較して mAP を 7.1% 改善しました。

Open Vocabulary Attribute Detection

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

地域属性検出タスクでも、DynRefer は SOTA パフォーマンスを達成しました。

オープンボキャブラリー領域認識

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

領域認識タスクでは、DynReferはCVPR 24のRegionGPTと比較してmAPが15%、精度が8.8%向上し、ICLR 24のASMよりもmAPが15.7%高いです。

アブレーション実験

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

  • 1-6行目: ランダムな動的マルチビューは固定ビューよりも優れています。
  • 行 6-10: 情報を最大化してビューを選択することは、ビューをランダムに選択するよりも優れています。
  • 行 10-13: マルチタスク トレーニングにより、より良い地域表現を学ぶことができます。

視覚化

以下の図は、DynRefer の推論結果を 1 つのモデルを使用して、地域の字幕、タグ、属性、カテゴリを同時に出力することができます。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

以上がDynRefer は CVPR 2024 メソッドを超え、地域レベルのマルチモーダル認識タスクで複数の SOTA を実現しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。