検索
ホームページテクノロジー周辺機器AIDynRefer は CVPR 2024 メソッドを超え、地域レベルのマルチモーダル認識タスクで複数の SOTA を実現します

高精度の領域レベルのマルチモーダル理解を達成するために、この論文は人間の視覚認知システムをシミュレートする動的解像度スキームを提案します。

この記事の著者は、中国科学院LAMP研究室の出身です。筆頭著者のZhao Yuzhongは、2023年に中国科学院の博士課程の学生であり、共著者のLiuは、フェンは、2020 年に中国科学院大学の博士課程の直接の学生です。彼らの主な研究方向は、視覚言語モデルと視覚物体知覚です。

はじめに

DynRefer は、人間の視覚認知プロセスをシミュレートすることにより、地域レベルのマルチモーダル認識機能を大幅に向上させます。人間の目の動的解像度メカニズムを導入することで、DynRefer は領域認識、領域属性検出、領域レベルのキャプション作成のタスクを 1 つのモデルで同時に完了し、上記すべてのタスクで SOTA パフォーマンスを達成できます。そのうち、RefCOCOg データセットの地域レベルのキャプションタスクでは 115.7 CIDEr が達成され、これは、RegionGPT、GlaMM、Osprey、Alpha-CLIP などの CVPR 2024 手法よりも大幅に高くなりました。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

  • 論文タイトル: DynRefer: 動的解決による領域レベルのマルチモダリティタスクの詳細
  • 論文リンク: https://arxiv.org/abs/2405.16071
  • 論文コード: https ://github.com/callsys/DynRefer

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

Motivation

領域レベルのマルチモーダルタスクは、指定された画像領域を人間の好みに合わせた言語記述に変換することに特化しています。人間は、地域レベルのマルチモーダルタスクを完了するとき、解像度適応能力を持っています。つまり、関心のある領域は高解像度であり、注目していない領域は低解像度です。ただし、現在の地域レベルのマルチモーダル大規模言語モデルは、多くの場合、固定解像度のエンコード スキームを採用しています。つまり、画像全体をエンコードしてから、RoI Align を通じて地域の特徴を抽出します。このアプローチには、人間の視覚認知システムの解像度適応能力が欠けており、関心のある領域に対するエンコード効率と能力が低くなります。高精度の領域レベルのマルチモーダル理解を達成するために、以下の図に示すように、人間の視覚認知システムをシミュレートする動的解像度スキームを提案します。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

区 図 1: 従来の地域マルチモーダル手法 (左) と Dynrefer 手法 (右) の比較。

方法

1. 動的解像度画像をシミュレートします(マルチビュー構築)。
主流の事前トレーニング済み視覚言語モデル (CLIP) は均一解像度の入力のみを受け取ることができるため、複数の均一解像度ビューを構築することで動的解像度画像をシミュレートします。画像は、参照領域では解像度が高く、非参照領域では解像度が低くなります。具体的なプロセスを図 2 に示します。元の画像 x が切り取られ、複数の候補ビューにサイズ変更されます。トリミング領域は
として計算されます。ここで、 。ここで、は参照領域のバウンディングボックス、超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTAは画像全体のサイズ、tは補間係数を表します。トレーニング中に、候補ビューから n 個のビューをランダムに選択し、視線や素早い目の動きによって生成される画像をシミュレートします。これらの n 個のビューは、補間係数 t (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) に対応します。参照領域 (つまり 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) のみを含むビューを固定的に保持します。このビューは、地域の詳細を保存するのに役立つことが実験的に証明されており、これはすべての地域のマルチモーダル タスクにとって重要です。 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
図 2: DynRefer トレーニング (上) )と推論(下)。

2. 確率的マルチビュー埋め込み。 具体的なプロセスを図 3 に示します。サンプリングされた n 個のビューは、フリーズされた CLIP を介して空間特徴にエンコードされ、RoI-Align モジュールによって処理されて領域埋め込み (つまり 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) が取得されます。これを図 3 の左側に示します。これらの領域の埋め込みは、トリミング、サイズ変更、および RoI-Align によって導入される空間誤差により、空間的に位置合わせされていません。変形可能な畳み込み演算にヒントを得て、超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA に位置合わせすることでバイアスを低減する位置合わせモジュールを提案します。ここで、DynRefer は CVPR 2024 メソッドを超え、地域レベルのマルチモーダル認識タスクで複数の SOTA を実現します は参照領域のみを含むビュー エンコーディングの領域埋め込みです。 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTAを埋め込んだ各領域について、最初に超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTAと連結され、次に畳み込み層を通じて2Dオフセットマップが計算されます。 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA の空間特徴は、2D オフセットに基づいてリサンプリングされます。最後に、位置合わせされた領域の埋め込みがチャネル寸法に沿って連結され、線形層を介して融合されます。出力は視覚的なリサンプリング モジュール、つまり Q フォーマーを通じてさらに圧縮され、それによって元の画像 x の参照領域 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA の領域表現が抽出されます (図 3 の 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA )。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

️ 。
確率的マルチビュー埋め込みモジュールによって計算された領域表現 は、図 3 (右) に示すように 3 つのデコーダ によってデコードされ、それぞれ 3 つのマルチモーダル タスクによって監視されます:

i ) 画像領域ラベル世代。領域ラベルの生成には、軽量のクエリベースの認識デコーダーを採用しています。デコーダ を図 3 (右) に示します。タグ付けプロセスは、クエリとしてタグ、キーと値として を使用して、事前定義されたタグの信頼度を計算することで完了します。認識デコーダーを監視するために、グラウンドトゥルース字幕からラベルを解析します。 ii) 領域とテキストの対照学習。領域タグ デコーダと同様に、デコーダ 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA はクエリベースの認識デコーダとして定義されます。デコーダは、SigLIP 損失を使用して監視され、字幕と地域特徴間の類似性スコアを計算します。 iii) 言語モデリング。事前トレーニングされた大規模言語モデル 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA を使用して、地域表現
を言語記述に変換します。

図 4: 領域レベルのマルチモーダル タスクにおけるデュアルビュー (n=2) DynRefer モデルのパフォーマンス。異なる補間係数 t の下では、超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA。ビュー 1 は固定 (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA)、ビュー 2 はランダムに選択または固定されます。

4. 推論プロセス中、トレーニングされた DynRefer モデルは、動的な解像度で画像に対してマルチモーダル タスクを実行します。サンプリングされた n 個のビューの補間係数 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA を調整することで、動的解像度特性を備えた領域表現を取得できます。さまざまな動的解像度でプロパティを評価するために、デュアルビュー (n=2) DynRefer モデルをトレーニングし、4 つのマルチモーダル タスクで評価しました。図 4 の曲線からわかるように、属性検出はコンテキスト情報のないビューでより良い結果を達成します (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA)。これは、このようなタスクでは詳細な地域情報が必要になることが多いという事実によって説明できます。領域レベルのキャプションタスクと高密度キャプションタスクの場合、参照領域を完全に理解するにはコンテキストリッチビュー (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) が必要です。コンテキスト (超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA) が多すぎるビューでは、リージョンに関係のない情報が多すぎるため、すべてのタスクのパフォーマンスが低下することに注意することが重要です。タスクのタイプがわかっている場合は、タスクの特性に基づいて適切なビューをサンプリングできます。タスクのタイプが不明な場合、最初に異なる補間係数 t、超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA の下で候補ビューのセットを構築します。候補セットから、貪欲な検索アルゴリズムを介して n 個のビューがサンプリングされます。検索の目的関数は次のように定義されます:

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA ここで、超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTAは i 番目のビューの補間係数を表し、超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA は i 番目のビューを表し、pHASH (・) は知覚画像ハッシュ関数を表し、超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA は XOR を表します手術。視点の情報を大局的に比較するため、「pHASH(・)」関数を用いて視点を空間領域から周波数領域に変換し、ハッシュコードに符号化します。この項目 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA では、冗長な情報が多すぎることを避けるために、コンテキスト豊富なビューの重みを減らします。

実験

地域レベルのキャプション

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

地域字幕生成のタスクでは、DynRefer は RefCOCOg データセットと VG データセットの両方でより小さいモデル (4.2B 対 7B) を使用します。 METEOR および CIDEr インジケーターは、R​​egionGPT、GlaMM、Alpha-CLIP、Osprey などの CVPR 2024 の多くのメソッドを大幅に上回り、DynRefer のパフォーマンスの大きな利点を示しています。

高密度キャプション

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

高密度字幕生成のタスクでは、VG1.2 データセットで、DynRefer は以前の SOTA メソッド GRiT と比較して mAP を 7.1% 改善しました。

Open Vocabulary Attribute Detection

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

地域属性検出タスクでも、DynRefer は SOTA パフォーマンスを達成しました。

オープンボキャブラリー領域認識

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

領域認識タスクでは、DynReferはCVPR 24のRegionGPTと比較してmAPが15%、精度が8.8%向上し、ICLR 24のASMよりもmAPが15.7%高いです。

アブレーション実験

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

  • 1-6行目: ランダムな動的マルチビューは固定ビューよりも優れています。
  • 行 6-10: 情報を最大化してビューを選択することは、ビューをランダムに選択するよりも優れています。
  • 行 10-13: マルチタスク トレーニングにより、より良い地域表現を学ぶことができます。

視覚化

以下の図は、DynRefer の推論結果を 1 つのモデルを使用して、地域の字幕、タグ、属性、カテゴリを同時に出力することができます。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

以上がDynRefer は CVPR 2024 メソッドを超え、地域レベルのマルチモーダル認識タスクで複数の SOTA を実現しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用:個人的なチャットボットCLIの構築 最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。 ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますメンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加します2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。 アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaPythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。 大規模なデータセットを処理する場合、効率的なデータ操作(ストレージ、管理、アクセス)が重要です。 以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項:AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この(または他の)記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築:初心者と専門家向けガイド 説得力のあるポートフォリオを作成することは、人工知能(AI)と機械学習(ML)で役割を確保するために重要です。 このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかエージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果?燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。 しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai:学生のためのAIの戦いGoogle対Openai:学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ? 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境