DynRefer は CVPR 2024 メソッドを超え、地域レベルのマルチモーダル認識タスクで複数の SOTA を実現します-AI-php.cn

ホームページ

テクノロジー周辺機器

DynRefer は CVPR 2024 メソッドを超え、地域レベルのマルチモーダル認識タスクで複数の SOTA を実現します

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 20, 2024 pm 08:31 PM

業界DynRefer

高精度の領域レベルのマルチモーダル理解を達成するために、この論文は人間の視覚認知システムをシミュレートする動的解像度スキームを提案します。

この記事の著者は、中国科学院LAMP研究室の出身です。筆頭著者のZhao Yuzhongは、2023年に中国科学院の博士課程の学生であり、共著者のLiuは、フェンは、2020 年に中国科学院大学の博士課程の直接の学生です。彼らの主な研究方向は、視覚言語モデルと視覚物体知覚です。

はじめに

DynRefer は、人間の視覚認知プロセスをシミュレートすることにより、地域レベルのマルチモーダル認識機能を大幅に向上させます。人間の目の動的解像度メカニズムを導入することで、DynRefer は領域認識、領域属性検出、領域レベルのキャプション作成のタスクを 1 つのモデルで同時に完了し、上記すべてのタスクで SOTA パフォーマンスを達成できます。そのうち、RefCOCOg データセットの地域レベルのキャプションタスクでは 115.7 CIDEr が達成され、これは、RegionGPT、GlaMM、Osprey、Alpha-CLIP などの CVPR 2024 手法よりも大幅に高くなりました。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

論文タイトル: DynRefer: 動的解決による領域レベルのマルチモダリティタスクの詳細
論文リンク: https://arxiv.org/abs/2405.16071
論文コード: https ://github.com/callsys/DynRefer

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

Motivation

領域レベルのマルチモーダルタスクは、指定された画像領域を人間の好みに合わせた言語記述に変換することに特化しています。人間は、地域レベルのマルチモーダルタスクを完了するとき、解像度適応能力を持っています。つまり、関心のある領域は高解像度であり、注目していない領域は低解像度です。ただし、現在の地域レベルのマルチモーダル大規模言語モデルは、多くの場合、固定解像度のエンコードスキームを採用しています。つまり、画像全体をエンコードしてから、RoI Align を通じて地域の特徴を抽出します。このアプローチには、人間の視覚認知システムの解像度適応能力が欠けており、関心のある領域に対するエンコード効率と能力が低くなります。高精度の領域レベルのマルチモーダル理解を達成するために、以下の図に示すように、人間の視覚認知システムをシミュレートする動的解像度スキームを提案します。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

区図 1: 従来の地域マルチモーダル手法 (左) と Dynrefer 手法 (右) の比較。

方法

1. 動的解像度画像をシミュレートします（マルチビュー構築）。

主流の事前トレーニング済み視覚言語モデル (CLIP) は均一解像度の入力のみを受け取ることができるため、複数の均一解像度ビューを構築することで動的解像度画像をシミュレートします。画像は、参照領域では解像度が高く、非参照領域では解像度が低くなります。具体的なプロセスを図 2 に示します。元の画像 x が切り取られ、複数の候補ビューにサイズ変更されます。トリミング領域は

として計算されます。ここで、 。ここで、は参照領域のバウンディングボックス、超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

は画像全体のサイズ、tは補間係数を表します。トレーニング中に、候補ビューから n 個のビューをランダムに選択し、視線や素早い目の動きによって生成される画像をシミュレートします。これらの n 個のビューは、補間係数 t ( 超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

) に対応します。参照領域 (つまり超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

) のみを含むビューを固定的に保持します。このビューは、地域の詳細を保存するのに役立つことが実験的に証明されており、これはすべての地域のマルチモーダルタスクにとって重要です。超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

^{図 2: DynRefer トレーニング (上) ）と推論（下）。}

2. 確率的マルチビュー埋め込み。 具体的なプロセスを図 3 に示します。サンプリングされた n 個のビューは、フリーズされた CLIP を介して空間特徴にエンコードされ、RoI-Align モジュールによって処理されて領域埋め込み (つまり超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

) が取得されます。これを図 3 の左側に示します。これらの領域の埋め込みは、トリミング、サイズ変更、および RoI-Align によって導入される空間誤差により、空間的に位置合わせされていません。変形可能な畳み込み演算にヒントを得て、超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

を

に位置合わせすることでバイアスを低減する位置合わせモジュールを提案します。ここで、 DynRefer は CVPR 2024 メソッドを超え、地域レベルのマルチモーダル認識タスクで複数の SOTA を実現します

は参照領域のみを含むビューエンコーディングの領域埋め込みです。超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

を埋め込んだ各領域について、最初に超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

と連結され、次に畳み込み層を通じて2Dオフセットマップが計算されます。超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

の空間特徴は、2D オフセットに基づいてリサンプリングされます。最後に、位置合わせされた領域の埋め込みがチャネル寸法に沿って連結され、線形層を介して融合されます。出力は視覚的なリサンプリングモジュール、つまり Q フォーマーを通じてさらに圧縮され、それによって元の画像 x の参照領域超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

の領域表現が抽出されます (図 3 の超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

)。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

️ 。

確率的マルチビュー埋め込みモジュールによって計算された領域表現 は、図 3 (右) に示すように 3 つのデコーダ ^{によってデコードされ、それぞれ 3 つのマルチモーダルタスクによって監視されます:}

i ) 画像領域ラベル世代。領域ラベルの生成には、軽量のクエリベースの認識デコーダーを採用しています。デコーダ を図 3 (右) に示します。タグ付けプロセスは、クエリとしてタグ、キーと値として を使用して、事前定義されたタグの信頼度を計算することで完了します。認識デコーダーを監視するために、グラウンドトゥルース字幕からラベルを解析します。 ii) 領域とテキストの対照学習。領域タグデコーダと同様に、デコーダ超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

はクエリベースの認識デコーダとして定義されます。デコーダは、SigLIP 損失を使用して監視され、字幕と地域特徴間の類似性スコアを計算します。 iii) 言語モデリング。事前トレーニングされた大規模言語モデル超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

を使用して、地域表現

を言語記述に変換します。

^{図 4: 領域レベルのマルチモーダルタスクにおけるデュアルビュー (n=2) DynRefer モデルのパフォーマンス。異なる補間係数 t の下では、}^{。ビュー 1 は固定 (}^{)、ビュー 2 はランダムに選択または固定されます。}

4. 推論プロセス中、トレーニングされた DynRefer モデルは、動的な解像度で画像に対してマルチモーダルタスクを実行します。サンプリングされた n 個のビューの補間係数超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

を調整することで、動的解像度特性を備えた領域表現を取得できます。さまざまな動的解像度でプロパティを評価するために、デュアルビュー (n=2) DynRefer モデルをトレーニングし、4 つのマルチモーダルタスクで評価しました。図 4 の曲線からわかるように、属性検出はコンテキスト情報のないビューでより良い結果を達成します ( 超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

)。これは、このようなタスクでは詳細な地域情報が必要になることが多いという事実によって説明できます。領域レベルのキャプションタスクと高密度キャプションタスクの場合、参照領域を完全に理解するにはコンテキストリッチビュー ( 超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

) が必要です。コンテキスト ( 超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

) が多すぎるビューでは、リージョンに関係のない情報が多すぎるため、すべてのタスクのパフォーマンスが低下することに注意することが重要です。タスクのタイプがわかっている場合は、タスクの特性に基づいて適切なビューをサンプリングできます。タスクのタイプが不明な場合、最初に異なる補間係数 t、超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

の下で候補ビューのセットを構築します。候補セットから、貪欲な検索アルゴリズムを介して n 個のビューがサンプリングされます。検索の目的関数は次のように定義されます:

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA ここで、は i 番目のビューの補間係数を表し、は i 番目のビューを表し、pHASH (・) は知覚画像ハッシュ関数を表し、は XOR を表します手術。視点の情報を大局的に比較するため、「pHASH(・)」関数を用いて視点を空間領域から周波数領域に変換し、ハッシュコードに符号化します。この項目超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA では、冗長な情報が多すぎることを避けるために、コンテキスト豊富なビューの重みを減らします。

実験

地域レベルのキャプション

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

地域字幕生成のタスクでは、DynRefer は RefCOCOg データセットと VG データセットの両方でより小さいモデル (4.2B 対 7B) を使用します。 METEOR および CIDEr インジケーターは、RegionGPT、GlaMM、Alpha-CLIP、Osprey などの CVPR 2024 の多くのメソッドを大幅に上回り、DynRefer のパフォーマンスの大きな利点を示しています。

高密度キャプション

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

高密度字幕生成のタスクでは、VG1.2 データセットで、DynRefer は以前の SOTA メソッド GRiT と比較して mAP を 7.1% 改善しました。

Open Vocabulary Attribute Detection

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

地域属性検出タスクでも、DynRefer は SOTA パフォーマンスを達成しました。

オープンボキャブラリー領域認識

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

領域認識タスクでは、DynReferはCVPR 24のRegionGPTと比較してmAPが15%、精度が8.8%向上し、ICLR 24のASMよりもmAPが15.7%高いです。

アブレーション実験

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

1-6行目: ランダムな動的マルチビューは固定ビューよりも優れています。
行 6-10: 情報を最大化してビューを選択することは、ビューをランダムに選択するよりも優れています。
行 10-13: マルチタスクトレーニングにより、より良い地域表現を学ぶことができます。

視覚化

以下の図は、DynRefer の推論結果を 1 つのモデルを使用して、地域の字幕、タグ、属性、カテゴリを同時に出力することができます。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

以上がDynRefer は CVPR 2024 メソッドを超え、地域レベルのマルチモーダル認識タスクで複数の SOTA を実現しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。