CVPR 2024 | すべてのモデルのセグメンテーションは SAM の汎化能力が低いですか?ドメイン適応戦略を解決-AI-php.cn

ホームページ

テクノロジー周辺機器

CVPR 2024 | すべてのモデルのセグメンテーションは SAM の汎化能力が低いですか?ドメイン適応戦略を解決

王林

Apr 09, 2024 pm 04:55 PM

gitプロジェクトメモリ使用量

「Segment Anything」大規模モデルの最初のドメイン適応戦略はここにあります。関連論文が CVPR 2024 に受理されました。

はじめに

成功言語モデル (LLM) の開発により、コンピュータービジョンの分野におけるセグメンテーションの基本モデルの探索に対する関心が高まっています。これらの基本的なセグメンテーションモデルは通常、Prompt Engineer によるゼロまたは少数の画像セグメンテーションに使用されます。その中でも、Segment Anything Model (SAM) は、画像セグメンテーションの最も高度な基本モデルです。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

## 図

## しかし、最近の研究によると、 SAM は、医療画像、カモフラージュされたオブジェクト、干渉が加わった自然画像などでのパフォーマンスの低下など、さまざまな下流タスクにおいてあまり堅牢ではなく、一般化可能ではありません。これは、トレーニングデータセットと下流のテストデータセット間の大きな

ドメインシフト

が原因である可能性があります。したがって、非常に重要な問題は、現実世界と多様な下流タスクに直面する際に SAM をより堅牢にするドメイン適応スキームをどのように設計するかということです。

事前トレーニング済み SAM を下流タスクに適応させるには、主に 3 つの課題があります。

ソースデータセット
とターゲットデータセットが必要ですが、これはプライバシーと計算コストの観点から比較的現実的ではありません。
高価なメモリコスト
によっても制限されます。
下流タスクのプロンプト情報が欠如している場合には、教師なし適応が行われます。非常に挑戦的であること。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了 ##—。弱い監視を使用して、さまざまな下流タスクに SAM を適応させます

#上記の課題に対処するために、

弱い監視を使用する方法を提案します。アンカーポイント正則化
と

低ランク微調整

の教師あり自己トレーニングアーキテクチャにより、適応性のある堅牢性と計算効率が向上します。 具体的には、ソースデータへの依存を回避するために、まずパッシブドメインで自己トレーニング戦略を採用します。自己トレーニングでは、モデルの更新を監視するために使用される擬似ラベルが生成されますが、間違った擬似ラベルの影響を受けやすいため、モデルの更新を標準化するために、

フリーズソースモデルをアンカーネットワークとして導入します

。

モデル全体の重みを更新するための高い計算コストをさらに削減するために、

低ランクの重み分解

をエンコーダに適用し、低ランクの重み分解を実行します。 -rank ショートカットパスバックプロパゲーション。

最後に、受動的ドメイン適応の効果をさらに向上させるために、ターゲットドメインに

weak supervise

を導入します。たとえば、スパースドットアノテーションなどです。より強力なドメイン適応情報を提供しますが、この弱い監視は SAM のキューエンコーダと自然に互換性があります。

プロンプトとして弱い監視を使用すると、よりローカルで明示的な自己訓練された疑似ラベルが得られます。調整されたモデルは、複数の下流タスクに対してより強力な汎化能力を示します。

この研究の貢献を次のように要約します:

1. 私たちは SAM の一般化問題に悩まされています。ダウンストリームタスクでにインスピレーションを得て、タスクに依存せず、ソースデータを必要としないソリューションが、自己トレーニングを通じて SAM を適応させるために提案されています。

2. 適応効果を高めるために、ボックス、ポイント、その他のラベルを含む弱い監視を使用します。これらの弱く監視されたラベルは、SAM のプロンプトエンコーダと完全に互換性があります。

3. 提案された弱教師適応手法の有効性を実証するために、5 種類の下流インスタンスセグメンテーションタスクについて広範な実験を実施しました。

論文アドレス: https://arxiv.org/pdf/2312.03502.pdf
プロジェクトアドレス: https://github.com/Zhang- Haojie/WeSAM
論文タイトル: 弱い教師あり適応による分布シフト下のセグメンテーション基盤モデルの一般化の改善

メソッド

メソッドの紹介は 4 つの部分に分かれています:

Segment Anything Model
自己トレーニングに基づく適応フレームワーク
弱い監督が効果的な自己トレーニングの達成にどのように役立つか
#低ランクの重みの更新

##1.Segment Anything Model

#SAM は主に、

イメージエンコーダー (ImageEncoder)、プロンプトエンコーダー (PromptEncoder)、およびデコーダー (MaskDecoder) の 3 つのコンポーネントで構成されます。

画像エンコーダーは MAE を使用して事前トレーニングされています。SAM 全体は、11 億のアノテーションを備えたトレーニングセット SA-1B でさらに微調整されています。焦点損失とダイスは、トレーニング中に使用され、損失の組み合わせ。推論時には、テスト画像 x が最初に画像エンコーダーによってエンコードされ、次にプロンプトが与えられると、軽量デコーダーが 3 レベルの予測を行います。

#2.ソースフリーのドメイン適応セルフトレーニング

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

図 2 アンカーネットワーク正則化と対比損失正則化を使用した提案された自己学習アーキテクチャ

ラベルが提供されていないターゲットデータセットの場合 DT={ xi} と事前トレーニングされたセグメンテーションモデル。私たちは、自己トレーニングのために

学生と教師のアーキテクチャを使用します。図 2 に示すように、アンカーモデル、学生モデル、教師モデルという 3 つのエンコーダネットワークを維持します。学生モデルと教師モデルは重みを共有します。

具体的には、各サンプル xi に対して、ランダムな弱いデータ拡張をアンカーモデルと教師モデルの入力として適用し、ランダムな強いデータ拡張を学生モデルとして適用します。入力を受け取ると、3 つのエンコーダネットワークがエンコードして 3 つの特徴マップを生成します。

デコーダネットワークでは、ボックス、ポイント、または粗いマスクなどのプロンプトの特定の数 Np が与えられると、一連のインスタンスセグメンテーションマスクが推論されます。

#上記の知識に基づいて、以下で自己トレーニングのための 3 つの最適化目標について詳しく説明します。

1) 生徒と教師のセルフトレーニング

まず、セルフトレーニングと同じ損失関数を使用します。 SAM をトレーニングするときは、生徒/教師モデルを更新するために最適化目標をトレーニングします。自己トレーニングは半教師あり学習で広く使用されており、最近では受動的なドメイン適応に非常に効果的であることが示されています。具体的には、教師モデルによって生成された予測結果を擬似ラベルとして使用し、Focal loss と Dice loss を使用して生徒の出力を監視します。

2) 堅牢な正則化のためのアンカー損失 CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

自己トレーニング損失のみを使用したネットワークトレーニングは影響を受けやすい教師ネットワークによって予測された偽の擬似ラベルの蓄積、いわゆる確証バイアス。また、自己トレーニングのみを使用して長時間反復するとパフォーマンスが低下することも観察によって示されています。既存の受動的なドメイン適応方法では、予測の均一な分布など、自己学習の悪影響を防ぐために追加の制約が採用されることがよくあります。

式 3 に示すように、アンカー損失を通じて正則化します。
アンカーモデルと学生/教師モデルの間の Dice 損失をそれぞれ最小化します

。凍結されたアンカーモデルは、

ソースドメインから継承された知識として、ソースモデルと自己学習更新モデルの間の過度の逸脱を抑制し、モデルの崩壊を防ぐことができます。

3) コントラスト損失の正規化エンコーダ特徴空間

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

^{図3 两个分支下对比损失}

以上两个训练目标デコーダの出力空間で実行されます。実験セクションでは、エンコーダネットワークを更新することが SAM を適応させる最も効率的な方法であることが明らかになったため、 エンコーダネットワークからの特徴出力に正則化 を直接適用する必要があります。図 3 に示すように、アンカーブランチと教師ブランチの予測マスクに基づいて、特徴マップから各インスタンスの特徴を切り取ります。 CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

対比損失で正と負のサンプルペアをさらに定義します。正のサンプルペアは、2 つのブランチの同じプロンプトに対応するインスタンスの特徴から構築されます。負のサンプルのペア。これは、さまざまなプロンプトに対応するインスタンスの特性によって構成されます。最終的なコントラストの損失を以下に示します。

は温度係数です。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

4) 総損失

上記の 3 つの損失関数を最終的なソースフリー適応損失に結合します。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

3. 自己学習型プロンプト生成

SAM セグメンテーションでは、セグメント化するターゲットオブジェクトを示すプロンプト入力が必要ですが、パーティクルが存在する可能性があります。 . 漠然とした質問です。迅速なプロジェクトは、完全に自動化された方法で、または人間の対話を通じて実装できます。

1) プロンプトを完全に自動生成します

まず、Anchor を介してプロンプト入力としてグリッドの密なサンプリングポイントを使用します。モデルは初期段階でセグメンテーション用のマスクを生成し、IoU と安定性スコアが低いマスクを削除してから、非最大抑制を実行してセグメンテーションの結果を取得します。次に、3 つのブランチすべてに対するプロンプト入力として、最終マスクからプロンプトの固定セットが生成されます。したがって、3 つのネットワークセグメンテーション出力のマスク長は同じであり、正確に 1 対 1 で対応します。

2) プロンプトとしての監視が弱い

プロンプトは画像のグリッドサンプリングを使用して取得できますが、自動セグメンテーションのために、低品質の重複マスクをフィルターで除外します。ただし、これらのセグメンテーションの品質は比較的低く、多くの誤検知予測が含まれる可能性があり、粒度が不明確です。結果として得られるプロンプトの品質にはばらつきがあり、自己トレーニングの効果が低下します。

したがって、以前の弱教師ありドメイン適応作業を利用して、境界ボックスボックス、疎点注釈ポイント、粗セグメンテーションポリゴン粗マスクを含む 3 つの弱教師教師あり手法を使用することを提案します。。 SAM では、これらの弱い監視方法はプロンプト入力と完全に一致し、弱い監視は SAM に適応するためにシームレスに統合できます。

4. 低ランクの重みの更新

ベーシックの巨大なエンコーダネットワークすべてのモデルの重みを更新することは非常に困難になります。ただし、多くの既存の研究では、エンコーダーネットワークの重みを更新することが、事前トレーニングされたモデルを調整する効果的な方法であることが示されています。

#エンコーダネットワークをより効率的かつコスト効率よく更新できるようにするために、計算に適した低ランクの更新方法を選択します。エンコーダネットワークの各重み θ に対して、低ランク近似 ω = AB を使用し、圧縮率 r を設定します。メモリ使用量を削減するために、A と B のみが逆伝播によって更新されます。推論段階では、低ランク近似と元の重みを組み合わせることによって重みが再構築されます (つまり、θ = θ AB)。

#実験

実験では、状態を詳細に説明します。 -最先端の方法比較および定性的な結果。最後に、各部分の有効性とネットワークの具体的な設計を分析します。

1. データセット

この作業では、さまざまな種類の下流セグメンテーションタスクを実行します。そのうちのいくつかは SA-1B から分布が大きく変化しています。データセットは、鮮明な自然画像、干渉を加えた自然画像、医療画像、偽装物体、ロボット画像の計10種類を網羅しています。

データの分割: 各ダウンストリームデータセットは、重複しないトレーニングセットとテストセットに分割されます。

各タイプの下流タスクが評価されたデータセットと、トレーニングデータセットとテストデータセットの分割を表 1 に示します。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

#2. 実験の詳細

Segment-Anything モデル: メモリ制限のため、エンコーダーネットワークには当社ViT-Bを採用しています。標準のヒントエンコーダとマスクデコーダを使用します。

プロンプト生成: トレーニングフェーズと評価フェーズの両方のプロンプト入力は、インスタンスセグメンテーション GT マスクから計算され、弱い監視として人間の対話をシミュレートします。

#具体的には、GT マスク全体の最小境界ボックスからボックスを抽出します。ポイントは、GT マスク内の 5 つの正のサンプルポイントとマスクの外側の 5 つの負のサンプルポイントをランダムに選択することによって作成されます。粗いマスクは、ポリゴンを GT マスクに適合させることによってシミュレートされます。

3. 実験結果

表 2、3、4、5 は次のとおりです。それぞれ、干渉を加えた自然画像、鮮明な自然画像、医療画像、およびカモフラージュされたオブジェクトデータセットに関するテスト結果です。完全な実験結果は論文に記載されています。実験では、私たちのスキームが、ほぼすべての下流セグメンテーションデータセット上で、事前トレーニングされた SAM および最先端のドメイン適応スキームよりも優れたパフォーマンスを発揮することが実証されています。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

#4. 視覚化の結果

視覚化の一部結果は次のとおりです。図 4 に示すように、論文にはさらに多くの視覚化結果が記載されています。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

# 図 4いくつかの例の視覚化された結果

##5. アブレーション実験と追加の分析

表 7 に示すように、COCO データセットに対する 3 つの自己トレーニング最適化目標のそれぞれの有効性を分析しました。表 7 では、弱い監視情報を使用せずに、適応に対する提案手法の効果も分析します。

#表 8 に示すように、さまざまなカテゴリのプロンプトを使用して、トレーニングとテストのパフォーマンスの違いを分析しました。実験では、私たちのスキームがクロスプロンプト条件下でも依然として良好に動作することが示されています。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

さらに、デコーダー、LayerNorm、さまざまな微調整スキームとその組み合わせを含むさまざまなモジュールを最適化した実験結果も分析しました。実験により、微調整エンコーダーのパフォーマンスが証明されました。 . LoRA スキームが最適に機能します。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

概要 CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

基本的なビジョンモデルはセグメンテーションタスクでは適切に実行できますが、下流タスクのパフォーマンス低下に依然として悩まされています。我々は、複数の下流画像セグメンテーションタスクにおけるセグメント何でもモデルの汎化能力を研究し、アンカー正則化と低ランク微調整に基づく自己学習方法を提案します。この方法はソースデータセットへのアクセスを必要とせず、メモリコストが低く、当然弱い監視と互換性があり、適応効果を大幅に向上させることができます。広範な実験検証の結果、提案したドメイン適応手法がさまざまな分布シフトの下で SAM の汎化能力を大幅に向上できることがわかりました。

以上がCVPR 2024 | すべてのモデルのセグメンテーションは SAM の汎化能力が低いですか?ドメイン適応戦略を解決の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Dreamweaver Mac版

ビジュアル Web 開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 中国語版

中国語版、とても使いやすい

WebStorm Mac版

便利なJavaScript開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。