SAM (Segment Anything) は、基本的な視覚セグメンテーション モデルとして、わずか 3 か月で多くの研究者の注目を集め、フォローアップされました。 SAM の背後にあるテクノロジーを体系的に理解し、進化のペースに追いつき、独自の SAM モデルを作成できるようにしたい場合は、このトランスフォーマーベースのセグメンテーション調査をお見逃しなく。最近、南洋理工大学と上海人工知能研究所の数人の研究者が Transformer ベースのセグメンテーションに関するレビューを書き、近年の Transformer に基づくセグメンテーションおよび検出モデルを体系的にレビューし、研究を行っています。今年の6月から!同時に、このレビューには関連分野の最新の論文や多数の実験分析と比較も含まれており、幅広い展望を持つ将来の研究の方向性を多数明らかにしています。
ビジュアル セグメンテーションは、画像、ビデオ フレーム、または点群を複数のセグメントまたはグループにセグメント化することを目的としています。このテクノロジーは、自動運転、画像編集、ロボットの認識、医療分析など、多くの実世界で応用されています。過去 10 年間で、深層学習ベースの手法がこの分野で大きな進歩を遂げました。最近、Transformer は、もともと自然言語処理用に設計されたセルフ アテンション メカニズムに基づくニューラル ネットワークとなり、さまざまな視覚処理タスクにおける以前の畳み込みまたは再帰的手法を大幅に上回りました。具体的には、Vision Transformer は、さまざまなセグメンテーション タスクに対して、強力で統合されたさらにシンプルなソリューションを提供します。このレビューでは、Transformer ベースのビジュアル セグメンテーションの包括的な概要を提供し、最近の進歩を要約します。まず、この記事 では、問題定義、データ セット、以前の畳み込み手法などの背景 を確認します。次に、このペーパーでは、最近の Transformer ベースのメソッドをすべて統合する メタ アーキテクチャ について概要を説明します。このメタ アーキテクチャに基づいて、 この記事では、このメタ アーキテクチャと関連アプリケーションの修正を含む、さまざまな方法の設計を検討します。 さらに、この記事では、3D 点群セグメンテーション、基本的なモデル調整、ドメイン適応セグメンテーション、効率的なセグメンテーション、医療セグメンテーションなど、いくつかの関連設定も紹介します。さらに、この論文では、いくつかの広く認識されているデータセットに基づいてこれらの手法を編集し、再評価します。最後に、この論文はこの分野における未解決の課題を特定し、将来の研究の方向性を提案しています。この記事では、Transformer ベースの最新のセグメンテーションおよび検出方法を継続して追跡します。
写真
プロジェクトアドレス: https://github.com/lxtGH/Awesome-Segmentation-With-Transformer
論文アドレス: https://arxiv.org/pdf/2304.09854.pdf
研究動機
- ViT と DETR の出現により、セグメンテーションと検出の分野は完全に進歩し、現在、ほぼすべてのデータセット ベンチマークで上位にランクされる手法は、Transformer に基づいています。このため、この方向の手法や技術的特徴を体系的にまとめ、比較する必要がある。
- マルチモーダル モデルやセグメンテーション基本モデル (SAM) など、最近の大規模モデル アーキテクチャはすべて Transformer 構造に基づいており、さまざまな視覚タスクが統合モデル モデリングに近づいています。
- セグメンテーションと検出により、多くの関連する下流タスクが派生し、これらのタスクの多くも Transformer 構造を使用して解決されます。
概要機能
- 体系的で読みやすい。 この記事では、セグメンテーションの各タスク定義、および関連するタスク定義と評価指標を体系的にレビューします。そして、この記事ではコンボリューション手法から始まり、ViTとDETRに基づくメタアーキテクチャをまとめます。このレビューでは、このメタアーキテクチャに基づいて、関連する手法を整理してまとめ、最近の手法を体系的にレビューします。具体的な技術検討ルートを図1に示します。
-
技術的な観点からの詳細な分類。 以前の Transformer レビューと比較して、この記事のメソッドの分類はより詳細になります。この記事では、同様のアイデアを持つ論文をまとめ、その類似点と相違点を比較します。たとえば、この記事では、メタ アーキテクチャのデコーダ側を同時に変更する手法を、画像ベースのクロス アテンションとビデオ ベースの時空間クロス アテンション モデリングに分類します。
-
研究課題の包括性。 この記事では、画像、ビデオ、点群のセグメンテーション タスクなど、セグメンテーションのあらゆる方向を体系的にレビューします。同時に、この記事では、オープンセットのセグメンテーションと検出モデル、教師なしセグメンテーション、弱教師セグメンテーションなどの関連する方向性についてもレビューします。
図
図 1. 調査内容のロードマップ
図 2. 一般的に使用されるデータ セットとセグメンテーション タスクの概要
トランスフォーマー ベースのセグメンテーションと検出の概要方法と比較
図 3. 一般的なメタ アーキテクチャ フレームワーク
## この記事では、まず概要を説明します。 DETR および MaskFormer フレームワークに基づくメタ アーキテクチャ。このモデルには、次のさまざまなモジュールが含まれています。
- バックボーン: 特徴抽出器。画像の特徴を抽出するために使用されます。
- ネック: マルチスケール オブジェクトを処理するためにマルチスケール フィーチャを構築します。
- オブジェクト クエリ: クエリ オブジェクト。前景オブジェクトや背景オブジェクトなど、シーン内の各エンティティを表すために使用されます。
- デコーダ: デコーダ。オブジェクト クエリと対応する機能を段階的に最適化するために使用されます。
- エンドツーエンドのトレーニング: オブジェクト クエリに基づく設計は、エンドツーエンドの最適化を実現できます。
このメタアーキテクチャに基づいて、既存の手法は、図 4 に示すように、タスクに応じて最適化と調整を行う次の 5 つの異なる方向に分類できます。各方向には、いくつかの異なるサブ方向。
図 4. トランスフォーマーベースのセグメンテーション手法の概要と比較
-
より優れた特徴表現学習、表現学習。 強力な視覚的特徴表現は、常により良いセグメンテーション結果につながります。この記事では、関連する作業を、より優れた視覚的な Transformer 設計、ハイブリッド CNN/Transformer/MLP、および自己教師あり学習の 3 つの側面に分けて説明します。
-
デコーダ側のメソッド設計、デコーダでのインタラクション設計。 この章では、新しい Transformer デコーダの設計について説明します。この論文では、デコーダ設計を 2 つのグループに分けます。1 つは画像セグメンテーションにおけるクロスアテンション設計の改善に使用され、もう 1 つはビデオ セグメンテーションにおける時空間クロスアテンション設計の改善に使用されます。前者は、元の DETR のデコーダを改善するために、より優れたデコーダを設計することに重点を置いています。後者は、クエリ オブジェクト ベースのオブジェクト検出器とセグメンタを、ビデオ オブジェクト検出 (VOD)、ビデオ インスタンス セグメンテーション (VIS)、およびビデオ ピクセル セグメンテーション (VPS) のビデオ ドメインに拡張し、時間的一貫性と相関関係のモデリングに焦点を当てます。
-
#クエリ オブジェクトの最適化の観点からオブジェクト クエリの最適化を試みます。 Faster-RCNN と比較して、DETR はより長いコンバージェンス タイムテーブルを必要とします。クエリ オブジェクトは重要な役割を果たしているため、トレーニングを高速化し、パフォーマンスを向上させるために、いくつかの既存の方法が研究されています。オブジェクトクエリの方法に従って、この論文は以下の文献を2つの側面に分けます:位置情報の追加と追加の監視の使用。位置情報は、クエリ特徴の高速トレーニング サンプリングのための手がかりを提供します。追加の監視では、DETR のデフォルトの損失関数に加えて、特定の損失関数の設計に焦点を当てます。
-
クエリ オブジェクトを使用して、関連付けのクエリを使用してフィーチャとインスタンスを関連付けます。 クエリ オブジェクトのシンプルさの利点を活かし、最近の複数の研究では、クエリ オブジェクトを下流タスクを解決するための相関ツールとして使用しています。主な使用法は 2 つあります。1 つはインスタンス レベルの関連付け、もう 1 つはタスク レベルの関連付けです。前者は、インスタンス識別のアイデアを使用して、ビデオのセグメンテーションや追跡など、ビデオ内のインスタンスレベルのマッチング問題を解決します。後者は、クエリ オブジェクトを使用してさまざまなサブタスクを橋渡しし、効率的なマルチタスク学習を実現します。
-
マルチモーダル条件付きクエリ オブジェクトの生成、条件付きクエリの生成。 この章では主にマルチモーダル セグメンテーション タスクに焦点を当てます。条件付きクエリ クエリ オブジェクトは主に、クロスモーダルおよびクロス画像特徴マッチング タスクを処理するために使用されます。タスクの入力条件に応じて、デコーダ ヘッドは異なるクエリを使用して、対応するセグメンテーション マスクを取得します。本稿では、さまざまな入力源に応じて、これらの作品を言語の特徴と画像の特徴という 2 つの側面に分けます。これらの方法は、クエリ オブジェクトとさまざまなモデル機能を融合する戦略に基づいており、複数のマルチモーダル セグメンテーション タスクおよび少数ショット セグメンテーションで良好な結果を達成しています。
# 図 5 は、これら 5 つの異なる方向における代表的な作業の比較を示しています。より具体的な手法の詳細と比較については、論文の内容を参照してください。
#図
図 5. Transformer ベースのセグメンテーションと代表性検出方法の概要と比較 #関連研究分野の手法の概要と比較
##この記事では、いくつかの関連分野についても説明します。 1. Transformer に基づく点群セグメンテーション手法。 2. ビジョンとマルチモーダル大規模モデルのチューニング。 3. ドメイン転移学習やドメイン汎化学習など、ドメイン関連のセグメンテーション モデルの研究。 4. 効率的なセマンティック セグメンテーション: 教師なしセグメンテーション モデルと弱く教師ありセグメンテーション モデル。 5. クラスに依存しないセグメンテーションと追跡。 6. 医療画像のセグメンテーション。
#写真
図 6. 関連研究分野における Transformer ベースの手法の概要と比較
さまざまな方法の実験結果の比較
図 7. セマンティック セグメンテーション データ セットのベンチマーク実験
図 8. パノラマ セグメンテーション データ セットのベンチマーク実験この記事では、同じ実験計画条件を一律に使用して、複数のデータセットに対するパノラマ セグメンテーションとセマンティック セグメンテーションに関するいくつかの代表的な研究の結果を比較します。同じトレーニング戦略とエンコーダーを使用すると、メソッドのパフォーマンスの差が縮まることがわかりました。
さらに、この記事では、複数の異なるデータ セットおよびタスクに対する最近の Transformer ベースのセグメンテーション手法の結果も比較します。 (セマンティック セグメンテーション、インスタンス セグメンテーション、パノラマ セグメンテーション、および対応するビデオ セグメンテーション タスク)
将来の方向
さらに、この記事では次のようなことも示しています。将来の研究の方向性についての分析。ここでは例として 3 つの異なる方向を示します。
- 更新一般的な統合セグメンテーション モデルを追加します。 Transformer 構造を使用して、さまざまなセグメンテーション タスクを統合するのがトレンドです。最近の研究では、クエリ オブジェクト ベースの Transformers を使用して、1 つのアーキテクチャの下でさまざまなセグメンテーション タスクを実行しています。考えられる研究の方向性の 1 つは、1 つのモデルを通じてさまざまなセグメンテーション データセットに対する画像とビデオのセグメンテーション タスクを統合することです。これらの一般的なモデルは、さまざまなシナリオで多用途かつ堅牢なセグメンテーションを実現できます。たとえば、さまざまなシナリオでまれなカテゴリを検出してセグメント化することは、ロボットがより適切な意思決定を行うのに役立ちます。
-
視覚的推論と組み合わせたセグメンテーション モデル。 視覚的推論では、ロボットがシーン内のオブジェクト間の接続を理解する必要があり、この理解は動作計画において重要な役割を果たします。これまでの研究では、オブジェクト追跡やシーン理解などのさまざまなアプリケーションのための視覚的推論モデルへの入力としてセグメンテーションの結果を使用することが検討されてきました。結合セグメンテーションと視覚的推論は、セグメンテーションと関係分類の両方にとって相互に有益な可能性を秘めた有望な方向性となります。視覚的推論をセグメンテーション プロセスに組み込むことで、研究者は推論の力を活用してセグメンテーションの精度を向上させることができ、また、セグメンテーションの結果により視覚的推論のためのより適切な入力を提供することもできます。
-
継続学習のセグメンテーションモデルの研究。 既存のセグメンテーション手法は、通常、事前定義されたカテゴリのセットを備えた閉世界データセットでベンチマークされます。つまり、トレーニング サンプルとテスト サンプルが、事前にわかっている同じカテゴリと特徴空間を持っていると想定されます。ただし、現実世界のシナリオはオープンワールドで不安定なことが多く、新しいカテゴリのデータが常に出現する可能性があります。たとえば、自動運転車や医療診断では、予期せぬ状況が突然発生する可能性があります。現実世界のシナリオと閉じた世界のシナリオでは、既存の手法のパフォーマンスと機能の間には明らかなギャップがあります。したがって、セグメンテーション モデルの既存の知識ベースに新しい概念を徐々に継続的に組み込んで、モデルが生涯学習に参加できるようにすることが期待されています。
研究の方向性の詳細については、元の論文を参照してください。
以上がNTU と上海 AI ラボが 300 以上の論文を編集: Transformer に基づくビジュアル セグメンテーションの最新レビューがリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。