ICLR 2024 スポットライト | ネガティブラベルマイニングにより、CLIP ベースの配布外検出タスクが容易になります-AI-php.cn

ホームページ

テクノロジー周辺機器

ICLR 2024 スポットライト | ネガティブラベルマイニングにより、CLIP ベースの配布外検出タスクが容易になります

PHPz

May 06, 2024 pm 06:04 PM

git理論

機械学習モデルがオープンワールドのシナリオで使用されることが増えているため、配布外 (OOD) データを効果的に特定して処理する方法が重要な研究領域になっています。分布外のデータが存在すると、モデルの過信や不正確な予測につながる可能性があり、これは自動運転や医療診断などの安全性が重要なアプリケーションでは特に危険です。したがって、効果的な OOD 検出メカニズムを開発することは、実際のアプリケーションにおけるモデルの安全性と信頼性を向上させるために重要です。

従来の OOD 検出方法は、主に単一のパターン、特に画像データに焦点を当てており、テキストデータなど、他の潜在的に有用な情報ソースは無視しています。視覚言語モデル (VLM) の台頭により、マルチモーダル学習シナリオ、特に画像と関連するテキストの説明を同時に理解する必要があるタスクで優れたパフォーマンスを発揮することが実証されました。 VLM に基づく既存の OOD 検出方法 [3、4、5] は ID タグの意味情報のみを使用し、VLM モデルの強力なゼロサンプル機能と VLM が解釈できる非常に広い意味空間を無視しています。これに基づいて、VLM には OOD 検出において未開発の大きな可能性があり、特に画像とテキスト情報を包括的に利用して検出結果を向上させることができると考えています。

この記事は 3 つの質問を中心に展開します:

1. 非 ID タグの情報はゼロサンプル OOD 検出に役立ちますか?

2. ゼロサンプル OOD 検出に有益な情報をマイニングするにはどうすればよいですか?

3. マイニングされた情報をゼロサンプル OOD 検出に使用するにはどうすればよいですか?

このプロジェクトでは、OOD 検出に VLM を利用する NegLabel と呼ばれる革新的なアプローチを提案します。 NegLabel メソッドでは、特に「ネガティブラベル」メカニズムを導入しています。これらのネガティブラベルは、既知の ID カテゴリラベルと意味的に大きく異なります。画像と ID ラベルおよびネガティブラベルの親和性と性質を分析および比較することで、NegLabel は、以下に属する分布を効果的に区別できます。これにより、モデルの外部のサンプルを識別できるようになり、OOD サンプルを識別するモデルの能力が大幅に向上します。

NegLabel は、複数のゼロショット OOD 検出ベンチマークテストで優れたパフォーマンスを達成しました。 ImageNet-1k などの大規模なデータセットでは、94.21% の AUROC と 25.40% の FPR95 を達成できます。 VLM に基づく OOD 検出方法と比較して、NegLabel は追加のトレーニングプロセスを必要としないだけでなく、優れたパフォーマンスを示します。さらに、NegLabel は、さまざまな VLM アーキテクチャ上で優れた多用途性と堅牢性を示します。