ホームページ >テクノロジー周辺機器 >AI >ICML 2024| 大規模言語モデルは CLIP ベースの配布外検出タスクを支援します

ICML 2024| 大規模言語モデルは CLIP ベースの配布外検出タスクを支援します

王林オリジナル: 2024-07-01 23:29:18595ブラウズ

トレーニングデータセットとテストデータセットの分布が同じ場合、機械学習モデルは優れたパフォーマンスを示すことができます。ただし、オープンワールド環境では、モデルが配布外 (OOD) サンプルに遭遇することがよくあり、OOD サンプルによってモデルが予測不能な動作をする可能性があり、特に次のような高リスクのシナリオでは、エラーの結果が致命的になる可能性があります。自動運転として。[1、2]。したがって、OOD 検出は、実際の展開における機械学習モデルの信頼性を確保するために重要です。

ほとんどの OOD 検出方法 [1、3] は、十分にトレーニングされた分布内 (ID) 分類子に基づいて OOD サンプルを効果的に検出できます。ただし、ID データセットが異なる場合は、OOD 検出のために分類器を再トレーニングする必要があります。さらに、これらの方法は視覚的なパターンのみに依存し、視覚的な画像とテキストラベルの間の関係を無視します。大規模な視覚言語モデル (CLIP [4] などの Vision-Manguage モデル、VLM) の出現により、ゼロショット OOD 検出が可能になりました [5]。 ID カテゴリラベルのみを使用してテキスト分類子を構築すると、分類子を再トレーニングすることなく、さまざまな ID データセットにわたる OOD サンプルを検出できます。

既存の CLIP ベースの配布外検出手法は優れたパフォーマンスを示しますが、検出が困難な配布外サンプルに遭遇すると失敗することがよくあります。既存の手法は ID カテゴリラベルのみに依存していると考えられます。テキスト分類子は、開いたラベル空間からサンプルを識別するという CLIP の固有の機能を大幅に制限します。図 1 (a) に示すように、ID カテゴリラベルのみに依存するテキスト分類器を構築する方法では、検出が困難な OOD サンプル (ID データセット: CUB-200-2011、OOD データセット: Places) を区別することが困難です。

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

図 1. 研究動機の概略図: (a) ID カテゴリラベルのみに依存するテキスト分類器を構築する、(b) 実際の OOD ラベルを使用する、(c) LLM を使用して潜在的な外れ値の露出を想像する

では、大規模言語モデル (LLM) の専門知識と推論機能を活用して潜在的な外れ値エクスポージャーを想像し、それによって VLM の検出パフォーマンスを向上させる、Envisioning Outlier Exposure (EOE) と呼ばれる分布外検出方法を提案します。図 1 (c))、実際の OOD データにはアクセスしません。私たちは、(1) OOD 検出専用の潜在的な外れ値クラスラベルを生成する視覚的な類似性に基づいた LLM キュー、および (2) 識別が困難な OOD サンプルを効果的に区別するための潜在的な外れ値ペナルティに基づく新しいスコアリング関数を設計します。実験では、EOE がさまざまな OOD タスクで優れたパフォーマンスを達成し、ImageNet-1K データセットに効果的に拡張できることが示されています。

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

Øペーパーリンク: https://arxiv.org/pdf/2406.00806

Øコードリンク: https://github.com/tmlr-group/EOE

次に、分布外検出の方向性は最近 ICML 2024 で発表されました。

予備知識

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

方法の紹介

EOE は、LLM を利用して潜在的な外れ値クラスラベルを生成することにより、ゼロショット OOD 検出パフォーマンスを向上させることを目的としています。ただし、モデルのデプロイ時に発生する OOD カテゴリが不明であるため、必要な外れ値カテゴリラベルを生成するように LLM をどのようにガイドすればよいでしょうか?外れ値クラスのラベルを取得した後、ID サンプルと OOD サンプルをより適切に区別するにはどうすればよいでしょうか?これらの問題に対処するために、視覚的類似性原理に基づいて設計された OOD 検出専用の LLM ヒントを提案し、ID/OOD サンプルをより適切に区別するための新しいスコアリング関数を導入します。私たちのアプローチの全体的な枠組みを図 2 に示します。

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

図 2. EOE 全体のフレームワーク図

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

ファイングレイン OOD 検出は、オープンセット識別とも呼ばれます。ファイングレイン OOD 検出では、ID サンプルと OOD サンプルの両方が同じメインカテゴリに属します。 "bird" クラス)、サブクラス間には固有の視覚的な類似点があります (例: "sparrow" と "swallow")。したがって、同じメインカテゴリ内で異なるサブカテゴリを直接提供するように LLM に指示する方が適切です。

上記の 3 種類の OOD 検出 LLM プロンプトを図 3 に示します

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

図 3. 視覚的類似性の原則に基づいて設計された 3 種類の LLM プロンプト

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

図 4. EOE 疑似コード

私たちの方法の利点は次のように要約されます:

EOE は未知の OOD データの事前知識に依存しないため、オープンワールドのシナリオに特に適しています。

ゼロサンプル: 特定の ID データセットを個別にトレーニングする必要がなく、同じ事前トレーニングされたモデルをさまざまなタスク固有の ID データセットに効果的に適用できます。 EOE は、ID クラスのタグのみを認識することで、優れた OOD 検出パフォーマンスを実現します。

スケーラビリティと汎用性: 潜在 OOD クラスラベルも生成する既存のゼロショット OOD 検出方法 [6] と比較して、EOE は ImageNet-1K などの大規模データセットに簡単に適用できます。さらに、EOE は、遠距離、近距離、および細粒度の OOD 検出を含む、さまざまなタスクで多用途性を示します。

実験結果

異なる OOD タスクの複数のデータセットに対して実験を実施しました。表 1 は、ImageNet-1K での Far OOD 検出の実験結果を示しています。Ground Truth は、実際の展開では利用できない実際の OOD ラベルを使用した場合のパフォーマンスを表しています。結果は、EOE が微調整手法に匹敵し、MCM を上回ることを示しています [5]。

表 1. 遠方 OOD の実験結果

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

表 2 と表 3 に示すように、私たちの方法はどちらも最高の検出パフォーマンスを達成しています。

表 2. OOD に近い実験結果

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

表 3. きめの細かい OOD 実験結果

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

EOE の各モデルで、さまざまなスコアリング関数、LLM プロンプト、さまざまな LLM および異なる長さの潜在的な OOD クラスラベルの数。実験の結果、私たちが設計したスコアリング関数と視覚的類似性の原則に基づいて設計した LLM プロンプトが最適なパフォーマンスを達成し、私たちの方法がさまざまな LLM およびさまざまな長さの潜在的な OOD クラスラベルの数で優れたパフォーマンスを達成することがわかりました。同時に、視覚言語モデルの構造に関するアブレーション実験も行いました。詳細な実験結果については、元の記事を参照してください。

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

図 5. アブレーション実験 – さまざまなスコアリング関数、LLM ヒント、さまざまな LLM

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

図 5. アブレーション実験 – 生成された潜在的な OOD クラスラベルの数

EOE 、実際、生成された異常クラスラベルが真の OOD クラスにヒットする可能性はほとんどありません。これは、モデルの実際の展開で遭遇する OOD データが多様で予測不可能であるためです。ただし、視覚的な類似性ルールに基づいて、EOE によって生成された潜在的な異常クラスラベルは、実際の OOD クラスがヒットしない場合でも、OOD 検出におけるモデルのパフォーマンスを向上させることができます。

上記の議論を説明するために、T-SNE を介したラベルマッチングスコアのソフトマックス出力から得られた視覚化を示します。 EOE と比較手法 MCM の視覚化結果を図 6 に示します。 ImageNet-10 の ID クラスラベルに基づいて、LLM は視覚的類似性ルールに基づいて潜在的な異常ラベル「潜水艦」を生成します。 OOD クラス「蒸気機関車」(ImageNet-20 のクラス) に遭遇すると、「蒸気機関車」はおよびの「潜水艦」と最も類似しています。したがって、EOE はそれを「潜水艦」としてクラスタリングし、OOD クラスとして検出します。ただし、潜在的な外れ値クラスラベルがない場合、MCM はすべての OOD クラスラベルを一緒にクラスター化する傾向があることがわかります。これにより、識別が困難な OOD サンプルが ID クラスとして識別される可能性があります。要約すると、私たちの EOE フレームワークでは、1) 同じクラスに属する OOD サンプルは一緒にクラスター化される傾向があり、2) 同じグループのサンプルは、視覚的に類似した想定外れ値クラスに分類されます (「蒸気機関車」)。対「潜水艦」）。これらの観察結果は、EOE が実際の OOD カテゴリに触れることなく OOD 検出を強化でき、意味的にも解釈が容易であることを示しています。私たちは、この研究が OOD 検出分野における将来の研究に新しいアイデアを提供できることを願っています。

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

図 6. 視覚化の結果

参考文献

[1] Hendrycks, D. および Gimpel, K. ニューラルネットワークにおける誤分類および分布外の例を検出するためのベースライン、ICLR、2017。

[2] Yang, J.、Zhou, K.、Li, Y.、および Liu, Z. 一般化された分布外検出: arXiv プレプリント arXiv:2110.11334、2021。

[3] Liu 、W.、Wang、X.、Owens、J.、および Li, Y. NeurIPS におけるエネルギーベースの分布外検出。

[4] Radford, A.、Kim, J. W.、Hallacy 、C.、Ramesh、A.、Goh、G.、Agarwal、S.、Sastry、G.、Askell、A.、Mishkin、P.、Clark, J.、他。自然言語監視からの転送可能な視覚モデルの学習. ICML、2021.

[5] Ming, Y.、Cai, Z.、Gu, J.、Sun, Y.、Li, W.、および Li, Y. による分布外検出の詳細NeurIPS、2022 年。

[6] Esmaeilpour, S.、Liu, B.、Robertson, E.、Shu, L. 事前トレーニングされたモデルクリップに基づくゼロショット分布外検出. AAAI、2022年。

研究グループの紹介

香港バプテスト大学の信頼できる機械学習および推論研究グループ（TMLRグループ）は、多数の若手教授、博士研究員、博士課程の学生、客員博士で構成されています。研究チームは学生と研究助手で構成され、理学部コンピュータサイエンス学科に所属しています。研究グループは、信頼できる表現学習、因果推論に基づく信頼できる学習、信頼できる基本モデルとその他の関連アルゴリズム、理論とシステム設計、および自然科学への応用を専門としています。具体的な研究の方向性と関連結果は、グループのページでご覧いただけます。 Github (https://github.com/tmlr-group)。研究チームは、香港研究助成評議会優秀若手研究者プログラム、中国国立自然科学財団の一般プロジェクトおよび青少年プロジェクトなどの政府研究資金および産業研究資金、ならびにマイクロソフト、NVIDIA、百度、アリババ、テンセントなどの企業。若手教授と上級研究者が協力しており、GPU コンピューティングリソースも十分にあり、多くの博士研究員、博士課程の学生、研究助手、研究インターンを長期的に採用しています。さらに、当グループは少なくとも 3 ～ 6 か月の自費訪問ポスドク研究員、博士課程の学生、研究助手からの応募も歓迎しており、リモートアクセスもサポートされています。興味のある学生は、履歴書と予備研究計画書を電子メールアドレス (bhanml@comp.hkbu.edu.hk) に送信してください。

以上がICML 2024| 大規模言語モデルは CLIP ベースの配布外検出タスクを支援しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

for 子类 li github 算法 https prompt

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：ICML 2024 スポットライト | デコードの再調整により、言語モデルが幻覚を軽減し、人間の好みとより一致するようになります次の記事：ICML 2024 スポットライト | デコードの再調整により、言語モデルが幻覚を軽減し、人間の好みとより一致するようになります

続きを見る