ホームページ  >  記事  >  テクノロジー周辺機器  >  ICML 2024 | 特徴汚染: ニューラル ネットワークは無関係な特徴を学習し、一般化できない

ICML 2024 | 特徴汚染: ニューラル ネットワークは無関係な特徴を学習し、一般化できない

WBOY
WBOYオリジナル
2024-06-24 14:17:11829ブラウズ

ICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败

  • 論文タイトル: 特徴汚染: ニューラルネットワークは相関のない特徴を学習し、一般化に失敗する
  • 論文リンク: https://arxiv.org/pdf/2406.03345
  • コードリンク: https:/ /github.com/trzhang0116/feature-contamination

近年の GPT に代表される大規模モデルの大成功により、ディープ ニューラル ネットワーク + SGD + スケーリングの機械学習パラダイムが AI ステータスの分野での優位性を再び証明しました。 。ディープ ニューラル ネットワークに基づくパラダイムが成功するのはなぜですか?より一般的な見解は、ニューラル ネットワークには、大量の高次元入力データから抽象的で一般化可能な特徴を自動的に学習する機能があるというものです。残念ながら、現在の分析方法と数学的ツールの欠点により、「(深い) ニューラル ネットワークがそのような 特徴学習 プロセスをどのように実装するか」についての現在の理解はまだそれほど深くありません。このため、学術コミュニティにおける現在の関連研究のほとんどは、依然としてモデルが学習した特徴を「説明する」レベルに留まっており、データへの「介入」を通じてよりデータ効率が高く、より一般化可能なモデルを取得することは困難です。その学習プロセス。 ニューラル ネットワークの特徴学習プロセスについて議論するとき、最も基本的な質問の 1 つは、「ニューラル ネットワークは入力データからどのような特徴を学習するのか?」ということです。目標の観点から見ると、ニューラル ネットワークの特徴学習はタスクによって引き起こされる「副産物」であり、その目的はトレーニング エラーを最小限に抑えることです。したがって、ニューラル ネットワークはデータから「タスクに関連する」特徴を抽出し、残りの「タスクに無関係な」特徴はデータ ノイズに相当すると直感的に考えるでしょう。すると、ニューラルネットワークには「必要でなければ学習しない」という特性(正確には単純性バイアス)があるため、ニューラルネットワークは学習しない傾向があるはずです。これは現在の文献でも一般的な見解です。

しかし、ICML 2024 に承認された私たちの最近の研究では、この直感的な認識が実際には

間違っている

ことが分かりました。具体的には、非線形ニューラル ネットワークがタスク関連の特徴を学習すると、タスクに関係のない特徴も学習する傾向があり (これを「特徴汚染」と呼びます)、この傾向がニューラル ネットワークにとって困難になることがわかりました。ネットワークを分散シフトのあるシナリオに一般化します。理論的には、特徴の汚染が単純な 2 層 ReLU ネットワークでも発生し、ニューラル ネットワークにおける ニューロンの活性化 のカテゴリの非対称性と密接に関連していることを証明しました。また、実験的には、特徴の汚染が深層にも存在するという一連の証拠も示しました。 ResNet や Vision トランスフォーマーなどのネットワークに影響を与え、その一般化に悪影響を及ぼします。 私たちが発見した故障モードは、現在の流通外 (OOD) 一般化文献における偽の相関に基づく主流の分析とは完全に直交していることは言及する価値があります。したがって、より大きな観点から見ると、私たちの調査結果は、OOD の一般化にとってニューラル ネットワーク自体の帰納的バイアスの重要性を示しています。また、ニューラル ネットワークの特徴の学習と一般化に関する多くの研究の直観も再考する必要がある可能性があることを示しています。

次に、記事の具体的な内容をご紹介します:

研究の背景

データ分布が変化するシナリオにおける汎化能力(つまり、OOD汎化能力)は、機械学習システムがどのようなシナリオで実行できるかを示す尺度です。現実性 環境内での展開を示す重要な指標の 1 つ。ただし、現在のニューラル ネットワークは、OOD 一般化シナリオで大幅なパフォーマンスの損失を受けることがよくあります。 OOD 一般化が失敗する理由については、文献でより主流の記述は、表現に偽の相関が存在する、つまり、モデルはタスクの目標に関連するが因果関係のない特徴を学習することになる、というものです。したがって、分布の変化によりこれらの特徴とタスク目標の間の相関関係が変化すると、予測にこれらの特徴に依存するモデルは元のパフォーマンスを保証できなくなります。

上記の理論的説明は非常に直感的で自然であり、近年の OOD アルゴリズム研究を導く主要な方針にもなっています。つまり、より優れた最適化目的関数と正規項を設計することで、モデルは誤った相関なしにより良い表現を学習できます。より強力な汎化性能を得るために。近年、この主要な方向に沿って、アルゴリズム設計を通じてモデルの OOD 一般化を改善しようとする多くの作業が行われてきました。ただし、最近の研究では、理論的保証が組み込まれた多くのアルゴリズムでは、実際のデータに基づく OOD 一般化タスクのパフォーマンス向上が非常に限られていることが示されています。 なぜこんなことが起こるのでしょうか?私たちは、OOD 一般化研究における現在の困難は、既存の分析の

2 つの制限

に起因している可能性があると考えています。

  • 既存の研究のほとんどは偽相関によって引き起こされる故障モードのみを考慮しています
  • 現在の研究のほとんどは線形モデルに限定されており、ニューラルネットワークの非線形性とSGDの誘導バイアスを考慮していないため、既存の解析結果は実際に使用するニューラルネットワークに必ずしも適しているとは限りません。

言い換えれば、OOD 一般化の現在の説明と理論モデルは、現実世界の分布シフト シナリオを正確に反映していない可能性があります。したがって、ディープ ニューラル ネットワークに基づく OOD の一般化を理解するには、ニューラル ネットワークと SGD の誘導バイアスを考慮することが非常に必要であると考えられます。

実験

まず、実験計画を通じて、表現学習目標に基づいて設計された現在の OOD 一般化アルゴリズムによって達成できる「パフォーマンスの上限」を推定します。偽相関理論の指導の下、既存の研究は主に、補助表現学習目的関数を設計することによって、OOD によって一般化できる表現を学習するようにモデルを制約することを試みています。このような目標を最適化することで実際に望ましい表現を抽出できるかどうかを研究するために、私たちは理想的なシナリオを設計しました:

  • まず、トレーニング プロセス中に、モデルが OOD によって一般化できる教師モデルに明示的に適合できるようにしました。抽出された表現は表現の蒸留です。実験では、この教師モデルは大規模な事前トレーニング済みモデル (CLIP など) にすることができます。変数を制御するために、実際の運用では生徒モデルと教師モデルのモデル構造が全く同じになるように制御します。
  • 2 番目のステップでは、教師モデルと生徒モデルによってそれぞれ提供される表現に基づいて、トレーニング セット上で線形分類器 (線形プローブ) をトレーニングします。 ,
  • 最後に、教師モデルと学生モデルに基づく線形分類器を、それぞれ同一に分散されたテスト セットと OOD テスト セットでテストし、これら 2 つのモデルによって抽出された表現の OOD 一般化を測定しました。

ICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败

実験結果は上の写真に示されています。この図から、主な結果が 2 つあります:

  • トレーニング プロセス中に教師モデルの表現に直接適合しない標準モデル (青) と比較して、学生モデル (オレンジ) に基づく線形分類器は OOD 一般化性が優れています。 ;
  • ただし、学生モデルに基づく線形分類器 (オレンジ色) の OOD 一般化パフォーマンスは、教師モデルに基づく線形分類器 (紫色) よりも大幅に遅れています。

そこで、私たちは自然にこう尋ねます: 教師モデルの表現を直接当てはめたので、生徒モデルと教師モデルの間の一般化ギャップはどこから来るのでしょうか?この実験現象を既存の理論的説明で直接説明するのは難しいことがわかりました:

  • まず第一に、このギャップは偽相関理論では直接説明できません。トレーニング セット) が基本的に同じである場合、これら 2 つの表現に基づく線形分類器はトレーニング プロセス中に同様に誤った相関特徴の影響を受けるはずであり、それほど大きなギャップがあるはずはありません
  • もう 1 つの考えられる説明は、教師モデル (そのような) です。 CLIP として) は、独自の事前トレーニング プロセス中に多くの OOD サンプルを「見た」可能性があるため、OOD サンプルのトレーニング セットでは見つからないいくつかの特徴を抽出できます。ただし、最近の研究では、OOD テスト サンプルに類似したすべてのサンプルが CLIP の事前トレーニング データから削除されたとしても、CLIP には依然として強力な OOD 一般化機能があることが示されています [1]。これは、教師モデルと生徒モデルの間のギャップを単にこの観点から説明するだけでは十分ではないことを示しています。

要するに、既存の分析 では、実験で実際に観察された OOD 汎化能力のギャップ を説明するには不十分であると考えています。同時に、「OODで一般化できる表現を直接当てはめる」だけではOODで一般化できるモデルを保証できないため、表現学習の「目標」に加えて、表現学習の「プロセス」も考慮する必要があります。表現学習」、これはニューラル ネットワークの特徴学習ダイナミクスによって引き起こされる帰納的バイアスです。理論的にディープニューラルネットワークの特徴学習プロセスを直接分析することは非常に困難ですが、2層のReLUネットワークであっても興味深い特徴学習傾向、つまり「特徴汚染」を示すことがわかり、この傾向はまた、ニューラル ネットワークの OOD 一般化にも直接関連しています。

理論

このセクションでは、2 層 ReLU ネットワークに基づく二値分類問題における「特徴汚染」現象の存在を証明し、この現象の原因を分析します。具体的には、ネットワークへの入力が「コア特徴」と「バックグラウンド特徴」という 2 つの特徴の線形結合で構成されていると仮定します。このうち、コア特徴量の分布はカテゴリラベルに依存します(画像分類問題における分類対象として視覚化できます)が、背景特徴量の分布はラベルとは無関係です(画像分類問題で分類対象として視覚化できます)。画像分類問題における画像の背景やその他の要素)。他の要因の干渉を排除するために、これら 2 種類の特徴について次の仮定も立てます。

  • 背景の特徴はラベルと相関していません (したがって、偽の相関によって引き起こされる障害モードを排除します)。
  • コア機能は 100% の精度でラベルを予測できます (これにより、トレーニング セットの不十分な機能によって引き起こされる失敗モードが排除されます)。
  • コア フィーチャとバックグラウンド フィーチャは、直交する部分空間に分散されます (このようにして、分離が難しいさまざまなフィーチャによって引き起こされる故障モードを除外します)。

上記の条件下でも、ニューラル ネットワークはコア機能を学習しながら、タスクにまったく無関係な背景機能も学習することがわかりました。ネットワークの重み空間におけるこれら 2 つのフィーチャの結合により、バックグラウンド フィーチャで発生する分布シフトによってニューラル ネットワークのエラーも増加し、それによってネットワークの OOD 一般化が減少します。したがって、このニューラルネットワークの特徴学習の好みを「特徴汚染」と呼びます。以下では、機能汚染の原因を詳しく紹介します。全体的な分析アイデアの概略図は次のとおりです:

ICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败

私たちの分析における 重要なポイントは、実際には、特徴汚染が、ニューラル ネットワーク内のニューロンがしばしば 非対称活性化 (非対称活性化) を持っているという事実に関連しているということです。さまざまなカテゴリに対応します。具体的には、十分な SGD 反復の後、ネットワーク内のニューロンの少なくとも重要な部分が、カテゴリのサンプルと正の相関を持つ傾向があることを証明できます (これらをこのニューロンの正のサンプルと呼び、yposを使用します)はそのカテゴリを表します)、別のカテゴリのサンプルとの負の相関を維持しています(これをこのニューロンの負のサンプルと呼び、ynegはそのカテゴリを表します)。これは、定理 4.1 で示されているように、これらのニューロンの活性化においてカテゴリーの非対称性をもたらします。まず、ネットワークの隠れ層の k 番目のニューロンについて、その重みベクトル w

k

が t 回目の反復後に分割できることに気づきます。 上の式では、 SICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败core

とS

bg はそれぞれコア特徴と背景特徴のセットを表し、各 mj

はコア特徴または背景特徴に対応します。この式から、ニューロンの重みをさまざまな特徴への投影に分解できることがわかります (ここでは、さまざまな m

jICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败 が直交する単位ベクトルであると仮定します)。さらに、各背景特徴 m

j

、j に対する wk の負の勾配の投影が Sbg に属することを証明できます。 カテゴリ非対称活性化を持つニューロンの場合、定理によると4.1 より、その勾配は主にニューロンの正のサンプル y=ypos に依存し、負のサンプル y=yneg とはほとんど関係がないことがわかります。これにより、陽性サンプルに存在するコア フィーチャと背景フィーチャが同時に正の勾配投影を取得します。このプロセスは、フィーチャとラベル間の相関とは何の関係もありません。

定理 4.2 に示されているように、十分な SGD 反復の後、上記の勾配射影の蓄積により、ニューロンによって学習された特徴にコア特徴と結合された背景特徴の両方が含まれるようになることが証明されます。ニューロンの重みにおけるコア フィーチャとバックグラウンド フィーチャの分布が負になると、バックグラウンド フィーチャの負の分布シフトによりニューロンの活性化が減少し、追加の OOD エラーが発生します。定理 4.3 に示されているように、ID と OOD の汎化リスクに対する特徴汚染の影響を定量的に説明します。

ICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败

同時に、非線形活性化関数から生じる特徴汚染の間の関係をさらに説明するために、ニューラル ネットワーク、ニューラル ネットワークの非線形性を除去すると、特徴汚染は発生しなくなることを証明します:

以下の図に示すように、数値実験を通じて理論結果を検証しました。同時に、2 層 ReLU ネットワーク + SGD に加えて、他のタイプの活性化関数、適応ステップ サイズを備えたオプティマイザーなど、より一般的な設定にも結論を拡張しました。結果を図 3 に示します( d) )、特徴の汚染がより一般的な環境でも蔓延していることを示しています。

ICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败

同時に、私たちが日常的に使用している ResNet や Vision トランスフォーマーなどの深層ネットワーク でも機能汚染の現象が発生し、私たちの実験での観察 OOD 一般化ギャップに達しました。この部分に興味がある人は、元の論文の第 5 章を参照してください。

要約とディスカッション

最後に、将来的により重要になる可能性がある/さらに深く継続できる可能性のあるいくつかの研究ポイントをリストします。さらに私たちとコミュニケーションをとることに興味があるすべての人を歓迎します:

  • より深いネットワーク。 :とはいえ、私たちはディープネットワークにも機能汚染の問題があることを実験的に証明しましたが、これまでのところ、私たちの理論分析は2層のReLUネットワークのみを行っています。私たちは、特徴の汚染はより一般的な概念である可能性があり、カテゴリごとのニューロンの活性化の非対称性が、その発生の理由の 1 つにすぎないのではないかと考えています。より深いネットワークやより複雑なネットワーク構造 (正規化層の導入など) を分析することで、機能汚染のより多くの原因を発見し、的を絞ったソリューションを提供できる可能性があります。
  • 事前トレーニングの役割: この記事の理論分析では、ゼロからトレーニングする場合のみを考慮していますが、実際に使用するモデルは、多くの場合、事前トレーニングされたモデルです。事前トレーニングがモデルの OOD 一般化の改善に役立つことを示す実験的証拠は数多くあります。では、この一般化の改善の本質は、機能汚染の問題の軽減に関連しているのでしょうか。事前トレーニングはどのようにしてこれを行うのでしょうか?
  • 機能汚染の問題を解決する方法: 私たちの研究は機能汚染の問題を指摘しましたが、まだ明確な解決策は与えられていません。しかし、私たちのその後の研究の一部では、大規模なモデルを微調整するときにも同様の問題が発生することが示されており、勾配調整に基づくいくつかの方法が実際にこの問題を軽減し、それによって微調整モデルの一般化が大幅に改善されることもわかりました。能力。この部分の具体的な内容についても今後公開していきますので、ぜひ注目していただければと思います。

著者について | この記事の著者である Zhang Tianren は、清華大学オートメーション学科の博士号取得者であり、指導教員は Chen 教授です。フォン。著者は博士課程の期間中、主に機械学習における表現学習と一般化の問題に関する理論的およびアルゴリズム的研究を行い、ICML、NeurIPS、ICLR、IEEE TPAMI などの主要な機械学習会議やジャーナルに多くの論文を発表しました。

著者の所属 | 清華大学 VIPLAB

連絡先メールアドレス | zhangtr22@mails.tsinghua.edu.cn

参考文献

[1] Mayilvahanan, P.、Wiedemer, T.、Rusak, E 。 、Bethge, M.、Brendel, W. CLIP の汎化パフォーマンスは主にトレーニングとテストの類似性の高さから生じていますか? 2024 年の学習表現に関する国際会議で。

以上がICML 2024 | 特徴汚染: ニューラル ネットワークは無関係な特徴を学習し、一般化できないの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。