ICML 2024 | 特徴汚染: ニューラルネットワークは無関係な特徴を学習し、一般化できない-AI-php.cn

ホームページ

テクノロジー周辺機器

ICML 2024 | 特徴汚染: ニューラルネットワークは無関係な特徴を学習し、一般化できない

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 24, 2024 pm 02:17 PM

理論

ICML 2024 | 特征污染：神经网络会学习不相关特征而泛化失败

論文タイトル: 特徴汚染: ニューラルネットワークは相関のない特徴を学習し、一般化に失敗する
論文リンク: https://arxiv.org/pdf/2406.03345
コードリンク: https:/ /github.com/trzhang0116/feature-contamination

近年の GPT に代表される大規模モデルの大成功により、ディープニューラルネットワーク + SGD + スケーリングの機械学習パラダイムが AI ステータスの分野での優位性を再び証明しました。。ディープニューラルネットワークに基づくパラダイムが成功するのはなぜですか?より一般的な見解は、ニューラルネットワークには、大量の高次元入力データから抽象的で一般化可能な特徴を自動的に学習する機能があるというものです。残念ながら、現在の分析方法と数学的ツールの欠点により、「(深い) ニューラルネットワークがそのような 特徴学習 プロセスをどのように実装するか」についての現在の理解はまだそれほど深くありません。このため、学術コミュニティにおける現在の関連研究のほとんどは、依然としてモデルが学習した特徴を「説明する」レベルに留まっており、データへの「介入」を通じてよりデータ効率が高く、より一般化可能なモデルを取得することは困難です。その学習プロセス。ニューラルネットワークの特徴学習プロセスについて議論するとき、最も基本的な質問の 1 つは、「ニューラルネットワークは入力データからどのような特徴を学習するのか?」ということです。目標の観点から見ると、ニューラルネットワークの特徴学習はタスクによって引き起こされる「副産物」であり、その目的はトレーニングエラーを最小限に抑えることです。したがって、ニューラルネットワークはデータから「タスクに関連する」特徴を抽出し、残りの「タスクに無関係な」特徴はデータノイズに相当すると直感的に考えるでしょう。すると、ニューラルネットワークには「必要でなければ学習しない」という特性（正確には単純性バイアス）があるため、ニューラルネットワークは学習しない傾向があるはずです。これは現在の文献でも一般的な見解です。

しかし、ICML 2024 に承認された私たちの最近の研究では、この直感的な認識が実際には

間違っている

ことが分かりました。具体的には、非線形ニューラルネットワークがタスク関連の特徴を学習すると、タスクに関係のない特徴も学習する傾向があり (これを「特徴汚染」と呼びます)、この傾向がニューラルネットワークにとって困難になることがわかりました。ネットワークを分散シフトのあるシナリオに一般化します。理論的には、特徴の汚染が単純な 2 層 ReLU ネットワークでも発生し、ニューラルネットワークにおける ニューロンの活性化 のカテゴリの非対称性と密接に関連していることを証明しました。また、実験的には、特徴の汚染が深層にも存在するという一連の証拠も示しました。 ResNet や Vision トランスフォーマーなどのネットワークに影響を与え、その一般化に悪影響を及ぼします。私たちが発見した故障モードは、現在の流通外 (OOD) 一般化文献における偽の相関に基づく主流の分析とは完全に直交していることは言及する価値があります。したがって、より大きな観点から見ると、私たちの調査結果は、OOD の一般化にとってニューラルネットワーク自体の帰納的バイアスの重要性を示しています。また、ニューラルネットワークの特徴の学習と一般化に関する多くの研究の直観も再考する必要がある可能性があることを示しています。

次に、記事の具体的な内容をご紹介します:

研究の背景

データ分布が変化するシナリオにおける汎化能力(つまり、OOD汎化能力)は、機械学習システムがどのようなシナリオで実行できるかを示す尺度です。現実性環境内での展開を示す重要な指標の 1 つ。ただし、現在のニューラルネットワークは、OOD 一般化シナリオで大幅なパフォーマンスの損失を受けることがよくあります。 OOD 一般化が失敗する理由については、文献でより主流の記述は、表現に偽の相関が存在する、つまり、モデルはタスクの目標に関連するが因果関係のない特徴を学習することになる、というものです。したがって、分布の変化によりこれらの特徴とタスク目標の間の相関関係が変化すると、予測にこれらの特徴に依存するモデルは元のパフォーマンスを保証できなくなります。

上記の理論的説明は非常に直感的で自然であり、近年の OOD アルゴリズム研究を導く主要な方針にもなっています。つまり、より優れた最適化目的関数と正規項を設計することで、モデルは誤った相関なしにより良い表現を学習できます。より強力な汎化性能を得るために。近年、この主要な方向に沿って、アルゴリズム設計を通じてモデルの OOD 一般化を改善しようとする多くの作業が行われてきました。ただし、最近の研究では、理論的保証が組み込まれた多くのアルゴリズムでは、実際のデータに基づく OOD 一般化タスクのパフォーマンス向上が非常に限られていることが示されています。なぜこんなことが起こるのでしょうか？私たちは、OOD 一般化研究における現在の困難は、既存の分析の

2 つの制限

に起因している可能性があると考えています。

既存の研究のほとんどは偽相関によって引き起こされる故障モードのみを考慮しています
現在の研究のほとんどは線形モデルに限定されており、ニューラルネットワークの非線形性とSGDの誘導バイアスを考慮していないため、既存の解析結果は実際に使用するニューラルネットワークに必ずしも適しているとは限りません。

言い換えれば、OOD 一般化の現在の説明と理論モデルは、現実世界の分布シフトシナリオを正確に反映していない可能性があります。したがって、ディープニューラルネットワークに基づく OOD の一般化を理解するには、ニューラルネットワークと SGD の誘導バイアスを考慮することが非常に必要であると考えられます。

実験

まず、実験計画を通じて、表現学習目標に基づいて設計された現在の OOD 一般化アルゴリズムによって達成できる「パフォーマンスの上限」を推定します。偽相関理論の指導の下、既存の研究は主に、補助表現学習目的関数を設計することによって、OOD によって一般化できる表現を学習するようにモデルを制約することを試みています。このような目標を最適化することで実際に望ましい表現を抽出できるかどうかを研究するために、私たちは理想的なシナリオを設計しました:

まず、トレーニングプロセス中に、モデルが OOD によって一般化できる教師モデルに明示的に適合できるようにしました。抽出された表現は表現の蒸留です。実験では、この教師モデルは大規模な事前トレーニング済みモデル (CLIP など) にすることができます。変数を制御するために、実際の運用では生徒モデルと教師モデルのモデル構造が全く同じになるように制御します。
2 番目のステップでは、教師モデルと生徒モデルによってそれぞれ提供される表現に基づいて、トレーニングセット上で線形分類器 (線形プローブ) をトレーニングします。 ,
最後に、教師モデルと学生モデルに基づく線形分類器を、それぞれ同一に分散されたテストセットと OOD テストセットでテストし、これら 2 つのモデルによって抽出された表現の OOD 一般化を測定しました。

ICML 2024 | 特征污染：神经网络会学习不相关特征而泛化失败

実験結果は上の写真に示されています。この図から、主な結果が 2 つあります:

トレーニングプロセス中に教師モデルの表現に直接適合しない標準モデル (青) と比較して、学生モデル (オレンジ) に基づく線形分類器は OOD 一般化性が優れています。 ;
ただし、学生モデルに基づく線形分類器 (オレンジ色) の OOD 一般化パフォーマンスは、教師モデルに基づく線形分類器 (紫色) よりも大幅に遅れています。

そこで、私たちは自然にこう尋ねます: 教師モデルの表現を直接当てはめたので、生徒モデルと教師モデルの間の一般化ギャップはどこから来るのでしょうか?この実験現象を既存の理論的説明で直接説明するのは難しいことがわかりました:

まず第一に、このギャップは偽相関理論では直接説明できません。トレーニングセット) が基本的に同じである場合、これら 2 つの表現に基づく線形分類器はトレーニングプロセス中に同様に誤った相関特徴の影響を受けるはずであり、それほど大きなギャップがあるはずはありません
もう 1 つの考えられる説明は、教師モデル (そのような) です。 CLIP として) は、独自の事前トレーニングプロセス中に多くの OOD サンプルを「見た」可能性があるため、OOD サンプルのトレーニングセットでは見つからないいくつかの特徴を抽出できます。ただし、最近の研究では、OOD テストサンプルに類似したすべてのサンプルが CLIP の事前トレーニングデータから削除されたとしても、CLIP には依然として強力な OOD 一般化機能があることが示されています [1]。これは、教師モデルと生徒モデルの間のギャップを単にこの観点から説明するだけでは十分ではないことを示しています。

要するに、既存の分析 では、実験で実際に観察された OOD 汎化能力のギャップ を説明するには不十分であると考えています。同時に、「OODで一般化できる表現を直接当てはめる」だけではOODで一般化できるモデルを保証できないため、表現学習の「目標」に加えて、表現学習の「プロセス」も考慮する必要があります。表現学習」、これはニューラルネットワークの特徴学習ダイナミクスによって引き起こされる帰納的バイアスです。理論的にディープニューラルネットワークの特徴学習プロセスを直接分析することは非常に困難ですが、2層のReLUネットワークであっても興味深い特徴学習傾向、つまり「特徴汚染」を示すことがわかり、この傾向はまた、ニューラルネットワークの OOD 一般化にも直接関連しています。

理論

このセクションでは、2 層 ReLU ネットワークに基づく二値分類問題における「特徴汚染」現象の存在を証明し、この現象の原因を分析します。具体的には、ネットワークへの入力が「コア特徴」と「バックグラウンド特徴」という 2 つの特徴の線形結合で構成されていると仮定します。このうち、コア特徴量の分布はカテゴリラベルに依存します（画像分類問題における分類対象として視覚化できます）が、背景特徴量の分布はラベルとは無関係です（画像分類問題で分類対象として視覚化できます）。画像分類問題における画像の背景やその他の要素）。他の要因の干渉を排除するために、これら 2 種類の特徴について次の仮定も立てます。

背景の特徴はラベルと相関していません (したがって、偽の相関によって引き起こされる障害モードを排除します)。
コア機能は 100% の精度でラベルを予測できます (これにより、トレーニングセットの不十分な機能によって引き起こされる失敗モードが排除されます)。
コアフィーチャとバックグラウンドフィーチャは、直交する部分空間に分散されます (このようにして、分離が難しいさまざまなフィーチャによって引き起こされる故障モードを除外します)。

上記の条件下でも、ニューラルネットワークはコア機能を学習しながら、タスクにまったく無関係な背景機能も学習することがわかりました。ネットワークの重み空間におけるこれら 2 つのフィーチャの結合により、バックグラウンドフィーチャで発生する分布シフトによってニューラルネットワークのエラーも増加し、それによってネットワークの OOD 一般化が減少します。したがって、このニューラルネットワークの特徴学習の好みを「特徴汚染」と呼びます。以下では、機能汚染の原因を詳しく紹介します。全体的な分析アイデアの概略図は次のとおりです:

ICML 2024 | 特征污染：神经网络会学习不相关特征而泛化失败

私たちの分析における 重要なポイントは、実際には、特徴汚染が、ニューラルネットワーク内のニューロンがしばしば 非対称活性化 (非対称活性化) を持っているという事実に関連しているということです。さまざまなカテゴリに対応します。具体的には、十分な SGD 反復の後、ネットワーク内のニューロンの少なくとも重要な部分が、カテゴリのサンプルと正の相関を持つ傾向があることを証明できます (これらをこのニューロンの正のサンプルと呼び、y_posを使用します)はそのカテゴリを表します)、別のカテゴリのサンプルとの負の相関を維持しています(これをこのニューロンの負のサンプルと呼び、y_negはそのカテゴリを表します)。これは、定理 4.1 で示されているように、これらのニューロンの活性化においてカテゴリーの非対称性をもたらします。まず、ネットワークの隠れ層の k 番目のニューロンについて、その重みベクトル w

が t 回目の反復後に分割できることに気づきます。上の式では、 S ICML 2024 | 特征污染：神经网络会学习不相关特征而泛化失败 core

とS

bg_{はそれぞれコア特徴と背景特徴のセットを表し、各 m}j

はコア特徴または背景特徴に対応します。この式から、ニューロンの重みをさまざまな特徴への投影に分解できることがわかります (ここでは、さまざまな m

j ICML 2024 | 特征污染：神经网络会学习不相关特征而泛化失败が直交する単位ベクトルであると仮定します)。さらに、各背景特徴 m

、j に対する w_k の負の勾配の投影が S_bg に属することを証明できます。 _{カテゴリ非対称活性化を持つニューロンの場合、定理によると4.1 より、その勾配は主にニューロンの正のサンプル y=y}pos_{に依存し、負のサンプル y=y}neg_{とはほとんど関係がないことがわかります。これにより、陽性サンプルに存在するコアフィーチャと背景フィーチャが同時に正の勾配投影を取得します。このプロセスは、フィーチャとラベル間の相関とは何の関係もありません。}

定理 4.2 に示されているように、十分な SGD 反復の後、上記の勾配射影の蓄積により、ニューロンによって学習された特徴にコア特徴と結合された背景特徴の両方が含まれるようになることが証明されます。ニューロンの重みにおけるコアフィーチャとバックグラウンドフィーチャの分布が負になると、バックグラウンドフィーチャの負の分布シフトによりニューロンの活性化が減少し、追加の OOD エラーが発生します。定理 4.3 に示されているように、ID と OOD の汎化リスクに対する特徴汚染の影響を定量的に説明します。

ICML 2024 | 特征污染：神经网络会学习不相关特征而泛化失败

_{同時に、非線形活性化関数から生じる特徴汚染の間の関係をさらに説明するために、ニューラルネットワーク、ニューラルネットワークの非線形性を除去すると、特徴汚染は発生しなくなることを証明します:}

以下の図に示すように、数値実験を通じて理論結果を検証しました。同時に、2 層 ReLU ネットワーク + SGD に加えて、他のタイプの活性化関数、適応ステップサイズを備えたオプティマイザーなど、より一般的な設定にも結論を拡張しました。結果を図 3 に示します( d) )、特徴の汚染がより一般的な環境でも蔓延していることを示しています。

同時に、私たちが日常的に使用している ResNet や Vision トランスフォーマーなどの深層ネットワークでも機能汚染の現象が発生し、私たちの実験での観察 OOD 一般化ギャップに達しました。この部分に興味がある人は、元の論文の第 5 章を参照してください。

要約とディスカッション
最後に、将来的により重要になる可能性がある/さらに深く継続できる可能性のあるいくつかの研究ポイントをリストします。さらに私たちとコミュニケーションをとることに興味があるすべての人を歓迎します:

より深いネットワーク。 :とはいえ、私たちはディープネットワークにも機能汚染の問題があることを実験的に証明しましたが、これまでのところ、私たちの理論分析は2層のReLUネットワークのみを行っています。私たちは、特徴の汚染はより一般的な概念である可能性があり、カテゴリごとのニューロンの活性化の非対称性が、その発生の理由の 1 つにすぎないのではないかと考えています。より深いネットワークやより複雑なネットワーク構造 (正規化層の導入など) を分析することで、機能汚染のより多くの原因を発見し、的を絞ったソリューションを提供できる可能性があります。

事前トレーニングの役割: この記事の理論分析では、ゼロからトレーニングする場合のみを考慮していますが、実際に使用するモデルは、多くの場合、事前トレーニングされたモデルです。事前トレーニングがモデルの OOD 一般化の改善に役立つことを示す実験的証拠は数多くあります。では、この一般化の改善の本質は、機能汚染の問題の軽減に関連しているのでしょうか。事前トレーニングはどのようにしてこれを行うのでしょうか?

機能汚染の問題を解決する方法: 私たちの研究は機能汚染の問題を指摘しましたが、まだ明確な解決策は与えられていません。しかし、私たちのその後の研究の一部では、大規模なモデルを微調整するときにも同様の問題が発生することが示されており、勾配調整に基づくいくつかの方法が実際にこの問題を軽減し、それによって微調整モデルの一般化が大幅に改善されることもわかりました。能力。この部分の具体的な内容についても今後公開していきますので、ぜひ注目していただければと思います。

著者について | この記事の著者である Zhang Tianren は、清華大学オートメーション学科の博士号取得者であり、指導教員は Chen 教授です。フォン。著者は博士課程の期間中、主に機械学習における表現学習と一般化の問題に関する理論的およびアルゴリズム的研究を行い、ICML、NeurIPS、ICLR、IEEE TPAMI などの主要な機械学習会議やジャーナルに多くの論文を発表しました。

著者の所属 | 清華大学 VIPLAB

連絡先メールアドレス | zhangtr22@mails.tsinghua.edu.cn

参考文献
[1] Mayilvahanan, P.、Wiedemer, T.、Rusak, E 。、Bethge, M.、Brendel, W. CLIP の汎化パフォーマンスは主にトレーニングとテストの類似性の高さから生じていますか? 2024 年の学習表現に関する国際会議で。

以上がICML 2024 | 特徴汚染: ニューラルネットワークは無関係な特徴を学習し、一般化できないの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI（DEAI）を移行します。派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面していますエンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI：芸術とデザインの未来人工知能（AI）は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか：会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。エージェントAIの定義 huang d

大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか？この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ：アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32％増加しました。以前の世論調査では、調査した研究者の75％がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50％の削減の可能性があることを示しています。基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35