- 論文タイトル: 特徴汚染: ニューラルネットワークは相関のない特徴を学習し、一般化に失敗する
- 論文リンク: https://arxiv.org/pdf/2406.03345
- コードリンク: https:/ /github.com/trzhang0116/feature-contamination
近年の GPT に代表される大規模モデルの大成功により、ディープ ニューラル ネットワーク + SGD + スケーリングの機械学習パラダイムが AI ステータスの分野での優位性を再び証明しました。 。ディープ ニューラル ネットワークに基づくパラダイムが成功するのはなぜですか?より一般的な見解は、ニューラル ネットワークには、大量の高次元入力データから抽象的で一般化可能な特徴を自動的に学習する機能があるというものです。残念ながら、現在の分析方法と数学的ツールの欠点により、「(深い) ニューラル ネットワークがそのような 特徴学習 プロセスをどのように実装するか」についての現在の理解はまだそれほど深くありません。このため、学術コミュニティにおける現在の関連研究のほとんどは、依然としてモデルが学習した特徴を「説明する」レベルに留まっており、データへの「介入」を通じてよりデータ効率が高く、より一般化可能なモデルを取得することは困難です。その学習プロセス。 ニューラル ネットワークの特徴学習プロセスについて議論するとき、最も基本的な質問の 1 つは、「ニューラル ネットワークは入力データからどのような特徴を学習するのか?」ということです。目標の観点から見ると、ニューラル ネットワークの特徴学習はタスクによって引き起こされる「副産物」であり、その目的はトレーニング エラーを最小限に抑えることです。したがって、ニューラル ネットワークはデータから「タスクに関連する」特徴を抽出し、残りの「タスクに無関係な」特徴はデータ ノイズに相当すると直感的に考えるでしょう。すると、ニューラルネットワークには「必要でなければ学習しない」という特性(正確には単純性バイアス)があるため、ニューラルネットワークは学習しない傾向があるはずです。これは現在の文献でも一般的な見解です。
しかし、ICML 2024 に承認された私たちの最近の研究では、この直感的な認識が実際には
間違っていることが分かりました。具体的には、非線形ニューラル ネットワークがタスク関連の特徴を学習すると、タスクに関係のない特徴も学習する傾向があり (これを「特徴汚染」と呼びます)、この傾向がニューラル ネットワークにとって困難になることがわかりました。ネットワークを分散シフトのあるシナリオに一般化します。理論的には、特徴の汚染が単純な 2 層 ReLU ネットワークでも発生し、ニューラル ネットワークにおける ニューロンの活性化 のカテゴリの非対称性と密接に関連していることを証明しました。また、実験的には、特徴の汚染が深層にも存在するという一連の証拠も示しました。 ResNet や Vision トランスフォーマーなどのネットワークに影響を与え、その一般化に悪影響を及ぼします。 私たちが発見した故障モードは、現在の流通外 (OOD) 一般化文献における偽の相関に基づく主流の分析とは完全に直交していることは言及する価値があります。したがって、より大きな観点から見ると、私たちの調査結果は、OOD の一般化にとってニューラル ネットワーク自体の帰納的バイアスの重要性を示しています。また、ニューラル ネットワークの特徴の学習と一般化に関する多くの研究の直観も再考する必要がある可能性があることを示しています。
次に、記事の具体的な内容をご紹介します:
研究の背景データ分布が変化するシナリオにおける汎化能力(つまり、OOD汎化能力)は、機械学習システムがどのようなシナリオで実行できるかを示す尺度です。現実性 環境内での展開を示す重要な指標の 1 つ。ただし、現在のニューラル ネットワークは、OOD 一般化シナリオで大幅なパフォーマンスの損失を受けることがよくあります。 OOD 一般化が失敗する理由については、文献でより主流の記述は、表現に偽の相関が存在する、つまり、モデルはタスクの目標に関連するが因果関係のない特徴を学習することになる、というものです。したがって、分布の変化によりこれらの特徴とタスク目標の間の相関関係が変化すると、予測にこれらの特徴に依存するモデルは元のパフォーマンスを保証できなくなります。
上記の理論的説明は非常に直感的で自然であり、近年の OOD アルゴリズム研究を導く主要な方針にもなっています。つまり、より優れた最適化目的関数と正規項を設計することで、モデルは誤った相関なしにより良い表現を学習できます。より強力な汎化性能を得るために。近年、この主要な方向に沿って、アルゴリズム設計を通じてモデルの OOD 一般化を改善しようとする多くの作業が行われてきました。ただし、最近の研究では、理論的保証が組み込まれた多くのアルゴリズムでは、実際のデータに基づく OOD 一般化タスクのパフォーマンス向上が非常に限られていることが示されています。 なぜこんなことが起こるのでしょうか?私たちは、OOD 一般化研究における現在の困難は、既存の分析の
2 つの制限に起因している可能性があると考えています。
- 既存の研究のほとんどは偽相関によって引き起こされる故障モードのみを考慮しています
- 現在の研究のほとんどは線形モデルに限定されており、ニューラルネットワークの非線形性とSGDの誘導バイアスを考慮していないため、既存の解析結果は実際に使用するニューラルネットワークに必ずしも適しているとは限りません。
言い換えれば、OOD 一般化の現在の説明と理論モデルは、現実世界の分布シフト シナリオを正確に反映していない可能性があります。したがって、ディープ ニューラル ネットワークに基づく OOD の一般化を理解するには、ニューラル ネットワークと SGD の誘導バイアスを考慮することが非常に必要であると考えられます。
実験
まず、実験計画を通じて、表現学習目標に基づいて設計された現在の OOD 一般化アルゴリズムによって達成できる「パフォーマンスの上限」を推定します。偽相関理論の指導の下、既存の研究は主に、補助表現学習目的関数を設計することによって、OOD によって一般化できる表現を学習するようにモデルを制約することを試みています。このような目標を最適化することで実際に望ましい表現を抽出できるかどうかを研究するために、私たちは理想的なシナリオを設計しました:
- まず、トレーニング プロセス中に、モデルが OOD によって一般化できる教師モデルに明示的に適合できるようにしました。抽出された表現は表現の蒸留です。実験では、この教師モデルは大規模な事前トレーニング済みモデル (CLIP など) にすることができます。変数を制御するために、実際の運用では生徒モデルと教師モデルのモデル構造が全く同じになるように制御します。
- 2 番目のステップでは、教師モデルと生徒モデルによってそれぞれ提供される表現に基づいて、トレーニング セット上で線形分類器 (線形プローブ) をトレーニングします。 ,
- 最後に、教師モデルと学生モデルに基づく線形分類器を、それぞれ同一に分散されたテスト セットと OOD テスト セットでテストし、これら 2 つのモデルによって抽出された表現の OOD 一般化を測定しました。
実験結果は上の写真に示されています。この図から、主な結果が 2 つあります:
- トレーニング プロセス中に教師モデルの表現に直接適合しない標準モデル (青) と比較して、学生モデル (オレンジ) に基づく線形分類器は OOD 一般化性が優れています。 ;
- ただし、学生モデルに基づく線形分類器 (オレンジ色) の OOD 一般化パフォーマンスは、教師モデルに基づく線形分類器 (紫色) よりも大幅に遅れています。
そこで、私たちは自然にこう尋ねます: 教師モデルの表現を直接当てはめたので、生徒モデルと教師モデルの間の一般化ギャップはどこから来るのでしょうか?この実験現象を既存の理論的説明で直接説明するのは難しいことがわかりました:
- まず第一に、このギャップは偽相関理論では直接説明できません。トレーニング セット) が基本的に同じである場合、これら 2 つの表現に基づく線形分類器はトレーニング プロセス中に同様に誤った相関特徴の影響を受けるはずであり、それほど大きなギャップがあるはずはありません
- もう 1 つの考えられる説明は、教師モデル (そのような) です。 CLIP として) は、独自の事前トレーニング プロセス中に多くの OOD サンプルを「見た」可能性があるため、OOD サンプルのトレーニング セットでは見つからないいくつかの特徴を抽出できます。ただし、最近の研究では、OOD テスト サンプルに類似したすべてのサンプルが CLIP の事前トレーニング データから削除されたとしても、CLIP には依然として強力な OOD 一般化機能があることが示されています [1]。これは、教師モデルと生徒モデルの間のギャップを単にこの観点から説明するだけでは十分ではないことを示しています。
要するに、既存の分析 では、実験で実際に観察された OOD 汎化能力のギャップ を説明するには不十分であると考えています。同時に、「OODで一般化できる表現を直接当てはめる」だけではOODで一般化できるモデルを保証できないため、表現学習の「目標」に加えて、表現学習の「プロセス」も考慮する必要があります。表現学習」、これはニューラル ネットワークの特徴学習ダイナミクスによって引き起こされる帰納的バイアスです。理論的にディープニューラルネットワークの特徴学習プロセスを直接分析することは非常に困難ですが、2層のReLUネットワークであっても興味深い特徴学習傾向、つまり「特徴汚染」を示すことがわかり、この傾向はまた、ニューラル ネットワークの OOD 一般化にも直接関連しています。
理論
このセクションでは、2 層 ReLU ネットワークに基づく二値分類問題における「特徴汚染」現象の存在を証明し、この現象の原因を分析します。具体的には、ネットワークへの入力が「コア特徴」と「バックグラウンド特徴」という 2 つの特徴の線形結合で構成されていると仮定します。このうち、コア特徴量の分布はカテゴリラベルに依存します(画像分類問題における分類対象として視覚化できます)が、背景特徴量の分布はラベルとは無関係です(画像分類問題で分類対象として視覚化できます)。画像分類問題における画像の背景やその他の要素)。他の要因の干渉を排除するために、これら 2 種類の特徴について次の仮定も立てます。
- 背景の特徴はラベルと相関していません (したがって、偽の相関によって引き起こされる障害モードを排除します)。
- コア機能は 100% の精度でラベルを予測できます (これにより、トレーニング セットの不十分な機能によって引き起こされる失敗モードが排除されます)。
- コア フィーチャとバックグラウンド フィーチャは、直交する部分空間に分散されます (このようにして、分離が難しいさまざまなフィーチャによって引き起こされる故障モードを除外します)。
上記の条件下でも、ニューラル ネットワークはコア機能を学習しながら、タスクにまったく無関係な背景機能も学習することがわかりました。ネットワークの重み空間におけるこれら 2 つのフィーチャの結合により、バックグラウンド フィーチャで発生する分布シフトによってニューラル ネットワークのエラーも増加し、それによってネットワークの OOD 一般化が減少します。したがって、このニューラルネットワークの特徴学習の好みを「特徴汚染」と呼びます。以下では、機能汚染の原因を詳しく紹介します。全体的な分析アイデアの概略図は次のとおりです:
私たちの分析における 重要なポイントは、実際には、特徴汚染が、ニューラル ネットワーク内のニューロンがしばしば 非対称活性化 (非対称活性化) を持っているという事実に関連しているということです。さまざまなカテゴリに対応します。具体的には、十分な SGD 反復の後、ネットワーク内のニューロンの少なくとも重要な部分が、カテゴリのサンプルと正の相関を持つ傾向があることを証明できます (これらをこのニューロンの正のサンプルと呼び、yposを使用します)はそのカテゴリを表します)、別のカテゴリのサンプルとの負の相関を維持しています(これをこのニューロンの負のサンプルと呼び、ynegはそのカテゴリを表します)。これは、定理 4.1 で示されているように、これらのニューロンの活性化においてカテゴリーの非対称性をもたらします。まず、ネットワークの隠れ層の k 番目のニューロンについて、その重みベクトル w
k が t 回目の反復後に分割できることに気づきます。 上の式では、 Score
bg はそれぞれコア特徴と背景特徴のセットを表し、各 mj
はコア特徴または背景特徴に対応します。この式から、ニューロンの重みをさまざまな特徴への投影に分解できることがわかります (ここでは、さまざまな mj が直交する単位ベクトルであると仮定します)。さらに、各背景特徴 m
、j に対する wk の負の勾配の投影が Sbg に属することを証明できます。 カテゴリ非対称活性化を持つニューロンの場合、定理によると4.1 より、その勾配は主にニューロンの正のサンプル y=ypos に依存し、負のサンプル y=yneg とはほとんど関係がないことがわかります。これにより、陽性サンプルに存在するコア フィーチャと背景フィーチャが同時に正の勾配投影を取得します。このプロセスは、フィーチャとラベル間の相関とは何の関係もありません。
定理 4.2 に示されているように、十分な SGD 反復の後、上記の勾配射影の蓄積により、ニューロンによって学習された特徴にコア特徴と結合された背景特徴の両方が含まれるようになることが証明されます。ニューロンの重みにおけるコア フィーチャとバックグラウンド フィーチャの分布が負になると、バックグラウンド フィーチャの負の分布シフトによりニューロンの活性化が減少し、追加の OOD エラーが発生します。定理 4.3 に示されているように、ID と OOD の汎化リスクに対する特徴汚染の影響を定量的に説明します。同時に、非線形活性化関数から生じる特徴汚染の間の関係をさらに説明するために、ニューラル ネットワーク、ニューラル ネットワークの非線形性を除去すると、特徴汚染は発生しなくなることを証明します: 以下の図に示すように、数値実験を通じて理論結果を検証しました。同時に、2 層 ReLU ネットワーク + SGD に加えて、他のタイプの活性化関数、適応ステップ サイズを備えたオプティマイザーなど、より一般的な設定にも結論を拡張しました。結果を図 3 に示します( d) )、特徴の汚染がより一般的な環境でも蔓延していることを示しています。 同時に、私たちが日常的に使用している ResNet や Vision トランスフォーマーなどの深層ネットワーク でも機能汚染の現象が発生し、私たちの実験での観察 OOD 一般化ギャップに達しました。この部分に興味がある人は、元の論文の第 5 章を参照してください。 要約とディスカッション 著者について | この記事の著者である Zhang Tianren は、清華大学オートメーション学科の博士号取得者であり、指導教員は Chen 教授です。フォン。著者は博士課程の期間中、主に機械学習における表現学習と一般化の問題に関する理論的およびアルゴリズム的研究を行い、ICML、NeurIPS、ICLR、IEEE TPAMI などの主要な機械学習会議やジャーナルに多くの論文を発表しました。 著者の所属 | 清華大学 VIPLAB 連絡先メールアドレス | zhangtr22@mails.tsinghua.edu.cn 参考文献
以上がICML 2024 | 特徴汚染: ニューラル ネットワークは無関係な特徴を学習し、一般化できないの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

WebStorm Mac版
便利なJavaScript開発ツール

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。
