ホームページ > 記事 > テクノロジー周辺機器 > Yann LeCun チームによる新しい研究結果: 自己教師あり学習のリバース エンジニアリング、クラスタリングは次のように実装されていることが判明
自己教師あり学習 (SSL) は近年大きく進歩し、多くの下流タスクでは教師あり学習手法のレベルにほぼ到達しています。しかし、モデルの複雑さと、注釈付きのトレーニング データセットの欠如により、学習された表現とその基礎となる動作メカニズムを理解することが困難でした。さらに、自己教師あり学習で使用される口実タスクは、特定の下流タスクに直接関連していないことが多く、学習された表現の解釈の複雑さがさらに増大します。教師あり分類では、学習された表現の構造は非常に単純であることがよくあります。
従来の分類タスク (サンプルを特定のカテゴリに正確に分類することが目標) と比較して、最新の SSL アルゴリズムの目標は、通常、次の 2 つの主要なコンポーネントを含む損失関数を最小化することです。強化されたサンプルをクラスター化します (不変制約)。2 つ目は、表現の崩壊を防ぐことです (正則化制約)。たとえば、異なる強化後の同じサンプルの場合、対比学習法の目標は、これらのサンプルの分類結果を同じにすると同時に、異なる強化されたサンプルを区別できるようにすることです。一方、非対照的な方法では、表現の崩壊を避けるために正則化子が使用されます。
自己教師あり学習では、補助タスク (口実) の教師なしデータを使用して独自の監視情報をマイニングし、この構築された監視情報を通じてネットワークをトレーニングして、下流の学習を行うことができます。タスクに価値があることの表現。最近、チューリング賞受賞者のヤン・ルカン氏を含む数名の研究者が、自己教師あり学習をリバースエンジニアリングしたと主張する研究結果を発表し、これにより自己教師あり学習のトレーニングプロセスの内部動作を理解できるようになりました。
論文アドレス: https://arxiv.org/abs/2305.15614v2
#このペーパーでは、トレーニング中のクラスタリング プロセスを理解するのに役立つ、慎重に設計された一連の実験を通じて、SLL を使用した表現学習の詳細な分析を提供します。具体的には、拡張サンプルが高度にクラスター化された動作を示し、同じ画像を共有する拡張サンプルの意味埋め込みの周囲に重心を形成することを明らかにします。さらに予想外だったのは、対象タスクに関する明示的な情報がない場合でも、サンプルが意味ラベルに基づいてクラスタ化されていることを研究者らが観察したことです。これは、意味上の類似性に基づいてサンプルをグループ化する SSL の機能を示しています。問題設定
自己教師あり学習 (SSL) は、下流のタスクに適応するモデルを準備するための事前トレーニングによく使用されるため、重要な問題が生じます。質問: SSL トレーニングは学習された表現にどのような影響を与えますか?具体的には、トレーニング中に SSL が内部でどのように機能するのか、また、これらの表現関数はどのようなカテゴリを学習できるのでしょうか?これらの問題を調査するために、研究者は複数の設定で SSL ネットワークをトレーニングし、さまざまな手法を使用してその動作を分析しました。
データと拡張: この記事で説明したすべての実験では、CIFAR100 画像分類データセットを使用しました。モデルをトレーニングするために、研究者らは SimCLR で提案されている画像強調プロトコルを使用しました。各 SSL トレーニング セッションは、SGD オプティマイザーを勢いよく使用して 1000 エポック実行されます。
バックボーン アーキテクチャ: すべての実験では、RES-L-H アーキテクチャをバックボーンとして使用し、2 層の多層パーセプトロン (MLP) プロジェクション ヘッドを組み合わせました。
線形プローブ: 表現関数から特定の離散関数 (カテゴリなど) を抽出する有効性を評価するために、ここで使用される方法は線形プローブです。これには、この表現に基づいて線形分類器 (線形プローブとも呼ばれます) をトレーニングする必要があり、これにはいくつかのトレーニング サンプルが必要です。
サンプルレベルの分類: サンプルレベルの分離可能性を評価するために、研究者は特化した新しいデータセットを作成しました。
トレーニング データ セットには、CIFAR-100 トレーニング セットからの 500 個のランダムな画像が含まれています。各画像は特定のカテゴリを表し、100 通りの異なる方法で強化されます。したがって、トレーニング データセットには、500 カテゴリの合計 50,000 のサンプルが含まれています。テスト セットは引き続きこれら 500 個のイメージを使用しますが、すべて同じディストリビューションからの 20 の異なる拡張機能を使用します。したがって、テスト セットの結果は 10,000 サンプルで構成されます。サンプルレベルで特定の表現関数の線形精度または NCC (最近接クラス中心/最近接クラス中心) 精度を測定するために、ここで採用される方法は、まずトレーニング データを使用して関連する分類器を計算し、次にそれを計算します。対応するテスト セットでその精度を評価します。 クラスタリング プロセスは、深層学習モデルの分析を支援する上で常に重要な役割を果たしてきました。 SSL トレーニングを直感的に理解するために、図 1 にネットワークのトレーニング サンプルの埋め込み空間を UMAP 可視化して示します。これにはトレーニング前後の状況が含まれ、さまざまなレベルに分けられます。 自己教師あり学習のクラスタリング プロセスを明らかにする
#図 1: SSL トレーニングによって引き起こされるセマンティック クラスタリング
#予想どおり、トレーニング プロセスはサンプル レベルでサンプルをクラスター化し、同じ画像のさまざまな強調をマッピングしました (図の最初の行に示すように)。目的関数自体が (不変性損失項を介して) この動作を促進していることを考えると、この結果は予想外ではありません。ただし、さらに注目すべき点は、トレーニング プロセス中にラベルが不足しているにもかかわらず、このトレーニング プロセスは、標準 CIFAR-100 データセットの元の「セマンティック カテゴリ」に基づいてクラスタリングも行うことです。興味深いことに、より高いレベル (スーパーカテゴリー) も効率的にクラスター化できます。この例は、トレーニング プロセスがサンプル レベルでのクラスタリングを直接促進しているにもかかわらず、SSL トレーニングのデータ表現もさまざまなレベルでセマンティック カテゴリに従ってクラスタリングしていることを示しています。このクラスタリング プロセスをさらに定量化するために、研究者らは VICReg を使用して RES-10-250 をトレーニングしました。研究者らは、サンプルレベルと元のカテゴリに基づいて、NCCトレーニングの精度を測定しました。 SSL によってトレーニングされた表現はサンプル レベルで神経崩壊を示していることに注目する価値があります (NCC トレーニング精度は 1.0 に近い) が、セマンティック カテゴリに関するクラスタリングも有意です (元のターゲットでは約 1.0) 0.41)。
図 2 の左側の図に示すように、強化を伴うクラスタリング プロセス (ネットワークが直接トレーニングされる) のほとんどは、トレーニング プロセスの初期段階で発生し、その後停滞します。 ; セマンティックの場合、カテゴリごとのクラスタリング (トレーニング目標では指定されていない) はトレーニング中に引き続き改善されます。
図 2: SSL アルゴリズムはセマンティック ターゲットのペアに従ってデータをクラスタリングします
以前の研究者は、教師ありトレーニング サンプルのトップレベルの埋め込みが重心のような構造に向かって徐々に収束することを観察しました。 SSL でトレーニングされた表現関数のクラスタリングの性質をより深く理解するために、SSL 実行中の同様の状況を調査しました。その NCC 分類器は線形分類器であり、最高の線形分類器よりも優れたパフォーマンスを発揮するわけではありません。同じデータでトレーニングされた線形分類器と比較して NCC 分類器の精度を評価することにより、データ クラスタリングをさまざまな粒度レベルで研究できます。図 2 の中央のパネルは、サンプル レベルのカテゴリと元のターゲット カテゴリにわたるこの比率の推移を、初期値に正規化された値で示しています。 SSL トレーニングが進むにつれて、NCC 精度と線形精度の間のギャップが小さくなり、強化されたサンプルがサンプルのアイデンティティとセマンティック特性に基づいてクラスタリング レベルを徐々に向上させることを示しています。さらに、この図は、サンプル レベルの比率が最初は高いことも示しており、拡張されたサンプルが重心 (NCC の正確な比率) に収束するまで、そのアイデンティティに従ってクラスター化されていることを示しています。精度と直線性の精度は 100 エポックで ≥ 0.9)。ただし、トレーニングが続くと、サンプル レベルの比率は飽和しますが、クラス レベルの比率は増加し続け、約 0.75 に収束します。これは、強化されたサンプルが最初にサンプル ID に従ってクラスター化され、実装後に高レベルのセマンティック カテゴリに従ってクラスター化されることを示しています。
SSL トレーニングにおける暗黙的な情報圧縮 圧縮を効果的に実行できれば、有益で有用な表現が得られます。ただし、SSL トレーニング中にそのような圧縮が発生するかどうかは、まだほとんどの人が研究していないトピックです。 これを理解するために、研究者らは、トレーニング中に入力とそれに対応する埋め込み表現の間の関係を推定する方法である相互情報ニューラル推定 (MINE) を使用しました。このメトリックは、表現がエンコードする情報量 (ビット数) を示すことで、表現の複雑さのレベルを効果的に測定するために使用できます。 図 3 の中央のパネルは、5 つの異なる MINE 初期化シードで計算された平均相互情報量をレポートします。図に示すように、トレーニング プロセス中に大幅な圧縮が行われ、その結果、非常にコンパクトなトレーニング表現が得られます。
#左のグラフは、SSL トレーニング モデルの正則化と不変性を示しています。トレーニング プロセス 損失と元のターゲット直線性テストの精度の変化。 (中央) 学習中の入力と表現の間の相互情報の圧縮。 (右) SSL トレーニングはクラスターの表現を学習します。
#正則化損失の役割
目的関数には、不変性と不変性の 2 つの項目が含まれています。正規化。不変項の主な機能は、同じサンプルの異なる強調表現間の類似性を強化することです。正則化項の目的は、表現の崩壊を防ぐことです。クラスタリングプロセスにおけるこれらのコンポーネントの役割を調査するために、研究者らは目的関数を不変項と正則化項に分解し、トレーニングプロセス中のそれらの動作を観察しました。比較結果は図 3 の左側のパネルに示されており、元のセマンティック ターゲットでの損失項の展開と線形テスト精度が示されています。一般に信じられていることに反して、不変性損失項はトレーニング中に大幅には改善されません。代わりに、正則化損失を削減することで、損失 (および下流の意味論的精度) が改善されます。
SSL のトレーニング プロセスのほとんどは、サンプル レベルの分類精度とクラスタリングではなく、学習した表現の意味論的な精度とクラスタリングを向上させることであると結論付けることができます。
本質的に、ここでの調査結果は、自己教師あり学習の直接の目標はサンプルレベルの分類であるにもかかわらず、トレーニング時間のほとんどが実際には異なるレベルの意味カテゴリに費やされていることを示しています。クラスタリング。この観察は、クラスタリングを通じて意味的に意味のある表現を生成する SSL メソッドの能力を示しており、これにより、その基礎となるメカニズムを理解することもできます。
教師あり学習と SSL クラスタリングの比較
ディープ ネットワーク分類器は、多くの場合、トレーニング サンプルのカテゴリに基づいています。それらは個々の重心にクラスター化されます。ただし、学習された関数が実際にクラスター化されるためには、このプロパティがテスト サンプルに対して依然として有効である必要があります。これは期待される効果ですが、効果はわずかに悪くなります。ここで興味深い質問があります。SSL は、教師あり学習によるクラスタリングと比較して、サンプルの意味カテゴリに基づいたクラスタリングをどの程度実行できますか?図 3 の右側のパネルは、さまざまなシナリオ (強化された教師あり学習と SSL の有無) でのトレーニング終了時の NCC トレーニングとテスト精度率をレポートします。
教師あり分類器の NCC トレーニング精度は 1.0 で、SSL トレーニング モデルの NCC トレーニング精度よりも大幅に高くなりますが、SSL モデルの NCC テスト精度はわずかに高くなります。教師付きモデルの NCC テスト精度が向上します。これは、セマンティック カテゴリに従った 2 つのモデルのクラスタリング動作がある程度似ていることを示しています。興味深いことに、拡張サンプルを使用して教師ありモデルをトレーニングすると、NCC トレーニングの精度はわずかに低下しますが、NCC テストの精度は大幅に向上します。
セマンティック カテゴリの学習とランダム性の影響の調査
セマンティック カテゴリは、入力の固有パターンに基づいて、入力とターゲットの間の関係を定義します。一方、入力をランダムなターゲットにマッピングすると、認識できるパターンが欠如し、その結果、入力とターゲットの間の接続が恣意的に見えることになります。研究者らは、モデル学習に必要なターゲットの習熟度に対するランダム性の影響も調査しました。これを行うために、彼らはさまざまな程度のランダム性を持つ一連のターゲット システムを構築し、学習された表現に対するランダム性の影響を調べました。彼らは、分類に使用したのと同じデータセットでニューラル ネットワーク分類器をトレーニングし、その後、異なるエポックからのターゲット予測を、異なる程度のランダム性を持つターゲットとして使用しました。エポック 0 では、ネットワークは完全にランダムであり、決定論的ではあるが一見任意のラベルが付けられます。トレーニングが進むにつれて、その関数のランダム性は減少し、最終的にはグラウンド トゥルース ターゲット (完全にランダムではないと考えることができます) と一致するターゲットが取得されます。ここでは、ランダム性の程度は 0 (トレーニング終了時、まったくランダムではない) から 1 (初期化時、完全にランダム) までの範囲に正規化されます。 図 4 左の図は、さまざまなランダム性ターゲットに対する線形テストの精度を示しています。各線は、ランダム性の程度が異なる SSL のさまざまなトレーニング段階の精度に対応します。トレーニング中、モデルは「セマンティック」ターゲット (ランダム性が低い) に近いカテゴリをより効率的にキャプチャする一方で、ランダム性の高いターゲットではパフォーマンスの大幅な向上が見られないことがわかります。
#図 4: SSL はランダムなターゲットではなくセマンティックなターゲットを継続的に学習します
#深層学習における重要な問題は、さまざまな種類のカテゴリの分類における中間層の役割と影響を理解することです。たとえば、異なるレイヤーは異なる種類のカテゴリを学習するのでしょうか?研究者らはまた、さまざまなターゲットのランダム性レベルでのトレーニング終了時に、さまざまな層の表現の線形テスト精度を評価することで、この問題を調査しました。図 4 の中央のパネルに示されているように、ランダム性が減少するにつれて線形テストの精度は向上し続け、すべてのカテゴリ タイプにわたってより深い層ほどパフォーマンスが向上し、セマンティック カテゴリに近い分類ではパフォーマンス ギャップが大きくなります。
研究者らは、クラスタリングの品質を評価するために、NCC 精度、CDNV、クラスごとの平均分散、クラス平均間の平均二乗距離など、他のいくつかの指標も使用しました。トレーニングによって表現がどのように改善されるかを測定するために、セマンティック ターゲットとランダム ターゲットに対するこれらのメトリクスの比率を計算しました。図 4 の右側のパネルはこれらの比率を示しており、この表現がランダムな目標ではなく意味論的な目標に基づいたデータのクラスタリングを優先していることを示しています。興味深いことに、CDNV (分散を二乗距離で割ったもの) は、二乗距離の減少だけで減少することがわかります。分散比はトレーニング中にかなり安定しています。これにより、クラスター間の間隔が広くなり、パフォーマンスの向上につながることが示されている現象です。
カテゴリ階層と中間層の理解これまでの研究では、教師あり学習では、中間層がさまざまな抽象化レベルで特徴を徐々に捕捉することが実証されています。初期層は低レベルの特徴を重視する傾向がありますが、より深い層はより抽象的な特徴を捕捉します。次に研究者らは、SSL ネットワークがより高いレベルの階層属性を学習できるかどうか、またどのレベルがこれらの属性とよりよく相関しているかを調査しました。
実験では、サンプル レベル、元の 100 カテゴリ、および 20 のスーパー カテゴリの 3 つのレベルで線形テストの精度を計算しました。図 2 の右側のパネルは、これら 3 つの異なるカテゴリ セットに対して計算された数量を示しています。トレーニング プロセス中に、元のカテゴリおよびスーパー カテゴリ レベルでのパフォーマンスの向上が、サンプル レベルでのパフォーマンスの向上よりも顕著であることがわかります。
以下は、SSL トレーニング済みモデルの中間層の動作と、さまざまなレベルで目標を捕捉する機能です。図 5 の左側と中央のパネルは、オリジナル ターゲットとスーパー ターゲットが測定された、さまざまなトレーニング ステージにおけるすべての中間層の線形テスト精度を示しています。図 5 の右側のパネルは、スーパーカテゴリーと元のカテゴリー間の比率を示しています。
図 5: SSL は中間層全体で効果的意味カテゴリの学習 研究者らは、これらの結果に基づいていくつかの結論に達しました。まず、層が深くなるにつれて、クラスタリング効果が向上し続けることが観察できます。さらに、教師あり学習の場合と同様に、研究者らは、SSL トレーニング中にネットワークの各層の線形精度が向上することを発見しました。特に、最終層は元のクラスにとって最適な層ではないことがわかりました。最近の SSL 研究では、ダウンストリーム タスクがさまざまなアルゴリズムのパフォーマンスに大きな影響を与える可能性があることが示されています。私たちの研究はこの観察を拡張し、ネットワークのさまざまな部分がさまざまな下流タスクおよびタスク レベルに適している可能性があることを示唆しています。図 5 の右パネルによれば、ネットワークのより深い層では、スーパー カテゴリの精度が元のカテゴリの精度よりも向上していることがわかります。
以上がYann LeCun チームによる新しい研究結果: 自己教師あり学習のリバース エンジニアリング、クラスタリングは次のように実装されていることが判明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。