ホームページ >テクノロジー周辺機器 >AI >ICML 2024 | コンテキスト学習における非線形 Transformer 学習と一般化のメカニズムを明らかにする
AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
この記事の著者、Li Hongkang は、米国レンセラー工科大学の電気、コンピュータ、システム工学科の博士課程の学生です。彼は中国科学技術大学を卒業し、学士号を取得しました。研究の方向性には、深層学習理論、大規模言語モデル理論、統計的機械学習などが含まれます。 ICLR/ICML/Neurips などのトップ AI カンファレンスで多くの論文を発表しています。
インコンテキスト学習 (ICL) は、多くの LLM 関連アプリケーションで強力な機能を実証してきましたが、その理論的分析はまだ比較的限定的です。人々は、Transformer アーキテクチャに基づく LLM がなぜ ICL の機能を発揮できるのかをまだ理解しようとしています。
最近、レンセラー工科大学とIBM Researchのチームが、最適化と一般化理論能力の観点から、非線形アテンションモジュール(アテンション)と多層パーセプトロン(MLP)を備えたトランスフォーマーのICLを分析しました。特に、単層の Transformer が最初にアテンション層のクエリに基づいていくつかのコンテキスト例を選択し、次に MLP 層のラベルの埋め込みに基づいて予測を行うという ICL メカニズムを理論的に証明しました。この記事は ICML 2024 に含まれています。 PAPERタイトル:非線形トランスは、コンテキスト内学習でどのように学習し、一般化しますか?
コンテキスト学習 (ICL) について
とテスト出力
の組み合わせを追加して、モデルの入力としてテスト プロンプト最近の理論的研究の多くは、[1] によって提案された研究フレームワークに基づいています。つまり、プロンプト形式を直接使用して Transformer をトレーニングできます (このステップは、シミュレーションとして理解することもできます)簡素化された LLM 事前トレーニング モード)、これによりモデルに ICL 機能が追加されます。既存の理論的研究は、モデルの表現力に焦点を当てています [2]。彼らは、順方向演算を通じて ICL を実行し、勾配降下法などの古典的な機械学習アルゴリズムを暗黙的に実行できる「完璧な」パラメーターを持つ Transformer を見つけることができることを発見しました。しかし、これらの研究では、なぜ Transformer が ICL 機能を使用してそのような「完璧な」パラメータにトレーニングできるのかについては答えられません。したがって、Transformer のトレーニングや一般化の観点から ICL のメカニズムを理解しようとする研究もいくつかあります [3,4]。ただし、Transformer の構造を分析するのは複雑であるため、これらの研究は現在、線形回帰タスクの研究にとどまっており、検討されるモデルでは通常、Transformer の非線形部分が省略されています。 この記事では、最適化と汎化理論の観点から、非線形アテンションと MLP を備えた Transformer の ICL 機能とメカニズムを分析します。
この記事は、単純化された分類モデルに基づいて、データの特性がデータにどのような影響を与えるかを具体的に定量化します。レイヤ シングルヘッド トランスフォーマーのドメイン内およびドメイン外 (OOD) ICL 一般化機能。
この記事では、トレーニングされた Transformer を通じて ICL がどのように実装されるかについてさらに説明します。
この記事では、トレーニングされた Transformer の特性に基づいて、ICL 推論中にマグニチュードベースのモデル枝刈りを使用する実現可能性も分析します。 理論部分 問題の説明 この論文では、二項分類問題、つまり、タスク を介して を にマッピングする問題を検討します。このような問題を解決するために、この記事では学習のプロンプトを構築します。ここでのプロンプトは次のように表されます: ネットワークを単層シングルヘッド Transformer としてトレーニングする: 事前トレーニング プロセスは、すべてのトレーニング タスクの経験的リスク最小化を解決することです。損失関数はバイナリ分類問題に適したヒンジ損失を使用し、トレーニング アルゴリズムは確率的勾配降下法です。 この記事では、ICL の一般化の 2 つのケースを定義します。 1 つはドメイン内です。つまり、テスト データの分布は一般化中のトレーニング データと同じです。この場合、つまり一般化では、テスト タスクがトレーニング タスクと同じである必要はないことに注意してください。ここでは目に見えないタスクについて検討しました。もう 1 つはドメイン外です。つまり、テスト データとトレーニング データの分布が異なります。 この記事には、ICL 推論中の大きさに基づく枝刈りの分析も含まれます。ここでの枝刈り手法は、トレーニングによって得られた各ニューロンをその振幅に応じて小さいものから大きいものまで削除することを指します。 データとタスクの構築 この部分については原文のセクション 3.2 を参照してください。ここでは概要のみを示します。この記事の理論的分析は、最近人気のある特徴学習ルートに基づいています。つまり、通常、データは分離可能な (通常は直交する) パターンであると想定され、それによって異なるパターンに基づいて勾配の変化を導き出します。この記事では、まず、ドメイン内タスクの分類を決定するために使用されるドメイン内関連 (IDR) パターンのセットと、タスクに依存しないドメイン無関係 (IDI) パターンのセットを定義します。これらのパターンはそれぞれに直交しています。他の。 IDR パターンと IDI パターンがあります。 は、IDR パターンと IDI パターンの合計として表されます。ドメイン内タスクは、2 つの IDR パターンに基づく分類問題として定義されます。 同様に、この記事では、OOD がドメイン関連外 (ODR) パターンとドメイン無関連 (ODI) パターンを定義することによって一般化される場合のデータとタスクについて説明できます。 この記事でのプロンプトの表現は、以下の図の例で説明できます。ここで、はIDRパターン、はIDIパターンです。ここで行われるタスクは、x の に基づいて分類することです。 の場合、そのラベルは + 1 であり、これは +q に対応します。 の場合、そのラベルは - 1 で、-q に対応します。 α、α' は、それぞれトレーニング プロンプトおよびテスト プロンプト内のクエリの IDR/ODR パターンと同じコンテキスト例として定義されます。以下の例では、。 理論的結果 まず、ドメイン内の状況について、この記事ではまず条件 3.2 を与えて、トレーニング タスクが満たす必要がある条件を規定します。つまり、トレーニング タスクはすべての IDR パターンをカバーする必要があり、ラベル。ドメイン内の結果は次のとおりです: これは次のことを示しています: 1. トレーニング タスクの数は、条件 3.2 を満たすすべてのタスクのほんの一部を占めるだけでよく、目に見えないタスクの適切な一般化を達成できます。 ; 2. プロンプト内の現在のタスクに関連する IDR パターンの割合が高いほど、より少ないトレーニング データ、トレーニングの反復回数、より短いトレーニング/テスト プロンプトで理想的な一般化を達成できます。 次は領域外の一般化の結果です。 ここで、ODR パターンが IDR パターンの線形結合であり、係数の合計が 1 より大きい場合、現時点で OOD ICL 一般化は理想的な効果を達成できることが説明されています。この結果は、ICL のフレームワークの下で適切な OOD 一般化に必要なトレーニング データとテスト データ間の本質的な関係を示しています。この定理は GPT-2 の実験でも検証されています。以下の図に示すように、(12) の係数合計 が 1 より大きい場合、OOD 分類は理想的な結果を達成できます。同時に、 の場合、つまりプロンプト内の分類タスクに関連する ODR/IDR パターンの割合が高い場合、必要なコンテキスト長は小さくなります。 次に、この論文では、大きさに基づいた枝刈りによる ICL 一般化の結果を示します。 この結果は、まず第一に、訓練された 内の一部の (一定の割合の) ニューロンの振幅が小さい一方、残りのニューロンは比較的大きいことを示しています (式 14)。小さなニューロンのみを枝刈りする場合、基本的に汎化結果には影響はありません。大きなニューロンを枝刈りする割合が増加すると、汎化誤差が大幅に増加します (式 15、16)。次の実験は定理 3.7 を検証します。以下の図 A の水色の縦線はトレーニングによって得られた を表し、式 14 の結果を示しています。ただし、小さなニューロンを枝刈りしても汎化は悪化しません。この結果は理論と一致します。図 B は、プロンプトにタスク関連のコンテキストが多い場合、同じ汎化パフォーマンスを達成するためにより大きな枝刈り率を許可できることを示しています。 ICLメカニズム この記事では、事前トレーニングプロセスを特徴付けることにより、元の記事のセクション4にあるICL用の単層シングルヘッド非線形変換器の内部メカニズムを取得します。このプロセスは以下の図で表すことができます。 つまり、アテンション層はクエリの ODR/IDR パターンと同じコンテキストを選択し、ほぼすべてのアテンションの重みを与え、MLP 層はラベルの埋め込みに基づいて最終的な分類を行うことに集中します。アテンションレイヤーの出力。 概要 この記事では、ICL の非線形 Transformer のトレーニング メカニズムと、新しいタスクと分布シフト データへの一般化機能について説明します。理論的結果は、プロンプト選択アルゴリズムと LLM プルーニング アルゴリズムを設計する上で、一定の実際的な重要性を持っています。 参考文献 [1] Garg, et al.、Neurips 2022.「トランスフォーマーはコンテキスト内で何を学習できますか? 単純な関数クラスのケーススタディ。」 [2] Von Oswald et al.、ICML 2023.「トランスフォーマーは勾配降下法によってコンテキスト内で学習します。」 [3] Zhang et al.、JMLR 2024.「トレーニングされたトランスフォーマーはコンテキスト内で線形モデルを学習します。」 [4] Huang et al.、ICML 2024.「変圧器のコンテキスト内収束」
以上がICML 2024 | コンテキスト学習における非線形 Transformer 学習と一般化のメカニズムを明らかにするの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。