なぜトランスはこれほど優れた性能を発揮するのでしょうか?多くの大規模な言語モデルにもたらすインコンテキスト学習機能はどこから来るのでしょうか?人工知能の分野では、トランスフォーマーはディープラーニングの主流のモデルとなっていますが、その優れたパフォーマンスの理論的根拠は十分に研究されていません。 最近、Google AI、チューリッヒ工科大学、Google DeepMind の研究者らによる新しい研究で、謎の答えが明らかになりました。新しい研究では、変圧器をリバースエンジニアリングし、いくつかの最適化方法を発見しました。論文「トランスフォーマーにおけるメサ最適化アルゴリズムの解明」: 論文リンク: https://arxiv.org/abs/2309.05858 著者一般的な自己回帰損失を最小限に抑えると、補助的な勾配ベースの最適化アルゴリズムが Transformer の順方向パスで動作することを示します。この現象は最近「メサ最適化」と呼ばれています。さらに、研究者らは、結果として得られたメサ最適化アルゴリズムが、モデルのサイズに関係なく、状況に応じたスモールショット学習機能を発揮することを発見しました。したがって、新しい結果は、大規模な言語モデルで以前に出現したスモールショット学習の原則を補完します。 研究者らは、Transformers の成功は、フォワード パスでのメサ最適化アルゴリズムの実装におけるアーキテクチャ上のバイアスに基づいていると考えています。(i) 内部学習目標の定義、および ( ii) 最適化されています。
##図 1: 新しい仮説の図: 自己回帰変換器 fθ の重み θ を最適化すると、次の順伝播で実装されたメサ最適化アルゴリズムが生成されます。モデル。入力シーケンスとして s_1、... 。 、s_t はタイム ステップ t まで処理されます。Transformer は、(i) 入力とターゲットの関連付けペアで構成される内部トレーニング セットを作成します。(ii) 結果データセットを通じて内部目的関数を定義します。これは、内部モデルのパフォーマンスを測定するために使用されます。重み W を使用して、(iii) この目標を最適化し、学習したモデルを使用して将来の予測を生成します。 この研究の貢献には以下が含まれます:
- 概要Oswald et al. は、勾配ベースの方法を使用して内部で構築された目的を最適化することで、Transformers が回帰からシーケンスの次の要素を理論的に予測する方法を示しています。
- シンプルなシーケンス モデリング タスクでトレーニングされたトランスフォーマーを実験的にリバース エンジニアリングし、フォワード パスが 2 段階のアルゴリズムを実装しているという強力な証拠を発見しました。 (i) 初期の自己注意層が内部トレーニングを構築するラベルをグループ化してコピーすることでデータセットを作成し、内部トレーニング データセットを暗黙的に構築します。内部目的関数を定義し、(ii) これらの目的をより深いレベルで最適化して予測を生成します。
- LLM と同様に、単純な自己回帰トレーニング モデルもコンテキスト学習者になることが実験で示されており、LLM のコンテキスト学習を改善するにはオンザフライ調整が不可欠であり、特定のパフォーマンスも向上させることができます。環境、パフォーマンス。
- アテンション層が内部目的関数を暗黙的に最適化しようとするという発見に触発されて、著者は、最小の問題を効果的に解決できる新しいタイプのアテンション層であるメサ層を紹介します。最適化を達成するために単一の勾配ステップを実行するのではなく、二乗最適化問題を実行します。実験では、単一のメサ層が、単純な逐次タスクにおいてディープリニアおよびソフトマックスセルフアテンショントランスフォーマーよりも優れたパフォーマンスを発揮し、より高い解釈可能性を提供することを実証しています。
- 予備的な言語モデリング実験の後、標準のセルフアテンション層をメサ層に置き換えることで効果が得られることがわかりました。有望な結果は、この層が強力な文脈学習機能を備えていることを証明しています。
#コンテキスト内のスモールショット タスクを解決するように明示的にトレーニングされたトランスフォーマーが勾配降下 (GD) アルゴリズムを実装できることを示す最近の研究に基づいています。今回、著者らは、これらの結果が、LLM をトレーニングするための典型的なアプローチである自己回帰シーケンス モデリングに一般化されることを示します。
まず、単純な線形ダイナミクスでトレーニングされたトランスフォーマーを分析します。各シーケンスは異なる W* によって生成され、シーケンス間の記憶を防ぎます。この単純なセットアップでは、著者はメサ データセットを作成し、前処理された GD を使用してメサ ターゲットを最適化するトランスフォーマーをデモします。
この研究では、隣接するシーケンス要素を集約するトークン構造でディープ トランスフォーマーをトレーニングします。興味深いことに、この単純な前処理により、非常にまばらな重み行列 (ゼロ以外の重みが 1% 未満) が生成され、リバース エンジニアリングされたアルゴリズムが生成されます。
単層線形セルフアテンションの場合、重みは 1 GD ステップに対応します。ディープトランスフォーマーの場合、解釈が難しくなります。この研究は線形プローブに依存しており、潜在的な活性化が自己回帰ターゲットまたは前処理された入力を予測するかどうかを調べます。 興味深いことに、両方の検出方法の予測可能性は、ネットワークの深さが増すにつれて徐々に向上します。この発見は、前処理された GD がモデル内に隠されていることを示唆しています。
研究では、学習された学習率だけでなく、構築にすべての自由度が使用される場合、トレーニング層を完全に適合させることができることがわかりました。 η、学習された初期重み W_0 のセットも含まれます。重要なのは、図 2 に示すように、学習されたワンステップ アルゴリズムは依然として単一メサ層よりもはるかに優れたパフォーマンスを発揮することです。 単純な重み設定では、基本的な最適化を通じて、この層がここで検討したタスクを最適に解決できることが簡単にわかることがわかります。この結果は、メサ最適化に有利なハードコーディングされた誘導バイアスの利点を示しています。 #多層のケースに対する理論的な洞察をもとに、まず Transformer のみに焦点を当てて深い線形とソフトマックスを分析します。著者らは、W_0 = 0 の選択に対応する 4 チャネル構造 に従って入力をフォーマットします。 単層モデルの場合と同様に、著者らはトレーニングされたモデルの重みに明確な構造があることを確認しています。最初のリバース エンジニアリング分析として、この研究ではこの構造を利用し、レイヤー ヘッダーごとに (3200 ではなく) 16 個のパラメーターを含むアルゴリズム (RevAlg-d、d はレイヤー数を表します) を構築します。著者らは、この圧縮されているが複雑な式でトレーニング済みモデルを記述できることを発見しました。特に、実際の Transformer と RevAlg-d のウェイト間の補間を、ほぼロスレスな方法で行うことができます。 RevAlg-d 式は、少数の自由パラメーターを使用してトレーニングされた多層 Transformer を説明していますが、これをメサ最適化アルゴリズムとして解釈するのは困難です。したがって、著者らは線形回帰プロービング分析 (Alain & Bengio、2017; Akyürek et al.、2023) を利用して、仮説的なメサ最適化アルゴリズムの特性を見つけました。 図 3 に示すディープ線形セルフアテンション トランスフォーマでは、両方のプローブが線形にデコードでき、デコードのパフォーマンスはシーケンスの長さとネットワークによって異なることがわかります。深さが増すにつれて増加します。したがって、ベース最適化は、メサ最適化問題の条件数を改善しながら、元のメサ目標 Lt (W) を層ごとに下降させるハイブリッド アルゴリズムを発見します。これにより、メサ対物レンズ Lt (W) が急激に減少します。また、深さが増加するとパフォーマンスが大幅に向上することもわかります。 したがって、自己回帰メサ目標 Lt (W) の急速な低下は、より適切な前処理データに対する段階的 (層間) メサ最適化によって達成されると考えられます。 # 図 3: リバース エンジニアリングで構築されたトークン入力のための多層トランスフォーマー トレーニング。
これは、トランスフォーマーが構築されたトークンでトレーニングされた場合、メサ最適化を使用して予測することを示しています。興味深いことに、シーケンス要素が直接与えられると、トランスフォーマーは要素をグループ化することで独自にトークンを構築します。これを研究チームは「メサ データセットの作成」と呼んでいます。 ############結論は###### この研究は、標準的な自己回帰目標の下でシーケンス予測タスクでトレーニングされた場合、Transformer モデルが勾配ベースの推論アルゴリズムを開発できることを示しています。したがって、マルチタスクのメタ学習設定で得られた最先端の結果を、従来の自己教師あり LLM トレーニング設定に転送することもできます。 さらに、この研究では、学習された自己回帰推論アルゴリズムを再トレーニングせずに教師あり文脈学習タスクを解決するために再利用できるため、単一の統一フレームワーク内で結果を解釈できることがわかりました。
それでは、これはコンテキスト内学習とどのような関係があるのでしょうか?この研究では、自己回帰シーケンス タスクでトランスフォーマーをトレーニングした後、適切なメサ最適化が達成されるため、微調整を行わずに数ショットのコンテキスト学習を実行できると考えられています。
この調査では、LLM にもメサ最適化が存在し、それによって文脈学習機能が向上すると仮定しています。興味深いことに、この研究では、プロンプトを LLM に効果的に適応させると、状況に応じた学習能力が大幅に向上する可能性があることも観察されました。
興味のある読者は、論文の原文を読んで研究内容をさらに詳しく知ることができます。 https://www.reddit. com/r/MachineLearning/comments/16jc2su/r_uncovering_mesaoptimization_algorithms_in/https://twitter.com/oswaldjoh/status/1701873029100241241以上が理論的基盤があれば、徹底的な最適化を実行できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。