理論的基盤があれば、徹底的な最適化を実行できます。-AI-php.cn

ホームページ

テクノロジー周辺機器

理論的基盤があれば、徹底的な最適化を実行できます。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 20, 2023 pm 03:05 PM

理論transformer

なぜトランスはこれほど優れた性能を発揮するのでしょうか?多くの大規模な言語モデルにもたらすインコンテキスト学習機能はどこから来るのでしょうか?人工知能の分野では、トランスフォーマーはディープラーニングの主流のモデルとなっていますが、その優れたパフォーマンスの理論的根拠は十分に研究されていません。

最近、Google AI、チューリッヒ工科大学、Google DeepMind の研究者らによる新しい研究で、謎の答えが明らかになりました。新しい研究では、変圧器をリバースエンジニアリングし、いくつかの最適化方法を発見しました。論文「トランスフォーマーにおけるメサ最適化アルゴリズムの解明」: 理論的基盤があれば、徹底的な最適化を実行できます。

論文リンク: https://arxiv.org/abs/2309.05858

著者一般的な自己回帰損失を最小限に抑えると、補助的な勾配ベースの最適化アルゴリズムが Transformer の順方向パスで動作することを示します。この現象は最近「メサ最適化」と呼ばれています。さらに、研究者らは、結果として得られたメサ最適化アルゴリズムが、モデルのサイズに関係なく、状況に応じたスモールショット学習機能を発揮することを発見しました。したがって、新しい結果は、大規模な言語モデルで以前に出現したスモールショット学習の原則を補完します。

研究者らは、Transformers の成功は、フォワードパスでのメサ最適化アルゴリズムの実装におけるアーキテクチャ上のバイアスに基づいていると考えています。(i) 内部学習目標の定義、および ( ii) 最適化されています。

理論的基盤があれば、徹底的な最適化を実行できます。

##図 1: 新しい仮説の図: 自己回帰変換器 fθ の重み θ を最適化すると、次の順伝播で実装されたメサ最適化アルゴリズムが生成されます。モデル。入力シーケンスとして s_1、... 。、s_t はタイムステップ t まで処理されます。Transformer は、(i) 入力とターゲットの関連付けペアで構成される内部トレーニングセットを作成します。(ii) 結果データセットを通じて内部目的関数を定義します。これは、内部モデルのパフォーマンスを測定するために使用されます。重み W を使用して、(iii) この目標を最適化し、学習したモデルを使用して将来の予測を生成します^。

この研究の貢献には以下が含まれます:

概要Oswald et al. は、勾配ベースの方法を使用して内部で構築された目的を最適化することで、Transformers が回帰からシーケンスの次の要素を理論的に予測する方法を示しています。
シンプルなシーケンスモデリングタスクでトレーニングされたトランスフォーマーを実験的にリバースエンジニアリングし、フォワードパスが 2 段階のアルゴリズムを実装しているという強力な証拠を発見しました。 (i) 初期の自己注意層が内部トレーニングを構築するラベルをグループ化してコピーすることでデータセットを作成し、内部トレーニングデータセットを暗黙的に構築します。内部目的関数を定義し、(ii) これらの目的をより深いレベルで最適化して予測を生成します。
LLM と同様に、単純な自己回帰トレーニングモデルもコンテキスト学習者になることが実験で示されており、LLM のコンテキスト学習を改善するにはオンザフライ調整が不可欠であり、特定のパフォーマンスも向上させることができます。環境、パフォーマンス。
アテンション層が内部目的関数を暗黙的に最適化しようとするという発見に触発されて、著者は、最小の問題を効果的に解決できる新しいタイプのアテンション層であるメサ層を紹介します。最適化を達成するために単一の勾配ステップを実行するのではなく、二乗最適化問題を実行します。実験では、単一のメサ層が、単純な逐次タスクにおいてディープリニアおよびソフトマックスセルフアテンショントランスフォーマーよりも優れたパフォーマンスを発揮し、より高い解釈可能性を提供することを実証しています。

理論的基盤があれば、徹底的な最適化を実行できます。

予備的な言語モデリング実験の後、標準のセルフアテンション層をメサ層に置き換えることで効果が得られることがわかりました。有望な結果は、この層が強力な文脈学習機能を備えていることを証明しています。

#コンテキスト内のスモールショットタスクを解決するように明示的にトレーニングされたトランスフォーマーが勾配降下 (GD) アルゴリズムを実装できることを示す最近の研究に基づいています。今回、著者らは、これらの結果が、LLM をトレーニングするための典型的なアプローチである自己回帰シーケンスモデリングに一般化されることを示します。

まず、単純な線形ダイナミクスでトレーニングされたトランスフォーマーを分析します。各シーケンスは異なる W* によって生成され、シーケンス間の記憶を防ぎます。この単純なセットアップでは、著者はメサデータセットを作成し、前処理された GD を使用してメサターゲットを最適化するトランスフォーマーをデモします。

理論的基盤があれば、徹底的な最適化を実行できます。

この研究では、隣接するシーケンス要素を集約するトークン構造でディープトランスフォーマーをトレーニングします。興味深いことに、この単純な前処理により、非常にまばらな重み行列 (ゼロ以外の重みが 1% 未満) が生成され、リバースエンジニアリングされたアルゴリズムが生成されます。

理論的基盤があれば、徹底的な最適化を実行できます。

単層線形セルフアテンションの場合、重みは 1 GD ステップに対応します。ディープトランスフォーマーの場合、解釈が難しくなります。この研究は線形プローブに依存しており、潜在的な活性化が自己回帰ターゲットまたは前処理された入力を予測するかどうかを調べます。

興味深いことに、両方の検出方法の予測可能性は、ネットワークの深さが増すにつれて徐々に向上します。この発見は、前処理された GD がモデル内に隠されていることを示唆しています。

理論的基盤があれば、徹底的な最適化を実行できます。

^。

研究では、学習された学習率だけでなく、構築にすべての自由度が使用される場合、トレーニング層を完全に適合させることができることがわかりました。 η、学習された初期重み W_0 のセットも含まれます。重要なのは、図 2 に示すように、学習されたワンステップアルゴリズムは依然として単一メサ層よりもはるかに優れたパフォーマンスを発揮することです。

単純な重み設定では、基本的な最適化を通じて、この層がここで検討したタスクを最適に解決できることが簡単にわかることがわかります。この結果は、メサ最適化に有利なハードコーディングされた誘導バイアスの利点を示しています。

#多層のケースに対する理論的な洞察をもとに、まず Transformer のみに焦点を当てて深い線形とソフトマックスを分析します。著者らは、W_0 = 0 の選択に対応する 4 チャネル構造理論的基盤があれば、徹底的な最適化を実行できます。

に従って入力をフォーマットします。

単層モデルの場合と同様に、著者らはトレーニングされたモデルの重みに明確な構造があることを確認しています。最初のリバースエンジニアリング分析として、この研究ではこの構造を利用し、レイヤーヘッダーごとに (3200 ではなく) 16 個のパラメーターを含むアルゴリズム (RevAlg-d、d はレイヤー数を表します) を構築します。著者らは、この圧縮されているが複雑な式でトレーニング済みモデルを記述できることを発見しました。特に、実際の Transformer と RevAlg-d のウェイト間の補間を、ほぼロスレスな方法で行うことができます。

RevAlg-d 式は、少数の自由パラメーターを使用してトレーニングされた多層 Transformer を説明していますが、これをメサ最適化アルゴリズムとして解釈するのは困難です。したがって、著者らは線形回帰プロービング分析 (Alain & Bengio、2017; Akyürek et al.、2023) を利用して、仮説的なメサ最適化アルゴリズムの特性を見つけました。

図 3 に示すディープ線形セルフアテンショントランスフォーマでは、両方のプローブが線形にデコードでき、デコードのパフォーマンスはシーケンスの長さとネットワークによって異なることがわかります。深さが増すにつれて増加します。したがって、ベース最適化は、メサ最適化問題の条件数を改善しながら、元のメサ目標 Lt (W) を層ごとに下降させるハイブリッドアルゴリズムを発見します。これにより、メサ対物レンズ Lt (W) が急激に減少します。また、深さが増加するとパフォーマンスが大幅に向上することもわかります。

したがって、自己回帰メサ目標 Lt (W) の急速な低下は、より適切な前処理データに対する段階的 (層間) メサ最適化によって達成されると考えられます。

理論的基盤があれば、徹底的な最適化を実行できます。 ^{# 図 3: リバースエンジニアリングで構築されたトークン入力のための多層トランスフォーマートレーニング。}

これは、トランスフォーマーが構築されたトークンでトレーニングされた場合、メサ最適化を使用して予測することを示しています。興味深いことに、シーケンス要素が直接与えられると、トランスフォーマーは要素をグループ化することで独自にトークンを構築します。これを研究チームは「メサデータセットの作成」と呼んでいます。＃＃＃＃＃＃＃＃＃＃＃＃結論は＃＃＃＃＃＃

この研究は、標準的な自己回帰目標の下でシーケンス予測タスクでトレーニングされた場合、Transformer モデルが勾配ベースの推論アルゴリズムを開発できることを示しています。したがって、マルチタスクのメタ学習設定で得られた最先端の結果を、従来の自己教師あり LLM トレーニング設定に転送することもできます。

さらに、この研究では、学習された自己回帰推論アルゴリズムを再トレーニングせずに教師あり文脈学習タスクを解決するために再利用できるため、単一の統一フレームワーク内で結果を解釈できることがわかりました。

理論的基盤があれば、徹底的な最適化を実行できます。

それでは、これはコンテキスト内学習とどのような関係があるのでしょうか?この研究では、自己回帰シーケンスタスクでトランスフォーマーをトレーニングした後、適切なメサ最適化が達成されるため、微調整を行わずに数ショットのコンテキスト学習を実行できると考えられています。

理論的基盤があれば、徹底的な最適化を実行できます。

この調査では、LLM にもメサ最適化が存在し、それによって文脈学習機能が向上すると仮定しています。興味深いことに、この研究では、プロンプトを LLM に効果的に適応させると、状況に応じた学習能力が大幅に向上する可能性があることも観察されました。

理論的基盤があれば、徹底的な最適化を実行できます。

興味のある読者は、論文の原文を読んで研究内容をさらに詳しく知ることができます。

^{参考コンテンツ:}

^{https://www.reddit. com/r/MachineLearning/comments/16jc2su/r_uncovering_mesaoptimization_algorithms_in/}

^{https://twitter.com/oswaldjoh/status/1701873029100241241}

以上が理論的基盤があれば、徹底的な最適化を実行できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIゲーム開発は、激動の夢想家ポータルでエージェントの時代に入りますMay 02, 2025 am 11:17 AM

激動ゲーム：AIエージェントとのゲーム開発に革命をもたらします BlizzardやObsidianなどの業界の巨人の退役軍人で構成されるゲーム開発スタジオであるUpheavalは、革新的なAIを搭載したPlatforでゲームの作成に革命をもたらす態勢を整えています。

UberはあなたのRobotaxiショップになりたいと思っています、プロバイダーはそれらを許可しますか？May 02, 2025 am 11:16 AM

UberのRobotaxi戦略：自動運転車用の乗車エコシステム最近のCurbivore Conferenceで、UberのRichard Willderは、Robotaxiプロバイダーの乗車プラットフォームになるための戦略を発表しました。で支配的な位置を活用します

ビデオゲームをプレイするAIエージェントは、将来のロボットを変革しますMay 02, 2025 am 11:15 AM

ビデオゲームは、特に自律的なエージェントと現実世界のロボットの開発において、最先端のAI研究のための非常に貴重なテストの根拠であることが証明されています。 a

スタートアップインダストリアルコンプレックス、VC 3.0、およびジェームズクーリエのマニフェストMay 02, 2025 am 11:14 AM

進化するベンチャーキャピタルの景観の影響は、メディア、財務報告、日常の会話で明らかです。ただし、投資家、スタートアップ、資金に対する特定の結果はしばしば見落とされています。ベンチャーキャピタル3.0：パラダイム

AdobeはAdobe Max London 2025でクリエイティブクラウドとホタルを更新しますMay 02, 2025 am 11:13 AM

Adobe Max London 2025は、アクセシビリティと生成AIへの戦略的シフトを反映して、Creative Cloud and Fireflyに大幅な更新を提供しました。この分析には、イベント以前のブリーフィングからの洞察がAdobeのリーダーシップを取り入れています。（注：ADOB

すべてのメタがラマコンで発表しましたMay 02, 2025 am 11:12 AM

MetaのLlamaconアナウンスは、Openaiのような閉じたAIシステムと直接競合するように設計された包括的なAI戦略を紹介し、同時にオープンソースモデルの新しい収益ストリームを作成します。この多面的なアプローチはBOをターゲットにします

AIは単なる通常のテクノロジーに過ぎないという提案に関する醸造論争May 02, 2025 am 11:10 AM

この結論に関して、人工知能の分野には深刻な違いがあります。「皇帝の新しい服」を暴露する時が来たと主張する人もいれば、人工知能は普通の技術であるという考えに強く反対する人もいます。それについて議論しましょう。この革新的なAIブレークスルーの分析は、AIの分野での最新の進歩をカバーする私の進行中のForbesコラムの一部です。一般的な技術としての人工知能第一に、この重要な議論の基礎を築くためには、いくつかの基本的な知識が必要です。現在、人工知能をさらに発展させることに専念する大量の研究があります。全体的な目標は、人工的な一般情報（AGI）を達成し、さらには可能な人工スーパーインテリジェンス（AS）を達成することです