ホームページ >テクノロジー周辺機器 >AI >コンテキスト学習の背後にある数学

コンテキスト学習の背後にある数学

王林
王林オリジナル
2025-02-26 00:03:10645ブラウズ

最新の大手言語モデル(LLMS)の重要な機能である

コンテキスト学習(ICL)は、入力プロンプト内の例に基づいてトランスを適応させることができます。 いくつかのショットプロンプトは、いくつかのタスクの例を使用して、望ましい動作を効果的に実証します。 しかし、トランスフォーマーはこの適応をどのように達成しますか?この記事では、ICLの背後にある潜在的なメカニズムについて説明します

The Math Behind In-Context Learning

ICLのコアは次のとおりです。例のペア((x、y))の場合、注意メカニズムはアルゴリズムを学習して、新しいクエリ(x)の出力(y)?

に新しいクエリ(x)をマッピングできます。

SoftMaxの注意と最近隣の検索

SoftMaxの注意式は

です

The Math Behind In-Context Learning

逆温度パラメーターの導入

c は、注意割り当てを変更します:

The Math Behind In-Context Learning

cが無限に近づくにつれて、注意は1ホットのベクトルになり、最も類似したトークンのみに焦点を当てます。 有限cでは、注意はガウスカーネルの平滑化に似ています。 これは、ICLが入出力ペアに最も近い隣接アルゴリズムを実装する可能性があることを示唆しています。 意味とさらなる研究

トランスがどのように学習するかを理解する(最近隣人のように)Automlのドアを開く。 Hollmann et al。合成データセットで変圧器をトレーニングして、Automlパイプライン全体を学習し、1回のパスで新しいデータから最適なモデルとハイパーパラメータを予測しました。

Anthropicの2022年の研究は、メカニズムとして「誘導ヘッド」を示唆しています。 これらの注意ヘッドのペアコピーと完全なパターン。たとえば、「... a、b ... a」を与えられた場合、彼らは以前のコンテキストに基づいて「b」を予測します。

最近の研究(Garg etal。2022、Oswald etal。2023)は、変圧器のICLを勾配降下にリンクします。 SoftMax操作を省略する線形注意:

は、前処理された勾配降下(PGD)に似ています:

The Math Behind In-Context Learning

線形注意の1つの層が1つのPGDステップを実行します。

The Math Behind In-Context Learning結論

注意メカニズムは、学習アルゴリズムを実装し、デモンストレーションペアから学習することでICLを有効にすることができます。複数の注意層とMLPの相互作用は複雑ですが、研究はICLのメカニズムに光を当てています。この記事では、これらの洞察の高レベルの概要を説明しています

さらなる読み取り:

  • コンテキスト内学習および誘導ヘッド
  • 変圧器はコンテキスト内を何を学ぶことができますか?単純な関数クラスのケーススタディ
  • トランスは、勾配降下によってコンテキスト内を学習します
  • トランスフォーマーは、コンテキスト内学習のために前処理された勾配降下を実装することを学びます

謝辞

この記事は、ミシガン大学での2024年秋の卒業生授業に触発されています。 エラーは著者のみです

以上がコンテキスト学習の背後にある数学の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。