線形化ラマ

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル
2025-02-25 18:38:08167ブラウズ

この記事では、llama-3.2-1b言語モデルのソフトマックスの自己触たちを、ソフトマックスのスライドウィンドウと線形の注意を組み合わせたハイブリッドアプローチに置き換えることを調査します。 これは、大幅な精度の損失なしに推論速度を改善し、大規模な言語モデルを使用するコストを削減することを目的としています。

このプロジェクトは、「Lolcats:Low-Rank Linearizing of Lage Langualse Models」、「Mambaベースの言語モデルの経験的研究」、および「直線化の注意」の研究に基づいています。 事前に訓練されたLlamaモデルの自己関節層の50%を置き換えることに焦点を当てています。

プロセスは4つの部分に分かれています:

    ハイブリッドの注意ブロック:
  • このセクションでは、スライドウィンドウと線形注意メカニズムを組み合わせたカスタム注意ブロックの作成を詳しく説明し、学習可能な要因を使用して貢献のバランスを取ります。 スライディングウィンドウアプローチは、指定されたウィンドウサイズに注意を払って、効率を向上させます。以前のトークンに適用された線形注意は、計算をさらに最適化します

    注意転送:
  • この段階では、「lolcats」方法論を活用します。 元のLlamaの注意ブロックの重みは、ハイブリッドブロックの初期化に使用されます。 トレーニングには、トレーニング入力によるフォワードパス、元のブロック出力とハイブリッドブロックの間のMSE損失の計算、およびハイブリッドブロックを微調整して元の動作を模倣します。
  • lora finetuning:

    低ランク適応(LORA)が使用され、大規模なラマモデル内のハイブリッド注意ブロックを微調整します。 このステップでは、ハイブリッドブロックのパラメーターのトレーニングに焦点を当て、他のパラメーターを凍結し、Dolly-15Kデータセットを使用してテキスト生成のモデルを最適化します。
  • 評価:ハイブリッドモデルのパフォーマンスは、元のllama-3.2-1bモデルに対して評価されます。 ベンチマークは、推論速度(トークンごとに1秒あたりのトークンと秒)と精度(MMLUベンチマークを使用)に焦点を当てています。

  • 結果は、ハイブリッドモデルがMMLUベンチマークで同等の精度を維持しながら、より長いシーケンスで大幅な速度改善を提供することを示しています。 ただし、この研究では、GPUハードウェアが速度測定と精度の両方の測定に大きな影響を与えることも強調されています。 ベンチマークの結果に対するさまざまなハードウェアの影響を調査するためのさらなる研究が提案されています。

Linearizing Llama

結論は、LLM推論速度を改善するための費用対効果の高いアプローチとしてのハイブリッド注意メカニズムの可能性を強調しています。 また、この調査では、線形注意アーキテクチャのさらなる最適化の必要性と、モデルのパフォーマンスを評価する際のハードウェアの制限を考慮することの重要性についても指摘しています。 このプロジェクトのコードは、linearizing-llama-3.2-1b

で入手できます

ライセンスリファレンス:

[1] FineWeb-Edu:ODC-by v1.0 [2] Dolly-15K:CC by-sa 3.0 [3] MMLU:MITライセンス

以上が線形化ラマの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。