ホームページ >テクノロジー周辺機器 >AI >線形化ラマ
この記事では、llama-3.2-1b言語モデルのソフトマックスの自己触たちを、ソフトマックスのスライドウィンドウと線形の注意を組み合わせたハイブリッドアプローチに置き換えることを調査します。 これは、大幅な精度の損失なしに推論速度を改善し、大規模な言語モデルを使用するコストを削減することを目的としています。
このプロジェクトは、「Lolcats:Low-Rank Linearizing of Lage Langualse Models」、「Mambaベースの言語モデルの経験的研究」、および「直線化の注意」の研究に基づいています。 事前に訓練されたLlamaモデルの自己関節層の50%を置き換えることに焦点を当てています。
プロセスは4つの部分に分かれています:
注意転送:
lora finetuning:
低ランク適応(LORA)が使用され、大規模なラマモデル内のハイブリッド注意ブロックを微調整します。 このステップでは、ハイブリッドブロックのパラメーターのトレーニングに焦点を当て、他のパラメーターを凍結し、Dolly-15Kデータセットを使用してテキスト生成のモデルを最適化します。評価:ハイブリッドモデルのパフォーマンスは、元のllama-3.2-1bモデルに対して評価されます。 ベンチマークは、推論速度(トークンごとに1秒あたりのトークンと秒)と精度(MMLUベンチマークを使用)に焦点を当てています。
結果は、ハイブリッドモデルがMMLUベンチマークで同等の精度を維持しながら、より長いシーケンスで大幅な速度改善を提供することを示しています。 ただし、この研究では、GPUハードウェアが速度測定と精度の両方の測定に大きな影響を与えることも強調されています。 ベンチマークの結果に対するさまざまなハードウェアの影響を調査するためのさらなる研究が提案されています。
結論は、LLM推論速度を改善するための費用対効果の高いアプローチとしてのハイブリッド注意メカニズムの可能性を強調しています。 また、この調査では、線形注意アーキテクチャのさらなる最適化の必要性と、モデルのパフォーマンスを評価する際のハードウェアの制限を考慮することの重要性についても指摘しています。 このプロジェクトのコードは、linearizing-llama-3.2-1b。
で入手できますライセンスリファレンス:
[1] FineWeb-Edu:ODC-by v1.0 [2] Dolly-15K:CC by-sa 3.0 [3] MMLU:MITライセンス
以上が線形化ラマの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。