ホームページ >テクノロジー周辺機器 >AI >直線化注意
大規模な言語モデル(LLMS)はExcelですが、ソフトマックスの注意メカニズムは計算ボトルネックを提示します。この記事では、線形時間の複雑さを実現するための代替案を探ります
SoftMaxは、類似性スコアを確率に変換します。
単一の注意層の計算コストは次のとおりです
ソフトマックスの二次の複雑さ(O(n²))は、長いシーケンス(n>> 100k)で禁止されます。
線形注意:解決策?
Katharopoulos et al。によって提案された線形の注意は、線形計算を有効にするソフトマックス指数をカーネル関数として巧妙に書き直します。 変換は以下に示されています:
関数は指数に近似します。計算コストは次のとおりです
これは、n>>>の場合、線形(o(nd²))です。 D、LLMSの一般的なシナリオ。 再発ビューは次のとおりです
elu(x) 1
SoftMaxの分離性は、この線形化を防ぎます。 デコード中、S
(n-1)は、コンテキスト保持を制限します
ゲート線形注意:戦略的メモリ
ゲート線形注意情報を選択的に保持することにより、メモリの制限に対処します。 重要な変化は、S_N:の定式化です
さまざまなゲーティング機能(g)が存在し、それぞれが異なるモデルにつながります:
状態空間モデル:畳み込みアプローチ
状態空間モデル(SSM)は、CNNSプロセス画像のようなシーケンスを扱う異なる視点を提供します。 このモデルは、離散線形時間不変システムです:
これは畳み込みに関連しています:
H3は、2つの相補的なSSMレイヤーを使用します:
SSMSの固定パラメーターは、適応性を制限します。 SELECTIVE SSMは、システムをデータ依存性にすることにより、これに対処します
MAMBAは、出力ゲーティングと畳み込みを備えた選択的SSMを使用します:
参考文献:
Katharopoulos et al。 (2020)
、Yang et al。 (2023)、Fu et al。 (2022)、gu&dao(2023)、Waleffe et al。 (2024)。 (注:完全な引用は簡潔にして省略されていますが、元の入力で利用できます。) 謝辞:
(承認セクションは変更されません。)以上が直線化注意の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。