DeepSeek-V3は1：マルチヘッドの潜在的な注意を説明しました-AI-php.cn

ホームページ

テクノロジー周辺機器

DeepSeek-V3は1：マルチヘッドの潜在的な注意を説明しました

PHPz

Feb 26, 2025 am 03:00 AM

deepseek-v3詳細な説明記事のシリーズ：雄牛の潜在的な注意メカニズム

この記事は、「Deepseek-V3の詳細な説明」シリーズの最初の記事です。

この一連の記事では、2つの主なトピックについて説明します。

に焦点を当てています。これは、もともとDeepSeek-V2の開発で提案され、DeepSeek-V3に適用されました。

カタログ：

背景：標準MHAから始めて、推論段階でキー価値キャッシュが必要な理由、MQAとGQAがそれを最適化しようとする方法、ロープの仕組みなどを説明します。

bules潜在的な注意メカニズム（MLA）：その動機を含むMLAへの詳細な紹介、ロープとパフォーマンスを切り離す必要がある理由。
参照。
背景

デコーダートランスのMHA

自己回帰テキスト生成の推論を高速化するためにMLAが開発されているため、このコンテキストで説明されているMHAはデコーダーのみの変圧器用です。

次の図は、デコード用の3つの変圧器アーキテクチャを比較します。ここで、（a）元の「注意が必要です」という論文で提案されているエンコーダーとデコーダーが表示されます。次に、[6]によってデコーダー部分が簡素化され、（b）に示されているデコーダーのみの変圧器モデルが得られます。これは後にGPT [8]などの多くの生成モデルで使用されました。

今日、大規模な言語モデルは、（c）に示されている構造をより安定したトレーニングのためにより頻繁に選択し、出力ではなく入力に正規化を適用し、layernormをRMS Normにアップグレードします。これは、この記事で説明するベースラインアーキテクチャとして機能します。

この文脈では、以下の図に示すように、MHAの計算は[6]のプロセスに大きく従います。

n_h

注意ヘッドがあり、各注意ヘッドの寸法が

d_h DeepSeek-V3 Explained 1: Multi-head Latent Attention として表現されているため、接続された寸法は（

h_n

・ DeepSeek-V3 Explained 1: Multi-head Latent Attention d_h）。 lレイヤーを持つモデルの場合、そのレイヤーのt番目のタグの入力を h_t dの場合、h_t

の寸法をdから（h_n ・d_h）から（dから（）にマッピングする必要があります。 より正式には、（[3]からのeq）：があります

DeepSeek-V3 Explained 1: Multi-head Latent Attention ここで、w^q、w^k、w^vは線形マッピング行列です：

マッピング後、

q_t DeepSeek-V3 Explained 1: Multi-head Latent Attention 、k_t、およびv_tをn_htに分割して、比例ドット生成物を計算しますここで、

w^o

は、寸法を逆にマッピングするために使用される別の投影マトリックスです（ DeepSeek-V3 Explained 1: Multi-head Latent Attention h_n ・d_h）d ：上記のeqn。（1）から（8）の説明は、単一のマーカーのみであることに注意してください。推論プロセス中に、新しく生成されたマークアップごとにこのプロセスを繰り返す必要があります。これには、多くの繰り返し計算が含まれます。これは、Key-Valueキャッシングと呼ばれる手法につながります。

キー値キャッシュ

名前が示すように、キーと値のキャッシングは、各デコードステップでそれらを再計算するのではなく、以前のキーと値をキャッシュおよび再利用することにより、自己網目プロセスをスピードアップするように設計された手法です。 DeepSeek-V3 Explained 1: Multi-head Latent Attention

トレーニング中に入力シーケンス全体を並列で処理する必要があるため、KVキャッシュは通常、推論フェーズでのみ使用されることに注意してください。

KVキャッシュは通常、ローリングバッファーとして実装されます。各デコードステップでは、新しいクエリQのみが計算され、新しいQと再利用KとVを使用して注意を計算するために、キャッシュに保存されているkとVが再利用されます。同時に、新しいタグ付きKとVもキャッシュに追加され、後で使用されます。

ただし、キーと値のキャッシュは通常

>バッチサイズ×シーケンス長×隠しサイズ×ヘッドカウント×これを大きくすると異なるため、キーと値のキャッシュによってもたらされる加速度はメモリの犠牲を払っています。バッチサイズまたはシーケンスが長くなると、メモリボトルネックを引き起こす可能性があります。

これは、この制限に対処するために設計された2つの手法にさらにつながります：マルチクエリの注意とグループクエリの注意。

多安定の注意（MQA）vs.グループクエリの注意（GQA）

次の図は、元のMHA、グループ化されたクエリの注意（GQA）[10]およびマルチクエリの注意（MQA）[9]の比較を示しています。

MQAの基本的なアイデアは、すべてのクエリヘッダーで単一キーとシングルバリューヘッダーを共有することです。これにより、メモリの使用量を大幅に削減できますが、注意の精度にも影響します。

GQAは、MHAとMQAの間の補間法と見なすことができます。ここでは、すべてのクエリではなく、1つのキーとバリューヘッダーのみが1つのクエリヘッダーセットのみで共有されます。しかし、これはまだMHAよりも悪い結果につながります。

後の章では、MLAがメモリ効率とモデリングの精度のバランスをとる方法を確認します。

ロープ（回転位置が埋め込まれている）

私たちが言及する必要がある最後の背景は、ロープ[11]です。これは、サイン関数を使用してマルチヘッド注意のクエリとキーベクトルを回転させることにより、注意メカニズムに位置情報を直接エンコードします。

より具体的には、ロープは各タグのクエリとキーベクトルに位置依存回転行列

を適用し、その基底として正弦材とコサイン関数を使用しますが、回転を実装するためのユニークな方法でそれらを適用します。それが位置に依存するものを理解するために、4つの要素、つまり（x_1、x_2、x_3、x_4）のみのおもちゃ埋め込みベクターを考慮してください。

ロープを塗るには、まず連続寸法をペアにグループ化します：

（x_1、x_2） - ＆gt;

ここで、θ=θ（p）=p⋅θ_0、θ_0は基本周波数

です。 4Dトイの例では、これは（x_1、x_2）がθ_0を回転させることを意味し、（x_3、x_4）は2⋅θ_0を回転させます。

これが、この回転マトリックス

位置関連

と呼ばれる理由です：各位置（または各ペア）で、回転角が位置によって決定される別の回転マトリックスを適用します。 DeepSeek-V3 Explained 1: Multi-head Latent Attention ロープは、長いシーケンスをエンコードする効率のために現代の大規模な言語モデルで広く使用されていますが、上記の式からわかるように、QとKの両方に位置的感度があり、これらの側面では互換性がありません。 MLAで。

bulesの潜在的な注意メカニズム

最後に、MLAセクションについて説明し続けることができます。このセクションでは、まずMLAの高度なアイデアについて詳しく説明し、次にロープの変更が必要な理由に飛び込みます。最後に、詳細なアルゴリズムとMLAのパフォーマンスも紹介します。

MLA：高度な思考

MLAの基本的な考え方は、注意入力を圧縮することです

h_t

寸法が

d_c

である低次元の潜在ベクトルに、ここで

d_c h_n

・ d_h）。後で、注意を計算する必要がある場合、この潜在的なベクトルを高次元の空間に戻してキーと値を復元することができます。したがって、潜在的なベクトルのみを保存する必要があるため、メモリの使用量が大幅に削減されます。 このプロセスは、次の方程式でより正式に記述できます。ここで、c^{kv} _tは潜在的なベクトルであり、w^{dkv} h_t の寸法は（h_n ・>

d_h

）からマッピングされます。「圧縮を意味し、 w^{uk}andw^{uv}はどちらも共有潜在性ベクトルを高次元空間に戻す上部投影行列です。 同様に、クエリを潜在的な低次元ベクトルにマップしてから、元の高次元空間に戻すことができます。

###なぜロープを切り離す必要があるのですか

前述のように、ロープは、長いシーケンスを処理するための生成モデルをトレーニングするための一般的な選択肢です。上記のMLAポリシーを直接適用すると、これはロープと互換性がありません。
これをより明確に見るために、eqnを使用して注意を計算したときに何が起こるかを検討します。マトリックス
w^q
およびw^{uk}は中央に表示され、それらの組み合わせはd_cからdから単一のものに相当します。マッピングディメンション。元の論文[3]で、著者はそれを w^{uk}と説明しています。キャッシュにw^{uk}を保存する必要はありません。これにより、メモリの使用量がさらに削減されます。
ただし、図（4）の回転マトリックスを考慮した場合は、これはそうではありません。なぜなら、ロープは
w^{uk}の左に回転行列を適用し、この回転マトリックスは最終的にはw^qと w^{uk}の間に配置されています。 バックグラウンドセクションで説明したように、この回転マトリックスは位置に依存します。つまり、各位置の回転マトリックスは異なります。したがって、w^{uk} **
は
w^q ********************で吸収できません。 ****************************************長くw^q **で吸収されます。 この競合を解決するために、著者は、追加のクエリベクトルと共有キーベクトルを導入し、これらの追加ベクトルをローププロセスでのみ使用することにより、「分離ロープ」と呼ばれるものを提案しました。同時に、元のキーを回転マトリックスからある程度隔離します。

MLAプロセス全体を次のように要約することができます（方程式数は[3]の付録Cから再利用されます）： ここで、

eqn（37）から（40）クエリタグの処理方法を説明します。 eqn（41）と（42）。 eqn（43）と（44）は、ロープに追加の共有キーを使用する方法を説明しています。

eqn。

このプロセスでは、青い変数をボックスでキャッシュするだけが必要です。このプロセスは、次のフローチャートをより明確に説明できます。
### MLAのパフォーマンス

次の表は、KVキャッシュ（タグごと）に必要な要素の数と、MHA、GQA、MQA、MLAのモデリング機能を比較しています。

興味深いことに、MLAのモデリング機能は元のMHAのモデリング能力を上回っています。

より具体的には、次の表は、7BモデルでのMHA、GQA、およびMQAのパフォーマンスを示しています。MHAはMQAおよびGQAよりもパフォーマンスが大幅に向上しています。

[3]の著者もMHAとMLAを分析し、結果を以下の表にまとめています。MLAは全体的により良い結果を達成しました。

参照

[1] deepseek

[2] Deepseek-V3テクニカルレポート

[3] DeepSeek-V2：強力で費用対効果の高いハイブリッド専門家言語モデル

[4] deepseekmoe：ハイブリッド専門家言語モデルの最終専門家の専門化に向けて

[5]ハイブリッドエキスパートモデルのためのアシストの損失負荷負荷バランス戦略

[6]注意が必要なのは
です
[7]長いシーケンスを要約することにより、ウィキペディアを生成します

[8]生成前のトレーニングを通じて言語の理解を改善します

[9]高速トランスデコード：書き込みヘッドは十分です

[10] GQA：マルチヘッドチェックポイントから一般化されたマルチクエリトランスモデルをトレーニング

[11] Roformer：回転位置が埋め込まれた強化された変圧器

以上がDeepSeek-V3は1：マルチヘッドの潜在的な注意を説明しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

個人的なハッキングはかなり激しいクマになりますMay 11, 2025 am 11:09 AM

サイバー攻撃が進化しています。一般的なフィッシングメールの時代は終わりました。サイバー犯罪の将来は超個人化されており、高度にターゲットを絞った攻撃を作成するために、容易に利用可能なオンラインデータとAIを活用しています。あなたの仕事を知っている詐欺師を想像してください、あなたのf

教皇レオXIVは、AIが彼の名前の選択にどのように影響したかを明らかにしますMay 11, 2025 am 11:07 AM

枢機of大学への彼の就任演説では、シカゴ生まれのロバート・フランシス・プレボスト、新たに選出された教皇レオ14世は、彼の同名の教皇レオXIIIの影響について議論しました。

初心者および専門家向けのFastapi -MCPチュートリアル-Analytics VidhyaMay 11, 2025 am 10:56 AM

このチュートリアルでは、モデルコンテキストプロトコル（MCP）とFastAPIを使用して、大規模な言語モデル（LLM）と外部ツールを統合する方法を示しています。 FastAPIを使用して簡単なWebアプリケーションを構築し、それをMCPサーバーに変換し、Lを有効にします

DIA-1.6B TTS：最高のテキストからダイアログの生成モデル - 分析VidhyaMay 11, 2025 am 10:27 AM

DIA-1.6Bを探索：資金がゼロの2人の学部生によって開発された画期的なテキストからスピーチモデル！この16億個のパラメーターモデルは、笑い声やくしゃみなどの非言語的手がかりを含む、非常に現実的なスピーチを生成します。この記事ガイド

AIがメンターシップをこれまで以上に意味のあるものにする3つの方法May 10, 2025 am 11:17 AM

私は心から同意します。私の成功は、メンターの指導に密接に関連しています。特にビジネス管理に関する彼らの洞察は、私の信念と実践の基盤を形成しました。この経験は、メンターへの私のコミットメントを強調しています

AIは、鉱業で新しい可能性を発掘しますMay 10, 2025 am 11:16 AM

AIはマイニング機器を強化しました採掘操作環境は厳しく危険です。人工知能システムは、最も危険な環境から人間を排除し、人間の能力を高めることにより、全体的な効率とセキュリティを改善するのに役立ちます。人工知能は、マイニング操作で使用される自動運転トラック、ドリル、ローダーの電源にますます使用されています。これらのAI搭載車両は、危険な環境で正確に動作し、それにより安全性と生産性が向上します。一部の企業は、大規模な鉱業作業のために自動鉱業車両を開発しています。挑戦的な環境で動作する機器には、継続的なメンテナンスが必要です。ただし、メンテナンスは重要なデバイスをオフラインに保ち、リソースを消費する可能性があります。より正確なメンテナンスとは、高価で必要な機器の稼働時間が増加し、大幅なコスト削減を意味します。 AI駆動型

AIエージェントが25年で最大の職場革命を引き起こす理由May 10, 2025 am 11:15 AM

SalesforceのCEOであるMarc Benioffは、AIエージェントが推進する記念碑的な職場革命、Salesforceとその顧客ベース内ですでに進行中の変革を予測しています。彼は、従来の市場から、に焦点を当てた非常に大きな市場への移行を想定しています

ai hrは、aiの養子縁組が舞い上がるので私たちの世界を揺るがそうとしていますMay 10, 2025 am 11:14 AM

HRでのAIの台頭：ロボットの同僚との労働力をナビゲートする AIと人事（HR）への統合は、もはや未来の概念ではありません。急速に新しい現実になりつつあります。このシフトは、人事の専門家と従業員の両方のDEMに影響を与えます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

WebStorm Mac版

便利なJavaScript開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。