Deepseekは#opensourceweekの2日目にここにあり、今日、彼らはMOEモデルのトレーニングと推論のためのオープンソースEPコミュニケーションライブラリであるDeepepを導入しました。今まで、私はDeepseekとOpenai、Metaなどの10億ドルのモデルに対する彼らの答えに完全に感銘を受けてきました。現在、彼らはAGIを探索する際にビルディングブロックをオープンソーシングしています。 5つのレポ(2つのリリースされた2)では、AIでの透明性、コミュニティコラボレーション、進歩へのコミットメントを紹介しています。
Deepseekの1日目のチームでは、Flashmlaをリリースし、Deepseek #opensourceweek 1日:Flashmlaのリリースで読むことができます。
今日、私たちはディープエップについて詳細に話します。
リリースの重要なハイライト
効率的で最適化されたすべてのコミュニケーション-
NVLINKおよびRDMA
では、イントロードとノードの両方がサポートされています
トレーニングと推論の整理のためのハイスループットカーネル-
推論デコードのための低遅延カーネル
-
ネイティブFP8ディスパッチサポート-
計算共産化のための柔軟なGPUリソース制御-
- 目次
deepep:MOEと専門家の並列性の最適化された通信ライブラリ
- なぜdeepseekがそれをオープンソーシングしているのですか?
- モデル
-
オープンソーシングディープエップはゲームチェンジャーであり、それが提供するものは何ですか?デコード- ネイティブfp8ディスパッチサポート
柔軟なGPUリソースコントロールのための柔軟なGPUリソースコントロールDeepep:MOEおよび専門家の並列性のための最適化された通信ライブラリ
- Deepepは、Experts(MOE)と専門家の並列処理(EP)のために特別に設計された高性能通信ライブラリです。 Moe Dispatch and Combineと呼ばれる非常に効率的なすべてのGPUカーネルを特徴としています。さらに、DeepepはFP8を含む低精度計算をサポートし、ディープラーニングワークロードの柔軟性を確保します。
deepseek-v3論文で導入されたグループ制限されたゲーティングアルゴリズムを補完するために、Deepepは、非対称ドメイン帯域幅の転送に合わせた特殊なカーネルを提供します。これらのカーネルは、NVLINKやRDMAなどのさまざまなハードウェアドメイン間のデータ転送を最適化し、トレーニングと推論の予定タスクの両方のスループットを最大化します。さらに、ライブラリには、ストリーミングマルチプロセッサ(SM)の使用を管理するための組み込みコントロールが含まれています。特にデコード中に超低遅延を必要とする推論シナリオの場合、DeepEPは、RDMAのみのカーネルの専用セットを統合して、通信の遅延を大幅に削減します。さらに、革新的なフックベースのアプローチを採用して、SMリソースを消費することなく、最適な効率を供給することなく、計算と通信を重複させます。
なぜdeepseekがそれをオープンソーシングしているのですか?
Deepseekのオープンソースのテクノロジーの決定は、すべての人が最先端のAIにアクセスできるようにすることです。イノベーションを共有することにより、医療、気候科学、防御など、業界全体の開発者、研究者、企業が境界を押し広げ、さらに高度なソリューションを構築することを可能にします。オープンアクセスは、コラボレーションを促進し、ブレークスルーを高速化し、AIの開発が選択された少数に限定されないようにします。
Deepepは、「MOEモデルトレーニングと推論のための最初のオープンソースEPコミュニケーションライブラリ」です。
そして最良の部分? DeepseekのツールはGitHubで利用でき、誰でも簡単にテクノロジーを探索し、貢献し、洗練させることができます。
さて、専門家(MOE)の混合物とは何かを理解しましょう
専門家(MOE)の混合物とは何ですか?
モデルのサイズは、その品質を決定する上で重要な役割を果たします。固定された計算予算では、一般に、より多くのステップでより小さなモデルではなく、より少ないステップでより大きなモデルをトレーニングする方が効果的です。これは、専門家の混合物(MOE)
の混合物が作用する場所です。これにより、計算効率を最適化しながらモデルが大幅にスケーリングできます。
MOEは、計算中にパラメーターのサブセットのみを選択的にアクティブにすることにより、モデルトレーニングと推論を最適化するように設計されたニューラルネットワークアーキテクチャです。これにより、計算コストが比例して増加することなく、はるかに大きなモデルを使用することができます。 MOEは、主に2つの重要なコンポーネント
で構成されています
-
まばらなmoe層 - これらは、従来の濃いフィードフォワードネットワーク(FFN)層に取って代わります。 MOEレイヤーは、単一のFFNの代わりに、複数の専門家(8つの個別のネットワークなど)で構成されています。各専門家は、通常はFFNであるスタンドアロンニューラルネットワークとして機能しますが、場合によっては、これらの専門家はより複雑な構造または階層oesでさえあります。
- RouterまたはGate Network - このメカニズムは、どのトークンがどの専門家に割り当てられるかを決定します。たとえば、特定のシーケンスでは、1つのトークンがExpert 2に向けられ、別のトークンは専門家1によって処理される場合があります。MOEの重要な設計の選択は、トークンが専門家に配布される方法です。ルーティングメカニズムは、モデルの残りの部分と一緒にトレーニングされる学習可能なパラメーターによって支配されます。
変圧器モデルでMOEはどのように働いていますか?
標準変圧器モデルでは、すべてのトークンが密なFFN層を介して処理されます。ただし、MOEモデルでは、これらの密なFFN層は、複数の専門家とゲーティングメカニズムで構成されるMOE層に置き換えられます。推論とトレーニング中、これらの専門家のサブセットのみがトークンごとにアクティブになり、モデル容量を維持しながら全体的な計算を減らします。
MOEモデルの利点
効率的な事前トレーニング - MOEは、密なモデルと比較して大幅に低い計算要件を持つ大規模なモデルを事前に取引することを可能にし、研究者は過度のハードウェアコストなしでモデルをより速く訓練できるようにします。
-
より高速な推論 - モデルのパラメーターの一部のみがいつでも使用されているため、推論は同等の合計サイズの密なモデルと比較してかなり効率的です。
- スケーラビリティ - MOEでは、研究者は密集したモデルと同じ計算予算内にとどまりながら、モデルサイズとデータセットサイズを増やすことができます。
専門家(MOE)の混合は、変圧器モデルを効率的にスケーリングするための強力なアプローチであり、計算コストを削減して大規模なモデルをトレーニングできるようにします。従来の密なFFN層をまばらなMOE層に置き換え、ルーティングメカニズムを利用することにより、これらのモデルは高いスケーラビリティと改善された推論速度を実現します。ただし、トレードオフには、メモリの要求の増加、トレーニングの複雑さ、効果的なルーティング戦略を設計するという課題が含まれます。研究が続くにつれて、MOEベースのアーキテクチャは、次世代のAIモデルで重要な役割を果たす可能性があります。ゲームチェンジャーはどのようにオープンソーシングディーププであり、それが提供するものは何ですか?
1。効率的かつ最適化されたすべてのコミュニケーション
MOEモデルを効率的にトレーニングおよび展開するには、ノード間のシームレスな通信が不可欠です。単一のマシン(イントラノード)および複数のマシン(節内)内で。 Deepepは、非常に最適化されたすべてのコミュニケーションでこの課題に対処し、高速かつ効率的なデータ転送を確保し、ボトルネックを最小限に抑え、パフォーマンスを最大化します。
2。 NVLINKおよびRDMAでイントラノードとノードをサポートします
Deepepは基本的な通信を超えており、NVLinkやRDMA(リモートダイレクトメモリアクセス)などの高度なテクノロジーを通じて、シームレスなイントラノードとノード接続を可能にします。 NVIDIAの高速相互接続であるNVLinkは、ノード内のデータ交換を加速し、RDMAはクロスノード転送の遅延を最小限に抑え、大規模なAIシステムの最適なパフォーマンスを確保します。これらのイノベーションは、共同で効率を再定義し、Deepepを次世代のAIワークロードのための強力なものにします。
3。トレーニングおよび推論の整理のためのハイスループットカーネル
Deepepは、大規模なデータを効率的に処理するように設計されています。高速カーネルは、データがシステムを介して移動する方法を最適化することにより、迅速なトレーニングを可能にします。推論の予約中、これらのカーネルは大きなバッチを迅速に処理し、ボトルネックなしでスムーズで効率的なパフォーマンスを確保します。
4。推論デコードのための低遅延カーネル
リアルタイムの予測に関しては、速度がすべてです。 Deepepの低遅延核は、推論デコード中の遅延を最小限に抑え、最小限の遅延でインスタント応答を提供します。これにより、迅速な意思決定とシームレスなユーザーエクスペリエンスを要求するアプリケーションに最適です。
5。ネイティブFP8ディスパッチサポート
Deepepは、組み込みのFP8(フローティングポイント8)サポートで際立っています。これは、AIモデルのスケーリングに最適です。 FP8を統合することにより、DeepSeekは、ライブラリが進化するAIハードウェアとアルゴリズムの前にとどまることを保証します。これは、より速いトレーニング、エネルギーコストの削減、および持続可能なAI開発へのより効率的な道を意味します。
6。計算コミュニケーションの重複のための柔軟なGPUリソース制御
Deepepは、同時の計算とデータ転送を有効にし、ダウンタイムを最小限に抑え、パフォーマンスを最大化することにより、GPU使用を最適化します。大規模なAIプロジェクトに最適であるため、研究者や企業が効率的にスケーリングしながら時間とコストを節約するのに役立ちます。
deepep yourselfを試してみてください
githubリポジトリにアクセス - deepepのソースコード、ドキュメント、およびgithubの例を見つけて、すぐに開始します。
ドキュメントを探索します - nvlink、rdma、fp8などのdeepepの主要な機能を明確で段階的なガイダンスで利用する方法を学びます。
最後に、任意のツールを活用してDeepepをテストおよび統合できます。
結論
Deepseekは、オープンソースウィークの2日目にDeepepをリリースしました。これは、専門家(MOE)モデルのトレーニングと推論の混合のためのゲームチェンジャーです。 Deepseekは、高性能でオープンソースEPコミュニケーションライブラリを提供しています。効率を高め、レイテンシを削減し、大規模なAIワークロードのリソース管理を改善します。 Deepepは、NVLink、RDMA、FP8、およびシームレスな計算コミュニケーションの重複をサポートしています。これにより、開発者と研究者がAIのイノベーションを促進することができます。 Deepseekのオープンソースのコミットメントにより、AGIの進行が高まります。最先端のAIツールをグローバルにアクセスしやすくします。
Deepseekの3日目のリリースに関する詳細な分析のためのToanalytics vidhyaブログ!
以上がDeepepは、Deepseekでオープンソースウィークの2日目にリリースされましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。