ホームページ >テクノロジー周辺機器 >AI >Deepseekがリリースした最適化された並列処理戦略
階層ロードバランシンググローバル負荷分散dualpipe - V3/R1トレーニングでの計算共産化のオーバーラップのための双方向パイプライン並列系アルゴリズム。 https://t.co/gbtxsvwlt4
eplb - v3/r1。
このリリースは、1日目のFlashMLの発売の成功、2日目のDeepep、およびDeepGemmの3日目の発売に続いて、オープンソースウィークのお祝いの4日目をマークします。 目次
技術的な詳細
デュアルパイプは、洗練された双方向パイプライン並列系アルゴリズムであり、前方と後方の計算コミュニケーションフェーズ間のオーバーラップを最大化することを目的としています。このアプローチは、パイプラインの泡を減らすのに特に有益であり、トレーニングの効率を大幅に妨げる可能性があります。
バブル
Method | Bubble | Parameter | Activation |
1F1B | (PP-1)(? ?) | 1× | PP |
ZB1P | (PP-1)(? ?-2?) | 1× | PP |
DualPipe | (PP/2-1)(?&? ?-3?) | 2× | PP 1 |
ここで:
の例8 pp(パイプライン並列性)ランクと20のマイクロバッチのデュアルパイプスケジューリング構成、2つの方向に焦点を当てています。逆方向に処理されたマイクロバッチは、前方向のマイクロバッチをミラーリングし、図を簡素化するためにバッチ識別子を省略することができます。一般的な黒い境界線を共有する2つのセルが、計算と通信のタスクの重複に関与しています。
詳細については、dualpipe githubリポジトリをご覧ください
eplb:Expert-Parallel Load Balancerキー機能
サーバーノードの数がエキスパートグループカウントに均等に分割されると、階層ロードバランシングポリシーがアクティブになります。この戦略は、バランスの取れた負荷分布を促進する方法で最初に専門家グループをノードに編成することにより、グループ制限された専門家ルーティングを活用します。その後、各ノード内で専門家の複製が発生し、負荷平衡を維持します。最終的に、これらの複製された専門家は個々のGPUに割り当てられ、それにより異なるGPUで負荷バランスを達成します。階層的な負荷分散ポリシーは、より小さなエキスパートパラレルサイズを扱うときのプレフィング段階に特に適しています。
逆に、サーバーノードのカウントが専門家グループを分割しない場合、グローバルロードバランシングポリシーが実装されます。このアプローチには、専門家グループ内でのグループ化に関係なく、専門家のグローバルな複製が含まれます。複製に続いて、専門家は個々のGPUに均等に分布し、GPU全体で負荷バランスが維持されるようにします。グローバルロードバランシングポリシーは、より大きなエキスパート並列サイズを処理するときにデコード段階で適用されます。
の例コード:
import torch import eplb weight = torch.tensor([[ 90, 132, 40, 61, 104, 165, 39, 4, 73, 56, 183, 86], [ 20, 107, 104, 64, 19, 197, 187, 157, 172, 86, 16, 27]]) num_replicas = 16 num_groups = 4 num_nodes = 2 num_gpus = 8 phy2log, log2phy, logcnt = eplb.rebalance_experts(weight, num_replicas, num_groups, num_nodes, num_gpus) print(phy2log)
output:
tensor([[ 5, 6, 5, 7, 8, 4, 3, 4, 10, 9, 10, 2, 0, 1, 11, 1], [ 7, 10, 6, 8, 6, 11, 8, 9, 2, 4, 5, 1, 5, 0, 3, 1]])
詳細な実装手順については、EPLB GitHubリポジトリを参照してください。
プロファイリングデータ:計算とコミュニケーションのオーバーラップの分析V3/R1の計算共産化の重複を効果的に分析するために、プロファイリングデータは重要な洞察を提供します。パフォーマンスとトレーニングプロセスの最適化のボトルネックは、このデータを使用して理解できます。
包括的な分析:このアプローチは、計算段階と通信フェーズの広範な評価を提供し、システムパフォーマンスメトリックの深い理解を促進します。
デュアルパイプとEPLBの実用的なアプリケーションは、自然言語処理、コンピュータービジョン、補強学習などの多様な分野で奨励される結果を実証しています。トレーニングプロセスを改善することにより、これらの方法論は、迅速なモデルの収束と高度化された精度を促進し、研究者と実践者の両方にとって不可欠な手段であることが証明されました。
将来の方向結論
以上がDeepseekがリリースした最適化された並列処理戦略の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。