ホームページ >テクノロジー周辺機器 >AI >Byte Wanka クラスターの技術詳細が公開: GPT-3 トレーニングは 2 日で完了し、計算能力使用率は NVIDIA Megatron-LM を超えました
Sora の技術分析が進むにつれて、AI インフラストラクチャ の重要性がますます顕著になります。
Byte と北京大学の新しい論文がこの時点で注目を集めました:
この記事では、Byte によって構築された Wanka クラスター が ## 完全なGPT-3 スケール モデル (175B) を #1.75 日 以内にトレーニングします。
MegaScale と呼ばれる運用システムを提案しました。課題。
12288 GPU で 1750 億パラメータの大規模言語モデルをトレーニングした場合、MegaScale は 55.2%(MFU) という計算能力使用率を達成しました。これは、NVIDIA Megatron-LM の 1.34 倍です。
この論文は、2023 年 9 月の時点で、Byte が 10,000 枚を超えるカードを備えた Ampere アーキテクチャ GPU(A100/A800) クラスターを確立し、現在大規模なホッパーを構築していることも明らかにしました。アーキテクチャ (H100/H800)クラスター。
Wanka クラスターに適した制作システム大規模モデルの時代において、GPU の重要性はもはや説明する必要はありません。 しかし、カードの数がいっぱいになったときに大規模なモデルのトレーニングを直接開始することはできません。GPU クラスターの規模が「10,000」レベルに達したときに、効率と安定性を実現する方法 自体がエンジニアリング上の困難な問題です。
#最初の課題: 効率。
大規模な言語モデルのトレーニングは単純な並列タスクではありません。モデルを複数の GPU に分散する必要があり、これらの GPU はトレーニング プロセスを共同で進めるために頻繁に通信する必要があります。通信に加えて、オペレーターの最適化、データの前処理、GPU メモリ消費などの要素はすべて、トレーニング効率を測定する指標である計算能力使用率
(MFU)に影響を与えます。
MFU は、理論上の最大スループットに対する実際のスループットの比率です。2 番目の課題: 安定性。
大規模な言語モデルのトレーニングには非常に長い時間がかかることが多く、これはトレーニング プロセス中の失敗や遅延が珍しくないことも意味します。
障害のコストは高くつくため、障害回復時間をいかに短縮するかが特に重要になります。
これらの課題に対処するために、ByteDance の研究者は MegaScale を構築し、Byte のデータ センターに導入して、さまざまな大規模モデルのトレーニングをサポートしました。
MegaScale は、NVIDIA Megatron-LM に基づいて改良されました。
具体的な改善には、アルゴリズムとシステム コンポーネントの共同設計、通信と計算の重複の最適化、オペレーターの最適化、データ パイプラインの最適化、ネットワーク パフォーマンスが含まれます。チューニング等:
論文アドレス: https://arxiv.org/abs/2402.15627
以上がByte Wanka クラスターの技術詳細が公開: GPT-3 トレーニングは 2 日で完了し、計算能力使用率は NVIDIA Megatron-LM を超えましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。