


Byte Wanka クラスターの技術詳細が公開: GPT-3 トレーニングは 2 日で完了し、計算能力使用率は NVIDIA Megatron-LM を超えました
Sora の技術分析が進むにつれて、AI インフラストラクチャ の重要性がますます顕著になります。
Byte と北京大学の新しい論文がこの時点で注目を集めました:
この記事では、Byte によって構築された Wanka クラスター が ## 完全なGPT-3 スケール モデル (175B) を #1.75 日 以内にトレーニングします。
MegaScale と呼ばれる運用システムを提案しました。課題。
12288 GPU で 1750 億パラメータの大規模言語モデルをトレーニングした場合、MegaScale は 55.2%(MFU) という計算能力使用率を達成しました。これは、NVIDIA Megatron-LM の 1.34 倍です。
この論文は、2023 年 9 月の時点で、Byte が 10,000 枚を超えるカードを備えた Ampere アーキテクチャ GPU(A100/A800) クラスターを確立し、現在大規模なホッパーを構築していることも明らかにしました。アーキテクチャ (H100/H800)クラスター。
Wanka クラスターに適した制作システム大規模モデルの時代において、GPU の重要性はもはや説明する必要はありません。 しかし、カードの数がいっぱいになったときに大規模なモデルのトレーニングを直接開始することはできません。GPU クラスターの規模が「10,000」レベルに達したときに、効率と安定性を実現する方法 自体がエンジニアリング上の困難な問題です。
#最初の課題: 効率。
大規模な言語モデルのトレーニングは単純な並列タスクではありません。モデルを複数の GPU に分散する必要があり、これらの GPU はトレーニング プロセスを共同で進めるために頻繁に通信する必要があります。通信に加えて、オペレーターの最適化、データの前処理、GPU メモリ消費などの要素はすべて、トレーニング効率を測定する指標である計算能力使用率
(MFU)に影響を与えます。
MFU は、理論上の最大スループットに対する実際のスループットの比率です。2 番目の課題: 安定性。
大規模な言語モデルのトレーニングには非常に長い時間がかかることが多く、これはトレーニング プロセス中の失敗や遅延が珍しくないことも意味します。
障害のコストは高くつくため、障害回復時間をいかに短縮するかが特に重要になります。
これらの課題に対処するために、ByteDance の研究者は MegaScale を構築し、Byte のデータ センターに導入して、さまざまな大規模モデルのトレーニングをサポートしました。
MegaScale は、NVIDIA Megatron-LM に基づいて改良されました。
具体的な改善には、アルゴリズムとシステム コンポーネントの共同設計、通信と計算の重複の最適化、オペレーターの最適化、データ パイプラインの最適化、ネットワーク パフォーマンスが含まれます。チューニング等:
- アルゴリズムの最適化: 研究者は、トレーニングを改善するために、並列化された Transformer ブロック、スライディング ウィンドウ アテンション メカニズム(SWA)、および LAMB をモデル アーキテクチャ オプティマイザーに導入しました。モデルの収束を犠牲にすることなく効率を向上させます。
- #通信の重複: 3D 並列処理における各コンピューティング ユニットの動作の詳細な分析に基づく(データ並列処理、パイプライン並列処理、テンソル並列処理) 、研究者らは、非クリティカルな実行パスでの操作によって生じる遅延を効果的に削減し、モデル トレーニングの各ラウンドの反復時間を短縮するための技術戦略を設計しました。
- 効率的な演算子: GEMM 演算子が最適化され、LayerNorm や GeLU などの演算が統合されて、複数のコアの起動に伴うオーバーヘッドが削減され、メモリ アクセス パターンが最適化されました。
- データ パイプラインの最適化: 非同期データの前処理と冗長なデータ ローダーの排除を通じて、データの前処理とロードを最適化し、GPU のアイドル時間を削減します。
- 集団通信グループの初期化: 分散トレーニングにおける NVIDIA マルチカード通信フレームワーク NCCL の初期化プロセスを最適化しました。 最適化を行わない場合、2048 GPU クラスターの初期化時間は 1047 秒ですが、最適化後は 5 秒未満に短縮でき、Wanka GPU クラスターの初期化時間は 30 秒未満に短縮できます。
- ネットワーク パフォーマンス チューニング: 3D 並列処理でマシン間のトラフィックを分析し、ネットワーク トポロジ設計、ECMP ハッシュ競合の削減、輻輳制御など、ネットワーク パフォーマンスを向上させるための技術ソリューションを設計します。および再送信タイムアウトの設定。
- フォールト トレランス: Wanka クラスターでは、ソフトウェアとハードウェアの障害は避けられません。研究者らは、自動障害特定と迅速な回復を実現するためのトレーニング フレームワークを設計しました。具体的には、システムコンポーネントとイベントを監視する診断ツールの開発、チェックポイントの高頻度保存トレーニングプロセスの最適化などが含まれます。
論文アドレス: https://arxiv.org/abs/2402.15627
以上がByte Wanka クラスターの技術詳細が公開: GPT-3 トレーニングは 2 日で完了し、計算能力使用率は NVIDIA Megatron-LM を超えましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

Dreamweaver Mac版
ビジュアル Web 開発ツール
