AIGCの推進に適したネットワークの特徴は何でしょうか？-AI-php.cn

ホームページ

テクノロジー周辺機器

AIGCの推進に適したネットワークの特徴は何でしょうか？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 22, 2023 pm 03:43 PM

通信網aigcデジタル化

2023 年は、AI 人工知能技術が爆発的に普及する年です。

ChatGPT、GPT-4、Wen Xinyiyan に代表される AIGC 大型モデルは、テキスト作成、コード開発、詩作成などの機能を 1 つに統合し、強力なコンテンツ制作能力を示し、人々に大きな衝撃を与えます。

通信のベテランとして、Xiao Zaojun は、AIGC モデル自体に加えて、モデルの背後にある通信テクノロジにも関心を持っています。 AIGCの運営を支える強力なネットワークとはどのようなものなのでしょうか？また、AIの波は従来のネットワークにどのような変化をもたらすのでしょうか？

█ AIGC、どれくらいの計算能力が必要ですか?

ご存知のとおり、データ、アルゴリズム、コンピューティング能力は、人工知能の開発の 3 つの基本要素です。

AIGCの推進に適したネットワークの特徴は何でしょうか？

前述した AIGC の大規模モデルが非常に強力であるのは、背後に大量のデータが供給されているためだけでなく、アルゴリズムが常に進化し、アップグレードされているためでもあります。さらに重要なことは、人間のコンピューティング能力の規模がある程度まで発達したことです。強力なコンピューティングインフラストラクチャは、AIGC のコンピューティングニーズを完全にサポートできます。

AIGC の発展により、トレーニングモデルのパラメータは数千億から兆へと急増しました。このような大規模なトレーニングを完了するために、基盤層でサポートされる GPU の数も 10,000 枚の規模に達しました。

ChatGPT を例に挙げると、トレーニングには Microsoft のスーパーコンピューティングインフラストラクチャが使用され、高帯域幅クラスターを形成したと言われています。 1 回のトレーニングには約 3640 PF 日の計算能力が必要です (つまり、1 秒あたり 1,000 兆回の計算を 3640 日間実行します)。

V100 の FP32 演算能力は 0.014 PFLOPS (演算能力単位、1 秒あたり 1 京回の浮動小数点演算に相当) です。 V100 が 1 万個、つまり 140 PFLOPS です。

つまり、GPU 使用率が 100% の場合、トレーニングセッションを完了するには 3640 ÷ 140 = 26 (日) かかります。

GPU 使用率が 100% に達することは不可能で、33% (OpenAI が提供する想定使用率) として計算すると、26 倍 3 回、つまり 78 日に相当します。

GPU の計算能力と GPU 使用率が大規模モデルのトレーニングに大きな影響を与えることがわかります。

それでは、GPU 使用率に影響を与える最大の要因は何でしょうか?

答えは「インターネット」です。

コンピューティングクラスターとしての 1 万または数万の GPU は、ストレージクラスターと対話するために大量の帯域幅を必要とします。さらに、GPU クラスターがトレーニング計算を実行するとき、それらは独立ではなく、混合され、並列されます。 GPU 間で大量のデータ交換が行われるため、膨大な帯域幅も必要になります。

ネットワークが強くなく、データ送信が遅い場合、GPU はデータを待機する必要があり、その結果、使用率が低下します。使用率が低下すると、トレーニング時間が増加し、コストが増加し、ユーザーエクスペリエンスが低下します。

業界はかつて、以下の図に示すように、ネットワーク帯域幅のスループット、通信遅延、GPU 使用率の関係を計算するモデルを作成しました:

AIGCの推進に適したネットワークの特徴は何でしょうか？

ご覧のとおり、ネットワークスループットが強いほど、GPU の使用率が高くなります。使用率使用率が高くなるほど、通信の動的遅延が大きくなり、GPU 使用率は低くなります。

一言で言えば、優れたネットワークなしで大きなモデルを操作しないでください。

█ AIGCの運営をサポートできるネットワークはどのようなものですか?

AI クラスターコンピューティングによるネットワーク調整に対処するために、業界もさまざまな方法を考えてきました。

従来の主な対応戦略には、Infiniband、RDMA、モジュラースイッチの 3 つがあります。それぞれについて簡単に見てみましょう。

Infiniband ネットワーキング

Infiniband (直訳すると「無限帯域」技術、略称 IB) ネットワークは、データ通信に携わる子供たちにとって馴染みのあるものであるはずです。

これは、現在、高性能ネットワークを構築するための最良の方法であり、非常に高い帯域幅を備え、輻輳がなく、低遅延を実現できます。 ChatGPT と GPT-4 が使用しているのは Infiniband ネットワークであると言われています。

Infiniband ネットワークに欠点があるとすれば、それは一言で言えば、高価です。従来のイーサネットネットワーキングと比較すると、Infiniband ネットワーキングのコストは数倍高価になります。このテクノロジーは現在、業界に成熟したサプライヤーが 1 社しかなく、ユーザーには選択肢がほとんどありません。

RDMAネットワーク

RDMAの正式名称はRemote Direct Memory Accessです。新しいタイプの通信メカニズムです。 RDMA ソリューションでは、アプリケーションデータは CPU や複雑なオペレーティングシステムを経由せず、ネットワークカードと直接通信するため、スループットが大幅に向上するだけでなく、遅延も短縮されます。

AIGCの推進に適したネットワークの特徴は何でしょうか？

RDMA が最初に提案されたとき、それは InfiniBand ネットワーク上で運ばれました。現在、RDMA は徐々にイーサネットに移植されています。

現在、高性能ネットワーク向けの主流のネットワーキングソリューションは、RoCE v2 (RDMA over Converged Ethernet、RDMA based on Converged Ethernet) プロトコルに基づく RDMA をサポートするネットワークを構築することです。

このソリューションには、PFC (Priority Flow Control、優先度ベースのフロー制御) と ECN (Explicit Congestion Notification、明示的な輻輳通知) という 2 つの重要なマッチングテクノロジーが含まれています。これらはリンクの輻輳を回避するために作成されたテクノロジーですが、頻繁にトリガーされると、送信側が送信を一時停止したり、送信速度が低下したりして、通信帯域幅が減少します。 (それらについては後述します)

フレームスイッチ

一部の外国インターネット企業は、高性能ネットワーク構築の要件を満たすためにフレームスイッチ (DNX チップ + VOQ テクノロジー) の使用を望んでいます。

DNX：broadcom（ブロードコム）のチップシリーズ

VOQ：Virtual Output Queue、仮想出力キュー

この解決策は実現可能に見えますが、次のような課題にも直面しています。

まず第一に、モジュラースイッチの拡張機能は平均的です。シャーシのサイズにより、ポートの最大数が制限されます。より大きなクラスターを構築する場合は、複数のシャーシにわたって水平に拡張する必要があります。

第二に、モジュラースイッチの機器は大量の電力を消費します。シャーシには多数のラインカードチップ、ファブリックチップ、ファンなどが搭載されており、1 台のデバイスの消費電力は 20,000 ワットを超え、中には 30,000 ワットを超えるものもあります。高すぎる。

3 番目に、モジュラースイッチには多数の単一デバイスポートと大規模なフォールトドメインがあります。

上記の理由に基づいて、モジュラースイッチ機器は AI コンピューティングクラスターの小規模な展開にのみ適しています。

█ DDC とは正確には何ですか

上記のものはすべて従来のソリューションです。これらの従来の解決策は機能しないため、当然のことながら、新しい方法を見つける必要があります。

そこで、DDC と呼ばれるまったく新しいソリューションがデビューしました。

DDC、正式名は Distributed Disaggregated Chassis です。

フロントシャーシスイッチの「分割バージョン」です。モジュラースイッチの拡張性は不十分なので、単純に分解して1つのデバイスを複数のデバイスにできますか？

AIGCの推進に適したネットワークの特徴は何でしょうか？

フレームタイプの機器は、通常、スイッチングネットワークボード (バックプレーン) とサービスラインカード (ボードカード) の 2 つの部分に分かれており、それぞれがコネクタで接続されます。

DDC ソリューションは、スイッチングネットワークボードを NCF 機器に、ビジネスラインカードを NCP 機器に変えます。コネクタが光ファイバーになります。モジュラーデバイスの管理機能も、DDC アーキテクチャでは NCC になります。

NCF: ネットワーククラウドファブリック (ネットワーククラウド管理コントロールプレーン)

NCP: ネットワーククラウドパケット処理 (ネットワーククラウドパケット処理)

NCC: ネットワーククラウドコントローラー (ネットワーククラウドコントローラー)

DDC 後集中型から分散型に変更され、拡張性が大幅に強化されました。 AIクラスターの規模に応じてネットワーク規模を柔軟に設計できます。

2 つの例 (単一 POD ネットワーキングとマルチ POD ネットワーキング) を挙げてみましょう。

単一の POD ネットワークでは、96 個の NCP がアクセスポイントとして使用され、そのうち NCP には合計 18 個の 400G ダウンストリームインターフェイスがあり、AI コンピューティングクラスターのネットワークカードの接続を担当します。アップリンクには合計 40 の 200G インターフェイスがあり、最大 40 の NCF が接続可能で、この規模のアップリンクとダウンリンクの帯域幅は 1.1:1 になります。 POD 全体は 1,728 個の 400G ネットワークインターフェイスをサポートできます。8 個の GPU を搭載したサーバーに基づいて計算すると、216 台の AI コンピューティングサーバーをサポートできます。

AIGCの推進に適したネットワークの特徴は何でしょうか？

単一PODネットワーキング

マルチレベルPODネットワーキング、規模が大きくなる可能性があります。

マルチレベル POD ネットワークでは、NCF デバイスは第 2 レベルの NCF に接続するために SerDes の半分を犠牲にする必要があります。したがって、現時点では、単一の POD はアクセスに 48 個の NCP を使用し、ダウンリンクには合計 18 個の 400G インターフェイスが使用されます。

AIGCの推進に適したネットワークの特徴は何でしょうか？

複数の POD ネットワーキング

単一の POD は 864 の 400G インターフェイス (48×18) をサポートできます。 POD（8個）を水平に追加することで規模を拡張でき、システム全体で最大6912個の400Gネットワークポート（864×8）をサポートできます。

NCP には 40 の 200G アップリンクがあり、POD 内の 40 の NCF に接続します。 POD の NCF は 48 の 200G インターフェイスを使用し、48 の 200G インターフェイスは第 2 レベルの NCF の上流で 12 個のグループに分割されます。第 2 レベルの NCF は 40 個のプレーン (プレーン) を使用し、各プレーンには 4 つの NCF-P があり、POD 内の 40 個の NCF に対応します。

ネットワーク全体の POD 内で 1.1:1 (ノースバウンド帯域幅がサウスバウンド帯域幅より大きい) のオーバースピード比を達成し、POD とセカンダリ NCF 帯域幅)。

AIGCの推進に適したネットワークの特徴は何でしょうか？

█ DDCの技術的特徴

規模と帯域幅スループットの観点から見ると、DDCはすでにAI大規模モデルトレーニングのネットワーク要件を満たすことができます。

しかし、ネットワークの運用プロセスは複雑であり、DDCも遅延耐性、負荷分散、管理効率の点で改善が必要です。

パケット損失に対処するためのVOQ+セル転送メカニズムに基づいています

ネットワークの動作プロセス中に、バーストトラフィックが発生し、受信側で処理する時間がなくなり、輻輳が発生する可能性がありますそしてパケットロス。

この状況に対処するために、DDC は VOQ+Cell に基づく転送メカニズムを採用しています。

AIGCの推進に適したネットワークの特徴は何でしょうか？

送信者がネットワークからデータパケットを受信した後、それはストレージのためにVOQ（仮想出力キュー）に分類されます。

データパケットを送信する前に、NCP はまずクレジットメッセージを送信して、受信側にこれらのメッセージを処理するのに十分なバッファスペースがあるかどうかを判断します。

受信側が正常であれば、パケットはセル (パケットの小さなスライス) に断片化され、中間ファブリックノード (NCF) に対して動的に負荷分散されます。

受信側が一時的にメッセージを処理できない場合、メッセージは送信側のVOQに一時的に保存され、受信側に直接転送されません。

受信側で、これらのセルは再編成されて保存され、ネットワークに転送されます。

スライスされたセルはポーリングメカニズムを使用して送信されます。各アップリンクを最大限に活用し、すべてのアップリンクで送信されるデータ量がほぼ均等になるようにします。

AIGCの推進に適したネットワークの特徴は何でしょうか？

ポーリングメカニズム

このメカニズムはキャッシュを最大限に活用し、パケット損失を大幅に削減するか、場合によってはパケット損失を引き起こす可能性があります。データの再送信が減少し、全体的な通信遅延がより安定して低くなるため、帯域幅の使用率が向上し、ビジネスのスループット効率が向上します。

デッドロックを回避するための PFC シングルホップ展開

前述したように、PFC (優先順位ベースのフロー制御) テクノロジーは、フロー制御のために RDMA ロスレスネットワークに導入されています。

簡単に言うと、PFC はイーサネットリンク上に 8 つの仮想チャネルを作成し、各仮想チャネルに対応する優先順位を割り当てます。これにより、仮想チャネルのいずれか 1 つを独立して一時停止および再開できるようにしながら、他の仮想チャネルはチャネル内のトラフィックは中断されることなく通過します。

AIGCの推進に適したネットワークの特徴は何でしょうか？

PFC はキューベースのフロー制御を実装できますが、デッドロックという問題もあります。

いわゆるデッドロックとは、ループなどによる複数のスイッチ間での輻輳（各ポートのキャッシュ消費量が閾値を超える）により発生する「行き詰まり」であり、全て相手の解放を待っている状態です。」 (すべてのスイッチへのトラフィックは永続的にブロックされます)。

DDC ネットワークでは、PFC のデッドロックの問題はありません。ネットワーク全体の観点から見ると、すべての NCP と NCF は 1 つのデバイスと見なすことができるためです。 AI サーバーの場合、DDC 全体は単なるスイッチであり、マルチレベルのスイッチはありません。したがって、デッドロックは発生しません。

AIGCの推進に適したネットワークの特徴は何でしょうか？

また、DDC のデータ転送メカニズムに従って、ECN (明示的輻輳通知) をインターフェースに導入できます。

ECN メカニズムでは、ネットワークデバイスが RoCE v2 トラフィックの輻輳を検出すると (内部クレジットおよびキャッシュメカニズムはバーストトラフィックをサポートできません)、CNP (輻輳通知パケット、輻輳通知メッセージ) をサーバーに送信します。）、速度を下げる必要があります。

分散OS、信頼性の向上

最後に、管理コントロールプレーンを見てみましょう。

DDC アーキテクチャでは、モジュラーデバイスの管理機能が NCC (Network Cloud Controller) になると前述しました。 NCC は非常に重要です。シングルポイント方式を使用すると、何か問題が発生するとネットワーク全体に障害が発生します。

このような問題を回避するために、DDC は NCC の集中コントロールプレーンを廃止し、分散 OS (オペレーティングシステム) を構築することができます。

分散型OSをベースとし、SDN運用保守コントローラーに基づく標準インターフェース(Netconf、GRPCなど)を通じて機器の設定・管理が可能です。この場合、各 NCP と NCF は独立して管理され、独立したコントロールプレーンと管理プレーンを備えているため、システムの信頼性が大幅に向上し、導入が容易になります。

█ DDC の商業的進歩

要約すると、従来のネットワーキングと比較して、DDC はネットワークの規模、拡張機能、信頼性、コスト、導入速度の点で大きな利点があります。これはネットワーク技術のアップグレードの成果であり、元のネットワークアーキテクチャを覆すアイデアを提供し、ネットワークハードウェアの分離、ネットワークアーキテクチャの統合、転送容量の拡張を実現できます。

業界は、OpenMPI テストスイートを使用して、フレーム機器と従来のネットワーク機器の間の比較シミュレーションテストを実施してきました。テストの結論は次のとおりです。All-to-All シナリオでは、従来のネットワーキングと比較して、フレームタイプデバイスの帯域幅使用率が約 20% 増加します (GPU 使用率の約 8% の増加に相当します)。

このテクノロジーが現在、業界の主要な開発方向となっているのは、まさに DDC の機能に大きな利点があるためです。たとえば、Ruijie Networks は、400G NCP スイッチ RG-S6930-18QC40F1 と 200G NCF スイッチ RG-X56-96F1 という 2 つの提供可能な DDC 製品の発売を主導しました。

AIGCの推進に適したネットワークの特徴は何でしょうか？

RG-S6930-18QC40F1 スイッチは高さ 2U で、400G パネルポート 18 個、200G ファブリックインラインポート 40 個、ファン 4 個、電源 2 個を提供します。

RG-X56-96F1 スイッチは高さ 4U で、96 個の 200G ファブリックインラインポート、8 個のファン、および 4 個の電源を提供します。

Ruijie Networks は 400G ポートの形で製品の開発と発売を継続すると報告されています。

█ 最後に

AIGCの台頭は、インターネット業界における技術革命の新たなラウンドを引き起こしました。

このトラックに参加し、競争に参加する企業がますます増えていることがわかります。これは、ネットワークインフラストラクチャのアップグレードが急務であることを意味します。

DDC の出現は、ネットワークインフラストラクチャの能力を大幅に強化するだけでなく、AI 革命によってネットワークインフラストラクチャに生じる課題に効果的に対応するだけでなく、社会全体のデジタル変革も支援します。人類のデジタルインテリジェンス時代の到来を加速します。

以上がAIGCの推進に適したネットワークの特徴は何でしょうか？の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

メタの新しいAIアシスタント：生産性ブースターまたはタイムシンク？May 01, 2025 am 11:18 AM

Metaは、NVIDIA、IBM、Dellなどのパートナーと協力して、Llama Stackのエンタープライズレベルの展開統合を拡大しました。セキュリティの観点から、MetaはLlama Guard 4、Llamafirewall、Cyberseceval 4などの新しいツールを立ち上げ、AIセキュリティを強化するためにLlama Defendersプログラムを開始しました。さらに、METAは、公共サービス、ヘルスケア、教育の改善に取り組んでいる新興企業を含む、Llama Impact Grantsの150万ドルを10のグローバル機関に分配しています。 Llama 4を搭載した新しいメタAIアプリケーションは、メタAIとして考案されました

Gen Zersの80％はAI：研究と結婚しますMay 01, 2025 am 11:17 AM

人間との相互作用の先駆者であるJoi Aiは、これらの進化する関係を説明するために「AI-lationships」という用語を導入しました。 Joi Aiの関係療法士であるJaime Bronsteinは、これらが人間cを置き換えることを意図していないことを明確にしています

AIはインターネットのボット問題を悪化させています。この20億ドルのスタートアップは最前線にありますMay 01, 2025 am 11:16 AM

オンライン詐欺とボット攻撃は、企業にとって大きな課題をもたらします。小売業者は、ボットの買いだめ製品、銀行の戦闘口座の買収、ソーシャルメディアプラットフォームと戦い、なりすまし者と闘っています。 AIの台頭は、この問題を悪化させます

ロボットへの販売：あなたのビジネスを作ったり壊したりするマーケティング革命May 01, 2025 am 11:15 AM

AIエージェントは、マーケティングに革命をもたらす態勢が整っており、以前の技術的変化の影響を上回る可能性があります。これらのエージェントは、生成AIの大幅な進歩を表し、ChatGPTのような情報を処理するだけでなく、Actioも取る

コンピュータービジョンテクノロジーがどのようにNBAプレーオフを司会しているかMay 01, 2025 am 11:14 AM

重要なNBAゲーム4の決定に対するAIの影響 2つの重要なゲーム4 NBAマッチアップは、司会におけるAIのゲームを変える役割を紹介しました。最初に、デンバーのニコラ・ジョキッチの逃した3ポインターは、アーロン・ゴードンの最後の2秒の路地につながりました。ソニーのホー

AIがどのように再生医療の未来を加速しているかMay 01, 2025 am 11:13 AM

伝統的に、再生医療の専門知識を拡大すると、世界的に大規模な旅行、実践的なトレーニング、長年のメンターシップが必要でした。現在、AIはこの風景を変えており、地理的な制限を克服し、ENを通じて進歩を加速しています

Intel Foundry Direct Connect 2025からのキーテイクアウトMay 01, 2025 am 11:12 AM

Intelは、製造プロセスを主要な位置に戻すように取り組んでいますが、Fab Semiconductorの顧客を引き付けてFabでチップを作成しようとしています。この目的のために、Intelは、そのプロセスの競争力を証明するだけでなく、パートナーが馴染みのある成熟したワークフローでチップを製造できることを実証するために、業界へのより多くの信頼を築かなければなりません。今日私が聞いたことはすべて、インテルがこの目標に向かっていると信じています。新しいCEOのタンリバイの基調講演がその日をキックオフしました。タンリバイは簡単で簡潔です。彼は、IntelのFoundry Servicesにおけるいくつかの課題と、これらの課題に対処し、将来のIntelのFoundry Servicesの成功したルートを計画するために企業が行った対策を概説しています。 Tan Libaiは、IntelのOEMサービスが顧客をより多くするために実装されているプロセスについて話しました