ホームページ >テクノロジー周辺機器 >AI >Tencent が新世代のスーパー コンピューティング クラスターをリリース: 大規模モデルのトレーニング向けに、パフォーマンスが 3 倍向上
新世代の HCC ハイパフォーマンス コンピューティング クラスターは、最新世代の Xinghai 自社開発サーバーを使用し、NVIDIA H800 Tensor コア GPU を搭載しています。
Tencent 関係者によると、このクラスターは自社開発のネットワークとストレージ アーキテクチャに基づいており、3.2T の超高相互接続帯域幅、TB レベルのスループット容量、数千万の IOPS を実現します。実測結果では、新世代クラスタの計算能力性能が前世代に比べて3倍向上していることがわかりました。
昨年 10 月、Tencent は、1 兆のパラメーターを備えた最初の大規模 AI モデルである Hunyuan NLP 大規模モデルのトレーニングを完了しました。同じデータセットを使用すると、トレーニング時間が 50 日から 11 日に短縮されます。新世代クラスターに基づく場合、トレーニング時間はさらに 4 日に短縮されます。
コンピューティング レベルでは、サーバーのスタンドアロン パフォーマンスがクラスターのコンピューティング能力の基礎であり、Tencent Cloud の新世代クラスターの 1 枚の GPU カードは、さまざまな精度で最大 1979 TFlops のコンピューティング能力の出力をサポートします。
大規模モデルのシナリオ向けに、Xingxinghai の自社開発サーバーは、業界でサポートされているシェルフ密度より 30% 高い 6U 超高密度設計を採用しており、CPU の統合設計による並列コンピューティングの概念を使用しています。および GPU ノードにより、シングルポイント コンピューティングのパワー パフォーマンスがより高いレベルに向上します。
#ネットワーク レベルでは、コンピューティング ノード間に大規模なデータ対話要件があります。クラスターの規模が拡大すると、通信パフォーマンスがトレーニング効率に直接影響するため、ネットワークとコンピューティング ノード間の最大限の連携が必要になります。
テンセントが自社開発した Xingmai 高性能コンピューティング ネットワークは、業界最高の 3.2T RDMA 通信帯域幅を備えていると主張しています。実際の測定結果によると、同じ数の GPU を搭載した 3.2T Xingmai ネットワークは、1.6T ネットワークと比較してクラスター全体のコンピューティング能力が 20% 向上しています。
同時に、Tencent が自社開発した高性能集合通信ライブラリ TCCL がカスタム設計のソリューションに統合されています。業界のオープンソース集合通信ライブラリと比較して、大規模モデルのトレーニングの負荷パフォーマンスを 40% 最適化し、複数のネットワーク理由によって引き起こされるトレーニング中断の問題を排除します。
ストレージ レベルでは、大規模なモデルのトレーニング中に、多数のコンピューティング ノードがデータ セットのバッチを同時に読み取ります。データを短縮する必要があります。コンピューティング ノードの待ち時間を避けるために、読み込み時間をできるだけ長くします。
Tencent Cloud の自社開発ストレージ アーキテクチャは、テラバイト レベルのスループット機能と数千万の IOPS を備え、さまざまなシナリオでのストレージ ニーズをサポートします。 COS GooseFS オブジェクト ストレージ ソリューションと CFS Turbo 高性能ファイル ストレージ ソリューションは、大規模モデル シナリオにおける高性能、大スループット、大容量ストレージの要件を完全に満たします。
さらに、新世代クラスターには、Tencent Cloud が自社開発した TACO トレーニング アクセラレーション エンジンが統合されており、ネットワーク プロトコル、通信戦略、 AI フレームワークとモデルのコンパイル トレーニングの調整と計算の電力コストを大幅に節約します。
Tencent の Hunyuan 大規模モデルの背後にあるトレーニング フレームワークである AngelPTM も、Tencent Cloud TACO を通じてサービスを提供し、企業が大規模モデルの実装を加速できるように支援しています。
Tencent Cloud TI プラットフォームの大規模なモデル機能とツールボックスを通じて、企業は産業シナリオ データに基づいて微調整されたトレーニングを実施し、生産効率を向上させ、AI アプリケーションを迅速に作成して展開することができます。
分散型クラウドネイティブ ガバナンス機能に依存して、Tencent クラウド インテリジェント コンピューティング プラットフォームは、16 EFLOPS の浮動小数点コンピューティング能力を提供します。
以上がTencent が新世代のスーパー コンピューティング クラスターをリリース: 大規模モデルのトレーニング向けに、パフォーマンスが 3 倍向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。