ホームページ  >  記事  >  テクノロジー周辺機器  >  Tencent が新世代のスーパー コンピューティング クラスターをリリース: 大規模モデルのトレーニング向けに、パフォーマンスが 3 倍向上

Tencent が新世代のスーパー コンピューティング クラスターをリリース: 大規模モデルのトレーニング向けに、パフォーマンスが 3 倍向上

WBOY
WBOY転載
2023-04-16 13:28:051212ブラウズ

新世代の HCC ハイパフォーマンス コンピューティング クラスターは、最新世代の Xinghai 自社開発サーバーを使用し、NVIDIA H800 Tensor コア GPU を搭載しています。

Tencent 関係者によると、このクラスターは自社開発のネットワークとストレージ アーキテクチャに基づいており、3.2T の超高相互接続帯域幅、TB レベルのスループット容量、数千万の IOPS を実現します。実測結果では、新世代クラスタの計算能力性能が前世代に比べて3倍向上していることがわかりました。

Tencent が新世代のスーパー コンピューティング クラスターをリリース: 大規模モデルのトレーニング向けに、パフォーマンスが 3 倍向上

昨年 10 月、Tencent は、1 兆のパラメーターを備えた最初の大規模 AI モデルである Hunyuan NLP 大規模モデルのトレーニングを完了しました。同じデータセットを使用すると、トレーニング時間が 50 日から 11 日に短縮されます。新世代クラスターに基づく場合、トレーニング時間はさらに 4 日に短縮されます。

コンピューティング レベルでは、サーバーのスタンドアロン パフォーマンスがクラスターのコンピューティング能力の基礎であり、Tencent Cloud の新世代クラスターの 1 枚の GPU カードは、さまざまな精度で最大 1979 TFlops のコンピューティング能力の出力をサポートします。

大規模モデルのシナリオ向けに、Xingxinghai の自社開発サーバーは、業界でサポートされているシェルフ密度より 30% 高い 6U 超高密度設計を採用しており、CPU の統合設計による並列コンピューティングの概念を使用しています。および GPU ノードにより、シングルポイント コンピューティングのパワー パフォーマンスがより高いレベルに向上します。

Tencent が新世代のスーパー コンピューティング クラスターをリリース: 大規模モデルのトレーニング向けに、パフォーマンスが 3 倍向上

#ネットワーク レベルでは、コンピューティング ノード間に大規模なデータ対話要件があります。クラスターの規模が拡大すると、通信パフォーマンスがトレーニング効率に直接影響するため、ネットワークとコンピューティング ノード間の最大限の連携が必要になります。

テンセントが自社開発した Xingmai 高性能コンピューティング ネットワークは、業界最高の 3.2T RDMA 通信帯域幅を備えていると主張しています。実際の測定結果によると、同じ数の GPU を搭載した 3.2T Xingmai ネットワークは、1.6T ネットワークと比較してクラスター全体のコンピューティング能力が 20% 向上しています。

同時に、Tencent が自社開発した高性能集合通信ライブラリ TCCL がカスタム設計のソリューションに統合されています。業界のオープンソース集合通信ライブラリと比較して、大規模モデルのトレーニングの負荷パフォーマンスを 40% 最適化し、複数のネットワーク理由によって引き起こされるトレーニング中断の問題を排除します。

Tencent が新世代のスーパー コンピューティング クラスターをリリース: 大規模モデルのトレーニング向けに、パフォーマンスが 3 倍向上

ストレージ レベルでは、大規模なモデルのトレーニング中に、多数のコンピューティング ノードがデータ セットのバッチを同時に読み取ります。データを短縮する必要があります。コンピューティング ノードの待ち時間を避けるために、読み込み時間をできるだけ長くします。

Tencent Cloud の自社開発ストレージ アーキテクチャは、テラバイト レベルのスループット機能と数千万の IOPS を備え、さまざまなシナリオでのストレージ ニーズをサポートします。 COS GooseFS オブジェクト ストレージ ソリューションと CFS Turbo 高性能ファイル ストレージ ソリューションは、大規模モデル シナリオにおける高性能、大スループット、大容量ストレージの要件を完全に満たします。

Tencent が新世代のスーパー コンピューティング クラスターをリリース: 大規模モデルのトレーニング向けに、パフォーマンスが 3 倍向上

さらに、新世代クラスターには、Tencent Cloud が自社開発した TACO トレーニング アクセラレーション エンジンが統合されており、ネットワーク プロトコル、通信戦略、 AI フレームワークとモデルのコンパイル トレーニングの調整と計算の電力コストを大幅に節約します。

Tencent の Hunyuan 大規模モデルの背後にあるトレーニング フレームワークである AngelPTM も、Tencent Cloud TACO を通じてサービスを提供し、企業が大規模モデルの実装を加速できるように支援しています。

Tencent Cloud TI プラットフォームの大規模なモデル機能とツールボックスを通じて、企業は産業シナリオ データに基づいて微調整されたトレーニングを実施し、生産効率を向上させ、AI アプリケーションを迅速に作成して展開することができます。

Tencent が新世代のスーパー コンピューティング クラスターをリリース: 大規模モデルのトレーニング向けに、パフォーマンスが 3 倍向上

分散型クラウドネイティブ ガバナンス機能に依存して、Tencent クラウド インテリジェント コンピューティング プラットフォームは、16 EFLOPS の浮動小数点コンピューティング能力を提供します。

以上がTencent が新世代のスーパー コンピューティング クラスターをリリース: 大規模モデルのトレーニング向けに、パフォーマンスが 3 倍向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。