AIGC의 발생은 컴퓨팅 성능 문제를 가져올 뿐만 아니라 네트워크에 전례 없는 수요를 가져옵니다.
6월 26일 Tencent Cloud는 자체 개발한 Xingmai 고성능 컴퓨팅 네트워크를 처음으로 완전히 공개했습니다. Xingmai 네트워크는 업계 최고의 3.2T 통신 대역폭을 갖추고 있어 GPU 활용도를 40% 높이고 30%~60%를 절약할 수 있습니다. 훈련 비용으로 인해 대규모 AI 모델의 통신 성능이 10배 향상됩니다. Tencent Cloud의 차세대 컴퓨팅 클러스터 HCC는 100,000개 이상의 카드에 달하는 거대한 컴퓨팅 규모를 지원할 수 있습니다.
Tencent Cloud 부사장 Wang Yachen은 다음과 같이 말했습니다. "Xingmai Network는 대형 모델을 위해 탄생했습니다. Xingmai Network가 제공하는 넓은 대역폭, 높은 활용도 및 제로 패킷 손실을 갖춘 고성능 네트워크 서비스는 컴퓨팅 성능 병목 현상을 극복하고 추가 출시하는 데 도움이 될 것입니다. AI 잠재력을 활용하여 기업 대규모 모델의 교육 효율성을 종합적으로 향상하고 클라우드에서 대규모 모델 기술의 반복적 업그레이드 및 구현을 가속화합니다.”
대형 모델 전용 고성능 네트워크를 구축하고 GPU 활용도를 40% 높입니다
AIGC의 인기로 인해 대규모 AI 모델 매개변수의 수가 수억에서 수조로 급증했습니다. 대용량 데이터의 대규모 훈련을 지원하기 위해 다수의 서버가 고속 네트워크를 통해 컴퓨팅 클러스터를 형성하고 상호 연결되어 함께 훈련 작업을 완료합니다.
반대로, GPU 클러스터가 클수록 추가 통신 손실도 커집니다. 클러스터가 크다고 해서 컴퓨팅 파워가 크다는 의미는 아닙니다. AI 대형 모델의 시대는 높은 대역폭 요구 사항, 높은 활용도 및 정보 무손실을 포함하여 네트워크에 심각한 문제를 가져왔습니다.
기존의 저속 네트워크 대역폭은 훈련 과정에서 수천억 또는 수조 개의 매개변수가 있는 대형 모델을 만족시킬 수 없습니다. 통신 비율은 최대 50%에 달할 수 있습니다. 동시에 기존 네트워크 프로토콜은 쉽게 네트워크 정체, 높은 대기 시간 및 패킷 손실로 이어질 수 있으며, 네트워크 패킷 손실의 0.1%만으로도 컴퓨팅 성능이 50% 손실되어 궁극적으로 컴퓨팅 성능 리소스가 심각하게 낭비될 수 있습니다.
Tencent Cloud는 포괄적인 자체 연구 역량을 바탕으로 스위치, 통신 프로토콜, 통신 라이브러리 및 운영 체제 분야에서 소프트웨어 및 하드웨어 업그레이드와 혁신을 수행했으며 업계 최고의 대형 모델 전용 고성능 네트워크를 최초로 출시했습니다. 싱마이 네트워크.
하드웨어 측면에서 Xingmai Network는 Tencent의 네트워크 R&D 플랫폼을 기반으로 하며 모든 자체 개발 장비를 사용하여 상호 연결 기반을 구축하여 자동화된 배포 및 구성을 달성합니다.
소프트웨어 측면에서 Tencent Cloud가 자체 개발한 TiTa 네트워크 프로토콜은 고급 혼잡 제어 및 관리 기술을 채택하여 실시간으로 네트워크 혼잡을 모니터링 및 조정할 수 있고, 다수의 서버 노드 간의 통신 요구를 충족하며 원활한 데이터 교환을 보장합니다. 높은 부하에서 제로 패킷 손실을 달성하여 클러스터 통신 효율성을 90% 이상 달성합니다.
또한 Tencent Cloud는 Xingmai 네트워크용 고성능 집단 통신 라이브러리 TCCL을 설계하고 이를 맞춤형 솔루션에 통합하여 시스템이 마이크로초 수준의 네트워크 품질 인식을 실현할 수 있도록 했습니다. 동적 스케줄링 메커니즘을 사용하여 통신 채널을 합리적으로 할당함으로써 네트워크 문제로 인한 훈련 중단을 효과적으로 방지하고 통신 지연을 40%까지 줄일 수 있습니다.
네트워크 가용성도 전체 클러스터의 컴퓨팅 안정성을 결정합니다. Xingmai 네트워크의 고가용성을 보장하기 위해 Tencent Cloud는 엔드 투 엔드 풀 스택 네트워크 운영 시스템을 개발했습니다. 엔드 네트워크 3차원 모니터링 및 지능형 위치 확인 시스템을 통해 엔드 네트워크 문제를 자동으로 구분하고 분석하여 전반적인 장애 해결 시간을 일 단위로 단축할 수 있습니다. 개선 후 대규모 모델 훈련 시스템의 전체 배포 시간이 4.5일로 단축되어 기본 구성의 정확도가 100% 보장됩니다.
3세대에 걸친 기술 발전을 거쳐 소프트웨어와 하드웨어의 통합을 깊이 연구하고 육성해 왔습니다
Xingmai 네트워크의 전반적인 업그레이드 이면에는 Tencent 데이터 센터 네트워크의 3세대 기술 진화의 결과가 있습니다.
Tencent 개발 초기에는 데이터 센터 네트워크 트래픽은 주로 사용자가 데이터 센터 서버에 액세스하기 위한 남북 트래픽으로 구성되었습니다. 네트워크 아키텍처는 주로 액세스, 집계 및 송신을 기반으로 했습니다. 이 단계에서는 상용 네트워크 장비를 주로 사용하여 표준화된 데이터 센터 네트워크를 구축했으며, 이를 통해 QQ 온라인 사용자 수는 1억 명 이상 증가하고 서버 규모는 10만 개 이상 증가했습니다.
빅 데이터와 클라우드 컴퓨팅의 등장으로 서버 간의 동서 트래픽이 점차 증가했으며 클라우드 테넌트에서는 네트워크에 대한 가상화 및 격리 요구 사항이 생겼습니다. 데이터 센터 네트워크 아키텍처는 남북 및 동서 트래픽을 모두 전달하는 클라우드 네트워크 아키텍처로 점차 발전했습니다. Tencent Cloud는 초대형 데이터 센터 네트워크를 만들기 위해 완전히 자체 개발한 네트워크 장비 및 관리 시스템을 구축했습니다. 약 2백만 대의 서버를 보유하고 있습니다.
Tencent Cloud는 대규모 AI 모델의 요구 사항을 충족하기 위해 중국에서 최초로 고성능 컴퓨팅 네트워크를 출시했으며 동서 및 남북 트래픽을 위한 분리 아키텍처를 채택했습니다. AI 훈련 트래픽의 특성을 충족하는 초대형 대역폭의 독립적인 네트워크 아키텍처를 구축했으며, 자체 개발한 소프트웨어 및 하드웨어 시설과 협력하여 전체 시스템의 독립적인 제어 가능성을 달성하고 슈퍼 컴퓨팅의 새로운 네트워크 성능 요구를 충족합니다. 힘.
최근 Tencent Cloud는 Xingmai 고성능 네트워크를 기반으로 하는 차세대 HCC 고성능 컴퓨팅 클러스터를 출시했습니다. 이는 3.2T의 초고 상호 연결 대역폭을 달성할 수 있으며 컴퓨팅 성능은 이전보다 3배 더 높습니다. AI 대규모 모델 훈련을 위해 구축된 안정적인 고성능 네트워크 기반입니다.
앞으로도 Tencent Cloud는 다양한 산업의 디지털 및 지능적 변혁을 위한 강력한 기술 지원을 제공하기 위해 기본 기술의 연구 및 개발에 지속적으로 투자할 것입니다.
위 내용은 대규모 AI 모델의 경우 Tencent Cloud가 자체 개발한 Xingmai 고성능 컴퓨팅 네트워크를 처음으로 완전히 공개했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!