>  기사  >  기술 주변기기  >  Tencent, 차세대 슈퍼 컴퓨팅 클러스터 출시: 대규모 모델 훈련을 위해 성능이 3배 향상됨

Tencent, 차세대 슈퍼 컴퓨팅 클러스터 출시: 대규모 모델 훈련을 위해 성능이 3배 향상됨

WBOY
WBOY앞으로
2023-04-16 13:28:051154검색

신세대 HCC 고성능 컴퓨팅 클러스터는 최신 세대의 Xinghai 자체 개발 서버를 사용하고 NVIDIA H800 Tensor Core GPU를 갖추고 있습니다.

Tencent 관계자는 이 클러스터가 자체 개발한 네트워크 및 스토리지 아키텍처를 기반으로 하여 3.2T 초고속 상호 연결 대역폭, TB 수준의 처리 용량 및 수천만 IOPS를 제공한다고 밝혔습니다. 실제 측정 결과는 차세대 클러스터의 컴퓨팅 성능이 이전 세대에 비해 3배 향상된 것으로 나타났습니다.

Tencent, 차세대 슈퍼 컴퓨팅 클러스터 출시: 대규모 모델 훈련을 위해 성능이 3배 향상됨

작년 10월 Tencent는 1조 개의 매개변수를 갖춘 최초의 대형 AI 모델인 Hunyuan NLP 대형 모델의 훈련을 완료했습니다. 동일한 데이터 세트를 사용하면 학습 시간이 50일에서 11일로 단축됩니다. 차세대 클러스터를 기반으로 하는 경우 학습 시간이 4일로 더욱 단축됩니다.

컴퓨팅 수준에서 서버 독립형 성능은 클러스터 컴퓨팅 성능의 기초입니다. Tencent Cloud 차세대 클러스터의 단일 GPU 카드는 다양한 정밀도에서 최대 1979TFlops의 컴퓨팅 성능 출력을 지원합니다.

대형 모델 시나리오의 경우 Xingxinghai의 자체 개발 서버는 CPU 및 GPU 노드의 통합 설계를 통해 병렬 컴퓨팅 개념을 사용하여 업계에서 지원하는 선반 밀도보다 30% 더 높은 6U 초고밀도 설계를 채택합니다. 단일 포인트 계산이 가능하며 근력 성능이 더 높은 수준으로 향상됩니다.

Tencent, 차세대 슈퍼 컴퓨팅 클러스터 출시: 대규모 모델 훈련을 위해 성능이 3배 향상됨

네트워크 수준에서는 컴퓨팅 노드 간에 막대한 데이터 상호 작용 요구 사항이 있습니다. 클러스터 규모가 확장됨에 따라 통신 성능은 훈련 효율성에 직접적인 영향을 미치므로 네트워크와 컴퓨팅 노드 간의 최대 협업이 필요합니다.

Tencent가 자체 개발한 Xingmai 고성능 컴퓨팅 네트워크는 업계 최고의 3.2T RDMA 통신 대역폭을 자랑합니다. 실제 측정 결과에 따르면 동일한 수의 GPU를 장착한 3.2T Xingmai 네트워크는 1.6T 네트워크에 비해 클러스터의 전체 컴퓨팅 성능이 20% 증가한 것으로 나타났습니다.

동시에 Tencent가 자체 개발한 고성능 집단 커뮤니케이션 라이브러리 TCCL이 맞춤형 설계 솔루션에 통합되었습니다. 업계의 오픈 소스 집단 통신 라이브러리와 비교하여 대규모 모델 훈련에 대해 40%의 로드 성능을 최적화하고 여러 네트워크 이유로 인한 훈련 중단 문제를 제거합니다.

Tencent, 차세대 슈퍼 컴퓨팅 클러스터 출시: 대규모 모델 훈련을 위해 성능이 3배 향상됨

스토리지 수준에서는 대규모 모델 훈련 중에 다수의 컴퓨팅 노드가 동시에 데이터 세트 배치를 읽습니다. 대기를 피하기 위해 데이터 로딩 시간을 최대한 단축해야 합니다. 컴퓨팅 노드.

Tencent Cloud의 자체 개발된 스토리지 아키텍처는 테라바이트 수준의 처리량 기능과 수천만 IOPS를 갖추고 있어 다양한 시나리오의 스토리지 요구 사항을 지원합니다. COS+GooseFS 개체 스토리지 솔루션과 CFS Turbo 고성능 파일 스토리지 솔루션은 대규모 모델 시나리오에서 고성능, 대용량 처리량 및 대규모 스토리지 요구 사항을 완벽하게 충족합니다.

Tencent, 차세대 슈퍼 컴퓨팅 클러스터 출시: 대규모 모델 훈련을 위해 성능이 3배 향상됨

또한 차세대 클러스터에는 Tencent Cloud가 자체 개발한 TACO 교육 가속화 엔진이 통합되어 있습니다. 이 엔진은 네트워크 프로토콜, 통신 전략, AI 프레임워크 및 모델 편집에 대한 수많은 시스템 수준 최적화를 수행하여 교육 비용을 크게 절감합니다. 튜닝 및 컴퓨팅 전력 비용.

Tencent의 Hunyuan 대형 모델을 뒷받침하는 교육 프레임워크인 AngelPTM도 Tencent Cloud TACO를 통해 기업이 대형 모델 구현을 가속화할 수 있도록 서비스를 제공했습니다.

Tencent Cloud TI 플랫폼의 대규모 모델 기능과 도구 상자를 통해 기업은 산업 시나리오 데이터를 기반으로 미세 조정된 교육을 수행하고 생산 효율성을 향상하며 AI 애플리케이션을 신속하게 생성 및 배포할 수 있습니다.

Tencent, 차세대 슈퍼 컴퓨팅 클러스터 출시: 대규모 모델 훈련을 위해 성능이 3배 향상됨

Tencent Cloud 지능형 컴퓨팅 플랫폼은 분산형 클라우드 기반 거버넌스 기능을 기반으로 16 EFLOPS의 부동 소수점 컴퓨팅 성능을 제공합니다.

위 내용은 Tencent, 차세대 슈퍼 컴퓨팅 클러스터 출시: 대규모 모델 훈련을 위해 성능이 3배 향상됨의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제