>기술 주변기기 >일체 포함 >대형모델 시대 수송능력의 해답, 갤럭시 AI 네트워크

대형모델 시대 수송능력의 해답, 갤럭시 AI 네트워크

PHPz
PHPz앞으로
2023-09-30 19:05:07946검색

대형 AI 사전 학습 모델의 가치가 계속해서 부각되면서 모델의 규모도 점점 커지고 있습니다. 업계와 학계는 AI 시대에는 컴퓨팅 파워가 곧 생산성이라는 공감대를 형성했다.

이러한 이해는 정확하지만 포괄적인 것은 아닙니다. 디지털 시스템에는 스토리지, 컴퓨팅, 네트워킹이라는 세 가지 기둥이 있으며 AI 기술도 마찬가지입니다. 스토리지와 네트워크 컴퓨팅 성능을 제쳐두면 대형 모델은 단독으로만 사용할 수 있습니다. 특히 대형 모델에 맞춰진 네트워크 인프라는 제대로 주목받지 못했다.

"수만 개의 카드로 훈련", "수천 마일에 걸쳐 배포", "수조 개의 매개변수로" 자주 수행되는 대규모 AI 모델에 직면하여 네트워크 전송 용량은 지능형 전체에서 무시할 수 없는 링크입니다. 체계. 직면한 과제는 매우 뚜렷하며 상황을 깨뜨릴 수 있는 답변을 기다리고 있습니다.

대형모델 시대 수송능력의 해답, 갤럭시 AI 네트워크

Wang Lei, Huawei 데이터 통신 제품 라인 사장

9월 20일, 화웨이 커넥트 컨퍼런스 2023 기간 중 '갤럭시 AI 네트워크, 산업 인텔리전스 가속화'를 주제로 데이터 통신 서밋이 열렸습니다. 각계각층의 대표자들이 AI 네트워크 기술의 변화와 발전 동향에 대해 논의했습니다. 회의에서 화웨이 데이터 통신 제품 라인 사장 Wang Lei는 공식적으로 Galaxy AI 네트워크 솔루션을 출시했습니다. 그는 대형 모델이 AI를 더 똑똑하게 만들지만 대형 모델을 훈련하는 데 드는 비용이 매우 높으며 AI 인재의 비용도 고려해야 한다고 말했습니다. 따라서 산업의 지능화 단계에서는 대규모 컴퓨팅 파워 클러스터를 구축하고 사회에 지능형 컴퓨팅 클라우드 서비스를 제공하는 데 집중해야만 인공지능이 수천 가지 산업에 진정으로 침투할 수 있습니다. 화웨이는 지능형 시대를 맞이하여 AI가 모든 사람에게 혜택을 주고 지능을 가속화할 수 있도록 초고속 처리량, 장기 안정성, 신뢰성, 탄력성 및 높은 동시성을 갖춘 새로운 네트워크 인프라를 구축했습니다. 업계.

이번 기회를 통해 대형 모델의 등장으로 인해 지능형 컴퓨팅 데이터 센터에 발생한 네트워크 문제와 Huawei Galaxy AI Network가 이러한 문제에 대한 최적의 솔루션인 이유에 대해 알아보세요.

AI 시대에 오면 모델, 데이터 조각, 컴퓨팅 장치는 별빛이라고 할 수 있습니다. 그러나 그것들을 효율적이고 안정적으로 연결해야만 빛나는 지능 세계가 형성될 수 있습니다

대형 모델의 대유행으로 숨겨진 네트워크 토렌트 발생

우리는 AI 모델이 훈련과 추론 배포의 두 단계로 나누어져 있다는 것을 알고 있습니다. 사전 훈련된 대형 모델이 등장하면서 이 두 단계에서 거대한 AI 네트워크 문제도 발생했습니다.

첫 번째는 대형 모델의 훈련 단계입니다. 모델 크기와 데이터 매개변수가 점점 더 커지면서 대규모 모델 훈련을 완료하려면 킬로칼로리 또는 심지어 10,000킬로와트의 컴퓨팅 클러스터가 필요하기 시작합니다. 이는 또한 AI 컴퓨팅 성능을 갖춘 데이터 센터에서 대규모 모델 훈련이 이루어져야 함을 의미합니다.

현 단계에서 지능형 컴퓨팅 데이터 센터의 비용은 매우 높습니다. 업계 데이터에 따르면 100P 컴퓨팅 성능을 갖춘 클러스터를 구축하는 데 드는 비용은 4억 위안에 이릅니다. 잘 알려진 국제 대형 모델을 예로 들면, 훈련 과정 중 일일 컴퓨팅 전력 소비량이 700,000달러에 달합니다

데이터 센터 네트워크의 연결 기능이 원활하지 않아 네트워크 전송 중에 대량의 컴퓨팅 리소스가 손실되면 데이터 센터 및 AI 모델에 미치는 손실은 헤아릴 수 없을 것입니다. 반대로, 동일한 컴퓨팅 성능 규모에서 클러스터 훈련이 더 효율적이라면 데이터 센터는 엄청난 비즈니스 기회를 얻게 될 것입니다. 부하율과 기타 네트워크 요소는 AI 모델의 훈련 효율성을 직접적으로 결정합니다. 한편, AI 컴퓨팅 파워 클러스터의 규모가 지속적으로 확장됨에 따라 그 복잡성도 증가하므로 실패 확률도 증가하고 있습니다. 장기적으로 안정적이고 신뢰할 수 있는 클러스터 네트워크를 구축하는 것은 데이터 센터의 입출력 비율을 향상시키는 중요한 축입니다

대형모델 시대 수송능력의 해답, 갤럭시 AI 네트워크

데이터 센터 외부에서 AI 네트워크의 가치는 AI 모델의 추론 및 배포 시나리오에서도 확인할 수 있습니다. 대형 모델의 추론 배포는 주로 클라우드 서비스에 의존하며, 클라우드 서비스 제공업체는 대형 모델의 상업적 가치를 극대화하기 위해 컴퓨팅 리소스가 제한된 대규모 고객에게 서비스를 제공해야 합니다. 결과적으로, 사용자가 많아질수록 전체 클라우드 네트워크 구조는 더욱 복잡해지게 됩니다. 어떻게 장기적이고 안정적인 네트워크 서비스를 제공할 것인가는 클라우드 컴퓨팅 서비스 제공자에게 새로운 과제가 되었습니다.

또한 AI 추론 배포의 마지막 단계에서 정부 및 기업 사용자는 네트워크 품질을 개선해야 하는 필요성에 직면하게 됩니다. 실제 시나리오에서는 1% 링크 패킷 손실로 인해 TCP 성능이 50배 저하됩니다. 이는 100Mbps 광대역의 경우 실제 용량이 2Mbps 미만임을 의미합니다. 따라서 애플리케이션 시나리오 자체의 네트워크 기능을 개선해야만 AI 컴퓨팅 성능의 원활한 흐름을 보장하고 진정한 포용적 AI를 실현할 수 있습니다.

이를 통해 대규모 AI 모델의 탄생, 전송 및 적용의 전체 과정에서 모든 링크가 네트워크 업그레이드의 과제와 요구에 직면한다는 것을 쉽게 알 수 있습니다. 대형모델 시대의 수송능력 문제는 시급히 해결되어야 한다.

지능시대의 네트워크를 깨뜨린다는 생각은 별빛에서 은하까지 확장될 수 있다

대형 모델의 등장으로 다중 링크, 전체 프로세스 네트워크 문제가 발생했습니다. 따라서 우리는 이 문제를 해결하기 위해 체계적인 접근 방식을 취해야 합니다

Huawei는 지능형 컴퓨팅 클라우드 서비스를 위한 새로운 네트워크 인프라를 제안했습니다. 이 시설은 "고효율 교육", "무중단 컴퓨팅 성능" 및 "포괄적인 AI 서비스"의 세 가지 기능을 지원해야 합니다. 이 세 가지 기능은 훈련부터 추론 배포까지 AI 대형 모델의 전체 시나리오를 포괄합니다. 화웨이는 단일 요구 사항을 충족하고 단일 기술을 업그레이드하는 데 중점을 둘 뿐만 아니라 AI 네트워크의 반복을 포괄적으로 촉진하여 업계에 독특하고 획기적인 아이디어를 제공합니다

구체적으로 AI 시대의 네트워크 인프라에는 다음과 같은 기능이 포함되어야 합니다.

우선 네트워크는 훈련 시나리오에서 AI 컴퓨팅 클러스터의 가치를 극대화해야 합니다. 초대규모 연결 능력을 갖춘 네트워크를 구축해 대형 AI 모델의 고효율 학습이 가능합니다.

둘째, AI 업무의 안정성과 지속성을 보장하기 위해서는 월별 훈련이 중단되지 않도록 장기적이고 안정적인 네트워크 역량을 구축하는 것이 필요합니다. 두 번째 수준은 훈련 중단을 최소화하는 데 필요합니다. 이는 컴퓨팅 파워의 논스톱 용량 구축입니다.

다시 한번 말씀드리지만, AI 추론 배포 과정에서 네트워크는 탄력적이고 높은 동시성 특성을 가져야 합니다. 이는 대규모 사용자 흐름을 지능적으로 조율하고 최고의 AI 랜딩 경험을 제공할 수 있으며 네트워크의 영향에도 저항할 수 있습니다. 이를 통해 서로 다른 지역 간의 원활한 AI 컴퓨팅 성능을 보장하고, 이를 통해 "포괄적인 AI 서비스"의 역량 구축도 실현합니다.

Huawei는 이러한 획기적인 아이디어를 고수하면서 마침내 Galaxy AI 네트워크 솔루션을 출시했습니다. 분산된 AI 기술을 통합하고, 강력한 컴퓨팅 성능을 통해 은하계급 네트워크를 형성하는 솔루션입니다

갤럭시 AI 네트워크가 빅모델 시대에 맞는 역량을 제시합니다

2023년 화웨이 풀 커넥티비티 컨퍼런스(Huawei Full Connectivity Conference)에서 화웨이는 대규모 컴퓨팅 성능, 대용량 저장 용량, 대용량 운송 용량을 갖춘 대형 AI 모델 생성을 가속화하겠다는 개발 비전을 공유했습니다. 차세대 화웨이 Galaxy AI 네트워크 솔루션은 지능화 시대의 대규모 전송 용량을 위한 화웨이의 솔루션이라고 할 수 있습니다.

스마트 데이터 센터를 위한 Huawei Galaxy AI Network는 네트워크 성능을 기반으로 한 최적의 솔루션입니다.

대형모델 시대 수송능력의 해답, 갤럭시 AI 네트워크

초고처리량 네트워크 특성은 네트워크 부하율을 향상하고 지능형 컴퓨팅 센터에서 AI 클러스터의 훈련 효율성을 높이는 데 중요한 가치를 제공할 수 있습니다. 특히, 갤럭시 AI 네트워크 지능형 컴퓨팅 스위치는 업계 최고 밀도의 400GE 및 800GE 포트 기능을 갖추고 있습니다. 레이어 2 스위칭 네트워크만이 18,000개 카드의 통합 없는 클러스터 네트워크를 실현할 수 있으므로 1조 개가 넘는 매개변수로 대규모 모델 훈련을 지원할 수 있습니다. 네트워킹 수준이 감소하면 데이터 센터는 광 모듈 비용을 크게 절감하는 동시에 네트워크 위험에 대한 예측 가능성을 높이고 보다 안정적인 대형 모델 훈련 기능을 확보할 수 있습니다.

갤럭시 AI 네트워크는 네트워크 수준의 로드 밸런싱 NSLB를 지원할 수 있어 로드율을 50%에서 98%로 높일 수 있습니다. 이는 AI 클러스터의 오버클러킹 작업을 달성하는 것과 동일합니다. 이를 통해 훈련 효율성을 20% 증가시켜 요구 사항을 충족합니다. 효율적인 훈련 기대

대형모델 시대 수송능력의 해답, 갤럭시 AI 네트워크

클라우드 서비스 제조업체에게 Galaxy AI Network는 안정적이고 신뢰할 수 있는 컴퓨팅 성능을 보장할 수 있습니다.

DCI 컴퓨팅 룸 상호 연결 시나리오에서 이 기술은 다중 경로 지능형 스케줄링과 같은 기능을 제공하고 최대 비즈니스 트래픽의 영향을 자동으로 식별하고 사전에 적응할 수 있습니다. 수백만 개의 데이터 흐름에서 크고 작은 흐름을 식별하고 이를 100,000개의 경로에 합리적으로 할당하여 네트워크 혼잡을 없애고 동시성 높은 지능형 컴퓨팅 클라우드 서비스에 대한 탄력적 보장을 제공할 수 있습니다

정부 및 기업 사용자를 위해 Galaxy AI 네트워크는 네트워크 저하 문제에 대처하고 보편적인 AI 컴퓨팅 성능을 보장할 수 있습니다.

DCA 계산 시나리오에서 탄력적인 저하 방지 기능을 지원할 수 있습니다. Fillp 기술을 사용하여 TCP 프로토콜을 최적화하고 1% 패킷 손실률 조건에서 대역폭 부하율을 10%에서 60%로 증가시켜 적용 범위를 보장합니다. 도시 지역에서 외곽 지역까지 컴퓨팅 파워가 원활하게 흐르면서 AI 서비스의 포괄적인 적용이 가속화됩니다.

이러한 방식으로 교육부터 배포까지 대규모 모델의 모든 측면에 대한 네트워크 요구 사항이 해결됩니다. 지능형 컴퓨팅 센터부터 수천 개의 산업에 이르기까지 네트워크 기반 컴퓨팅 개발을 위한 기반이 있습니다.

지능화 시대, 대형 모델이 열어가는 새로운 기술 시대가 이제 막 시작되었습니다. Galaxy AI Network는 지능형 시대의 교통 용량에 대한 답을 제공합니다

위 내용은 대형모델 시대 수송능력의 해답, 갤럭시 AI 네트워크의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 sohu.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제