"Wen Xinyiyan은 국내 AI 분야 최대 규모의 고성능 GPU 클러스터에 대한 교육을 완료했습니다."
미래 대형 모델의 요구 사항을 충족하기 위해 이르면 2021년 6월에 교육을 위해 Baidu Intelligent Cloud는 NVIDIA와 함께 새로운 고성능 GPU 클러스터 구축을 계획하기 시작했으며 클러스터 내 노드 간 각 GPU 카드를 10,000개 이상 수용할 수 있는 IB 네트워크 아키텍처 설계를 완료했습니다. IB 네트워크를 통해 2022년 4월 클러스터 구축이 완료되어 단일 클러스터 EFLOPS 수준의 컴퓨팅 파워를 제공할 예정입니다.
2023년 3월 Wen Xinyiyan은 이 고성능 클러스터에서 탄생했으며 계속해서 새로운 기능을 반복하고 있습니다. 현재 이 클러스터의 크기는 계속 확장되고 있습니다.
NVIDIA China 솔루션 및 엔지니어링 총괄 관리자 Dr. Junjie Lai: 고속 IB 네트워크로 상호 연결된 GPU 클러스터는 대형 모델 시대의 핵심 인프라입니다. NVIDIA와 Baidu Intelligent Cloud는 국내 클라우드 컴퓨팅 시장에서 가장 큰 고성능 GPU/IB 클러스터를 공동으로 구축했으며, 이는 대형 모델 분야에서 Baidu의 더 큰 혁신을 가속화할 것입니다.
고성능 클러스터는 단순한 컴퓨팅 성능의 축적이 아닙니다. 또한 클러스터의 전반적인 컴퓨팅 성능을 끌어내기 위해서는 특별한 설계와 최적화가 필요합니다.
분산 훈련에서 GPU는 기계 간 및 기계 내에서 지속적으로 통신합니다. IB, RoCE 등의 고성능 네트워크를 활용하여 기계 간 통신을 위한 높은 처리량과 낮은 지연 시간의 서비스를 제공하는 동시에 서버의 내부 네트워크 연결과 클러스터 네트워크의 통신 토폴로지를 특별히 설계해야 합니다. 대규모 모델 교육의 통신 요구 사항을 충족합니다.
궁극적인 설계 최적화를 달성하려면 AI 작업의 각 작업이 인프라에 무엇을 의미하는지에 대한 깊은 이해가 필요합니다. 분산 훈련의 다양한 병렬 전략, 즉 모델, 데이터 및 매개변수를 분할하는 방법은 다양한 데이터 통신 요구 사항을 생성합니다. 예를 들어 데이터 병렬성과 모델 병렬성은 수많은 기계 내 및 기계 간 Allreduce 작업을 도입합니다. 기계 간 All2All 작업을 생성하는 4D 하이브리드 병렬 처리는 다양한 병렬 전략에 의해 생성된 통신 작업을 도입합니다.
이를 위해 Baidu Smart Cloud는 독립형 서버와 클러스터 네트워크 모두의 설계를 최적화하여 고성능 GPU 클러스터를 구축합니다.
독립형 서버 측면에서 바이두 스마트 클라우드의 슈퍼 AI 컴퓨터 X-MAN이 이제 4세대로 진화했습니다. X-MAN 4.0은 GPU용 고성능 카드 간 통신을 구축하여 단일 시스템 내에서 134GB/s의 Allreduce 대역폭을 제공합니다. 이것은 현재 최고 수준의 맞춤화와 가장 전문화된 재료를 갖춘 Baidu의 서버 제품입니다. MLCommons 1.1 목록에서 X-MAN 4.0은 동일한 구성으로 독립 실행형 하드웨어 성능 부문 TOP2에 올랐습니다.
클러스터 네트워크 측면에서 대규모 모델 훈련에 최적화된 3계층 Clos 아키텍처는 대규모 훈련 중에 클러스터의 성능과 가속을 보장하도록 특별히 설계되었습니다. 기존 방식과 비교하여 이 아키텍처는 8개의 레일로 최적화되어 서로 다른 시스템에서 동일한 번호를 가진 카드 간의 통신에서 홉 수를 최소화하고 동일한 카드의 가장 큰 비율로 Allreduce 작업을 지원합니다. AI 훈련의 네트워크 트래픽은 높은 처리량과 낮은 대기 시간의 네트워크 서비스입니다.
이 네트워크 아키텍처는 최대 16,000개의 카드로 초대형 클러스터를 지원할 수 있습니다. 이 규모는 현 단계의 모든 IB 네트워크 박스 네트워킹 중 가장 큰 규모입니다. 클러스터의 네트워크 성능은 98% 수준으로 안정적이고 일관적이며, 이는 안정적인 통신 상태에 가깝습니다. 대형 모델 알고리즘 팀의 검증을 통해 이 초대형 클러스터에는 수천억 개의 모델 훈련 작업이 제출되었으며, 동일한 머신 크기에서 전체 훈련 효율성은 이전 세대 클러스터의 3.87배였습니다.
그러나 대규모, 고성능 이기종 클러스터를 구축하는 것은 대규모 모델을 성공적으로 구현하기 위한 첫 번째 단계일 뿐입니다. AI 대형 모델 훈련 작업을 성공적으로 완료하려면 소프트웨어와 하드웨어의 보다 체계적인 최적화가 필요합니다.
지난 몇 년 동안 대형 모델의 매개변수 크기는 매년 10배씩 증가했습니다. 2020년경에는 수천억 개의 매개변수가 있는 모델이 대형 모델로 간주됩니다. 2022년에는 이미 수천억 개의 매개변수가 대형 모델로 호출되어야 합니다.
대형 모델 이전에는 일반적으로 단일 시스템의 단일 카드 또는 단일 시스템의 여러 카드로 AI 모델 교육으로 충분했습니다. 교육 주기는 몇 시간에서 며칠까지였습니다. 이제 수천억 개의 매개변수가 있는 대형 모델의 학습을 완료하려면 수백 대의 서버와 수천 개의 GPU/XPU 카드를 사용한 대규모 클러스터 분산 학습이 필수가 되었으며, 학습 주기도 수개월로 늘어났습니다.
1,750억 개의 매개변수(3,000억 개의 토큰 데이터)로 GPT-3를 훈련하려면 A100 1블록은 반정밀도 피크 성능 계산 기준으로 32년이 걸리고, A100의 1024개 블록은 45의 자원 활용을 기준으로 34일이 걸립니다. %. 물론, 시간을 고려하지 않더라도 모델 매개변수가 단일 카드의 메모리 용량을 초과했기 때문에 A100 한 대가 1,000억 개의 매개변수 규모로 모델을 훈련할 수 없습니다.
분산형 훈련 환경에서 대규모 모델 훈련을 진행하려면 단일 카드의 훈련 주기가 수십 년에서 수십 일로 단축되므로 컴퓨팅 벽, 비디오 메모리 벽, 통신 벽 등 다양한 과제를 돌파해야 합니다. 클러스터의 모든 리소스를 최대한 활용하여 교육 프로세스 속도를 높이고 교육 주기를 단축할 수 있습니다.
컴퓨팅 월은 단일 카드의 컴퓨팅 성능과 모델의 전체 컴퓨팅 성능 사이의 큰 차이를 나타냅니다. A100은 단일 카드 컴퓨팅 성능이 312 TFLOPS에 불과한 반면, GPT-3에는 314 ZFLOP의 총 컴퓨팅 성능이 필요합니다. 이는 9차수 차이입니다.
비디오 메모리 월은 하나의 카드가 대형 모델의 매개변수를 완전히 저장할 수 없다는 사실을 의미합니다. GPT-3의 1,750억 매개변수에만 700GB의 비디오 메모리가 필요한 반면(각 매개변수는 4바이트로 계산됨) NVIDIA A100 GPU에는 80GB의 비디오 메모리만 있습니다.
컴퓨팅 월과 비디오 메모리 월의 본질은 제한된 단일 카드 용량과 모델의 막대한 저장 및 컴퓨팅 요구 사항 사이의 모순입니다. 이는 분산 훈련을 통해 해결할 수 있지만, 분산 훈련 후에는 통신 벽의 문제에 직면하게 됩니다.
통신 벽은 주로 클러스터의 각 컴퓨팅 단위가 분산 훈련에서 빈번한 매개변수 동기화를 필요로 하기 때문에 통신 성능이 전체 컴퓨팅 속도에 영향을 미치기 때문입니다. 통신 벽을 잘 처리하지 않으면 클러스터가 커지고 훈련 효율성이 떨어질 가능성이 높습니다. 통신 벽을 성공적으로 돌파한 것은 클러스터의 강력한 확장성에 반영됩니다. 즉, 클러스터의 멀티 카드 가속 기능이 규모와 일치합니다. 여러 카드의 선형 가속 비율은 클러스터에 있는 여러 카드의 가속 성능을 평가하는 지표입니다. 값이 높을수록 좋습니다.
이 벽은 다중 기계 및 다중 카드 훈련 중에 나타나기 시작합니다. 대형 모델의 매개변수가 점점 커질수록 해당 클러스터 크기도 점점 커지고 이 세 벽은 점점 더 높아집니다. 동시에 대규모 클러스터를 장기간 훈련하는 동안 장비 오류가 발생할 수 있으며, 이는 훈련 프로세스에 영향을 미치거나 중단될 수 있습니다.
일반적으로 인프라 관점에서 대규모 모델 학습을 살펴보면 전체 프로세스는 대략 다음 두 단계로 나눌 수 있습니다.
훈련을 위해 제출 대형 모델을 구축한 후 AI 프레임워크는 대형 모델의 구조 및 훈련 클러스터의 기능과 같은 정보를 종합적으로 고려하고 이 훈련 작업에 대한 병렬 훈련 전략을 수립하며 AI 배치를 완료합니다. 작업. 이 과정은 모델을 분해하고 작업을 배치하는 것, 즉 대형 모델을 분해하는 방법과 분해된 부품을 클러스터의 각 GPU/XPU에 배치하는 방법입니다.
GPU/XPU에서 실행되도록 배치된 AI 작업의 경우 AI 프레임워크는 단일 카드 런타임 및 클러스터 통신 수준에서 전체 링크 최적화를 수행하도록 클러스터를 공동으로 훈련하여 작업 중에 각 AI 작업의 운영 효율성을 가속화합니다. 데이터 로딩, 운영자 계산, 커뮤니케이션 전략 등을 포함한 대규모 모델 훈련 프로세스 예를 들어, AI 업무를 수행하는 일반 운영자를 최적화된 고성능 운영자로 교체하고, 현재 병렬 전략에 적응하는 통신 전략과 클러스터 네트워크 역량 훈련을 제공한다.
위에서 공식화한 병렬 전략에 따라 대규모 모델 훈련 작업이 실행되기 시작하며 훈련 클러스터는 AI 작업을 위한 다양한 고성능 리소스를 제공합니다. 예를 들어 AI 태스크가 어떤 환경에서 실행되는지, AI 태스크에 대한 리소스 도킹을 어떻게 제공하는지, AI 태스크가 데이터를 읽고 저장하기 위해 어떤 저장 방식을 사용하는지, GPU는 어떤 네트워크 시설을 사용하는지 등이다. /XPU 등을 통해 통신합니다.
동시에 운영 과정에서 훈련 클러스터는 AI 프레임워크와 결합되어 탄력적인 내결함성 및 기타 방법을 통해 대형 모델의 장기 훈련을 위한 안정적인 환경을 제공합니다. 예를 들어 클러스터 내 다양한 리소스와 AI 작업의 실행 상태를 어떻게 관찰하고 인지하는지, 클러스터가 변경될 때 리소스와 AI 작업을 예약하는 방법 등이 있습니다.
위 두 단계의 해체에서 우리는 전체 대형 모델 훈련 프로세스가 AI 프레임워크와 훈련 클러스터의 긴밀한 협력에 의존하여 세 개의 벽을 돌파하고 효율성과 효율성을 공동으로 보장한다는 것을 알 수 있습니다. 대규모 모델 훈련의 안정성.
바이두는 AI 및 대형 모델 분야에서 다년간의 기술 축적과 엔지니어링 실무를 결합해 풀스택 자체 개발 AI 인프라를 출시했다. 2022년 말 AI' '칩-프레임워크-모델'의 3계층 기술 스택을 포함한 '빅 베이스'는 Kunlun 코어, PaddlePaddle 및 Wenxin 대형에 해당하는 핵심 자체 개발 기술과 모든 수준의 선도적인 제품을 보유하고 있습니다. 각각 모델.
Baidu Smart Cloud는 이러한 세 가지 기술 스택을 기반으로 개발 및 리소스 수준에서 각각 효율성을 향상시키기 위해 "AI 중간 플랫폼"과 "Baidu Baige·AI 이기종 컴퓨팅 플랫폼"이라는 두 가지 주요 AI 엔지니어링 플랫폼을 출시했습니다. 세 개의 벽을 돌파하고 훈련 과정을 가속화합니다.
그 중 "AI 중간 플랫폼"은 AI 프레임워크를 기반으로 훈련의 전체 라이프사이클을 포괄하는 대형 모델 훈련 프로세스를 위한 병렬 전략과 최적화된 환경을 개발합니다. 'Baidu Baige'는 효율적인 칩 구현을 실현하고 다양한 AI 리소스 관리 및 작업 스케줄링 기능을 제공합니다.
Baidu의 "AI Big Base"는 각 계층에서 기술 스택의 전체 스택 통합 및 시스템 최적화를 수행하고 Yunhezhi의 기술 통합 구축을 완료했으며 대규모 모델 훈련을 가속화합니다.
Hou Zhenyu, Baidu 그룹 부사장: 대규모 모델 훈련은 체계적인 프로젝트입니다. 클러스터 규모, 훈련 시간, 비용이 모두 과거에 비해 많이 늘어났습니다. 전체 스택 최적화 없이는 대규모 모델 훈련을 성공적으로 완료하기가 어렵습니다. 수년간 대형 모델에 대한 Baidu의 기술 투자 및 엔지니어링 관행을 통해 대형 모델 교육을 가속화할 수 있는 완전한 소프트웨어 스택 기능 세트를 구축할 수 있었습니다.
다음으로 위에서 언급한 대형 모델 훈련 프로세스의 두 단계를 결합하여 "AI Big Base" 기술 스택의 각 계층이 어떻게 서로 통합되고 시스템이 end-to를 달성하기 위해 최적화되는지 설명하겠습니다. -대규모 모델 훈련을 종료합니다. 최적화 및 가속화를 종료합니다.
Flying Paddle은 대규모 모델 교육을 위한 데이터 병렬성, 모델 병렬성, 파이프라인 병렬성, 매개변수 그룹화 및 슬라이싱, 전문가 병렬성과 같은 풍부한 병렬 전략을 제공할 수 있습니다. 이러한 병렬 전략은 10억에서 1000억, 심지어는 수조에 이르는 매개변수를 사용하여 대규모 모델을 교육하는 요구 사항을 충족하고 컴퓨팅 및 비디오 메모리 벽에서 획기적인 발전을 이룰 수 있습니다. 2021년 4월, Feipiao는 업계 최초로 수천억 개의 대형 모델 훈련을 월 단위로 완료할 수 있도록 지원할 수 있는 4D 하이브리드 병렬 전략을 제안했습니다.
Baidu Baige는 노드 내 아키텍처 인식, 노드 간 아키텍처 인식 등을 포함하여 대규모 모델 교육 시나리오를 위해 특별히 준비된 클러스터 토폴로지 인식 기능을 갖추고 있습니다. 서버, GPU/XPU 및 GPU/XPU 링크 방법, 서버 및 기타 정보 간의 GPU/XPU 및 GPU/XPU 네트워크 링크 방법.
대형 모델 교육 작업이 시작되기 전에 Feipiao는 Baidu Baige 플랫폼의 토폴로지 인식 기능을 기반으로 클러스터에 대한 통합 분산 리소스 그래프를 구성할 수 있습니다. 동시에, 플라잉 패들은 훈련할 대형 모델을 기반으로 통일된 논리적 계산 보기를 형성합니다.
이 두 그림을 기반으로 Feipiao는 모델에 대한 최적의 모델 분할 및 하드웨어 조합 전략을 자동으로 검색하고 최적의 전략에 따라 모델 매개변수, 그라데이션 및 최적화 상태를 다양한 GPU/XPU에 할당합니다. 훈련 성과를 향상시키기 위한 과제.
예를 들어 모델 병렬 AI 작업을 동일한 서버의 서로 다른 GPU에 배치하면 이러한 GPU는 서버 내부의 NVSwitch를 통해 연결됩니다. 데이터 병렬 및 파이프라인 병렬 AI 작업을 서로 다른 서버의 동일한 수의 GPU에 배치하고 이러한 GPU는 IB 또는 RoCE를 통해 연결됩니다. AI 작업 유형에 따라 AI 작업을 배치하는 이러한 방식을 통해 클러스터 리소스를 효율적으로 사용할 수 있으며 대규모 모델 학습을 가속화할 수 있습니다.
훈련 작업을 실행하는 동안 리소스 오류나 클러스터 크기 변경 등 클러스터가 변경되면 Baidu Baige는 내결함성 교체 또는 탄력적 확장 및 축소를 수행합니다. 계산에 참여하는 노드의 위치가 변경되었으므로 노드 간의 통신 모드가 더 이상 최적이 아닐 수 있습니다. Flying Paddle은 최신 클러스터 정보를 기반으로 모델 분할 및 AI 작업 배치 전략을 자동으로 조정할 수 있습니다. 동시에 Baidu Baige는 해당 작업 및 리소스의 일정을 완료합니다.
Fei Paddle의 통합 리소스 및 컴퓨팅 보기와 자동 병렬 기능은 Baidu Baige의 탄력적인 스케줄링 기능과 결합되어 클러스터 훈련의 전체 수명 주기를 포괄하는 대규모 모델의 엔드투엔드 적응형 분산 훈련을 실현합니다.
이것은 AI 프레임워크와 AI 이기종 컴퓨팅 성능 플랫폼 간의 심층적인 상호 작용으로 컴퓨팅 성능, 프레임워크 및 알고리즘의 삼위일체 시스템 최적화를 실현하고 대규모 모델의 자동적이고 유연한 교육을 지원합니다. End-to-End 실제 테스트 성능이 2.1배 향상되어 대규모 훈련의 효율성을 보장합니다.
모델 분할 및 AI 작업 배치를 완료한 후, 훈련 과정에서 운영자가 Flying Paddle 및 Pytorch와 같은 다양한 주류 AI 프레임워크 및 다양한 컴퓨팅 카드에서 계산을 가속화할 수 있도록 합니다. , Baidu Baige AI 가속 제품군이 플랫폼에 내장되어 있습니다. AI 가속 제품군에는 데이터 로딩, 모델 계산, 분산 통신 및 기타 차원의 차원에서 전체 링크를 최적화하는 데이터 계층 스토리지 가속, 훈련 및 추론 가속 라이브러리 AIAK가 포함되어 있습니다.
그 중 데이터 로딩 및 모델 계산의 최적화는 클러스터 IB 또는 RoCE와 같은 고성능 네트워크와 특별히 최적화된 통신 토폴로지를 결합하여 단일 카드의 운영 효율성을 효과적으로 향상시킬 수 있습니다. 합리적인 AI 작업 배치 전략, 협력하여 의사소통 벽 문제를 해결합니다.
Baidu Baige의 킬로 카드 규모 클러스터에서 멀티 카드 가속 비율이 90%에 도달하여 클러스터의 전체 컴퓨팅 성능이 완전히 발휘될 수 있습니다.
2022년 11월에 출시된 MLPerf Training v2.1의 테스트 결과에서 Baidu가 Fei Paddle과 Baidu Baige를 사용하여 제출한 모델 훈련 성능 결과는 동일한 GPU 구성에서 end-to-end 훈련 시간으로 세계 1위를 차지했습니다. 및 훈련 처리량은 NGC PyTorch 프레임워크를 초과합니다.
Baidu Baige는 Baidu Taihang 탄력적 베어메탈 서버 BBC, IB 네트워크, RoCE 네트워크, 병렬 파일 스토리지 PFS, 객체 스토리지 BOS, 데이터 레이크 스토리지를 포함하여 다양한 컴퓨팅, 네트워크, 스토리지 및 기타 AI 리소스를 제공할 수 있습니다. RapidFS와 같은 대규모 모델 훈련에 적합한 클라우드 컴퓨팅 리소스입니다.
작업 실행 시 이러한 고성능 리소스를 합리적으로 결합하여 AI 운영 효율성을 더욱 향상시키고 프로세스 전반에 걸쳐 AI 작업의 컴퓨팅 가속화를 실현할 수 있습니다. AI 작업이 시작되기 전에 객체 스토리지 BOS의 훈련 데이터를 워밍업할 수 있으며, 탄력적인 RDMA 네트워크를 통해 데이터 레이크 스토리지 가속 RapidFS에 데이터를 로드할 수 있습니다. 탄력적 RDMA 네트워크는 기존 네트워크 대비 통신 지연 시간을 2~3배 줄일 수 있으며, 고성능 스토리지를 기반으로 AI 작업 데이터 읽기 속도를 가속화한다. 마지막으로 AI 작업 계산은 고성능 Baidu Taihang 탄력적 베어메탈 서버 BBC 또는 클라우드 서버 BCC를 통해 수행됩니다.
AI 작업을 실행하려면 고성능 리소스가 필요할 뿐만 아니라 클러스터의 안정성을 보장하고 리소스 오류 발생을 최소화하여 훈련이 중단되지 않도록 합니다. 그러나 리소스 오류를 완전히 피할 수는 없습니다. AI 프레임워크와 훈련 클러스터는 훈련 작업이 중단된 후 가장 최근 상태에서 복구될 수 있도록 공동으로 보장하여 대규모의 장기 훈련을 위한 안정적인 환경을 제공해야 합니다. 모델.
Baidu가 자체 개발한 이기종 컬렉션 라이브러리 ECCL은 Kunlun 코어와 기타 이기종 칩 간의 통신을 지원하고 느린 노드와 결함이 있는 노드에 대한 인식을 지원합니다. Baidu Baige의 리소스 탄력성과 내결함성 전략을 통해 느린 노드와 결함이 있는 노드가 제거되고 최신 아키텍처 토폴로지가 Feipiao에 피드백되어 작업을 재배치하고 해당 훈련 작업을 다른 XPU/GPU에 할당하여 원활한 훈련 실행을 보장합니다. 효율적으로.
대형 모델은 인공지능이 일반 지능으로 나아가기 위한 획기적인 기술입니다. 초대형 컴퓨팅 성능과 풀스택 통합 소프트웨어 최적화가 이 필수 질문에 대한 최고의 답변입니다.
사회와 산업이 자신의 대형 모델을 신속하게 훈련하고 시대의 기회를 포착할 수 있도록 Baidu Smart Cloud는 2022년 말에 Baidu의 "AI Big"의 풀 스택 기능을 갖춘 Yangquan 지능형 컴퓨팅 센터를 출시했습니다. 4EFLOPS의 이기종 컴퓨팅을 제공할 수 있는 Base"입니다. 컴퓨팅 성능. 이는 현재 아시아에서 가장 크고 기술적으로 가장 발전된 데이터 센터입니다.
현재 바이두 스마트 클라우드는 다양한 지역의 중앙 클라우드, 엣지 클라우드 BEC, 로컬 컴퓨팅 클러스터 LCC, 프라이빗을 통해 'AI 빅 베이스'의 모든 기능을 외부에 개방해 빅 모델 시대의 포용적 AI를 구현하고 있다. cloud ABC Stack 등 다양한 형태로 제공되어 사회와 산업계에서 쉽게 스마트한 서비스를 얻을 수 있습니다.
위 내용은 AI 대형베이스, 대형모델 시대의 답의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!