집 >기술 주변기기 >일체 포함 >대형 AI 모델의 등장으로 국산 GPU의 컴퓨팅 성능 테스트

대형 AI 모델의 등장으로 국산 GPU의 컴퓨팅 성능 테스트

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로: 2023-06-12 17:44:22704검색

ChatGPT가 인기를 얻은 이후 대형 AI 모델의 연구 개발이 속속 등장했고, 다양한 유형의 대형 AI 모델도 속속 출시되었습니다. 중국에서는 수백 가지 모델의 광적인 전쟁이 벌어졌습니다.

혁신적인 데이터 모델인 ChatGPT는 콘텐츠 제작 방식의 변화를 가져올 뿐만 아니라 업계가 일반 인공 지능의 희망을 볼 수 있도록 하여 대규모 AI 모델과 새로운 애플리케이션의 지속적인 출현을 촉진합니다. 전문가들에 따르면, 미래 인공지능 연구의 초점은 크게 대형 모델로 옮겨갈 것이며, 대형 모델 시대가 열리고 있습니다.

AI大模型兴起考验国产GPU算力成色

전통적인 인공 지능의 광범위한 적용은 컴퓨팅 성능, 데이터 및 알고리즘의 세 가지 요소로 구성됩니다. 그러나 일반 인공지능(AGI) 시대가 도래하면서 대용량 데이터는 더 높은 예측 정확도와 일반화 능력을 달성하기 위해 많은 훈련과 최적화가 필요하며, 컴퓨팅 파워에 대한 수요는 더 이상 예전과 같지 않습니다.

대형 모델이 본격화되는 가운데 컴퓨팅 파워 공급과 수요 사이의 엄청난 '격차'는 여전히 벌어지고 있다. 컴퓨팅 파워에 대한 '불안'을 어떻게 해결할지는 업계의 새로운 목표가 됐다.

컴퓨팅 성능에는 큰 격차가 있습니다

Transformer 구조를 기반으로 하는 대규모 모델의 지속적인 최적화에는 점점 더 많은 수의 매개변수를 "공급"해야 합니다. 훈련 매개변수의 크기가 증가함에 따라 컴퓨팅 성능에 대한 수요도 증가하고 컴퓨팅 성능 클러스터가 점점 더 복잡해지고 있습니다. 머리카락이 엄청납니다.

ChatGPT를 예로 들면, OpenAI는 ChatGPT를 훈련하기 위해 거의 30,000개의 NVIDIA V100 그래픽 카드로 구성된 거대한 컴퓨팅 성능 클러스터를 구축했습니다. 반정밀도 FP16으로 계산하면 거의 4000P에 달하는 컴퓨팅 파워 클러스터입니다.

보고서에 따르면 GPT-4의 매개변수 규모는 1000억 수준에 도달했으며 해당 컴퓨팅 성능 요구 사항도 크게 증가했습니다. 데이터에 따르면 대규모 모델 매개변수의 수가 컴퓨팅 성능의 제곱에 비례하여 증가하는 것으로 나타났습니다.

대형 AI 모델에 전념하는 기업이 급증하고, 대형 모델을 둘러싼 인공 지능 생태계와 이에 따른 추론을 위한 컴퓨팅 성능에 대한 수요가 결합되면서 미래의 컴퓨팅 성능 격차는 더욱 커질 것입니다.

분명히 컴퓨팅 성능이 충분한지 여부가 각 회사의 대형 모델 제품의 성패를 결정합니다. Tianshu Zhixin 제품 라인의 Zou Yi 사장은 선두 기업의 경우 초기 GPT 대형 모델에는 약 10,000개의 NVIDIA GPU가 필요하지만, 반복적인 대형 모델을 완성하려면 최소 수천 개의 최첨단 GPU가 필요할 수 있다고 믿습니다. 이 분야에서 많은 추종자들이 등장함에 따라, 뒤따르는 기업들은 컴퓨팅 파워 측면에서 선두 기업들에게 뒤처져서는 안 되며, 따라잡기 위해서는 컴퓨팅 파워 인프라에 더 많은 투자를 해야 합니다.

Biren Technology의 시스템 아키텍처 담당 부사장 Ding Yunfan은 인공지능 산업의 대규모 모임인 베이징 Zhiyuan 컨퍼런스에서 "고성능 범용 GPU를 기반으로 한 국내 대형 모델 훈련 시스템 구축"이라는 주제로 연설했습니다. 그는 ChatGPT의 성공 요인이 엔지니어링과 알고리즘의 공동 혁신에 있다고 지적했습니다. 특히 고품질 데이터는 엔진의 역할을 하며, 이는 대규모뿐만 아니라 가속기 역할도 합니다. GPU 클러스터뿐 아니라 스토리지 및 네트워크 클러스터도 있습니다.

금지 조치로 인해 국내 시장의 주요 수요는 NVIDIA가 중국 시장을 위해 출시한 A800 및 H800입니다. 수요가 계속 확대되면서 NVIDIA A800의 가격이 놀라울 정도로 상승하고 배송 주기도 길어졌습니다. 일부 새로운 주문은 도착해야 할 수도 있습니다. 12월까지는 배송되지 않을 것입니다.”

다행히 많은 국내 기업들이 범용 GPU 분야에서 선두를 달리고 있으며, 획기적인 AIGC 산업의 부상과 함께 칩 양산, 에코 구축, 애플리케이션 확장 분야에서도 진전을 보이고 있습니다. 새로운 시장 공간도 탄생했습니다.

컴퓨팅 성능, 하드웨어 및 소프트웨어가 필요합니다

우리는 전례 없는 새로운 비즈니스 기회에 직면하고 있지만 대형 AI 모델의 부상 기회를 포착하고 대형 모델을 진정으로 지원하는 컴퓨팅 성능 요구 사항을 상향식으로 이해해야 합니다.

이와 관련하여 Zou Yi는 모델, 컴퓨팅 프레임워크 계층 및 운영자 가속화에서 시작하여 컴퓨팅 성능이 세 가지 주요 요소를 충족해야 한다고 말했습니다. 첫째, 보편적이며 모델의 빠른 변형, 새로운 운영자의 신속한 지원을 지원할 수 있습니다. 새로운 통신의 신속한 지원 두 번째는 기존 알고리즘 모듈을 사용하여 구현하고 튜닝 경험을 참조로 사용할 수 있기 때문에 사용하기 쉽습니다. 세 번째는 병렬 컴퓨팅을 재구성하고 메모리 액세스를 완전히 교환할 수 있기 때문에 사용하기 쉽습니다. , 컴퓨팅을 완전히 상호 연결합니다.

이 세 가지 주요 요소를 실현하기 위해서는 실제로 더 근본적인 논리가 있습니다. Kunlun 핵심 R&D 이사 Luo Hang이 직설적으로 말했듯이 국내 컴퓨팅 파워 산업화는 세 개의 좁은 문을 통과해야 합니다. 수익성 달성은 칩의 성숙도를 측정하는 지표 중 하나입니다. 두 번째는 생태학입니다. 고객이 애플리케이션을 더 잘 개발할 수 있도록 하려면 합리적이고 적합한 소프트웨어 생태계를 구축하기 위해 노력해야 합니다. 제품 가치 제공을 달성하려면 수직 산업과 결합되어야 합니다.

또한 훈련 매개변수의 대규모 확장을 추가로 지원하려면 GPU 제조업체는 수천에서 수만 개의 GPU 카드 훈련 클러스터를 구축할 수 있어야 할 뿐만 아니라 훈련 중에도 실패 없이 지속적으로 작동할 수 있도록 보장해야 합니다. 제품 안정성과 신뢰성에 해로운 교육 과정은 매우 엄격한 요구 사항을 만들어냅니다. 동시에 컴퓨팅 성능의 탄력적 확장성을 달성하려면 확장 가능한 탄력적 기능도 지원해야 합니다.

Ding Yunfan의 요약에 따르면, 수천억 개의 매개변수가 포함된 대규모 모델을 교육할 때 고객은 저장성과 확장성을 가장 중요하게 생각합니다. 이 외에도 고객은 사용하기 쉽고 빠르며 비용 효율적인 모델을 요구합니다.

대형 모델의 개발을 전폭적으로 지원하기 위해 Cambrian, Kunlun Core, Suiyuan, Biren, Tianshu Zhixin, Muxi, Moore Thread 및 기타 제조업체를 포함한 국내 제조업체도 기본 기술 지원을 위해 많은 작업을 수행했다는 점은 언급할 가치가 있습니다. . 숙제, 데이터 재사용 극대화, 확장 가능한 대규모 행렬 계산 및 비동기 저장 및 계산, 혼합 정밀도 변환기 가속을 통해 칩 성능을 향상시킵니다. 동시에 우리는 기본 소프트웨어의 역량을 지속적으로 향상시키고 있습니다.

"GPU 컴퓨팅 능력, 비용 등에 초점을 맞춘 것 외에도 Biren은 다차원적 측면에서도 강력한 지원을 제공합니다. 첫째, 필요에 따라 클러스터 규모를 확장할 수 있고 여러 데이터 평면이 병렬로 통신하여 충돌을 줄일 수 있습니다. 둘째, 여러 머신에 액세스할 수 있습니다. 학습 프레임워크는 데이터 병렬 차원에서 탄력적인 스케줄링을 수행하고, 자동 내결함성과 확장 및 축소를 지원하고, 훈련 속도를 크게 높이고, 효율성을 향상시키며, 스위치 간 작업 마이그레이션을 지원하여 단일 스위치에서 리소스 조각화를 줄입니다. , 자원 활용도를 향상시키고 작업 안정성을 보장합니다. "라고 Ding Yunfan은 말했습니다.

생태학은 미래의 열쇠입니다

더 깊이 살펴보면, 국내 대형 모델의 훈련은 대형 컴퓨팅 성능 GPU의 지원과 불가분의 관계에 있으며, 풀 스택 커버리지로 소프트웨어와 하드웨어를 통합하는 성숙한 산업 생태계의 구축도 필요합니다.

대형 AI 모델을 훈련하는 것은 포괄적인 업그레이드를 테스트하는 체계적인 프로젝트로 간주될 수 있습니다. Ding Yunfan은 이 프로젝트에는 고성능 컴퓨팅 클러스터, 기계 학습 플랫폼, 가속 라이브러리, 교육 프레임워크 및 추론 엔진이 포함되어 있으며 효율적인 상호 연결을 지원하고 교육 프레임워크와 통합하기 위해 CPU, 스토리지 및 통신을 포함한 분산 하드웨어가 필요하다고 말했습니다. 프로세스는 병렬 확장, 안정성 및 신뢰성을 달성하는 동시에 포괄적인 협업을 달성합니다.

이러한 요구 때문에 국내 GPU는 컴퓨팅 성능의 기반에 국한되지 않는 관점에서 대형 모델 훈련 시스템에 적응해야 합니다. 어떻게 하면 업계 파트너에게 원스톱 대형 모델 컴퓨팅 성능을 제공하고 서비스를 활성화할 수 있는지가 중요합니다. 따라서 궁극적인 테스트도 중요합니다.

이러한 수요와 관련하여 일부 국내 GPU 제조업체는 이미 선두에 서서 대규모 컴퓨팅 파워 칩을 기반으로 한 고성능 인프라, 지능형 스케줄링 및 수천 개의 관리를 포함하여 소프트웨어와 하드웨어를 통합하는 풀 스택 대형 모델 솔루션을 만드는 데 전념하고 있습니다. 우리는 기계 학습 플랫폼, 고성능 연산자 라이브러리 및 통신 라이브러리는 물론 주류 대형 모델에 호환되고 적응할 수 있는 교육 프레임워크에 대한 노력을 계속하고 있습니다.

컴퓨팅 파워와 대형 모델 애플리케이션의 공동 혁신을 공동으로 추진하기 위해 GPU 제조업체와 국내 대형 모델의 산업 생태계도 협력 속도를 가속화하고 있습니다.

Biren Technology는 Zhiyuan Research Institute의 FlagOpen(Feizhi) 대형 모델 기술 오픈 소스 시스템과 Zhiyuan Research Institute의 "AI Open Ecological Laboratory" 프로젝트에 잇따라 참여하여 AI 대형 모델 소프트웨어 및 하드웨어 생태학적 건설. 과기부 과학기술혁신 2030 '차세대 인공지능' 주요 사업인 '인공지능 기본모델 지원 플랫폼 및 평가기술'이 쌍방이 참여해 중요한 진전을 이뤘다.

또한 Biren Technology는 "Fei Paddle AI Studio 하드웨어 생태 구역"의 건설 및 공동 출시에도 참여하여 Baidu Fei Paddle을 포함한 많은 생태 파트너와 긴밀히 협력하여 중국 AI 프레임워크와 AI 컴퓨팅 성능의 장점을 결합할 수 있기를 희망합니다. , 중국 AI 산업 발전을 위한 강력한 원동력을 제공합니다.

보고서에 따르면 Tianshu Zhixin의 범용 GPU 제품은 DeepSpeed, Colossal 및 BM Train과 같은 다양한 대형 모델 프레임워크를 광범위하게 지원합니다. 이를 기반으로 하는 컴퓨팅 파워 클러스터 솔루션은 LLaMa, GPT-2와 같은 주류 AIGC 대형 모델도 효과적으로 지원합니다. , CPM 등이 있습니다. Pretrain과 Finetune은 Tsinghua University, Zhiyuan University, Fudan University를 포함한 많은 국내 연구 기관의 오픈 소스 프로젝트에도 적용되었습니다.

향후 대형 AI 모델에 대한 수요는 계속 증가할 것입니다. 국내 GPU 제조업체가 계속해서 제품을 반복하고 컴퓨팅 성능 솔루션을 업그레이드하며 보다 효율적이고 복잡한 알고리즘을 지원하는 대형 모델에 적응하는 방법은 지속적인 테스트로 남을 것입니다.

【출처: Jiwei.com】

위 내용은 대형 AI 모델의 등장으로 국산 GPU의 컴퓨팅 성능 테스트의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

架构分布式栈线程值传递异步算法人工智能 transformer gpt-4 chatgpt 重构系统架构 AIGC gpt llama agi

성명：

이 기사는 sohu.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：일본 학교에서는 보안 효율성을 높이고 노동력을 절약하기 위해 AI와 드론 도입을 모색하고 있습니다.다음 기사：일본 학교에서는 보안 효율성을 높이고 노동력을 절약하기 위해 AI와 드론 도입을 모색하고 있습니다.