2023년 내내 글로벌 기술 커뮤니티는 대형 모델에 열광하고 있습니다. 대형 AI 모델과 산업 시나리오 사이의 최단 경로로서 클라우드 컴퓨팅 산업은 자연스럽게 대형 모델의 물결 속에서 많은 관심을 끌었습니다. 이 단계에서 클라우드 벤더들은 대형 모델 산업에 속속 진출해 대형 모델이 클라우드 컴퓨팅 산업에 가져올 가능성을 다각도로 탐색해 왔다.
그러나 우리는 이러한 핵심 노드를 무시하는 경향이 있습니다. "수백 개의 모델과 수천 개의 상태"를 갖춘 대규모 모델의 첫 번째 과제는 AI 컴퓨팅 성능입니다. 대형 모델 서비스를 잘하려면 컴퓨팅 파워 서비스도 잘해야 합니다.
AI 컴퓨팅 파워의 가장 기본적인 역량 속에 AI 클라우드 서비스가 어떻게 더 발전할 수 있을지에 대한 진정한 답이 있습니다.
9월 21일, Huawei Connected Conference 2023에서 Huawei 상무이사 겸 Huawei Cloud CEO인 Zhang Pingan은 "지능형 세계를 위한 클라우드 기반 구축, AI가 수천 개의 산업을 재편성"에 초점을 맞춘 기조 연설을 하고 Pangu 모델을 출시했습니다. 광업, 정부 업무, 자동차, 기상학, 의학, 디지털 인력, 연구 개발 등 분야의 혁신적인 서비스를 제공하고 Huawei Cloud Ascend AI 클라우드 서비스의 공식 출시를 발표하여 대규모 포괄적 혜택 실현을 가속화했습니다. 수천 개의 산업. Pangu 대형 모델의 구현에 초점을 맞춘 이번 Huawei Cloud 공유의 주제는 "어려운 문제를 해결하고 어려운 일을 수행"입니다. AI 컴퓨팅 성능을 유용하고, 충분하고, 사용하기 쉽고, 유용하게 만드는 것이 화웨이 클라우드가 해결하는 첫 번째 문제입니다.
컴퓨팅 파워가 국내에 들어오면서 AI가 도약하기 시작합니다.
이 중요한 "어려운 일"을 수행하기 위해 Shengteng AI 클라우드 서비스가 시작되었습니다.
큰 산과 강에는 AI의 엄청난 컴퓨팅 능력이 필요합니다
정보 혁명 이후 인간은 점차 기술 혁신의 규모가 컴퓨팅 파워 소비에 정비례한다는 사실을 발견했습니다. 이는 대형 모델을 통해 다시 한 번 확인되었습니다.
대형 모델의 출현과 성숙은 수천 개의 산업 분야에 새로운 기회를 가져왔습니다. 모든 산업의 모든 장면은 빅 모델로 통합될 가치가 있으며 대부분의 장면도 빅 모델로 재구성될 수 있습니다. 대규모 모델 규모와 많은 데이터 매개변수를 갖춘 대형 모델 자체의 특성이든, 다양한 산업에서 대형 모델에 대한 새로운 수요가 나타나든, 모두 동일한 결과를 가리키고 있습니다. 바로 사회 생산 시스템이 소비하는 AI 컴퓨팅 파워입니다. 기하급수적으로 늘어나게 됩니다.
대형 모델에는 대규모 컴퓨팅 성능이 필요하며 이는 업계의 합의가 되었습니다. 하지만 이 문제를 구체적으로 공개하면 AI 컴퓨팅 성능을 둘러싼 산업적 과제가 매우 다양하다는 것을 알 수 있습니다. 이를 네 가지 유형으로 요약할 수 있습니다. 공급과 수요의 모순, 에너지 효율성 문제, 운영 및 유지 관리 요구 사항, 보안 문제입니다.
먼저 AI 컴퓨팅 파워의 핵심 과제인 객관적인 수요 공급 불균형을 살펴보겠습니다.
2023년 7월 기준으로 중국에서는 총 130종의 대형 모델이 출시되었습니다. '100개 모델 대결'은 AI 컴퓨팅 파워의 엄청난 증가를 가져왔다. 관련 데이터 보고서에 따르면 전 세계 AI 컴퓨팅 전력 수요는 지난 10년 동안 30만 배 증가했고, 향후 10년 동안 수요가 500배 증가할 것으로 예상됩니다. '2022~2023년 중국 인공지능 컴퓨팅 파워 발전 평가 보고서'에 따르면, 2022년 중국에서 수행된 AI 컴퓨팅 총액은 일반 컴퓨팅을 넘어섰다. 가까운 미래에 AI 컴퓨팅 성능은 모든 계층의 수요가 가장 많고, 수요와 공급의 격차가 가장 크며, 리소스가 가장 제한된 컴퓨팅 형태가 될 것입니다.
둘째, 대형 모델과 대규모 컴퓨팅 성능은 심각한 에너지 효율성 문제를 가져옵니다.
대형 모델 훈련에는 클러스터형 AI 컴퓨팅이 필요하기 때문에 훈련 작업은 데이터 센터에 크게 의존합니다. AI 서버의 전력 밀도는 일반 서버의 전력 밀도를 훨씬 초과하며 단일 캐비닛의 전력 소비는 과거보다 6~8배 더 높습니다. . 이중 탄소의 맥락에서 데이터 센터의 에너지 효율 비율은 계속해서 하락해야 하므로 대형 모델로 인한 컴퓨팅 에너지 효율 문제가 시급해졌습니다. AI 컴퓨팅 성능 향상과 에너지 효율 비율 감소 사이의 균형을 어떻게 달성할 것인가는 업계가 직면해야 할 문제가 되었습니다.
또한 AI 컴퓨팅 파워를 적용하는 과정에서 일련의 운영 및 유지 관리 문제도 볼 필요가 있습니다. 대형 모델의 훈련 및 배포 목표가 다르고 각각의 훈련 및 배포 환경도 매우 다르기 때문에 해당 기간 동안 네트워크 지연, 모델 신뢰성, 운영 및 유지 관리 임계값과 같은 운영 및 유지 관리 문제가 자연스럽게 발생합니다. 예를 들어, 일부 대형 모델은 지원하기 위해 매우 큰 컴퓨팅 성능 클러스터가 필요하며, 다수의 서버와 컴퓨팅 장치 간의 조정에 문제가 발생하는 경우가 많습니다. 컴퓨팅 장치에 문제가 발생하면 개발자는 교육을 다시 시작해야 합니다. 대규모 모델 훈련에서는 훈련 작업의 빈번한 실패와 재시작으로 인해 막대한 시간, 인력, 컴퓨팅 성능 비용이 발생합니다. 따라서 대형 모델에는 충분한 AI 컴퓨팅 성능이 필요할 뿐만 아니라 사용자가 전반적인 운영 및 유지 관리 문제를 줄이는 데 도움이 되는 정교한 컴퓨팅 성능 서비스도 필요합니다.
마지막으로 대형 모델이 새로운 보안 문제를 야기한다는 점도 확인했습니다.
대형 모델의 배치 시나리오는 대부분 국가 경제 및 국민 생활과 관련되어 있으므로 모든 안전 위험을 제거해야 합니다. 데이터 액세스, 스토리지 암호화, 전송 보안 등의 영역에서 대형 모델에는 여전히 많은 보안 위험이 있습니다.
전체적으로 대형 모델은 일관성이 높은 제품은 아닙니다. 기술 분류가 복잡하고 엔지니어링 경로가 변경 가능하며 각 사용자는 자신의 필요에 따라 대형 모델을 미세 조정하고 사용자 정의해야 합니다. 이러한 문제는 대형 모델에 다양한 측면과 각도에서 AI 컴퓨팅 파워 서비스에 대한 차별화된 요구를 제공합니다.
대형 모델의 AI 컴퓨팅 성능 요구 사항을 충족하는 것은 대형 모델 시대의 첫 번째 시험 문제가 되었습니다.
Shengteng AI 클라우드 서비스를 실용적이고 세련되며 경쟁력있게 만드세요
Huawei Cloud가 컴퓨팅 성능에 대한 질문에 잘 답하려면 구성의 두 가지 측면을 고려해야 합니다. 하나는 AI 컴퓨팅 성능을 충분하고 가용성 있게 만드는 방법이고, 다른 하나는 측면에서 컴퓨팅 성능 서비스를 확장하는 방법입니다. 운영 및 유지 관리, 보안, 에너지 효율성 문제 등. AI 컴퓨팅 성능은 실용적이면서도 정확해야 합니다.
올해 7월, Huawei Cloud는 수천 가지 산업 분야의 사용자에게 급증하는 AI 컴퓨팅 성능을 제공할 수 있는 최신 Ascend AI 클라우드 서비스를 출시했습니다. 그 뒤에는 화웨이 클라우드의 탄탄한 컴퓨팅 인프라 구축이 있다.
지금까지 Huawei Cloud는 Gui'an, Ulanqab 및 Wuhu에 3개의 주요 AI 컴퓨팅 센터를 구축했습니다. 이를 기반으로 Shengteng AI 클라우드 서비스는 전국적으로 20ms의 대기 시간 주기를 달성했습니다. 사용자는 근거리 접근이 가능하며, 급증하는 AI 컴퓨팅 파워에 단일 광섬유를 연결해 즉시 서비스를 사용할 수 있다. Shengteng AI 클라우드 서비스는 대규모 모델 교육 데이터의 전체 수명 주기 보안을 보장하기 위해 데이터 전송 및 저장 암호화, 데이터 보안 삭제, 데이터 액세스 제어, 데이터 워터마킹 등 여러 기술을 채택하여 누출을 방지합니다. 기업이든 사회 전체이든 클라우드 서비스는 이중 탄소 시대에 AI 컴퓨팅 성능을 확보하는 가장 에너지 효율적인 방법이라는 점은 주목할 가치가 있습니다.
AI 컴퓨팅 성능의 궁극적인 성능을 달성하기 위해 Huawei Cloud는 인프라 위에 AI 클라우드 서비스에 대한 기술 최적화도 수행했습니다. 예를 들어 ModelArts는 데이터, 훈련 및 추론을 위한 3가지 가속 계층을 제공합니다. DataTurbo 데이터 가속 기술을 통해 컴퓨팅 노드 스토리지 리소스를 사용하여 분산 캐시를 구축하여 데이터 읽기 대기 시간을 밀리초 미만으로 줄일 수 있습니다. TrainTurbo 훈련 가속 기술은 훈련 데이터가 100T를 초과할 때 데이터 판독 시간을 50% 단축하고 전반적인 훈련 효율성을 20% 이상 향상시킬 수 있습니다. 모델 추론 과정에서 InferTurbo 추론 가속 기술은 그래프 편집 기술을 통해 모델 추론을 가속화하고, 풀링크 수직 협업 최적화를 통해 대형 모델의 추론 성능을 30% 향상시킵니다.
이러한 강력한 인프라와 핵심 기술의 지원으로 사용자는 컴퓨팅 성능을 '충분'할 뿐만 아니라 '사용하기 쉽게' 만들기 위해 일련의 " AI 컴퓨팅 성능을 더욱 효율적으로 만듭니다." "본질" 탐색.
예를 들어 AI 개발은 포괄적인 도구와 플랫폼에 의존합니다. Ascend AI 클라우드 서비스 뒤에는 이기종 컴퓨팅 아키텍처 CANN, 전체 시나리오 AI 프레임워크 MindSpore, AI 개발 생산 라인 ModelArts 등 Huawei가 계속 구축하고 있는 일련의 AI 기반 개발 도구 및 기술 플랫폼이 있습니다. , 대규모 모델에 분산 병렬 가속을 제공하기 위해 운영자 및 컴파일 최적화, 클러스터 수준 통신 최적화 등의 핵심 기능이 AI 컴퓨팅 성능 서비스의 기반을 마련합니다.
위에서 언급했듯이 대형 모델 훈련 및 배포 과정에서 우리는 일련의 운영 및 유지 관리, 에너지 효율성 및 기타 문제에 직면합니다. 컴퓨팅 파워 서비스 최적화 측면에서 Ascend AI 클라우드 서비스는 더 길고 안정적인 AI 컴퓨팅 파워 서비스를 제공할 수 있습니다. 킬로칼로리 훈련의 30일 장기 안정성도 90%에 달합니다. 2시간 경계 및 24시간 제공 솔루션: 중단점 복구 시간은 10분을 초과해서는 안 되며 작업 복구 시간은 30분 미만이어야 합니다.
모델 마이그레이션 측면에서 Huawei Cloud는 사용자에게 마이그레이션 도구 체인을 제공하고 풀 스택 개발 도구를 통합합니다. 이를 통해 일반적인 모델 마이그레이션 효율성은 2주 미만이고 주류 시나리오에서는 셀프 서비스 마이그레이션을 달성할 수 있습니다. 또한 Ascend AI 클라우드 서비스는 LLAMA, Stable Diffusion 등과 같은 업계의 주류 오픈 소스 대형 모델에도 적용되므로 Ascend AI 클라우드 서비스는 "다양한 모델과 수천 개의 상태"의 요구 사항을 진정으로 충족할 수 있습니다. 대형 모델.
운동선수에게 기본은 경쟁력입니다. 클라우드 + 대형 모델의 궤도에서 Huawei Cloud는 인프라, 기술 및 서비스의 통합을 통해 경쟁력을 갖추기 위해 AI 컴퓨팅 성능도 개발했습니다.
Paper의 사용하기 쉬운 AI 컴퓨팅 파워는 대형 모델 산업화의 초석이자 모든 이야기의 시작입니다.
컴퓨팅 성능, 기술, 시나리오: 대규모 모델 포지티브 사이클 구축
대형 모델의 갑작스러운 엄청난 지능적 기회에 직면하여 수천 가지 산업 분야의 사용자는 거대하고 차별화된 요구 사항을 가지고 있습니다. 컴퓨팅 성능이 부족한 사람도 있고, 모델이 필요한 사람도 있고, 시나리오를 찾는 사람도 있고, 특정 기술 도구의 도움이 필요한 사람도 있습니다. 어느 하나의 조건이 부족하면 대형 모델의 플라이휠이 회전하지 못하게 됩니다.
다른 관점에서 보면 시나리오 기반의 컴퓨팅 리소스, 기술 도구 및 모델 적용이 모두 버팀목이 될 수 있습니다. 이러한 요소는 비즈니스 사용자와 개발자가 전체 스택 협력과 상호 홍보를 통해 대형 모델로의 길을 시작하는 데 도움이 될 수 있습니다.
Huawei Cloud에서 제공하는 Shengteng AI 클라우드 서비스는 사용 가능하고 충분하며 사용하기 쉬운 AI 컴퓨팅 성능을 갖추고 있을 뿐만 아니라 Huawei Cloud의 일련의 레이아웃과 연결되어 앞으로 대형 모델을 '유용하게' 만들 수 있습니다. , 이를 통해 모델들은 어려운 문제를 해결하고 어려운 일을 함께 수행합니다.
예를 들어, 많은 기술 혁신과 Ascend AI 클라우드 서비스가 서로를 보완하고 AI 컴퓨팅 성능에 대한 높은 수요와 공급 어려움이라는 과제를 공동으로 해결하는 것을 볼 수 있습니다. Huawei Cloud의 최신 분산 QingTian 아키텍처는 이러한 효과를 제공합니다.
AIGC로 대표되는 대형 모델 애플리케이션의 컴퓨팅 성능 요구 사항은 분산 컴퓨팅 기능에 크게 의존하며 이는 컴퓨팅 성능 아키텍처에 새로운 과제를 제기하기도 합니다. 차세대 P2P 아키텍처인 분산형 QingTian 아키텍처는 기존 데이터 센터 컴퓨팅 클러스터를 고속 버스 기반 P2P 풀링 시스템 클러스터로 발전시켜 단일 네트워크의 성능 한계를 극복할 수 있습니다. 소프트웨어 및 하드웨어 협업과 관리 및 제어를 달성하고 리소스와 성능의 손실이 전혀 없으며 궁극적으로 사용자에게 성능, 신뢰성, 보안 및 신뢰도 측면에서 최고의 경험을 제공합니다.
또한 Huawei Cloud는 AI 클라우드 스토리지, GaussDB 벡터 데이터베이스, 디지털 인텔리전스 융합, Serverless+ 대형 모델 엔지니어링 제품군 등 일련의 분야에서 기술 혁신을 이루었으며, 끊임없이 진화하는 AI 요구 사항에 초점을 맞췄습니다. 시스템 아키텍처 계층에서 데이터 처리 계층, 모델 훈련 계층 및 애플리케이션 개발 계층은 체계적인 혁신을 달성하여 사용자가 AI 클라우드 서비스를 사용하는 데 대한 장애물을 제거하고 AI 컴퓨팅 성능이 수천 명의 시나리오 기반 요구 사항에 실제로 부합할 수 있도록 합니다. 산업.
기본적인 AI 컴퓨팅 성능과 일련의 기술 혁신 외에도 Huawei Cloud에서 제공하는 대형 모델 Pangu 시리즈가 있습니다. Huawei Full Connection Conference 2023에서는 Pangu 대형 모델이 업계의 더욱 심층적인 시나리오에서 구현되었음을 확인할 수도 있습니다.
자동차 산업에서 판구자동차의 대형 모델은 자동차 회사의 디자인, 생산, 마케팅, R&D 등을 포괄할 수 있으며, 자율주행 교육, 특수 장면 구현 등의 분야에서 독보적인 가치를 발휘합니다. 자율주행 분야에서 판구자동차의 대형 모델은 실제 현장에서 수집한 사진과 영상을 기반으로 현장의 디지털 트윈 공간을 구축하고, 움직이는 물체, 편집 가능한 날씨, 조명 등을 추가해 자율주행을 위한 장면 샘플을 생성할 수 있다. 운전학습. 항만, 광산 지역 등의 운영 시나리오에서 판구자동차 대형 모델의 다중 시나리오 및 다중 차량 제어 알고리즘은 60톤 대형 트럭의 측면 오차를 0.2m 미만, 정밀 도킹 오차를 0.1m 미만으로 만들 수 있습니다. . 현재 신장강나광산업과 내몽고 이민 노천탄광 광산에서는 무인 대형트럭 23대가 24시간 운영되고 있다.
라이브 방송 + 디지털 피플 분야에서 판구 디지털 인민대회 모델은 10만 레벨의 고품질 라이브 방송 스피치 스킬을 기반으로 사전 학습되어 전문적인 스피치 스킬을 자동으로 생성하여 정확하고 유창하게 제품을 소개할 수 있습니다. 또한 사격과 청중의 실시간 대화를 자동으로 캡처합니다. 구이저우성 단자이에서는 판구 디지털 NPC 모델이 무형유산 산업 바틱을 세계에 선보였습니다.
요약하자면, Huawei Cloud가 AI 컴퓨팅 성능을 기반으로, 기술 혁신을 동력으로 삼고, Pangu 대형 모델을 산업 시나리오에 통합하여 '대형 모델 포지티브 사이클'을 형성했음을 찾는 것은 어렵지 않습니다. ThePaper AI의 컴퓨팅 성능은 대형 모델의 사용을 촉진할 수 있습니다. 기술 혁신은 대형 모델의 임계값을 계속 낮추어 대형 모델의 대규모 구현을 촉진할 것입니다. 컴퓨팅 파워는 시나리오와 기술의 발전을 촉진하고, 기술 진보는 컴퓨팅 파워를 완전히 발휘할 수 있게 하며, 시나리오의 가치가 깊이 탐구되도록 하며, 시나리오의 발전은 컴퓨팅 파워의 구축을 촉진하고 기술 진보를 이끌게 됩니다. 세 가지가 앞으로 나아가면서 수천 개의 업계가 클라우드에서 대규모 모델에 대한 답을 찾도록 유도하고 있습니다.
컴퓨팅 파워를 기반으로 컴퓨팅 파워를 핵심으로 AI를 산과 강에 통합하십시오. 이것은 Huawei Cloud의 AI 장기 노래입니다.
위 내용은 Huawei Cloud는 AI 컴퓨팅 성능을 세계에 가져옵니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!