>  기사  >  기술 주변기기  >  대규모 AI 모델 시대, 새로운 데이터 저장 기반으로 교육, 과학 연구의 디지털 지능 전환 촉진

대규모 AI 모델 시대, 새로운 데이터 저장 기반으로 교육, 과학 연구의 디지털 지능 전환 촉진

WBOY
WBOY앞으로
2023-07-21 21:53:081209검색

제너레이티브 AI(AIGC)가 일반 인공 지능의 새로운 시대를 열었습니다. 컴퓨팅 인프라가 경쟁의 주요 초점이며, 권력의 각성은 점점 더 업계의 합의가 되었습니다.

대규모 AI 모델 시대, 새로운 데이터 저장 기반으로 교육, 과학 연구의 디지털 지능 전환 촉진

새로운 시대에는 대규모 모델이 단일 양식에서 다중 양식으로 이동하고 매개변수 및 교육 데이터 세트의 크기가 기하급수적으로 증가하며 동시에 대규모 비정형 데이터에는 고성능 혼합 로드 기능의 지원이 필요합니다. 데이터 집약적 패러다임이 대중화되고 있으며 슈퍼컴퓨팅, 고성능 컴퓨팅(HPC)과 같은 애플리케이션 시나리오가 심화되고 있습니다. 기존 데이터 스토리지 기반은 더 이상 지속적인 업그레이드 요구 사항을 충족할 수 없습니다.

컴퓨팅 파워, 알고리즘, 데이터가 인공지능 발전을 이끄는 '트로이카'라면, 외부 환경이 크게 변화하는 상황에서 이 세 요소의 역동적인 균형을 회복하는 것이 시급합니다. 알고리즘 모델의 개선으로 인한 "소프트 파워"의 향상과 컴퓨팅 전원 공급 최적화로 인한 "하드 파워"의 향상에는 데이터 전송의 "용량"과 데이터의 "저장 용량"에 대한 추가 지원이 필요합니다. 스토리지를 개선해야 합니다. 새로운 데이터 스토리지 기반은 고치에서 등장하여 많은 과제를 해결하는 과정에서 나비가 될 것입니다.

복잡하고 지속적으로 진화하는 요구 사항이 있는 애플리케이션 시나리오는 새로운 데이터 스토리지 기반을 위한 최고의 시금석입니다. 이러한 의미에서 교육 및 과학 연구 산업이 대표적인 예입니다. 컴퓨팅 성능과 데이터는 이 분야의 디지털 혁신의 핵심 요소이며, 학문적 통합을 갖춘 과학 연구 컴퓨팅은 데이터 기반 의사결정 지원만큼 중요합니다. HPC에서 HPDA(고성능 데이터 분석)로 전환하는 것은 교육 및 과학 연구의 효율성을 향상시키는 큰 단계이며, AI의 역량 강화는 과거에는 계산이 불가능하고 부정확하며 비현실적인 문제를 해결하는 데 도움이 될 수 있습니다.

대규모 AI 모델 시대, 새로운 데이터 저장 기반으로 교육, 과학 연구의 디지털 지능 전환 촉진

최근 개최된 2023년 세계 인공지능 컨퍼런스에서 화웨이의 OceanStor Pacific 분산 스토리지는 상하이 자오퉁 대학교가 공식적으로 출시한 HPC+AI 스토리지 기반을 구축하는 데 도움을 주었습니다. "Turn it over" 통합 데이터베이스는 올해 25PB 더 확장될 예정입니다. 이는 교육 및 과학 연구의 디지털 및 지능적 전환을 위한 새로운 기준이 될 것이며 데이터 저장을 위한 새로운 기반을 탐색하는 여정의 이정표가 될 것으로 예상됩니다.

데이터와 컴퓨팅 성능 간의 관계 진화와 그에 따른 과제

수천개 산업이 심해로 진출하는 디지털 변혁과 인공지능, 빅데이터 등 신기술의 조화로운 폭발로 인해 데이터와 컴퓨팅 파워의 관계는 미묘한 변화를 겪고 있습니다.

대규모 AI 모델 시대, 새로운 데이터 저장 기반으로 교육, 과학 연구의 디지털 지능 전환 촉진

교육 및 과학 연구 분야는 디지털 경제의 최전선에 있으며 이러한 변화에 매우 민감합니다. 과거에는 데이터가 컴퓨팅 성능을 따라야 했습니다. 복잡한 과학 및 공학 문제의 신속한 수치해석에 대처하기 위해 교육 및 과학 연구계는 오랫동안 가장 강력한 컴퓨팅 능력을 구축하는 방법에 더 많은 관심을 기울여 왔으며, 데이터는 단지 지원 시설로만 간주되었습니다. 컴퓨팅 파워.

요즘 '컴퓨팅 파워는 데이터를 중심으로 움직인다'가 점차 새로운 트렌드로 자리잡고 있습니다. 새로운 애플리케이션의 등장, 데이터 양의 확대, 데이터 보안 문제의 부각으로 인해 데이터 자체의 가치가 더욱 강조되고 있습니다. AI, 빅데이터 및 기타 기술의 혁신을 기반으로 기존 슈퍼컴퓨팅은 데이터 집약적 슈퍼컴퓨팅으로 진화하고 있으며, 동일한 데이터 스토리지 기반을 중심으로 다양한 이기종 컴퓨팅 성능을 구축해야 합니다.

Shanghai Jiao Tong University 네트워크 정보 센터 부국장 Lin Xinhua는 데이터 및 컴퓨팅 파워의 지배력 역전이 데이터 집약적인 슈퍼컴퓨팅 플랫폼을 구축할 수 있는 기회를 제공할 뿐만 아니라 업계에 많은 새로운 도전을 가져온다고 믿습니다. 통합 데이터 저장 기반 구축.

우선, 데이터의 폭발적인 증가로 인해 스토리지 용량에 대한 수요가 크게 증가했습니다. 통계에 따르면 'Jiaowosuan' 플랫폼의 데이터 규모는 연간 7PB씩 증가했습니다. 기상학, 해양학, 에너지 탐사, 위성 원격 감지, 유전자 서열 분석, 저온 전자 현미경, AI 등 응용 시나리오의 데이터 양이 증가했습니다. 자율주행, 제조 CAE, 애니메이션 렌더링 등이 모두 7PB 수준에 이르렀는데, 이렇게 방대한 양의 데이터를 수용하기 위한 데이터 인프라를 활용하기는 쉽지 않습니다.

둘째, 새로운 비즈니스가 끊임없이 등장하고 있으며 더 높은 스토리지 성능이 필요합니다. AI 일반화 프로세스의 가속화, 특히 대규모 모델과 다중 양식의 일괄 출력은 IO 성능에 심각한 문제를 야기합니다. 수백 테라바이트의 데이터 세트가 표준이 되면서 자연어 처리 및 다중 모드 애플리케이션으로 인해 데이터 볼륨의 증가가 가속화되었으며, 작은 파일 교육 데이터 세트에 효율적으로 액세스하려면 새로운 수준에 도달하기 위한 스토리지 성능이 필요합니다.

셋째, 멀티 클러스터 스토리지는 캠퍼스 전체에서 공유되며, 이기종 클러스터 간의 데이터 흐름으로 인해 데이터 손실 및 작동 속도 저하 등의 문제가 발생할 수 있습니다. "Jiaowosuan" 플랫폼은 ARM 클러스터, X86 클러스터, AI 클러스터를 포함한 다양한 이기종 컴퓨팅 성능을 제공합니다. 많은 클러스터 중에서 완전한 데이터 흐름과 데이터 통합을 달성해야만 컴퓨팅 성능과 데이터의 최대 가치가 공개될 수 있습니다.

마지막으로, 전통적인 AI 로컬 디스크 훈련과 함께 높은 동시 데이터 분석으로 IO 벽을 허무는 것이 시급합니다. 여러 데이터를 마이그레이션하는 과정에서 IO 병목 현상이 매우 두드러집니다. 기존의 읽기 및 쓰기 프로세스는 시간이 오래 걸리고 데이터 로드에는 세 번의 데이터 마이그레이션이 필요하며 체크포인트에도 두 번의 데이터 마이그레이션이 필요합니다. 이 프로세스 중에 발생하는 효율성 손실은 무시할 수 없습니다.

분산 스토리지 통합 통합 데이터베이스의 획기적인 길

위 과제에 대처하기 위해 Shanghai Jiao Tong University와 Huawei Storage는 2019년부터 심층적인 협력을 시작하여 "나에게 넘겨주세요" 데이터 집약적인 슈퍼컴퓨팅 플랫폼을 공동으로 구축했습니다. 기술 및 애플리케이션 혁신에 대한 심도 있는 축적을 바탕으로 Huawei의 OceanStor Pacific 분산 스토리지 제품은 "Tuowo Calculation"이 학교 전반에 걸쳐 다양한 이기종 컴퓨팅 성능 플랫폼을 지원하는 통합 데이터베이스를 구축하는 데 도움이 됩니다.

대규모 AI 모델 시대, 새로운 데이터 저장 기반으로 교육, 과학 연구의 디지털 지능 전환 촉진

분산 통합 데이터베이스 구축은 "Leave It to Me"가 새로운 데이터 애플리케이션을 수용할 수 있는 유일한 방법입니다. 수평적으로 확장 가능한 분산 스토리지 아키텍처를 기반으로 'Jiaowosuan' 플랫폼의 스토리지 용량과 대역폭은 필요에 따라 확장될 수 있습니다. 첫 번째는 단일 클러스터가 EB 수준의 용량에 도달하면서 성능 용량이 선형적으로 증가하는 것입니다. 두 번째는 캐비닛 공간을 절약하기 위해 고밀도 및 대용량 하드웨어를 사용하는 것입니다. 세 번째는 개선을 위해 EC를 많이 사용하는 것입니다. 시나리오 기반 압축을 통한 디스크 활용도.

"Jiaowosuan" 플랫폼은 초기 2PB 용량 및 6GB/s 대역폭에서 2020년에 20PB 용량 및 60GB/s 대역폭으로 증가하고, 2022년에는 40PB 용량 및 120GB/s 대역폭으로 확장될 것으로 이해됩니다. 2023년 출시 예정으로 용량이 25PB 더 확장될 예정이다. 동시에 화웨이의 OceanStor Pacific 분산 스토리지는 5U 및 120개 디스크 슬롯의 초고밀도 설계를 갖추고 있으며 대규모 EC 데이터 중복 보호 알고리즘과 결합되어 하드 디스크 공간 활용도를 91.6%까지 높일 수 있습니다. 높은 신뢰성.

분산형 올플래시 하드웨어 지원은 스토리지 성능 문제를 해결하기 위한 "나에게 맡겨라"의 초석입니다. Huawei OceanStor Pacific의 도움으로 "Turn it over" 플랫폼은 올플래시 하드웨어 가속을 사용하여 대역폭과 IOPS 성능을 크게 향상시킵니다. 각 노드는 800,000 IOPS와 20GB/S의 대역폭을 갖추고 있어 혼합 부하 조건.

캠퍼스 전반에 걸친 글로벌 분산 스토리지 통합 관리는 멀티 클러스터 스토리지 공유 문제를 해결하는 좋은 방법입니다. 글로벌 파일 시스템을 사용하여 여러 도메인에 걸쳐 여러 스토리지 세트를 관리함으로써 "Jiaowosuan" 플랫폼은 Huawei의 OceanStor Pacific 분산 스토리지 제품의 지원을 통해 캠퍼스 전반에 걸쳐 통합된 데이터베이스를 구축하고 글로벌 파일 보기, 데이터 관리 및 스케줄링을 달성합니다. 글로벌 데이터 흐름, 통합 스트리밍 메타데이터 및 기타 여러 목표.

데이터 분석 가속화, 다중 프로토콜 액세스 무손실 상호 운용성, 재배치 없는 높은 효율성은 IO 벽을 허물기 위한 "나에게 맡기기" 위한 강력한 도구입니다. 화웨이의 AI 지향 스토리지 솔루션과 화웨이의 OceanStor Pacific 분산 스토리지 기능인 "하나의 데이터, 여러 프로토콜로 액세스"를 기반으로 하는 "턴 잇 오버(Turn it over)" 플랫폼은 외부 스토리지를 실현하여 데이터 마이그레이션을 줄이고 분석 효율성을 크게 향상하며 스토리지를 절약합니다. 공간.

대형모델 시대 HPDA+AI의 미래상

'Jiaowosuan' 플랫폼과 Huawei Storage와 협력하여 새로운 분산 통합 통합 데이터베이스를 만드는 진화 궤적을 통해 데이터 집약적 시나리오가 진화를 가속화하고 있음을 어렵지 않게 볼 수 있습니다.

초기 HPC부터 후기 HPDA, 그리고 HPDA+AI의 공생에 이르기까지 교육 및 과학 연구 산업의 응용 시나리오는 계속 풍부해졌으며 스토리지 제품 및 데이터베이스에 대한 수요도 계속해서 급증했습니다. 실제로 교육과 과학 연구는 수천 개 산업의 디지털화 과정에서 빙산의 일각에 불과합니다. 데이터 저장 시대가 도래했습니다.

대형 모델 시대의 도래는 스토리지를 포함한 IT 인프라를 더욱 재편할 것입니다. 새로운 AI 유전자를 갖춘 스토리지 제품은 업계의 디지털 업그레이드에서 새로운 인기를 끌 것으로 예상됩니다. 7월 14일, 'AI의 새로운 모멘텀을 불러일으키는 새로운 데이터 패러다임'이라는 주제로 대형 모델 시대의 화웨이 AI 스토리지 신제품 출시 컨퍼런스가 온라인으로 개최됩니다. 기업에 AI를 배포하든, AI 기능을 갖춘 애플리케이션을 개발하든, 이번에 출시된 솔루션은 시대에 발맞추는 데 도움이 되는 더 나은 기술 아키텍처와 제품을 제공할 것입니다.

인공지능의 일반화가 시작되었습니다. 스토리지 업계의 선두주자가 앞장서서 앞으로의 모든 움직임을 기대해볼 만합니다.

위 내용은 대규모 AI 모델 시대, 새로운 데이터 저장 기반으로 교육, 과학 연구의 디지털 지능 전환 촉진의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 sohu.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제