5월 30일 2023년 중관춘 포럼 결과 회의에서 '세계적으로 영향력 있는 인공지능 혁신 센터 건설을 가속화하기 위한 베이징의 실행 계획(2023~2025)'이 공식 발표되었습니다. '구현 계획'에서는 분산형 효율적인 딥러닝 프레임워크, 대형 모델을 위한 새로운 인프라 등 기술 혁신에 중점을 두고 혁신 주체를 지원하고, 대형 모델과 관련된 기술 혁신을 촉진하기 위해 노력할 것을 요구합니다.
업계에서는 이는 중국이 대형 모델 개발에 적극 나설 것이라는 또 하나의 증거로 평가받고 있다. 실제로 최근 중앙 부처부터 지방·시까지 AI 기술 개발과 대형 모델 기회 포착에 대한 정책 성향이 높아지고 있으며, 정책 도입 밀도와 전반적인 전략적 높이가 모두 놀라운 수준에 이르렀다. .
중국이 대형 모델을 돌파구로 삼아 AI 분야에서 돌풍을 일으킬 것이라고 믿을 만한 이유가 있습니다. 2017년 차세대 인공 지능 개발 전략을 시작한 이후 중국은 현재의 기회 창에서 더욱 발전하고 AI 산업의 전반적인 폭발을 촉진할 것입니다.
AI 개발 기회를 포착하려면 기술적 혁신과 인프라 구축이 필요하다는 사실은 우리 모두 알고 있습니다. AI 산업의 인프라에 관해서는 일반적으로 AI 칩, 딥 러닝 프레임워크, 사전 학습된 대형 모델이 언급되지만 다른 것을 무시하는 경우가 많습니다. 핵심 문제: 대규모 모델은 엄청난 데이터 압력을 가져올 것이며 데이터 저장은 AI 개발 프로세스의 중추이기도 합니다.
ChatGPT는 이번 AI 폭발의 주역이며, 대형 모델의 대규모 적용으로 인해 발생하는 데이터 문제는 실제로 ChatGPT에 작성되었습니다.
이러한 압력에 직면하여 중국은 준비가 되어 있습니까?
ChatGPT의 AI 등장으로 인해 발생하는 데이터 문제를 살펴보세요
Google이 2018년 BERT를 출시한 이후 업계에서는 대형 모델을 사전 훈련하는 길을 시작했습니다. 대형 모델의 특징은 훈련 데이터와 모델 매개변수의 규모가 커서 저장에 심각한 문제가 발생한다는 것이며 이는 ChaGPT에서도 분명합니다.
대형 사전 훈련된 모델의 소위 "크기"는 모델의 딥 러닝 네트워크가 많은 레이어, 많은 링크, 복잡한 매개변수를 갖고 있으며 훈련에 사용되는 데이터 세트 유형이 더 복잡하고 복잡하다는 사실에 반영됩니다. 데이터의 양이 더 풍부해졌습니다. 딥러닝 알고리즘이 처음 탄생했을 때는 주류 모델의 매개변수가 몇백만 개에 불과했지만, BERT가 출시되자 모델 매개변수는 1억개를 넘어 딥러닝이 대형 모델 단계로 발전했습니다. ChatGPT 단계에서 주류 모델은 이미 수천억 개의 매개변수를 보유하고 있으며 업계에서는 심지어 수조 개의 모델을 계획하기 시작했습니다. 몇 년 사이에 AI 모델의 매개변수는 수천 배로 증가했으며, 이러한 대규모 데이터와 모델을 저장해야 하는 상황은 AI 발생으로 인한 첫 번째 주요 저장 테스트가 되었습니다.
또한 대규모 AI 모델은 새로운 모델 구조를 채택하므로 비정형 데이터에 대한 흡수 효과와 견고성이 향상된다는 점이 널리 언급될 것입니다. 이는 AI의 최종 효과에 매우 중요하지만 파생 데이터도 가져옵니다. 문제: 우리는 대량의 비정형 데이터를 저장하고 불러오는 작업을 적절하게 처리해야 합니다. 예를 들어, 업그레이드 후 ChatGPT에는 이미지 인식과 같은 다중 모드 기능이 추가되었으므로 훈련 데이터에도 텍스트 위에 많은 수의 사진을 추가해야 합니다. 모델 훈련의 기초로 매일 수많은 현장 테스트 비디오를 제공합니다. 이러한 비정형 데이터의 증가는 데이터 저장 및 처리와 관련된 AI 관련 데이터의 엄청난 증가 문제를 가져왔습니다.
통계에 따르면 현재 전 세계 신규 데이터의 80%는 비정형 데이터로, 연평균 성장률 38%에 달합니다. 다양한 데이터의 급증에 대처하는 것은 대형 모델 시대에 극복해야 할 과제가 되었습니다.
또 다른 문제가 있습니다. 대형 모델에는 데이터를 자주 읽고 호출해야 하는 경우가 많습니다. ChatGPT의 데이터 액세스 사용량은 한 달에 17억 6천만 회에 달하며 평균 응답 속도는 10초 이내입니다. AI 모델의 워크플로는 수집, 준비, 훈련, 추론의 네 부분으로 구성됩니다. 다양한 유형의 데이터. 따라서 대형 모델에는 스토리지 성능에 대한 요구 사항도 적용됩니다.
또한 ChatGPT를 둘러싼 일련의 데이터 주권 및 데이터 보호 분쟁은 대규모 AI 모델이 데이터 보안에 새로운 위험을 가져온다는 점을 상기시켜 줍니다. 범죄자가 데이터베이스를 공격하고 대규모 언어 모델이 잘못된 정보를 생성하여 사용자를 속이게 한다면 그 피해는 심각하고 숨겨질 것입니다.
요약하자면 ChatGPT는 훌륭하지만 데이터 저장 규모, 성능, 보안 등의 측면에서 문제가 있습니다. 대규모 모델 및 ChatGPT와 유사한 애플리케이션 개발에 전념할 때 스토리지가 전달되어야 합니다.
중국은 힘을 축적했습니다. 준비되셨나요?
최근 몇 년 동안 우리는 컴퓨팅 능력이 곧 생산성이라고 말해왔습니다. 하지만 계획을 세우려면 저축이 있어야 합니다. 저축의 한계에 따라 디지털 생산성 발전의 상한선도 결정됩니다.
그렇다면, 중국의 대형모델 급증에 대비해 중국 예비군은 준비가 되어있는 걸까요? 불행하게도 여러 측면에서 볼 때 중국의 예비력 준비는 오늘날에도 여전히 충분하지 않으며 더욱 업그레이드되고 발전해야 합니다. 우리는 중국 Cunli의 여러 문제에 주목하여 대형 모델이 가져오는 데이터 압력에 대처할 수 있는지 확인할 수 있습니다.
1. 저장 용량 부족으로 AI 산업 발전의 상한선
대형 모델은 엄청난 양의 데이터를 가져오므로 이 데이터를 적절하게 저장하는 것이 최우선입니다. 그러나 현 단계에서 중국은 여전히 저장 용량이 부족하고 많은 양의 데이터가 저장 단계에도 진입하지 못하는 문제를 안고 있습니다. 2022년 데이터로 보면 중국의 데이터 생산량은 무려 8.1ZB에 달해 세계 2위를 기록했다. 그러나 중국의 저장 용량은 약 1,000EB에 불과합니다. 이는 데이터 저장률이 12%에 불과하고 대다수의 데이터를 효과적으로 저장할 수 없다는 것을 의미합니다. 중국은 데이터를 생산의 5번째 요소로 명확히 정의하고, 지능의 발전은 데이터에 의존하고 데이터를 최대한 활용해야 하지만, 저장하기 어려운 데이터의 양이 엄청나다는 문제는 그렇지 않습니다. 심각하지 않은. 중국은 대형 모델이 가져오는 AI 기술 개발 기회를 포착하기 위해 여전히 고속, 대규모 생산능력 증가를 유지해야 한다.
2. 대용량 데이터의 영향으로 관리 효율성과 접속 효율성이 낮습니다
앞서 언급했듯이 대규모 AI 모델이 가져오는 주요 데이터 과제는 대규모 데이터를 관리하고 데이터 수집 및 저장을 처리하는 비효율성입니다. 액세스 효율성을 높이려면 데이터를 고효율, 저에너지 소비 방식으로 저장하고 기록해야 합니다. 그러나 현재 중국 데이터의 75%는 여전히 기계식 하드 드라이브를 사용하고 있습니다. 플래시 드라이브에 비해 기계식 하드 드라이브는 용량 밀도가 낮고 데이터 읽기 속도가 느리며 에너지 소비가 많고 신뢰성이 낮습니다. 상대적으로 올플래시 메모리는 고밀도, 낮은 에너지 소비, 고성능 및 낮은 신뢰성과 같은 일련의 장점을 가지고 있습니다. 그러나 중국의 올플래시 메모리 교체는 아직 갈 길이 멀다.
3. 여러 가지 데이터 문제로 인해 심각한 스토리지 보안 상황이 발생합니다
데이터 보안 문제는 AI 기업은 물론 AI 업계에서도 시급한 관심사가 되었습니다. 2020년에는 미국 클리어뷰 AI(Clearview AI) 기업에서 데이터 보안 사고가 발생해 2,000여 고객사로부터 30억 건의 데이터가 유출됐다. 이번 사례는 AI 산업의 데이터 보안 상황이 매우 심각하다는 점을 보여주며, 데이터 저장 단계부터 보안에 주의를 기울여야 한다는 점을 보여준다. 특히, 대형 AI 모델이 국가 경제와 국민 생활에 미치는 역할이 점점 더 중요해짐에 따라, 발생할 수 있는 다양한 위험에 대처하기 위한 스토리지 보안 역량 강화는 더욱 필요합니다.
객관적으로 말하면, 중국 Cunli는 높은 개발 속도를 유지해 왔지만, 전체 규모, 올플래시 메모리 비중, 기술 혁신 역량 측면에서 여전히 부족한 부분이 있습니다. 산업 지능 요구 사항과 AI의 대규모 구현을 충족하는 스토리지 업그레이드가 필요한 시기가 왔습니다.
지능화 시대를 맞이한 스토리지 산업의 기회와 방향
ChatGPT로 대표되는 대규모 AI 모델이 스토리지에 미치는 압력과 중국의 스토리지 용량 자체 개발 상태를 결합하여 우리는 다음과 같은 결론을 명확하게 내릴 수 있습니다. 중국의 스토리지는 AI의 부상을 지원하고 대규모 업그레이드를 완료해야 합니다.
우리는 스토리지 산업의 발전 방향을 명확하게 볼 수 있습니다. 이러한 방향의 시급성과 넓은 공간은 스토리지 산업에 큰 기회를 제공합니다.
우선 저장용량을 늘리고 올플래시 메모리 구축을 가속화해야 한다.
올플래시 메모리는 기계식 하드 드라이브의 "실리콘 인/자석 아웃"을 대체합니다. 이는 수년간 스토리지 업계의 전반적인 발전 추세였습니다. AI의 부상으로 인해 발생하는 산업 기회에 직면한 중국의 스토리지 업계는 올플래시 메모리 교체의 구현 및 구현을 가속화하고 데이터 스토리지 요구 사항에 대처하기 위해 고성능 및 높은 신뢰성과 같은 올플래시 메모리의 장점을 극대화해야 합니다. 대규모 AI 모델이 가져온 것입니다.
또한 올플래시 분산 스토리지에 대한 기회가 늘어나고 있다는 점도 주목해야 합니다. 대규모 AI 모델의 등장과 비정형 데이터의 폭발적인 증가로 인해 데이터의 중요성이 크게 증가하고 있습니다. 이와 동시에 AI는 대규모 정부 기업의 생산 핵심에 침투하여 현지화된 AI 교육을 수행하고 채택하는 경향이 있습니다. 파일 기반 AI 교육 퍼블릭 클라우드 플랫폼에 데이터를 저장하는 대신 프로토콜 데이터 스토리지로 인해 분산 스토리지에 대한 수요가 증가하고 강화되었습니다.
두 가지의 결합은 스토리지 산업에서 올플래시 구현을 지속적으로 빠르게 촉진할 것이며, 중국 스토리지 산업 발전의 핵심 궤도가 될 것입니다.
둘째, AI 모델의 개발 요구에 부응하려면 스토리지 기술 혁신을 개선해야 합니다.
위에서 언급했듯이 AI가 가져오는 데이터 테스트는 데이터의 규모가 클 뿐만 아니라 데이터 복잡성과 응용 프로세스 다양성의 문제이기도 합니다. 따라서 스토리지의 고급 특성을 더욱 개선해야 합니다. 예를 들어, AI의 빈번한 데이터 액세스 요구 사항에 대처하려면 스토리지 읽기 및 쓰기 대역폭과 액세스 효율성을 업그레이드해야 합니다. 대규모 AI 모델의 데이터 요구 사항을 충족하기 위해 스토리지 업계는 포괄적인 기술 업그레이드를 수행해야 합니다.
데이터 저장 형식 측면에서 "파일" 및 "객체"와 같은 전통적인 데이터 형식의 원래 설계 의도는 AI 모델의 교육 요구 사항과 일치하지 않으며 구조화되지 않은 데이터의 데이터 형식이 균일하지 않기 때문에 AI 모델을 호출할 때 데이터를 사용하기가 어렵습니다. 이 과정에서 파일 형식을 다시 이해하고 정렬하는 데 많은 작업이 필요하므로 모델 운영 효율성이 감소하고 학습 컴퓨팅 전력 소비가 증가합니다.
이 때문에 스토리지 측면에서는 새로운 '데이터 패러다임'이 형성되어야 합니다. 자율주행 훈련을 예로 들면, 데이터 훈련 과정에는 다양한 유형의 데이터가 포함됩니다. 스토리지 측면에서 새로운 데이터 패러다임을 채택하면 다양한 데이터를 통합하고 AI 모델 훈련에 더 잘 적응할 수 있습니다. 자율주행차 훈련. 예를 들어 AI를 새로운 동물로 상상한다면 새로운 종류의 사료를 먹어야 하는데, 기존 형식으로 데이터를 공급하면 소화불량 문제에 시달릴 것입니다. AI에 적합하여 "AI에게 먹이를 주는" 과정을 원활하게 만듭니다.
AI 개발 작업에서 데이터 관리는 작업 부하의 큰 부분을 차지하며, 서로 다른 데이터 세트 간에는 데이터 아일랜드 문제도 있는데, 데이터 위빙 기술은 이러한 문제를 효과적으로 처리할 수 있습니다. 데이터 위빙을 통해 스토리지는 데이터 분석 기능을 내장하고 물리적, 논리적으로 분산된 데이터를 통합하여 데이터 스케줄링 및 흐름 기능에 대한 글로벌 뷰를 형성함으로써 AI가 가져온 대용량 데이터를 효과적으로 관리하고 데이터 활용 효율성을 향상시킬 수 있습니다.
스토리지 측면의 이러한 기술 혁신은 데이터 스토리지와 AI 개발 사이에 더 긴밀한 조화를 이룰 수 있습니다.
또한, 능동적인 보안 역량을 강화하기 위해서는 스토리지 자체에 보안 기능을 접목시켜야 합니다.
AI의 가치가 높아짐에 따라 데이터 보안 문제는 기업 사용자에게 더 많은 손실을 가져옵니다. 따라서 기업은 데이터 보안 역량을 향상시켜야 합니다. 가장 중요한 점은 데이터 복원력을 향상시키고, 스토리지 자체에 보안 기능을 갖추게 하며, 소스로부터 데이터 보안을 보호하는 것입니다. 다음으로, 랜섬웨어 탐지, 데이터 암호화, 보안 스냅샷, AirGap 격리 복구 기능 등 더 많은 데이터 복원력 기능이 데이터 스토리지 제품에 내장될 것입니다.
업계에서는 이미 대규모 AI 모델의 등장에 맞춰 스토리지 업그레이드를 포괄적으로 모색하고 시도했다는 점에 주목할 필요가 있습니다. Huawei Storage는 고품질 올플래시 제품을 통해 고급 스토리지 기술과 내장된 보안 기능을 통합하여 스토리지 혁신과 AI 개발 간의 긴밀한 조화를 이루고 서로 협력합니다.
전반적으로 스토리지 산업의 발전과 중국의 스토리지 용량의 발전은 대규모 AI 모델 구현은 물론 수천 개 산업의 지능적 업그레이드에도 큰 의미를 갖습니다. 스토리지의 발전 없이는 AI로 인한 데이터 홍수를 제대로 해결하기 어려울 것입니다. AI 기술은 데이터 지원 부족으로 인해 뿌리 없는 나무가 될 수도 있습니다.
스토리지 산업은 지능형 시대의 기회와 책임을 동시에 직면하고 있습니다. 화웨이 등 우수한 브랜드의 지속적인 발굴로 인해 중국의 스토리지는 전례 없는 기회를 맞이하고 있으며 시대가 부여한 책임도 짊어지고 있습니다.
많은 업계 전문가들은 대규모 언어 모델이 AI 역사상 'iPhone 순간'이라고 믿고 있으므로 AI 기술이 가져온 스토리지 업그레이드의 물결은 중국 스토리지 산업의 이정표 순간이자 황금 시대의 서곡이 될 수도 있습니다.
위 내용은 AI는 빠르게 발전하고 있고 우리는 우리의 힘을 구하기 위해 선구자가되어야합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!