인공지능이라는 학문은 1956년에 시작되어 이후 반세기 동안 컴퓨팅 능력과 데이터의 발전은 알고리즘에 비해 훨씬 뒤쳐졌습니다. 그러나 2000년 인터넷 시대가 도래하면서 컴퓨팅 파워의 한계가 무너지고, 인공지능이 점차 사회 각계에 침투하며 대형 모델 시대가 열렸다. 하지만 고품질 데이터가 인공지능 발전의 마지막 '병목'이 된 것 같다
Huawei OceanStor Pacific은 최근 개최된 전국 고성능 컴퓨팅 학술 연례 회의에서 "AI 스토리지 기반 부문 최고 혁신상"을 수상했습니다(CCF HPC China 2는 023으로 다시 작성해야 함)
AI 리텐션 개념의 등장은 실제로 AI에 대한 데이터 가치의 지속적인 향상을 반영합니다
다시 작성해야 하는 콘텐츠는 01
입니다.데이터가 인공지능의 지능 수준을 결정합니다
인공지능의 발전은 지속적인 데이터 수집과 분석의 과정입니다. 정보의 전달체인 데이터는 인공지능이 세상을 학습하고 이해하는 기반이다. 일반지능은 인공지능 개발의 궁극적인 목표이며, 자율적으로 학습하고, 이해하고, 추론하고, 문제를 해결할 수 있으며, 데이터는 인공지능 개발의 가장 큰 원동력입니다
그럼 데이터가 많아질수록 AI는 더욱 똑똑해진다는 건가요? 데이터가 많은 만큼 AI가 전문가의 역할을 뛰어넘을 수 있을까?
의료 분야의 인공지능 시스템을 예로 들면, 실제로 많은 진단 사례에는 정답이 하나도 없습니다. 의료 진단에서 각 증상 세트에는 다양한 확률의 가능한 원인이 있으므로 AI 지원 의사 결정은 임상의가 해결책을 찾을 때까지 가능한 원인을 좁히는 데 도움이 될 수 있습니다. 이 경우 의료 인공지능은 대량의 데이터가 아닌 정확하고 고품질의 데이터에 의존해야 합니다. 그래야만 "검진" 중에 실제 가능한 원인을 놓치지 않을 수 있습니다
AI 지능에 대한 데이터 품질의 중요성이 이 일반적인 시연에 반영되어 있습니다
인공지능 업계에서는 늘 '쓰레기가 들어오면 쓰레기가 나온다'는 공감대가 있어왔습니다. 즉, 고품질의 데이터 입력이 없으면 알고리즘이 아무리 발전하고 컴퓨팅 성능이 아무리 강력해도 고품질의 결과를 생성할 수 없다는 의미입니다
이 시대에 우리는 대형 모델의 정점에 있습니다. 인공지능의 대형 모델이 비가 내린 뒤 버섯처럼 솟아오르고 있다. Huawei의 Pangu, iFlytek의 Spark, Zidong의 Taichu 등 중국의 여러 대형 모델이 빠르게 발전하고 있으며 모든 계층의 디지털 변혁을 위한 힘을 제공하기 위해 산업 간 범용 인공 지능 기능 플랫폼을 구축하는 데 전념하고 있습니다
중국 과학기술부 신세대 인공지능 개발 연구센터가 지난 5월 말 발표한 '중국 인공지능 대형 모델 지도 연구 보고서'에 따르면, 규모가 10억 개가 넘는 대형 모델이 79개에 이른다. 매개 변수가 중국에서 출시되었습니다. '100개 모델 대결'이라는 패턴이 형성됐지만, 이는 대형 모델 개발에 대한 심도 있는 고민을 촉발하기도 했습니다
소규모 데이터를 기반으로 한 모델의 표현 능력은 데이터 크기에 따라 제한되며, 대략적인 시뮬레이션과 예측만 수행할 수 있으며 정확도 요구 사항이 상대적으로 높은 상황에서는 더 이상 적용할 수 없습니다. 모델의 정확도를 더욱 높이려면 방대한 데이터를 사용하여 관련 모델을 생성해야 합니다
다시 쓴 내용은 다음과 같습니다. 즉, 데이터의 양이 AI 지능의 정도를 결정한다는 의미입니다. 데이터의 질과 상관없이 데이터의 양은 'AI 저장 용량' 구축에 집중해야 하는 초점 영역입니다
다시 작성해야 할 내용은 다음과 같습니다: 02
빅데이터 시대, 데이터가 직면한 과제
인공지능이 대형 모델과 다중 양식으로 발전함에 따라 기업은 대형 모델 애플리케이션을 개발하거나 구현할 때 많은 어려움에 직면합니다
우선, 데이터 전처리 주기가 매우 깁니다. 데이터가 서로 다른 데이터 센터, 서로 다른 애플리케이션, 서로 다른 시스템에 분산되어 있기 때문에 수집 속도가 느린 등의 문제가 있으며, 이로 인해 100TB의 데이터를 전처리하는 데 약 10일이 소요됩니다.
시작합니다.두 번째로, 훈련 세트 로딩 효율성이 낮은 문제를 해결해야 합니다. 오늘날 대규모 모델의 규모는 점점 더 커지고 있으며, 매개변수 수준은 수천억, 심지어는 수조에 달합니다. 학습 프로세스에는 많은 양의 컴퓨팅 리소스와 저장 공간이 필요합니다. 예를 들어 다중 모드 대규모 모델은 대용량 텍스트와 이미지를 학습 세트로 사용하지만 현재 대용량 작은 파일의 로딩 속도가 느려 학습 세트 로딩이 비효율적입니다
또한 우리는 대규모 모델 매개변수를 자주 조정하고 훈련 플랫폼이 불안정하여 평균 이틀에 한 번씩 훈련 중단이 발생하는 문제에 직면해 있습니다. 훈련을 재개하려면 체크포인트 메커니즘을 사용해야 하며, 장애 복구에 걸리는 시간이 하루 이상이므로 비즈니스 연속성에 많은 어려움이 따릅니다
AI 빅모델 시대에 성공하려면 데이터의 질과 양 모두에 주목하고 대용량, 고성능 스토리지 인프라를 구축해야 합니다. 이것이 승리의 핵심 요소가 되었습니다
다시 작성해야 하는 콘텐츠는 03
입니다.AI시대의 핵심은 전력저장기지
빅데이터, 인공지능 등의 기술과 고성능 컴퓨팅이 결합되면서 고성능 데이터 분석(HPDA)은 데이터 가치를 실현하는 새로운 형태로 자리 잡았습니다. HPDA는 더 많은 과거 데이터, 다양한 이기종 컴퓨팅 성능 및 분석 방법을 활용하여 분석 정확도를 향상시킬 수 있습니다. 이는 과학 연구에서 지능형 연구의 새로운 단계를 의미하며, 인공지능 기술은 최첨단 결과의 적용을 가속화할 것입니다
오늘날 과학 연구 분야에서는 '데이터 집약적 과학'을 기반으로 한 새로운 패러다임이 등장하고 있습니다. 이 패러다임은 빅데이터 지식 마이닝과 인공지능 훈련 및 추론 기술을 결합하여 계산과 분석을 통해 새로운 지식과 발견을 얻는 데 더 중점을 두고 있습니다. 이는 또한 기본 데이터 인프라에 대한 요구 사항이 근본적으로 변경된다는 것을 의미합니다. 고성능 컴퓨팅이든 향후 인공지능의 발전이든 데이터 문제를 해결하려면 고급 스토리지 인프라를 구축해야 합니다
데이터 문제를 해결하려면 데이터 저장 혁신부터 시작해야 합니다. 속담처럼 종을 푼 사람이 종을 묶어야 합니다
AI 스토리지 기반은 OceanStor Pacific 분산 스토리지를 기반으로 개발되었으며 AI의 모든 측면에 대한 스토리지 요구 사항을 충족하기 위해 AI 네이티브 설계 개념을 준수합니다. AI 시스템은 데이터 컴퓨팅 가속화, 데이터 스토리지 관리, 데이터 스토리지와 컴퓨팅 간의 효율적인 순환을 포함하여 스토리지에 대한 포괄적인 과제를 제기합니다. "대용량 스토리지 + 고성능 스토리지"의 조합을 사용하여 스토리지 리소스의 스케줄링 및 조정을 보장하여 모든 링크가 효율적으로 작동할 수 있도록 하여 AI 시스템의 가치를 최대한 발휘할 수 있습니다
OceanStor Pacific 분산 스토리지는 핵심 기능을 어떻게 보여주나요?
우선, 기술 아키텍처가 업계에서 독특합니다. 이 스토리지 시스템은 무제한 수평 확장을 지원하고 혼합 로드를 처리할 수 있으며 작은 파일의 IOPS와 큰 파일의 고속 읽기 및 쓰기 대역폭을 효율적으로 처리할 수 있습니다. 성능 계층과 용량 계층에서 지능적인 계층적 데이터 흐름 기능을 갖추고 있으며, 대용량 데이터의 수집, 전처리, 훈련, 추론 등 전체 프로세스 AI 데이터 관리를 실현할 수 있습니다. 게다가 HPC, 빅데이터와 동일한 데이터 분석 기능도 갖췄습니다
다시 쓴 내용은 다음과 같습니다. 둘째, 업계에서 효율성을 향상시키는 가장 좋은 방법은 스토리지 혁신을 통해서입니다. 첫 번째는 데이터 위빙입니다. 이는 GFS 글로벌 파일 시스템을 통해 여러 지역에 분산된 원시 데이터에 액세스하여 시스템, 지역 및 여러 클라우드 전반에 걸쳐 글로벌 통합 데이터 보기 및 예약을 달성하고 데이터 수집 프로세스를 단순화하는 것을 의미합니다. 두 번째는 Near-Memory 컴퓨팅으로, 임베디드 컴퓨팅 파워를 저장하여 Near-Data의 전처리를 구현하고, 유효하지 않은 데이터 전송을 줄이고, 전처리 서버의 대기 시간을 줄여 전처리 효율성을 대폭 향상시킵니다
사실 '수백 모델 대결'은 대형 AI 모델 개발의 '신호'가 아니다. 미래에는 각계각층이 AI 대형 모델의 역량을 활용해 디지털 변혁의 심층적 발전을 촉진하고, 데이터 인프라 구축도 가속화될 것이다. OceanStor Pacific 분산 스토리지의 기술 아키텍처 혁신과 고효율은 업계 최고의 선택임이 입증되었습니다
우리는 데이터가 토지, 노동, 자본, 기술과 함께 새로운 생산요소가 되었음을 이해합니다. 과거 디지털 시장의 많은 전통적인 정의와 운영 모델이 다시 작성될 것입니다. 기존 역량만이 데이터 기반 인공지능 대형 모델 시대의 꾸준한 발전을 보장할 수 있습니다
위 내용은 AI 대형 모델 시대의 발전은 안정적인 진행을 위해 고급 스토리지 기술이 필요합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!