200억 매개변수 대형 모델의 단일 머신 훈련: Cerebras가 신기록을 경신했습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

200억 매개변수 대형 모델의 단일 머신 훈련: Cerebras가 신기록을 경신했습니다.

王林

Apr 18, 2023 pm 12:37 PM

일체 포함기차

이번 주에 칩 스타트업 Cerebras는 단일 컴퓨팅 장치에서 100억 개 이상의 매개변수를 사용하여 NLP(자연어 처리) 인공 지능 모델을 훈련시키는 새로운 이정표를 발표했습니다.

Cerebras가 훈련한 AI 모델 볼륨은 여러 가속기에 걸쳐 워크로드를 확장하지 않고도 전례 없는 200억 개의 매개변수에 도달합니다. 이 작업은 인터넷에서 가장 인기 있는 텍스트-이미지 AI 생성 모델인 OpenAI의 120억 매개변수 대형 모델 DALL-E를 만족시키기에 충분합니다.

Cerebras 새 직업에서 가장 중요한 점은 인프라 및 소프트웨어 복잡성 요구 사항이 줄어든다는 것입니다. 이 회사에서 제공하는 칩인 WSE2(Wafer Scale Engine-2)는 이름에서 알 수 있듯이 TSMC의 7nm 공정의 단일 전체 웨이퍼에 에칭되어 있습니다. 이 영역은 일반적으로 수백 개의 주류 칩을 수용할 수 있을 만큼 넓습니다. 2.6조 개의 트랜지스터, 850,000개의 AI 컴퓨팅 코어 및 40GB 통합 캐시, 패키징 후 전력 소비량은 15kW에 달합니다.

200억 매개변수 대형 모델의 단일 머신 훈련: Cerebras가 신기록을 경신했습니다.

Wafer Scale Engine-2는 웨이퍼 크기에 가깝고 아이패드보다 큽니다.

Cerebras의 단일 머신은 크기가 이미 슈퍼컴퓨터와 유사하지만 NLP 모델의 최대 200억 매개변수를 단일 칩에 유지하므로 수천 개의 GPU에 대한 교육 비용과 관련 하드웨어 및 확장 요구 사항이 크게 줄어듭니다. , 모델 간 분할의 기술적 어려움을 제거합니다. 후자는 "NLP 워크로드의 가장 고통스러운 측면 중 하나"이며 때로는 "완료하는 데 수개월이 걸린다"고 Cerebras는 말했습니다.

이것은 처리되는 각 신경망뿐만 아니라 각 GPU의 사양과 이를 연결하는 네트워크에도 고유한 맞춤형 문제입니다. 이러한 요소는 처음 학습되어야 합니다. 미리 설정합니다. 시작하기 전에 시스템 간에 이식할 수 없습니다.

200억 매개변수 대형 모델의 단일 머신 훈련: Cerebras가 신기록을 경신했습니다.

Cerebras의 CS-2는 모든 관련 전력, 메모리 및 스토리지 하위 시스템과 함께 Wafer Scale Engine-2 칩을 포함하는 독립형 슈퍼컴퓨팅 클러스터입니다.

200억 개의 매개변수는 대략 어느 정도 수준인가요? 인공지능 분야에서는 최근 다양한 기술 기업과 기관에서 대규모 사전 학습 모델 개발에 힘쓰고 있는 방향이 OpenAI의 GPT-3이다. 무려 1,750억 개의 매개변수를 사용하여 인간 독자를 속입니다. 지난해 말 출시된 딥마인드의 고퍼(Gopher)는 매개변수 수를 2,800억 개로 기록적으로 늘렸다.

최근 Google Brain은 1조 개가 넘는 매개변수를 갖춘 모델인 Switch Transformer를 훈련했다고 발표하기도 했습니다.

"NLP 분야에서는 더 큰 모델이 더 나은 성능을 발휘하는 것으로 입증되었습니다. 그러나 전통적으로 소수의 회사만이 이러한 대형 모델의 분해를 완료하여 수백 개에 걸쳐 분산시킬 수 있는 리소스와 전문 지식을 보유하고 있습니다. 수천 개의 그래픽 처리 장치가 있습니다."라고 Cerebras의 CEO이자 공동 창립자인 Andrew Feldman은 말했습니다. "따라서 대규모 NLP 모델을 훈련할 수 있는 회사는 거의 없습니다. 이는 너무 비싸고 시간이 많이 걸리며 나머지 업계에서는 사용할 수 없습니다."

이제 Cerebras의 방법은 GPT-3XL을 1.3B로 줄일 수 있습니다. GPT-J 6B, GPT-3 13B 및 GPT-NeoX 20B 모델을 사용하면 전체 AI 생태계에서 몇 분 만에 대규모 모델을 구축하고 단일 CS-2 시스템에서 교육할 수 있습니다.

200억 매개변수 대형 모델의 단일 머신 훈련: Cerebras가 신기록을 경신했습니다.

하지만 플래그십 CPU의 클럭 속도와 마찬가지로 매개 변수의 수는 대형 모델 성능을 나타내는 하나의 지표일 뿐입니다. 최근 일부 연구에서는 올해 4월 DeepMind가 제안한 Chinchilla와 같은 매개변수 감소를 전제로 더 나은 결과를 얻었습니다. 이는 매개변수가 700억 개에 불과한 기존 사례에서 GPT-3 및 Gopher를 능가했습니다.

이러한 유형의 연구의 목표는 물론 더 열심히 일하는 것이 아니라 더 똑똑하게 일하는 것입니다. 따라서 Cerebras의 성과는 사람들이 처음 보는 것보다 더 중요합니다. 이 연구는 현재의 칩 제조 수준이 점점 더 복잡해지는 모델에 적응할 수 있다는 확신을 주며, 회사는 특수 칩을 핵심으로 하는 시스템이 "지원 능력"을 가지고 있다고 말했습니다. 수천억, 심지어는 수조 개의 매개변수를 가진 모델이 많습니다.

단일 칩에서 훈련 가능한 매개변수 수가 폭발적으로 증가하는 것은 Cerebras의 Weight Streaming 기술에 달려 있습니다. 이 기술은 계산과 메모리 공간을 분리하여 AI 워크로드에서 빠르게 증가하는 매개변수 수에 따라 어떤 규모로든 메모리를 확장할 수 있도록 합니다. 이를 통해 설정 시간을 몇 개월에서 몇 분으로 줄이고 GPT-J 및 GPT-Neo와 같은 모델 간 전환이 가능합니다. 연구자들은 다음과 같이 말했습니다. "키를 몇 번만 누르면 됩니다."

"Cerebras는 사람들에게 저렴하고 편리한 방법으로 대규모 언어 모델을 실행할 수 있는 기능을 제공하여 흥미롭고 새로운 인공 지능 시대를 열었습니다. Intersect360 Research의 최고 연구 책임자인 Dan Olds는 "수천만 달러를 지출하여 대형 모델에서 경쟁할 수 없는 조직에 쉽고 저렴한 방법을 제공합니다."라고 말했습니다. "CS-2 고객이 대규모 데이터 세트에서 GPT-3 및 GPT-J 수준 모델을 훈련하면서 새로운 애플리케이션과 발견을 기대합니다."

위 내용은 200억 매개변수 대형 모델의 단일 머신 훈련: Cerebras가 신기록을 경신했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Microsoft Work Trend Index 2025는 작업장 용량 변형을 보여줍니다Apr 24, 2025 am 11:19 AM

AI의 빠른 통합으로 악화 된 직장의 급성장 용량 위기는 점진적인 조정을 넘어 전략적 변화를 요구합니다. 이것은 WTI의 발견에 의해 강조됩니다. 직원의 68%가 작업량으로 어려움을 겪고 BUR로 이어

AI가 이해할 수 있습니까? 중국의 객실 논쟁은 아니오라고 말하지만 맞습니까?Apr 24, 2025 am 11:18 AM

John Searle의 중국 방 주장 : AI 이해에 대한 도전 Searle의 사고 실험은 인공 지능이 진정으로 언어를 이해할 수 있는지 또는 진정한 의식을 가질 수 있는지 직접 의문을 제기합니다. Chines를 무시하는 사람을 상상해보십시오

중국의 '스마트'AI 조수는 Microsoft Recall의 개인 정보 결함을 반향합니다Apr 24, 2025 am 11:17 AM

중국의 기술 거대 기업은 서부에 비해 AI 개발 과정에서 다른 과정을 차트하고 있습니다. 기술 벤치 마크 및 API 통합에만 초점을 맞추는 대신 "스크린 인식"AI 비서 우선 순위를 정합니다.

Docker는 AI 모델 및 MCP 도구에 친숙한 컨테이너 워크 플로를 제공합니다.Apr 24, 2025 am 11:16 AM

MCP : AI 시스템이 외부 도구에 액세스 할 수 있도록 권한을 부여합니다 MCP (Model Context Protocol)를 사용하면 AI 애플리케이션이 표준화 된 인터페이스를 통해 외부 도구 및 데이터 소스와 상호 작용할 수 있습니다. MCP를 통해 MCP는 인류에 의해 개발되고 주요 AI 제공 업체가 지원하는 언어 모델 및 에이전트가 사용 가능한 도구를 발견하고 적절한 매개 변수로 전화 할 수 있습니다. 그러나 환경 충돌, 보안 취약점 및 일관되지 않은 교차 플랫폼 동작을 포함하여 MCP 서버 구현에는 몇 가지 과제가 있습니다. Forbes 기사 "Anthropic의 모델 컨텍스트 프로토콜은 AI 에이전트 개발의 큰 단계입니다."저자 : Janakiram MSVDocker는 컨테이너화를 통해 이러한 문제를 해결합니다. Docker Hub Infrastructure를 구축했습니다

6 억 달러 규모의 스타트 업을 구축하기 위해 6 개의 AI Street-Smart 전략 사용Apr 24, 2025 am 11:15 AM

최첨단 기술을 활용하고 비즈니스 통제력을 발휘하여 통제력을 유지하면서 수익성이 높고 확장 가능한 회사를 창출하는 비전 기업가가 사용하는 6 가지 전략. 이 안내서는

Google 사진 업데이트 모든 사진에 대한 멋진 Ultra HDR 잠금 해제Apr 24, 2025 am 11:14 AM

Google 사진의 새로운 Ultra HDR 도구 : 이미지 향상을위한 게임 체인저 Google Photos는 강력한 Ultra HDR 변환 도구를 도입하여 표준 사진을 활기차고 높은 동기 범위 이미지로 변환했습니다. 이 향상은 사진가 a

Descope는 AI 에이전트 통합을위한 인증 프레임 워크를 구축합니다Apr 24, 2025 am 11:13 AM

기술 아키텍처는 새로운 인증 문제를 해결합니다 에이전트 Identity Hub는 문제를 해결합니다. 많은 조직이 AI 에이전트 구현을 시작한 후에 만 기존 인증 방법이 기계 용으로 설계되지 않았다는 것을 발견 한 후에 만 발견합니다.

Google Cloud 다음 2025 및 현대 작업의 연결된 미래Apr 24, 2025 am 11:12 AM

(참고 : Google은 회사 인 Moor Insights & Strategy의 자문 고객입니다.) AI : 실험에서 Enterprise Foundation까지 Google Cloud Next 2025는 실험 기능에서 엔터프라이즈 기술의 핵심 구성 요소까지 AI의 진화를 보여주었습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.