뉴스 3월 14일 월요일, 미국 현지 시간으로 Microsoft는 OpenAI가 인기 있는 채팅 로봇 ChatGPT 개발을 돕기 위해 AI 슈퍼컴퓨터를 조립하는 데 수억 달러를 지출했다는 문서를 공개했습니다. 이 슈퍼컴퓨터는 수만 개의 NVIDIA 그래픽 칩 A100을 사용하므로 OpenAI가 점점 더 강력한 AI 모델을 훈련할 수 있습니다.
OpenAI는 AI 시스템이 훈련과 재훈련을 통해 알아내는 변수인 더 많은 데이터를 받아들이고 점점 더 많은 매개변수를 학습하는 더 큰 AI 모델 훈련을 시도합니다. 이는 OpenAI가 강력한 클라우드 컴퓨팅 서비스 지원을 확보하는 데 오랜 시간이 걸린다는 것을 의미합니다.
이 문제를 해결하기 위해 Microsoft는 2019년 OpenAI에 10억 달러를 투자했을 때 AI 연구 스타트업을 위한 대규모 최첨단 슈퍼컴퓨터를 조립하기로 합의했습니다. 문제는 Microsoft가 OpenAI에 필요한 어떤 것도 갖고 있지 않으며 Azure 클라우드 서비스를 중단하지 않고 이러한 대규모 장치를 구축할 수 있는지 완전히 확신하지 못한다는 것입니다.
이를 위해 Microsoft는 수만 개의 Nvidia A100 그래픽 칩을 연결하는 방법을 찾고 정전을 방지하기 위해 서버를 랙에 배치하는 방식을 변경해야 했습니다. A100 그래픽 칩은 AI 모델 훈련을 위한 도구입니다. 마이크로소프트의 클라우드 컴퓨팅 및 AI 담당 부사장인 스콧 거스리(Scott Guthrie)는 프로젝트의 구체적인 비용을 공개하지 않았지만 수억 달러에 달할 수 있다고 제안했습니다.
Microsoft Azure AI 인프라 총괄 관리자인 Nidhi Cappell은 다음과 같이 말했습니다. “우리는 매우 대규모로 실행할 수 있고 매우 안정적인 시스템 아키텍처를 구축했으며 이는 ChatGPT 성공의 중요한 이유 중 하나입니다.
이 기술을 기반으로 OpenAI는 인기 있는 챗봇인 ChatGPT를 출시했습니다. 지난 11월 출시된 지 며칠 만에 100만 명 이상의 사용자를 확보했으며 현재 다른 회사의 비즈니스 모델에 통합되고 있습니다. ChatGPT와 같은 생성 인공 지능(AIGC) 도구에 대한 기업과 소비자의 관심이 증가함에 따라 Microsoft, Amazon 및 Google과 같은 클라우드 서비스 제공업체는 데이터 센터에서 엄청난 컴퓨팅 성능이 필요한 모든 것을 제공할 수 있도록 해야 한다는 더 큰 압력에 직면하게 될 것입니다.
한편, Microsoft는 이제 지난달 출시된 새로운 Bing 검색 챗봇을 포함하여 자체 대규모 AI 모델을 훈련하고 실행하기 위해 OpenAI용으로 구축한 인프라를 사용하기 시작했습니다. 회사는 또한 시스템을 다른 고객에게 판매합니다. 소프트웨어 거대 기업인 마이크로소프트는 마이크로소프트가 투자에 100억 달러를 추가한 OpenAI와의 확장된 파트너십의 일환으로 이미 차세대 AI 슈퍼컴퓨터를 개발하고 있습니다.
Guthrie는 인터뷰에서 다음과 같이 말했습니다. “처음에는 OpenAI용으로 맞춤화했지만, 우리는 아무것도 맞춤화하지 않았지만, 대규모 언어 모델을 훈련하려는 사람이라면 누구나 활용할 수 있도록 항상 일반화된 방식으로 구축했습니다. 이는 우리가 더 넓은 규모로 더 나은 AI 지능형 클라우드가 되는 데 정말 도움이 됩니다.”
대규모 AI 모델을 훈련하려면 Microsoft에서 조립한 AI 슈퍼컴퓨터와 같은 장치가 많이 상호 연결된 그래프 처리가 필요합니다. 모델이 사용 중이면 사용자 쿼리(추론이라는 프로세스)로 제기된 모든 질문에 답하려면 약간 다른 설정이 필요합니다. 이를 위해 Microsoft는 추론을 위한 그래픽 칩도 배포하지만 이러한 프로세서(수천 개)는 회사의 60개가 넘는 데이터 센터에 지리적으로 분산되어 있습니다. 마이크로소프트는 이제 AI 워크로드를 위한 최신 엔비디아 H100 그래픽 칩과 데이터를 더 빠르게 공유하기 위해 최신 버전의 인피니밴드 네트워킹 기술을 추가하고 있다고 밝혔습니다.
새로운 Bing은 아직 테스트 단계에 있으며 Microsoft는 점차 테스트 목록에서 더 많은 사용자를 추가하고 있습니다. Guthrie의 팀은 약 20명의 직원과 매일 회의를 갖고 있으며, 원래는 경주에서 팀 유지 관리 팀의 메커니즘을 가리키는 "피트 크루"라고 부르는 직원입니다. 이 사람들의 임무는 더 많은 컴퓨팅 성능을 온라인으로 신속하게 가져오고 발생하는 문제를 해결하는 방법을 찾는 것입니다.
클라우드 서비스는 서버, 파이프, 건물의 콘크리트, 다양한 금속 및 광물을 비롯한 수천 개의 다양한 구성 요소에 의존하며, 한 구성 요소의 지연이나 부족은 아무리 사소하더라도 전체 프로젝트에 중단을 초래할 수 있습니다. 최근 '피트 크루'는 기계에 흐르는 케이블을 고정하는 바구니 모양의 장치인 케이블 트레이가 부족한 문제를 해결해야 했습니다. 그래서 그들은 새로운 케이블 트레이를 디자인했습니다. Guthrie는 또한 새로운 건물이 완공될 때까지 기다릴 필요가 없도록 전 세계의 기존 데이터 센터에 최대한 많은 서버를 구축하는 방법도 연구하고 있다고 말했습니다.
OpenAI나 Microsoft가 대규모 AI 모델 훈련을 시작하면 작업이 한꺼번에 완료되어야 합니다. 작업은 모든 GPU에 분산되며, 어느 시점에서 이러한 GPU는 수행 중인 작업을 공유하기 위해 서로 대화해야 합니다. AI 슈퍼컴퓨터의 경우 마이크로소프트는 모든 칩 간의 통신을 처리하는 네트워크 장비가 이 부하를 처리할 수 있는지 확인하고, GPU와 네트워크 장비의 활용도를 극대화하는 소프트웨어를 개발해야 한다. 이 회사는 이제 수십조 개의 매개변수를 사용하여 AI 모델을 훈련하는 데 사용할 수 있는 소프트웨어를 개발했습니다.
모든 머신이 동시에 시작되기 때문에 마이크로소프트는 머신을 어디에 배치할지, 전원 공급 장치를 어디에 배치할지 고려해야 합니다. 그렇지 않으면 데이터 센터에 결국 전력이 공급되지 않을 수 있습니다. Azure의 글로벌 인프라 이사인 Alistair Speirs는 Microsoft는 또한 모든 기계와 칩을 냉각할 수 있는지 확인해야 한다고 말했습니다. 이 회사는 더 시원한 기후에서는 냉각 방법을 사용하고, 더 시원한 기후에서는 첨단 기술을 사용합니다. 더운 기후의 늪 냉각기.
Guthrie는 Microsoft가 속도, 효율성 및 비용 절감을 극대화하기 위해 공급망을 최적화하는 방법은 물론 맞춤형 서버 및 칩 설계를 계속해서 연구할 것이라고 말했습니다. 그는 "현재 세상을 놀라게 하는 AI 모델은 우리가 몇 년 전에 만들기 시작한 슈퍼컴퓨터를 기반으로 구축되었으며, 새로운 모델은 우리가 지금 훈련시키고 있는 새로운 슈퍼컴퓨터를 사용할 것"이라고 말했다. 이 컴퓨터는 훨씬 더 크고 더 많은 것을 달성할 수 있다. 복잡한 기술입니다."
Microsoft는 이미 Nvidia의 H100 및 A100 Tensor Core GPU와 Quantum-2 InfiniBand 네트워킹을 사용하는 새로운 가상 머신을 출시하여 Azure의 AI 기능을 더욱 강력하게 만들기 위해 노력하고 있습니다. 마이크로소프트는 이를 통해 OpenAI와 Azure를 사용하는 다른 회사들이 더 크고 복잡한 AI 모델을 훈련할 수 있게 될 것이라고 밝혔습니다.
Microsoft의 Azure AI 기업 부사장인 Eric Boyd는 성명에서 다음과 같이 말했습니다. "우리는 대량 교육 활동을 지원하는 데 초점을 맞춘 전문 클러스터를 구축해야 한다는 것을 알았고 OpenAI가 일찍부터 있었습니다. 그 증거 중 하나입니다. 우리는 훈련 환경을 설정하는 데 필요한 핵심 조건과 기타 필요한 사항을 이해하기 위해 긴밀히 협력하고 있습니다.” (Xiao Xiao)
위 내용은 Microsoft는 수만 개의 Nvidia 칩을 사용하여 ChatGPT를 개발하기 위해 OpenAI용 슈퍼컴퓨터를 조립하는 데 수억 달러를 지출했다고 밝혔습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!