Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Microsoft gab bekannt, dass es Hunderte Millionen Dollar ausgegeben hat, um einen Supercomputer für OpenAI zur Entwicklung von ChatGPT zu bauen und dabei Zehntausende von Nvidia-Chips zu verwenden

Microsoft gab bekannt, dass es Hunderte Millionen Dollar ausgegeben hat, um einen Supercomputer für OpenAI zur Entwicklung von ChatGPT zu bauen und dabei Zehntausende von Nvidia-Chips zu verwenden

王林
王林nach vorne
2023-04-12 13:52:03850Durchsuche

Microsoft gab bekannt, dass es Hunderte Millionen Dollar ausgegeben hat, um einen Supercomputer für OpenAI zur Entwicklung von ChatGPT zu bauen und dabei Zehntausende von Nvidia-Chips zu verwenden

Nachrichten Am 14. März, am Montag Ortszeit in den Vereinigten Staaten, veröffentlichte Microsoft ein Dokument, aus dem hervorgeht, dass es Hunderte Millionen Dollar ausgegeben hat, um OpenAI beim Aufbau eines KI-Supercomputers zu unterstützen, der bei der Entwicklung des beliebten Chat-Roboters ChatGPT helfen soll. Dieser Supercomputer nutzt Zehntausende NVIDIA-A100-Grafikchips, wodurch OpenAI immer leistungsfähigere KI-Modelle trainieren kann.

OpenAI versucht, immer größere KI-Modelle zu trainieren, die mehr Daten aufnehmen und immer mehr Parameter lernen, das sind die Variablen, die das KI-System durch Training und Umschulung ermittelt. Dies bedeutet, dass es lange dauern wird, bis OpenAI eine starke Unterstützung für Cloud-Computing-Dienste erhält.

Um dieser Herausforderung zu begegnen, erklärte sich Microsoft, als Microsoft 2019 1 Milliarde US-Dollar in OpenAI investierte, bereit, einen riesigen, hochmodernen Supercomputer für das KI-Forschungs-Startup zu bauen. Das Problem besteht darin, dass Microsoft nicht über alles verfügt, was OpenAI benötigt, und nicht ganz sicher ist, ob es ein solch riesiges Gerät bauen kann, ohne seinen Azure-Cloud-Dienst zu unterbrechen.

Dazu musste Microsoft Möglichkeiten finden, Zehntausende von Nvidias A100-Grafikchips anzuschließen und die Art und Weise zu ändern, wie Server in Racks platziert werden, um Stromausfälle zu verhindern. Der A100-Grafikchip ist das Arbeitstier für das Training von KI-Modellen. Scott Guthrie, Microsofts Executive Vice President für Cloud Computing und KI, gab die konkreten Kosten des Projekts nicht bekannt, deutete jedoch an, dass sie sich auf Hunderte Millionen Dollar belaufen könnten.

Nidhi Cappell, General Manager von Microsoft Azure AI Infrastructure, sagte: „Wir haben eine Systemarchitektur aufgebaut, die in sehr großem Maßstab ausgeführt werden kann und sehr zuverlässig ist, was ein wichtiger Grund für den Erfolg von ChatGPT ist. Dies ist nur einer.“ Modell, das wir daraus abgeleitet haben, und es wird noch viele weitere Modelle geben.“

Basierend auf dieser Technologie hat OpenAI den beliebten Chatbot ChatGPT veröffentlicht. Innerhalb weniger Tage nach der Einführung im vergangenen November zog es mehr als eine Million Nutzer an und wird nun in die Geschäftsmodelle anderer Unternehmen integriert. Da das Interesse von Unternehmen und Verbrauchern an Tools für generative künstliche Intelligenz (AIGC) wie ChatGPT wächst, werden Cloud-Dienstleister wie Microsoft, Amazon und Google einem größeren Druck ausgesetzt sein, sicherzustellen, dass ihre Rechenzentren alle Anforderungen erfüllen können, die eine enorme Rechenleistung erfordern.

Mittlerweile beginnt Microsoft nun auch, die für OpenAI aufgebaute Infrastruktur zu nutzen, um seine eigenen groß angelegten KI-Modelle zu trainieren und auszuführen, einschließlich des neuen Bing-Such-Chatbots, der letzten Monat eingeführt wurde. Das Unternehmen verkauft das System auch an andere Kunden. Der Softwareriese arbeitet bereits an der nächsten Generation von KI-Supercomputern im Rahmen der erweiterten Partnerschaft von Microsoft mit OpenAI, einem Deal, bei dem Microsoft seine Investition um 10 Milliarden US-Dollar aufgestockt hat.

Guthrie sagte in einem Interview: „Wir haben nichts für OpenAI angepasst, auch wenn es ursprünglich angepasst wurde, aber wir haben es immer allgemein aufgebaut, sodass jeder, der ein großes Sprachmodell trainieren möchte, davon profitieren kann.“ Die gleiche verbesserte Technologie hilft uns wirklich, eine bessere KI-Intelligenz-Cloud auf breiterer Ebene zu werden.“ Sobald das Modell verwendet wird, erfordert die Beantwortung aller durch Benutzeranfragen gestellten Fragen (ein Prozess namens Inferenz) eine etwas andere Einrichtung. Zu diesem Zweck setzt Microsoft auch Grafikchips zur Inferenz ein, diese Prozessoren (Tausende davon) sind jedoch geografisch über die mehr als 60 Rechenzentren des Unternehmens verteilt. Microsoft gab bekannt, dass es jetzt den neuesten Nvidia H100-Grafikchip für KI-Workloads und die neueste Version der Infiniband-Netzwerktechnologie hinzufügt, um Daten schneller auszutauschen.

Das neue Bing befindet sich noch in der Testphase und Microsoft fügt nach und nach weitere Benutzer aus der Testliste hinzu. Guthries Team hält täglich Treffen mit etwa 20 Mitarbeitern ab, die er „Boxencrew“ nennt, womit er ursprünglich die Mechaniker des Wartungsteams des Teams im Rennsport bezog. Die Aufgabe dieser Leute besteht darin, herauszufinden, wie man schnell mehr Rechenleistung online bringen und auftretende Probleme lösen kann.

Cloud-Dienste basieren auf Tausenden verschiedener Komponenten, darunter Server, Rohre, Beton in Gebäuden, verschiedene Metalle und Mineralien, und Verzögerungen oder Engpässe bei einer einzelnen Komponente, egal wie geringfügig, können zu Störungen des gesamten Projekts führen. Kürzlich musste das „Pit-Crew“-Team helfen, einen Mangel an Kabelrinnen zu beheben, den korbähnlichen Vorrichtungen, die die an Maschinen herunterlaufenden Kabel halten. Also entwarfen sie eine neue Kabelrinne. Guthrie sagte, dass sie auch daran arbeiten, so viele Server wie möglich in bestehende Rechenzentren auf der ganzen Welt unterzubringen, damit sie nicht auf die Fertigstellung neuer Gebäude warten müssen.

Wenn OpenAI oder Microsoft mit dem Training großer KI-Modelle beginnen, muss die Arbeit auf einmal erledigt werden. Die Arbeit wird auf alle ​GPUs​ verteilt, und irgendwann müssen diese GPUs miteinander kommunizieren, um die von ihnen geleistete Arbeit zu teilen. Bei KI-Supercomputern muss Microsoft sicherstellen, dass die Netzwerkausrüstung, die die Kommunikation zwischen allen Chips übernimmt, diese Last bewältigen kann, und es muss Software entwickeln, die die Nutzung von GPUs und Netzwerkausrüstung maximiert. Das Unternehmen hat nun eine Software entwickelt, mit der sich KI-Modelle mit zig Billionen Parametern trainieren lassen.

Da alle Maschinen gleichzeitig gestartet werden, muss Microsoft überlegen, wo sie platziert werden und wo die Stromversorgung platziert werden soll. Andernfalls kann es im Rechenzentrum irgendwann zu einem Stromausfall kommen. Microsoft muss auch sicherstellen, dass alle diese Maschinen und Chips gekühlt werden können, sagte Alistair Speirs, Direktor für globale Infrastruktur bei Azure. Das Unternehmen nutzt in kühleren Klimazonen Verdunstung und nutzt dabei Außenluft Sumpfkühler in heißen Klimazonen.

Guthrie sagte, dass Microsoft weiterhin an maßgeschneiderten Server- und Chipdesigns sowie Möglichkeiten zur Optimierung der Lieferkette arbeiten werde, um Geschwindigkeit, Effizienz und Kosteneinsparungen zu maximieren. Er sagte: „Die KI-Modelle, die die Welt jetzt verblüffen, basieren auf dem Supercomputer, mit dem wir vor einigen Jahren begonnen haben, und das neue Modell wird den neuen Supercomputer verwenden, den wir jetzt trainieren. Dieser Computer ist viel größer und kann mehr leisten.“ Komplexe Technologie.“

Microsoft arbeitet bereits daran, die KI-Funktionen von Azure leistungsfähiger zu machen, indem es neue virtuelle Maschinen auf den Markt bringt, die Nvidias H100- und A100-Tensor-Core-GPUs sowie Quantum-2-InfiniBand-Netzwerke nutzen. Laut Microsoft wird dies OpenAI und anderen Unternehmen, die auf Azure angewiesen sind, die Möglichkeit geben, größere, komplexere KI-Modelle zu trainieren.

Eric Boyd, Enterprise Vice President für Azure AI bei Microsoft, sagte in einer Erklärung: „Wir haben festgestellt, dass wir spezialisierte Cluster aufbauen müssen, die sich auf die Unterstützung umfangreicher Schulungsbemühungen konzentrieren, und OpenAI war früh dran. Einer der Beweise. Wir.“ arbeiten eng mit ihnen zusammen, um die wichtigsten Bedingungen zu verstehen, die sie beim Aufbau einer Schulungsumgebung benötigen, und um andere Dinge zu verstehen, die sie benötigen.“ (Xiao Xiao)

Das obige ist der detaillierte Inhalt vonMicrosoft gab bekannt, dass es Hunderte Millionen Dollar ausgegeben hat, um einen Supercomputer für OpenAI zur Entwicklung von ChatGPT zu bauen und dabei Zehntausende von Nvidia-Chips zu verwenden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen