Heim > Artikel > Technologie-Peripheriegeräte > Galaxy AI Network, die Antwort auf Transportkapazität im Zeitalter großer Modelle
Da der Wert großer vorab trainierter KI-Modelle immer größer wird, wird der Maßstab der Modelle immer größer. Industrie und Wissenschaft sind sich einig: Im KI-Zeitalter ist Rechenleistung Produktivität.
Obwohl dieses Verständnis richtig ist, ist es nicht umfassend. Digitale Systeme haben drei Säulen: Speicherung, Computer und Netzwerk, und das Gleiche gilt für die KI-Technologie. Wenn Sie Speicher- und Netzwerkrechenleistung beiseite legen, können große Modelle nur für sich alleine stehen. Insbesondere der an große Modelle angepassten Netzwerkinfrastruktur wurde keine wirksame Aufmerksamkeit geschenkt.
Angesichts großer KI-Modelle, die häufig „mit Zehntausenden von Karten trainieren“, „über Tausende von Kilometern eingesetzt werden“ und „mit Billionen von Parametern“, ist die Netzwerktransportkapazität eine Verbindung, die in der gesamten Intelligenz nicht ignoriert werden kann System. Die Herausforderungen, vor denen es steht, sind sehr ausgeprägt und es wartet auf Antworten, die die Situation lösen können.
Wang Lei, Präsident der Huawei-Produktlinie für Datenkommunikation
Am 20. September fand im Rahmen der Huawei Connect Conference 2023 ein Datenkommunikationsgipfel mit dem Thema „Galaxy AI Network, Accelerating Industry Intelligence“ statt. Vertreter aller Gesellschaftsschichten diskutierten über die Transformations- und Entwicklungstrends der KI-Netzwerktechnologie. Bei dem Treffen stellte Wang Lei, Präsident der Datenkommunikationsproduktlinie von Huawei, offiziell die Galaxy AI-Netzwerklösung vor. Er sagte, dass große Modelle die KI intelligenter machen, die Kosten für das Training eines großen Modells jedoch sehr hoch seien und auch die Kosten für KI-Talente berücksichtigt werden müssten. Daher kann künstliche Intelligenz in der Intelligentisierungsphase der Branche nur dann wirklich in Tausende von Branchen eindringen, wenn man sich auf den Aufbau großer Rechenleistungscluster und die Bereitstellung intelligenter Computing-Cloud-Dienste für die Gesellschaft konzentriert. Huawei hat eine neue Generation der Galaxy AI-Netzwerklösung herausgebracht. Im Hinblick auf das intelligente Zeitalter baut das Unternehmen eine neue Netzwerkinfrastruktur mit ultrahohem Durchsatz, langfristiger Stabilität, Zuverlässigkeit, Elastizität und hoher Parallelität auf, um die KI für alle zu nutzen und die Intelligenz zu beschleunigen die Branche.
Nutzen Sie diese Gelegenheit, um mehr über die Netzwerkherausforderungen zu erfahren, die der Aufstieg großer Modelle für intelligente Rechenzentren mit sich bringt, und darüber, warum das Huawei Galaxy AI Network die optimale Lösung für diese Probleme ist.
Wenn es um die KI-Ära geht, können ein Modell, ein Datenelement und eine Recheneinheit als Sternenlicht betrachtet werden. Doch nur wenn sie effizient und stabil miteinander verbunden werden, kann eine brillante intelligente Welt entstehen
Der Ausbruch großer Modelle löste einen versteckten Netzwerk-Torrent aus
Wir wissen, dass das KI-Modell in zwei Phasen unterteilt ist: Training und Inferenzbereitstellung. Mit dem Aufkommen vorab trainierter großer Modelle sind in diesen beiden Phasen auch große Herausforderungen für KI-Netzwerke aufgetreten.
Der erste befindet sich in der Trainingsphase des großen Modells. Da die Modellgröße und die Datenparameter immer größer werden, sind für das Training großer Modelle Rechencluster von Kilokalorien oder sogar 10.000 Kilowatt erforderlich. Dies bedeutet auch, dass das Training großer Modelle in Rechenzentren mit KI-Rechenleistung stattfinden muss.
Derzeit sind die Kosten für intelligente Rechenzentren sehr hoch. Branchendaten zufolge belaufen sich die Kosten für den Aufbau eines Clusters mit 100P-Rechenleistung auf 400 Millionen Yuan. Am Beispiel eines bekannten internationalen Großmodells beträgt sein täglicher Rechenleistungsaufwand während des Trainingsprozesses 700.000 US-Dollar
Wenn die Verbindungsfähigkeit des Rechenzentrumsnetzwerks nicht reibungslos funktioniert, was dazu führt, dass bei der Netzwerkübertragung große Mengen an Rechenressourcen verloren gehen, sind die Verluste für das Rechenzentrum und die KI-Modelle unermesslich. Im Gegenteil: Wenn das Cluster-Training bei gleicher Rechenleistung effizienter ist, ergeben sich für Rechenzentren enorme Geschäftsmöglichkeiten. Die Auslastungsrate und andere Netzwerkfaktoren bestimmen direkt die Trainingseffizienz des KI-Modells. Andererseits nimmt mit zunehmender Größe der KI-Rechenleistungscluster auch deren Komplexität entsprechend zu, sodass auch die Ausfallwahrscheinlichkeit zunimmt. Der Aufbau eines langfristig stabilen und zuverlässigen Cluster-Netzwerks ist für Rechenzentren ein wichtiger Dreh- und Angelpunkt zur Verbesserung ihres Input-Output-Verhältnisses
Außerhalb des Rechenzentrums zeigt sich der Wert von KI-Netzwerken auch in den Überlegungen und Einsatzszenarien von KI-Modellen. Die Inferenzbereitstellung großer Modelle basiert hauptsächlich auf Cloud-Diensten, und Cloud-Dienstanbieter müssen versuchen, größere Kunden mit begrenzten Rechenressourcen zu bedienen, um den kommerziellen Wert großer Modelle zu maximieren. Je mehr Benutzer es gibt, desto komplexer wird daher die gesamte Cloud-Netzwerkstruktur. Die Bereitstellung langfristiger und stabiler Netzwerkdienste ist für Cloud-Computing-Dienstleister zu einer neuen Herausforderung geworden.
Darüber hinaus stehen Regierungs- und Unternehmensanwender auf der letzten Meile der KI-Inferenzbereitstellung vor der Notwendigkeit, die Netzwerkqualität zu verbessern. In realen Szenarien führt ein Verbindungspaketverlust von 1 % dazu, dass die TCP-Leistung um das Fünfzigfache sinkt, was bedeutet, dass bei einem Breitband mit 100 Mbit/s die tatsächliche Kapazität weniger als 2 Mbit/s beträgt. Daher können wir nur durch die Verbesserung der Netzwerkfähigkeiten des Anwendungsszenarios selbst den reibungslosen Fluss der KI-Rechenleistung sicherstellen und eine wirklich integrative KI verwirklichen.
Daraus ist nicht schwer zu erkennen, dass im gesamten Prozess der Geburt, Übertragung und Anwendung großer KI-Modelle jede Verbindung mit den Herausforderungen und Anforderungen von Netzwerk-Upgrades konfrontiert ist. Das Transportkapazitätsproblem im Zeitalter großer Modelle muss dringend gelöst werden.
Die Idee der Netzwerkstörung im intelligenten Zeitalter kann vom Sternenlicht bis zur Galaxie reichen
Der Aufstieg großer Modelle hat zu einem Multi-Link- und Full-Process-Netzwerkproblem geführt. Deshalb müssen wir diese Herausforderung systematisch angehen
Huawei hat eine neue Netzwerkinfrastruktur für intelligente Computing-Cloud-Dienste vorgeschlagen. Die Einrichtung muss die drei Funktionen „hocheffizientes Training“, „ununterbrochene Rechenleistung“ und „inklusive KI-Dienste“ unterstützen. Diese drei Funktionen decken das gesamte Szenario großer KI-Modelle vom Training bis zur Inferenzbereitstellung ab. Huawei konzentriert sich nicht nur auf die Erfüllung eines einzelnen Bedarfs und die Verbesserung einer einzelnen Technologie, sondern fördert auch umfassend die Iteration von KI-Netzwerken und bringt so einzigartige bahnbrechende Ideen in die Branche
Konkret muss die Netzwerkinfrastruktur im KI-Zeitalter die folgenden Funktionen umfassen:
Zunächst muss das Netzwerk den Wert des KI-Computing-Clusters im Trainingsszenario maximieren. Durch den Aufbau eines Netzwerks mit extrem großen Verbindungsfunktionen wird ein hocheffizientes Training großer KI-Modelle erreicht.
Zweitens ist es zur Gewährleistung der Stabilität und Nachhaltigkeit von KI-Aufgaben notwendig, langfristige und zuverlässige Netzwerkfähigkeiten aufzubauen, um sicherzustellen, dass das monatliche Training nicht unterbrochen wird und gleichzeitig eine stabile Abgrenzung, Positionierung und Erholung gewährleistet ist der zweiten Stufe sind erforderlich, um Trainingsunterbrechungen zu minimieren. Dabei handelt es sich um den ununterbrochenen Kapazitätsaufbau der Rechenleistung.
Während des KI-Inferenzbereitstellungsprozesses muss das Netzwerk über elastische und hohe Parallelitätseigenschaften verfügen, die große Benutzerströme intelligent orchestrieren und das beste KI-Landeerlebnis bieten können. Außerdem kann es den Auswirkungen des Netzwerks widerstehen Degradierung und Gewährleistung einer reibungslosen KI-Rechenleistung zwischen verschiedenen Regionen. Dadurch wird auch der Kapazitätsaufbau von „inklusiven KI-Diensten“ realisiert.
Huawei hat endlich die Galaxy AI-Netzwerklösung auf den Markt gebracht und ist damit dieser bahnbrechenden Idee gefolgt. Diese Lösung integriert verteilte KI-Technologien und bildet durch leistungsstarke Rechenfunktionen ein galaxienähnliches Netzwerk Galaxy AI Network bietet eine leistungsstarke Antwort auf die Ära der großen ModelleWährend der Huawei Full Connectivity Conference 2023 teilte Huawei seine Entwicklungsvision mit, die Entwicklung großer KI-Modelle mit großer Rechenleistung, großer Speicherkapazität und großer Transportkapazität zu beschleunigen. Die neue Generation der Huawei Galaxy AI-Netzwerklösung kann als Huaweis Lösung für große Transportkapazitäten im Zeitalter der Intelligenz bezeichnet werden.
Für intelligente Rechenzentren ist das Huawei Galaxy AI Network die optimale Lösung basierend auf der Netzwerkleistung.
Seine Netzwerkeigenschaften mit extrem hohem Durchsatz können einen wichtigen Wert für die Verbesserung der Netzwerklastrate und die Verbesserung der Trainingseffizienz für KI-Cluster in intelligenten Rechenzentren bieten. Insbesondere verfügen die intelligenten Computing-Switches des Galaxy AI-Netzwerks über die branchenweit höchste Portdichte von 400 GE und 800 GE. Nur ein Layer-2-Switching-Netzwerk kann ein konvergenzfreies Cluster-Netzwerk von 18.000 Karten realisieren und unterstützt so das Training großer Modelle mit über einer Billion Parametern. Sobald die Netzwerkebene reduziert wird, bedeutet dies, dass das Rechenzentrum eine Menge Kosten für optische Module einsparen und gleichzeitig die Vorhersehbarkeit von Netzwerkrisiken verbessern und stabilere Trainingsfunktionen für große Modelle erhalten kann.
Das Galaxy AI-Netzwerk kann den Lastausgleich auf Netzwerkebene (NSLB) unterstützen und so die Auslastungsrate von 50 % auf 98 % erhöhen Erwartungen an ein effizientes Training
Für Cloud-Service-Hersteller kann Galaxy AI Network eine stabile und zuverlässige Rechenleistungsgarantie bieten.
In DCI-Rechnerraum-Verbindungsszenarien kann diese Technologie Funktionen wie die intelligente Planung über mehrere Pfade bereitstellen, die Auswirkungen des Spitzengeschäftsverkehrs automatisch erkennen und sich proaktiv daran anpassen. Es kann große und kleine Flüsse aus Millionen von Datenflüssen identifizieren und sie sinnvoll 100.000 Pfaden zuordnen, um eine Überlastung des Netzwerks zu vermeiden und eine elastische Garantie für Cloud-Dienste für intelligentes Computing mit hoher Parallelität zu bieten
Für Regierungs- und Unternehmensbenutzer kann das Galaxy AI-Netzwerk Probleme mit der Netzwerkverschlechterung bewältigen und eine universelle KI-Rechenleistung gewährleisten.
Es kann elastische Anti-Degradation-Funktionen in DCA-Berechnungsszenarien unterstützen. Es nutzt die Fillp-Technologie zur Optimierung des TCP-Protokolls, das die Bandbreitenauslastung unter der Bedingung einer Paketverlustrate von 1 % erhöhen kann, wodurch sichergestellt wird Die Abdeckung von städtischen Gebieten bis hin zu abgelegenen Gebieten fließt reibungslos und beschleunigt die integrative Anwendung von KI-Diensten.
Auf diese Weise werden die Netzwerkanforderungen aller Aspekte großer Modelle vom Training bis zur Bereitstellung gelöst. Von intelligenten Rechenzentren bis hin zu Tausenden von Branchen haben sie alle den Entwicklungsschwerpunkt des netzwerkbasierten Computings.In einer Ära der Intelligenz hat gerade eine neue Ära der Technologie begonnen, die durch große Modelle eröffnet wurde. Galaxy AI Network bietet die Antwort auf die Transportkapazität im intelligenten Zeitalter
Das obige ist der detaillierte Inhalt vonGalaxy AI Network, die Antwort auf Transportkapazität im Zeitalter großer Modelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!