Heim > Artikel > Technologie-Peripheriegeräte > Der Aufstieg großer KI-Modelle stellt die Rechenleistung heimischer GPUs auf die Probe
Seit ChatGPT populär geworden ist, sind die Forschung und Entwicklung großer KI-Modelle nacheinander entstanden, und auch verschiedene Arten großer KI-Modelle wurden nacheinander auf den Markt gebracht. In China gab es einen fanatischen Krieg zwischen Hunderten von Modellen.
Als revolutionäres Datenmodell bringt ChatGPT nicht nur überraschende Veränderungen bei den Methoden zur Inhaltsproduktion mit sich, sondern ermöglicht der Branche auch, die Hoffnung auf allgemeine künstliche Intelligenz zu erkennen und die kontinuierliche Entstehung großer KI-Modelle und neuer Anwendungen zu fördern. Experten zufolge wird sich der Schwerpunkt der künftigen Forschung im Bereich der künstlichen Intelligenz weitgehend auf große Modelle verlagern, und wir läuten die Ära großer Modelle ein.
Die breite Anwendung traditioneller künstlicher Intelligenz besteht aus drei Elementen: Rechenleistung, Daten und Algorithmen. Mit dem Aufkommen der allgemeinen künstlichen Intelligenz (AGI) erfordern massive Daten jedoch viel Training und Optimierung, um eine höhere Vorhersagegenauigkeit und Generalisierungsfähigkeiten zu erreichen, und der Bedarf an Rechenleistung ist nicht mehr derselbe.
Während Großmodelle in vollem Gange sind, wird die große „Kluft“ zwischen Angebot und Nachfrage nach Rechenleistung immer größer. Wie man die „Angst“ vor der Rechenleistung löst, ist zu einem neuen Ziel für die Branche geworden.
Es gibt eine große Lücke in der Rechenleistung
Die kontinuierliche Optimierung großer Modelle auf Basis der Transformer-Struktur erfordert die „Einspeisung“ einer immer größeren Anzahl von Parametern. Mit zunehmender Größe der Trainingsparameter steigt auch der Bedarf an Rechenleistung und die Rechenleistungscluster werden immer komplexer Haare sind riesig.
Nehmen Sie ChatGPT als Beispiel: Um ChatGPT zu trainieren, hat OpenAI einen riesigen Rechenleistungscluster aufgebaut, der aus fast 30.000 NVIDIA V100-Grafikkarten besteht. Berechnet mit FP16 mit halber Genauigkeit ist dies ein Rechenleistungscluster von fast 4000P.
Berichten zufolge hat die Parameterskala von GPT-4 die 1-Billionen-Ebene erreicht und auch die entsprechenden Anforderungen an die Rechenleistung sind deutlich gestiegen. Die Daten zeigen, dass die Anzahl großer Modellparameter proportional zum Quadrat der Rechenleistung zunimmt.
Angesichts der zunehmenden Zahl von Unternehmen, die sich großen KI-Modellen widmen, gepaart mit dem Ökosystem der künstlichen Intelligenz, das große Modelle umgibt, und dem daraus resultierenden Bedarf an Rechenleistung für Inferenzen wird die Rechenleistungslücke in Zukunft noch alarmierender sein.
Ob die Rechenleistung ausreicht, entscheidet offensichtlich über den Erfolg oder Misserfolg der großen Modellprodukte jedes Unternehmens. Zou Yi, Präsident der Tianshu Zhixin Product Line, glaubt, dass für führende Unternehmen frühe GPT-Großmodelle etwa 10.000 NVIDIA-GPUs erfordern, iterative große Modelle jedoch möglicherweise mindestens Tausende von hochmodernen GPUs benötigen, um fertig zu werden. Angesichts des Aufkommens vieler Follower in diesem Bereich dürfen die folgenden Unternehmen hinsichtlich der Rechenleistung nicht gegen führende Unternehmen verlieren und müssen sogar mehr in die Rechenleistungsinfrastruktur investieren, um aufzuholen.
Ding Yunfan, Vizepräsident für Systemarchitektur von Biren Technology, hielt auf der Beijing Zhiyuan Conference, einem großen Treffen der Branche der künstlichen Intelligenz, eine Rede zum Thema „Aufbau eines inländischen Großmodell-Trainingssystems auf Basis einer Hochleistungs-Allzweck-GPU“. Er wies darauf hin, dass der Erfolgsfaktor von ChatGPT in der kollaborativen Innovation von Technik und Algorithmen liegt. Daten sind sowohl Treibstoff als auch Grundlage, insbesondere spielen hochwertige Daten die Rolle eines Beschleunigers; GPU-Cluster, aber auch Speicher- und Netzwerkcluster.
Aufgrund des Verbots sind die von NVIDIA für den chinesischen Markt eingeführten A800 und H800 die Hauptnachfrage auf dem Inlandsmarkt. Da die Nachfrage weiter steigt, ist der Preis für NVIDIA A800 alarmierend gestiegen und auch der Lieferzyklus hat sich verlängert. Es kann sogar sein, dass einige neue Bestellungen erst im Dezember geliefert werden.“
Glücklicherweise haben viele inländische Unternehmen die Führung im Bereich der Allzweck-GPUs übernommen und machen mit dem Aufstieg der bahnbrechenden AIGC-Industrie auch Fortschritte in den Bereichen Chip-Massenproduktion, ökologische Konstruktion und Anwendungserweiterung Marktraum hat sich ebenfalls eingeläutet. .
Erfordert Rechenleistung sowie Hardware und Software
Obwohl wir vor beispiellosen neuen Geschäftsmöglichkeiten stehen, müssen wir die Chance des Aufstiegs großer KI-Modelle nutzen und die Anforderungen an die Rechenleistung verstehen, die große Modelle wirklich von Grund auf unterstützen.
In diesem Zusammenhang sagte Zou Yi, dass die Rechenleistung ausgehend vom Modell, der Rechenrahmenschicht und der Operatorbeschleunigung drei Hauptelemente erfüllen muss: Erstens ist sie universell und kann eine schnelle Verformung des Modells und eine schnelle Unterstützung neuer Operatoren unterstützen. und schnelle Unterstützung neuer Kommunikationen; das zweite ist die Benutzerfreundlichkeit, da es mit vorhandenen Algorithmusmodulen implementiert werden kann und Tuning-Erfahrung als Referenz genutzt werden kann; das dritte ist die Benutzerfreundlichkeit, da es parallele Berechnungen wiederherstellen und den Speicherzugriff vollständig austauschen kann; und vollständig vernetztes Computing.
Um diese drei Hauptelemente zu verwirklichen, steckt tatsächlich eine wesentlich wesentlichere Logik dahinter. Wie Kunlun Core R&D Director Luo Hang unverblümt sagte, muss die Industrialisierung der heimischen Rechenleistung drei enge Tore passieren: Erstens die Massenproduktion, die die enormen Investitionen in die frühzeitige Ausmusterung erheblich verwässern kann, und die Kostensenkung durch Massenproduktion ist der einzige Weg dazu Rentabilität ist auch einer der Indikatoren zur Messung der Reife von Chips. Um den Kunden eine bessere Entwicklung von Anwendungen zu ermöglichen, müssen wir uns bemühen, ein vernünftiges und geeignetes Software-Ökosystem aufzubauen Software und Hardware in Produkte umwandeln, die mit vertikalen Branchen kombiniert werden müssen, um eine Produktwertschöpfung zu erreichen.
Um die massive Erweiterung der Trainingsparameter weiter zu unterstützen, müssen GPU-Hersteller außerdem nicht nur in der Lage sein, Tausende bis Zehntausende von GPU-Karten-Trainingsclustern aufzubauen, sondern auch sicherstellen, dass sie während des Trainings kontinuierlich und fehlerfrei arbeiten können Schulungsprozess, der sich nachteilig auf die Produktstabilität und -zuverlässigkeit auswirkt, stellen äußerst hohe Anforderungen. Gleichzeitig muss es auch skalierbare elastische Fähigkeiten unterstützen, um eine elastische Skalierbarkeit der Rechenleistung zu erreichen.
Laut Ding Yunfans Zusammenfassung sind Kunden beim Training großer Modelle mit Hunderten von Milliarden Parametern am meisten auf die Speicherbarkeit und Skalierbarkeit bedacht. Darüber hinaus fordern Kunden Modelle, die einfach zu bedienen, schnell und kostengünstig sind.
Es ist erwähnenswert, dass inländische Hersteller, darunter Cambrian, Kunlun Core, Suiyuan, Biren, Tianshu Zhixin, Muxi, Moore Thread und andere, zur umfassenden Unterstützung der Entwicklung großer Modelle auch viel an der zugrunde liegenden technischen Unterstützung gearbeitet haben . Hausaufgaben: Verbessern Sie die Chipleistung durch Maximierung der Datenwiederverwendung, skalierbare große Matrixberechnungen und asynchrone Speicherung und Berechnung sowie Transformatorbeschleunigung mit gemischter Genauigkeit. Gleichzeitig verbessern wir unsere Fähigkeiten in der Basissoftware weiter.
„Biren konzentriert sich nicht nur auf GPU-Rechenleistung, Kosten und andere Aspekte, sondern bietet auch starke Unterstützung in mehrdimensionalen Aspekten: Erstens kann die Clusterskala bei Bedarf erweitert werden und mehrere Datenebenen können parallel kommunizieren, um Konflikte zu reduzieren; Zweitens kann auf mehrere Maschinen zugegriffen werden. Das Lernframework führt eine elastische Planung in der datenparallelen Dimension durch, unterstützt automatische Fehlertoleranz sowie Erweiterung und Kontraktion, beschleunigt das Training erheblich, verbessert die Effizienz, unterstützt die Aufgabenmigration über Switches hinweg und reduziert die Ressourcenfragmentierung unter einem einzelnen Switch , verbessert die Ressourcennutzung und gewährleistet die Aufgabenstabilität“, sagte Ding Yunfan.
Ökologie ist der Schlüssel zur Zukunft
Auf einer tieferen Ebene ist die Schulung inländischer Großmodelle untrennbar mit der Unterstützung von GPUs mit großer Rechenleistung verbunden und erfordert auch den Aufbau eines ausgereiften industriellen Ökosystems, das Software und Hardware mit vollständiger Stack-Abdeckung integriert.
Das Training großer KI-Modelle kann als systematisches Projekt betrachtet werden, das umfassende Upgrades testet. Ding Yunfan sagte, dass dieses Projekt Hochleistungs-Computing-Cluster, Plattformen für maschinelles Lernen, Beschleunigungsbibliotheken, Trainings-Frameworks und Inferenz-Engines umfasst. Es erfordert verteilte Hardware, einschließlich CPU, Speicher und Kommunikation, um eine effiziente Verbindung und Integration mit dem Trainings-Framework zu unterstützen Der Prozess erreicht eine umfassende Zusammenarbeit und erreicht gleichzeitig parallele Erweiterung, Stabilität und Zuverlässigkeit.
Gerade aufgrund dieser Nachfrage müssen sich inländische GPUs aus einer Perspektive an große Modelltrainingssysteme anpassen, die nicht nur auf die Basis der Rechenleistung beschränkt sind Daher ist auch das ökologische Bauen von entscheidender Bedeutung.
In Bezug auf diese Nachfrage haben einige inländische GPU-Hersteller bereits die Führung übernommen und sich der Entwicklung von Full-Stack-Lösungen für große Modelle verschrieben, die Software und Hardware integrieren, einschließlich einer leistungsstarken Infrastruktur auf Basis großer Rechenleistungschips, intelligenter Planung und Verwaltung von Tausenden von GPU-Karten Wir bemühen uns weiterhin um Plattformen für maschinelles Lernen, leistungsstarke Operatorbibliotheken und Kommunikationsbibliotheken sowie Schulungsframeworks, die mit gängigen großen Modellen kompatibel und anpassbar sind.
Um gemeinsam die kollaborative Innovation von Rechenleistung und Großmodellanwendungen voranzutreiben, beschleunigt die industrielle Ökologie von GPU-Herstellern und inländischen Großmodellen auch das Tempo der Zusammenarbeit.
Es wird berichtet, dass Biren Technology sich nacheinander dem Open-Source-System FlagOpen (Feizhi) für große Modelltechnologie des Zhiyuan Research Institute und dem Projekt „AI Open Ecological Laboratory“ des Zhiyuan Research Institute angeschlossen hat und ein Projekt im Bereich KI-Software für große Modelle durchgeführt hat Hardware-ökologische Bauweise. Das Großprojekt „Künstliche Intelligenz der neuen Generation“ des Ministeriums für Wissenschaft und Technologie „Wissenschaftliche und technologische Innovation 2030“ – „Basismodell-Unterstützungsplattform und Evaluierungstechnologie für künstliche Intelligenz“, an dem beide Parteien beteiligt waren, hat wichtige Fortschritte erzielt.
Darüber hinaus beteiligte sich Biren Technology auch am Bau und der gemeinsamen Veröffentlichung der „Fei Paddle AI Studio Hardware Ecological Zone“ und hoffte, eng mit vielen ökologischen Partnern, darunter Baidu Fei Paddle, zusammenzuarbeiten und die Vorteile des chinesischen KI-Frameworks und der KI-Rechenleistung zu kombinieren , was eine starke treibende Kraft für die Entwicklung der chinesischen KI-Industrie darstellt.
Berichten zufolge unterstützen die Allzweck-GPU-Produkte von Tianshu Zhixin weitgehend verschiedene große Modell-Frameworks wie DeepSpeed, Colossal und BM Train. Die darauf basierende Rechenleistungs-Cluster-Lösung unterstützt auch effektiv gängige AIGC-Großmodelle wie LLaMa und GPT-2 und CPM haben sich auch an Open-Source-Projekte vieler inländischer Forschungseinrichtungen angepasst, darunter die Tsinghua-Universität, die Zhiyuan-Universität und die Fudan-Universität.
Mit Blick auf die Zukunft wird die Nachfrage nach großen KI-Modellen weiter steigen, wie inländische GPU-Hersteller weiterhin Produkte iterieren, Rechenleistungslösungen verbessern und sich an große Modelle anpassen, die effizientere und komplexere Algorithmen unterstützen.
【Quelle: Jiwei.com】
Das obige ist der detaillierte Inhalt vonDer Aufstieg großer KI-Modelle stellt die Rechenleistung heimischer GPUs auf die Probe. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!