Heim >Technologie-Peripheriegeräte >KI >Wie künstliche Intelligenz dazu beitragen kann, dass sich Hardware besser entwickelt

Wie künstliche Intelligenz dazu beitragen kann, dass sich Hardware besser entwickelt

王林nach vorne: 2023-04-13 08:13:021856Durchsuche

Computerhardware ist seit vielen Jahren ein weniger aktiver Markt. Die vorherrschende x86-Mikroprozessorarchitektur hat die Grenzen der durch Miniaturisierung erreichbaren Leistungssteigerungen erreicht, sodass sich die Hersteller in erster Linie darauf konzentrieren, mehr Kerne in einen Chip zu packen.

Für die schnelle Entwicklung von maschinellem Lernen und tiefem Lernen ist die GPU der Retter. Ursprünglich für die Grafikverarbeitung konzipiert, können GPUs über Tausende kleiner Kerne verfügen, was sie ideal für die für das KI-Training erforderlichen parallelen Verarbeitungsfunktionen macht.

Die Natur der künstlichen Intelligenz profitiert von der Parallelverarbeitung, und vor etwa 10 Jahren wurde entdeckt, dass GPUs, die für die Anzeige von Pixeln auf einem Bildschirm konzipiert sind, hierfür hervorragend geeignet sind, da es sich um Parallelverarbeitungs-Engines handelt und viele Kerne aufnehmen können in ihnen.

Das sind gute Nachrichten für Nvidia, dessen Marktkapitalisierung von weniger als 18 Milliarden US-Dollar im Jahr 2015 auf 735 Milliarden US-Dollar stieg, bevor der Markt im letzten Jahr schrumpfte. Bis vor Kurzem hatte das Unternehmen praktisch den gesamten Markt für sich. Doch viele Konkurrenten versuchen, das zu ändern.

In Bezug auf KI-Workloads waren es bisher die GPUs von Nvidia, aber Benutzer suchen nach Technologien, die es auf die nächste Stufe bringen können, und da Hochleistungsrechnen und KI-Workloads weiter zusammenwachsen, werden wir weitere Arten von Beschleunigern sehen entstehen.

Beschleunigung der Entwicklung neuer Hardware

Die großen Chiphersteller stehen nicht still. Vor drei Jahren erwarb Intel den israelischen Chiphersteller Havana Labs und machte das Unternehmen zum Schwerpunkt seiner Entwicklungsbemühungen im Bereich der künstlichen Intelligenz.

Der Gaudi2-Trainingsoptimierungsprozessor und der Greco-Inferenzprozessor, die Havana im vergangenen Frühjahr auf den Markt gebracht hat, sollen mindestens doppelt so schnell sein wie Nvidias Flaggschiff-Prozessor A100.

Im März dieses Jahres brachte Nvidia die H100-Beschleuniger-GPU mit 80 Milliarden Transistoren und Unterstützung für die Hochgeschwindigkeits-NVLink-Verbindung des Unternehmens auf den Markt. Es verfügt über eine spezielle Engine, die die Ausführung von Transformer-basierten Modellen, die in der Verarbeitung natürlicher Sprache verwendet werden, im Vergleich zur vorherigen Generation um das Sechsfache beschleunigen kann. Aktuelle Tests mit dem MLPerf-Benchmark zeigen, dass H100 Gaudi2 in den meisten Deep-Learning-Tests übertrifft. Auch bei seinem Software-Stack wird Nvidia ein Vorteil zugeschrieben.

Viele Benutzer entscheiden sich für GPUs, weil sie Zugriff auf ein Ökosystem zentralisierter Software haben. Der Grund, warum NVIDIA so erfolgreich ist, liegt darin, dass sie eine Ökosystemstrategie etabliert haben.

Hyperscale-Cloud-Computing-Unternehmen sind sogar früher als Chiphersteller in dieses Feld eingestiegen. Die Tensor-Verarbeitungseinheit von Google LLC ist ein anwendungsspezifischer integrierter Schaltkreis, der 2016 auf den Markt kam und sich derzeit in der vierten Generation befindet. Amazon Web Services brachte 2018 seinen Inferenzverarbeitungsbeschleuniger für maschinelles Lernen auf den Markt und behauptete, er biete mehr als die doppelte Leistung von GPU-beschleunigten Instanzen.

Letzten Monat gab das Unternehmen die allgemeine Verfügbarkeit von Cloud-Instanzen auf Basis seiner Trainium-Chips bekannt und gab an, dass diese 50 % weniger kosten als GPU-basiertes EC2 bei vergleichbarer Leistung in Deep-Learning-Modell-Trainingsszenarien. Die Bemühungen beider Unternehmen konzentrieren sich hauptsächlich auf die Bereitstellung über Cloud-Dienste.

Während sich etablierte Marktführer auf inkrementelle Verbesserungen konzentrieren, finden viele der interessanteren Innovationen bei Startups statt, die KI-spezifische Hardware entwickeln. Den Daten zufolge wurde im vergangenen Jahr der Großteil der 1,8 Milliarden US-Dollar, die in Chip-Start-ups investiert wurden, von Risikokapitalgebern angezogen, mehr als doppelt so viel wie im Jahr 2017.

Sie jagen einen Markt, der enorme Gewinne bringen könnte. Der globale Markt für künstliche Intelligenzchips wird voraussichtlich von 8 Milliarden US-Dollar im Jahr 2020 auf fast 195 Milliarden US-Dollar im Jahr 2030 wachsen.

Kleiner, schneller, günstiger

Wenige Startups wollen x86-CPUs ersetzen, aber das liegt daran, dass der Hebel dafür relativ gering ist. Chips sind nicht mehr der Flaschenhals, die Kommunikation zwischen verschiedenen Chips ist ein riesiger Flaschenhals.

Die CPU führt Vorgänge auf niedriger Ebene wie das Verwalten von Dateien und das Zuweisen von Aufgaben aus, aber ein rein CPU-spezifischer Ansatz ist für die Skalierung nicht mehr geeignet. CPUs sind für eine Vielzahl von Aktivitäten vom Öffnen von Dateien bis zum Verwalten von Speichercaches ausgelegt und müssen Allzweck sein. Dies bedeutet, dass es für die massiv parallelen Matrixarithmetikoperationen, die für das KI-Modelltraining erforderlich sind, nicht gut geeignet ist.

Die meisten Aktivitäten auf dem Markt drehen sich um Co-Prozessor-Beschleuniger, anwendungsspezifische integrierte Schaltkreise und in geringerem Maße vor Ort programmierbare Gate-Arrays, die für bestimmte Anwendungen fein abgestimmt werden können.

Jeder folgt der Erzählung von Google, Co-Prozessoren zu entwickeln, die in Verbindung mit der CPU zusammenarbeiten, um auf bestimmte Teile der KI-Arbeitslast abzuzielen, indem sie die Algorithmen fest in den Prozessor codieren, anstatt sie als Software auszuführen.

Beschleunigungsgleichung

Die Beschleunigungsgleichung wird verwendet, um sogenannte Grafik-Stream-Prozessoren für Edge-Computing-Szenarien wie selbstfahrende Autos und Videoüberwachung zu entwickeln. Der vollständig programmierbare Chipsatz übernimmt viele Funktionen einer CPU, ist jedoch für Parallelität auf Aufgabenebene und Streaming-Ausführungsverarbeitung optimiert und verbraucht nur 7 Watt Leistung.

Die Architektur basiert auf Diagrammdatenstrukturen, in denen Beziehungen zwischen Objekten als verbundene Knoten und Kanten dargestellt werden. Jedes Framework für maschinelles Lernen verwendet Diagrammkonzepte und behält während des gesamten Chipdesigns die gleiche Semantik bei. Das gesamte Diagramm einschließlich des CMM, das jedoch benutzerdefinierte Knoten enthält, kann ausgeführt werden. Wir können in diesen Diagrammen alles Parallele beschleunigen.

Seine grafikbasierte Architektur löst einige der Kapazitätsbeschränkungen von GPUs und CPUs und kann flexibler an verschiedene Arten von KI-Aufgaben angepasst werden. Es ermöglicht Entwicklern außerdem, für bessere Schlussfolgerungen mehr Verarbeitung an den Rand zu verlagern. Wenn Unternehmen 80 % der Verarbeitung vorab verarbeiten können, können sie viel Zeit und Kosten sparen.

Diese Anwendungen können Intelligenz näher an Daten bringen und eine schnelle Entscheidungsfindung ermöglichen. Das Ziel der meisten ist Inferenz, also der Einsatz von KI-Modellen vor Ort, und nicht die rechenintensiveren Trainingsaufgaben.

Ein Unternehmen entwickelt einen Chip, der In-Memory-Computing nutzt, um die Latenz und den Bedarf an externen Speichergeräten zu reduzieren. Seine Plattform für künstliche Intelligenz bietet Flexibilität und die Möglichkeit, mehrere neuronale Netze bei gleichzeitig hoher Genauigkeit zu betreiben.

Bei der Serie der Datenverarbeitungseinheiten handelt es sich um ein riesiges Parallelprozessor-Array mit einem skalierbaren 80-Kern-Prozessor, der Dutzende Aufgaben parallel ausführen kann. Die wichtigste Neuerung ist die enge Integration eines Tensor-Coprozessors in jedes Verarbeitungselement und die Unterstützung des direkten Tensor-Datenaustauschs zwischen Elementen, um Engpässe bei der Speicherbandbreite zu vermeiden. Dies ermöglicht eine effiziente Beschleunigung von KI-Anwendungen, da die Vor- und Nachverarbeitung auf denselben Verarbeitungselementen durchgeführt wird.

Und einige Unternehmen konzentrieren sich auf die Ableitung von Deep-Learning-Modellen mithilfe von Chipsätzen in Miniaturgröße, die nach Angaben des Unternehmens 26 Billionen Operationen pro Sekunde ausführen können und dabei weniger als 3 Watt Strom verbrauchen. Dies wird zum Teil dadurch erreicht, dass jede Netzwerkschicht, die zum Trainieren eines Deep-Learning-Modells verwendet wird, in die erforderlichen Rechenelemente zerlegt und diese auf einem speziell für Deep-Learning entwickelten Chip integriert wird.

Die Verwendung von Onboard-Speicher reduziert den Overhead weiter, das gesamte Netzwerk befindet sich im Chip und es gibt keinen externen Speicher, was bedeutet, dass der Chip kleiner sein und weniger Energie verbrauchen kann. Der Chip kann Deep-Learning-Modelle auf hochauflösenden Bildern nahezu in Echtzeit ausführen, sodass ein einziges Gerät die automatische Nummernschilderkennung auf vier Fahrspuren gleichzeitig ausführen kann.

Aktuelle Entwicklung von Hardware

Einige Startups verfolgen eher einen Moonshot-Ansatz und zielen darauf ab, die gesamte Plattform für das Training und den Betrieb von Modellen der künstlichen Intelligenz neu zu definieren.

Ein für maschinelles Lernen optimierter KI-Prozessor kann beispielsweise bis zu 350 Billionen Verarbeitungsvorgänge pro Sekunde mit fast 9.000 gleichzeitigen Threads und 900 Megabyte prozessorinternem Speicher verwalten. Das integrierte Rechensystem heißt Bow-2000IPU-Maschine und soll 1,4 Petaflops an Operationen pro Sekunde leisten können.

Was ihn von anderen unterscheidet, ist sein dreidimensionales gestapeltes Chip-Design, das es ihm ermöglicht, fast 1500 parallele Verarbeitungskerne in einem Chip zu packen. Alle diese Unternehmen sind in der Lage, völlig unterschiedliche Geschäfte zu führen. Dies unterscheidet sich von weit verbreiteten GPU-Architekturen, die es vorziehen, dieselben Vorgänge auf großen Datenblöcken auszuführen.

Ein weiteres Beispiel: Einige Unternehmen lösen das Problem der Verbindung, also der Verkabelung zwischen verbundenen Komponenten in integrierten Schaltkreisen. Wenn Prozessoren ihre theoretische Höchstgeschwindigkeit erreichen, wird der Weg zum Bewegen der Bits immer mehr zum Engpass, insbesondere wenn mehrere Prozessoren gleichzeitig auf den Speicher zugreifen. Heutige Chips stellen nicht mehr den Engpass der Verbindung dar.

Der Chip nutzt nanophotonische Wellenleiter in einer Plattform für künstliche Intelligenz, die angeblich hohe Geschwindigkeit und große Bandbreite in einem Niedrigenergiepaket vereint. Es handelt sich im Wesentlichen um eine optische Kommunikationsschicht, die mehrere andere Prozessoren und Beschleuniger verbinden kann.

Die Qualität der KI-Ergebnisse beruht auf der Fähigkeit, gleichzeitig sehr große und komplexe Modelle zu unterstützen und gleichzeitig Antworten mit sehr hohem Durchsatz zu erzielen, was beides erreichbar ist. Dies gilt für alles, was mit linearer Algebra möglich ist, einschließlich der meisten Anwendungen künstlicher Intelligenz.

Die Erwartungen an die integrierte Hardware- und Softwareplattform sind extrem hoch. Unternehmen haben diesen Punkt aufgegriffen, beispielsweise F&E-Plattformen, die künstliche Intelligenz und andere datenintensive Anwendungen überall vom Rechenzentrum bis zum Edge ausführen können.

Und die Hardwareplattform verwendet einen benutzerdefinierten 7-nm-Chip, der für maschinelles und tiefes Lernen entwickelt wurde. Seine rekonfigurierbare Datenflussarchitektur betreibt einen KI-optimierten Software-Stack und seine Hardware-Architektur ist darauf ausgelegt, Speicherzugriffe zu minimieren und dadurch Verbindungsengpässe zu reduzieren.

Der Prozessor kann neu konfiguriert werden, um ihn an KI- oder High-Performance-Computing-HPC-Workloads anzupassen. Der Prozessor ist für die Bewältigung umfangreicher Matrixoperationen auf einem höheren Leistungsniveau ausgelegt, was ideal für Kunden mit wechselnden Workloads ist.

Während sich CPUs, GPUs und sogar FPGAs gut für deterministische Software wie Transaktionssysteme und ERP eignen, sind Algorithmen für maschinelles Lernen probabilistisch, was bedeutet, dass die Ergebnisse nicht im Voraus bekannt sind, was eine völlig andere Art von Hardware-Infrastruktur erfordert.

Die Plattform minimiert Verbindungsprobleme, indem sie 1 TB synchronen Hochgeschwindigkeitsspeicher mit doppelter Datenrate an den Prozessor anschließt, wodurch die DDR-Controller-Latenz durch 20-mal schnelleren On-Chip-Speicher im Wesentlichen maskiert wird. Dies ist für den Benutzer transparent und ermöglicht uns dies Trainieren Sie Sprachmodelle mit höherer Parameteranzahl und Bilder mit der höchsten Auflösung ohne Kacheln oder Downsampling.

Tiling ist eine Technik zur Bildanalyse, die den Bedarf an Rechenleistung reduziert, indem ein Bild in kleinere Teile aufgeteilt, jeder Teil analysiert und dann neu kombiniert wird. Beim Downsampling wird ein Modell anhand einer zufälligen Teilmenge der Trainingsdaten trainiert, um Zeit und Rechenressourcen zu sparen. Das Ergebnis ist ein System, das nicht nur schneller als GPU-basierte Systeme ist, sondern auch in der Lage ist, größere Probleme zu lösen.

Zusammenfassung

Da viele Unternehmen nach Lösungen für die gleichen Probleme suchen, ist eine Marktbereinigung unvermeidlich, aber niemand erwartet, dass sie in absehbarer Zeit kommt. GPUs wird es noch lange geben und wahrscheinlich die kostengünstigste Lösung für KI-Trainings- und Inferenzprojekte bleiben, die keine extreme Leistung erfordern.

Da die Modelle im High-End-Markt jedoch immer größer und komplexer werden, besteht ein zunehmender Bedarf an spezifischen Funktionsarchitekturen. In drei bis fünf Jahren werden wir wahrscheinlich eine Vielfalt an GPU- und KI-Beschleunigern sehen. Nur so können wir skalieren, um der Nachfrage am Ende dieses Jahrzehnts und darüber hinaus gerecht zu werden.

Es wird erwartet, dass die führenden Chiphersteller weiterhin das tun, was sie gut können, und schrittweise auf bestehenden Technologien aufbauen. Auch viele Unternehmen werden dem Beispiel von Intel folgen und Startups mit Schwerpunkt auf künstlicher Intelligenz erwerben. Auch die High-Performance-Computing-Community setzt auf das Potenzial künstlicher Intelligenz zur Lösung klassischer Probleme wie Großsimulationen und Klimamodellierung.

Das Ökosystem des Hochleistungsrechnens ist immer auf der Suche nach neuen Technologien, die es nutzen kann, um der Konkurrenz immer einen Schritt voraus zu sein, und erforscht, was künstliche Intelligenz bringen kann. Hinter den Kulissen lauert das Quantencomputing, eine Technologie, die eher theoretisch als praktisch ist, aber das Potenzial hat, die Datenverarbeitung zu revolutionieren.

Unabhängig davon, welche neue Architektur an Bedeutung gewinnt, hat der Aufschwung der künstlichen Intelligenz zweifellos das Interesse am Potenzial von Hardware-Innovationen zur Erschließung neuer Grenzen in der Software neu entfacht.

Das obige ist der detaillierte Inhalt vonWie künstliche Intelligenz dazu beitragen kann, dass sich Hardware besser entwickelt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

架构封装数据结构栈堆线程并发对象算法人工智能 transformer FPGA 数据中心

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：So optimieren Sie sehr große Modelle mit begrenzten GPU-RessourcenNächster Artikel：So optimieren Sie sehr große Modelle mit begrenzten GPU-Ressourcen

In Verbindung stehende Artikel

Mehr sehen