Heim >Technologie-Peripheriegeräte >KI >Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

WBOY
WBOYnach vorne
2023-04-12 22:43:011593Durchsuche

Autor: Chen Wei, Ph.D., Experte für Speicher und Computer/GPU-Architektur und KI, leitende Berufsbezeichnung. Zhongguancun Cloud Computing Industry Alliance, Experte der China Optical Engineering Society, Mitglied der International Computer Federation (ACM), professionelles Mitglied der China Computer Federation (CCF). Er war früher leitender Wissenschaftler eines KI-Unternehmens und Leiter des 3D-NAND-Designs eines großen Speicherchipherstellers. Zu seinen wichtigsten Errungenschaften gehört die erste inländische rekonfigurierbare Hochleistungsspeicher- und Computerprozessorproduktarchitektur (hat interne Prototypentests abgeschlossen). großer Internethersteller), der erste medizinische domänenspezifische KI-Prozessor (bereits implementiert), der erste RISC-V/x86/ARM-Plattform-kompatible KI-Beschleunigungscompiler (bereits implementiert in Zusammenarbeit mit Alibaba Pingtouge/Xinlai), Chinas erster 3D-NAND-Chip Architektur und Design Das Team wurde gegründet (Benchmark mit Samsung) und der erste eingebettete Flash-Speicher-Compiler in China (Benchmark mit TSMC und wurde auf Plattformebene angewendet).

Am letzten Tag im September 2022, Teslas Tag der künstlichen Intelligenz, debütierte Teslas „Optimus Prime“-Roboter offiziell. Laut Tesla-Ingenieuren ist der Artificial Intelligence Day 2022 das erste Mal, dass Tesla-Roboter ohne externe Unterstützung „freigegeben“ werden. „Er ging würdevoll und begrüßte das Publikum in eine allgemeine Richtung.“ Bis auf die leichte Trägheit der Bewegungen ist alles andere sehr natürlich.

1 Die Kraft des Tesla-Roboters liegt in seinem „inneren Kern“?

Tesla zeigt ein Video von Robotern, die im Büro „arbeiten“. Ein Roboter namens Optimus Prime trug Gegenstände, bewässerte Pflanzen und arbeitete eine Zeit lang sogar autonom in einer Fabrik. „Unser Ziel ist es, so schnell wie möglich nützliche humanoide Roboter zu bauen“, sagte Tesla und fügte hinzu, dass ihr Ziel darin bestehe, die Roboter für weniger als 20.000 US-Dollar oder billiger als die Elektroautos von Tesla herzustellen.

Der Grund, warum Tesla-Roboter so leistungsstark sind, liegt nicht nur an Teslas eigener Anhäufung von KI-Technologie, sondern vor allem auch an Teslas starken selbst entwickelten KI-Chips. Dieser KI-Chip ist keine herkömmliche CPU, geschweige denn eine GPU. Er eignet sich besser für komplexe KI-Berechnungen.

Vergleich zwischen D1-Prozessor und anderen Prozessoren für autonomes Fahren/Roboter

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

1.1 Basierend auf Datenfluss-Near-Memory-Architektur zur Erstellung eines Allzweck-KI-Chips, der GPU übertrifft

Tesla baut seinen eigenen Der Grund für den Chip liegt darin, dass die GPU nicht speziell für Deep-Learning-Training ausgelegt ist, wodurch die GPU bei Rechenaufgaben relativ ineffizient ist. Das Ziel von Tesla und Dojo (Dojo ist sowohl der Name des Trainingsmoduls als auch der Name der Kernel-Architektur) besteht darin, „die beste KI-Trainingsleistung zu erzielen. Größere und komplexere neuronale Netzwerkmodelle zu ermöglichen, um eine hohe Energieeffizienz und Kosten zu erreichen.“ Effektivität. „Computing.“ Teslas Standard besteht darin, einen Computer zu bauen, der sich besser mit künstlicher Intelligenz auskennt als jeder andere Computer, sodass in Zukunft keine GPU mehr benötigt wird.

Ein wichtiger Punkt beim Bau von Supercomputern ist die Skalierung der Rechenleistung unter Beibehaltung einer hohen Bandbreite (schwierig) und einer geringen Latenz (sehr schwierig). Die von Tesla bereitgestellte Lösung ist eine verteilte 2D-Architektur (planar), die aus leistungsstarken Chips und einer einzigartigen Gitterstruktur besteht, oder eine Datenfluss-Near-Memory-Computing-Architektur.

Hierarchische Aufteilung der Tesla-Recheneinheiten

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

Gemäß der hierarchischen Aufteilung bilden alle 354 Dojo-Kerne einen D1-Chip und alle 25 Chips ein Trainingsmodul. Die letzten 120 Trainingsmodule bilden eine Reihe von ExaPOD-Rechnerclustern mit insgesamt 3.000 D1-Chips.

Ein Tesla Dojo-Chip-Trainingsmodul kann die Leistung von 6 Gruppen von GPU-Servern erreichen, aber die Kosten sind geringer als bei einer einzelnen Gruppe von GPU-Servern. Die Rechenleistung eines einzelnen Dojo-Servers erreichte sogar 54PFLOPS. Nur 4 Dojo-Schränke können 72 GPU-Racks mit 4.000 GPUs ersetzen. Dojo reduziert den KI-Rechenaufwand (Schulung), der normalerweise Monate dauert, auf eine Woche. Diese Art von „großer Rechenleistung kann Wunder bewirken“ steht im Einklang mit Teslas autonomem Fahrstil. Offensichtlich wird der Chip auch den Fortschritt der KI-Technologie von Tesla erheblich beschleunigen.

Natürlich hat dieses Chipmodul noch nicht das „perfekte“ Niveau erreicht. Obwohl es die Idee des Datenfluss-Near-Memory-Computing übernimmt, übertrifft es das Verhältnis von Rechenleistung und Energieeffizienz nicht GPU. Ein einzelner Server verbraucht enorm viel Strom, der Strom kann 2000 A erreichen, und erfordert eine speziell angepasste Stromversorgung. Der Tesla D1-Chip ist bereits die strukturelle Grenze der Near-Memory-Computing-Architektur. Wenn Tesla die Architektur „In-Memory Computing“ oder „In-Memory Logic“ einführt, werden möglicherweise die Chipleistung oder das Energieeffizienzverhältnis erheblich verbessert.

Der Tesla Dojo-Chipserver besteht aus 12 Dojo-Schulungsmodulen (2 Schichten, 6 pro Schicht) Way-Matrix-Recheneinheit (8x8) und 1,25 MB lokaler SRAM. Die Größe des Dojo-Kerns ist jedoch nicht groß. Im Vergleich dazu belegt der A64FX von Fujitsu mehr als doppelt so viel Fläche auf demselben Prozessknoten.

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

Anhand der Struktur des Dojo-Kerns können wir Teslas Designphilosophie für allgemeine KI-Prozessoren erkennen:

Flächenreduzierung: Tesla integriert eine große Anzahl von Rechenkernen in den Chip, um den Durchsatz der KI zu maximieren Beim Computing ist es notwendig, die Fläche eines einzelnen Kerns so klein wie möglich zu machen und gleichzeitig die Rechenleistung sicherzustellen und den Widerspruch zwischen der Stapelung der Rechenleistung und der Verzögerung in Supercomputing-Systemen besser zu kompensieren.

Caching und Latenzoptimierung: Um die Effizienz der Flächenberechnung zu maximieren, läuft der Dojo-Kernel mit relativ konservativen 2 GHz (konservative Taktschaltungen nehmen tendenziell weniger Fläche ein) und verwendet nur einen einfachen Zweigprädiktor und kleines Befehls-Caching. in einer so schlanken Architektur, die nur die notwendigen Komponenten enthält. Der verbleibende Bereich wird weitestgehend den Vektorberechnungs- und Matrizenberechnungseinheiten überlassen. Wenn das Kernelprogramm über einen großen Code-Footprint oder viele Zweige verfügt, kann diese Strategie natürlich zu Leistungseinbußen führen.

Funktionsoptimierung: Reduzieren Sie den Stromverbrauch und den Flächenverbrauch weiter, indem Sie Prozessorfunktionen eliminieren, die für die Ausführung interner Berechnungen nicht erforderlich sind. Dojo Core führt kein datenseitiges Caching durch, unterstützt keinen virtuellen Speicher und unterstützt keine präzisen Ausnahmen.

  1. Für Tesla und Musk hat Dojo nicht nur die Form und Anordnung eines Dojos, sondern seine Designphilosophie ist auch eng mit dem Geist des Dojos verbunden und verkörpert vollständig die Ästhetik des Prozessordesigns „Weniger ist mehr“.
  2. 2 Ist der D1-Kern eine RISC-V-Architektur?
  3. Werfen wir zunächst einen Blick auf die Struktur und Eigenschaften jedes Dojos.
  4. Jeder Dojo-Kern ist ein Prozessor mit Vektorberechnungs-/Matrixberechnungsfunktionen und verfügt über vollständige Befehlsabruf-, Dekodierungs- und Ausführungskomponenten. Der Dojo-Kern hat einen CPU-ähnlichen Stil, der sich offenbar besser an verschiedene Algorithmen und Verzweigungscodes anpassen lässt als die GPU. Der Befehlssatz von D1 ähnelt dem von RISC-V. Der Prozessor läuft mit 2 GHz und verfügt über vier Sätze von 8x8-Matrixmultiplikationsberechnungseinheiten. Es verfügt außerdem über eine Reihe benutzerdefinierter Vektoranweisungen, die sich auf die Beschleunigung von KI-Berechnungen konzentrieren.

Wer sich mit dem RISC-V-Bereich auskennt, kann wahrscheinlich erkennen, dass das Farbschema von Teslas Dojo-Architekturdiagramm eine Hommage an Berkeleys BOOM-Prozessorarchitekturdiagramm zu sein scheint, mit Gelb oben, Grün unten und Lila unten der Boden. Vergleich zwischen Tesla Dojo Core und Berkeley Boom/IBM Cell Core

2.1 D1 -Kern -Gesamtarchitektur

d1 -Kernstruktur (der blaue Teil wird hinzugefügt/modifiziert) Details )

Dem aktuellen Architekturdiagramm nach zu urteilen, besteht der Dojo-Kern aus 4 Teilen: Front-End, Ausführungseinheit, SRAM und NoC-Routing. Er verfügt über weniger Steuerungskomponenten als CPU und GPU. Er verfügt über eine CPU-ähnliche AGU und eine GPU-ähnliche Idee. Die Matrix-Recheneinheit des Tensor-Kerns.

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

Die Kernstruktur von Dojo ist schlanker als die von BOOM. Es verfügt nicht über Komponenten wie Umbenennen, um die Nutzung von Ausführungskomponenten zu verbessern, und es ist auch schwierig, virtuellen Speicher zu unterstützen. Der Vorteil dieses Designs besteht jedoch darin, dass die vom Steuerteil belegte Fläche reduziert wird und der Berechnungsausführungseinheit mehr Fläche auf dem Chip zugewiesen werden kann. Jeder Dojo-Kern bietet 1.024 TFLOPS Rechenleistung. Es ist ersichtlich, dass fast die gesamte Rechenleistung jedes einzelnen von der Matrix-Recheneinheit bereitgestellt wird. Daher bestimmen die Matrix-Recheneinheit und das SRAM gemeinsam das Rechenenergie-Effizienzverhältnis des D1-Prozessors.

Hauptparameter des Dojo-Kerns

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

  1. Zweigvorhersage: Im Vergleich zu SIMT-Architekturen wie GPUs verfügt der Dojo-Kern nicht über einen SIMT-Stack-Kern zur Zuweisung von Multithread-Zweigaufgaben. Der Dojo-Kern verfügt jedoch über BTB (Branch Target Buffer), sodass D1 die Leistung durch einfache Verzweigungsvorhersage verbessern kann.
    BTB speichert die Adresse des erfolgreichen Verzweigungsbefehls und seine Verzweigungszieladresse in einem Puffer. Der Puffer wird durch die Adresse des Verzweigungsbefehls identifiziert. Die Leistungseinbußen von Verzweigungen in Pipeline-Prozessoren können reduziert werden, indem der Pfad der Verzweigung vorhergesagt und die von der Verzweigung verwendeten Informationen zwischengespeichert werden.
  2. Befehlscache: Der kleinere L1-Befehlscache ist direkt mit dem SRAM im Kern verbunden, um Rechenanweisungen zu erhalten.
  3. Anweisungsabruf: Jeder Dojo-Kernel verfügt über ein 32-B-Befehlsabruffenster, das bis zu 8 Anweisungen aufnehmen kann.
  4. Dekodierung: Ein 8-Wege-Decoder kann zwei Threads pro Zyklus verarbeiten. Die Dekodierungsphase ruft Anweisungen aus dem Abrufpuffer ab, dekodiert sie und weist die erforderlichen Ausführungsressourcen entsprechend den Anforderungen jeder Anweisung zu.
  5. Thread-Scheduling: Nach der breiteren 8-Wege-Dekodierung gibt es den Vektor-Scheduler (Scheduler) und die Registerdatei (Register File). Es scheint, dass es hier keine Maskenbeurteilung für die Zweigaggregation gibt und die tatsächliche Effizienz der Zweigausführung möglicherweise etwas geringer ist als die der GPU. Hoffentlich hat Tesla einen leistungsstarken Compiler.
  6. Ausführungseinheit: Mit 2-Wege-ALU und 2-Wege-AGU sowie 512-Bit-SIMD- und Matrixberechnungseinheiten für Vektor-/Matrixberechnungen (durchführen von 512-Bit-Vektorberechnungen bzw. 4-Wege-8x8-Matrixmultiplikation) . Die Matrix-Recheneinheit ist die Hauptrechenleistung des D1-Chips. (Im nächsten Abschnitt ausführlich vorgestellt)
  7. ALU und AGU sind hauptsächlich für eine kleine Menge logischer Berechnungen außer Matrixberechnungen verantwortlich. Die AGU ist die Adressgenerierungseinheit, die hauptsächlich dazu dient, die für den Betrieb des SRAM erforderlichen Adressen zu generieren und auf die Adressen anderer Kerne zuzugreifen. Indem die Adressberechnung parallel zum Rest der CPU ausgeführt wird.
    Wenn eine gewöhnliche CPU verschiedene Vorgänge ausführt, muss sie die Speicheradresse berechnen, die zum Abrufen von Daten aus dem Speicher (oder SRAM) erforderlich ist. Beispielsweise muss der Speicherort eines Array-Elements berechnet werden, bevor der CPU-Kern die Daten vom tatsächlichen Speicherort abrufen kann. Diese Berechnungen zur Adressgenerierung umfassen verschiedene ganzzahlige arithmetische Operationen wie Addition, Subtraktion, Modulo-Arithmetik oder Bitverschiebung. Die Berechnung der Speicheradresse kann mehrere allgemeine Maschinenanweisungen kompilieren oder direkt über die AGU-Hardwareschaltung wie Tesla Dojo ausgeführt werden. Auf diese Weise können verschiedene Berechnungen zur Adressgenerierung von der ALU ausgelagert werden, wodurch die Anzahl der für die Durchführung von KI-Berechnungen erforderlichen CPU-Zyklen reduziert und dadurch die Rechenleistung verbessert wird.
  8. SIMD ist hauptsächlich für die Berechnung spezieller Funktionen wie Aktivierung und Akkumulation von Daten verantwortlich.
  9. Die Matrixberechnungseinheit ist die Hauptrechenkomponente von Dojo. Sie ist für zweidimensionale Matrixberechnungen verantwortlich und führt dann Faltung, Transformator und andere Berechnungen durch.

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

Intel Nehalem-Architektur verwendet AGU, um die Effizienz des Adresszugriffs in einem Zyklus zu verbessern

Die Verbindungsmethode des Dojo-Kerns ähnelt eher der SPE-Kernverbindungsmethode im Cell-Prozessor von IBM. Zu den wichtigsten Gemeinsamkeiten gehören:

  1. Weder auf D1 oder SPE ausgeführter Code hat direkten Zugriff auf den Systemspeicher, Anwendungen arbeiten hauptsächlich im lokalen SRAM.
  2. Wenn Daten aus dem Hauptspeicher (DDR oder HBM) erforderlich sind, müssen DMA-Operationen durchgeführt werden zum Einlesen verwendet werden. Weder D1 noch Cells SPE unterstützen virtuellen Speicher.
  3. Im Folgenden wird die Speicherung von Berechnungs- und Matrixmultiplikationsmodulen und -kernen vorgestellt.

2.2 Rechenkern-Matrix-Recheneinheit und On-Chip-Speicher

Der Kern der Rechenleistungssteigerung der Dojo-Architektur ist die Matrix-Recheneinheit. Die Dateninteraktion zwischen der Matrix-Recheneinheit und dem Kern-SRAM stellt den Hauptstromverbrauch für die Kerndatenübertragung dar.

Das entsprechende Patent der Tesla-Matrix-Recheneinheit ist unten dargestellt. Die Schlüsselkomponente dieses Moduls ist eine 8x8-Matrix-Matrix-Multiplikationseinheit (in der Abbildung Matrixrechner genannt). Die Eingabe ist das Dateneingabearray und das Gewichtseingabearray. Nach der Berechnung der Matrixmultiplikation wird die Ausgabe direkt akkumuliert. Jeder Dojo-Kern enthält 4-Wege-8x8-Matrixmultiplikationseinheiten.

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?Tesla Matrix Computing Unit Patent

Da es im Architekturdiagramm nur einen L1-Cache und SRAM gibt, ist es eine gewagte Vermutung, dass Tesla die RISC-V-Cache-Struktur optimiert hat, um Cache-Bereich zu sparen und die Latenz zu reduzieren. Der 1,25-MB-SRAM-Block pro Kern kann 2x512-Bit-Lesen (entsprechend der Gewichtung und Daten von AI-Berechnungen) und 512-Bit-Schreibbandbreite für SIMD- und Matrix-Recheneinheiten sowie 64-Bit-Lese- und Schreibfunktionen für die Ganzzahl bereitstellen Registerdatei. Der Hauptdatenfluss der Berechnung erfolgt vom SRAM zum SIMD und zu den Matrixmultiplikationseinheiten.

Der Hauptverarbeitungsablauf der Matrixberechnungseinheit ist:

Laden von Gewichten vom SRAM in das Gewichtungseingabearray (Gewichtseingabearray) über einen Multiplexer (Mux) und Laden von Daten vom SRAM in das Dateneingabearray (Dateneingabe). Array).

Die Eingabedaten und Gewichte werden im Matrixrechner (Matrixberechnungseinheit) multipliziert (inneres Produkt oder äußeres Produkt?).

Die Ergebnisse der Multiplikationsberechnung werden zur Akkumulation an den Ausgabeakkumulator (Ausgabeakkumulator) ausgegeben. Bei der Berechnung hier können Matrixberechnungen über 8x8 durch Matrixteilung und -spleißen durchgeführt werden.

Die akkumulierte Ausgabe wird zur Zwischenspeicherung an die Registerdatei des Postprozessors übergeben und anschließend nachverarbeitet (Vorgänge wie Aktivierung, Pooling, Auffüllen usw. können ausgeführt werden).

Der gesamte Berechnungsprozess wird ohne CPU-Eingriff direkt von der Steuereinheit (Steuereinheit) gesteuert.

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

Dateninteraktion zwischen Ausführungseinheit und SRAM/NoC

Der SRAM im Dojo-Kern verfügt über eine sehr große Lese- und Schreibbandbreite und kann mit 400 GB/Sek. und 270 GB/Sek. laden Schreibgeschwindigkeit. Der Dojo-Kernbefehlssatz verfügt über dedizierte Netzwerkübertragungsanweisungen, die über den NoC geleitet werden und Daten direkt in den SRAM-Speicher anderer Kerne im D1-Chip oder sogar im Dojo-Trainingsmodul oder aus diesem heraus verschieben können.

Anders als gewöhnliches SRAM enthält Dojos SRAM eine Listen-Parser-Engine und eine Gather-Engine. Die Listenparsing-Funktion ist eine der Hauptfunktionen des D1-Chips. Die Listenparsing-Engine kann komplexe Übertragungssequenzen verschiedener Datentypen packen, um die Übertragungseffizienz zu verbessern.

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

Listenanalysefunktion

Um die Betriebsverzögerung, den Bereich und die Komplexität weiter zu reduzieren, unterstützt D1 keinen virtuellen Speicher. In einem normalen Prozessor greift die vom Programm verwendete Speicheradresse nicht direkt auf die physische Speicheradresse zu, sondern wird von der CPU mithilfe der vom Betriebssystem festgelegten Paging-Struktur in eine physische Adresse umgewandelt.

Im D1-Kern ermöglicht die 4-Wege-SMT-Funktion explizite Parallelität bei Berechnungen, wodurch die AGU- und Adressberechnungsmethoden vereinfacht werden, damit Tesla mit ausreichend geringer Latenz auf SRAM zugreifen kann. Sein Vorteil besteht darin, dass ein Zwischenspeichern von L1-Daten vermieden werden kann Latenz.

2.3 Dojo-Befehlssatz

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

D1-Prozessor-Befehlssatz

D1 bezieht sich auf die Anweisungen der RISC-V-Architektur und passt einige Anweisungen an, insbesondere solche im Zusammenhang mit Vektorberechnungen.

Der D1-Befehlssatz unterstützt 64-Bit-Skalaranweisungen und 64-Byte-SIMD-Anweisungen, Netzwerkübertragung mit Synchronisierungsprimitiven und speziellen Primitiven im Zusammenhang mit maschinellem Lernen/Deep Learning (z. B. 8x8-Matrixberechnungen).

In Bezug auf Netzwerkdatenübertragungs- und Synchronisationsprimitive unterstützt es Befehlsprimitive (Primitive) zum Übertragen von Daten vom lokalen Speicher (SRAM) zum Remotespeicher sowie Semaphore (Semaphore) und Barrierebeschränkungen (Barrierebeschränkungen). Dadurch kann D1 Multithreading unterstützen und seine Speicherbetriebsanweisungen können auf mehreren D1-Kernen ausgeführt werden.

Für maschinelles Lernen und Deep Learning hat Tesla Anweisungen definiert, darunter mathematische Operationen wie Mischen, Transponieren und Konvertieren sowie stochastische Rundungs- und Auffüllanweisungen.

2.4 Datenformat

Der D1-Kern verfügt über zwei Standardberechnungsformate, FP32 und FP16, sowie über das BFP16-Format, das besser für Inferenz geeignet ist. Um die Leistungsverbesserungen des Mixed-Precision-Computings zu erreichen, verwendet der D1 auch das 8-Bit-CFP8-Format für geringere Präzision und höheren Durchsatz.

Der Vorteil der Verwendung von CFP8 besteht darin, dass mehr Multiplikatorraum eingespart werden kann, um nahezu die gleiche Rechenleistung zu erzielen, was sehr hilfreich ist, um die Rechenleistungsdichte von D1 zu erhöhen.

Der Dojo-Compiler kann um die Mantissengenauigkeit gleiten, um einen größeren Bereich und eine größere Genauigkeit abzudecken. Bis zu 16 verschiedene Vektorformate können gleichzeitig verwendet werden, was Ihnen die Flexibilität gibt, die Rechenleistung zu erhöhen.

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

D1-Prozessordatenformat

Nach Angaben von Tesla kann CFP8 für Berechnungen innerhalb der Matrixmultiplikationseinheit verwendet werden (gespeichert im CFP16-Format).

3 Kann der Prozessor der Dojo-Architektur die GPU übertreffen?

Der D1-Prozessor wird von TSMC hergestellt und verwendet einen 7-Nanometer-Fertigungsprozess. Er verfügt über 50 Milliarden Transistoren und eine Chipfläche von 645 mm², was kleiner ist als NVIDIAs A100 (826 mm²) und AMD Arcturus (750 mm²). .

3.1 Dojo-Datenfluss-Near-Memory-Computing-Architektur

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

D1-Prozessorstruktur

Jeder D1-Prozessor besteht aus 18 x 20 Dojo-Kernspleißen. In jedem D1-Prozessor stehen 354 Dojo-Kerne zur Verfügung. (Der Grund, warum nur 354 der 360 Kerne verwendet werden, liegt in Überlegungen zur Ausbeute und zur Kernstabilität pro Prozessor.) Es wird von TSMC in einem 7-nm-Herstellungsprozess mit 50 Milliarden Transistoren und einer Chipfläche von 645 mm² hergestellt.

Jeder Dojo-Kern verfügt über einen 1,25 MB großen SRAM als Hauptgewicht und Datenspeicher. Verschiedene Dojo-Kerne sind über On-Chip-Netzwerkrouting (NoC-Routing) verbunden, und verschiedene Dojo-Kerne führen die Datensynchronisierung über komplexe NoC-Netzwerke durch, anstatt Datencaches gemeinsam zu nutzen. Der NoC kann 8 Pakete in 4 Richtungen (Südosten, Nordwesten) über Knotengrenzen hinweg mit 64 B/pro Taktzyklus in jede Richtung verarbeiten, d. h. ein Paket rein und ein Paket raus in das Netz in alle vier Richtungen für jeden angrenzenden Dojo-Kern. Der NoC-Router kann auch einmal pro Zyklus einen bidirektionalen 64-B-Lese- und Schreibvorgang im SRAM im Kern durchführen.

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

Prozessorübergreifende Übertragung und Aufgabenteilung innerhalb des D1-Prozessors

Jeder Dojo-Kern ist eine relativ vollständige CPU-ähnliche Klasse mit Matrix-Rechenfunktionen (da jeder Kern über eine separate Matrix-Recheneinheit verfügt). , und das Frontend ist relativ klein, daher wird es hier als CPU-ähnlich bezeichnet. Seine Datenflussarchitektur ähnelt in gewisser Weise der zweidimensionalen Datenflussgitterstruktur von SambaNova.

Der D1-Chip läuft mit 2 GHz und verfügt über riesige 440 MB SRAM. Tesla konzentriert sein Design auf verteiltes SRAM im Rechengitter und reduziert die Häufigkeit des Speicherzugriffs durch eine große Anzahl schnellerer und engerer On-Chip-Speicher sowie die Übertragung zwischen On-Chip-Speichern, wodurch die Leistung des gesamten Systems verbessert wird Es verfügt über offensichtliche Merkmale der integrierten Datenflussspeicher- und Computing-Architektur (Data Flow Near-Memory Computing).

Jeder D1-Chip verfügt über 576 bidirektionale SerDes-Kanäle, die um ihn herum verteilt sind, und kann mit einer einseitigen Bandbreite von 4 TB/s mit anderen D1-Chips verbunden werden. Hauptparameter des D1-Prozessorchips dimensionale Mesh-Struktur. Der On-Chip-Cross-Core-SRAM erreicht erstaunliche 11 GB, und natürlich erreicht auch der Stromverbrauch erstaunliche 15 kW. Das Energieeffizienzverhältnis beträgt 0,6TFLOPS/W@BF16/CFP8. (Ich hoffe, ich habe es falsch berechnet, sonst ist dieses Energieeffizienzverhältnis tatsächlich nicht ideal). Externer 32 GB gemeinsam genutzter HBM-Speicher. (HBM2e oder HBM3)

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

Patentierte Wärmeableitungsstruktur des Tesla D1-Prozessors

Tesla verwendet ein spezielles Leistungsregulierungsmodul (VRM) und eine Wärmeableitungsstruktur, um den Stromverbrauch zu verwalten. Hier gibt es zwei Hauptziele des Stromverbrauchsmanagements:

Unnötigen Leistungsverlust reduzieren und das Energieeffizienzverhältnis verbessern.

Reduzieren Sie Prozessormodulausfälle aufgrund thermischer Verformung.

Laut Teslas Patent können wir sehen, dass das Leistungsregulierungsmodul senkrecht zum Chip selbst steht, was die von der Prozessorebene eingenommene Fläche erheblich reduziert und die Temperatur des Prozessors durch Flüssigkeitskühlung schnell ausgleichen kann.

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

Patentierte Wärmeableitung und Verpackungsstruktur des Tesla D1-Prozessors

Das Schulungsmodul verwendet InFO_SoW (Silicon on Wafer)-Verpackung, um die Verbindungsdichte zwischen Chips zu erhöhen. Zusätzlich zur INFO_SoW-Technologie von TSMC nutzt dieses Paket auch Teslas eigene mechanische Verpackungsstruktur, um den Ausfall des Prozessormoduls zu reduzieren.

40 I/O-Chips am äußeren Rand jedes Trainingsmoduls erreichen eine Gesamtbandbreite von 36 TB/s oder eine Spannenbandbreite von 10 TB/s. Jede Ebene der Schulungsmodule ist mit einem Ultrahochgeschwindigkeits-Speichersystem verbunden: 640 GB laufender Speicher können mehr als 18 TB/s Bandbreite sowie mehr als 1 TB/s Netzwerk-Switching-Bandbreite bereitstellen.

Die Datenübertragungsrichtung verläuft parallel zur Chipebene und die Stromversorgungs- und Flüssigkeitskühlungsrichtungen verlaufen senkrecht zur Chipebene. Dies ist ein sehr schönes strukturelles Design, und verschiedene Trainingsmodule können miteinander verbunden werden. Durch die dreidimensionale Struktur wird die Stromversorgungsfläche des Chipmoduls eingespart und der Abstand zwischen den Rechenchips so weit wie möglich reduziert.

Ein Dojo POD-Schrank besteht aus zwei Schichten von Computerfächern und Aufbewahrungssystemen. Jede Palettenebene verfügt über 6 D1-Schulungsmodule. Ein aus 12 Schulungsmodulen auf zwei Etagen bestehender Schrank kann 108PFLOPS Deep-Learning-Rechenleistung bereitstellen.

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

Dojo-Modul und Dojo-POD-Schrank

3.3 Energiemanagement und Wärmeableitungskontrolle

Die Wärmeableitung von Supercomputing-Plattformen war schon immer eine wichtige Dimension zur Messung des Niveaus von Supercomputing-Systemen.

Thermische Designleistung des D1-Chips

Tesla verwendet ein vollständig selbst entwickeltes VRM (Voltage Regulation Module) auf dem Dojo POD. Ein einzelnes VRM kann eine Spannung von 52 V und einen enormen Strom von über 1000 A liefern, das aktuelle Ziel liegt bei 0,86 A pro Quadratmillimeter, mit insgesamt 12 unabhängigen Stromversorgungsphasen.

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

Teslas Leistungskonditionierungsmodul

Bei der Wärmeableitung von Chips mit hoher Dichte liegt der Schwerpunkt auf der Steuerung des Wärmeausdehnungskoeffizienten (CTE). Die Chipdichte des Dojo-Systems ist extrem hoch. Wenn der CTE leicht außer Kontrolle gerät, kann es zu strukturellen Verformungen/Versagen kommen, was zu Verbindungsfehlern führt.

Teslas selbst entwickeltes VRM hat in den letzten 2 Jahren 14 Versionen durchlaufen. Es verwendet einen MEMS-Oszillator (MO), um die thermische Verformung des Leistungsregulierungsmoduls zu erfassen, und erfüllt schließlich vollständig die internen Anforderungen für CTE-Indikatoren. Diese Methode zur aktiven Anpassung der Stromversorgung durch MEMS-Technologie ähnelt der aktiven Anpassungsmethode zur Steuerung der Vibration des Raketenkörpers.

3.4 Kompilierungsökologie des Dojo-Architekturprozessors

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

D1-Prozessor-Softwarestapel

Für KI-Chips wie D1 ist die Kompilierungsökologie nicht weniger wichtig als der Chip selbst.

Auf der D1-Prozessorebene ist D1 in Matrix-Recheneinheiten unterteilt. Die Kompilierungstoolkette ist für die Aufteilung von Aufgaben und die Konfiguration der Datenspeicherung verantwortlich und führt auf verschiedene Weise feinkörniges paralleles Rechnen durch und reduziert die Speichernutzung.

Zu den vom Dojo-Compiler unterstützten parallelen Methoden gehören Datenparallelität, Modellparallelität und Graphparallelität. Zu den unterstützten Speicherzuweisungsmethoden gehören verteilte Tensoren, neu berechnete Zuweisung und Split-Fill.

Der Compiler selbst kann den dynamischen Kontrollfluss verarbeiten, der häufig in verschiedenen CPUs verwendet wird, einschließlich Schleifen und Diagrammoptimierungsalgorithmen. Mit dem Dojo-Compiler können Benutzer große verteilte Dojo-Systeme als Beschleuniger für das Gesamtdesign und die Schulung nutzen.

Die oberste Schicht des gesamten Software-Ökosystems basiert auf PyTorch, die untere Schicht basiert auf dem Dojo-Treiber und in der Mitte werden der Dojo-Compiler und LLVM verwendet bilden die Kompilierungsschicht. Nachdem hier LLVM hinzugefügt wurde, kann Tesla die verschiedenen Kompilierungsökosysteme, die bereits auf LLVM vorhanden sind, für die Kompilierungsoptimierung besser nutzen.

Kann der Tesla-Supercomputing-Chip GPGPU übertreffen?

TeslaDojo Compiler

#🎜 🎜# 4 Fazit

Durch den Tesla AI Day haben wir den wahren Körper des Tesla-Roboters gesehen und mehr über seinen leistungsstarken „inneren Kern“ erfahren.

Teslas Dojo-Kern unterscheidet sich von früheren CPU- und GPU-Architekturfunktionen. Man kann sagen, dass es sich um eine optimierte GPU handelt, die die Eigenschaften der CPU vereint besser in der Kompilierung. Es wird auch große Unterschiede zwischen CPU und GPU geben. Um die Rechendichte zu erhöhen, hat Tesla äußerst schlanke Optimierungen vorgenommen und einen aktiv angepassten Energieverwaltungsmechanismus bereitgestellt.

Die Architektur des Tesla Dojo wird nicht nur als Dojo bezeichnet, sondern ihr Design basiert tatsächlich auf Einfachheit als Weg und weniger als mehr. Wird diese Architektur nach CPU und GPU eine weitere typische Form der Computerchip-Architektur werden? Warten wir ab.

Das obige ist der detaillierte Inhalt vonKann der Tesla-Supercomputing-Chip GPGPU übertreffen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen