


Obwohl Google bereits 2020 den damals leistungsstärksten KI-Chip, TPU v4, im eigenen Rechenzentrum einsetzte.
Aber erst am 4. April dieses Jahres gab Google erstmals die technischen Details dieses KI-Supercomputers bekannt.
Papieradresse: https://arxiv.org/abs/2304.01433
Im Vergleich zu TPU v3 ist die Leistung von TPU v4 2,1-mal höher, und nach der Integration von 4096 Chips ist die Leistung höher des Supercomputings wurde um das Zehnfache verbessert.
Darüber hinaus behauptet Google auch, dass der eigene Chip schneller und energieeffizienter sei als NVIDIA A100.
Im Wettbewerb mit A100 ist die Geschwindigkeit 1,7-mal schneller
In dem Papier gab Google an, dass TPU v4 bei Systemen vergleichbarer Größe eine 1,7-mal bessere Leistung als Nvidia A100 bieten und gleichzeitig die Energieeffizienz verbessern kann. 1,9-fach.
Darüber hinaus ist die Supercomputing-Geschwindigkeit von Google etwa 4,3-mal bis 4,5-mal schneller als die von Graphcore IPU Bow.
Google zeigte das TPU v4-Paket sowie 4 auf der Platine montierte Pakete.
Wie TPU v3 enthält jedes TPU v4 zwei TensorCore (TC). Jeder TC enthält vier 128x128 Matrixmultiplikationseinheiten (MXU), eine Vektorverarbeitungseinheit (VPU) mit 128 Kanälen (16 ALUs pro Kanal) und 16 MiB Vektorspeicher (VMEM).
Zwei TCs teilen sich einen 128 MiB großen gemeinsamen Speicher (CMEM).
Es ist erwähnenswert, dass der A100-Chip gleichzeitig mit Googles TPU der vierten Generation auf den Markt kam. Wie ist also seine spezifische Leistung im Vergleich?
Google hat die schnellste Leistung jedes DSA bei 5 MLPerf-Benchmarks separat nachgewiesen. Dazu gehören BERT, ResNET, DLRM, RetinaNet und MaskRCNN.
Unter anderem hat Graphcore IPU Ergebnisse zu BERT und ResNET eingereicht.
Das Folgende zeigt die Ergebnisse der beiden Systeme auf ResNet und BERT. Die gepunkteten Linien zwischen den Punkten sind Interpolationen basierend auf der Anzahl der Chips.
MLPerf-Ergebnisse für TPU v4 und A100 lassen sich auf größere Systeme als die IPU skalieren (4096 Chips vs. 256 Chips).
Bei Systemen ähnlicher Größe ist TPU v4 1,15-mal schneller als A100 auf BERT und etwa 4,3-mal schneller als IPU. Für ResNet ist TPU v4 1,67x bzw. etwa 4,5x schneller.
Beim Stromverbrauch beim MLPerf-Benchmark verbrauchte der A100 im Durchschnitt 1,3x bis 1,9x mehr Strom.
Prognostizieren Spitzen-FLOPS die tatsächliche Leistung? Viele Leute im Bereich des maschinellen Lernens glauben, dass die Spitzenwerte bei Gleitkommaoperationen pro Sekunde ein guter Indikator für die Leistung sind, aber in Wirklichkeit ist das nicht der Fall.
Zum Beispiel ist TPU v4 bei zwei MLPerf-Benchmarks 4,3x bis 4,5x schneller als IPU Bow auf einem System gleicher Größe, obwohl es bei Spitzen-Gleitkommaoperationen pro Sekunde nur einen 1,10-fachen Vorteil hat.
Ein weiteres Beispiel ist, dass die maximalen Gleitkommaoperationen pro Sekunde von A100 1,13-mal so hoch sind wie die von TPU v4, aber bei der gleichen Anzahl von Chips ist TPU v4 1,15-mal bis 1,67-mal schneller.
Wie unten gezeigt, wird das Roofline-Modell verwendet, um die Beziehung zwischen Spitzen-FLOPS/Sekunde und Speicherbandbreite darzustellen.
Die Frage ist also: Warum vergleicht Google nicht mit Nvidias neuestem H100?
Google gab an, dass das Produkt der vierten Generation nicht mit Nvidias aktuellem Flaggschiff-H100-Chip verglichen wurde, da der H100 nach der Einführung der Google-Chips mit neuerer Technologie hergestellt wurde.
Google deutete jedoch an, dass es eine neue TPU entwickelt, die mit Nvidia H100 konkurrieren soll, nannte jedoch keine Details. Google-Forscher Jouppi sagte in einem Interview mit Reuters, dass Google „eine Produktionslinie für zukünftige Chips“ habe.
TPU vs. GPU
Während ChatGPT und Bard „gegeneinander kämpfen“, arbeiten zwei Giganten auch hinter den Kulissen hart daran, sie am Laufen zu halten – Nvidias CUDA-betriebene GPU (Grafikverarbeitungseinheit) und Googles angepasste TPU (Tensor). Verarbeitungseinheit).
Mit anderen Worten, hier geht es nicht mehr um ChatGPT vs. Bard, sondern um TPU vs. GPU und darum, wie effizient sie die Matrixmultiplikation durchführen können.
Aufgrund seines hervorragenden Designs in der Hardwarearchitektur eignet sich die GPU von NVIDIA sehr gut für Matrixmultiplikationsaufgaben – wodurch effektiv eine parallele Verarbeitung zwischen mehreren CUDA-Kernen erreicht wird.
Daher ist das Training von Modellen auf GPU seit 2012 ein Konsens im Bereich Deep Learning, und daran hat sich bis heute nichts geändert.
Mit der Einführung von NVIDIA DGX ist NVIDIA in der Lage, Hardware- und Softwarelösungen für fast alle KI-Aufgaben aus einer Hand anzubieten, die Wettbewerber aufgrund fehlender Rechte an geistigem Eigentum nicht bereitstellen können.
Im Gegensatz dazu brachte Google 2016 die Tensor Processing Unit (TPU) der ersten Generation auf den Markt, die nicht nur einen benutzerdefinierten ASIC (anwendungsspezifischer integrierter Schaltkreis) enthielt, der für Tensor-Computing optimiert war, sondern auch ein eigenes TensorFlow-Framework ins Visier nahm optimiert worden. Dies verschafft TPU neben der Matrixmultiplikation auch einen Vorteil bei anderen KI-Rechenaufgaben und kann sogar Feinabstimmungs- und Inferenzaufgaben beschleunigen.
Darüber hinaus haben Forscher von Google DeepMind auch einen Weg gefunden, einen besseren Matrixmultiplikationsalgorithmus zu entwickeln – AlphaTensor.
Obwohl Google durch selbst entwickelte Technologie und neue Methoden zur KI-Computing-Optimierung gute Ergebnisse erzielt hat, hat die langfristige, intensive Zusammenarbeit zwischen Microsoft und NVIDIA gleichzeitig den Handlungsspielraum beider Parteien durch die Nutzung ihrer jeweiligen Ersparnisse erweitert in der Branche.
TPU der vierten Generation
Bereits im Jahr 2021 kündigte Pichai auf der Google I/O-Konferenz zum ersten Mal den KI-Chip TPU v4 der neuesten Generation von Google an.
„Dies ist das schnellste System, das wir jemals bei Google eingesetzt haben, und ein historischer Meilenstein für uns.“
Diese Verbesserung hat das Unternehmen zum Aufbau eines KI-Supercomputers gemacht. Dies ist ein wichtiger Punkt im Wettbewerb. da große Sprachmodelle wie Googles Bard oder OpenAIs ChatGPT in der Parametergröße explodiert sind.
Das bedeutet, dass sie weitaus größer sind als die Kapazität, die ein einzelner Chip speichern kann, und der Bedarf an Rechenleistung ein riesiges „Schwarzes Loch“ ist.
Diese großen Modelle müssen also auf Tausende von Chips verteilt werden, und dann müssen diese Chips wochenlang oder sogar länger zusammenarbeiten, um das Modell zu trainieren.
Derzeit verfügt PaLM, das größte von Google bisher öffentlich veröffentlichte Sprachmodell, über 540 Milliarden Parameter, die zum Training innerhalb von 50 Tagen auf zwei 4000-Chip-Supercomputer aufgeteilt wurden.
Google sagte, sein Supercomputer könne die Verbindungen zwischen Chips problemlos neu konfigurieren, um Probleme zu vermeiden und eine Leistungsoptimierung durchzuführen.
Google-Forscher Norm Jouppi und Google Distinguished Engineer David Patterson schrieben in einem Blogbeitrag über das System:
„Durch Schaltkreisumschaltung können ausgefallene Komponenten einfach umgangen werden. Diese Flexibilität ermöglicht es uns sogar, die Ultra-Computing-Verbindungstopologien zu ändern.“ um die Leistung von Modellen für maschinelles Lernen zu beschleunigen.
Obwohl Google erst jetzt Details zu seinem Supercomputer veröffentlicht, ist er seit 2020 in Oklahoma. Gehen Sie im Rechenzentrum von Mayes County online.
Google sagte, dass Midjourney dieses System zum Trainieren seines Modells verwendet habe und die neueste Version von V5 es jedem ermöglicht, die erstaunliche Bilderzeugung zu sehen.
Kürzlich sagte Pichai in einem Interview mit der New York Times, dass Bard von LaMDA zu PaLM versetzt wird.
Mit dem Segen des Supercomputers TPU v4 wird Bard jetzt nur noch stärker.
Das obige ist der detaillierte Inhalt vonGoogles Super-KI-Supercomputer vernichtet NVIDIA A100! Die Leistung von TPU v4 wurde um das Zehnfache gesteigert, Details wurden erstmals bekannt gegeben. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

KI verstärken die Zubereitung der Lebensmittel KI -Systeme werden während der Nahten immer noch in der Zubereitung von Nahrungsmitteln eingesetzt. KI-gesteuerte Roboter werden in Küchen verwendet, um Aufgaben zur Zubereitung von Lebensmitteln zu automatisieren, z.

Einführung Das Verständnis der Namespaces, Scopes und des Verhaltens von Variablen in Python -Funktionen ist entscheidend, um effizient zu schreiben und Laufzeitfehler oder Ausnahmen zu vermeiden. In diesem Artikel werden wir uns mit verschiedenen ASP befassen

Einführung Stellen Sie sich vor, Sie gehen durch eine Kunstgalerie, umgeben von lebhaften Gemälden und Skulpturen. Was wäre, wenn Sie jedem Stück eine Frage stellen und eine sinnvolle Antwort erhalten könnten? Sie könnten fragen: „Welche Geschichte erzählst du?

In diesem Monat hat MediaTek in diesem Monat eine Reihe von Ankündigungen gemacht, darunter das neue Kompanio Ultra und die Abmessung 9400. Diese Produkte füllen die traditionelleren Teile von MediaTeks Geschäft aus, die Chips für Smartphone enthalten

#1 Google gestartet Agent2Agent Die Geschichte: Es ist Montagmorgen. Als mit KI betriebener Personalvermittler arbeiten Sie intelligenter, nicht härter. Sie melden sich im Dashboard Ihres Unternehmens auf Ihrem Telefon an. Es sagt Ihnen, dass drei kritische Rollen bezogen, überprüft und geplant wurden

Ich würde vermuten, dass du es sein musst. Wir alle scheinen zu wissen, dass Psychobabble aus verschiedenen Geschwätzern besteht, die verschiedene psychologische Terminologie mischen und oft entweder unverständlich oder völlig unsinnig sind. Alles was Sie tun müssen, um fo zu spucken

Laut einer neuen Studie, die diese Woche veröffentlicht wurde, wurden im Jahr 2022 nur 9,5% der im Jahr 2022 hergestellten Kunststoffe aus recycelten Materialien hergestellt. In der Zwischenzeit häufen sich Plastik weiter in Deponien - und Ökosystemen - um die Welt. Aber Hilfe ist unterwegs. Ein Team von Engin

Mein jüngstes Gespräch mit Andy Macmillan, CEO der führenden Unternehmensanalyse -Plattform Alteryx, zeigte diese kritische, aber unterschätzte Rolle in der KI -Revolution. Wie Macmillan erklärt, die Lücke zwischen Rohgeschäftsdaten und KI-fertigen Informat


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

MinGW – Minimalistisches GNU für Windows
Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

SublimeText3 Linux neue Version
SublimeText3 Linux neueste Version

DVWA
Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

Herunterladen der Mac-Version des Atom-Editors
Der beliebteste Open-Source-Editor

Sicherer Prüfungsbrowser
Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.