Heim > Artikel > Technologie-Peripheriegeräte > Nvidia veröffentlicht die Open-Source-Software TensorRT-LLM, um die Leistung von KI-Modellen auf High-End-GPU-Chips zu verbessern
Nvidia hat kürzlich die Einführung einer neuen Open-Source-Software-Suite namens TensorRT-LLM angekündigt, die die Möglichkeiten der Optimierung großer Sprachmodelle auf Nvidia-GPUs erweitert und die Grenzen der Inferenzleistung künstlicher Intelligenz nach der Bereitstellung sprengt.
Generative KI-Modelle für große Sprachen erfreuen sich aufgrund ihrer beeindruckenden Fähigkeiten großer Beliebtheit. Es erweitert die Möglichkeiten der künstlichen Intelligenz und findet breite Anwendung in verschiedenen Branchen. Benutzer können Informationen erhalten, indem sie mit Chatbots sprechen, große Dokumente zusammenfassen, Softwarecode schreiben und neue Wege zum Verständnis von Informationen entdecken
Ian Buck, Vizepräsident für Hyperscale und High Performance Computing bei Nvidia, sagte: „Groß angelegte Sprachmodellinferenz.“ Es ist nur natürlich, dass Modelle immer komplexer, intelligenter und größer werden, aber wenn Modelle über eine einzelne GPU hinaus skaliert werden und auf mehreren GPUs ausgeführt werden müssen, ist Inferenz ein Prozess, bei dem … Modelle verarbeiten neue Daten, die noch nie zuvor gesehen wurden, z. B. zum Zusammenfassen, Generieren von Code, Bereitstellen von Vorschlägen oder Beantworten von Fragen. Es handelt sich um ein großes Arbeitspferd von Sprachmodellen.
Mit der rasanten Erweiterung des Modell-Ökosystems werden Modelle immer größer und funktionsreicher. Dies bedeutet auch, dass das Modell so groß wird, dass es nicht gleichzeitig auf einer einzelnen GPU ausgeführt werden kann und aufgeteilt werden muss. Entwickler und Ingenieure müssen Arbeitslasten manuell verteilen und koordinieren, um Antworten in Echtzeit zu erhalten. TensorRT-LLM löst dieses Problem durch die Implementierung von „Tensor-Parallelität“, die umfangreiche und effiziente Inferenz auf mehreren GPUs ermöglicht
Darüber hinaus hat Nvidia aufgrund der großen Vielfalt an großen Sprachmodellen auf dem heutigen Markt den Kern optimiert die aktuellen Mainstream-Großsprachmodelle. Die Software-Suite umfasst vollständig optimierte, betriebsbereite Versionen großer Sprachmodelle, darunter Llama 2 von Meta Platform, GPT-2 und GPT-3 von OpenAI, Falcon, MosaicMPT und BLOOM.
„On-the-fly-Batching“-Mechanismus zur Bewältigung dynamischer Arbeitslasten
Um diese unterschiedlichen Arbeitslasten zu bewältigen, führt TensorRT-LLM einen Mechanismus namens „On-the-fly-Batching“ ein, einen optimierten Planungsprozess, der den Textgenerierungsprozess in mehrere Teile aufteilt, sodass er verschoben oder verschoben werden kann GPU-Auslastung, sodass nicht der gesamte Workload-Batch abgeschlossen werden muss, bevor ein neuer Batch gestartet werden kann.
Früher musste bei großen Anfragen, wie zum Beispiel der Zusammenfassung eines sehr großen Dokuments, alles dahinter warten, bis der Vorgang abgeschlossen war, bevor die Warteschlange vorwärts gehen konnte.
Nvidia hat mit vielen Anbietern zusammengearbeitet, um TensorRT-LLM zu optimieren, darunter Meta, Cohere, Grammarly, Databricks und Tabnine. Mit ihrer Hilfe optimiert Nvidia weiterhin die Funktionalität und das Toolset seiner Software-Suite, einschließlich der Open-Source-Benutzeroberfläche der Python-Anwendung zum Definieren und Optimieren neuer Architekturen zur Anpassung großer Sprachmodelle.
Als MosaikML beispielsweise TensorRT-LLM in seinen vorhandenen Software-Stack integrierte, fügte es zusätzlich zu TensorRT-LLM zusätzliche Funktionen hinzu. Naveen Rao, Vizepräsident für Technik bei Databricks, sagte, dass der Prozess sehr einfach sei
„TensorRT-LLM ist einfach zu verwenden, reich an Funktionen, einschließlich Token-Streaming, dynamischem Batching, Paged Attention, Quantisierung usw., und das ist es.“ „Sehr effizient und bietet die beste Lösung für die Verwendung von NVIDIA-GPUs. Der umfangreiche Sprachmodelldienst bietet die beste Leistung und ermöglicht es uns, die Kosteneinsparungen an unsere Kunden weiterzugeben.“ , einschließlich Stapelverarbeitungsfunktionen, kann von Nvidia verwendet werden. Die Argumentationsleistung von H100 für die Extraktion von Artikelzusammenfassungen wird um mehr als das 1-fache verbessert. Bei der Verwendung des GPT-J-6B-Modells zur Durchführung von A100-Tests für CNN/Daily Mail-Artikelzusammenfassungen war die alleinige Verwendung von H100 viermal schneller als A100, und bei aktivierter TensorRT-LLM-Optimierung erhöhte sich die Geschwindigkeit um das Achtfache
TensorRT-LLM bietet Entwicklern und Ingenieuren einen Deep-Learning-Compiler, optimierte Kernel für große Sprachmodelle, Vor- und Nachverarbeitung, Multi-GPU-/Multi-Node-Kommunikationsfunktionen und eine einfache Open-Source-API, sodass sie große Sprachmodelle schnell optimieren und ausführen können Produktionsbegründung. Da große Sprachmodelle das Rechenzentrum immer weiter verändern, bedeutet der Bedarf von Unternehmen an höherer Leistung, dass Entwickler mehr denn je Tools benötigen, die ihnen die Funktionalität und den Zugriff bieten, um leistungsstärkere Ergebnisse zu liefern.
Die TensorRT-LLM-Software-Suite ist jetzt für den frühen Zugriff für Entwickler im Nvidia Developer Program verfügbar und wird nächsten Monat in das NeMo-Framework für die Produktions-KI-End-to-End-Softwareplattform Nvidia AI Enterprise integriert. Die TensorRT-LLM-Software-Suite wurde für den frühen Zugriff durch Entwickler im Nvidia Developer Program freigegeben und wird nächsten Monat in das NeMo-Framework von Nvidia AI Enterprise für eine Produktions-KI-End-to-End-Softwareplattform integriert
Das obige ist der detaillierte Inhalt vonNvidia veröffentlicht die Open-Source-Software TensorRT-LLM, um die Leistung von KI-Modellen auf High-End-GPU-Chips zu verbessern. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!