Heim >Technologie-Peripheriegeräte >KI >Einfacher und effizienter Transformator (Online-Inferenz-Engine für ultragroße Modelle von NetEase)

Einfacher und effizienter Transformator (Online-Inferenz-Engine für ultragroße Modelle von NetEase)

王林
王林nach vorne
2024-01-24 10:45:05442Durchsuche

Easy and Efficient Transformer(网易超大模型线上推理引擎)

Das Open-Source-Inferenzbeschleunigungs-Framework von NetEase für transformatorbasierte Modelle unterstützt die leistungsstarke Single-Card-Inferenz von zig Milliarden Modellen auf der Ampere-Architektur des mittleren bis unteren Preissegments.

Projekthintergrund

Transformatorbasierte Großmodelle haben sich bei vielfältigen Aufgaben in vielen Bereichen bewährt. Die Anwendung auf die industrielle Produktion erfordert jedoch einen erheblichen Aufwand, um die Inferenzkosten zu senken. Um diese Lücke zu schließen, schlagen wir eine skalierbare Inferenzlösung vor: Easy and Efficient Transformer (EET). EET ist ein System, das eine Reihe von Transformer-Argumentationsoptimierungen auf Algorithmus- und Implementierungsebene umfasst. Durch die Optimierung der Berechnungs- und Datenprozesse von Transformer kann EET die Inferenzkosten erheblich senken und die Effizienz und Leistung des Modells verbessern. Unsere experimentellen Ergebnisse zeigen, dass EET die Inferenzgeschwindigkeit und Ressourcennutzung erheblich verbessern kann, ohne die Modellgenauigkeit zu verlieren, und eine einfache und effektive Lösung für groß angelegte Modellanwendungen in der industriellen Produktion darstellt.

Zuerst haben wir einen hochoptimierten Kernel für lange Eingaben und große versteckte Größen entworfen.

Darüber hinaus schlagen wir einen flexiblen CUDA-Speichermanager vor, um den Speicherbedarf bei der Bereitstellung großer Modelle zu reduzieren. Im Vergleich zur hochmodernen Transformer-Inferenzbibliothek (Faster Transformer v4.0) ist EET in der Lage, auf der A100-GPU eine durchschnittliche 1,40- bis 4,20-fache Beschleunigung der Decodierungsebene zu erreichen.

Papieradresse

https://arxiv.org/abs/2104.12470

Github-Adresse

https://github.com/NetEase-FuXi/EET

Das obige ist der detaillierte Inhalt vonEinfacher und effizienter Transformator (Online-Inferenz-Engine für ultragroße Modelle von NetEase). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:163.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen