Heim >Technologie-Peripheriegeräte >KI >Viermal schneller, enthüllte ByteDances Open-Source-Hochleistungs-Trainings-Inferenz-Engine LightSeq-Technologie

Viermal schneller, enthüllte ByteDances Open-Source-Hochleistungs-Trainings-Inferenz-Engine LightSeq-Technologie

王林
王林nach vorne
2023-05-02 17:52:071419Durchsuche

Das Transformer-Modell stammt aus dem 2017 vom Google-Team veröffentlichten Artikel „Attention is all you need“. In diesem Artikel wurde zunächst das Konzept vorgeschlagen, Aufmerksamkeit als Ersatz für die zyklische Struktur des Seq2Seq-Modells zu verwenden, was große Auswirkungen hatte zum NLP-Bereich. Und mit der kontinuierlichen Weiterentwicklung der Forschung in den letzten Jahren sind Transformer-bezogene Technologien nach und nach von der Verarbeitung natürlicher Sprache auf andere Bereiche übergegangen. Bisher sind die Modelle der Transformer-Serie zu Mainstream-Modellen in NLP, CV, ASR und anderen Bereichen geworden.

Daher ist die Frage, wie Transformer-Modelle schneller trainiert und abgeleitet werden können, zu einer wichtigen Forschungsrichtung in der Branche geworden. Quantisierungstechnologie mit geringer Präzision kann den Berechnungs- und Kommunikationsprozess beschleunigen, indem sie die Datenbreite verringert, und ist ein wichtiges Mittel, um das Modelltraining und die Inferenz in dieser Phase zu beschleunigen. Der Haken an der Sache ist jedoch, dass die Quantisierung zu einem Verlust an Genauigkeit und Wirkung führt und dieser Verlust durch Mittel wie quantifizierte Wahrnehmung und Training reduziert werden muss. Als Reaktion auf die oben genannten Schwachstellen hat ByteDance die LightSeq-Trainings- und Inferenzbeschleunigungs-Engine Version 3.0 entwickelt und aktualisiert, die zum ersten Mal gleichzeitig Präzision und verlustfreies Transformer-Modell für quantitatives Training und quantitative Inferenz ermöglicht.

LightSeq verwendet int8 GEMM, um den echten Quantisierungstrainingsprozess zu realisieren, anstatt die in der Branche weit verbreitete Pseudoquantisierungsmethode zu verwenden, und kann eine mehr als vierfache Verbesserung der Modelltrainingsgeschwindigkeit erreichen. Durch quantitative Strategien wie PACT kann der Verlust quantitativer Schulungen minimiert werden. Nachdem Sie das quantitative Modell in ein von LightSeq unterstütztes Format exportiert haben, können Sie die quantitative LightSeq-Inferenz-Engine weiter verwenden, um eine schnelle Inferenz zu erzielen, mit Geschwindigkeitsverbesserungen von bis zu 70 % auf T4-Grafikkarten.

Bei der Technologie-Sharing-Veranstaltung [T·TALK] am 21. Juli haben wir Herrn Xiong Ying, einen ByteDance-Algorithmus-Ingenieur und LightSeq-Kernentwickler, speziell eingeladen, als Gast im Live-Übertragungsraum zu sein, um die Dinge zu enthüllen die geheimen Worte an das Publikum. Die technischen Prinzipien und praktischen Details der Hochleistungs-Trainings-Inferenz-Engine LightSeq. Ganz gleich, ob Sie ein Praktiker in der Algorithmenbranche oder ein Entwickler sind, der sich für KI-Technologie interessiert, ich glaube, dass Sie durch diesen Austausch einzigartige technische Erfahrungen und innovative Inspirationen gewinnen können.

Begrüßen Sie alle zur Teilnahme an der 12. Technologie-Sharing-Veranstaltung von [T·TALK] am 21. Juli um 20:00 Uhr

#🎜 🎜 # scanne das Poster untenQR-CodeTermin zum Anschauen vereinbaren

Viermal schneller, enthüllte ByteDances Open-Source-Hochleistungs-Trainings-Inferenz-Engine LightSeq-Technologie

# 🎜🎜#

Das obige ist der detaillierte Inhalt vonViermal schneller, enthüllte ByteDances Open-Source-Hochleistungs-Trainings-Inferenz-Engine LightSeq-Technologie. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen