Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Kuaishous Forschungsergebnis SAMP wurde auf der EMNLP2023 International Artificial Intelligence Conference ausgezeichnet

Kuaishous Forschungsergebnis SAMP wurde auf der EMNLP2023 International Artificial Intelligence Conference ausgezeichnet

PHPz
PHPznach vorne
2023-12-15 18:35:51799Durchsuche

Mit der breiten Anwendung von Deep-Learning-Modellen in Bereichen wie der Verarbeitung natürlicher Sprache sind Geschwindigkeit und Leistung der Modellinferenz zu wichtigen Themen geworden. Kürzlich wurde das von Kuaishou geleitete Forschungsergebnis „SAMP: Post-training Quantitative Model Inference Library Based on Adaptive Mixed Precision“ erfolgreich für die Top-Konferenz EMNLP 2023 ausgewählt und in Singapur präsentiert und geteilt

Diese Studie schlägt ein Inferenzbeschleunigungstool namens SAMP vor, das adaptive Mixed-Precision-Technologie nutzt, um die Inferenzgeschwindigkeit deutlich zu erhöhen und gleichzeitig die Modellleistung aufrechtzuerhalten. Es enthält einen adaptiven Mixed-Precision-Encoder und eine Reihe fortschrittlicher Fusionsstrategien. Der adaptive Mixed-Precision-Encoder kann in einer großen Anzahl von GEMM-Operationen (General Matrix Multiplication) und Transformer-Schichten die beste Gleitkomma- und Festkomma-Mixed-Precision-Kombination finden, sodass die Leistung der Modellinferenz den Benutzeranforderungen (Berechnungen) am nächsten kommt Genauigkeit oder Inferenzeffizienz). Letztendlich erzielen Berechnungen mit gemischter Genauigkeit eine bessere Rechengenauigkeit als vollständige Festkommaberechnungen. Die Fusionsstrategie integriert und verbessert Einbettungsoperatoren und quantisierungsbezogene Berechnungsoperationen und reduziert so die CUDA-Kernelaufrufe um die Hälfte. Gleichzeitig ist SAMP ein End-to-End-Toolkit, das in der Programmiersprache C++ implementiert ist. Es verfügt über eine hervorragende Inferenzgeschwindigkeit und senkt auch die industrielle Anwendungsschwelle der quantitativen Inferenz nach dem Training.

Was neu geschrieben werden muss, ist: der Innovationspunkt von SAMP im Vergleich zu ähnlichen Systemen, wie in Tabelle 1 dargestellt

SAMP hat die folgenden Haupthighlights:

1. Adaptiv. SAMP gleicht Rechengenauigkeit und Latenzleistung in einem quantisierten Inferenzansatz nach dem Training aus. Benutzer können Konfigurationen mit gemischter Genauigkeit und entsprechender Genauigkeit und Inferenzlatenz für verschiedene Aufgaben auswählen. SAMP kann Benutzern durch adaptive Zuordnungsmethoden auch den besten Quantisierungskombinationsmodus empfehlen.

2. Argumentationseffizienz. SAMP zeigt über einen weiten Präzisionsbereich (Gleitkomma bis Festkomma) eine bessere Inferenzbeschleunigung als andere Inferenz-Toolkits. Im Klassifizierungsaufgabendatensatz Chinese Language Understanding Evaluation Benchmark (CLUE) erreichte SAMP im Vergleich zu FasterTransformer eine bis zu 1,05- bis 1,15-fache Beschleunigung.

3. Flexibilität. SAMP deckt zahlreiche nachgelagerte Aufgaben wie Klassifizierung, Sequenzkennzeichnung, Textvergleich usw. ab. Target-Module sind erweiterbar und können flexibel angepasst werden. Es ist benutzerfreundlich und weniger plattformabhängig. SAMP unterstützt C++- und Python-APIs und erfordert nur CUDA 11.0 oder höher. Darüber hinaus bietet SAMP zahlreiche Modellkonvertierungstools, um die gegenseitige Konvertierung zwischen Modellen in verschiedenen Formaten zu unterstützen.

Kuaishous Forschungsergebnis SAMP wurde auf der EMNLP2023 International Artificial Intelligence Conference ausgezeichnet

Bild 1: Dieses Forschungspapier wird auf der EMNLP2023-Konferenz vorgestellt und geteilt

Der Hauptforscher Tian Rong aus Kuaishou sagte, dass das Ergebnis der gemeinsamen Bemühungen des gesamten Teams darin bestehe, in Szenarien wie der Modellinferenz gute Ergebnisse zu erzielen. SAMP hat in dreierlei Hinsicht Beiträge geleistet: Erstens löst es das Problem des großen Genauigkeitsverlusts in bestehenden Post-Quantisierungs-(PTQ)-Argumentationstools in industriellen Anwendungen, zweitens fördert es den Einsatz der Post-Quantisierungs-(PTQ)-Technologie in mehreren nachgelagerten Aufgaben von NLP. Gleichzeitig ist die Inferenzbibliothek leichtgewichtig, flexibel, benutzerfreundlich und unterstützt benutzerdefinierte Aufgabenziele

Es wird berichtet, dass EMNLP (Empirical Methods in Natural Language Processing) eine der führenden internationalen Konferenzen im Bereich der Verarbeitung natürlicher Sprache und künstlicher Intelligenz ist. Der Schwerpunkt liegt auf der akademischen Forschung zur Technologie der Verarbeitung natürlicher Sprache in verschiedenen Anwendungsszenarien zur empirischen Forschung zur Verarbeitung natürlicher Sprache. Die Konferenz hat Kerninnovationen im Bereich der Verarbeitung natürlicher Sprache gefördert, wie z. B. Sprachmodelle vor dem Training, Text-Mining, Dialogsysteme und maschinelle Übersetzung. Diese Auswahl hat auch großen Einfluss auf Kuaishous Fortschritt auf diesem Gebiet Die Forschungsergebnisse wurden von internationalen Wissenschaftlern anerkannt.

Das obige ist der detaillierte Inhalt vonKuaishous Forschungsergebnis SAMP wurde auf der EMNLP2023 International Artificial Intelligence Conference ausgezeichnet. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:sohu.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen