Um den Inhalt neu zu schreiben, ohne die ursprüngliche Bedeutung zu ändern, muss die Sprache ins Chinesische umgeschrieben werden und der Originalsatz muss nicht erscheinen
Die Redaktion dieser Website
Das Aufkommen von PowerInfer macht die Ausführung von KI auf Consumer-Hardware effizienter Motor.
Projektadresse: https://github.com/SJTU-IPADS/PowerInfer
Papieradresse: https://ipads.se .sj tu .edu.cn/_media/publications/powerinfer-20231219.pdf
Wie schnell?
Auf einer einzelnen RTX 4090 (24G) mit Falcon (ReLU)-40B-FP16 erreichte PowerInfer eine 11-fache Geschwindigkeitssteigerung im Vergleich zu llama.cpp! Sowohl PowerInfer als auch llama.cpp laufen auf derselben Hardware und nutzen den VRAM der RTX 4090 voll aus.
Über verschiedene LLMs auf einer einzelnen NVIDIA RTX 4090-GPU beträgt die durchschnittliche Token-Generierungsrate von PowerInfer 13,20 Token/Sekunde, mit einem Spitzenwert von 29,08 Token/Sekunde, was nur 18 % niedriger ist als beim Top-Server-A100 GPU.
Konkret handelt es sich bei PowerInfer um eine Hochgeschwindigkeits-Inferenz-Engine für lokal bereitgestelltes LLM. Es nutzt die hohe Lokalität der LLM-Inferenz aus, um eine GPU-CPU-Hybrid-Inferenz-Engine zu entwerfen. Heißaktivierte Neuronen werden für einen schnellen Zugriff auf die GPU vorinstalliert, während kaltaktivierte Neuronen (meistens) auf der CPU berechnet werden. Dieser Ansatz reduziert den GPU-Speicherbedarf und die CPU-GPU-Datenübertragungen erheblich. PowerInfer kann große Sprachmodelle (LLM) mit hoher Geschwindigkeit auf einem Personal Computer (PC) ausführen, der mit einer einzelnen Verbraucher-GPU ausgestattet ist. Benutzer können PowerInfer jetzt mit Llama 2 und Faclon 40B verwenden. Die Unterstützung für Mistral-7B folgt in Kürze. Der Schlüssel zum Design von PowerInfer besteht darin, den hohen Grad an Lokalität auszunutzen, der der LLM-Inferenz innewohnt und durch die Potenzgesetzverteilung bei neuronalen Aktivierungen gekennzeichnet ist.
Abbildung 7 unten zeigt die Architekturübersicht von PowerInfer, einschließlich Offline- und Online-Komponenten.
Diese Verteilung zeigt, dass ein kleiner Teil der Neuronen, sogenannte heiße Neuronen, über alle Eingaben hinweg konsistent aktiviert werden, während die Mehrheit der kalten Neuronen je nach bestimmten Eingaben variiert. PowerInfer nutzt diesen Mechanismus, um eine GPU-CPU-Hybrid-Inferenz-Engine zu entwerfen.
PowerInfer integriert darüber hinaus adaptive Prädiktoren und neuronenbewusste Sparsity-Operatoren und optimiert so die Effizienz der Neuronenaktivierung und der rechnerischen Sparsity. Nachdem sie diese Studie gesehen hatten, sagten die Internetnutzer aufgeregt: Es ist kein Traum mehr, ein 175B großes Modell mit einer einzigen Karte 4090 zu betreiben.
Weitere Informationen finden Sie im Originalpapier. Das obige ist der detaillierte Inhalt vonDie Shanghai Jiao Tong University veröffentlicht die Inferenz-Engine PowerInfer. Ihre Token-Generierungsrate ist nur 18 % niedriger als die von A100. Sie kann 4090 als Ersatz für A100 ersetzen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!