Untuk menulis semula kandungan tanpa mengubah maksud asal, bahasa perlu ditulis semula ke dalam bahasa Cina, dan ayat asal tidak perlu muncul
Jabatan editorial laman web ini
Kemunculan PowerInfer menjadikan Running AI pada perkakasan gred pengguna telah menjadi lebih cekap
Pasukan Universiti Jiao Tong Shanghai baru sahaja melancarkan PowerInfer, CPU/GPU LLM berkelajuan tinggi yang sangat berkuasa enjin.
Alamat projek: https://github.com/SJTU-IPADS/PowerInfer
alamat .sj tu .edu.cn/_media/publications/powerinfer-20231219.pdf
Berapa cepat?
Pada satu RTX 4090 (24G) yang menjalankan Falcon (ReLU)-40B-FP16, PowerInfer mencapai kelajuan 11x berbanding llama.cpp!
Kedua-dua PowerInfer dan llama.cpp dijalankan pada perkakasan yang sama dan memanfaatkan sepenuhnya VRAM pada RTX 4090. Merentasi pelbagai LLM pada satu GPU NVIDIA RTX 4090, kadar purata penjanaan token PowerInfer ialah 13.20 token/saat, dengan kemuncak 29.08 token/saat, iaitu hanya 18% lebih rendah daripada pelayan gred A100 teratas GPU .
🎜
Secara khusus, PowerInfer ialah enjin inferens berkelajuan tinggi untuk LLM yang digunakan secara tempatan. Ia mengeksploitasi lokaliti tinggi dalam inferens LLM untuk mereka bentuk enjin inferens hibrid GPU-CPU. Neuron yang diaktifkan panas dipramuat pada GPU untuk akses pantas, manakala neuron yang diaktifkan sejuk (kebanyakannya) dikira pada CPU. Pendekatan ini mengurangkan keperluan memori GPU dan pemindahan data CPU-GPU dengan ketara. PowerInfer boleh menjalankan model bahasa besar (LLM) pada kelajuan tinggi pada komputer peribadi (PC) yang dilengkapi dengan GPU pengguna tunggal. Pengguna kini boleh menggunakan PowerInfer dengan Llama 2 dan Faclon 40B, dengan sokongan untuk Mistral-7B akan datang tidak lama lagi. Kunci kepada reka bentuk PowerInfer adalah untuk mengeksploitasi tahap lokaliti tinggi yang wujud dalam inferens LLM, yang dicirikan oleh pengagihan undang-undang kuasa dalam pengaktifan neuron.
Rajah 7 di bawah menunjukkan gambaran keseluruhan seni bina PowerInfer, termasuk komponen luar talian dan dalam talian.
Taburan ini menunjukkan bahawa sebahagian kecil neuron, dipanggil neuron panas, mengaktifkan secara konsisten merentas input, manakala majoriti neuron sejuk berbeza-beza bergantung pada input tertentu. PowerInfer memanfaatkan mekanisme ini untuk mereka bentuk enjin inferens hibrid GPU-CPU.
PowerInfer menyepadukan lagi peramal penyesuaian dan pengendali sparsity sedar neuron, mengoptimumkan kecekapan pengaktifan neuron dan sparsity pengiraan. Selepas melihat kajian ini, netizen berkata dengan teruja: Bukan lagi impian untuk menjalankan model besar 175B dengan satu kad 4090.
Untuk maklumat lanjut, sila lihat kertas asal. Atas ialah kandungan terperinci Shanghai Jiao Tong University mengeluarkan enjin inferens PowerInfer Kadar penjanaan tokennya hanya 18% lebih rendah daripada A100. Ia mungkin menggantikan 4090 sebagai pengganti A100.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!