Rumah  >  Artikel  >  Peranti teknologi  >  Transformer Mudah dan Cekap (enjin inferens dalam talian model ultra-besar NetEase)

Transformer Mudah dan Cekap (enjin inferens dalam talian model ultra-besar NetEase)

王林
王林ke hadapan
2024-01-24 10:45:05387semak imbas

Easy and Efficient Transformer(网易超大模型线上推理引擎)

Rangka kerja pecutan inferens sumber terbuka NetEase untuk model berasaskan transformer menyokong inferens berprestasi tinggi kad tunggal bagi berpuluh bilion model pada seni bina Ampere pertengahan hingga rendah.

Latar Belakang Projek

Model berskala besar berasaskan transformer telah terbukti berkesan dalam pelbagai tugas dalam banyak bidang. Walau bagaimanapun, penggunaannya dalam pengeluaran perindustrian memerlukan usaha yang besar untuk mengurangkan kos inferens. Untuk mengisi jurang ini, kami mencadangkan penyelesaian inferens berskala: Transformer Mudah dan Cekap (EET). EET ialah sistem yang merangkumi satu siri pengoptimuman penaakulan Transformer pada peringkat algoritma dan pelaksanaan. Dengan mengoptimumkan pengiraan dan proses data Transformer, EET boleh mengurangkan kos inferens dengan ketara dan meningkatkan kecekapan dan prestasi model. Keputusan percubaan kami menunjukkan bahawa EET boleh meningkatkan kelajuan inferens dan penggunaan sumber dengan ketara tanpa kehilangan ketepatan model, menyediakan penyelesaian yang mudah dan berkesan untuk aplikasi model berskala besar dalam pengeluaran perindustrian.

Pertama, kami mereka bentuk kernel yang sangat dioptimumkan untuk input yang panjang dan saiz tersembunyi yang besar.

Selain itu, kami juga mencadangkan pengurus memori CUDA yang fleksibel untuk mengurangkan jejak memori apabila menggunakan model besar. Berbanding dengan perpustakaan inferens Transformer yang tercanggih (Faster Transformer v4.0), EET mampu mencapai purata 1.40-4.20x pecutan lapisan penyahkodan pada GPU A100.

Alamat kertas

https://arxiv.org/abs/2104.12470

Alamat Github

https://github.com/NetEase-FuXi/EET

Atas ialah kandungan terperinci Transformer Mudah dan Cekap (enjin inferens dalam talian model ultra-besar NetEase). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:163.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam