Rumah >pembangunan bahagian belakang >Tutorial Python >Kuasa Pengkuantitian: Mengecilkan Kelajuan Pelepas GPT
Bayangkan menggunakan model bahasa yang berkuasa seperti GPT-2—mampu mencipta cerita, menjawab soalan dan meniru teks manusia—dan memampatkannya menjadi versi yang lebih ramping dan lebih pantas tanpa menjejaskan keupayaannya.
Ini adalah janji pengkuantitian: teknik yang mengurangkan ketepatan pengiraan model, memperdagangkan ketepatan marginal untuk keuntungan kecekapan yang dramatik.
!pip install torch transformers accelerate bitsandbytes psutil from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig import torch import time import gc def get_memory_usage(): return torch.cuda.memory_allocated() / 1e6 if torch.cuda.is_available() else 0 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model_name = "gpt2" input_text = "Once upon a time"
Percubaan bermula dengan GPT-2 dalam keadaan semula jadi: ketepatan titik terapung 32-bit (FP32). Ini ialah mod "kuasa penuh" model—sangat tepat tetapi intensif sumber.
FP32 berfungsi, tetapi ia besar.
# Load tokenizer and base model tokenizer = AutoTokenizer.from_pretrained(model_name) print(f"Pre-load memory: {get_memory_usage()} MB") # Full precision model model_fp32 = AutoModelForCausalLM.from_pretrained(model_name).to(device) print(f"Post-load memory: {get_memory_usage()} MB") # 511.15 MB # Inference measurement inputs = tokenizer(input_text, return_tensors="pt").to(device) start_time = time.time() output = model_fp32.generate(**inputs, max_length=50) inference_time = time.time() - start_time # 1.76s # Cleanup protocol del model_fp32, inputs gc.collect() torch.cuda.empty_cache()
Masukkan pengkuantitian 8-bit, di mana pemberat dan pengaktifan disimpan sebagai integer dan bukannya terapung. Transformasi adalah serta-merta:
Model lebih ringan, lebih pantas dan masih berfungsi. Peningkatan yang jelas.
# 8-bit configuration quant_config_8bit = BitsAndBytesConfig(load_in_8bit=True) print(f"Pre-load memory: {get_memory_usage()} MB") # 9.18 MB model_int8 = AutoModelForCausalLM.from_pretrained( model_name, quantization_config=quant_config_8bit ) # Dynamic input handling inputs_int8 = tokenizer(input_text, return_tensors="pt").to(model_int8.device) start_time = time.time() output = model_int8.generate(**inputs_int8, max_length=50) # 1.38s
Sekarang kita teruskan lagi. Dengan pengkuantitian 4-bit, pemberat dimampatkan kepada ketepatan hampir-minimum dan pengiraan menggunakan apungan 16-bit untuk kestabilan.
Ini bukan sekadar pengoptimuman; ia ciptaan semula.
# 8-bit configuration quant_config_8bit = BitsAndBytesConfig(load_in_8bit=True) print(f"Pre-load memory: {get_memory_usage()} MB") # 9.18 MB model_int8 = AutoModelForCausalLM.from_pretrained( model_name, quantization_config=quant_config_8bit ) # Dynamic input handling inputs_int8 = tokenizer(input_text, return_tensors="pt").to(model_int8.device) start_time = time.time() output = model_int8.generate(**inputs_int8, max_length=50) # 1.38s
Kuantisasi tidak percuma. Mengurangkan ketepatan boleh merendahkan ketepatan model secara halus, tetapi untuk banyak tugas—seperti penjanaan teks kasual—perbezaannya tidak dapat dilihat. Apa yang kami peroleh jauh melebihi kos:
Hasil: Model sesuai dengan kekangan memori yang lebih ketat, membolehkan penggunaan pada GPU pengguna atau peranti tepi.
Hasil: Respons yang lebih pantas untuk aplikasi masa nyata, daripada chatbots kepada penjanaan kandungan automatik.
Pada terasnya, kuantisasi memetakan nilai ketepatan tinggi (seperti apungan 32-bit) kepada format ketepatan yang lebih rendah (integer 8- atau 4-bit). Contohnya:
Pustaka bitsandbytes mengendalikan perkara ini secara automatik, membungkus semula pemberat dan melaraskan pengiraan untuk mengekalkan kestabilan.
Perbandingan sebelah menyebelah menutup hujah:
Ambil bawa pulang? Kuantisasi bukan sekadar nota kaki teknikal—ia merupakan alat praktikal untuk mendemokrasikan AI.
!pip install torch transformers accelerate bitsandbytes psutil from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig import torch import time import gc def get_memory_usage(): return torch.cuda.memory_allocated() / 1e6 if torch.cuda.is_available() else 0 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model_name = "gpt2" input_text = "Once upon a time"
Melalui pengkuantitian, kami telah mengubah GPT-2 daripada raksasa yang penuh dengan sumber kepada alat yang lincah dan cekap—membuktikan bahawa dengan teknik yang betul, gergasi pun boleh belajar bergerak dengan ringan.
Pelaksanaan ini mendedahkan kuasa kuantisasi melalui kod dan ukuran konkrit. Dengan mengubah suai hanya 10-15 baris konfigurasi dan menggunakan pengkuantitian, kami mencapai:
Jika anda ingin tahu dan ingin mendapatkan akses kepada buku nota penuh untuk percubaan - pergi ke Google Colab.
Atas ialah kandungan terperinci Kuasa Pengkuantitian: Mengecilkan Kelajuan Pelepas GPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!