Rumah >Peranti teknologi >AI >Gemma 2 penalaan halus dan menggunakannya secara tempatan
Tutorial ini menunjukkan penalaan model Gemma 2 Google yang baik pada dataset perbualan pesakit-doktor dan menggunakannya untuk kegunaan luar talian. Kami akan meliputi penyediaan model, penalaan halus dengan LORA, penggabungan model, kuantisasi, dan penggunaan tempatan dengan aplikasi Jan.
Memahami Gemma 2
Gemma 2, Model Bahasa Besar Sumber Terbuka (LLM) terbaru Google, menawarkan versi parameter 9B dan 27B di bawah lesen permisif. Senibina yang lebih baik memberikan kesimpulan yang lebih cepat merentasi pelbagai perkakasan, mengintegrasikan dengan lancar dengan memeluk Transformers Face, Jax, Pytorch, dan Tensorflow. Ciri -ciri keselamatan yang dipertingkatkan dan alat penempatan AI etika juga disertakan.
Bahagian ini butiran memuat turun dan menjalankan kesimpulan dengan kuantisasi 4-bit (diperlukan untuk kecekapan memori pada perkakasan pengguna).
Pasang , , dan bitsandbytes
. transformers
accelerate
Gunakan token muka pelukan (diperoleh dari akaun muka pelukan anda) untuk mengesahkan.
Muatkan model menggunakan kuantisasi 4-bit dan pemetaan peranti yang sesuai.
google/gemma-2-9b-it
Buat prompt, tokenize itu, menghasilkan respons, dan menyahkodkannya.
persediaan:
Pasang pakej yang diperlukan (, , , transformers
, datasets
). Mengesahkan dengan memeluk muka dan berat & bias. accelerate
peft
trl
bitsandbytes
wandb
Model dan pemuatan tokenizer:
Loading dataset:
Beban dan pra -proses Dataset Latihan: Tetapkan argumen latihan (laraskan hyperparameters seperti yang diperlukan) dan melatih model menggunakan SFTTrainer
. Pantau kemajuan latihan dengan berat & bias.
Selesaikan berat & bias dijalankan untuk menghasilkan laporan penilaian.
Simpan penyesuai LORA yang disesuaikan secara tempatan dan tolak ke hab muka yang memeluk.
menggabungkan model penyesuai dan asas
Langkah ini menggabungkan penyesuai LORA yang disesuaikan dengan model asas Gemma 2 untuk satu model yang boleh dikeluarkan. Ini dilakukan pada CPU untuk menguruskan kekangan memori.
Persediaan:
Buat buku nota baru (berasaskan CPU), pasang pakej yang diperlukan, dan sahkan dengan muka yang memeluk.Beban dan gabungan:
Muatkan model asas dan penyesuai yang disimpan, kemudian bergabung dengan mereka menggunakan
PeftModel.merge_and_unload()
Simpan dan tolak:
Gunakan GGUF Repo My Repo memeluk ruang muka untuk dengan mudah menukar dan mengukur model ke format GGUF untuk penggunaan tempatan yang optimum.
Muat turun model kuantitatif dari hab muka yang memeluk.
Muatkan model pada Jan, laraskan parameter (berhenti urutan, penalti, token max, arahan), dan berinteraksi dengan model yang disempurnakan.
Kesimpulan
Atas ialah kandungan terperinci Gemma 2 penalaan halus dan menggunakannya secara tempatan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!