Rumah >Peranti teknologi >AI >Tutorial model solar-10.7b yang disesuaikan
solar-10.7b: menyelam mendalam ke dalam model bahasa besar yang sangat efisien
Projek solar-10.7b menandakan kemajuan yang signifikan dalam pembangunan model bahasa besar (LLM). Artikel ini menerangkan pendekatan skala inovatif, penanda aras prestasi, penggunaan praktikal, dan aplikasi yang berpotensi, sementara juga mengakui batasannya.
Dibangunkan oleh AI Upstage di Korea Selatan, solar-10.7b adalah model parameter 10.7 bilion yang dibina di atas seni bina Llama-2. Hebatnya, ia mengatasi LLM lain dengan jumlah parameter yang lebih besar, termasuk mixtral 8x7b. Untuk pemahaman yang komprehensif mengenai Llama-2, rujuk panduan kami mengenai penalaan model ini.
varian solar-10.7b-instruct, versi yang baik, cemerlang pada arahan kompleks berikut. Ini menyoroti kuasa penalaan halus untuk menyesuaikan LLM untuk tugas-tugas tertentu. Inovasi teras di belakang solar-10.7b adalah kaedah pendahuluan (DUS) kedalaman, terperinci di bawah.
DUS membolehkan meningkatkan kedalaman model tanpa peningkatan berkadar dalam sumber pengiraan. Ini meningkatkan kecekapan dan prestasi. Kaedah ini bergantung kepada tiga komponen utama: berat 7B mistral, rangka kerja Llama 2, dan pra-latihan yang berterusan.
Ilustrasi mendalam untuk N = 32, S = 48, dan M = 8. Proses dua peringkat menggabungkan penskalaan mendalam dan pra-latihan yang berterusan. (Sumber)
Proses ini melibatkan:Model asas
solar-10.7b-instruct: Arahan yang dipertingkatkan berikut
Aplikasi model yang disesuaikan dengan baik
Bahagian ini menyediakan panduan langkah demi langkah untuk menggunakan model solar-10.7b-instruct v1.0 GGUF.
1. Pemasangan:
pip -q install transformers==4.35.2 pip -q install accelerate
2. Import perpustakaan:
import torch from transformers import AutoModelForCausalLM, AutoTokenizer
3. Konfigurasi GPU: Pastikan GPU diaktifkan (mis., Menggunakan tetapan runtime Google Colab). Sahkan dengan !nvidia-smi
.
4. Definisi Model:
model_ID = "Upstage/SOLAR-10.7B-Instruct-v1.0" tokenizer = AutoTokenizer.from_pretrained(model_ID) model = AutoModelForCausalLM.from_pretrained(model_ID, device_map="auto", torch_dtype=torch.float16)
5. Kesimpulan Model dan Generasi Hasil:
user_request = "What is the square root of 24?" conversation = [{'role': 'user', 'content': user_request}] prompt = tokenizer.apply_chat_template(conversation, tokenize=False, add_generation_prompt=True) inputs = tokenizer(prompt, return_tensors="pt").to(model.device) outputs = model.generate(**inputs, use_cache=True, max_length=4096) output_text = tokenizer.decode(outputs[0]) print(output_text)Had
Pengoptimuman HyperParameter HyperParameter:
penerokaan hiperparameter yang lebih luas diperlukan untuk DU.Atas ialah kandungan terperinci Tutorial model solar-10.7b yang disesuaikan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!