Rumah >Peranti teknologi >AI >Apple ' s DCLM-7B: Persediaan, Penggunaan Contoh, Penalaan Baik
Sumbangan sumber terbuka Apple ke medan model bahasa besar (LLM), DCLM-7B, menandakan langkah penting ke arah demokrasi AI. Model parameter 7 bilion ini, yang dikeluarkan di bawah Lesen Kod Sampel Apple, menawarkan penyelidik dan pemaju alat yang kuat dan boleh diakses untuk pelbagai tugas pemprosesan bahasa semulajadi (NLP).
Ciri-ciri utama DCLM-7B termasuk seni bina pengubah decoder sahaja-sama dengan CHATGPT dan GPT-4-dioptimumkan untuk menghasilkan teks koheren. Dilatih pada dataset besar sebanyak 2.5 trilion token, ia mempunyai pemahaman yang mantap tentang bahasa Inggeris, menjadikannya sesuai untuk penalaan halus pada tugas-tugas tertentu. Walaupun model asas mempunyai tetingkap konteks 2048, varian dengan tetingkap token 8K menawarkan keupayaan yang lebih baik untuk memproses teks yang lebih panjang.
Bermula dan penggunaan:
DCLM-7B mengintegrasikan dengan lancar dengan memeluk Perpustakaan Transformers Face. Pemasangan memerlukan dan pip install transformers
. Oleh kerana saiznya (kira-kira 27.5GB), sistem RAM/VRAM tinggi atau persekitaran awan disyorkan. pip install git https://github.com/mlfoundations/open_lm.git
from open_lm.hf import * from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("apple/DCLM-Baseline-7B") model = AutoModelForCausalLM.from_pretrained("apple/DCLM-Baseline-7B") inputs = tokenizer(["Machine learning is"], return_tensors="pt") gen_kwargs = {"max_new_tokens": 50, "top_p": 0.8, "temperature": 0.8, "do_sample": True, "repetition_penalty": 1.1} output = model.generate(inputs['input_ids'], **gen_kwargs) output = tokenizer.decode(output[0].tolist(), skip_special_tokens=True) print(output)
Fine-penuning (gambaran keseluruhan):
Walaupun penalaan DCLM-7B yang baik menuntut sumber yang besar, proses ini melibatkan penggunaan perpustakaan dan dataset (mis., Dari perpustakaan transformers
memeluk, seperti datasets
). Langkah-langkah termasuk penyediaan dataset (tokenisasi) dan menggunakan objek wikitext
dan TrainingArguments
untuk proses penalaan halus itu sendiri. Ini memerlukan kuasa pengiraan yang ketara dan tidak terperinci di sini kerana kerumitannya. Trainer
Kesimpulan:
DCLM-7B Apple mewakili sumbangan yang berharga kepada komuniti LLM sumber terbuka. Kebolehcapaiannya, ditambah pula dengan prestasi dan seni bina, meletakkannya sebagai alat yang kuat untuk penyelidikan dan pembangunan dalam pelbagai aplikasi NLP. Sumber sumber terbuka memupuk kerjasama dan mempercepatkan inovasi dalam bidang AI.Atas ialah kandungan terperinci Apple ' s DCLM-7B: Persediaan, Penggunaan Contoh, Penalaan Baik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!