Rumah >Peranti teknologi >AI >Untuk mengimbangi kekurangan parameter 7 bilion Stanford 'Alpaca', model besar yang mahir dalam bahasa Cina ada di sini dan telah menjadi sumber terbuka
BELLE berasaskan Stanford Alpaca dan dioptimumkan untuk penalaan Model Cina hanya menggunakan data yang dihasilkan oleh ChatGPT (tidak termasuk data lain).
Sudah hampir empat bulan sejak keluaran awal ChatGPT. Apabila GPT-4 dikeluarkan minggu lepas, ChatGPT segera melancarkan versi baharu. Tetapi rahsia yang terkenal ialah ChatGPT mahupun GPT-4 berkemungkinan bukan sumber terbuka. Ditambah dengan pelaburan besar dalam kuasa pengkomputeran dan data latihan besar-besaran, terdapat banyak halangan untuk komuniti penyelidikan untuk meniru proses pelaksanaannya.
Menghadapi serangan model besar seperti ChatGPT, penggantian sumber terbuka adalah pilihan yang baik. Pada awal bulan ini, Meta "bersumberkan terbuka" siri model besar baharu - LLaMA (Model Bahasa Besar Meta AI), dengan saiz parameter antara 7 bilion hingga 65 bilion. Model 13 bilion parameter LLaMA mengatasi 175 bilion parameter GPT-3 "pada kebanyakan penanda aras" dan boleh dijalankan pada satu GPU V100.
Beberapa hari kemudian, Stanford memperhalusi model baharu Alpaca dengan 7 bilion parameter berdasarkan LLaMA 7B Mereka menggunakan teknologi yang diperkenalkan dalam kertas Arahan Kendiri untuk menjana data arahan 52K dan membuat beberapa pengubahsuaian. Dalam penilaian awal manusia, model Alpaca 7B menunjukkan prestasi yang sama dengan model teks-davinci-003 (GPT-3.5) pada penilaian arahan Arahan Kendiri.
Tetapi malangnya, tugas benih Alpaca semuanya dalam bahasa Inggeris, dan data yang dikumpul juga dalam bahasa Inggeris, jadi model terlatih tidak dioptimumkan untuk bahasa Cina. Untuk meningkatkan keberkesanan model dialog dalam bahasa Cina, adakah cara yang lebih baik? Jangan risau, projek yang diperkenalkan seterusnya dapat menyelesaikan masalah ini dengan baik.
Model besar dialog Cina sumber terbuka BELLE (Bloom-Enhanced Large Language model Engine) dengan 7 bilion parameter ada di sini. Ia berdasarkan Alpaca Stanford, tetapi telah Cina dioptimumkan dan membuat beberapa pengubahsuaian pada kod yang dijana Bukan itu sahaja, penalaan model hanya menggunakan data yang dihasilkan oleh ChatGPT (tidak mengandungi sebarang data lain).
Dari segi data, projek sumber terbuka kod pengumpulan data berdasarkan kod ini, kira-kira 1 juta keping data Cina telah dijana dengan 50,000 keping data bahasa Inggeris daripada Alpaca dilatih pada model BLOOMZ-7B Pusat pemeriksaan dimuat naik ke Muka Memeluk.
Alamat Muka Berpeluk: https://huggingface.co/BelleGroup
Pengarang projek menyatakan: Projek ini bertujuan untuk mempromosikan pembangunan komuniti sumber terbuka model besar dialog Cina.
Alamat projek: https://github.com/LianjiaTech/BELLE
Projek ini terutamanya merangkumi empat berikut bahagian Kandungan:
Keluaran data
1 zh_seed_tasks.jsonl: Mengandungi 175 tugasan benih, sampelnya adalah seperti berikut
{" id ": "seed_task_20", "name": "horror_movie_opening", "instruction": "Anda perlu menulis adegan pembukaan kreatif untuk filem seram", "instances": [{"input": "","output. ":" Matahari telah terbenam, meninggalkan sebuah bandar yang gelap di belakang Angin sepoi-sepoi bertiup melalui jalan-jalan yang kosong, memberikan kesejukan kepada sesiapa sahaja yang keluar dari luar -jerit kencang memecah kesunyian, diikuti dengan bunyi kaca yang pecah, dan kelihatan satu figura berlari ke arah tengah bandar Apabila saya semakin dekat, saya dapat melihat dengan jelas bahawa ia adalah seorang wanita muda dengan darah di seluruh tubuhnya . "}],"is_classification": false}
2. prompt_cn.txt: Gesaan digunakan untuk menjananya
<.>3. 0.5J data yang dijanaPenjanaan data
Ikuti kaedah Alpaca: pip install -r requirements.txt eksport OPENAI_API_KEY=YOUR_API_KEY
python generate_instruction.py generate_>python generate_instruction.py generate_instruction_following_data
--api=chat --model_name=gpt- 3.5-turbo
Fail output berada dalam Belle.train.json dan boleh ditapis secara manual sebelum digunakan.
Penalaan Model
Projek ini berdasarkan model BLOOMZ-7B1-mt dan model latihan Belle.train.json Parameter khusus adalah seperti berikut:
Selain itu, projek ini juga menggunakan set data pembelajaran arahan dengan saiz yang berbeza (200,000, 600,000, 1 juta dan 2 juta sampel) untuk melatih model dan versi model yang berbeza diperolehi adalah seperti berikut:
Contoh penggunaan model
Batasan dan Sekatan Penggunaan
Model SFT yang dilatih berdasarkan data semasa dan model asas masih mempunyai masalah berikut dari segi keberkesanan:
Atas ialah kandungan terperinci Untuk mengimbangi kekurangan parameter 7 bilion Stanford 'Alpaca', model besar yang mahir dalam bahasa Cina ada di sini dan telah menjadi sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!