Rumah >Peranti teknologi >AI >Model sumber terbuka parameter 7 bilion Stanford adalah setanding dengan GPT-3.5 dan boleh diterbitkan semula dengan harga $100
Apabila model bahasa berskala besar menjadi semakin berkuasa, orang ramai telah mengemukakan keperluan etika yang lebih tinggi untuk model AI. Industri mempunyai kelebihan sumber pengkomputeran dari segi pengembangan skala model, tetapi menjadikan model lebih piawai dan boleh dipercayai memerlukan usaha komuniti akademik.
Baru-baru ini, Stanford memperhalusi model Alpaca baharu berdasarkan model LLaMA 7B Meta. Kajian ini menggunakan model teks-davinci-003 OpenAI untuk menjana 52K sampel mengikut arahan dengan cara arahan kendiri sebagai data latihan untuk Alpaca. Pasukan penyelidik telah sumber terbuka data latihan, kod untuk menjana data latihan, dan hiperparameter, dan akan mengeluarkan berat model dan kod latihan pada masa hadapan.
Hasil eksperimen menunjukkan bahawa banyak gelagat Alpaca serupa dengan text-davinci-003. Dalam erti kata lain, prestasi Alpaca, model ringan dengan hanya parameter 7B, adalah setanding dengan model bahasa berskala sangat besar seperti GPT-3.5.
Mari kita lihat bagaimana model Alpaca melakukannya.
Di bawah keadaan bajet akademia, latihan pengajaran berkualiti tinggi mengikut model menghadapi dua cabaran penting: model bahasa pra-latihan yang berkuasa dan berkualiti tinggi arahan ikut data.
Siri model LLaMA Meta yang dikeluarkan baru-baru ini menangani cabaran pertama. Untuk cabaran kedua, kertas arahan kendiri pada penghujung tahun 2022 mencadangkan untuk menggunakan model bahasa berkuasa sedia ada untuk menjana data arahan secara automatik.
Alamat kertas: https://arxiv.org/abs/2212.10560
Berikutan pendekatan ini, Alpaca menggunakan pembelajaran diselia model LLaMA 7B untuk memperhalusi arahan 52K mengikut sampel yang dihasilkan oleh teks-davinci-003 dalam arahan kendiri cara.
Ikhtisar kaedah arahan kendiri.
Pasukan penyelidik Alpaca mula-mula menggunakan 175 pasangan arahan-output bertulis manual dalam set benih arahan kendiri, dan kemudian menggunakan set benih ini sebagai contoh gesaan dalam konteks text-davinci-003 untuk menjana lebih banyak arahan. Penyelidikan ini menambah baik kaedah arahan kendiri dengan memudahkan saluran paip penjanaan dan mengurangkan kos dengan ketara.
Kajian ini menghasilkan sejumlah 52K arahan berbeza dan output yang sepadan sebagai data latihan, yang menggunakan API OpenAI yang kosnya lebih murah daripada $500. Memandangkan pasukan penyelidik telah membuka sumber data latihan, pembangun yang ingin menghasilkan semula Alpaca boleh menjimatkan $500.
Dengan arahan ini berikutan set data, langkah penyelidikan seterusnya adalah untuk memperhalusi model LLaMA menggunakan rangka kerja latihan Memeluk Wajah, Dan menggunakan teknologi seperti FSDP (Fully Sharded Data Parallel) dan latihan ketepatan campuran. Dari segi kos, penalaan halus model LLaMA 7B pada lapan 80GB A100 mengambil masa 3 jam, yang berharga kurang daripada $100 untuk kebanyakan penyedia awan.
Kajian ini melakukan penilaian manual menggunakan input daripada set penilaian arahan kendiri, yang dilakukan oleh 5 pelajar daripada pasukan penyelidik. Set penilaian telah dikumpulkan oleh pengarang kertas arahan kendiri dan meliputi pelbagai arahan berorientasikan pengguna yang melibatkan e-mel, media sosial dan alatan pejabat.
Selepas perbandingan berpasangan buta bagi text-davinci-003 dan Alpaca 7B, para penyelidik mendapati bahawa prestasi kedua-dua model adalah sangat serupa, dan Alpaca adalah lebih baik sedikit daripada text-davinci-003.
Dari perspektif skala parameter, Alpaca jauh lebih kecil daripada text-davinci-003, dan terminal mudah alih juga boleh menjalankan model bahasa ringan 7B. Ini menjadikan Alpaca penting.
Selain menggunakan set penilaian arahan kendiri statik yang dinyatakan di atas, kajian ini juga menjalankan ujian interaktif pada model Alpaca dan mendapati bahawa Alpaca secara amnya berprestasi serupa dengan text-davinci-003.
Di bawah ialah dua contoh yang diuji oleh pasukan penyelidik, yang menunjukkan bahawa output Alpaca adalah baik dan mencerminkan gaya umum set data mengikut arahan. Sebagai contoh, Alpaca sering mengeluarkan jawapan yang lebih ringkas daripada ChatGPT, serupa dengan text-davinci-003.
Dalam eksperimen, Alpaca juga menunjukkan beberapa kecacatan biasa model bahasa, termasuk halusinasi, ketoksikan dan stereotaip, antaranya masalah halusinasi amat serius.
Contohnya dalam gambar di bawah, Alpaca menjawab bahawa ibu kota Tanzania ialah Dar es Salaam, tetapi ia sepatutnya Dodoma.
Selain itu, Alpaca mampu menghasilkan teks yang mungkin kelihatan baik tetapi mengandungi ralat atau maklumat palsu, yang boleh mengelirukan orang .
Alpaca mungkin mengandungi beberapa kelemahan lain yang berkaitan dengan model bahasa asas dan data penalaan arahan. Walau bagaimanapun, Alpaca kekal penting kepada komuniti pembelajaran mesin kerana ia menyediakan model yang agak ringan yang boleh menjadi asas untuk mengkaji kelemahan penting. Pasukan penyelidik Stanford juga menekankan bahawa Alpaca hanya boleh digunakan untuk penyelidikan akademik dan sebarang penggunaan komersial adalah dilarang.
Seterusnya, pasukan penyelidik Stanford akan meneroka lebih lanjut keselamatan, kebolehan pemahaman, pengembangan skala, dll. bagi model Alpaca. Pasukan penyelidik berharap Alpaca akan memudahkan pembangunan model mengikut arahan.
Atas ialah kandungan terperinci Model sumber terbuka parameter 7 bilion Stanford adalah setanding dengan GPT-3.5 dan boleh diterbitkan semula dengan harga $100. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!