Rumah  >  Artikel  >  Peranti teknologi  >  Latih model profesional kecil dengan pantas: Hanya 1 arahan, $5 dan 20 minit, cuba Prompt2Model!

Latih model profesional kecil dengan pantas: Hanya 1 arahan, $5 dan 20 minit, cuba Prompt2Model!

WBOY
WBOYke hadapan
2023-09-11 16:33:021092semak imbas

Model Bahasa Berskala Besar (LLM) membolehkan pengguna membina sistem pemprosesan bahasa semula jadi yang berkuasa melalui pembayang dan pembelajaran kontekstual. Walau bagaimanapun, dari perspektif lain, LLM menunjukkan regresi tertentu dalam beberapa tugas pemprosesan bahasa semula jadi yang khusus: penggunaan model ini memerlukan banyak sumber pengkomputeran dan berinteraksi dengan model melalui API mungkin menimbulkan isu privasi yang berpotensi

menangani masalah ini, penyelidik dari Carnegie Mellon University (CMU) dan Universiti Tsinghua bersama-sama melancarkan rangka kerja Prompt2Model. Matlamat rangka kerja ini adalah untuk menggabungkan penjanaan data berasaskan LLM dan kaedah mendapatkan semula untuk mengatasi cabaran di atas. Menggunakan rangka kerja Prompt2Model, pengguna hanya perlu memberikan gesaan yang sama seperti LLM untuk mengumpul data secara automatik dan cekap melatih model khusus kecil yang sesuai untuk tugasan tertentu

Para penyelidik menjalankan eksperimen ke atas tiga tugasan subsistem pemprosesan bahasa semula jadi telah dikaji. Mereka menggunakan sebilangan kecil gesaan sampel sebagai input dan membelanjakan hanya $5 untuk mengumpul data dan 20 minit latihan. Prestasi model yang dijana melalui rangka kerja Prompt2Model adalah 20% lebih tinggi daripada model LLM berkuasa gpt-3.5-turbo. Pada masa yang sama, saiz model dikurangkan dengan faktor 700. Para penyelidik selanjutnya mengesahkan kesan data ini pada prestasi model dalam senario kehidupan sebenar, membolehkan pembangun model menganggarkan kebolehpercayaan model sebelum penggunaan. Rangka kerja telah disediakan dalam bentuk sumber terbuka:

Latih model profesional kecil dengan pantas: Hanya 1 arahan, $5 dan 20 minit, cuba Prompt2Model!


  • Alamat repositori GitHub rangka kerja: https://github.com/neulab/prompt2model
  • pautan video demonstrasi anda
  • be/LYYQ_EhGd -Q
  • Pautan kertas berkaitan rangka kerja: https://arxiv.org/abs/2308.12261

Latar belakang

untuk pemprosesan sistem yang biasanya agak rumit. Pembina sistem perlu mentakrifkan dengan jelas skop tugas, mendapatkan set data khusus, memilih seni bina model yang sesuai, melatih dan menilai model, dan kemudian menggunakan ia untuk aplikasi praktikal

Model Bahasa Skala Besar ( LLM) seperti GPT-3 menyediakan penyelesaian yang lebih mudah untuk proses ini. Pengguna hanya perlu menyediakan arahan tugasan dan beberapa contoh, dan LLM boleh menjana output teks yang sepadan. Walau bagaimanapun, menjana teks daripada pembayang boleh menjadi intensif dari segi pengiraan, dan menggunakan pembayang adalah kurang stabil daripada model yang dilatih khas. Selain itu, kebolehgunaan LLM juga dihadkan oleh kos, kelajuan dan privasi Untuk menyelesaikan masalah ini, penyelidik membangunkan rangka kerja Prompt2Model. Rangka kerja ini menggabungkan penjanaan data berasaskan LLM dan teknik mendapatkan semula untuk mengatasi batasan di atas. Sistem mula-mula mengekstrak maklumat penting daripada maklumat segera, kemudian menjana dan mendapatkan semula data latihan, dan akhirnya menjana model khusus yang sedia untuk digunakan

Rangka kerja Prompt2Model secara automatik melaksanakan langkah teras berikut: 1. Prapemprosesan data: Bersihkan dan piawaikan data input untuk memastikan ia sesuai untuk latihan model. 2. Pemilihan model: Pilih seni bina model dan parameter yang sesuai mengikut keperluan tugasan. 3. Latihan model: Gunakan data praproses untuk melatih model yang dipilih untuk mengoptimumkan prestasi model. 4. Penilaian model: Penilaian prestasi model terlatih melalui penunjuk penilaian untuk menentukan prestasinya pada tugas tertentu. 5. Penalaan model: Berdasarkan keputusan penilaian, tala model untuk meningkatkan lagi prestasinya. 6. Penetapan model: Gunakan model terlatih ke persekitaran aplikasi sebenar untuk mencapai fungsi ramalan atau inferens. Dengan mengautomasikan langkah teras ini, rangka kerja Prompt2Model boleh membantu pengguna membina dan menggunakan model pemprosesan bahasa semula jadi berprestasi tinggi dengan pantas

Set data dan perolehan model: Kumpul set data yang berkaitan dan model pra-latihan.

  • Penjanaan set data: Gunakan LLM untuk mencipta set data berlabel pseudo.
  • Penalaan halus model: Perhalusi model dengan mencampurkan data yang diambil dan data yang dijana.
  • Pengujian Model: Uji model pada set data ujian dan set data sebenar yang disediakan oleh pengguna.
  • Melalui penilaian empirikal ke atas pelbagai tugasan yang berbeza, kami mendapati bahawa kos Prompt2Model berkurangan dengan ketara dan saiz model juga berkurangan dengan ketara, tetapi prestasinya melebihi gpt-3.5-turbo. Rangka kerja Prompt2Model bukan sahaja boleh digunakan sebagai alat untuk membina sistem pemprosesan bahasa semula jadi dengan cekap, tetapi juga sebagai platform untuk meneroka teknologi latihan integrasi model

Framework

Latih model profesional kecil dengan pantas: Hanya 1 arahan, $5 dan 20 minit, cuba Prompt2Model!

Ciri teras rangka kerja Prompt2Model ialah tahap automasi yang tinggi. Prosesnya termasuk pengumpulan data, latihan model, penilaian dan penggunaan, seperti yang ditunjukkan dalam rajah di atas. Antaranya, sistem pengumpulan data automatik memainkan peranan utama dengan mendapatkan data yang berkait rapat dengan keperluan pengguna melalui pengambilan set data dan penjanaan data berasaskan LLM. Seterusnya, model pra-latihan diambil dan diperhalusi pada set data yang diperoleh. Akhir sekali, model terlatih dinilai pada set ujian dan antara muka pengguna web (UI) dicipta untuk berinteraksi dengan model

Prompt2Model Ciri utama rangka kerja termasuk:

  • Pemandu segera: Prompt2Model Idea teras ialah menggunakan gesaan sebagai pemacu, pengguna boleh menerangkan secara langsung tugasan yang diperlukan tanpa pergi ke butiran pelaksanaan khusus pembelajaran mesin.
  • Pengumpulan data automatik: Rangka kerja menggunakan pengambilan set data dan teknologi penjanaan untuk mendapatkan data yang sangat sepadan dengan tugas pengguna, dengan itu mewujudkan set data yang diperlukan untuk latihan.
  • Model pra-latihan: Rangka kerja menggunakan model pra-latihan dan memperhalusinya, dengan itu menjimatkan banyak kos latihan dan masa.
  • Penilaian kesan: Prompt2Model menyokong ujian dan penilaian model pada set data sebenar, membolehkan ramalan awal dan penilaian prestasi dibuat sebelum menggunakan model, sekali gus meningkatkan kebolehpercayaan model.

Rangka kerja Prompt2Model mempunyai ciri-ciri berikut, menjadikannya alat berkuasa yang boleh melengkapkan proses pembinaan sistem pemprosesan bahasa semula jadi dengan cekap, dan menyediakan fungsi lanjutan, seperti pengumpulan data automatik, penilaian model dan antara muka interaksi pengguna Cipta .

NL-to-Code Jepun: Menggunakan MCoNaLa sebagai set data penilaian sebenar.

Penormalan Ungkapan Temporal: Gunakan set data Temporal sebagai set data penilaian sebenar.

  • Selain itu, penyelidik juga menggunakan GPT-3.5-turbo sebagai model asas untuk perbandingan. Keputusan eksperimen membawa kepada kesimpulan berikut:
  • Dalam semua tugas kecuali tugas penjanaan kod, model yang dijana oleh sistem Prompt2Model adalah jauh lebih baik daripada model penanda aras GPT-3.5-turbo, walaupun skala parameter model yang dihasilkan adalah jauh lebih kecil daripada GPT-3.5-turbo.
  • Dengan mencampurkan set data perolehan dengan set data yang dijana untuk latihan, anda boleh mencapai hasil yang setanding dengan yang menggunakan latihan set data sebenar secara langsung. Ini mengesahkan bahawa rangka kerja Prompt2Model boleh mengurangkan kos anotasi manual.

Set data ujian yang dijana oleh penjana data dengan berkesan boleh membezakan prestasi model berbeza pada set data sebenar. Ini menunjukkan bahawa data yang dihasilkan adalah berkualiti tinggi dan mempunyai keberkesanan yang mencukupi dalam latihan model.

  • Dalam tugas penukaran Jepun kepada kod, sistem Prompt2Model berprestasi lebih teruk daripada GPT-3.5-turbo.
  • Ia mungkin disebabkan oleh kualiti rendah set data yang dijana dan kekurangan model pra-latihan yang sesuai
  • Ringkasnya, sistem Prompt2Model berjaya menghasilkan model kecil berkualiti tinggi pada pelbagai tugas, sangat mengurangkan keperluan untuk anotasi manual data. Walau bagaimanapun, penambahbaikan lanjut masih diperlukan pada beberapa tugasan

Ringkasan

Rangka kerja Prompt2Model ialah teknologi inovatif yang dibangunkan oleh pasukan penyelidik melalui model gesaan bahasa semulajadi secara automatik Pengenalan teknologi ini sangat mengurangkan kesukaran membina model pemprosesan bahasa semula jadi yang disesuaikan dan mengembangkan lagi skop aplikasi teknologi NLP

Hasil percubaan pengesahan menunjukkan bahawa saiz model yang dijana oleh rangka kerja Prompt2Model dikurangkan dengan ketara berbanding model bahasa yang lebih besar, dan ia berprestasi lebih baik daripada GPT-3.5-turbo dan model lain pada pelbagai tugas. Pada masa yang sama, set data penilaian yang dihasilkan oleh rangka kerja ini juga telah terbukti berkesan dalam menilai prestasi model yang berbeza pada set data sebenar. Ini memberikan nilai penting dalam membimbing penggunaan terakhir model

Rangka kerja Prompt2Model menyediakan industri dan pelbagai pengguna dengan kos rendah, cara yang mudah digunakan untuk mendapatkan model NLP yang memenuhi keperluan khusus. Ini amat penting dalam mempromosikan aplikasi meluas teknologi NLP. Kerja masa depan akan terus didedikasikan untuk mengoptimumkan lagi prestasi rangka kerja

Mengikut susunan artikel, pengarang artikel ini adalah seperti berikut: Kandungan yang ditulis semula: Mengikut susunan artikel, pengarang artikel ini adalah seperti berikut:

Vijay Viswanathan: http://www.cs.cmu.edu/~vijayv/

Zhao Chenyang: https ://zhaochenyang20.github.io/Eren_Chenyang_Zhao/

Amanda Bertsch: https://www.cs.cmu.edu/~abertsch/ Amanda Belch: https://www.cs.cmu.edu/~abertsch/

Wu Tongshuang: https://www.cs.cmu.edu/~sherryw/

Graham · Newbig: http: //www.phontron.com/

Atas ialah kandungan terperinci Latih model profesional kecil dengan pantas: Hanya 1 arahan, $5 dan 20 minit, cuba Prompt2Model!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam