Rumah  >  Artikel  >  Peranti teknologi  >  770 juta parameter, melebihi 540 bilion PaLM! UW Google mencadangkan "penyulingan langkah demi langkah", yang hanya memerlukan 80% data latihan |

770 juta parameter, melebihi 540 bilion PaLM! UW Google mencadangkan "penyulingan langkah demi langkah", yang hanya memerlukan 80% data latihan |

WBOY
WBOYke hadapan
2023-10-07 16:49:06413semak imbas

Model bahasa besar cemerlang dalam prestasi dan mampu menyelesaikan tugasan baharu dengan pembayang sifar atau beberapa pukulan. Walau bagaimanapun, dalam penggunaan aplikasi sebenar, LLM tidak begitu praktikal kerana ia mempunyai kecekapan penggunaan memori yang rendah dan memerlukan banyak sumber pengkomputeran Contohnya, menjalankan perkhidmatan model bahasa dengan 175 bilion parameter memerlukan sekurang-kurangnya 350GB memori video, dan semasa. tercanggih Kebanyakan model bahasa telah melebihi 500 bilion parameter Banyak pasukan penyelidik tidak mempunyai sumber yang mencukupi untuk menjalankannya, dan mereka tidak dapat memenuhi prestasi kependaman rendah dalam aplikasi sebenar.

Terdapat juga beberapa kajian yang menggunakan data berlabel manual atau penyulingan menggunakan label yang dijana LLM untuk melatih model yang lebih kecil, khusus tugas, tetapi penalaan halus dan penyulingan memerlukan sejumlah besar data latihan untuk mencapai prestasi yang setanding dengan LLM.

Untuk menyelesaikan masalah keperluan sumber untuk model besar, Universiti Washington dan Google bekerjasama untuk mencadangkan mekanisme penyulingan baharu yang dipanggil "Penyulingan Langkah demi Langkah". Melalui penyulingan langkah demi langkah, saiz model suling lebih kecil daripada model asal, tetapi prestasinya lebih baik, dan kurang data latihan diperlukan semasa proses penalaan halus dan penyulingan

7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

Sila klik Lihat kertas di pautan berikut: https://arxiv.org/abs/2305.02301 Mekanisme penyulingan pengedaran menggunakan sebab ramalan (rasional) yang diekstrak daripada LLM sebagai maklumat penyeliaan tambahan untuk melatih model kecil dalam rangka kerja berbilang tugas.

Selepas eksperimen pada tanda aras NLP, kami mendapati:

1. model saiz untuk mencapai prestasi yang lebih baik7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

3 Pada masa yang sama, mengurangkan saiz model dan volum data juga boleh mencapai prestasi yang lebih baik daripada LLM.

Dalam percubaan, model 770M T5 selepas penalaan halus mengatasi model PaLM 540B dengan beberapa petunjuk sampel dalam ujian penanda aras menggunakan hanya 80% daripada data yang tersedia, manakala model T5 yang sama dengan penalaan halus standard mengalami kesukaran walaupun menggunakan 100% set data sepadan.

Kaedah penyulingan

Idea utama penyulingan pengedaran adalah untuk mengekstrak secara beransur-ansur sebab ramalan yang bermaklumat dan diterangkan dalam bahasa semula jadi, iaitu, langkah penaakulan pertengahan, untuk menerangkan hubungan antara masalah input dan output model , dan gunakan data ini untuk lebih cekap Melatih model kecil

Penyulingan pengedaran terutamanya merangkumi dua peringkat:

1 Mengekstraksi prinsip (rasional) daripada LLM 7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

Penyelidik menggunakan rantai pemikiran

. ) menggesa untuk mengekstrak daripada langkah perantaraan Ramal LLM.

Selepas menentukan tugasan sasaran, sediakan dahulu beberapa sampel dalam gesaan input LLM. Setiap contoh terdiri daripada triplet, termasuk input, prinsip dan output

Selepas memasukkan gesaan, LLM dapat meniru demonstrasi triplet untuk menghasilkan prinsip ramalan untuk soalan baharu yang lain, contohnya, dalam tugasan soal jawab akal. , diberi

soalan input:

Sammy nak pergi tempat orang berkumpul. Di manakah dia akan memilih? Pilihan Jawapan: (a) kawasan berpenduduk, (b) trek perlumbaan, (c) padang pasir, (d) pangsapuri, (e) sekatan jalan raya)7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

Setelah diperhalusi secara beransur-ansur, LLM boleh memberikan jawapan yang betul kepada soalan "(a) populasi "Kawasan berpenduduk padat" dan berikan alasan untuk menjawab soalan "Jawapan mestilah tempat yang ramai orang. Antara pilihan di atas, hanya kawasan berpenduduk padat yang ramai orang." Setelah diperhalusi secara beransur-ansur, LLM dapat menyimpulkan bahawa jawapan yang betul ialah "(a) kawasan berpenduduk padat" dan memberikan alasan untuk menjawab soalan "Jawapan mesti tempat yang ramai orang. Antara pilihan di atas, hanya kawasan berpenduduk padat. mempunyai ramai orang." Orang."

Dengan menyediakan contoh CoT yang dipasangkan dengan rasional dalam gesaan, keupayaan pembelajaran kontekstual membolehkan LLM menjana sebab jawapan yang sepadan untuk jenis soalan yang belum ditemui

2. sebab ramalan boleh diekstrak dan dimasukkan ke dalam model kecil latihanSebagai tambahan kepada tugas ramalan label standard, penyelidik juga menggunakan tugas penjanaan sebab baharu untuk melatih model kecil, supaya model boleh belajar menjana pengguna. langkah inferens perantaraan untuk ramalan dan membimbing model untuk meramalkan label hasil dengan lebih baik.

Bezakan ramalan label dan tugas penjanaan sebab dengan menambahkan awalan tugas "label" dan "rasional" pada gesaan input.

Hasil eksperimen

Dalam percubaan, penyelidik memilih model PaLM dengan 540 bilion parameter sebagai garis dasar LLM, dan menggunakan model T5 sebagai model kecil hiliran berkaitan tugas.

Dalam kajian ini, kami menjalankan eksperimen ke atas empat set data penanda aras, iaitu e-SNLI dan ANLI untuk penaakulan bahasa semula jadi, CQA untuk menjawab soalan akal dan SVAMP untuk soalan aplikasi matematik aritmetik. Kami menjalankan eksperimen pada tiga tugas NLP berbeza ini

Kurang data latihan

Kaedah penyulingan berperingkat mengatasi prestasi penalaan halus standard dan memerlukan kurang data latihanDalam set data e-SNLI, prestasi yang lebih baik daripada standard penalaan halus dicapai apabila menggunakan 12.5% ​​​​daripada set data penuh, dan hanya 75%, 25% dan 20% daripada data latihan diperlukan masing-masing pada ANLI, CQA dan SVAMP.

Berbanding dengan penalaan halus standard pada set data berlabel manusia dengan saiz berbeza menggunakan model T5 220M, penyulingan pengedaran mengatasi penalaan halus standard pada set data penuh apabila menggunakan lebih sedikit contoh latihan pada semua set data

7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

saiz model

Berbanding dengan LLM yang digesa oleh CoT beberapa sampel, saiz model yang diperoleh melalui penyulingan pengedaran jauh lebih kecil, tetapi prestasinya lebih baik. Pada set data e-SNLI, menggunakan model 220M T5 mencapai prestasi yang lebih baik daripada 540B PaLM pada ANLI, menggunakan model 770M T5 mencapai prestasi yang lebih baik daripada 540B PaLM, dan saiz model hanya 1/700

Model lebih kecil, kurang data

Sambil mengurangkan saiz model dan data latihan, kami berjaya mencapai prestasi melebihi PaLM beberapa pukulanDalam ANLI, menggunakan 770M Model T5 mengatasi prestasi PaLM 540B sambil menggunakan hanya 80% daripada set data penuh

Telah diperhatikan bahawa penalaan halus standard tidak dapat mencapai tahap prestasi PaLM walaupun menggunakan set data 100% penuh, yang menunjukkan bahawa dengan penyulingan Stepwise boleh mengurangkan saiz model dan volum data latihan secara serentak, mencapai prestasi melebihi LLM

Atas ialah kandungan terperinci 770 juta parameter, melebihi 540 bilion PaLM! UW Google mencadangkan "penyulingan langkah demi langkah", yang hanya memerlukan 80% data latihan |. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam