Rumah  >  Artikel  >  Peranti teknologi  >  Universiti Sains dan Teknologi China dan Huawei Noah mencadangkan Undang-undang Entropi untuk mendedahkan hubungan antara prestasi model besar, kadar pemampatan data dan kehilangan latihan.

Universiti Sains dan Teknologi China dan Huawei Noah mencadangkan Undang-undang Entropi untuk mendedahkan hubungan antara prestasi model besar, kadar pemampatan data dan kehilangan latihan.

WBOY
WBOYasal
2024-07-22 16:39:35674semak imbas
中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系
Lajur AIxiv ialah lajur di mana kandungan akademik dan teknikal diterbitkan di laman web ini. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Kerja ini telah disiapkan oleh pasukan IEEE Fellow Chen Enhong dari Makmal Kecerdasan Kognitif Kebangsaan di Universiti Sains dan Teknologi China dan Makmal Bahtera Nuh Huawei. Pasukan Profesor Chen Enhong terlibat secara mendalam dalam bidang perlombongan data dan pembelajaran mesin, dan telah menerbitkan banyak kertas kerja dalam jurnal dan persidangan teratas Google Scholar telah dipetik lebih daripada 20,000 kali. Noah's Ark Laboratory ialah makmal Huawei yang terlibat dalam penyelidikan asas mengenai kecerdasan buatan. Ia mematuhi konsep penekanan yang sama pada penyelidikan teori dan inovasi aplikasi, dan komited untuk mempromosikan inovasi dan pembangunan teknologi dalam bidang kecerdasan buatan.

Data ialah asas kejayaan model bahasa besar (LLM), tetapi tidak semua data bermanfaat untuk pembelajaran model. Secara intuitif, sampel berkualiti tinggi dijangka mempunyai kecekapan yang lebih baik dalam pengajaran LLM. Oleh itu, kaedah sedia ada biasanya tertumpu kepada pemilihan data berasaskan kualiti. Walau bagaimanapun, kebanyakan kaedah ini menilai sampel data yang berbeza secara bebas, mengabaikan kesan gabungan kompleks antara sampel. Seperti yang ditunjukkan dalam Rajah 1, walaupun setiap sampel adalah berkualiti sempurna, gabungannya mungkin masih tidak optimum disebabkan oleh lebihan maklumat bersama atau ketidakkonsistenan. Walaupun subset berasaskan kualiti terdiri daripada ketiga-tiga sampel kualiti, pengetahuan yang dikodkan sebenarnya berlebihan dan bercanggah. Sebaliknya, subset data lain yang terdiri daripada beberapa sampel yang agak rendah kualitinya tetapi pelbagai mungkin lebih bermaklumat dalam pengajaran LLM. Oleh itu, pemilihan data berasaskan kualiti tidak sejajar sepenuhnya dengan matlamat untuk memaksimumkan tangkapan pengetahuan LLM.

Dan artikel ini bertujuan untuk mendedahkan hubungan intrinsik antara prestasi LLM dan pemilihan data. Diilhamkan oleh sifat pemampatan maklumat LLM, kami menemui undang-undang entropi, yang memautkan prestasi LLM kepada kadar pemampatan data dan kehilangan langkah latihan model sebelumnya, yang masing-masing mencerminkan tahap lebihan maklumat set data dan kesan yang wujud. LLM pada set data Tahap penguasaan pengetahuan. Melalui derivasi teori dan penilaian empirikal, kami mendapati bahawa prestasi model berkait songsang dengan nisbah mampatan data latihan, yang biasanya mengakibatkan kehilangan latihan yang lebih rendah. Berdasarkan penemuan undang-undang entropi, kami mencadangkan kaedah pemilihan data yang sangat cekap dan umum untuk latihan LLM, dinamakan ZIP, yang bertujuan untuk memilih subset data nisbah mampatan rendah secara keutamaan. ZIP dengan rakus memilih data yang pelbagai dalam pelbagai peringkat, akhirnya memperoleh subset data dengan kepelbagaian yang baik.

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

  • Pasukan: Pasukan Chen Enhong di National Key Laboratory of Cognitive Intelligence, University of Science and Technology of China, Huawei Noah's Ark Laboratory
  • Pautan kertas: https://arxiv.org/pdf
  • Pautan kod : https://github.com/USTC-StarTeam/ZIP

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

                                                                                                                                                                                                                                                                                                                                                                                                                                 Hukum entropi
Kami menjalankan analisis teori tentang hubungan antara pemampatan data dan prestasi LLM. Secara intuitif, ketepatan dan kepelbagaian data latihan akan mempengaruhi prestasi model akhir. Pada masa yang sama, prestasi LLM mungkin suboptimum jika data mempunyai konflik bawaan yang teruk atau jika model kurang memahami maklumat yang dikodkan dalam data. Berdasarkan andaian ini, kami menyatakan prestasi LLM sebagai Z , yang dijangka terjejas oleh:

Nisbah mampatan data R: Secara intuitif, set data dengan nisbah mampatan yang lebih rendah menunjukkan kepadatan maklumat yang lebih tinggi.
  • Kehilangan latihan L: Menunjukkan sama ada data sukar untuk diingati oleh model. Di bawah model asas yang sama, kehilangan latihan yang tinggi biasanya disebabkan oleh kehadiran bunyi bising atau maklumat yang tidak konsisten dalam set data.
  • Ketekalan data C: Ketekalan data dicerminkan oleh entropi kebarangkalian token seterusnya memandangkan situasi sebelumnya. Konsistensi data yang lebih tinggi biasanya membawa kepada kehilangan latihan yang lebih rendah.
  • Kualiti data purata S: mencerminkan purata kualiti peringkat sampel data, yang boleh diukur melalui pelbagai aspek objektif dan subjektif.
Memandangkan sejumlah data latihan, prestasi model boleh dianggarkan oleh faktor di atas:

di mana f ialah fungsi tersirat. Memandangkan model asas tertentu, skala L biasanya bergantung pada R dan C dan boleh dinyatakan sebagai: 中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

Memandangkan set data dengan homogeniti yang lebih tinggi atau ketekalan data yang lebih baik lebih mudah dipelajari oleh model, L Ia dijangka menjadi monotonik dalam R dan C. Oleh itu, kita boleh menulis semula formula di atas sebagai: 中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

di mana g' ialah fungsi songsang. Dengan menggabungkan tiga persamaan di atas, kita mendapat: 中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

di mana h ialah satu lagi fungsi tersirat. Jika kaedah pemilihan data tidak mengubah purata kualiti data Q, kita boleh menganggap pembolehubah Q sebagai pemalar. Oleh itu, prestasi akhir boleh dinyatakan secara kasar sebagai: 中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系
Ini bermakna prestasi model berkaitan dengan kadar mampatan data dan kehilangan latihan. Kami memanggil hubungan ini Hukum entropi.

Berdasarkan undang-undang Entropi, kami mencadangkan dua inferens:

  • Jika C dianggap sebagai pemalar, kehilangan latihan secara langsung dipengaruhi oleh kadar mampatan. Oleh itu, prestasi model dikawal oleh nisbah mampatan: jika nisbah mampatan data R lebih tinggi, maka Z biasanya lebih teruk, yang akan disahkan dalam eksperimen kami.
  • Di bawah nisbah mampatan yang sama, kehilangan latihan yang lebih tinggi bermakna konsistensi data yang lebih rendah. Oleh itu, pengetahuan berkesan yang dipelajari oleh model mungkin lebih terhad. Ini boleh digunakan untuk meramalkan prestasi LLM pada data berbeza dengan nisbah mampatan dan kualiti sampel yang serupa. Kami akan menunjukkan aplikasi penaakulan ini dalam amalan kemudian. . jumlah maklumat berkesan di bawah bajet data latihan yang terhad. Atas sebab kecekapan, kami mengguna pakai paradigma tamak berbilang peringkat berulang untuk mendapatkan penyelesaian anggaran dengan cekap dengan kadar mampatan yang agak rendah. Dalam setiap lelaran, kami mula-mula menggunakan peringkat pemilihan global untuk memilih kumpulan sampel calon dengan nisbah mampatan rendah untuk mencari sampel dengan ketumpatan maklumat yang tinggi. Kami kemudiannya menggunakan peringkat pemilihan tempatan berbutir kasar untuk memilih set sampel yang lebih kecil yang mempunyai redundansi terendah dengan sampel yang dipilih. Akhir sekali, kami menggunakan peringkat pemilihan tempatan yang terperinci untuk meminimumkan persamaan antara sampel yang akan ditambah. Proses di atas diteruskan sehingga data yang mencukupi diperolehi. Algoritma khusus adalah seperti berikut:

Hasil eksperimen

1 Keberkesanan algoritma pemilihan ZIP untuk LLM berbeza dan dalam peringkat LLM yang berbeza

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

Membandingkan algoritma pemilihan data SFT yang berbeza, model yang dilatih berdasarkan data pemilihan ZIP menunjukkan kelebihan dalam prestasi dan juga unggul dalam kecekapan. Keputusan khusus ditunjukkan dalam jadual di bawah:
Terima kasih kepada ciri ZIP yang bebas model dan tidak sensitif kandungan, ia juga boleh digunakan pada pemilihan data dalam peringkat penjajaran keutamaan. Data yang dipilih oleh ZIP juga menunjukkan kelebihan yang besar. Keputusan khusus ditunjukkan dalam jadual di bawah:
2 Pengesahan eksperimen undang-undang Entropi

Berdasarkan eksperimen pemilihan data SFT, kami berdasarkan kesan model, kadar mampatan data dan kehilangan data daripada model dalam langkah latihan sebelumnya, masing-masing Pelbagai keluk hubungan telah dipasang. Keputusan ditunjukkan dalam Rajah 2 dan 3, dari mana kita boleh melihat korelasi rapat antara tiga faktor. Pertama sekali, data kadar mampatan rendah biasanya membawa kepada hasil model yang lebih baik Ini kerana proses pembelajaran LLM sangat berkaitan dengan pemampatan maklumat Kita boleh menganggap LLM sebagai pemampat data, jadi data dengan kadar mampatan yang lebih rendah bermakna lebih banyak pengetahuan dan dengan itu lebih berharga kepada pemampat. Pada masa yang sama, boleh diperhatikan bahawa nisbah mampatan yang lebih rendah biasanya disertai dengan kehilangan latihan yang lebih tinggi Ini kerana data yang sukar untuk dimampatkan membawa lebih banyak pengetahuan, menimbulkan cabaran yang lebih besar untuk LLM menyerap pengetahuan yang terkandung di dalamnya. 中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

                                                                                                                                     
                              圖3 Llama-3-8B

我們提供了一個entropy law 在真實場景中指導LLM 訓練資料增量更新的應用。在這個任務場景中,訓練資料量保持相對穩定,只有一小部分資料會被修改。結果見圖 4,其中
是逐漸增量更新的 5 個資料版本,出於保密要求,僅提供不同壓縮率下模型效果的相對關係。根據 entropy law 預測,假設每次增量更新後資料品質沒有顯著下降,可以預期隨著資料壓縮率的降低,模型效能會有所提升。這項預測與圖中數據版本
的結果一致。然而,資料版本
顯示出損失和資料壓縮率的異常增加,這預示了由於訓練資料一致性下降導致的模型效能下降的潛在可能。這一預測透過隨後的模型性能評估進一步得到證實。因此,entropy law 可以作為 LLM 訓練的指導原則,無需在完整資料集上訓練模型直到收斂,便可預測 LLM 訓練失敗的潛在風險。鑑於訓練 LLM 的高昂成本,這一點尤其重要。 中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

                                           

Atas ialah kandungan terperinci Universiti Sains dan Teknologi China dan Huawei Noah mencadangkan Undang-undang Entropi untuk mendedahkan hubungan antara prestasi model besar, kadar pemampatan data dan kehilangan latihan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn