Rumah  >  Artikel  >  Peranti teknologi  >  Kertas penskoran tinggi ICML 2024 |

Kertas penskoran tinggi ICML 2024 |

王林
王林asal
2024-07-16 03:17:30955semak imbas
ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存
Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Mengenai pengarang bersama pertama artikel ini: Zhang Yihua: pelajar kedoktoran tahun ketiga di Jabatan Sains Komputer di Michigan State University, sedang belajar di bawah Profesor Sijia Liu, hala tuju penyelidikan utamanya ialah isu keselamatan, privasi dan kecekapan model besar. Li Pingzhi: Beliau lulus dari Universiti Sains dan Teknologi China dengan ijazah sarjana muda Beliau akan memasuki Universiti North Carolina di Chapel Hill sebagai Ph.D pada 2024 Fall, belajar di bawah kepentingan penyelidikan utama beliau fokus pada bidang pembelajaran mesin yang cekap dan AI4Science. Hong Junyuan: Felo pasca doktoral di Universiti Texas di Austin, dibimbing oleh Profesor Zhangyang Wang. Lulus dari Michigan State University dengan Ph.D di bawah bimbingan Profesor Jiayu Zhou hala tuju penyelidikan utama beliau adalah model bahasa besar yang boleh dipercayai dan aplikasi perubatan kecerdasan buatan. Li Jiaxiang: Felo pasca doktoral di Universiti Minnesota, sedang menjalankan penyelidikan tentang teori pengoptimuman berangka, teori pembelajaran mesin dan masalah pengoptimuman pembelajaran mesin berskala besar di bawah bimbingan Profesor Hong Mingyi dan Profesor Zhang Shuzhong.

Model bahasa besar (LLM) sumber terbuka berkembang pesat Untuk menyesuaikannya dengan pelbagai tugas hiliran, penalaan halus adalah kaedah asas yang paling meluas. Walaupun pengoptimum tertib pertama (SGD, Adam, dsb.) berdasarkan teknologi pembezaan automatik (SGD, Adam, dsb.) menduduki arus perdana dalam penalaan halus model, apabila model menjadi lebih besar dan lebih besar, ia membawa tekanan yang meningkat pada memori video. Oleh itu, cara untuk mengurangkan memori grafik dengan cekap semasa penalaan halus supaya satu kad dapat memenuhi keperluan penalaan halus telah menjadi isu penyelidikan yang hangat. Perlu diingat bahawa walaupun perambatan belakang adalah asas pengoptimum tertib pertama ini dan digunakan untuk mengira kecerunan setiap berat rangkaian saraf, ia juga merupakan pembunuh ingatan yang disebabkan oleh penjimatan graf pengiraan yang besar juga adalah besar. Era model ditonjolkan khususnya. Pada masa yang sama, Zeroth-Order Optimization tidak perlu menyimpan graf pengiraan sama sekali, dan sebaliknya menggunakan perbezaan terhingga untuk menganggarkan kecerunan rangkaian, mengurangkan rangkaian saraf dengan mengelak sepenuhnya perambatan belakang (BP). overhed dalam kemas kini rangkaian.

Serupa dengan pelbagai variasi keturunan kecerunan stokastik dalam pengoptimum tertib pertama, pengoptimum tertib sifar juga mempunyai pelbagai algoritma yang dipertingkatkan yang belum diterokai sebelum ini. Baru-baru ini, ramai penyelidik dari Michigan State University, University of North Carolina di Chapel Hill, University of Texas di Austin, University of Minnesota Twin Cities, Pusat Penyelidikan IBM, Princeton University dan Alibaba Damo Academy bersama-sama melancarkan artikel penilaian komprehensif (penanda aras): Mengulas Semula Pengoptimuman Pesanan Sifar untuk Penalaan Halus LLM Cekap Memori: Penanda Aras. Artikel ini merangkumi enam jenis pengoptimum yang tidak memerlukan perambatan belakang (bebas BP), lima jenis model besar, tugasan tiga tahap kerumitan, empat jenis skema penalaan halus dan tiga algoritma baharu yang meningkatkan pengoptimum tertib sifar. Pada masa ini, kertas berkaitan telah diterima oleh ICML 2024 dengan markah yang tinggi, dan kod tersebut adalah sumber terbuka adalah seperti berikut.

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

  • Alamat kertas: https://arxiv.org/abs/2402.11592
  • Alamat kod: https://github.com/
  • /ZO-LL Alamat nota kuliah pengoptimuman pesanan sifar (Tutorial AAAI 2024): https://sites.google.com/view/zo-tutorial-aaai-2024/

Apakah itu pengoptimum pesanan sifar? Mengapa ia sangat penting?

Zeroth-Order Optimization hanya bergantung pada output rangkaian saraf untuk anggaran kecerunan, dan terkenal kerana tidak perlu mengira perambatan balik sama sekali dan memerlukan penggunaan latihan dalaman yang sangat sedikit. Walaupun terdapat kaedah penganggaran kecerunan yang berbeza dalam bidang pengoptimum tertib sifar, artikel ini secara khusus merujuk kepada siri algoritma berdasarkan Penganggar Kecerunan Rawak (RGE). Ringkasnya, perbezaan terhingga dikira dengan gangguan rawak yang diambil daripada taburan Gaussian dan digunakan sebagai anggaran anggaran kecerunan Rumus matematik RGE adalah seperti berikut.

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

Sebelum ini, pengoptimuman tertib sifar telah digunakan secara meluas dalam masalah pembelajaran mesin, seperti penjanaan sampel dan pertahanan musuh, tafsiran model kotak hitam, pembelajaran pengukuhan dan pembelajaran mesin automatik untuk pengenalan algoritma dan aplikasi terperinci, sila lihat [1] . Dalam bidang model besar, MeZO [2] mula-mula mencadangkan penggunaan keturunan kecerunan stokastik tertib sifar (ZO-SGD) sebagai penalaan halus untuk model besar dan menunjukkan potensi pengoptimum pesanan sifar tanpa had. Pada masa yang sama, ZO-SGD ialah pengoptimum bebas BP yang paling mudah dan asas Sama ada banyak variannya yang lebih maju [3] boleh membawa kita lebih banyak kejutan dalam bidang penalaan halus model besar merupakan topik yang memerlukan penyelidikan segera. Artikel ini secara sistematik menilai prestasi, kecekapan dan keserasian algoritma pengoptimuman berikut tanpa perambatan belakang (bebas BP) pada tugas penalaan halus model besar Tujuannya adalah untuk menunjukkan kepada komuniti keluasan pengoptimum tertib sifar pada pelbagai tugas model besar.
ZO-SGD-MMT: Susunan kecerunan stokastik tertib sifar dengan momentum [6]

  • ZO-SGD-Cons: Susunan kecerunan stokastik tertib sifar dengan kemas kini kecerunan konservatif [7]
  • Pengoptimum Adam tertib sifar [8]
  • Kajian ini juga termasuk kaedah Hadapan-Grad [9], yang anggaran kecerunan tidak berat sebelah adalah berdasarkan terbitan arah sepanjang vektor arah rawak. Perlu diingat bahawa walaupun Forward-Grad tidak secara langsung menggunakan perambatan belakang kecerunan, ia masih menggunakan algoritma pembezaan automatik, jadi ia adalah algoritma tanpa BP pesanan pertama.
  • Ringkasnya, penilaian artikel ini merangkumi lima pengoptimum tertib sifar di atas dan kaedah Forward-Grad, sambil membandingkan pengoptimum tertib pertama yang paling biasa digunakan, FO-SGD dan FO-Adam. Dari segi bentuk penalaan halus khusus, penilaian secara menyeluruh meliputi 5 seni bina LLM (RoBERTa, OPT, LLaMA, Vicuna, Mistral), 3 tugasan yang berbeza kerumitan (SST2, COPA, WinoGrande) dan 4 penyelesaian penalaan halus (penuh- penalaan , LoRA, penalaan segera, penalaan awalan).

Penilaian ketepatan penalaan halus model besar

Pengarang menegaskan bahawa untuk menggunakan pengoptimum tertib sifar dengan berkesan untuk memperhalusi model besar pada tugas hiliran, templat input mesti digunakan secara rasional supaya tugas hiliran dapat diselaraskan dengan tugasan yang telah dilatih. Contohnya, untuk SST2, menggunakan templat "
AYAT. Ia [terrible|hebat].
" boleh membawa peningkatan prestasi sebanyak 10% pada ZO-SGD. Walau bagaimanapun, untuk pengoptimum pesanan pertama (seperti FO-SGD), perbezaan prestasi adalah tidak ketara sama ada templat digunakan atau tidak, yang menyerlahkan keunikan pengoptimum pesanan sifar.
SST2 Sebagai tugas yang lebih asas, keputusan percubaannya boleh menyokong kesimpulan berikut:

ZO-Adam nampaknya merupakan pengoptimum pesanan sifar yang paling berkesan: 4 daripada 8 tetapan yang ditala halus Prestasi terbaik dalam.

Forward-grad ialah kaedah yang kompetitif tetapi sebelum ini diabaikan, terutamanya dalam penalaan halus sepenuhnya.

ZO-SGD-Cons dan ZO-SGD-MMT juga menunjukkan prestasi yang kukuh, manakala ZO-SGD-Sign, sebagai pengoptimum pesanan sifar yang paling mudah, selalunya merupakan kaedah yang paling lemah.
  • Selanjutnya, kajian menggunakan model OPT-13B yang lebih besar untuk menjalankan eksperimen ke atas tugas yang lebih kompleks dan sukar (COPA dan WinoGrande) dan mencapai kesimpulan berikut:

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存 perbezaan prestasi antara pengoptimum yang berbeza diperkuatkan lagi.

ZO-Adam dan ZO-SGD-MMT menunjukkan kestabilan yang sangat baik di bawah pelbagai eksperimen, yang mungkin dikaitkan dengan reka bentuk varians yang dikurangkan.
  • Penalaan halus LoRA sentiasa menunjukkan keteguhan yang kukuh kepada algoritma tertib sifar, dan stabil serta boleh dipercayai dalam pelbagai persekitaran eksperimen.
  • Penilaian dan penjelasan terperinci mengenai overhed memori penalaan halus model besar

    Mengambil penalaan halus model OPT-13B pada set data MultiRC sebagai contoh, penulis membandingkan dan menganalisis memori dan masa dengan lebih lanjut kos pengoptimum pesanan sifar dan urutan pertama yang berbeza. Seperti yang ditunjukkan dalam jadual berikut: Pertama, dari perspektif kecekapan memori, ZO-SGD, ZO-SGD-Cons dan ZO-SGD-Sign menunjukkan kecekapan memori tinggi yang serupa, hanya memerlukan satu GPU A100 untuk penalaan halus model bahasa besar . Ini tidak menghairankan, kerana pengoptimum tertib sifar ini menggunakan langkah pengoptimuman yang agak mudah, bergantung terutamanya pada penggunaan penganggar kecerunan tertib sifar RGE. Kedua, Forward-Grad nampaknya merupakan titik permulaan di mana kaedah pengoptimuman tertib sifar mengatasi kaedah tertib pertama dari segi kecekapan ingatan (mis. berbanding ZO-Adam). Akhir sekali, berbanding dengan kaedah pesanan pertama, kos masa berjalan bagi setiap lelaran pengoptimuman pesanan sifar dikurangkan sebanyak kira-kira 41.9% (mengambil ZO-SGD lwn. FO-SGD sebagai contoh).

    ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

    Pengarang membandingkan lagi kecekapan ingatan ZO-SGD dan FO-SGD di bawah panjang jujukan yang berbeza. Ia boleh dilihat bahawa penggunaan memori ZO-SGD kekal konsisten kerana penggunaan memori puncaknya hanya ditentukan oleh saiz parameter model Sebaliknya, apabila panjang jujukan meningkat, penggunaan memori puncak FO-SGD mula-mula kekal tidak berubah dan kemudian. mula meningkat. Oleh itu, dalam penetapan panjang konteks yang panjang, ZO-SGD akan mempamerkan kelebihan kecekapan ingatan yang lebih baik. Untuk nilai teoretikal ingatan dan nilai eksperimen tertentu, sila rujuk kertas asal.

    ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

    Tiga algoritma yang dipertingkatkan untuk meningkatkan pengoptimum tertib sifar

    Pengoptimum tertib sifar mempunyai kecekapan penumpuan terhad apabila digunakan pada LLM, terutamanya kerana varians anggaran yang besar dalam kecerunan. Untuk meningkatkan lagi pengoptimuman tertib sifar, penulis mencadangkan tiga algoritma lanjutan dari perspektif mengurangkan varians anggaran kecerunan, termasuk: penalaan halus ZO dari segi blok, penalaan halus hibrid tertib sifar dan urutan pertama ( penalaan halus ZO dan FO hibrid), anggaran kecerunan tertib sifar yang memperkenalkan kezatan (anggaran kecerunan ZO yang disebabkan oleh kezatan).

    Penalaan halus ZO dari segi blokTitik permulaan utama kaedah ini ialah jika pengoptimum tertib sifar mengganggu blok parameter dalam LLM secara berasingan apabila menganggarkan kecerunan, dengan mengurangkan Saiz masalah digunakan untuk mengambil kira varians setiap anggaran kecerunan, dengan itu meningkatkan prestasi pengoptimuman. Kelebihan kaedah ini ialah ia boleh menganggarkan kecerunan model dengan lebih tepat, tetapi bilangan perambatan ke hadapan yang diperlukan untuk melengkapkan anggaran kecerunan akan meningkat. Contohnya, OPT-1.3B boleh dibahagikan kepada 26 blok parameter (24 lapisan Transformers, lapisan benam dan kepala pengelasan LM), jadi pengoptimum tertib sifar akan mengira 26 hantaran hadapan setiap kali ia mengira kecerunan model. Untuk membandingkan secara adil ZO-SGD dan ZO-SGD-Block, penulis juga membandingkan prestasi varian ZO-SGD yang lain, yang melakukan gangguan parameter pada model lengkap setiap kali dan menganggarkan kecerunan selepas beberapa gangguan Hitung purata (. contohnya, 26 kali untuk OPT-1.3B) untuk memastikan bilangan perambatan ke hadapan semasa perbandingan adalah sama. Keputusan percubaan pada OPT-1.3B menunjukkan bahawa ZO-SGD-Block dengan ketara mengatasi dua ZO-SGD.

    ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

    Penalaan halus ZO dan FO HibridBackpropagation (BP) mengira kecerunan berat dari rangkaian neural dalam ke cetek dalam urutan. Memandangkan pengoptimum tertib sifar mempunyai kelebihan yang jauh lebih besar dalam penggunaan memori berbanding pengoptimum tertib pertama tradisional, prestasi pengoptimum tertib pertama selalunya lebih baik. Oleh itu, menggunakan gabungan pengoptimum tertib sifar dan urutan pertama akan mencapai pertukaran antara penggunaan memori dan prestasi. Khususnya, untuk rangkaian yang lebih dalam, pengoptimum tertib pertama boleh digunakan untuk mengira kecerunan dengan tepat melalui perambatan belakang, untuk rangkaian cetek, pengoptimum tertib sifar boleh digunakan untuk anggaran kecerunan. Keputusan percubaan menunjukkan bahawa menggunakan pengoptimum tertib sifar di bahagian cetek (seperti 8/24 lapisan pertama OPT-1.3B) dan menggunakan pengoptimum tertib pertama di bahagian dalam yang selebihnya boleh menjimatkan kira-kira satu pertiga daripada video memori Pada masa yang sama, tahap prestasi yang sama seperti menggunakan pengoptimum tertib pertama sepenuhnya dicapai.

    ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

    Pengoptimum tertib sifar menggunakan kecerunan jarang (ZO dengan pemangkasan kecerunan)Dalam pengoptimum tertib pertama, pemangkasan kecerunan biasanya digunakan untuk mempercepatkan proses latihan manakala dalam pengoptimum tertib sifar, kecerunan jarang yang diperkenalkan melalui pemangkasan kecerunan boleh seterusnya Mengurangkan varians anggaran kecerunan, dengan itu meningkatkan prestasi. Kertas kerja ini mengkaji aplikasi strategi pemangkasan berasaskan amplitud dalam pengoptimum tertib sifar untuk mendapatkan kadar kecerunan setiap lapisan, dan kemudian menjana topeng kecerunan jarang rawak (topeng) berdasarkan kadar kecerunan ini, dan menggunakannya pada anggaran kecerunan stokastik. Gangguan pada. Keputusan eksperimen menunjukkan bahawa kecerunan sederhana (kira-kira 20%) boleh membawa tahap peningkatan prestasi tertentu kepada pengoptimum tertib sifar.

    ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

    Kesimpulan

    Dalam kertas kerja ini, kami menunjukkan penggunaan berkesan pengoptimum tertib sifar dalam memperhalusi model bahasa besar. Dengan menggunakan perbezaan kehilangan untuk menganggarkan kecerunan, kaedah pengoptimuman tertib sifar mengelakkan keperluan untuk perambatan belakang dan penyimpanan pengaktifan, dengan sangat menjimatkan sumber memori. Dengan mengembangkan skop penyelidikan sedia ada, kami memasukkan kaedah pengoptimuman tertib sifar yang berbeza, jenis tugas dan penunjuk penilaian ke dalam penilaian ini, dan menjalankan kajian penanda aras sistematik pertama bagi teknologi pengoptimuman pesanan sifar. Kajian kami bukan sahaja mendedahkan prestasi kaedah ini dari segi ketepatan dan kecekapan, tetapi juga memberikan pandangan tentang peranan penting penjajaran tugas dan kecerunan ke hadapan. Dengan menggunakan analisis percubaan ini, kami mencadangkan teknik seperti pengoptimuman blok, latihan hibrid pesanan sifar dan urutan pertama, dan sparsifikasi kecerunan untuk meningkatkan lagi penalaan halus model besar berdasarkan pengoptimuman pesanan sifar. Penambahbaikan ini direka untuk meningkatkan ketepatan penalaan halus sambil mengekalkan kecekapan memori.

    Kami amat percaya bahawa aplikasi penemuan dan teknologi ini boleh mengurangkan keperluan sumber perkakasan untuk penyelidikan model besar, menjadikan penalaan halus model besar mungkin pada GPU rendah, seterusnya mempromosikan penyelidikan akademik dan menghasilkan praktikal dan hasil praktikal dalam industri. Kami menggalakkan penyelidik dan pembangun teknologi untuk memberi perhatian kepada hasil penyelidikan kami dan meneroka lebih banyak kemungkinan menggunakan pengoptimuman ZO. Penyelidikan masa depan akan terus meneroka isu mendalam dalam bidang ini untuk membuka lebih banyak potensi dalam penalaan halus LLM.

    Untuk maklumat lanjut, sila rujuk kertas dan repositori GitHub untuk mendapatkan maklumat dan sumber lanjut.

    Rujukan:
    [1] Liu, et al,. 2020): 43-54.
    [2] Malladi, et al., "Model Bahasa Penalaan Halus dengan Hantaran Hadapan Sahaja." 2023 al. al., "A Primer on Zeroth-Order Optimization dalam Pemprosesan Isyarat dan Pembelajaran Mesin." untuk Pengaturcaraan Stochastic Nonconvex."
    [5] Liu, et al., "tandatangani SGD melalui Zeroth-Order Oracle." ICLR' 2019.
    . ", et al. Kaedah Zeroth -Pesanan dan Momentum Pesanan Pertama daripada Pengoptimuman Mini kepada Minimax." , et al., "ZO-AdaMM: Kaedah Momentum Adaptif Zeroth-Order untuk Pengoptimuman Kotak Hitam."
    [9] Baydin, et al., "Kecerunan tanpa Rambatan Balik."

Atas ialah kandungan terperinci Kertas penskoran tinggi ICML 2024 |. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn