Rumah  >  Artikel  >  Peranti teknologi  >  Latihan model besar memberi perhatian kepada "tenaga"! Tao Dacheng mengetuai pasukan: Semua penyelesaian "latihan yang cekap" diliputi dalam satu artikel, berhenti mengatakan bahawa perkakasan adalah satu-satunya halangan

Latihan model besar memberi perhatian kepada "tenaga"! Tao Dacheng mengetuai pasukan: Semua penyelesaian "latihan yang cekap" diliputi dalam satu artikel, berhenti mengatakan bahawa perkakasan adalah satu-satunya halangan

WBOY
WBOYke hadapan
2023-05-23 17:04:08700semak imbas

Bidang pembelajaran mendalam telah mencapai kemajuan yang ketara, terutamanya dalam penglihatan komputer, pemprosesan bahasa semula jadi dan model berskala besar yang dilatih menggunakan data besar adalah penting untuk aplikasi praktikal, meningkatkan produktiviti industri dan menggalakkan pembangunan masyarakat prospek yang besar.

Latihan model besar memberi perhatian kepada tenaga! Tao Dacheng mengetuai pasukan: Semua penyelesaian latihan yang cekap diliputi dalam satu artikel, berhenti mengatakan bahawa perkakasan adalah satu-satunya halangan

Walau bagaimanapun, model besar juga memerlukan banyak kuasa pengkomputeran untuk melatih kerana keperluan orang ramai untuk kuasa pengkomputeran terus meningkat , ,Walaupun terdapat banyak kajian yang meneroka ,kaedah latihan yang cekap, masih belum ada kajian yang komprehensif ,kajian tentang teknik pecutan model pembelajaran mendalam.

Baru-baru ini, penyelidik dari Universiti Sydney, Universiti Sains dan Teknologi China dan institusi lain menerbitkan ulasan, meringkaskan secara menyeluruh teknik latihan yang cekap untuk model pembelajaran mendalam berskala besar dan menunjukkan proses latihan Mekanisme biasa dalam setiap komponen dalam.

Latihan model besar memberi perhatian kepada tenaga! Tao Dacheng mengetuai pasukan: Semua penyelesaian latihan yang cekap diliputi dalam satu artikel, berhenti mengatakan bahawa perkakasan adalah satu-satunya halangan

Pautan kertas: https://arxiv.org/pdf/2304.03589.pdf

Para penyelidik menganggap formula kemas kini berat yang paling asas dan membahagikan komponen asasnya kepada lima aspek utama:

Latihan model besar memberi perhatian kepada tenaga! Tao Dacheng mengetuai pasukan: Semua penyelesaian latihan yang cekap diliputi dalam satu artikel, berhenti mengatakan bahawa perkakasan adalah satu-satunya halangan

1. Berpusatkan data , termasuk penyelarasan set data, pensampelan data dan teknologi pembelajaran kursus berpusatkan data, boleh Mengurangkan kerumitan pengiraan sampel data dengan ketara

2, model-centric (model-centric) , termasuk pecutan modul asas, latihan mampatan, permulaan model dan teknologi pembelajaran kursus berpusatkan Model memfokuskan pada latihan mempercepatkan dengan mengurangkan pengiraan parameter;

3. Pengoptimuman-berpusatkan , termasuk Pemilihan kadar pembelajaran, penggunaan saiz kelompok besar, reka bentuk fungsi objektif yang cekap, teknologi purata wajaran model, dsb.; fokus pada strategi latihan untuk meningkatkan fleksibiliti model berskala besar;

5, system-centric (system-centric) , termasuk beberapa rangka kerja teragih yang cekap dan perpustakaan sumber terbuka, menyediakan sokongan perkakasan yang mencukupi untuk pelaksanaan algoritma dipercepatkan.

Latihan berpusatkan data yang cekap

Baru-baru ini, model berskala besar telah mencapai kemajuan yang besar, manakala keperluan mereka pada set data telah meningkat secara mendadak. Sampel data yang besar digunakan untuk memacu proses latihan dan mencapai prestasi cemerlang. Oleh itu, penyelidikan berpusatkan data adalah penting untuk pecutan sebenar.

Fungsi asas pemprosesan data adalah untuk meningkatkan kepelbagaian sampel data dengan cekap tanpa meningkatkan kos pelabelan kerana kos pelabelan data selalunya terlalu mahal, Sesetengah institusi pembangunan tidak mampu ia, yang juga menonjolkan kepentingan penyelidikan dalam bidang berpusatkan data pada masa yang sama, pemprosesan data juga memberi tumpuan kepada meningkatkan kecekapan pemuatan selari sampel data.

Para penyelidik memanggil semua pemprosesan data yang cekap ini sebagai pendekatan "berpusatkan data", yang boleh meningkatkan prestasi latihan model berskala besar dengan ketara.

Artikel ini menyemak dan mengkaji teknologi dari aspek berikut:

Penyaturan Data

Penyaturan data ialah teknik prapemprosesan yang meningkatkan kepelbagaian sampel data asal melalui satu siri transformasi data, yang boleh meningkatkan kesetaraan sampel latihan dalam ruang ciri Menunjukkan bahawa tiada maklumat pelabelan tambahan diperlukan.

Kaedah penyusunan data yang cekap digunakan secara meluas dalam proses latihan dan boleh meningkatkan prestasi generalisasi model berskala besar dengan ketara.

Pensampelan data Pensampelan data

Pensampelan data juga merupakan kaedah yang berkesan, daripada Memilih subset daripada kumpulan besar sampel untuk mengemas kini kecerunan mempunyai kelebihan latihan dalam kelompok kecil untuk mengurangkan kesan sampel yang tidak penting atau buruk dalam kumpulan semasa.

Biasanya, data sampel adalah lebih penting, dan prestasi adalah setara dengan model yang dilatih menggunakan kumpulan penuh kebarangkalian setiap lelaran perlu diselaraskan secara beransur-ansur bersama dengan proses latihan . untuk memastikan tiada bias dalam persampelan.

Pembelajaran Kurikulum berpusatkan data

Pembelajaran kurikulum pada peringkat berlainan proses latihan Menyiasat tetapan latihan progresif untuk mengurangkan kos pengiraan keseluruhan.

Pada mulanya, gunakan set data berkualiti rendah untuk melatih cukup untuk mempelajari ciri peringkat rendah kemudian gunakan set data berkualiti tinggi (lebih banyak peningkatan dan kaedah pra-pemprosesan yang kompleks) Secara beransur-ansur membantu mempelajari ciri yang kompleks dan mencapai ketepatan yang sama seperti menggunakan keseluruhan set latihan.

Latihan cekap berpusatkan model

Mereka bentuk seni bina model yang cekap sentiasa menjadi salah satu bidang penyelidikan yang paling penting dalam bidang pembelajaran mendalam yang cekap. Pengekstrak ciri yang boleh diunjurkan ke dalam ciri tahap tinggi yang mudah dipisahkan.

Berbeza daripada karya lain yang memberi perhatian khusus kepada seni bina model yang cekap dan novel, kertas kerja ini memberi lebih perhatian kepada alternatif yang setara dengan modul biasa dalam penyelidikan "berpusatkan model" Mencapai kecekapan latihan yang lebih tinggi dalam keadaan yang setanding.

Hampir semua model berskala besar terdiri daripada modul atau lapisan kecil, jadi penyiasatan model boleh memberi panduan untuk latihan yang cekap bagi model berskala besar. Penyelidik tertumpu terutamanya pada Penyelidikan berikut mengenai aspek:

Kecekapan Seni Bina

Dengan bilangan parameter dalam model dalam Peningkatan mendadak juga telah membawa penggunaan pengiraan yang besar, jadi ia adalah perlu untuk melaksanakan alternatif yang cekap untuk menganggarkan prestasi versi asal seni bina model ini secara beransur-ansur telah menarik perhatian komuniti akademik penggantian ini pengiraan berangka Penghampiran, juga termasuk penyederhanaan struktur dan gabungan dalam model dalam.

Para penyelidik membezakan teknik pecutan sedia ada berdasarkan seni bina yang berbeza dan membentangkan beberapa pemerhatian dan kesimpulan.

Kecekapan Latihan Mampatan

Mampatan sentiasa menjadi hala tuju penyelidikan dalam pengiraan pecutan Satu , memainkan peranan penting dalam pemprosesan isyarat digital (pengkomputeran multimedia/pemprosesan imej).

Mampatan tradisional merangkumi dua cabang utama: kuantisasi dan jarang artikel ini memperincikan pencapaian sedia ada dan sumbangan mereka kepada latihan mendalam.

Kecekapan Permulaan

Inisialisasi parameter model dalam analisis teori sedia ada Ia adalah sangat faktor penting dalam senario praktikal.

Keadaan permulaan yang buruk malah boleh menyebabkan keseluruhan latihan ranap dan terbantut dalam fasa latihan awal, manakala keadaan permulaan yang baik membantu mempercepatkan dalam julat kehilangan yang lancar Berkenaan keseluruhan kelajuan penumpuan , artikel ini terutamanya mengkaji penilaian dan reka bentuk algoritma dari perspektif permulaan model.

Pembelajaran Kurikulum Berpusatkan Model

Dari perspektif berpusatkan model, pembelajaran kursus biasanya memulakan latihan daripada model kecil atau parameter separa dalam model berskala besar, dan kemudian pulih secara beransur-ansur kepada keseluruhan seni bina dalam proses latihan yang dipercepatkan, Kelebihan yang lebih besar; , dan tiada kesan negatif yang jelas, artikel itu mengkaji pelaksanaan dan kecekapan kaedah ini dalam proses latihan.

Pembelajaran cekap berpaksikan pengoptimuman

Skim pecutan kaedah pengoptimuman sentiasa menjadi hala tuju penyelidikan penting dalam bidang pembelajaran mesin, yang boleh mengurangkan kerumitan sambil mencapai optimum Seks sentiasa menjadi usaha dalam bidang akademik.

Dalam beberapa tahun kebelakangan ini, kaedah pengoptimuman yang cekap dan berkuasa telah membuat penemuan penting dalam melatih rangkaian saraf dalam Sebagai pengoptimum asas yang digunakan secara meluas dalam pembelajaran mesin, pengoptimum kelas SGD telah berjaya Ia membantu secara mendalam model mencapai pelbagai aplikasi praktikal Namun, apabila masalah menjadi semakin kompleks, SGD lebih berkemungkinan jatuh ke dalam minima tempatan dan tidak boleh digeneralisasikan secara stabil.

Untuk menyelesaikan masalah ini, Adam dan variannya dicadangkan untuk memperkenalkan kebolehsuaian dalam kemas kini Pendekatan ini telah mencapai hasil yang baik dalam latihan rangkaian berskala besar, seperti Ia digunakan dalam BERT, Transformer dan model ViT.

Selain prestasi pengoptimum yang direka itu sendiri, gabungan teknik latihan dipercepatkan juga penting.

Berdasarkan perspektif pengoptimuman, penyelidik merumuskan pemikiran semasa mengenai latihan dipercepatkan ke dalam aspek berikut:

Kadar pembelajaran

Kadar pembelajaran ialah hiperparameter penting untuk pengoptimuman bukan cembung dan juga penting dalam latihan rangkaian dalam semasa, seperti Adam Kaedah penyesuaian sedemikian dan variannya mempunyai berjaya mencapai kemajuan yang luar biasa pada model mendalam.

Latihan model besar memberi perhatian kepada tenaga! Tao Dacheng mengetuai pasukan: Semua penyelesaian latihan yang cekap diliputi dalam satu artikel, berhenti mengatakan bahawa perkakasan adalah satu-satunya halangan

Sesetengah strategi untuk melaraskan kadar pembelajaran berdasarkan kecerunan peringkat tinggi juga berkesan mencapai latihan dipercepatkan, dan pelaksanaan pereputan kadar pembelajaran juga akan menjejaskan prestasi latihan dalam proses tersebut.

Saiz kelompok besar Meningkatkan kecekapan latihan secara langsung boleh mengurangkan bilangan lelaran yang diperlukan untuk melengkapkan latihan zaman apabila jumlah sampel ditetapkan, memproses lebih besar; saiz kelompok adalah lebih murah daripada memproses beberapa sampel saiz kelompok kecil, kerana ia boleh Meningkatkan penggunaan memori dan mengurangkan kesesakan komunikasi.

Objektif yang cekap

ERM paling asas pada masalah pengecilan Memainkan peranan penting dalam membuat banyak tugas praktikal.

Dengan pendalaman penyelidikan pada rangkaian besar, sesetengah kerja memberi lebih perhatian kepada jurang antara pengoptimuman dan generalisasi, dan mencadangkan matlamat yang berkesan untuk mengurangkan ralat ujian menerangkan generalisasi daripada perspektif yang berbeza dan mengoptimumkannya secara bersama semasa latihan boleh mempercepatkan ketepatan ujian.

Purata berat

Purata wajaran ialah teknik praktikal yang boleh Meningkatkan fleksibiliti model, kerana purata wajaran negeri sejarah dipertimbangkan, dan terdapat satu set pekali beku atau boleh dipelajari, yang boleh mempercepatkan proses latihan. Latihan cekap belanjawan

Terdapat beberapa kerja terbaharu yang memfokuskan pada melatih model pembelajaran mendalam dengan sumber yang lebih sedikit dan mencapai ketepatan yang lebih tinggi sebanyak mungkin.

Masalah jenis ini ditakrifkan sebagai latihan belanjawan, iaitu latihan dilakukan dalam belanjawan tertentu (had ke atas kos boleh diukur) untuk mencapai prestasi model tertinggi.

Untuk mempertimbangkan sokongan perkakasan secara sistematik untuk mendekati situasi sebenar, penyelidik mentakrifkan latihan belanjawan sebagai latihan pada peranti tertentu dan masa terhad, contohnya, latihan pada pelayan pembelajaran mendalam peringkat rendah untuk satu hari , untuk mendapatkan model dengan prestasi terbaik.

Latihan model besar memberi perhatian kepada tenaga! Tao Dacheng mengetuai pasukan: Semua penyelesaian latihan yang cekap diliputi dalam satu artikel, berhenti mengatakan bahawa perkakasan adalah satu-satunya halangan

Penyelidikan tentang latihan belanjawan boleh memberi penerangan tentang cara membuat resipi latihan untuk latihan belanjawan, termasuk menentukan saiz model, model Konfigurasi struktur, susunan kadar pembelajaran dan beberapa faktor boleh laras lain yang mempengaruhi prestasi, serta gabungan teknik latihan yang cekap sesuai untuk belanjawan yang ada, artikel ini terutamanya mengkaji beberapa teknik lanjutan latihan bajet.

Latihan yang berpusatkan sistem dan cekap

Penyelidikan berpusatkan sistem adalah untuk menyediakan kaedah pelaksanaan khusus untuk algoritma yang direka, dan untuk mengkaji keupayaan untuk benar-benar mencapai kecekapan tinggi. dan pelaksanaan praktikal perkakasan latihan.

Penyelidik menumpukan pada pelaksanaan peranti pengkomputeran umum, seperti peranti CPU dan GPU dalam kelompok berbilang nod, dan menyelesaikan konflik yang berpotensi dalam algoritma reka bentuk dari perspektif perkakasan adalah teras kebimbangan .

Artikel ini mengkaji terutamanya teknologi pelaksanaan perkakasan dalam rangka kerja sedia ada dan pustaka pihak ketiga Teknologi ini menyokong pemprosesan data, model dan pengoptimuman secara berkesan serta memperkenalkan beberapa platform sumber terbuka sedia ada. menyediakan rangka kerja yang kukuh untuk penubuhan model, penggunaan data yang berkesan untuk latihan, latihan ketepatan campuran dan latihan yang diedarkan.

Kecekapan Data Berpusatkan Sistem

Pemprosesan Data dan keselarian data yang cekap adalah dua perkara penting kebimbangan dalam pelaksanaan sistem.

Dengan peningkatan pesat dalam volum data, pemprosesan data yang tidak cekap secara beransur-ansur menjadi hambatan untuk kecekapan latihan, terutamanya untuk latihan berskala besar pada berbilang nod Reka bentuk kaedah Pengiraan yang lebih mesra perkakasan keselarian berkesan dapat mengelakkan pembaziran masa dalam latihan.

Kecekapan Model Berpusatkan Sistem

Dengan pengembangan pantas bilangan parameter model ,Dari perspektif model , kecekapan sistem telah menjadi, salah satu kesesakan yang penting, dan kecekapan penyimpanan dan pengkomputeran model berskala besar membawa cabaran besar kepada pelaksanaan perkakasan.

Artikel ini mengulas terutamanya cara untuk mencapai I/O penggunaan yang cekap dan perlaksanaan selari model yang diperkemas untuk mempercepatkan latihan sebenar.

Kecekapan Pengoptimuman berpusatkan sistem

Proses pengoptimuman mewakili Penyebaran dan kemas kini belakang juga paling banyak masa -mengambil pengiraan dalam latihan, jadi pelaksanaan pengoptimuman berpusatkan sistem secara langsung menentukan kecekapan latihan.

Untuk mentafsir dengan jelas ciri-ciri pengoptimuman sistem, artikel itu memfokuskan pada kecekapan peringkat pengiraan yang berbeza dan menyemak penambahbaikan setiap proses.

Rangka Kerja Sumber Terbuka

Rangka kerja sumber terbuka yang cekap boleh memudahkan latihan, kerana Cantuman jambatan antara reka bentuk algoritma dan sokongan perkakasan, para penyelidik meninjau pelbagai rangka kerja sumber terbuka dan menganalisis kekuatan dan kelemahan setiap reka bentuk.

Latihan model besar memberi perhatian kepada tenaga! Tao Dacheng mengetuai pasukan: Semua penyelesaian latihan yang cekap diliputi dalam satu artikel, berhenti mengatakan bahawa perkakasan adalah satu-satunya halangan

Kesimpulan

Penyelidik mengkaji teknik pecutan latihan biasa untuk latihan cekap model pembelajaran mendalam berskala besar , dengan mengambil kira semua komponen dalam formula kemas kini kecerunan, meliputi keseluruhan proses latihan dalam bidang pembelajaran mendalam.

Artikel itu juga mencadangkan taksonomi baru, yang meringkaskan teknologi ini kepada lima arah utama: berpusatkan data, berpusatkan model, berpusatkan pengoptimuman, latihan belanjawan dan berpusatkan sistem .

Empat bahagian pertama terutamanya menjalankan penyelidikan komprehensif dari perspektif reka bentuk algoritma dan metodologi, manakala dalam bahagian "Latihan Cekap Berpusatkan Sistem", ia merumuskan dari perspektif inovasi paradigma dan sokongan perkakasan pelaksanaan sebenar.

Artikel menyemak dan meringkaskan teknologi yang biasa digunakan atau dibangunkan baru-baru ini yang sepadan dengan setiap bahagian, kelebihan dan tukar ganti setiap teknologi, dan membincangkan had dan arah penyelidikan masa depan yang menjanjikan ; kajian dan panduan teknikal yang komprehensif, kajian ini juga mencadangkan kejayaan semasa dan kesesakan dalam latihan yang cekap.

Para penyelidik berharap dapat membantu penyelidik mencapai pecutan latihan am dengan cekap dan memberikan beberapa implikasi yang bermakna dan menjanjikan untuk pembangunan masa depan latihan yang cekap Selain itu; kepada beberapa kemajuan yang berpotensi yang disebutkan, pandangan yang lebih luas dan menjanjikan adalah seperti berikut:

1. Carian Profil Cekap

Latihan yang cekap boleh mereka bentuk strategi carian profil pra-bina dan boleh disesuaikan untuk model dari perspektif gabungan peningkatan data, struktur model, reka bentuk pengoptimum, dll. Penyelidikan berkaitan telah mencapai beberapa kemajuan hasil.

Seni bina model baharu dan mod mampatan, tugas pra-latihan baharu dan penggunaan pengetahuan "tepi model" juga patut diterokai.

2. Penjadual Adaptif

Gunakan Penjadual berorientasikan pengoptimuman seperti kursus pembelajaran, kadar pembelajaran dan saiz kelompok, serta kerumitan model, mungkin mencapai prestasi yang lebih baik Penjadual yang sedar bajet boleh menyesuaikan diri secara dinamik dengan baki belanjawan, mengurangkan kos reka bentuk manual boleh digunakan Meneroka keselarian dan kaedah komunikasi semasa mengambil; mengambil kira senario yang lebih umum dan praktikal, seperti latihan terdesentralisasi berskala besar dalam rangkaian heterogen yang merangkumi pelbagai wilayah dan pusat data.

Atas ialah kandungan terperinci Latihan model besar memberi perhatian kepada "tenaga"! Tao Dacheng mengetuai pasukan: Semua penyelesaian "latihan yang cekap" diliputi dalam satu artikel, berhenti mengatakan bahawa perkakasan adalah satu-satunya halangan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam