Rumah > Artikel > Peranti teknologi > Adakah sistem pembelajaran mesin modular mencukupi? Guru dan pelajar Bengio memberitahu anda jawapannya
Penyelidik pembelajaran mendalam mendapat inspirasi daripada sains saraf dan sains kognitif Daripada unit tersembunyi dan kaedah input kepada reka bentuk sambungan rangkaian dan seni bina rangkaian, banyak kajian terobosan adalah berdasarkan meniru strategi operasi otak. Tidak dinafikan bahawa modulariti dan perhatian telah kerap digunakan dalam kombinasi dalam rangkaian buatan sejak beberapa tahun kebelakangan ini dan mencapai hasil yang mengagumkan.
Malah, penyelidikan neurosains kognitif menunjukkan bahawa korteks serebrum mewakili pengetahuan dalam cara modular, dengan komunikasi antara modul yang berbeza, dan mekanisme perhatian untuk pemilihan kandungan, iaitu apa yang dinyatakan di atas. Kombinasi modulariti dan perhatian yang disebutkan digunakan. Dalam penyelidikan baru-baru ini, telah dicadangkan bahawa cara komunikasi dalam otak ini mungkin mempunyai implikasi untuk bias induktif dalam rangkaian dalam. Ketergantungan yang jarang antara pembolehubah peringkat tinggi ini memecahkan pengetahuan kepada serpihan boleh digabungkan semula yang sebebas mungkin, menjadikan pembelajaran lebih cekap.
Walaupun banyak kajian baru-baru ini bergantung pada seni bina modular sedemikian, para penyelidik telah menggunakan sejumlah besar helah dan pengubahsuaian seni bina, yang memungkinkan untuk menganalisis sistem sebenar yang boleh digunakan menjadi mencabar .
Sistem pembelajaran mesin secara beransur-ansur menunjukkan kelebihan seni bina yang lebih jarang dan modular bukan sahaja mempunyai prestasi generalisasi yang baik, tetapi juga membawa pengedaran yang lebih baik, berskala, pembelajaran kelajuan, dan kebolehtafsiran. Kunci kejayaan sistem sedemikian ialah sistem penjanaan data yang digunakan dalam tetapan dunia sebenar dianggap terdiri daripada bahagian yang jarang berinteraksi, dan ia akan membantu untuk memberikan model bias induktif yang serupa. Walau bagaimanapun, oleh kerana pengedaran data dunia sebenar ini adalah kompleks dan tidak diketahui, bidang tersebut telah kekurangan dalam penilaian kuantitatif yang ketat bagi sistem ini.
Sebuah kertas kerja yang ditulis oleh tiga penyelidik dari Universiti Montreal di Kanada: Sarthak Mittal, Yoshua Bengio, dan Guillaume Lajoie Mereka menggunakan pengedaran data modular yang mudah dan diketahui untuk menganalisis modul biasa penilaian menyeluruh terhadap seni bina telah dijalankan. Kajian ini menyerlahkan faedah modulariti dan sparsity dan mendedahkan pandangan tentang cabaran yang dihadapi semasa mengoptimumkan sistem modular. Pengarang pertama dan pengarang yang sepadan, Sarthak Mittal, ialah pelajar sarjana Bengio dan Lajoie.
Secara khusus, kajian ini memanjangkan analisis Rosenbaum et al dan mencadangkan Kaedah untuk menilai, mengukur, dan menganalisis komponen biasa seni bina modular. Untuk tujuan ini, penyelidikan membangunkan satu siri penanda aras dan metrik yang direka untuk meneroka keberkesanan rangkaian modular. Ini mendedahkan cerapan berharga yang membantu mengenal pasti bukan sahaja di mana pendekatan semasa berjaya, tetapi juga bila dan cara pendekatan ini gagal.
Sumbangan penyelidikan ini boleh diringkaskan sebagai:
Dalam artikel ini, penyelidik meneroka cara siri sistem modular melaksanakan tugas biasa yang Dirumuskan oleh sintetik proses penjanaan data kita panggil data peraturan. Mereka memperkenalkan definisi komponen utama, termasuk (1) peraturan dan cara peraturan ini membentuk tugas, (2) modul dan cara modul ini menerima pakai seni bina model yang berbeza, (3) pengkhususan dan cara model dinilai. Tetapan terperinci ditunjukkan dalam Rajah 1 di bawah.
Peraturan. Untuk memahami sistem modular dengan betul dan menganalisis kelebihan dan kekurangannya, para penyelidik mempertimbangkan persediaan komprehensif yang membolehkan kawalan terperinci ke atas keperluan tugas yang berbeza. Khususnya, operasi, yang mereka panggil peraturan, mesti dipelajari pada taburan penjanaan data yang ditunjukkan dalam Persamaan 1-3 di bawah.
Memandangkan taburan di atas, penyelidik mentakrifkan peraturan untuk menjadi pakarnya, iaitu peraturan r ditakrifkan sebagai p_y(·|x, c = r), dengan c ialah pembolehubah kategori yang mewakili konteks dan x ialah jujukan input.
Tugas. Sesuatu tugas diterangkan oleh satu set peraturan (taburan penjanaan data) yang ditunjukkan dalam Persamaan 1-3. Set {p_y(· | x, c)}_c yang berbeza bermakna tugasan yang berbeza. Untuk beberapa peraturan, model ini dilatih pada berbilang tugas untuk menghapuskan sebarang berat sebelah khusus tugas.
modul. Sistem modular terdiri daripada satu set modul rangkaian saraf, di mana setiap modul menyumbang kepada output keseluruhan. Ini dapat dilihat melalui bentuk fungsi berikut.
di mana y_m mewakili output dan p_m mewakili pengaktifan modul ke-m.
Seni bina model. Seni bina model menerangkan seni bina yang dipilih untuk setiap modul sistem modular atau untuk modul individu sistem monolitik. Dalam makalah ini, penyelidik mempertimbangkan untuk menggunakan multi-layer perceptron (MLP), multi-head attention (MHA) dan rangkaian neural berulang (RNN). Adalah penting bahawa peraturan (atau pengedaran penjanaan data) disesuaikan agar sesuai dengan seni bina model, seperti peraturan berasaskan MLP.
Oleh kerana matlamat penyelidik adalah untuk meneroka sistem modular melalui data sintetik, mereka memperkenalkan secara terperinci berdasarkan perkara di atas. proses penjanaan data untuk skema peraturan. Khususnya, penyelidik menggunakan proses penjanaan data gaya campuran pakar (MoE) yang mudah, dengan harapan modul yang berbeza boleh dikhususkan untuk pakar yang berbeza dalam peraturan.
Mereka menerangkan proses penjanaan data untuk tiga seni bina model, iaitu MLP, MHA dan RNN. Selain itu, terdapat dua versi di bawah setiap tugasan: regresi dan pengelasan.
MLP. Para penyelidik mentakrifkan skema data yang sesuai untuk pembelajaran berdasarkan sistem MLP modular. Dalam skema penjanaan data sintetik ini, sampel data terdiri daripada dua nombor bebas dan pemilihan biasa yang diambil daripada beberapa pengedaran. Peraturan yang berbeza menjana kombinasi linear yang berbeza bagi dua nombor untuk memberikan output, iaitu pemilihan gabungan linear secara dinamik mengikut peraturan, seperti ditunjukkan dalam Persamaan 4-6 di bawah.
MHA. Kini, penyelidik telah mentakrifkan skema data yang ditala untuk pembelajaran dalam sistem MHA modular. Oleh itu, mereka mereka bentuk pengedaran penjanaan data dengan sifat berikut: setiap peraturan terdiri daripada carian yang berbeza, konsep perolehan dan gabungan linear akhir maklumat yang diperoleh semula. Penyelidik menerangkan proses ini secara matematik dalam Persamaan 7-11 di bawah.
RNN. Untuk sistem peredaran darah, penyelidik mentakrifkan peraturan untuk sistem dinamik linear di mana satu daripada berbilang peraturan boleh dicetuskan pada bila-bila masa. Secara matematik, proses ini ditunjukkan dalam Persamaan 12-15 di bawah.
Sesetengah kerja terdahulu mendakwa bahawa sistem modul terlatih hujung ke hujung adalah lebih baik daripada sistem tunggal, terutamanya dalam persekitaran teragih. Walau bagaimanapun, tiada analisis terperinci dan mendalam tentang faedah sistem modular ini dan sama ada mereka benar-benar mengkhusus berdasarkan pengedaran penjanaan data.
Oleh itu, penyelidik mempertimbangkan empat jenis model yang membenarkan darjah pengkhususan berbeza, iaitu Monolitik (tunggal), Modular (modular), Modular-op dan GT-Modular . Jadual 1 di bawah menggambarkan model ini.
Monolitik. Sistem monolitik ialah rangkaian saraf besar yang mengambil ensemble data (x, c) sebagai input dan membuat ramalan y^ berdasarkannya. Tiada bias induktif kepada modulariti atau jarang sistem yang dipanggang secara eksplisit dan bergantung sepenuhnya pada perambatan belakang untuk mempelajari apa-apa bentuk fungsi yang diperlukan untuk menyelesaikan tugas.
Modular. Sistem modular terdiri daripada banyak modul, setiap satunya ialah rangkaian saraf bagi jenis seni bina tertentu (MLP, MHA atau RNN). Setiap modul m mengambil data (x, c) sebagai input dan mengira output yˆ_m dan skor keyakinan, dinormalkan merentas modul kepada p_m kebarangkalian pengaktifan.
Modular-op. Sistem pengendalian modular sangat serupa dengan sistem modular, dengan satu perbezaan. Daripada mentakrifkan kebarangkalian pengaktifan p_m modul m sebagai fungsi (x, c), para penyelidik memastikan bahawa pengaktifan hanya ditentukan oleh konteks peraturan C.
GT-Modular. Sistem modular nilai-benar berfungsi sebagai penanda aras oracle, iaitu, sistem modular khusus yang sempurna.
Penyelidik menunjukkan bahawa daripada Monolitik hingga GT-Modular, model semakin menyertakan bias induktif untuk modulariti dan sparsity.
Untuk menilai sistem modular dengan pasti, penyelidik telah mencadangkan satu siri metrik yang bukan sahaja dapat mengukur kelebihan prestasi sistem sedemikian , dan juga boleh dinilai melalui dua bentuk penting: keruntuhan dan pengkhususan.
Prestasi. Set pertama metrik penilaian adalah berdasarkan prestasi dalam kedua-dua tetapan dalam pengedaran dan luar pengedaran (OoD), yang mencerminkan prestasi model yang berbeza pada pelbagai tugas. Untuk tetapan klasifikasi, kami melaporkan ralat klasifikasi untuk tetapan regresi, kami melaporkan kerugian.
Ranap. Para penyelidik mencadangkan satu set metrik, Runtuh-Purata dan Runtuh-Terburuk, untuk mengukur jumlah keruntuhan yang dihadapi sistem modular (iaitu, sejauh mana modul kurang digunakan). Rajah 2 di bawah menunjukkan contoh di mana anda boleh melihat bahawa modul 3 tidak digunakan.
Pengprofesionalan. Untuk melengkapkan metrik runtuh, kami juga mencadangkan set metrik berikut, iaitu (1) penjajaran, (2) penyesuaian dan (3) maklumat bersama songsang yang mengukur tahap pengkhususan yang dicapai oleh sistem modular.
Rajah di bawah menunjukkan bahawa sistem GT-Modular adalah optimum dalam kebanyakan kes (kiri), yang menunjukkan pengkhususan adalah berfaedah. Kami juga melihat bahawa antara sistem modular terlatih hujung-ke-hujung standard dan sistem monolitik, yang pertama mengatasi yang kedua tetapi tidak banyak. Bersama-sama, kedua-dua carta pai ini menunjukkan bahawa sistem modular semasa untuk latihan hujung ke hujung tidak mencapai pengkhususan yang baik dan oleh itu sebahagian besarnya tidak optimum.
Kajian kemudian melihat pilihan seni bina tertentu dan menganalisisnya merentas peningkatan bilangan prestasi dan trend peraturan .
Rajah 4 menunjukkan bahawa walaupun sistem pengkhususan sempurna (GT-Modular) akan membawa faedah, sistem modular biasa untuk latihan hujung ke hujung adalah sub-optimum dan tidak dapat mencapai faedah ini, terutamanya apabila bilangan peraturan meningkat. . Tambahan pula, walaupun sistem modular hujung-ke-hujung seperti itu sering mengatasi sistem monolitik, kelebihannya biasanya kecil sahaja.
Dalam Rajah 7 kita juga melihat purata mod latihan untuk model berbeza pada semua tetapan lain, Purata termasuk ralat klasifikasi dan kehilangan regresi. Seperti yang dapat dilihat, pengkhususan yang baik bukan sahaja membawa kepada prestasi yang lebih baik, tetapi juga mempercepatkan latihan.
Rajah berikut menunjukkan dua metrik runtuh: Runtuh-Purata, Runtuh-Paling teruk. Selain itu, rajah di bawah juga menunjukkan tiga petunjuk pengkhususan, penjajaran, penyesuaian dan maklumat bersama songsang untuk model yang berbeza dengan bilangan peraturan yang berbeza:
Atas ialah kandungan terperinci Adakah sistem pembelajaran mesin modular mencukupi? Guru dan pelajar Bengio memberitahu anda jawapannya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!