Rumah >Peranti teknologi >AI >Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem 'perisian pembelajaran' menyelesaikan masalah penggunaan semula pembelajaran mesin, dan 'gabungan model' muncul paradigma baharu penyelidikan saintifik
HuggingFace ialah komuniti sumber terbuka pembelajaran mesin yang paling popular, dengan 300,000 model pembelajaran mesin berbeza dan 100,000 aplikasi tersedia.
Jika 300,000 model pada HuggingFace ini boleh digabungkan secara bebas untuk menyelesaikan tugasan pembelajaran baharu bersama-sama, apakah rupanya?
Malah, pada tahun 2016 apabila HuggingFace keluar, Profesor Zhou Zhihua dari Universiti Nanjing mencadangkan konsep "Perisian Pembelajaran" dan melukis pelan tindakan sedemikian.
Baru-baru ini, pasukan Profesor Zhou Zhihua dari Universiti Nanjing melancarkan platform sedemikian - Beimingwu.
Alamat: https://bmwu.cloud/
Beimingwu bukan sahaja menyediakan penyelidik dan pengguna dengan keupayaan untuk memuat naik model mereka sendiri, tetapi juga melakukan pemadanan model dan gabungan kolaborasi mengikut keperluan pengguna untuk mengendalikan pembelajaran dengan cekap tugasan.
Alamat kertas: https://arxiv.org/abs/2401.14427
Beimingwu system warehouse: https://www.gitlink.org.cn/beimingwuu/beimingwu gudang alat: https://www.gitlink.org.cn/beimingwu/learnware
Ciri terbesar platform ini ialah pengenalan sistem perisian pembelajaran, yang telah mencapai kejayaan dalam merealisasikan model berdasarkan keperluan pengguna padanan dan keupayaan kerjasama.
Peralatan pembelajaran terdiri daripada model pembelajaran mesin dan spesifikasi yang menerangkan model, iaitu, "perkakas pembelajaran = model + spesifikasi".
Spesifikasi perisian pembelajaran terdiri daripada dua bahagian: "spesifikasi semantik" dan "spesifikasi statistik":
spesifikasi semantik menerangkan jenis dan fungsi model melalui teks
spesifikasi pembelajaran mesin teknologi , menggambarkan maklumat statistik yang terkandung dalam model.
Protokol ialah komponen teras sistem asas perisian pembelajaran, yang menghubungkan semua proses perisian pembelajaran dalam sistem, termasuk muat naik perisian pembelajaran, organisasi, carian, penggunaan dan penggunaan semula.
Sama seperti Yanziwu dalam "Dragon" terdiri daripada banyak pulau kecil, peraturan di Beimingwu juga seperti pulau kecil.
Peralatan pembelajaran daripada ruang ciri/penanda yang berbeza membentuk banyak pulau protokol, dan semua pulau protokol bersama-sama membentuk dunia protokol dalam sistem asas perisian pembelajaran. Dalam dunia protokol, jika hubungan antara pulau yang berbeza dapat ditemui dan diwujudkan, maka pulau protokol yang sepadan akan dapat digabungkan.
Di bawah paradigma perisian pembelajaran, pembangun di seluruh dunia boleh berkongsi model kepada sistem asas perisian pembelajaran Sistem ini membantu pengguna menyelesaikan tugas pembelajaran mesin dengan berkesan dengan mencari dan menggunakan semula perisian pembelajaran tanpa perlu membina pembelajaran mesin dari awal.
Beimingwu ialah pelaksanaan sumber terbuka sistematik pertama bagi perisian akademik, menyediakan platform penyelidikan saintifik awal untuk penyelidikan berkaitan perisian akademik.
Pembangun yang sudi berkongsi boleh menyerahkan model secara bebas, dan Gudang Pembelajaran akan membantu dalam menjana spesifikasi untuk membentuk perisian pembelajaran dan menyimpannya dalam Gudang Pembelajaran Dalam proses ini, pembangun tidak perlu mendedahkannya data latihan ke Gudang Pembelajaran.
Pengguna akan datang boleh menyerahkan keperluan mereka kepada Gudang Pembelajaran dan mencari bahan pembelajaran yang digunakan semula dengan bantuan Gudang Pembelajaran untuk menyelesaikan tugas pembelajaran mesin mereka, dan pengguna tidak perlu mendedahkan data mereka sendiri kepada Gudang Pembelajaran.
Dan pada masa hadapan, selepas dok pembelajaran mempunyai berjuta-juta bahagian pembelajaran, tingkah laku "muncul" mungkin akan berlaku: tugasan pembelajaran mesin yang tidak mempunyai model yang dibangunkan khas pada masa lalu boleh digunakan semula oleh beberapa bahagian pembelajaran sedia ada selesaikan.
Pembelajaran mesin telah mencapai kejayaan besar dalam banyak bidang, tetapi ia masih menghadapi banyak masalah, seperti keperluan untuk sejumlah besar data latihan dan kemahiran latihan yang hebat, kesukaran pembelajaran berterusan, dan malapetaka. melupakan Risiko dan kebocoran privasi/pemilikan data, dsb.
Walaupun setiap masalah di atas mempunyai kajian yang sepadan, kerana masalah tersebut berganding antara satu sama lain, menyelesaikan salah satu masalah boleh menyebabkan masalah lain menjadi lebih serius.
Sistem asas pembelajaran berharap dapat menyelesaikan banyak masalah di atas pada masa yang sama melalui rangka kerja keseluruhan:
Seperti yang ditunjukkan dalam rajah di bawah, aliran kerja sistem dibahagikan kepada dua peringkat berikut:
Protokol ialah komponen teras sistem asas perisian pembelajaran, yang menghubungkan semua proses perisian pembelajaran dalam sistem, termasuk memuat naik perisian pembelajaran, organisasi, carian, penggunaan dan penggunaan semula.
Perisian pembelajaran daripada ruang ciri/penanda yang berbeza membentuk banyak pulau protokol, dan semua pulau protokol bersama-sama membentuk dunia protokol dalam sistem asas perisian pembelajaran. Dalam dunia protokol, jika hubungan antara pulau yang berbeza dapat ditemui dan diwujudkan, maka pulau protokol yang sepadan akan dapat digabungkan.
Apabila mencari, sistem asas pembelajaran mula-mula mencari pulau protokol tertentu melalui spesifikasi semantik dalam keperluan pengguna, dan kemudian mengenal pasti dengan tepat bahan pembelajaran di pulau protokol melalui spesifikasi statistik dalam keperluan pengguna. Penggabungan pulau protokol yang berbeza bermakna bahawa perisian pembelajaran yang sepadan boleh digunakan untuk tugasan dalam ruang ciri/penanda yang berbeza, iaitu, ia boleh digunakan semula untuk tugasan di luar tujuan asalnya.
Paradigma perisian pembelajaran membina ruang spesifikasi bersatu dengan menggunakan sepenuhnya keupayaan model pembelajaran mesin yang dikongsi oleh komuniti, dan menyelesaikan tugas pembelajaran mesin dengan cekap untuk pengguna baharu dengan cara yang bersatu. Apabila bilangan bahagian pembelajaran bertambah, dengan menyusun struktur bahagian pembelajaran secara berkesan, keupayaan keseluruhan sistem asas bahagian pembelajaran untuk menyelesaikan tugasan akan dipertingkatkan dengan ketara.
Seperti yang ditunjukkan dalam rajah di bawah, seni bina sistem Beimingwu terdiri daripada empat peringkat, daripada lapisan penyimpanan perisian pembelajaran kepada lapisan interaksi pengguna Ia adalah kali pertama untuk melaksanakan perisian pembelajaran secara sistematik paradigma bawah. Fungsi khusus empat peringkat adalah seperti berikut:
Dalam kertas kerja, pasukan penyelidik juga membina pelbagai jenis senario percubaan asas untuk menilai algoritma penanda aras untuk penjanaan protokol, mempelajari pengecaman artifak dan penggunaan semula pada jadual, imej dan data teks.
Percubaan Data Jadual
Pada pelbagai set data jadual, pasukan terlebih dahulu menilai prestasi mengenal pasti dan menggunakan semula perisian pembelajaran daripada sistem perisian pembelajaran yang mempunyai ruang ciri yang sama dengan tugas pengguna.
Selain itu, memandangkan tugasan borang biasanya datang daripada ruang ciri yang berbeza, pasukan penyelidik juga menilai pengenalpastian dan penggunaan semula bahagian pembelajaran daripada ruang ciri yang berbeza.
Kes homogen
Dalam kes homogen, 53 stor dalam set data PFS bertindak sebagai 53 pengguna bebas.
Setiap kedai menggunakan data ujiannya sendiri sebagai data tugas pengguna dan menggunakan pendekatan kejuruteraan ciri bersatu. Pengguna ini kemudiannya boleh mencari sistem asas untuk item pembelajaran homogen yang berkongsi ruang ciri yang sama dengan tugas mereka.
Apabila pengguna tidak mempunyai data berlabel atau jumlah data berlabel adalah terhad, pasukan membandingkan algoritma penanda aras yang berbeza dan purata kerugian untuk semua pengguna ditunjukkan dalam rajah di bawah. Jadual kiri menunjukkan bahawa pendekatan tanpa data adalah lebih baik daripada memilih dan menggunakan perisian pembelajaran secara rawak daripada pasaran, carta yang betul menunjukkan bahawa apabila pengguna mempunyai data latihan yang terhad, mengenal pasti dan menggunakan semula perisian pembelajaran tunggal atau berbilang adalah lebih baik daripada terlatih pengguna; prestasi yang lebih baik.
Jadual kiri menunjukkan bahawa pendekatan bebas data adalah lebih baik daripada memilih dan menggunakan perisian pembelajaran secara rawak daripada pasaran, angka yang betul menunjukkan bahawa apabila pengguna mempunyai data latihan yang terhad, mengenal pasti dan menggunakan semula satu atau berbilang perisian pembelajaran Perisian berprestasi lebih baik daripada model terlatih pengguna.
Kes heterogen
Berdasarkan persamaan antara perisian pasaran dan tugas pengguna, kes heterogen boleh dibahagikan lagi kepada kejuruteraan ciri yang berbeza dan senario tugas yang berbeza.
Senario kejuruteraan ciri yang berbeza:
Keputusan yang ditunjukkan di sebelah kiri dalam rajah di bawah menunjukkan bahawa walaupun pengguna kekurangan data anotasi, perisian pembelajaran dalam sistem masih boleh menunjukkan prestasi yang kukuh, terutamanya apabila berbilang perisian pembelajaran digunakan semula kaedah AverageEnsemble.
Senario tugas yang berbeza:
Sebelah kanan rajah di atas menunjukkan keluk kerugian model latihan kendiri pengguna dan beberapa kaedah penggunaan semula perisian pembelajaran.
Jelas sekali, pengesahan percubaan komponen pembelajaran heterogen bermanfaat apabila jumlah data beranotasi pengguna adalah terhad dan membantu untuk menjajarkan dengan lebih baik dengan ruang ciri pengguna.
Eksperimen data imej dan teks
Selain itu, pasukan penyelidik menjalankan penilaian asas sistem pada set data imej.
Rajah di bawah menunjukkan bahawa memanfaatkan sistem asas pembelajaran boleh menghasilkan prestasi yang baik apabila pengguna menghadapi kekurangan data beranotasi atau hanya mempunyai jumlah data yang terhad (kurang daripada 2000 kejadian).
Pasukan juga menjalankan penilaian asas sistem pada set data teks penanda aras. Penjajaran ruang ciri melalui pengekstrak ciri bersatu.
Seperti yang ditunjukkan dalam rajah di bawah, walaupun tiada data anotasi disediakan, prestasi yang diperoleh melalui pengenalan dan penggunaan semula perisian pembelajaran adalah setanding dengan perisian pembelajaran terbaik dalam sistem.
Selain itu, berbanding melatih model dari awal, menggunakan sistem asas pembelajaran boleh mengurangkan kira-kira 2000 sampel.
Atas ialah kandungan terperinci Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem 'perisian pembelajaran' menyelesaikan masalah penggunaan semula pembelajaran mesin, dan 'gabungan model' muncul paradigma baharu penyelidikan saintifik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!