Rumah  >  Artikel  >  Peranti teknologi  >  Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem "perisian pembelajaran" menyelesaikan masalah penggunaan semula pembelajaran mesin, dan "gabungan model" muncul paradigma baharu penyelidikan saintifik

Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem "perisian pembelajaran" menyelesaikan masalah penggunaan semula pembelajaran mesin, dan "gabungan model" muncul paradigma baharu penyelidikan saintifik

PHPz
PHPzke hadapan
2024-02-01 14:24:261244semak imbas

HuggingFace ialah komuniti sumber terbuka pembelajaran mesin yang paling popular, dengan 300,000 model pembelajaran mesin berbeza dan 100,000 aplikasi tersedia.

Jika 300,000 model pada HuggingFace ini boleh digabungkan secara bebas untuk menyelesaikan tugasan pembelajaran baharu bersama-sama, apakah rupanya?

Malah, pada tahun 2016 apabila HuggingFace keluar, Profesor Zhou Zhihua dari Universiti Nanjing mencadangkan konsep "Perisian Pembelajaran" dan melukis pelan tindakan sedemikian.

Baru-baru ini, pasukan Profesor Zhou Zhihua dari Universiti Nanjing melancarkan platform sedemikian - Beimingwu.

Alamat: https://bmwu.cloud/

Beimingwu bukan sahaja menyediakan penyelidik dan pengguna dengan keupayaan untuk memuat naik model mereka sendiri, tetapi juga melakukan pemadanan model dan gabungan kolaborasi mengikut keperluan pengguna untuk mengendalikan pembelajaran dengan cekap tugasan.

Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem perisian pembelajaran menyelesaikan masalah penggunaan semula pembelajaran mesin, dan gabungan model muncul paradigma baharu penyelidikan saintifik

Alamat kertas: https://arxiv.org/abs/2401.14427

Beimingwu system warehouse: https://www.gitlink.org.cn/beimingwuu/beimingwu gudang alat: https://www.gitlink.org.cn/beimingwu/learnware

Ciri terbesar platform ini ialah pengenalan sistem perisian pembelajaran, yang telah mencapai kejayaan dalam merealisasikan model berdasarkan keperluan pengguna padanan dan keupayaan kerjasama.

Peralatan pembelajaran terdiri daripada model pembelajaran mesin dan spesifikasi yang menerangkan model, iaitu, "perkakas pembelajaran = model + spesifikasi".

Spesifikasi perisian pembelajaran terdiri daripada dua bahagian: "spesifikasi semantik" dan "spesifikasi statistik":

spesifikasi semantik menerangkan jenis dan fungsi model melalui teks

spesifikasi pembelajaran mesin teknologi , menggambarkan maklumat statistik yang terkandung dalam model.
  • Spesifikasi perisian pembelajaran menerangkan keupayaan model, supaya model itu boleh diiktiraf sepenuhnya dan digunakan semula pada masa hadapan tanpa pengguna mengetahui apa-apa tentang perisian pembelajaran terlebih dahulu untuk memenuhi keperluan pengguna.

Protokol ialah komponen teras sistem asas perisian pembelajaran, yang menghubungkan semua proses perisian pembelajaran dalam sistem, termasuk muat naik perisian pembelajaran, organisasi, carian, penggunaan dan penggunaan semula. Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem perisian pembelajaran menyelesaikan masalah penggunaan semula pembelajaran mesin, dan gabungan model muncul paradigma baharu penyelidikan saintifik

Sama seperti Yanziwu dalam "Dragon" terdiri daripada banyak pulau kecil, peraturan di Beimingwu juga seperti pulau kecil.

Peralatan pembelajaran daripada ruang ciri/penanda yang berbeza membentuk banyak pulau protokol, dan semua pulau protokol bersama-sama membentuk dunia protokol dalam sistem asas perisian pembelajaran. Dalam dunia protokol, jika hubungan antara pulau yang berbeza dapat ditemui dan diwujudkan, maka pulau protokol yang sepadan akan dapat digabungkan. Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem perisian pembelajaran menyelesaikan masalah penggunaan semula pembelajaran mesin, dan gabungan model muncul paradigma baharu penyelidikan saintifik

Di bawah paradigma perisian pembelajaran, pembangun di seluruh dunia boleh berkongsi model kepada sistem asas perisian pembelajaran Sistem ini membantu pengguna menyelesaikan tugas pembelajaran mesin dengan berkesan dengan mencari dan menggunakan semula perisian pembelajaran tanpa perlu membina pembelajaran mesin dari awal.

Beimingwu ialah pelaksanaan sumber terbuka sistematik pertama bagi perisian akademik, menyediakan platform penyelidikan saintifik awal untuk penyelidikan berkaitan perisian akademik.

Pembangun yang sudi berkongsi boleh menyerahkan model secara bebas, dan Gudang Pembelajaran akan membantu dalam menjana spesifikasi untuk membentuk perisian pembelajaran dan menyimpannya dalam Gudang Pembelajaran Dalam proses ini, pembangun tidak perlu mendedahkannya data latihan ke Gudang Pembelajaran. Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem perisian pembelajaran menyelesaikan masalah penggunaan semula pembelajaran mesin, dan gabungan model muncul paradigma baharu penyelidikan saintifik

Pengguna akan datang boleh menyerahkan keperluan mereka kepada Gudang Pembelajaran dan mencari bahan pembelajaran yang digunakan semula dengan bantuan Gudang Pembelajaran untuk menyelesaikan tugas pembelajaran mesin mereka, dan pengguna tidak perlu mendedahkan data mereka sendiri kepada Gudang Pembelajaran.

Dan pada masa hadapan, selepas dok pembelajaran mempunyai berjuta-juta bahagian pembelajaran, tingkah laku "muncul" mungkin akan berlaku: tugasan pembelajaran mesin yang tidak mempunyai model yang dibangunkan khas pada masa lalu boleh digunakan semula oleh beberapa bahagian pembelajaran sedia ada selesaikan.

Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem perisian pembelajaran menyelesaikan masalah penggunaan semula pembelajaran mesin, dan gabungan model muncul paradigma baharu penyelidikan saintifik

Sistem Pangkalan Perisian Pembelajaran

Pembelajaran mesin telah mencapai kejayaan besar dalam banyak bidang, tetapi ia masih menghadapi banyak masalah, seperti keperluan untuk sejumlah besar data latihan dan kemahiran latihan yang hebat, kesukaran pembelajaran berterusan, dan malapetaka. melupakan Risiko dan kebocoran privasi/pemilikan data, dsb.

Walaupun setiap masalah di atas mempunyai kajian yang sepadan, kerana masalah tersebut berganding antara satu sama lain, menyelesaikan salah satu masalah boleh menyebabkan masalah lain menjadi lebih serius.

Sistem asas pembelajaran berharap dapat menyelesaikan banyak masalah di atas pada masa yang sama melalui rangka kerja keseluruhan:

  • Kekurangan data/kemahiran latihan: Walaupun untuk pengguna biasa yang kurang kemahiran latihan atau mempunyai sedikit data, mereka boleh memperoleh model pembelajaran Mesin yang berkuasa kerana pengguna boleh mengambil perisian pembelajaran berprestasi tinggi daripada sistem asas perisian pembelajaran dan mengubah atau memperbaikinya lagi, dan bukannya membina model itu sendiri dari awal.
  • Pembelajaran berterusan: Memandangkan perisian pembelajaran dengan prestasi cemerlang yang dilatih dalam pelbagai tugasan dihantar secara berterusan, pengetahuan dalam sistem asas perisian pembelajaran akan terus diperkaya, seterusnya merealisasikan pembelajaran berterusan dan sepanjang hayat secara semula jadi.
  • Pelupaan bencana: Sebaik sahaja sesuatu pembelajaran diterima, ia akan sentiasa ditempatkan dalam sistem asas bahagian pembelajaran, melainkan semua aspek fungsinya boleh digantikan dengan bahagian pembelajaran lain. Oleh itu, pengetahuan lama dalam sistem asas pembelajaran sentiasa dikekalkan dan tidak pernah dilupakan.
  • Privasi/pemilikan data: Pembangun hanya menyerahkan model tanpa berkongsi data peribadi, jadi privasi/pemilikan data boleh dilindungi dengan baik. Walaupun kemungkinan kejuruteraan terbalik model itu tidak boleh diketepikan sepenuhnya, risiko kebocoran privasi dengan sistem asas pembelajaran adalah sangat kecil berbanding dengan banyak skim perlindungan privasi yang lain.

Komposisi sistem asas perisian pembelajaran

Seperti yang ditunjukkan dalam rajah di bawah, aliran kerja sistem dibahagikan kepada dua peringkat berikut:

  • Peringkat penyerahan: pembangun secara spontan menyerahkan pelbagai bahan pembelajaran kepada A sistem asas untuk bahagian pembelajaran yang melakukan pemeriksaan kualiti dan organisasi selanjutnya.
  • Peringkat penyebaran: Apabila pengguna menyerahkan keperluan tugasan, sistem asas perisian pembelajaran akan mengesyorkan perisian pembelajaran yang membantu tugas pengguna mengikut spesifikasi perisian pembelajaran dan membimbing pengguna untuk menggunakan dan menggunakannya semula.

Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem perisian pembelajaran menyelesaikan masalah penggunaan semula pembelajaran mesin, dan gabungan model muncul paradigma baharu penyelidikan saintifik

Protocol World

Protokol ialah komponen teras sistem asas perisian pembelajaran, yang menghubungkan semua proses perisian pembelajaran dalam sistem, termasuk memuat naik perisian pembelajaran, organisasi, carian, penggunaan dan penggunaan semula.

Perisian pembelajaran daripada ruang ciri/penanda yang berbeza membentuk banyak pulau protokol, dan semua pulau protokol bersama-sama membentuk dunia protokol dalam sistem asas perisian pembelajaran. Dalam dunia protokol, jika hubungan antara pulau yang berbeza dapat ditemui dan diwujudkan, maka pulau protokol yang sepadan akan dapat digabungkan.

Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem perisian pembelajaran menyelesaikan masalah penggunaan semula pembelajaran mesin, dan gabungan model muncul paradigma baharu penyelidikan saintifik

Apabila mencari, sistem asas pembelajaran mula-mula mencari pulau protokol tertentu melalui spesifikasi semantik dalam keperluan pengguna, dan kemudian mengenal pasti dengan tepat bahan pembelajaran di pulau protokol melalui spesifikasi statistik dalam keperluan pengguna. Penggabungan pulau protokol yang berbeza bermakna bahawa perisian pembelajaran yang sepadan boleh digunakan untuk tugasan dalam ruang ciri/penanda yang berbeza, iaitu, ia boleh digunakan semula untuk tugasan di luar tujuan asalnya.

Paradigma perisian pembelajaran membina ruang spesifikasi bersatu dengan menggunakan sepenuhnya keupayaan model pembelajaran mesin yang dikongsi oleh komuniti, dan menyelesaikan tugas pembelajaran mesin dengan cekap untuk pengguna baharu dengan cara yang bersatu. Apabila bilangan bahagian pembelajaran bertambah, dengan menyusun struktur bahagian pembelajaran secara berkesan, keupayaan keseluruhan sistem asas bahagian pembelajaran untuk menyelesaikan tugasan akan dipertingkatkan dengan ketara.

Seni bina Beimingwu

Seperti yang ditunjukkan dalam rajah di bawah, seni bina sistem Beimingwu terdiri daripada empat peringkat, daripada lapisan penyimpanan perisian pembelajaran kepada lapisan interaksi pengguna Ia adalah kali pertama untuk melaksanakan perisian pembelajaran secara sistematik paradigma bawah. Fungsi khusus empat peringkat adalah seperti berikut:

Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem perisian pembelajaran menyelesaikan masalah penggunaan semula pembelajaran mesin, dan gabungan model muncul paradigma baharu penyelidikan saintifik

  • Lapisan storan perisian pembelajaran: mengurus perisian pembelajaran yang disimpan dalam format pakej zip, dan menyediakan akses kepada maklumat yang berkaitan melalui pangkalan data perisian pembelajaran
  • Lapisan enjin sistem: merangkumi semua proses dalam paradigma perisian pembelajaran, termasuk memuat naik perisian pembelajaran, Mengesan, mengatur, mencari, menggunakan dan gunakan semula, dan dijalankan secara bebas daripada bahagian belakang dan bahagian hadapan dalam bentuk pakej Python perisian pembelajaran, menyediakan antara muka algoritma yang kaya untuk tugasan berkaitan perisian pembelajaran dan penerokaan penyelidikan saintifik
  • Lapisan belakang sistem: pelaksanaan Dengan penggunaan gred industri Beimingwu, ia menyediakan perkhidmatan dalam talian sistem yang stabil, dan menyokong interaksi pengguna antara bahagian hadapan dan pelanggan dengan menyediakan API bahagian belakang yang kaya
  • Lapisan interaksi pengguna: melaksanakan bahagian hadapan dan arahan berasaskan web berasaskan talian Pelanggan menyediakan cara yang kaya dan mudah untuk interaksi pengguna.

Penilaian eksperimen

Dalam kertas kerja, pasukan penyelidik juga membina pelbagai jenis senario percubaan asas untuk menilai algoritma penanda aras untuk penjanaan protokol, mempelajari pengecaman artifak dan penggunaan semula pada jadual, imej dan data teks.

Percubaan Data Jadual

Pada pelbagai set data jadual, pasukan terlebih dahulu menilai prestasi mengenal pasti dan menggunakan semula perisian pembelajaran daripada sistem perisian pembelajaran yang mempunyai ruang ciri yang sama dengan tugas pengguna.

Selain itu, memandangkan tugasan borang biasanya datang daripada ruang ciri yang berbeza, pasukan penyelidik juga menilai pengenalpastian dan penggunaan semula bahagian pembelajaran daripada ruang ciri yang berbeza.

Kes homogen

Dalam kes homogen, 53 stor dalam set data PFS bertindak sebagai 53 pengguna bebas.

Setiap kedai menggunakan data ujiannya sendiri sebagai data tugas pengguna dan menggunakan pendekatan kejuruteraan ciri bersatu. Pengguna ini kemudiannya boleh mencari sistem asas untuk item pembelajaran homogen yang berkongsi ruang ciri yang sama dengan tugas mereka.

Apabila pengguna tidak mempunyai data berlabel atau jumlah data berlabel adalah terhad, pasukan membandingkan algoritma penanda aras yang berbeza dan purata kerugian untuk semua pengguna ditunjukkan dalam rajah di bawah. Jadual kiri menunjukkan bahawa pendekatan tanpa data adalah lebih baik daripada memilih dan menggunakan perisian pembelajaran secara rawak daripada pasaran, carta yang betul menunjukkan bahawa apabila pengguna mempunyai data latihan yang terhad, mengenal pasti dan menggunakan semula perisian pembelajaran tunggal atau berbilang adalah lebih baik daripada terlatih pengguna; prestasi yang lebih baik.

Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem perisian pembelajaran menyelesaikan masalah penggunaan semula pembelajaran mesin, dan gabungan model muncul paradigma baharu penyelidikan saintifik

Jadual kiri menunjukkan bahawa pendekatan bebas data adalah lebih baik daripada memilih dan menggunakan perisian pembelajaran secara rawak daripada pasaran, angka yang betul menunjukkan bahawa apabila pengguna mempunyai data latihan yang terhad, mengenal pasti dan menggunakan semula satu atau berbilang perisian pembelajaran Perisian berprestasi lebih baik daripada model terlatih pengguna.

Kes heterogen

Berdasarkan persamaan antara perisian pasaran dan tugas pengguna, kes heterogen boleh dibahagikan lagi kepada kejuruteraan ciri yang berbeza dan senario tugas yang berbeza.

Senario kejuruteraan ciri yang berbeza:

Keputusan yang ditunjukkan di sebelah kiri dalam rajah di bawah menunjukkan bahawa walaupun pengguna kekurangan data anotasi, perisian pembelajaran dalam sistem masih boleh menunjukkan prestasi yang kukuh, terutamanya apabila berbilang perisian pembelajaran digunakan semula kaedah AverageEnsemble.

Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem perisian pembelajaran menyelesaikan masalah penggunaan semula pembelajaran mesin, dan gabungan model muncul paradigma baharu penyelidikan saintifik

Senario tugas yang berbeza:

Sebelah kanan rajah di atas menunjukkan keluk kerugian model latihan kendiri pengguna dan beberapa kaedah penggunaan semula perisian pembelajaran.

Jelas sekali, pengesahan percubaan komponen pembelajaran heterogen bermanfaat apabila jumlah data beranotasi pengguna adalah terhad dan membantu untuk menjajarkan dengan lebih baik dengan ruang ciri pengguna.

Eksperimen data imej dan teks

Selain itu, pasukan penyelidik menjalankan penilaian asas sistem pada set data imej.

Rajah di bawah menunjukkan bahawa memanfaatkan sistem asas pembelajaran boleh menghasilkan prestasi yang baik apabila pengguna menghadapi kekurangan data beranotasi atau hanya mempunyai jumlah data yang terhad (kurang daripada 2000 kejadian).

Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem perisian pembelajaran menyelesaikan masalah penggunaan semula pembelajaran mesin, dan gabungan model muncul paradigma baharu penyelidikan saintifik

Pasukan juga menjalankan penilaian asas sistem pada set data teks penanda aras. Penjajaran ruang ciri melalui pengekstrak ciri bersatu.

Seperti yang ditunjukkan dalam rajah di bawah, walaupun tiada data anotasi disediakan, prestasi yang diperoleh melalui pengenalan dan penggunaan semula perisian pembelajaran adalah setanding dengan perisian pembelajaran terbaik dalam sistem.

Selain itu, berbanding melatih model dari awal, menggunakan sistem asas pembelajaran boleh mengurangkan kira-kira 2000 sampel.

Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem perisian pembelajaran menyelesaikan masalah penggunaan semula pembelajaran mesin, dan gabungan model muncul paradigma baharu penyelidikan saintifik

Atas ialah kandungan terperinci Karya agung 8 tahun pasukan NTU Zhou Zhihua! Sistem "perisian pembelajaran" menyelesaikan masalah penggunaan semula pembelajaran mesin, dan "gabungan model" muncul paradigma baharu penyelidikan saintifik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam