Rumah >Peranti teknologi >AI >Direka khusus untuk pokok keputusan, Universiti Nasional Singapura & Universiti Tsinghua bersama-sama mencadangkan sistem pembelajaran bersekutu baharu yang pantas dan selamat
Pembelajaran bersekutu ialah bidang yang sangat hangat dalam pembelajaran mesin, yang merujuk kepada latihan bersama model oleh berbilang pihak tanpa memindahkan data. Dengan perkembangan pembelajaran bersekutu, sistem pembelajaran bersekutu muncul satu demi satu, seperti FATE, FedML, PaddleFL, TensorFlow-Federated dan sebagainya. Walau bagaimanapun, kebanyakan sistem pembelajaran bersekutu tidak menyokong latihan pembelajaran bersekutu model pokok. Berbanding dengan rangkaian saraf, model pokok mempunyai ciri-ciri latihan pantas, kebolehtafsiran yang kuat, dan sesuai untuk data jadual. Model pokok mempunyai pelbagai senario aplikasi dalam kewangan, penjagaan perubatan, Internet dan bidang lain, seperti pengesyoran pengiklanan, ramalan saham, dsb.
Model perwakilan pepohon keputusan ialah Pepohon Keputusan Penggalak Kecerunan (GBDT). Memandangkan keupayaan ramalan satu pokok adalah terhad, GBDT melatih berbilang pokok secara bersiri melalui kaedah penggalak, dan akhirnya mencapai kesan ramalan yang baik dengan menyesuaikan setiap pokok kepada baki nilai ramalan semasa dan nilai label. Sistem perwakilan GBDT termasuk XGBoost, LightGBM, CatBoost dan ThunderGBM Antaranya, XGBoost telah digunakan oleh pasukan kejohanan piala KDD berkali-kali. Walau bagaimanapun, tiada sistem ini menyokong latihan GBDT dalam senario pembelajaran bersekutu. Baru-baru ini, penyelidik dari Universiti Nasional Singapura dan Universiti Tsinghua mencadangkan sistem pembelajaran bersekutu baharu FedTree yang memfokuskan kepada melatih model pokok.
Pengenalan sistem FedTreeRajah seni bina FedTree ditunjukkan dalam Rajah 1. Terdapat 5 modul secara keseluruhan: antara muka, persekitaran, rangka kerja, perlindungan privasi dan model.
Rajah 1: Gambar rajah seni bina sistem FedTree
Antaramuka: FedTree menyokong dua antara muka: antara muka baris arahan dan antara muka Python. Pengguna hanya perlu memberikan parameter (bilangan peserta, senario persekutuan, dll.) dan boleh menjalankan FedTree untuk latihan dengan arahan satu baris. Antara muka Python FedTree serasi dengan scikit-learn, dan anda boleh memanggil fit() dan predict() untuk latihan dan ramalan.
Persekitaran: FedTree menyokong penggunaan simulasi pembelajaran bersekutu pada satu mesin dan penggunaan persekutuan teragih pada berbilang kajian mesin. Dalam persekitaran yang berdiri sendiri, FedTree menyokong pembahagian data kepada beberapa set sub-data, dan setiap set sub-data dilatih sebagai peserta. Dalam persekitaran berbilang mesin, FedTree menyokong setiap mesin sebagai peserta, dan mesin berkomunikasi melalui gRPC. Pada masa yang sama, sebagai tambahan kepada CPU, FedTree menyokong penggunaan GPU untuk mempercepatkan latihan.
Rangka Kerja: FedTree menyokong latihan GBDT dalam senario pembelajaran bersekutu mendatar dan menegak. Dalam senario mendatar, peserta yang berbeza mempunyai sampel latihan yang berbeza dan ruang ciri yang sama. Dalam senario menegak, peserta yang berbeza mempunyai ruang ciri yang berbeza dan sampel latihan yang sama. Untuk memastikan prestasi, dalam kedua-dua senario, berbilang pihak mengambil bahagian dalam latihan setiap nod. Selain itu, FedTree juga menyokong pembelajaran ensemble, di mana peserta melatih pokok secara selari dan kemudian mengagregatkannya untuk mengurangkan overhed komunikasi antara peserta.
Privasi: Memandangkan kecerunan yang berlalu semasa latihan mungkin membocorkan maklumat tentang data latihan, FedTree menyediakan Privasi yang berbeza -kaedah memelihara untuk melindungi maklumat kecerunan lagi termasuk penyulitan homomorfik (HE) dan pengagregatan selamat (SA). Pada masa yang sama, FedTree menyediakan privasi berbeza untuk melindungi model terlatih terakhir.
Model: Berdasarkan melatih pokok, FedTree menyokong latihan GBDT melalui kaedah boosting/bagging/hutan rawak . Dengan menetapkan fungsi kehilangan yang berbeza, model yang dilatih oleh FedTree menyokong pelbagai tugas, termasuk klasifikasi dan regresi.
EksperimenJadual 1 meringkaskan AUC sistem berbeza pada a9a, payudara dan kredit dan RMSE pada abalon, kesan model FedTree dan latihan GBDT (XGBoost, ThunderGBM) dengan semua data dan SecureBoost (SBT) dalam FATE hampir sama. Selain itu, dasar perlindungan privasi SA dan HE tidak menjejaskan prestasi model.
Jadual 1: Perbandingan kesan model sistem berbeza
Jadual 2 meringkaskan masa latihan (unit: saat) setiap pokok dalam sistem yang berbeza Dapat dilihat bahawa FedTree jauh lebih pantas daripada FATE, dan boleh mencapai nisbah pecutan lebih daripada 100 kali dalam persekutuan mendatar. senario pembelajaran.
Jadual 2: Perbandingan masa latihan untuk setiap pokok dalam sistem yang berbeza
Untuk butiran penyelidikan lanjut, sila rujuk kertas FedTree asal.
Atas ialah kandungan terperinci Direka khusus untuk pokok keputusan, Universiti Nasional Singapura & Universiti Tsinghua bersama-sama mencadangkan sistem pembelajaran bersekutu baharu yang pantas dan selamat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!