Maison  >  Article  >  Périphériques technologiques  >  Spécialement conçu pour les arbres de décision, l'Université nationale de Singapour et l'Université Tsinghua proposent conjointement un nouveau système d'apprentissage fédéré rapide et sécurisé.

Spécialement conçu pour les arbres de décision, l'Université nationale de Singapour et l'Université Tsinghua proposent conjointement un nouveau système d'apprentissage fédéré rapide et sécurisé.

王林
王林avant
2023-04-09 19:21:041299parcourir

L'apprentissage fédéré est un domaine très brûlant de l'apprentissage automatique, qui fait référence à la formation conjointe de modèles par plusieurs parties sans transfert de données. Avec le développement de l'apprentissage fédéré, des systèmes d'apprentissage fédéré émergent les uns après les autres, comme FATE, FedML, PaddleFL, TensorFlow-Federated, etc. Cependant, la plupart des systèmes d'apprentissage fédéré ne prennent pas en charge l'apprentissage fédéré des modèles d'arbres. Par rapport aux réseaux de neurones, les modèles arborescents ont les caractéristiques d'un apprentissage rapide, d'une forte interprétabilité et sont adaptés aux données tabulaires. Les modèles d'arbres ont un large éventail de scénarios d'application dans la finance, les soins médicaux, Internet et d'autres domaines, tels que les recommandations publicitaires, les prévisions boursières, etc.

Le modèle représentatif d'arbre de décision est l'arbre de décision à boosting de gradient (GBDT). Étant donné que la capacité de prédiction d'un arbre est limitée, GBDT entraîne plusieurs arbres en série via la méthode de boosting et obtient finalement un bon effet de prédiction en ajustant chaque arbre au résidu de la valeur de prédiction actuelle et de la valeur de l'étiquette. Les systèmes GBDT représentatifs incluent XGBoost, LightGBM, CatBoost et ThunderGBM. Parmi eux, XGBoost a été utilisé à plusieurs reprises par l'équipe de championnat de la coupe KDD. Cependant, aucun de ces systèmes ne prend en charge la formation GBDT dans les scénarios d'apprentissage fédéré. Récemment, des chercheurs de l'Université nationale de Singapour et de l'Université Tsinghua ont proposé un nouveau système d'apprentissage fédéré FedTree axé sur la formation de modèles d'arbres.

Spécialement conçu pour les arbres de décision, lUniversité nationale de Singapour et lUniversité Tsinghua proposent conjointement un nouveau système dapprentissage fédéré rapide et sécurisé.

  • Adresse papier : https://github.com/Xtra-Computing/FedTree/blob/main/FedTree_draft_paper.pdf
  • Adresse du projet : https://github.com/ Xtra-Computing/FedTree

Présentation du système FedTreeLe diagramme d'architecture FedTree est présenté dans la figure 1, avec un total de 5 modules : interface, environnement, cadre, protection de la vie privée et modèle.

Spécialement conçu pour les arbres de décision, lUniversité nationale de Singapour et lUniversité Tsinghua proposent conjointement un nouveau système dapprentissage fédéré rapide et sécurisé.

Figure 1 : Schéma de l'architecture du système FedTree

Interface  : FedTree prend en charge deux interfaces : l'interface de ligne de commande et l'interface Python. Les utilisateurs n'ont qu'à fournir des paramètres (nombre de participants, scénario de fédération, etc.) et peuvent exécuter FedTree pour s'entraîner avec une commande sur une seule ligne. L'interface Python de FedTree est compatible avec scikit-learn et vous pouvez appeler fit() et Predict() pour l'entraînement et la prédiction.

Environnement : FedTree prend en charge le déploiement simulé de l'apprentissage fédéré sur une seule machine et le déploiement de l'apprentissage fédéré distribué sur plusieurs machines. Dans un environnement autonome, FedTree prend en charge la division des données en plusieurs sous-ensembles de données, et chaque sous-ensemble de données est formé en tant que participant. Dans un environnement multi-machines, FedTree prend en charge chaque machine en tant que participant, et les machines communiquent via gRPC. Dans le même temps, en plus du CPU, FedTree prend en charge l'utilisation du GPU pour accélérer la formation.

Framework : FedTree prend en charge la formation des GBDT dans des scénarios d'apprentissage fédéré horizontaux et verticaux. Dans le scénario horizontal, différents participants disposent de différents échantillons de formation et du même espace de fonctionnalités. Dans le scénario vertical, différents participants disposent de différents espaces de fonctionnalités et des mêmes échantillons de formation. Afin de garantir les performances, dans les deux scénarios, plusieurs parties participent à la formation de chaque nœud. En outre, FedTree prend également en charge l'apprentissage d'ensemble, dans lequel les participants forment des arbres en parallèle, puis les regroupent pour réduire les frais de communication entre les participants.

Confidentialité : Étant donné que le gradient transmis pendant le processus de formation peut divulguer des informations sur les données de formation, FedTree propose différentes méthodes de protection de la confidentialité pour protéger davantage les informations du gradient, notamment le cryptage homomorphe (HE) et l'agrégation sécurisée. (SA). Dans le même temps, FedTree offre une confidentialité différentielle pour protéger le modèle final formé.

Modèle : Basé sur la formation d'un arbre, FedTree prend en charge la formation GBDT/forêt aléatoire via des méthodes de boosting/bagging. En définissant différentes fonctions de perte, le modèle formé par FedTree prend en charge diverses tâches, notamment la classification et la régression.

ExpériencesLe tableau 1 résume l'AUC de différents systèmes sur a9a, breast et credit et RMSE sur abalone, l'effet de modèle de FedTree et de formation GBDT (XGBoost, ThunderGBM) avec toutes les données et SecureBoost (SBT) dans FATE Presque cohérent. . De plus, les politiques de protection de la vie privée SA et HE n’affectent pas les performances du modèle.

Spécialement conçu pour les arbres de décision, lUniversité nationale de Singapour et lUniversité Tsinghua proposent conjointement un nouveau système dapprentissage fédéré rapide et sécurisé.

Tableau 1 : Comparaison des effets de modèle de différents systèmes

Le tableau 2 résume le temps de formation (unité : secondes) de chaque arbre dans différents systèmes. Vous pouvez voir que FedTree se compare à. FATE Il est beaucoup plus rapide et peut atteindre un taux d'accélération de plus de 100 fois dans les scénarios d'apprentissage fédéré horizontal.

Spécialement conçu pour les arbres de décision, lUniversité nationale de Singapour et lUniversité Tsinghua proposent conjointement un nouveau système dapprentissage fédéré rapide et sécurisé.

Tableau 2 : Comparaison du temps de formation pour chaque arbre dans différents systèmes

Pour plus de détails sur la recherche, veuillez vous référer à l'article original de FedTree.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer