Maison  >  Article  >  Périphériques technologiques  >  Apprentissage fédéré en informatique confidentielle

Apprentissage fédéré en informatique confidentielle

WBOY
WBOYavant
2023-04-29 22:55:051749parcourir

Les actifs de données sont devenus un outil clé dans la conception de produits et de services, mais la collecte centralisée des données des utilisateurs met en danger la vie privée, ce qui expose les organisations à des risques juridiques. À partir de 2016, les gens ont commencé à explorer comment utiliser la propriété et l’origine des données tout en protégeant la vie privée des utilisateurs, ce qui a fait de l’apprentissage fédéré et de l’analyse fédérée un sujet de préoccupation majeur. À mesure que la portée de la recherche continue de s’étendre, l’apprentissage fédéré a commencé à être appliqué à des domaines plus larges tels que l’Internet des objets.

Apprentissage fédéré en informatique confidentielle

Alors, qu’est-ce que l’apprentissage fédéré ?

L'apprentissage fédéré est une configuration d'apprentissage automatique dans laquelle plusieurs entités collaborent pour résoudre des problèmes d'apprentissage automatique sous la coordination d'un serveur central ou d'un fournisseur de services. Les données brutes sont stockées localement pour chaque client et ne sont ni échangées ni transférées. Des mises à jour ciblées des données sont utilisées pour une agrégation instantanée afin d'atteindre les objectifs d'apprentissage.

De même, la génération d'informations analytiques à partir des informations combinées d'ensembles de données dispersés est appelée analyse fédérée. Les scénarios rencontrés dans l'apprentissage fédéré s'appliquent également à l'analyse fédérée.

Cet article fournit une brève introduction aux concepts clés de l'apprentissage fédéré et de l'analyse, en se concentrant sur la manière d'intégrer les technologies de confidentialité aux systèmes du monde réel, et sur la manière dont ces technologies peuvent être utilisées pour obtenir des avantages sociaux grâce à des statistiques agrégées dans de nouveaux domaines et intégrer des individus. et les gardiens de données sont minimisés.

Apprentissage fédéré en informatique confidentielle

1. Protection de la vie privée et apprentissage fédéré

La confidentialité est essentiellement un concept à multiples facettes avec trois éléments clés : la transparence et l'autorisation des utilisateurs ;

La transparence et le consentement des utilisateurs sont le fondement de la protection de la vie privée : ils constituent la manière dont les utilisateurs comprennent et reconnaissent l'utilisation de leurs données. Les technologies préservant la confidentialité ne peuvent pas remplacer la transparence et le consentement des utilisateurs, mais elles permettent de déduire plus facilement quels types de données peuvent être utilisées ou sont exclues par conception, ce qui rend les déclarations de confidentialité plus faciles à comprendre, à vérifier et à appliquer. Les principaux objectifs de l'utilisation des données sont de générer des modèles d'apprentissage fédérés et de calculer des métriques ou d'autres statistiques globales des données utilisateur (telles que l'analyse fédérée).

La minimisation des données appliquée à l'agrégation comprend la collecte uniquement des données nécessaires à un calcul spécifique, la limitation de l'accès à ces données à toutes les étapes, le traitement des données personnelles le plus tôt possible et la conservation des données au minimum. Autrement dit, la minimisation des données signifie restreindre l'accès à toutes les données au plus petit groupe de personnes possible, généralement via des mécanismes de sécurité tels que le cryptage, le contrôle d'accès et des environnements de calcul multipartites sécurisés et d'exécution fiables.

L'anonymisation des données signifie que le résultat final du calcul ne révèle rien d'unique à l'individu. Lorsqu'elles sont utilisées pour une agrégation anonyme, les données fournies par tout utilisateur individuel au calcul ont peu d'impact sur le résultat agrégé final. Par exemple, lors de la publication de statistiques globales au public, les statistiques globales, y compris les paramètres du modèle, ne doivent pas différer de manière significative selon que les données d'un utilisateur spécifique sont incluses ou non dans l'agrégat.

C'est-à-dire que la minimisation des données implique l'exécution de calculs et le traitement des données, tandis que l'anonymisation des données implique ce qui est calculé et publié.

L'apprentissage fédéré incarne structurellement la minimisation des données. Il est important de noter que la collecte et l'agrégation des données sont indissociables dans une approche fédérée, les données clients sont transformées et collectées pour une agrégation immédiate, et les analystes n'ont pas accès aux messages de chaque client. L'apprentissage fédéré et l'analyse fédérée sont des exemples de modèles informatiques fédérés généraux qui incarnent des pratiques de minimisation des données. L'approche traditionnelle est le traitement centralisé, qui remplace le prétraitement et l'agrégation sur l'appareil par la collecte de données. Lors du traitement des données de journal, la minimisation des données se produit sur le serveur.

Les objectifs de l'apprentissage fédéré et de l'analyse fédérée sont cohérents avec les objectifs de l'agrégation anonyme. Avec l’apprentissage automatique, l’objectif est de former un modèle qui prédit avec précision tous les utilisateurs sans surapprentissage. De même, pour les requêtes statistiques, l'objectif est d'estimer des statistiques, qui ne devraient pas être grandement affectées par les données d'un utilisateur donné.

L'apprentissage fédéré combiné à des techniques de préservation de la vie privée telles que la confidentialité différentielle peuvent garantir que les agrégations publiées bénéficient d'un anonymat suffisant. Dans de nombreux cas, l'anonymat des données peut ne pas s'appliquer et l'accès direct des prestataires de services aux données sensibles d'un individu est inévitable, mais dans ces interactions, les prestataires de services ne doivent utiliser les données qu'aux fins prévues.

2. Points clés de l'apprentissage fédéré

Les caractéristiques de l'apprentissage fédéré sont qu'il maintient la décentralisation des données d'origine et apprend par agrégation. Les données générées localement sont hétérogènes en termes de distribution et de quantité, ce qui distingue l'apprentissage fédéré des environnements d'apprentissage distribués traditionnels basés sur les centres de données. Les données de ces derniers peuvent être arbitrairement distribuées et nettoyées, et n'importe quel nœud du calcul peut accéder à toutes les données. En pratique, le rôle d'un centre de contrôle est important et souvent nécessaire, par exemple pour les appareils mobiles dépourvus d'adresses IP fixes et nécessitant un serveur central pour communiquer.

2.1 Scénarios et applications typiques

Deux scénarios fédérés ont fait l'objet d'une attention particulière :

Apprentissage fédéré multi-appareils, où le client est un grand nombre d'appareils mobiles ou d'appareils IoT.

Pour l'apprentissage fédéré inter-organisationnel, le client est généralement une petite organisation, une institution ou un autre îlot de données.

Le tableau 1, adapté de Kairouz et al.,10 résume les principales caractéristiques des paramètres FL et met en évidence certaines différences clés entre les paramètres multi-appareils et multi-silos, ainsi qu'une comparaison avec l'apprentissage distribué dans les centres de données.

L'apprentissage fédéré multi-appareils a été utilisé respectivement sur les téléphones Android et iOS pour de nombreuses applications telles que la prédiction du clavier. L'apprentissage fédéré entre organisations est utilisé dans des problèmes tels que la recherche en santé. Une autre application en plein essor est la finance, avec des investissements de WeBank, Credit Suisse, Intel et d'autres.

Les caractéristiques des scénarios d'apprentissage fédéré typiques sont comparées dans le tableau suivant :

Échelle de distribution Attributs du client

Projet

Apprentissage distribué dans le centre de données

Inter-organisationnel apprentissage fédéré

Apprentissage fédéré croisé des appareils

Configuration

Entraînez des modèles sur de grands ensembles de données plats, le client est un nœud sur un cluster ou un centre de données

Entraînez des modèles à travers des silos de données, les clients sont des organisations différentes ou des centres de données dans différentes régions

Les clients sont d'énormes appareils mobiles ou appareils IoT

Distribution des données

Les données sont stockées de manière centralisée et peuvent être nettoyées et équilibrées entre les clients. N'importe quel client peut accéder à n'importe quelle partie de l'ensemble de données.

Les données sont générées et stockées localement, maintenant la décentralisation. Chaque client ne peut pas accéder aux données des autres clients, et les données ne sont ni indépendantes ni distribuées de manière homogène

Les données sont générées et stockées localement, maintenant la décentralisation. Chaque client ne peut pas accéder aux données des autres clients, et les données ne sont ni indépendantes ni distribuées de manière homogène

"Orchestration centralisée"

1~ 1000

2~100

des dizaines de millions

Le client est authentique et digne de confiance, participe toujours aux calculs et maintient s état dans les calculs.

Le client est authentique et digne de confiance, participe toujours aux calculs et maintient l'état des calculs.

Non disponible pour tous les clients, généralement échantillonnés au hasard à partir des appareils disponibles. Un grand nombre de clients ne participent qu'une seule fois à un calcul.

2.2 Algorithme d'apprentissage fédéré

L'apprentissage automatique, en particulier l'apprentissage profond, est généralement gourmand en données et en calculs, de sorte que la faisabilité de former conjointement des modèles de qualité est loin d'arriver à la conclusion souhaitée. L'algorithme d'apprentissage fédéré est basé sur l'algorithme classique de descente de gradient stochastique, largement utilisé pour entraîner des modèles d'apprentissage automatique dans des environnements traditionnels. Le modèle est une fonction allant des échantillons d'apprentissage aux prédictions, paramétrée par un vecteur de poids du modèle et une fonction de perte qui mesure l'erreur entre les prédictions et le résultat réel. En échantillonnant un lot d'échantillons d'apprentissage (généralement de dizaines à milliers), calculez le gradient moyen de la fonction de perte par rapport aux poids du modèle, puis ajustez les poids du modèle dans la direction opposée du gradient. En ajustant de manière appropriée la taille du pas de chaque itération, une convergence satisfaisante peut être obtenue même pour les fonctions non convexes.

L'extension de l'apprentissage fédéré consiste à diffuser les poids du modèle actuel à un groupe de clients aléatoires, à les laisser chacun calculer le gradient de perte sur les données locales, et à faire la moyenne de ces gradients sur les clients sur le serveur, puis à mettre à jour les pondérations globales du modèle. Cependant, de nombreuses itérations supplémentaires sont généralement nécessaires pour produire un modèle très précis. Un calcul approximatif montre que dans un environnement d'apprentissage fédéré, une itération peut prendre plusieurs minutes, ce qui signifie que la formation fédérée peut durer d'un mois à un an, au-delà du cadre pratique.

L'idée clé de l'apprentissage fédéré est intuitive, réduisant les coûts de communication et de démarrage en effectuant plusieurs étapes de descente de gradient stochastique localement sur chaque appareil, ce qui réduit ensuite le nombre moyen de mises à jour du modèle. Si le modèle fait une moyenne après chaque étape locale, il peut être trop lent ; si la moyenne est trop faible, elle peut diverger et la moyenne peut produire un modèle moins bon.

La formation du modèle peut être simplifiée à l'application de l'agrégation fédérée, c'est-à-dire la moyenne des gradients ou des mises à jour du modèle.

2.3 Flux de travail typique

Avoir un algorithme fédéré réalisable est un point de départ nécessaire, cependant, si vous souhaitez réaliser un apprentissage fédéré multi-appareils a Un moyen efficace de diriger les équipes produit nécessite quelque chose de plus. Pour l'apprentissage fédéré multi-appareils, un flux de travail typique est généralement le suivant :

(1) Identifiez le problème

Habituellement, cela signifie exiger un Modèles sur des appareils de taille moyenne (1 à 50 Mo) ; les données de formation potentielles disponibles sur l'appareil sont plus riches ou plus représentatives que celles disponibles dans le centre de données ; il existe des raisons de confidentialité ou d'autres raisons de préférer ne pas centraliser les données nécessaires ; entraîner le modèle Le signal est facilement disponible sur l'appareil.

(2) Développement et évaluation du modèle

Comme pour toute tâche d'apprentissage automatique, choisissez la structure de modèle et les hyperparamètres corrects (taux d'apprentissage, lot taille, régularisation) sont essentiels au succès de l’apprentissage automatique. Dans l'apprentissage fédéré, le défi peut être plus grand, ce qui introduit de nombreux nouveaux hyperparamètres, tels que le nombre de clients participant à chaque cycle, le nombre d'étapes locales à effectuer, etc. Un point de départ courant est la simulation utilisant l'apprentissage fédéré basé sur les données d'agent disponibles dans le centre de données, avec une sélection et un réglage grossiers du modèle. La mise au point et l'évaluation finales doivent être effectuées à l'aide d'une formation fédérée sur des équipements réels. L'évaluation doit également être effectuée de manière fédérée : indépendamment du processus de formation, les modèles globaux candidats sont envoyés aux appareils afin que les mesures de précision puissent être calculées sur les ensembles de données locaux de ces appareils et agrégées par le serveur, par exemple une simple moyenne de les performances et les histogrammes de chaque client sont tous deux importants. Ces demandes créent deux exigences clés en matière d'infrastructure : (1) fournir une infrastructure de simulation d'apprentissage fédéré hautes performances qui permet une transition en douceur vers une exécution sur des appareils réels ; (2) une infrastructure multi-appareils qui facilite la gestion simultanée de plusieurs formations et évaluations ; tâches accomplies.

(3) Déploiement

Une fois qu'un modèle candidat de haute qualité est sélectionné à l'étape 2, le déploiement du modèle suit généralement les données Les mêmes procédures pour la formation centralisée des modèles, y compris une validation et des tests supplémentaires (pouvant inclure une assurance qualité manuelle), des tests A/B sur site par rapport aux modèles de production précédents et un déploiement progressif sur l'ensemble du parc d'appareils (qui peut être plus rapide). que de participer réellement à une formation sur modèle) (appareils de plusieurs ordres de grandeur de plus).

Il convient de noter que tout le travail de l'étape 2 n'a aucun impact sur l'expérience utilisateur des appareils impliqués dans la formation et l'évaluation ; les modèles formés à l'aide de l'apprentissage fédéré ne permettront pas aux utilisateurs de voir les prédictions à moins qu'ils n'effectuent les étapes de déploiement. . Veiller à ce que ce traitement n’ait pas d’impact négatif sur l’équipement constitue un défi majeur en matière d’infrastructure. Par exemple, des calculs intensifs ne peuvent être effectués que lorsque l'appareil et le réseau sont inactifs.

Ces workflows représentent un défi important pour créer une infrastructure et des API évolutives.

3. Protection de la confidentialité dans l'informatique fédérée

L'apprentissage fédéré offre divers avantages en matière de confidentialité dès le départ. Suivant le principe de minimisation des données, les données brutes restent sur l'appareil et les mises à jour envoyées au serveur sont concentrées sur une cible spécifique et agrégées le plus rapidement possible. En particulier, aucune donnée non agrégée n'est stockée sur le serveur, le cryptage de bout en bout protège les données en transit et les clés de déchiffrement ainsi que les valeurs déchiffrées ne sont stockées que temporairement dans la RAM. Les ingénieurs et analystes en apprentissage automatique qui interagissent avec le système n’ont accès qu’aux données agrégées. L'agrégation joue un rôle fondamental dans les approches fédérées, ce qui rend naturel la limitation de l'impact d'un client unique sur le résultat, mais si l'objectif est de fournir des garanties plus formelles, telles que la confidentialité différentielle, l'algorithme doit alors être soigneusement conçu.

Bien que les méthodes d'apprentissage fédéré de base aient fait leurs preuves et soient largement adoptées, elles sont encore loin d'être utilisées par défaut et les tensions inhérentes entre l'équité, l'exactitude, la vitesse de développement et le coût de calcul peuvent faire obstacle aux méthodes de minimisation et d'anonymisation des données. Par conséquent, nous avons besoin de techniques composables améliorant la confidentialité. En fin de compte, les décisions concernant le déploiement de la technologie de confidentialité sont prises par l'équipe du produit ou du service en consultation avec des experts en matière de confidentialité, de politique et juridiques dans le domaine spécifique. Les produits peuvent fournir des protections supplémentaires de la confidentialité grâce aux systèmes d'apprentissage fédéré disponibles et, peut-être plus important encore, aider les experts en politiques à renforcer les définitions et les exigences en matière de confidentialité au fil du temps.

Lorsque l'on considère les fonctionnalités de confidentialité des systèmes fédérés, il est utile de prendre en compte les points d'accès et les modèles de menace. Les participants ont-ils accès à un appareil physique ou à un réseau ? Via un accès root ou physique au serveur desservant FL ? Publier des modèles et des métriques pour les ingénieurs en machine learning ? Modèle final déployé ? À mesure que les informations transitent par ce système, le nombre de parties potentiellement malveillantes varie considérablement. Par conséquent, les déclarations de confidentialité doivent être évaluées comme un système complet de bout en bout. Si des mesures de sécurité appropriées ne sont pas prises pour protéger les données brutes sur l'appareil ou l'état informatique intermédiaire en transit, la garantie que le modèle finalement déployé stocke les données utilisateur peut ne pas avoir d'importance.

La minimisation des données répond aux menaces potentielles contre les appareils, les réseaux et les serveurs en améliorant la sécurité et en minimisant la conservation des données et des résultats intermédiaires. Lorsque les modèles et les métriques sont publiés auprès des ingénieurs modèles ou déployés dans des environnements de production, l'agrégation anonyme protège les données personnelles des parties accédant à ces résultats publiés.

3.1 Minimisation des données agrégées

À plusieurs moments de l'informatique fédérée, les participants s'attendent à ce que les uns et les autres prennent les actions appropriées, et uniquement ces actions. Par exemple, les serveurs s'attendent à ce que les clients effectuent leurs étapes de prétraitement avec précision ; les clients s'attendent à ce que les serveurs gardent leurs mises à jour individuelles privées jusqu'à ce qu'elles soient regroupées. Les clients et les serveurs s'attendent à ce que ni les analystes de données ni les utilisateurs des modèles d'apprentissage automatique déployés ne puissent extraire des données personnelles, etc. ; .

La technologie préservant la confidentialité soutient l'exécution structurelle de ces composants et empêche les participants de s'écarter. En fait, le système fédéré lui-même peut être considéré comme une technologie de préservation de la confidentialité qui empêche structurellement le serveur d'accéder aux données client qui ne sont pas incluses dans les mises à jour soumises par le client.

Prenons l'exemple de l'étape d'agrégation. Un système idéal imaginerait un tiers entièrement fiable regroupant les mises à jour du client et ne montrant que l'agrégation finale au serveur. En pratique, un tel tiers de confiance mutuelle n’existe généralement pas pour jouer ce rôle, mais diverses techniques permettent aux systèmes d’apprentissage fédéré de simuler un tel tiers dans diverses conditions.

Par exemple, un serveur peut exécuter le processus d'agrégation au sein d'une enclave sécurisée, qui est un élément matériel spécialement construit qui non seulement prouve au client quel code il exécute, mais garantit également que personne ne peut observer ou altérer le code. exécution du code. Cependant, actuellement, la disponibilité d'environnements sécurisés, que ce soit dans le cloud ou sur des appareils grand public, est limitée et les environnements de sécurité disponibles ne peuvent mettre en œuvre que certains domaines d'attributs spécifiés. De plus, même lorsqu'ils sont disponibles et entièrement fonctionnels, les environnements sécurisés peuvent imposer des limitations supplémentaires, notamment une mémoire ou une vitesse très limitée ; être vulnérables aux données exposées via des canaux secondaires (par exemple, il est difficile de vérifier le sexe correct qui repose sur l'authentification ); les services fournis par le fabricant (tels que la confidentialité des clés), etc.

Les protocoles de cryptage distribués pour le calcul sécurisé multipartite peuvent être utilisés de manière collaborative pour simuler des tiers de confiance sans avoir besoin de matériel spécialisé, à condition que les participants soient suffisamment honnêtes. Alors que le calcul sécurisé multipartite de fonctions arbitraires reste un obstacle informatique dans la plupart des cas, des algorithmes d'agrégation spécialisés pour la sommation vectorielle dans des environnements fédérés ont été développés pour préserver la confidentialité même contre un adversaire qui observe le serveur et contrôle la majorité des clients. robuste aux calculs de sortie client :

Efficacité de la communication – O (log n + l) communication par client, où n représente le nombre d'utilisateurs et l représente la longueur du vecteur, petites constantes dans une large gamme d'applications. Le trafic généré est inférieur à deux fois. le trafic global ;

Efficacité informatique – calcul O (log2n + llogn) par client

Des protocoles d'agrégation cryptographiquement sécurisés ont été largement déployés dans les systèmes informatiques fédérés commerciaux. Outre les agrégations privées, des techniques de préservation de la confidentialité peuvent être utilisées pour protéger d'autres parties du système fédéré. Par exemple, un environnement sécurisé ou des techniques cryptographiques (par exemple, des preuves sans connaissance) peuvent garantir que le serveur peut être sûr que le client a correctement effectué le prétraitement. Même l'étape de diffusion du modèle peut en bénéficier : pour de nombreuses tâches d'apprentissage, un seul client peut ne disposer que de données pertinentes pour une petite partie du modèle, auquel cas le client peut récupérer en privé cette partie du modèle pour l'entraînement, encore une fois en utilisant un environnement sécurisé. ou des techniques de cryptage pour garantir que le serveur n'apprend aucune partie du modèle contenant des données de formation associées au client.

3.2 Agrégations anonymes calculées et vérifiées

Bien que les environnements sécurisés et les techniques d'agrégation de confidentialité puissent améliorer la minimisation des données, ils ne sont pas spécifiquement conçus pour générer des agrégats anonymes. Par exemple, limitez l’influence des utilisateurs sur le modèle en cours de formation. En fait, le modèle appris peut divulguer des informations sensibles dans certains cas.

La méthode standard d'anonymisation des données est la confidentialité différentielle. Pour le processus général d'agrégation d'enregistrements dans une base de données, la confidentialité différentielle nécessite de limiter la contribution de tout enregistrement à l'agrégat, puis d'ajouter une perturbation aléatoire proportionnellement appropriée. Par exemple, dans l'algorithme de descente de gradient stochastique différentiellement privé, la norme du gradient est écrêtée, les gradients écrêtés sont agrégés et un bruit gaussien est ajouté à chaque époque d'entraînement.

Les algorithmes différentiels de confidentialité sont nécessairement stochastiques, donc la distribution du modèle produit par l'algorithme sur un ensemble de données spécifique peut être considérée. Intuitivement, cette distribution entre les modèles est similaire lorsqu’un algorithme différentiellement privé est exécuté sur un seul ensemble de données d’entrée avec différents enregistrements. Formellement, la confidentialité différentielle est quantifiée par un paramètre de perte de confidentialité (ε, δ), où un plus petit (ε, δ) correspond à une confidentialité accrue. Cela va au-delà de la simple limitation de la sensibilité du modèle à chaque enregistrement, en ajoutant un bruit proportionnel à l'impact de n'importe quel enregistrement, garantissant ainsi suffisamment de caractère aléatoire pour masquer la contribution d'un enregistrement à la sortie.

Dans le scénario d'apprentissage fédéré multi-appareils, les enregistrements sont définis comme toutes les instances de formation d'un seul utilisateur/client. La confidentialité différentielle peut être au niveau de l’utilisateur ou proportionnelle. Même dans des configurations centralisées, les algorithmes d'apprentissage fédéré sont bien adaptés à la formation avec des garanties de confidentialité au niveau de l'utilisateur, car ils calculent une seule mise à jour de modèle à partir de toutes les données d'un utilisateur, ce qui facilite la liaison de la contribution de chaque utilisateur à l'impact total de la mise à jour du modèle.

Fournir des garanties formelles (ε, δ) dans le contexte des systèmes d'apprentissage fédéré multi-appareils peut être particulièrement difficile car l'ensemble de tous les utilisateurs éligibles est dynamique et non connu à l'avance, et les utilisateurs participants peuvent À tout moment de la phase de formation, la création d'un protocole de bout en bout adapté aux systèmes d'apprentissage fédéré de production reste un problème important qui doit être résolu.

Dans le scénario d'apprentissage fédéré inter-organisationnel, les unités de confidentialité peuvent avoir différentes significations. Par exemple, les enregistrements peuvent être définis comme tous les exemples dans un silo de données si les institutions participantes souhaitent garantir l'accès aux itérations du modèle ou si le modèle final n'est pas en mesure de déterminer si l'ensemble de données d'une institution particulière a été utilisé pour entraîner le modèle. La confidentialité différentielle au niveau de l’utilisateur a toujours du sens dans les contextes inter-organisationnels. Toutefois, si plusieurs institutions détiennent des enregistrements du même utilisateur, il peut être plus difficile de faire respecter la confidentialité au niveau de l’utilisateur.

Dans le passé, l'analyse différentielle des données de confidentialité a été principalement utilisée pour des agrégateurs centraux ou de confiance, où les données brutes sont collectées par des fournisseurs de services de confiance qui mettent en œuvre des algorithmes de confidentialité différentielle. La confidentialité différentielle locale évite le recours à un agrégateur totalement fiable, mais entraîne une baisse drastique de la précision.

Afin de restaurer l'utilité de la confidentialité différentielle centralisée sans avoir à s'appuyer sur un serveur central entièrement fiable, certaines méthodes émergentes peuvent être utilisées, souvent appelées confidentialité différentielle distribuée. Le but est de rendre la sortie différemment privée avant que le serveur ne la voie (en texte clair). Dans le cadre de la confidentialité différentielle distribuée, le client calcule d'abord les données minimales spécifiques à l'application, perturbe légèrement ces données avec du bruit aléatoire et exécute le protocole d'agrégation de confidentialité. Le serveur n’a alors accès qu’à la sortie du protocole d’agrégation de confidentialité. Le bruit ajouté par un seul client n'est généralement pas suffisant pour fournir des garanties significatives de différenciation locale. Cependant, après l'agrégation de la confidentialité, le résultat du protocole d'agrégation de la confidentialité fournit des garanties DP plus fortes basées sur la somme du bruit sur tous les clients. Sur la base des hypothèses de sécurité requises par le protocole d'agrégation de confidentialité, cela s'applique même aux personnes ayant accès au serveur.

Pour qu'un algorithme fournisse des garanties formelles de confidentialité au niveau de l'utilisateur, non seulement la sensibilité du modèle doit être liée aux données de chaque utilisateur, mais il faut également ajouter un bruit proportionnel à cette sensibilité. Bien qu'un bruit aléatoire suffisant doive être ajouté pour garantir que la définition de confidentialité différentielle ait un ε suffisamment petit pour fournir de solides garanties, limiter la sensibilité même avec un faible bruit peut réduire considérablement le déchiffrement. Parce que la confidentialité différentielle suppose un « adversaire du pire des cas » avec un calcul et un accès illimités aux informations de chaque côté. Ces hypothèses sont souvent irréalistes en pratique. Par conséquent, la formation avec des algorithmes différentiellement privés qui limitent l’influence de chaque utilisateur présente des avantages substantiels. Cependant, la conception d’algorithmes pratiques d’apprentissage fédéré et d’analyse fédérée pour obtenir de petites garanties ε est un domaine de recherche important.

Des techniques d'audit modèle peuvent être utilisées pour quantifier davantage les avantages de la formation avec confidentialité différentielle. Ils incluent la quantification de la mesure dans laquelle un modèle surapprend ou des exemples de formation rares, et la quantification de la mesure dans laquelle il est possible de déduire si un utilisateur a utilisé la technique pendant la formation. Ces techniques d’audit sont utiles même lorsque l’on utilise un ε grand, et elles peuvent quantifier l’écart entre les pires adversaires différentiellement privés et les adversaires réalistes avec une puissance de calcul et des informations secondaires limitées. Elles peuvent également servir de techniques complémentaires aux tests de résistance : contrairement aux affirmations mathématiques formelles sur la confidentialité différentielle, ces techniques d'audit s'appliquent à des systèmes complets de bout en bout, détectant potentiellement des bogues logiciels ou des choix de paramètres incorrects.

4. Analyse fédérée

En plus de l'apprentissage de modèles d'apprentissage automatique, les analystes de données sont souvent intéressés par l'application de méthodes de science des données pour analyser les données brutes sur les appareils des utilisateurs locaux. Par exemple, les analystes pourraient être intéressés par les métriques agrégées du modèle, les tendances et activités populaires, ou les cartes thermiques de localisation géospatiale. Tout cela peut être accompli à l’aide d’analyses fédérées. Semblable à l'apprentissage fédéré, l'analyse fédérée fonctionne en exécutant des calculs locaux sur les données de chaque appareil et en fournissant uniquement des résultats agrégés. Cependant, contrairement à l'apprentissage fédéré, l'analyse fédérée est conçue pour répondre aux besoins de base de la science des données, tels que les décomptes, les moyennes, les histogrammes, les quantiles et autres requêtes de type SQL.

Pour une application dans laquelle un analyste souhaite utiliser l'analyse fédérée pour apprendre les 10 chansons les plus jouées dans une bibliothèque musicale partagée par de nombreux utilisateurs. Cette tâche peut être effectuée à l’aide des techniques de fédération et de confidentialité décrites ci-dessus. Par exemple, un client pourrait encoder les chansons qu'il a écoutées dans un vecteur binaire de longueur égale à la taille de la bibliothèque et utiliser la confidentialité différentielle distribuée pour garantir que le serveur ne puisse voir qu'une seule valeur de ces vecteurs, compte tenu du nombre d'utilisateurs. a joué chaque chanson L'histogramme différentiel de confidentialité de .

Cependant, les tâches d'analyse fédérée diffèrent des tâches d'apprentissage fédéré sur plusieurs aspects :

Les algorithmes d'analyse fédérée sont généralement non interactifs et impliquent un grand nombre de clients. En d’autres termes, contrairement aux applications d’apprentissage fédéré, il n’y a aucun rendement décroissant à avoir plus de clients au cours d’un cycle. Par conséquent, l’application de la confidentialité différentielle dans l’analyse fédérée est moins difficile puisque chaque cycle peut inclure un plus grand nombre de clients et nécessite moins de cycles.

Il n'est pas nécessaire que les mêmes clients participent à nouveau aux tours suivants. En fait, réengager les clients peut également biaiser les résultats de l'algorithme. Par conséquent, la tâche d’analyse fédérée est mieux servie par une infrastructure qui limite le nombre de fois qu’un individu peut participer.

Les tâches d'analyse fédérée sont souvent rares, ce qui fait de l'agrégation efficace de la confidentialité un sujet particulièrement important.

Il convient de noter que bien que la participation restreinte des clients et l'agrégation clairsemée soient particulièrement pertinentes pour l'analyse fédérée, elles peuvent également être appliquées aux problèmes d'apprentissage fédéré.

5. Résumé

L'apprentissage fédéré est appliqué à davantage de types de données et de domaines problématiques, et a même été considéré comme une méthode importante de confidentialité informatique, c'est-à-dire une méthode de protection de la vie privée pour l'IA. l'article n'implique pas d'apprentissage fédéré. Défis en matière de personnalisation, de robustesse, d'équité et de mise en œuvre du système. Concernant la pratique de l’apprentissage fédéré, TensorFlow Federated peut être un bon point de départ.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer