Maison >Problème commun >Que signifie la désensibilisation au Big Data ?

Que signifie la désensibilisation au Big Data ?

Guanhuioriginal: 2020-05-30 17:39:577999parcourir

Que signifie la désensibilisation des données Big Data ?

La désensibilisation des données Big Data, également connue sous le nom de blanchiment des données, de privatisation des données ou de transformation des données, fait référence à la transformation de certaines informations sensibles grâce à des règles de désensibilisation pour obtenir une protection fiable des données privées sensibles, de sorte que l'ensemble de données réelles désensibilisées puisse être utilisé en toute sécurité dans le développement, les tests, d'autres environnements de non-production et des environnements d'externalisation.

Technologie de désensibilisation des données privées

Habituellement, sur les plateformes Big Data, les données sont stockées dans un format structuré, et chaque table est composé de plusieurs lignes, et chaque ligne de données est composée de plusieurs colonnes. Selon les attributs de données de la colonne, les colonnes de données peuvent généralement être divisées dans les types suivants :

Les colonnes qui permettent de localiser avec précision une personne sont appelées colonnes identifiables, telles que le numéro d'identification, l'adresse, le nom, etc.

Une seule colonne ne peut pas localiser un individu, mais plusieurs colonnes d'informations peuvent être utilisées pour potentiellement identifier une personne. Ces colonnes sont appelées colonnes semi-identifiantes, telles que le code postal, la date de naissance et le sexe. Un document de recherche réalisé aux États-Unis a déclaré que 87 % des Américains peuvent être identifiés en utilisant uniquement le code postal, la date de naissance et le sexe[3].

Colonnes contenant des informations sensibles sur les utilisateurs, telles que les montants des transactions, les maladies et les revenus.

Autres colonnes qui ne contiennent pas d'informations utilisateur sensibles.

Ce que l'on appelle la prévention des fuites de données confidentielles consiste à empêcher les personnes qui utilisent les données (analystes de données, ingénieurs BI, etc.) d'identifier une certaine ligne de données comme étant les informations d'une certaine personne. La technologie de désensibilisation des données désensibilise les données, telles que la suppression des colonnes d'identification, la conversion des colonnes semi-identifiantes, etc., afin que les utilisateurs de données puissent garantir que les colonnes semi-identifiantes n°2 (après conversion), les colonnes d'informations sensibles n°3 et la colonne n°4 activée. sur la base de l'analyse des données dans d'autres colonnes, il est garanti dans une certaine mesure qu'il ne peut pas identifier les utilisateurs à l'envers sur la base des données, atteignant ainsi un équilibre entre assurer la sécurité des données et maximiser la valeur des données.

Types de fuite de données confidentielles

Les fuites de données confidentielles peuvent être divisées en plusieurs types. Selon différents types, différents modèles de risque de fuite de données confidentielles peuvent généralement être utilisés pour mesurer et. prévenir le risque de fuite de données confidentielles et la désensibilisation des données correspondant à différents algorithmes de désensibilisation des données. De manière générale, les types de violations de données confidentielles comprennent :

Violation d’identité personnelle. Lorsqu’un utilisateur de données confirme par quelque moyen que ce soit qu’une donnée d’une table de données appartient à une certaine personne, on parle de fuite d’identité personnelle. La fuite d’identité personnelle est la plus grave, car une fois qu’une fuite d’identité personnelle se produit, les utilisateurs de données peuvent obtenir des informations sensibles sur des individus spécifiques.

Fuite d'attributs. Lorsque les utilisateurs de données apprennent de nouvelles informations d'attribut sur une personne en fonction de la table de données à laquelle ils accèdent, on parle de fuite d'attributs. La fuite d'identité personnelle entraînera certainement une fuite d'attributs, mais la fuite d'attributs peut également se produire de manière indépendante.

Les relations avec les membres ont été divulguées. Lorsqu’un utilisateur de données peut confirmer que les données d’une personne existent dans une table de données, on parle de fuite d’adhésion. Le risque de fuite de relation d'appartenance est relativement faible. Une fuite d'identité personnelle et une fuite d'attributs signifient certainement une fuite de relation d'appartenance, mais une fuite de relation d'appartenance peut également se produire de manière indépendante.

Modèle de risque de fuite de données confidentielles

L'ouverture des données aux analystes de données introduit également un risque de fuite de données confidentielles. Maximiser le potentiel de l’analyse et de l’exploration des données tout en limitant le risque de fuite de données confidentielles dans une certaine plage est l’objectif ultime de la technologie de désensibilisation des données. Actuellement, dans le domaine de la désensibilisation des données confidentielles, il existe plusieurs modèles différents qui peuvent être utilisés pour mesurer les risques possibles de fuite de données confidentielles sous différents angles.

Tutoriel recommandé : "Tutoriel PHP"

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

php 算法数据分析

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：La différence entre le modèle MVVM et le modèle MVCArticle suivant：La différence entre le modèle MVVM et le modèle MVC

Articles Liés

Voir plus