Was bedeutet Big-Data-Desensibilisierung?
Big-Data-Desensibilisierung, auch bekannt als Datenbleiche, Datendeprivatisierung oder Datenverformung zur Umwandlung bestimmter sensibler Informationen durch Desensibilisierungsregeln, um einen zuverlässigen Schutz sensibler privater Daten zu erreichen, sodass der desensibilisierte reale Datensatz sicher in Entwicklungs-, Test-, anderen Nichtproduktionsumgebungen und Outsourcing-Umgebungen verwendet werden kann.
Technologie zur Desensibilisierung privater Daten
Normalerweise werden Daten auf Big-Data-Plattformen in einem strukturierten Format gespeichert, und zwar in jeder Tabelle besteht aus vielen Zeilen, und jede Datenzeile besteht aus vielen Spalten. Entsprechend den Datenattributen der Spalte können Datenspalten normalerweise in die folgenden Typen unterteilt werden:
Spalten, die eine Person genau lokalisieren können, werden als identifizierbare Spalten bezeichnet, z. B. ID-Nummer, Adresse, Name usw.
Eine einzelne Spalte kann eine Person nicht lokalisieren, aber mehrere Informationsspalten können verwendet werden, um eine Person potenziell zu identifizieren. Diese Spalten werden als halbidentifizierende Spalten bezeichnet, z. B. Postleitzahl, Geburtstag und Geschlecht. In einer Forschungsarbeit in den Vereinigten Staaten wurde festgestellt, dass 87 % der Amerikaner nur anhand der Postleitzahl, des Geburtstags und des Geschlechts identifiziert werden können[3].
Spalten mit vertraulichen Benutzerinformationen wie Transaktionsbeträgen, Krankheiten und Einkommen.
Andere Spalten, die keine vertraulichen Benutzerinformationen enthalten.
Die sogenannte Vermeidung von Datenschutzdatenlecks bezieht sich darauf, zu verhindern, dass Personen, die die Daten verwenden (Datenanalysten, BI-Ingenieure usw.), eine bestimmte Datenzeile als Informationen einer bestimmten Person identifizieren. Die Datendesensibilisierungstechnologie desensibilisiert Daten, z. B. durch Entfernen identifizierender Spalten, Konvertieren halbidentifizierender Spalten usw., sodass Datenbenutzer sicherstellen können, dass Nr. 2 (nach der Konvertierung) halbidentifizierende Spalten, Nr. 3 vertrauliche Informationsspalten und Nr. 4 auf der Aufgrund der Datenanalyse in anderen Spalten ist bis zu einem gewissen Grad gewährleistet, dass Benutzer anhand der Daten nicht rückwärts identifiziert werden können, wodurch ein Gleichgewicht zwischen der Gewährleistung der Datensicherheit und der Maximierung des Werts der Daten erreicht wird.
Arten von Datenschutzdatenlecks
Privatsphärendatenlecks können in viele Typen unterteilt werden. Je nach Art können in der Regel unterschiedliche Risikomodelle für Datenschutzdatenlecks verwendet werden, um diese zu messen verhindern Das Risiko des Verlusts von Datenschutzdaten und der Desensibilisierung von Daten entsprechend verschiedenen Datendesensibilisierungsalgorithmen. Zu den Arten von Datenschutzverletzungen gehören im Allgemeinen:
Verletzung der persönlichen Identität. Wenn ein Datennutzer auf irgendeine Weise bestätigt, dass ein Datenelement in einer Datentabelle einer bestimmten Person gehört, spricht man von einem persönlichen Identitätsleck. Am schwerwiegendsten ist der Verlust persönlicher Identität, da Datennutzer im Falle eines Verlusts persönlicher Identität vertrauliche Informationen über bestimmte Personen erhalten können.
Attributleck: Wenn Datenbenutzer anhand der Datentabelle, auf die sie zugreifen, neue Attributinformationen über eine Person erfahren, spricht man von Attributleck. Ein Verlust der persönlichen Identität führt sicherlich zu einem Verlust von Attributen, aber ein Verlust von Attributen kann auch unabhängig davon auftreten.
Mitgliederbeziehungen durchgesickert. Wenn ein Datenbenutzer bestätigen kann, dass die Daten einer Person in einer Datentabelle vorhanden sind, spricht man von einem Mitgliedschaftsleck. Das Risiko eines Verlusts von Mitgliedschaftsbeziehungen ist relativ gering. Der Verlust persönlicher Identität und Attribute bedeutet definitiv einen Verlust von Mitgliedschaftsbeziehungen, aber ein Verlust von Mitgliedschaftsbeziehungen kann auch unabhängig davon auftreten.
Risikomodell für den Verlust vertraulicher Daten
Die Offenlegung von Daten für Datenanalysten birgt auch das Risiko eines Verlusts vertraulicher Daten. Das ultimative Ziel der Daten-Desensibilisierungstechnologie besteht darin, das Potenzial der Datenanalyse und des Daten-Mining zu maximieren und gleichzeitig das Risiko des Verlusts vertraulicher Daten innerhalb eines bestimmten Bereichs zu begrenzen. Derzeit gibt es im Bereich der Desensibilisierung von Datenschutzdaten verschiedene Modelle, mit denen die möglichen Datenschutzrisiken von Daten aus verschiedenen Blickwinkeln gemessen werden können.
Empfohlenes Tutorial: „PHP-Tutorial“
Das obige ist der detaillierte Inhalt vonWas bedeutet Big-Data-Desensibilisierung?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!