大數據脫敏是什麼意思
大數據資料脫敏,又稱資料漂白、資料去隱私化或資料變形,是指對某些敏感資訊透過脫敏規則進行資料的變形,實現敏感隱私資料的可靠保護,這樣在開發、測試和其它非生產環境以及外包環境中安全地使用脫敏後的真實資料集。
隱私資料脫敏技術
#通常在大數據平台中,資料以結構化的格式存儲,每個表有諸多行組成,每行資料有諸多列組成。根據列的資料屬性,資料列通常可以分為以下幾種類型:
可確切定位某個人的列,稱為可識別列,如身分證號,地址以及姓名等。
單列並不能定位個人,但是多列資訊可用來潛在的識別某個人,這些列被稱為半識別列,如郵編號,生日及性別等。美國的研究論文稱,僅使用郵編號,生日和性別資訊即可識別87%的美國人[3]。
包含使用者敏感資訊的列,如交易金額,疾病以及收入等。
其他不包含使用者敏感資訊的欄位。
所謂避免隱私資料洩露,是指避免使用資料的人員(資料分析師,BI工程師等)將某行資料識別為某個人的資訊。資料脫敏技術透過對資料進行減敏,如移除識別列,轉換半識別列等方式,使得資料使用人員在保證可對#2(轉換後)半識別列,#3敏感資訊列以及#4其他欄位進行資料分析的基礎上,在一定程度上保證其無法根據資料反識別用戶,達到保證資料安全與最大化挖掘資料價值的平衡。
隱私資料外洩類型
隱私資料外洩可以分為多種類型,根據不同的類型,通常可以採用不同的隱私資料外洩風險模型來衡量防止隱私資料外洩的風險,以及對應不同的資料脫敏演算法對資料進行脫敏。一般來說,隱私資料外洩類型包括:
個人識別外洩。當資料使用人員以任何方式確認資料表中某條資料屬於某個人時,稱為個人識別外洩。個人識別洩露最為嚴重,因為一旦發生個人識別洩露,資料使用人員就可以得到特定個人的敏感資訊。
屬性洩露,當資料使用人員根據其存取的資料表了解到某個人新的屬性資訊時,稱為屬性洩露。個人識別洩露肯定會導致屬性洩露,但屬性洩露也有可能單獨發生。
成員關係外洩。當資料使用人員可以確認某個人的資料存在於資料表中時,稱為成員關係外洩。成員關係洩露相對風險較小,個人識別洩露與屬性洩露肯定意味著成員關係洩露,但成員關係洩露也有可能單獨發生。
隱私資料外洩風險模型
將資料開放給資料分析人員,同時就引入了隱私資料外洩的風險。在限制隱私資料外洩風險在一定範圍內的同時,最大化資料分析挖掘的潛力,是資料脫敏技術的最終目標。目前在隱私資料脫敏領域,有幾個不同的模型可以用來從不同角度衡量資料可能存在的隱私資料外洩風險。
推薦教學:《PHP教學》
以上是大數據脫敏是什麼意思的詳細內容。更多資訊請關注PHP中文網其他相關文章!