“大數據”已然從熱詞變成日常,而數據在釋放無限潛力的同時,也引發了隱私泄露的巨大隱患。從若干年前科技公司野蠻生長,到近年來數據立法接踵而至,信息社會正在兩極之間尋求平衡。數據脫敏提供了這樣一種可能性——通過降低數據與主體之間的關聯,可以同時保留較高的隱私保護程度和較大的數據利用價值。
“數據脫敏”專題文章將梳理匿名化、去標識化、假名化等一系列相關概念,分析中國、歐盟、美國等法域對不同概念的法律評價,介紹數據脫敏的技術方案與隱私模型,探討各個業務場景下的行業實踐案例與法律落地方案,以推動數據利用和隱私保護的平衡發展。
上期回顧:數據脫敏可以采用統計、密碼、抑制、假名化、泛化、隨機化、數據合成等技術。法律對脫敏技術的評價并非機械對應,而是考量特定的技術方案、實施強度和應用場景,具體評價其實現的不可識別的程度。
那么,法律上如何衡量脫敏的效果,即不可識別的程度呢?本文將介紹傳統的定性標準(如第三人標準、安全港標準)和專門的定量標準(如K-匿名、差分隱私模型),并探討通過數據分析進一步精細化的量化評價路徑。
一、評價脫敏效果的定性標準
法律上的標準往往不是精確的數字,而是定性的描述。就脫敏效果的標準而言,各國法上都有第三人標準,同時,也有立法試圖列舉應當被“脫”的數據項。
1、第三人標準
第三人標準是常見的立法例,各國法上的主要差異在于第三方的性質和范圍。
美國《健康保險流通與責任法案》(HIPAA)對健康數據的去標識化提出了專家測定標準(Expert Determination),即經過具備統計知識與科學方法的專家的測定,考慮到數據接收者合理可得的數據和合理可用的技術,從脫敏后的健康信息中識別出個人的風險非常小。
英國信息專員辦公室(Information Commissioners Office)在《匿名化:管理數據保護風險的實踐準則》中提出了的有動機的入侵者測試(Motivated Intruder Test),即對于并非內幕人士或專業黑客的一般第三人而言,通過公開檢索、詢問、調查等方式,匿名信息能否被重識別。
我國國家標準《個人信息去標識化指南》則分別提出了針對外部一般人員和內部違規人員的入侵者測試。
2、安全港標準
美國HIPPA就健康信息的去標識化提出了安全港標準(Safe Harbor),指去除18項標識符,并且數據處理者不認為處理后的信息能夠單獨或結合地識別個人。這18項標識符包括姓名、小于州的地理信息、小于年的日期信息、電話號碼、傳真號碼、電子郵箱地址、社會保險號、病歷號、健康計劃受益人號、銀行賬號、證書號、車輛識別號、設備識別符、URL地址、IP地址、生物識別符、正面照片、其他唯一識別符號。
與之類似的是,上海市衛生健康委員會在新冠疫情流調報告中去除了確診病例的姓名、性別、年齡等標識符,僅公開時間、區域和場所等信息,從而保護了病人的隱私。
但是,HIPPA的安全港標準也受到批評——18項標識符的列舉并不周延,并且刪除標識符并不意味著去標識化,尤其對于較小的樣本量或罕見的屬性值,個人仍然可能被識別。例如,1000人中的Rh陰性血很可能指向唯一的個人。
二、評價脫敏效果的定量標準
我國的《個人信息去標識化指南》、歐盟的《關于匿名化技術的意見》、國際標準化組織的《隱私增強數據去標識化術語和技術分類》(ISO/IEC 20889)都介紹了K-匿名模型、差分隱私模型,運用數學的方法為數據脫敏和隱私保護提供了定量的評價標準。
1、K-匿名模型
哈佛大學教授Latanaya Sweeney研究指出,結合出生日期、性別、郵政編碼這三項屬性可以識別出87%的美國人,因此她于1998年提出了K-匿名。K-匿名(K-anonymity)是指,對某一標識符進行一定程度的泛化,使得對于任一屬性值,至少有K個數據主體共享同一屬性值。
如下圖,假設有一個可供公開查詢的數據庫,包含出生日期、住址、患病情況這三項屬性。一個攻擊者已知其攻擊目標張三的出生日期(1950年2月1日)、住址(北京市朝陽區建外街道幸福小區),并試圖獲取張三的患病情況。
在原始數據庫,攻擊者通過出生日期和住址就能鎖定張三,從而暴露其患有高血壓。如果將出生日期泛化至出生年月、將小區泛化至街道,則與張三共享這兩項屬性的人增加至10人(K=10),因此攻擊者無法從等價類中識別出張三。但是,如果攻擊所針對的敏感屬性(患病情況)的屬性值差異很小,則K-匿名的效果有限。例如,居住在建外街道、1950年2月出生的10人都患有高血壓,則攻擊者可以確定其張三也患有高血壓。
L-多樣性(L-diversity)在K-匿名的基礎上,要求每一等價類在每一敏感屬性上至少有L個不同的屬性值。例如,當進一步泛化至居住在北京市朝陽區、1950年出生的人,這200人患有高血壓或心臟病(L=2,指兩種疾病),則攻擊者無法確定張三患有哪種病。但是,如果敏感屬性值的分布不均,則L-多樣性的效果有限。例如,200人中有10個心臟病,190個高血壓,則攻擊者可以推理出張三大概率也患有高血壓。
T-接近性(T-closeness)在L-多樣性的基礎上,要求敏感屬性在任何等價類中的分布與其在整個數據集中的分布相近,兩者差距小于閾值T。但對于發病概率與年齡強相關的疾病,比較難通過泛化出生日期來實現T-接近性。例如,老年人更容易得高血壓,則在張三的等價類中,高血壓的患者可能遠多于整個數據集平均情況。
2、差分隱私模型
差分隱私(differential privacy)是指,通過向數據集中添加隨機噪聲,使得任意個人的記錄對該數據集或其子集的統計特性影響極小。這種噪聲(如拉普拉斯噪聲)是經過精心設計、符合概率分布的,從而使攻擊者無法從數據集的查詢結果及其組合中篩選出某一個人,但這不可避免地導致數據在一定程度上失真。
例如,一個社區中高血壓的患病人數為40人,當新搬來一個住戶后,如果患病人數變為41人,則可以判斷新住戶患有高血壓,導致其隱私泄露(統計數據并不一定是匿名的)。添加噪聲之后,假設患病人數仍為40人,但40是一個有噪聲的、非確切的數字,因此無法判斷新住戶的患病情況。
差分隱私模型為隱私保護程度提供了嚴格的數學定義。如下圖,基于給定的隱私預算ε(指愿意忍受的隱私風險),對于數據集中任意兩個相鄰數據集D1、D2,當一個查詢函數f的敏感度為S,如果某一隨機算法M滿足概率公式Pr[M(D1)] ≤ exp(ε) × Pr[M(D2)],則該算法M實現了“ε-差分隱私”。
三、進一步的量化標準
上述的定性標準和定量標準都為脫敏效果的衡量提供了參考,但是,它們都沒有徹底回答衡量標準的問題。
第三人標準聚焦于重識別的主體,各國分別界定了第三人的性質和范圍,如專家、內幕人員、外部的一般第三人等。但是,第三人標準并沒有明確第三人在測試數據集時應當使用的方法和標準,因此,企業難以自查和判斷數據脫敏的效果。
安全港標準試圖列舉出若干的標識符,引導企業刪除這些敏感的屬性值,這或許可以在特定行業內提供脫敏的最低門檻。但是,數據不是孤立的,數據之間是存在聯系的,即使去除了標識符,若干的非敏感屬性值相結合,也可能推導出數據主體的身份。
K-匿名模型和差分隱私模型突破了傳統的定性標準,對脫敏的程度進行了數學上的定義,為效果的度量提供了量化的工具。但是,各國法上只給出了K、L、T、ε等參數,卻并未對其進行賦值。K>10就是去標識化嗎?K>10000就是匿名化嗎?數據脫敏真的有明確的量化標準嗎?
這些數字或許永遠不會有標準答案,但實踐中不妨借助數據的力量,模擬出一個相對科學的衡量標準。例如,就同一行業、相似的業務場景抽樣100家企業及其數據集,并設定統一的數據可用性需求和隱私保護要求,再由各個企業分別對其數據集進行脫敏處理。對于脫敏后的數據集,通過K-匿名或差分隱私模型進行驗證,計算出各個數據集的K/L/T/ε值,并對這100組數值進行排列與分析,從而大致推算出當前實踐中可以接受的K/L/T/ε標準。
本期小結與下期預告:對于脫敏效果的衡量,既有定性的第三人標準、安全港標準,也有定量的K-匿名模型、差分隱私模型。目前,不可識別的程度并沒有精確的度量方法,但可以通過特定場景下的實證研究,進一步探索量化的標準。那么,既然不可識別的程度是漸進的,數據脫敏的法律效果也是漸進的嗎?下期文章將為您分析現行法下假名化、去標識化、匿名化的法律地位。
京ICP備05019364號-1
京公網安備110105011258
近日,北京市海問律師事務所(“本所”)發現,網絡上存在將一家名為“廣州海問睿律咨詢顧問有限公司”的主體與本所進行不當關聯的大量不實信息,導致社會公眾產生混淆與誤解,也對本所的聲譽及正常執業活動造成不良影響。
本所特此澄清,本所與“廣州海問睿律咨詢顧問有限公司”(成立于2025年11月)不存在任何隸屬、投資、關聯、合作、授權或品牌許可關系,亦從未授權任何主體以“海問”的名義提供法律咨詢服務,該公司的任何行為與本所無關。更多詳情,請點擊左下方按鈕查看。