“大數據”已然從熱詞變成日常,而數據在釋放無限潛力的同時,也引發了隱私泄露的巨大隱患。從若干年前科技公司野蠻生長,到近年來數據立法接踵而至,信息社會正在兩極之間尋求平衡。數據脫敏提供了這樣一種可能性——通過降低數據與主體之間的關聯,可以同時保留較高的隱私保護程度和較大的數據利用價值。
“數據脫敏”專題文章將梳理匿名化、去標識化、假名化等一系列相關概念,分析中國、歐盟、美國等法域對不同概念的法律評價,介紹數據脫敏的技術方案與隱私模型,探討各個業務場景下的行業實踐案例與法律落地方案,以推動數據利用和隱私保護的平衡發展。
上期回顧:中國、歐盟、美國等法域都有匿名化(anonymization)、去標識化(de-identification)、假名化(pseudonymization)等概念,但各個法域對同一概念的定義存在差異,即對不可識別的程度要求不同。

中國、歐盟對常用的脫敏技術制定了介紹性指南。實踐中,一個常見的誤區是將特定技術機械地對應特定的數據脫敏效果評價,例如,泛化技術、隨機化技術就是匿名化。但實際上,各國立法并沒有對一類技術進行概括性評價,而是對技術處理所實現的具體效果進行法律評價,因為同一技術在特定的實施強度和應用場景下,可以實現不同程度的脫敏效果。
本文將介紹統計、密碼、抑制、假名化、泛化、隨機化、數據合成等數據脫敏技術的基本原理,并舉例說明同一技術的效果跨度。每種技術的特點和閾值各不相同,實踐中基于特定的場景和目標,可以選擇適合的技術及實施強度,從而平衡數據的可用性和安全性。

一、數據脫敏的技術與原理
(一)統計技術
1、數據抽樣(sampling):從原始數據集抽取若干數量、若干屬性的樣本,從而使攻擊者無法確定某個目標個體是否在抽樣數據集之中。
2、數據聚合(aggregation):對原始數據集的屬性值進行統計,僅輸出統計特性(例如求和、計數、平均值、最大值、最小值、方差、標準差等),從而降低披露個體信息的風險。
(二)密碼技術
1、確定性加密(deterministic encryption)(屬于非隨機加密):通過密鑰對數據進行加密。
2、同態加密(homomorphic encryption)(屬于隨機加密):允許人們對加密數據進行運算,運算結果解密后等同于對不加密的數據進行相同運算的結果。
以云計算場景為例。在傳統模式下,用戶需要信任云服務提供商不會竊取甚至泄露用戶數據。而同態加密可從根本上解決數據處理過程的保密與安全,同時保護用戶的數據和云服務提供商的計算模型。

(三)抑制技術
1、屏蔽(masking):刪除直接標識符或其中一部分,例如將手機號或身份證號的其中四位變成****。
2、局部抑制(local suppression):刪除特定的屬性值,以免它和其他屬性相結合而識別個體。這種技術通常適用于比較稀有的屬性值,例如罕見的Rh陰性血型。
(四)假名化技術
1、假名化(pseudonymization)是指用生成的假名代替標識符的原始值。
2、獨立于標識符的假名化:用假名代替標識符的原始值,并創建假名與原始值的分配表。此處的假名是指與標識符無關的隨機值,還可以采取“多對一”(多個原始值對應一個假名)的方式,但這會降低數據的可用性。
3、基于標識符的假名化:通過加密、散列/哈希等密碼技術,在標識符原始值的基礎上生成假名。加密技術通常是一一對應的,可以通過密鑰和算法進行解密,還原標識符的原始值。散列函數是一種單向運算,保密性更好,而難以逆向還原原始值。
(五)泛化技術
泛化(generalization)是指降低屬性值的粒度,對屬性進行更抽象、更概括的描述。例如,將姓名泛化成姓,將市泛化成省,對數字進行取整、設置區間、最大值或最小值。例如,將年收入的確切數值泛化成10萬及其以下、10萬到100萬、100萬及其以上三個區間,從而使更多的個體共享同一屬性值、降低重標識的概率。
(六)隨機化技術
隨機化(randomization)是指隨機修改屬性值,這將破壞數據集的真實性。
1、噪聲添加:添加隨機值/噪聲到某一屬性中,同時盡可能維持該屬性的原始統計特征。
2、置換:對數據集中某一屬性的值進行重新排序,即,將某一個體的屬性值置換給另一個體。
3、微聚集:對某一屬性進行排序和分組,接近的屬性值分為一組,并用每組的平均值來代替該組的所有原始值。

(7)數據合成技術
數據合成技術(synthetic data)是指通過人工方式生成數據集,該合成數據集與原始數據集的特性相符。
二、法律對脫敏技術的評價
我國的《個人信息去標識化指南》和國際標準化組織的《隱私增強數據去標識化術語和技術分類》(ISO/IEC 20889)將上述七種技術作為去標識化技術進行了列舉說明,而歐盟的《關于匿名化技術的意見》將其中的泛化技術、隨機化技術作為主要的匿名化技術。但是,這并不意味著使用特定技術必將實現特定效果。泛化技術、隨機化技術既可能實現去標識化、也可能實現匿名化,主要取決于特定的技術方案實現了哪種程度的不可識別。
關于脫敏技術的法律評價,應當注意以下幾點:
1、不同技術的脫敏能力存在差異
不同的脫敏技術有其特點和閾值。例如,統計、泛化、隨機化等技術有可能實現“不可復原的不可識別”,但假名化技術最多實現“結合其他信息可識別/不借助其他信息不可識別”的效果。
歐盟《關于匿名化技術的意見》中特別強調,假名化無法作為匿名化的方法之一,因為假名化雖然降低了數據集和數據主體身份之間的聯系,但數據主體仍有可能被間接識別。例如,用戶在社交網絡上使用的昵稱即是一種假名,但結合用戶發布的其他信息,仍有可能識別該用戶的身份。
2、同一技術的實施強度存在差異
就同一脫敏技術而言,其具體的實施強度也存在差異。例如,身份證號中屏蔽的數字如果是生日而不是最后四位,則安全效果較差,因為個人經常在好友慶生、入職信息表、注冊會員等場景下暴露自己的生日,容易還原原始的身份證號。
泛化技術也可以設置不同的顆粒度,例如對地址數據的泛化,從精確的門牌號到小區、街道、區縣、地市、省、國家,不可識別的程度不斷加深,但數據的價值也隨之折損。因此,歐盟的《關于匿名化技術的意見》一方面認可泛化技術可以實現匿名化,一方面強調它并不是在一切情形下都能有效實現匿名化。
3、具體場景也會影響技術處理的效果
對脫敏技術的法律評價不是抽象的,而是基于具體的應用場景,因為特定的情形會影響技術處理的效果。例如,統計技術往往可以隱匿個人,但一旦結合背景知識仍可能暴露個人。假設在某個社區中,患有高血壓的人數為40人,從40這個統計值中,一般無法識別出患者的身份;但是,當搬來一個新住戶后,如果患病人數變為41人,則可以判斷出該新住戶患有高血壓。因此,統計數據在特定場景下并不必然是匿名的。
本期小結與下期預告:數據脫敏可以采用統計、密碼、抑制、假名化、泛化、隨機化、數據合成等技術及其組合。不同技術的脫敏能力存在差異,同一技術的實施強度存在差異,具體場景也會影響技術處理的效果,因此,法律對脫敏技術的評價并不是一刀切的,而是具體考量技術所實現的效果。那么,下一個需要回答的問題是,法律上如何衡量脫敏的效果?下期文章將為您介紹定性、定量這兩類衡量標準。
京ICP備05019364號-1
京公網安備110105011258
近日,北京市海問律師事務所(“本所”)發現,網絡上存在將一家名為“廣州海問睿律咨詢顧問有限公司”的主體與本所進行不當關聯的大量不實信息,導致社會公眾產生混淆與誤解,也對本所的聲譽及正常執業活動造成不良影響。
本所特此澄清,本所與“廣州海問睿律咨詢顧問有限公司”(成立于2025年11月)不存在任何隸屬、投資、關聯、合作、授權或品牌許可關系,亦從未授權任何主體以“海問”的名義提供法律咨詢服務,該公司的任何行為與本所無關。更多詳情,請點擊左下方按鈕查看。