“大數據”已然從熱詞變成日常,而數據在釋放無限潛力的同時,也引發了隱私泄露的巨大隱患。從若干年前科技公司野蠻生長,到近年來數據立法接踵而至,信息社會正在兩極之間尋求平衡。數據脫敏提供了這樣一種可能性——通過降低數據與主體之間的關聯,可以同時保留較高的隱私保護程度和較大的數據利用價值。
“數據脫敏”專題文章將梳理匿名化、去標識化、假名化等一系列相關概念,分析中國、歐盟、美國等法域對不同概念的法律評價,介紹數據脫敏的技術方案與隱私模型,探討各個業務場景下的行業實踐案例與法律落地方案,以推動數據利用和隱私保護的平衡發展。
本文是“數據脫敏”專題文章的第一篇,首先需要回答最基礎的概念問題,也是實踐中容易混淆的問題——數據脫敏是一個法律概念或技術概念嗎?數據脫敏雖然是業界熱詞,但它并不是一個法律概念,也不是一個技術概念,甚至不是一個具體、特定的概念。實際上,數據脫敏一詞的輻射范圍非常廣泛,它可以涵蓋一系列多層次的法律概念和技術概念。
一.數據脫敏不是一個法律概念或技術概念
數據脫敏通常是指對敏感數據進行技術處理,去除或降低其敏感度。數據脫敏是行業中的常用話術,也出現在一些效力層級較低的法律文件中。

但嚴格來說,數據脫敏并不是一個法律概念。在個人信息保護的法律體系中,與數據脫敏相關的法律概念主要包括匿名化(anonymization)、去標識化(de-identification)、假名化(pseudonymization)等。數據脫敏的起點是個人信息(personal information),即以電子或者其他方式記錄的、與已識別或者可識別的自然人有關的各種信息。中國、歐盟、美國等法域對個人信息的定義基本一致,均強調了可識別性(identifiable),即該信息能否單獨或與其他信息相結合而識別特定的自然人。脫敏處理后的數據能否具有特定的法律地位,主要取決于其具體實現的程度和效果,于個人信息而言,即脫敏后在多大程度上仍可識別特定個人。
數據脫敏也不是一個嚴格的技術概念。從技術上而言,為了降低或去除數據與個人之間的聯系,可以采用統計、密碼、抑制、假名化、泛化、隨機化、數據合成等基礎技術,并通過K-匿名、差分隱私等模型進行隱私度量。近年來,聯邦學習、多方安全計算等技術也開始應用于實踐。

二.數據脫敏的兩個維度
在個人信息保護的語境下,數據脫敏一般是指對個人信息進行技術處理,去除或降低數據與個人之間的關聯,導致個人在一定程度上不可識別。數據脫敏并不是一個嚴格的法律概念或技術概念,但是,對數據脫敏的理解離不開技術(過程)和法律(效果)這兩個維度。
其一,數據脫敏是一種技術處理的過程,包括選擇哪種脫敏技術或其組合,以及每種技術的實際實施強度。數據脫敏只是一個大類概念,實踐中需要基于具體的業務場景和需求,綜合考慮數據主體的授權與要求、數據的性質與類型、數據處理的方式與目的、重識別的風險與后果、當前可用的技術水平、合理的成本投入等因素,選擇合適的技術實現方案。
其二,數據脫敏是一種對處理效果的法律評價,即經過技術處理后的數據,具體實現了哪種程度的不可識別。數據脫敏是一個漸進的光譜,根據程度的遞增,例如從假名化、去標識化到匿名化,法律將作出差異化評價。
實踐中常見的誤區是:將數據脫敏靜態地視為特定的技術處理,并概括認為個人信息脫敏后即與個人脫離關聯。技術的視角有利于具象化地理解數據脫敏,但不可識別的程度才是法律上定義和區分數據脫敏相關概念的本質特征。
三.從本質特征理解數據脫敏
可識別性是個人信息的本質特征,不可識別性是數據脫敏的本質特征。在個人信息與非個人信息之間,各國法上存在假名化、去標識化、匿名化等概念。從本質上說,相關概念的不可識別程度是漸進的,包括單獨可識別、結合其他信息可識別/不借助其他信息不可識別、合理可能的不可識別、不可復原的不可識別。

數據脫敏的一端是單獨可識別的個人信息,典型例子是直接標識符,即在特定環境下可以單獨識別個人的屬性,例如姓名、身份證號、電話號碼、地址、郵箱、銀行卡號、學生證號、車牌號、設備標識符、生物識別碼、IP地址等。
數據脫敏的另一端是不可識別個人的非個人信息,如經匿名化處理的信息。應特別注意的是,各國對匿名化的要求并不相同,例如:歐盟《通用數據保護條例》(GDPR)的匿名化是基于“合理可能”(reasonably likely)標準而言的——綜合考慮技術、成本、時間等因素,數據控制者或其他人采用了所有合理可能的方法,仍無法直接或間接識別數據主體;而我國現行法下不僅要求個人信息主體無法被識別,還要求匿名化處理后的信息不能被復原。
數據脫敏的中間狀態,是結合其他信息可識別、而不借助其他信息不可識別。這在我國被稱為“去標識化”,它的不可識別是可復原的,而它的可識別依賴于額外信息。例如,1997年,美國馬薩諸塞州公布的健康數據刪除了姓名、地址、社會保險號等直接標識符,因此無法直接識別個人,但哈佛大學教授Sweeney將該健康數據與當地的選民名冊進行對比,輕松找出了Weld州長——因為與他具有相同的出生日期、性別、郵政編碼的人只有他自己。
總體而言,數據脫敏的相關概念主要以不可識別的程度為標準,隨著程度的量變而實現概念的質變,但各個概念之間并非涇渭分明,而有賴于具體場景下的綜合判斷。
本期小結與下期預告:數據脫敏并非一個特定的法律概念或技術概念,而是一個包羅萬象的框架性概念。可以從兩個維度理解數據脫敏,它既包括技術處理的過程,也包括對處理效果的法律評價。脫敏處理之后所實現的不可識別程度,是區分匿名化、去標識化、假名化等法律概念的本質特征。然而,不同法域對同一法律概念的定義和尺度并不相同,極易造成混淆。下期文章將為您解讀中國、歐盟、美國等法域下對匿名化、去標識化、假名化所掌握的不同尺度。
京ICP備05019364號-1
京公網安備110105011258
近日,北京市海問律師事務所(“本所”)發現,網絡上存在將一家名為“廣州海問睿律咨詢顧問有限公司”的主體與本所進行不當關聯的大量不實信息,導致社會公眾產生混淆與誤解,也對本所的聲譽及正常執業活動造成不良影響。
本所特此澄清,本所與“廣州海問睿律咨詢顧問有限公司”(成立于2025年11月)不存在任何隸屬、投資、關聯、合作、授權或品牌許可關系,亦從未授權任何主體以“海問”的名義提供法律咨詢服務,該公司的任何行為與本所無關。更多詳情,請點擊左下方按鈕查看。