數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)_第1頁(yè)
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)_第2頁(yè)
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)_第3頁(yè)
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)_第4頁(yè)
數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化

業(yè)務(wù)規(guī)程(試行)

中國(guó)信息通信研究院產(chǎn)業(yè)與規(guī)劃研究所

北京國(guó)際大數(shù)據(jù)交易所

2023年11月

前言

為規(guī)范數(shù)據(jù)處理行為,指導(dǎo)組織正確開(kāi)展數(shù)據(jù)清洗、去標(biāo)識(shí)化、

匿名化處理等業(yè)務(wù)活動(dòng)及相應(yīng)的技術(shù)測(cè)試評(píng)估,支撐數(shù)據(jù)共享、交

易、開(kāi)放等流通活動(dòng)合規(guī)、有序進(jìn)行,激活數(shù)據(jù)要素市場(chǎng),依據(jù)《個(gè)

人信息保護(hù)法》《數(shù)據(jù)安全法》,結(jié)合《北京市數(shù)字經(jīng)濟(jì)促進(jìn)條例》《北

京市數(shù)字經(jīng)濟(jì)全產(chǎn)業(yè)鏈開(kāi)放發(fā)展行動(dòng)方案》等法規(guī)政策要求,在北

京市經(jīng)濟(jì)和信息化局指導(dǎo)下,中國(guó)信息通信研究院產(chǎn)業(yè)與規(guī)劃研究

所、北京國(guó)際大數(shù)據(jù)交易所聯(lián)合編制本報(bào)告。

組織依據(jù)法律法規(guī)要求及相關(guān)業(yè)務(wù)場(chǎng)景需要,對(duì)其控制的數(shù)據(jù)

資源進(jìn)行清洗、去標(biāo)識(shí)化、匿名化處理,是為滿足數(shù)據(jù)處理目的對(duì)

原始數(shù)據(jù)逐步深入加工改造的過(guò)程,是提升數(shù)據(jù)可用性和安全性的

關(guān)鍵數(shù)據(jù)處理活動(dòng)。

本報(bào)告以業(yè)務(wù)操作規(guī)程形式為組織提供數(shù)據(jù)清洗、去標(biāo)識(shí)化、

匿名化處理的流程和方法指引,可以作為組織提升自身數(shù)據(jù)質(zhì)量和

可用性的指引方法,作為數(shù)據(jù)交易中介機(jī)構(gòu)審核交易數(shù)據(jù)合規(guī)性、

安全性和可流通性的參考規(guī)則,以及作為相關(guān)認(rèn)證、檢測(cè)機(jī)構(gòu)結(jié)合

應(yīng)用場(chǎng)景針對(duì)相關(guān)技術(shù)進(jìn)行安全測(cè)試評(píng)估的評(píng)價(jià)工具,支持、鼓勵(lì)

數(shù)據(jù)加工、咨詢、安全、檢測(cè)、認(rèn)證等第三方數(shù)據(jù)服務(wù)機(jī)構(gòu)發(fā)展。

本報(bào)告所描述的技術(shù)方法適用于廣義的數(shù)據(jù)范疇,包括但不限

于個(gè)人數(shù)據(jù)、企業(yè)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)等,但特殊數(shù)據(jù)類型需要遵守

相應(yīng)的特別管理要求。本報(bào)告所描述的數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名

化處理,是基于數(shù)據(jù)資源的加工處理過(guò)程。有“數(shù)”才能對(duì)“數(shù)”

進(jìn)行處理,通過(guò)采集、標(biāo)識(shí)、編碼形成數(shù)據(jù)資源,是對(duì)數(shù)據(jù)進(jìn)行清

洗、去標(biāo)識(shí)化、匿名化處理的前提。前者是形成數(shù)據(jù)的基礎(chǔ),后者

是維護(hù)數(shù)據(jù)質(zhì)量和安全的關(guān)鍵。

本報(bào)告主要描述各數(shù)據(jù)處理活動(dòng)的基本原理和通用技術(shù)方法,

需要結(jié)合實(shí)際場(chǎng)景具體適用。本報(bào)告所引用的部分技術(shù)方法參考了

《GB/T37964-2019信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南》等相關(guān)

標(biāo)準(zhǔn)指南,在此基礎(chǔ)上,結(jié)合《個(gè)人信息保護(hù)法》等法律法規(guī)的界

定,根據(jù)技術(shù)特性和處理效果,對(duì)去標(biāo)識(shí)化技術(shù)和匿名化技術(shù)進(jìn)行

了區(qū)分。本報(bào)告所描述的相關(guān)技術(shù)方法仍在不斷豐富、演進(jìn)和迭代,

相關(guān)應(yīng)用場(chǎng)景也在不斷發(fā)展變化,本報(bào)告將持續(xù)跟蹤觀察,適時(shí)更

新、補(bǔ)充、調(diào)整和校正。歡迎各組織積極反饋技術(shù)適用情況和建議,

提供技術(shù)適用場(chǎng)景和實(shí)踐案例。

目錄

一、處理目標(biāo)及相互關(guān)系............................................................................................1

(一)數(shù)據(jù)清洗是數(shù)據(jù)可用的保障.....................................................................1

(二)去標(biāo)識(shí)化是數(shù)據(jù)脫敏的關(guān)鍵.....................................................................1

(三)匿名化是去標(biāo)識(shí)化的強(qiáng)化.........................................................................2

二、數(shù)據(jù)處理原則........................................................................................................4

(一)合法合規(guī).....................................................................................................4

(二)安全優(yōu)先.....................................................................................................4

(三)平衡效用.....................................................................................................4

(四)技管結(jié)合.....................................................................................................4

(五)有效溯源.....................................................................................................5

三、數(shù)據(jù)清洗規(guī)程........................................................................................................5

(一)處理目的.....................................................................................................5

(二)處理流程.....................................................................................................6

(三)常見(jiàn)技術(shù)方法.............................................................................................9

四、數(shù)據(jù)去標(biāo)識(shí)化規(guī)程..............................................................................................12

(一)處理目的...................................................................................................12

(二)處理流程...................................................................................................13

(三)常見(jiàn)技術(shù)方法...........................................................................................18

五、數(shù)據(jù)匿名化規(guī)程..................................................................................................21

(一)處理目的...................................................................................................21

(二)處理流程...................................................................................................21

(三)常見(jiàn)技術(shù)方法...........................................................................................25

六、數(shù)據(jù)處理環(huán)境要求..............................................................................................29

(一)管理制度要求...........................................................................................29

(二)技術(shù)能力要求...........................................................................................30

(三)人員能力要求...........................................................................................30

(四)過(guò)程控制要求...........................................................................................30

(五)事故管理要求...........................................................................................31

附件一:常見(jiàn)直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符示例..............................................................32

附件二:常見(jiàn)標(biāo)識(shí)符的去標(biāo)識(shí)化或匿名化參考......................................................36

附件三:部分?jǐn)?shù)據(jù)處理技術(shù)方法應(yīng)用建議..............................................................40

參考資料......................................................................................................................43

表目錄

表1數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理的技術(shù)特點(diǎn)和差異.................................3

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

習(xí)近平總書(shū)記在2023年中國(guó)國(guó)際服務(wù)貿(mào)易交易會(huì)全球服務(wù)貿(mào)易

峰會(huì)上發(fā)表視頻致辭指出,要“推動(dòng)數(shù)據(jù)基礎(chǔ)制度先行先試改革”。

《中共中央國(guó)務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用

的意見(jiàn)》要求“創(chuàng)新技術(shù)手段,推動(dòng)個(gè)人信息匿名化處理”。規(guī)范數(shù)

據(jù)清洗、去標(biāo)識(shí)化、匿名化處理,有助于提升數(shù)據(jù)的可用、可信、可

流通、可追溯水平,推動(dòng)數(shù)據(jù)要素強(qiáng)化優(yōu)質(zhì)供給,是建立合規(guī)高效、

場(chǎng)內(nèi)外結(jié)合的數(shù)據(jù)要素流通和交易制度的重要內(nèi)容。具體來(lái)說(shuō),為滿

足數(shù)據(jù)可用性和安全性進(jìn)行的數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理,是

數(shù)據(jù)產(chǎn)品進(jìn)場(chǎng)上市的條件,也是數(shù)據(jù)資產(chǎn)登記、交易的前提,更是數(shù)

據(jù)應(yīng)用、建模釋放二次衍生價(jià)值的底線。本報(bào)告通過(guò)明晰數(shù)據(jù)清洗、

去標(biāo)識(shí)化、匿名化處理三者之間的關(guān)系,總結(jié)各項(xiàng)處理活動(dòng)的處理目

的、流程、技術(shù)方法及環(huán)境要求,以期為相關(guān)組織開(kāi)展相應(yīng)數(shù)據(jù)處理

活動(dòng)和測(cè)試評(píng)估提供參考。

一、處理目標(biāo)及相互關(guān)系

(一)數(shù)據(jù)清洗是數(shù)據(jù)可用的保障

數(shù)據(jù)清洗是運(yùn)用一定方法修正識(shí)別到的數(shù)據(jù)問(wèn)題,實(shí)現(xiàn)數(shù)據(jù)的規(guī)

范性、完整性、一致性、準(zhǔn)確性和可溯源性,提高數(shù)據(jù)質(zhì)量的過(guò)程。

數(shù)據(jù)清洗旨在滿足數(shù)據(jù)的可用性要求,是數(shù)據(jù)資源預(yù)處理的第一步,

也是保證后續(xù)處理結(jié)果準(zhǔn)確、科學(xué)、有效的重要一環(huán)。數(shù)據(jù)清洗作為

數(shù)據(jù)后續(xù)開(kāi)發(fā)利用的基礎(chǔ),是數(shù)據(jù)去標(biāo)識(shí)化和匿名化處理的前置步驟。

(二)去標(biāo)識(shí)化是數(shù)據(jù)脫敏的關(guān)鍵

數(shù)據(jù)去標(biāo)識(shí)化是指數(shù)據(jù)經(jīng)過(guò)處理,使其在不借助額外信息的情況

1

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

下無(wú)法識(shí)別特定自然人或相關(guān)標(biāo)識(shí)符的過(guò)程。數(shù)據(jù)去標(biāo)識(shí)化處理強(qiáng)調(diào)

標(biāo)識(shí)符的“不可識(shí)別性”,即對(duì)數(shù)據(jù)內(nèi)含的相關(guān)敏感信息內(nèi)容進(jìn)行脫

敏處理,通過(guò)去除、替換、模糊等方法,達(dá)到不借助額外信息的情況

下無(wú)法識(shí)別特定自然人或相關(guān)標(biāo)識(shí)符的效果。

數(shù)據(jù)去標(biāo)識(shí)化與在先的標(biāo)識(shí)形成過(guò)程分屬數(shù)據(jù)處理的不同階段

及場(chǎng)景。標(biāo)識(shí)形成是產(chǎn)生數(shù)據(jù)的過(guò)程,使得被標(biāo)識(shí)對(duì)象據(jù)此可以被組

織進(jìn)行有效管理和開(kāi)發(fā)利用。數(shù)據(jù)去標(biāo)識(shí)化是標(biāo)識(shí)數(shù)據(jù)產(chǎn)生后的加工

處理過(guò)程,旨在提升標(biāo)識(shí)信息的安全防護(hù)水平,確保敏感的標(biāo)識(shí)內(nèi)容

不被未經(jīng)授權(quán)的主體獲取和利用。去標(biāo)識(shí)化處理是強(qiáng)化標(biāo)識(shí)數(shù)據(jù)安全

性的重要保障。例如,制造業(yè)企業(yè)通過(guò)對(duì)產(chǎn)品、零部件、設(shè)備進(jìn)行標(biāo)

識(shí),形成了可精準(zhǔn)定位產(chǎn)品和設(shè)備的數(shù)據(jù)資源,在委托外部第三方技

術(shù)開(kāi)發(fā)商進(jìn)行相關(guān)應(yīng)用系統(tǒng)開(kāi)發(fā)時(shí),需要對(duì)含有敏感內(nèi)容或涉及商業(yè)

秘密的數(shù)據(jù)進(jìn)行去標(biāo)識(shí)化處理。

數(shù)據(jù)去標(biāo)識(shí)化處理暗含了相關(guān)標(biāo)識(shí)符具有“復(fù)原”的可能,去標(biāo)

識(shí)化無(wú)法單獨(dú)實(shí)現(xiàn)匿名化的法律效力。例如,對(duì)個(gè)人信息進(jìn)行去標(biāo)識(shí)

化處理后的數(shù)據(jù),仍屬于個(gè)人信息范疇。

(三)匿名化是去標(biāo)識(shí)化的強(qiáng)化

數(shù)據(jù)匿名化是指數(shù)據(jù)經(jīng)過(guò)處理,無(wú)法識(shí)別特定自然人或相關(guān)標(biāo)識(shí)

符且不能復(fù)原的過(guò)程。數(shù)據(jù)匿名化處理在強(qiáng)調(diào)標(biāo)識(shí)符的“不可識(shí)別性”

基礎(chǔ)上,要求標(biāo)識(shí)符同時(shí)滿足“難以復(fù)原性”標(biāo)準(zhǔn),是數(shù)據(jù)去標(biāo)識(shí)化

的進(jìn)一步處理,即數(shù)據(jù)去標(biāo)識(shí)化后應(yīng)用相關(guān)技術(shù)使相關(guān)標(biāo)識(shí)符難以復(fù)

原的過(guò)程。經(jīng)匿名化處理后數(shù)據(jù)的初始效用將受到較大程度的改變。

2

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

與數(shù)據(jù)去標(biāo)識(shí)化相比,經(jīng)匿名化處理后的數(shù)據(jù)即便借助了額外信

息也難以識(shí)別特定自然人和被處理的標(biāo)識(shí)符。例如,對(duì)個(gè)人信息進(jìn)行

匿名化處理后的數(shù)據(jù),不再屬于個(gè)人信息范疇。但匿名化處理僅是描

述應(yīng)用匿名化技術(shù)的過(guò)程,并非描述數(shù)據(jù)達(dá)到絕對(duì)匿名化的狀態(tài),完

滿、絕對(duì)的不可復(fù)原狀態(tài)無(wú)法100%確定。

表1數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理的技術(shù)特點(diǎn)和差異

加工后數(shù)據(jù)改造程度數(shù)據(jù)有用性數(shù)據(jù)安全性

(相對(duì)原始數(shù)據(jù))(針對(duì)個(gè)體記錄)(脫敏程度)

清洗后數(shù)據(jù)低高

(單獨(dú)可識(shí)別)

去標(biāo)識(shí)化數(shù)據(jù)中中(不借助額外信息不可

識(shí)別)

匿名化數(shù)據(jù)高低(借助額外信息也難以

復(fù)原的不可識(shí)別)

來(lái)源:中國(guó)信息通信研究院

去標(biāo)識(shí)化技術(shù)和匿名化技術(shù)沒(méi)有嚴(yán)格界分,二者核心都是通過(guò)技

術(shù)手段對(duì)標(biāo)識(shí)信息進(jìn)行脫敏處理,實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)內(nèi)容的保護(hù),實(shí)踐

中兩類技術(shù)通常可以組合使用實(shí)現(xiàn)預(yù)期處理效果。本報(bào)告根據(jù)抗重新

識(shí)別的風(fēng)險(xiǎn)能力大小和對(duì)敏感內(nèi)容安全防護(hù)程度的差異,將相關(guān)技術(shù)

劃分為去標(biāo)識(shí)化技術(shù)和匿名化技術(shù)。仍保留原始數(shù)據(jù)個(gè)體顆粒度的,

納入去標(biāo)識(shí)化技術(shù)方法范疇;不再保留原始數(shù)據(jù)個(gè)體顆粒度,或原始

數(shù)據(jù)記錄的真實(shí)性已受到顯著減損,或原始數(shù)據(jù)記錄不對(duì)外披露的,

納入匿名化技術(shù)方法范疇。

3

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

二、數(shù)據(jù)處理原則

(一)合法合規(guī)

組織開(kāi)展數(shù)據(jù)清洗、去標(biāo)識(shí)化和匿名化處理,應(yīng)滿足我國(guó)法律、

法規(guī)、規(guī)章和標(biāo)準(zhǔn)規(guī)范對(duì)數(shù)據(jù)安全和個(gè)人信息保護(hù)的有關(guān)規(guī)定,不得

不當(dāng)損害國(guó)家、社會(huì)和第三方組織及個(gè)人的合法正當(dāng)權(quán)益。

(二)安全優(yōu)先

組織應(yīng)采取相應(yīng)的管理和技術(shù)措施,保證數(shù)據(jù)加工處理過(guò)程的安

全性。數(shù)據(jù)的安全性考慮是組織開(kāi)展數(shù)據(jù)去標(biāo)識(shí)化、匿名化處理活動(dòng)

的首要目的,以降低數(shù)據(jù)在后續(xù)流通、應(yīng)用環(huán)節(jié)的安全風(fēng)險(xiǎn),降低數(shù)

據(jù)安全事故發(fā)生概率。

(三)平衡效用

組織應(yīng)根據(jù)業(yè)務(wù)目標(biāo)和安全保護(hù)要求,面向場(chǎng)景化應(yīng)用需求,選

擇恰當(dāng)?shù)那逑?、去?biāo)識(shí)化和匿名化處理路徑和技術(shù),在確保安全的前

提下,強(qiáng)調(diào)數(shù)據(jù)質(zhì)量要求,盡可能滿足預(yù)期效用,促進(jìn)數(shù)據(jù)安全性和

可用性的有效平衡。

(四)技管結(jié)合

組織應(yīng)綜合利用技術(shù)和管理兩方面措施實(shí)現(xiàn)數(shù)據(jù)處理的最佳效

果,根據(jù)工作目標(biāo)和數(shù)據(jù)安全要求制定適當(dāng)?shù)牟呗?,選擇合適的模型

和技術(shù),建立完善的管理架構(gòu)、操作權(quán)限和責(zé)任機(jī)制,將技術(shù)和管理

措施嵌入數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理全流程,并定期跟蹤評(píng)估

和持續(xù)改進(jìn)。

4

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

(五)有效溯源

組織應(yīng)明確各環(huán)節(jié)的數(shù)據(jù)處理權(quán)限和流程,對(duì)數(shù)據(jù)清洗、去標(biāo)識(shí)

化、匿名化設(shè)置訪問(wèn)控制程序,采取措施清晰記錄數(shù)據(jù)處理過(guò)程的細(xì)

節(jié)、使用的參數(shù)和控制措施,及時(shí)發(fā)現(xiàn)已經(jīng)出現(xiàn)或可能出現(xiàn)的偏差或

不當(dāng)操作,支撐后續(xù)對(duì)數(shù)據(jù)處理過(guò)程進(jìn)行維護(hù)、審計(jì)和追溯。

三、數(shù)據(jù)清洗規(guī)程

(一)處理目的

組織實(shí)施數(shù)據(jù)清洗活動(dòng),應(yīng)保證清洗加工過(guò)程和輸出結(jié)果符合以

下要求:

1.規(guī)范性

數(shù)據(jù)來(lái)源合法,數(shù)據(jù)的格式、質(zhì)量及存儲(chǔ)標(biāo)準(zhǔn)應(yīng)統(tǒng)一,應(yīng)使用相

同度量單位描述同一場(chǎng)景下的同類數(shù)據(jù),滿足數(shù)據(jù)互聯(lián)互通要求,不

存在空值、無(wú)效值,響應(yīng)依據(jù)規(guī)范標(biāo)準(zhǔn)的各種查詢和各種計(jì)算。

2.準(zhǔn)確性

應(yīng)對(duì)數(shù)據(jù)所指向的內(nèi)容客觀、真實(shí)、準(zhǔn)確描述,可對(duì)清洗前后的

數(shù)據(jù)進(jìn)行內(nèi)外部比對(duì)校驗(yàn),并對(duì)具有時(shí)效要求的數(shù)據(jù)根據(jù)時(shí)間特性及

時(shí)更新,確保清洗加工不造成數(shù)據(jù)失真、錯(cuò)漏。

3.完整性

清洗后的數(shù)據(jù)應(yīng)保證數(shù)據(jù)的連續(xù)性、完整性,源數(shù)據(jù)應(yīng)在源頭或

備份表中能找到,數(shù)據(jù)在字段、記錄內(nèi)容或數(shù)據(jù)集內(nèi)不應(yīng)有重復(fù)值。

4.一致性

5

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

各字段內(nèi)的數(shù)據(jù)應(yīng)與字段描述一致,同一個(gè)數(shù)據(jù)在同一時(shí)刻在不

同數(shù)據(jù)庫(kù)、應(yīng)用和系統(tǒng)中應(yīng)保持一致。

5.可溯源性

應(yīng)在數(shù)據(jù)清洗轉(zhuǎn)換前對(duì)原始數(shù)據(jù)進(jìn)行備份,對(duì)清洗過(guò)程所使用的

方法、參數(shù)和路徑進(jìn)行記錄,保證原始數(shù)據(jù)可溯源,便于后續(xù)查證或

重新使用。

(二)處理流程

數(shù)據(jù)清洗的流程通常包括抽取清洗對(duì)象、明確清洗規(guī)則、標(biāo)識(shí)錯(cuò)

誤數(shù)據(jù)、數(shù)據(jù)修正處理、數(shù)據(jù)轉(zhuǎn)換檢驗(yàn)、評(píng)估清洗結(jié)果六個(gè)步驟。

1.抽取清洗對(duì)象

(1)明確清洗對(duì)象

選取需要進(jìn)行清洗處理的數(shù)據(jù),明確清洗的數(shù)據(jù)范圍、類型、性

質(zhì)、體量、內(nèi)容、關(guān)系、質(zhì)量等信息,全面分析清洗標(biāo)的的情況,對(duì)

清洗數(shù)據(jù)進(jìn)行分類分級(jí)。

(2)對(duì)清洗對(duì)象進(jìn)行抽取

清洗對(duì)象的抽取應(yīng)當(dāng)允許對(duì)結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)等不同類型數(shù)

據(jù)進(jìn)行抽取,包括對(duì)數(shù)據(jù)的全量抽取和增量抽取,數(shù)據(jù)抽取后的表結(jié)

構(gòu)應(yīng)與抽取來(lái)源的表結(jié)構(gòu)保持一致。

2.定義清洗規(guī)則

(1)確定清洗效果和目標(biāo)

根據(jù)清洗的必要性,分析對(duì)應(yīng)數(shù)據(jù)資源的特點(diǎn)和清洗復(fù)雜程度,

6

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

結(jié)合業(yè)務(wù)要求或用戶和其他相關(guān)方的需求,明確清洗的程度和需要達(dá)

到的質(zhì)量效果。

(2)確定清洗邏輯規(guī)則

結(jié)合所抽取的清洗對(duì)象的數(shù)據(jù)特點(diǎn),以需求為導(dǎo)向,以應(yīng)用為目

標(biāo),以數(shù)據(jù)的可用性為評(píng)價(jià)標(biāo)準(zhǔn),明確各數(shù)據(jù)錯(cuò)誤類型的判斷標(biāo)準(zhǔn)及

相應(yīng)的修正處理方式。

3.標(biāo)識(shí)錯(cuò)誤數(shù)據(jù)

(1)篩選錯(cuò)誤數(shù)據(jù)

分析篩選出數(shù)據(jù)資源中存在的數(shù)據(jù)問(wèn)題和對(duì)應(yīng)的數(shù)據(jù)。按照常見(jiàn)

錯(cuò)誤數(shù)據(jù)的類型,對(duì)數(shù)據(jù)問(wèn)題進(jìn)行分類,針對(duì)性進(jìn)行錯(cuò)誤標(biāo)識(shí),并支

持對(duì)已標(biāo)識(shí)的錯(cuò)誤數(shù)據(jù)進(jìn)行查詢定位。可采用統(tǒng)計(jì)學(xué)、關(guān)聯(lián)規(guī)則、業(yè)

務(wù)區(qū)分等方法來(lái)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行錯(cuò)誤檢測(cè),識(shí)別出數(shù)據(jù)的錯(cuò)誤類型并

進(jìn)行標(biāo)識(shí)。例如,通過(guò)使用統(tǒng)計(jì)學(xué)方法(例如均值、標(biāo)準(zhǔn)差、范圍或

分位數(shù))對(duì)數(shù)據(jù)進(jìn)行分析和可視化,發(fā)現(xiàn)異常值或離群值,從而標(biāo)識(shí)

錯(cuò)誤數(shù)據(jù)。

(2)常見(jiàn)錯(cuò)誤類型

殘缺數(shù)據(jù):數(shù)據(jù)中缺失一些記錄,或一條記錄中缺失一些值,或

兩者都缺失。

偏差數(shù)據(jù):數(shù)據(jù)沒(méi)有嚴(yán)格按照要求記錄,包括格式內(nèi)容錯(cuò)誤、邏

輯錯(cuò)誤、不合規(guī)數(shù)據(jù)等。

重復(fù)數(shù)據(jù):數(shù)據(jù)中出現(xiàn)多條相同記錄,或多條記錄反映同一內(nèi)容,

7

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

通常發(fā)生在數(shù)據(jù)來(lái)自不同來(lái)源、數(shù)據(jù)多次采集、瑕疵數(shù)據(jù)更正備份等

情形。

其他錯(cuò)誤:數(shù)據(jù)未能準(zhǔn)確反映所描述的對(duì)象的其他情形,如非結(jié)

構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)、無(wú)意義數(shù)據(jù)、不相關(guān)數(shù)據(jù)等。

4.數(shù)據(jù)修正處理

對(duì)已標(biāo)識(shí)的殘缺數(shù)據(jù)、偏差數(shù)據(jù)、重復(fù)數(shù)據(jù)和其他錯(cuò)誤數(shù)據(jù)分別

采用針對(duì)性的方法和工具進(jìn)行處理。常見(jiàn)的數(shù)據(jù)清洗工具包括軟件工

具、腳本等類型。選擇清洗方法和策略時(shí),應(yīng)根據(jù)清洗目標(biāo)和業(yè)務(wù)需

要,結(jié)合數(shù)據(jù)錯(cuò)誤類型,采取刪除、填充、更換等不同的方式處理,

具體可參考本節(jié)“(三)常見(jiàn)技術(shù)方法”。

5.數(shù)據(jù)轉(zhuǎn)換檢驗(yàn)

(1)錯(cuò)誤數(shù)據(jù)轉(zhuǎn)換

對(duì)錯(cuò)誤數(shù)據(jù)的格式、信息代碼、值的沖突進(jìn)行轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換前

應(yīng)檢查需要轉(zhuǎn)換的數(shù)據(jù)規(guī)則和字段是否一致。

(2)轉(zhuǎn)換結(jié)果檢驗(yàn)

一是內(nèi)容檢驗(yàn),即對(duì)轉(zhuǎn)換后數(shù)據(jù)內(nèi)容的完整性、全面性進(jìn)行檢驗(yàn),

包括非空檢驗(yàn)和數(shù)據(jù)量檢驗(yàn)。

二是格式檢驗(yàn),即對(duì)照數(shù)據(jù)格式樣例或相關(guān)標(biāo)準(zhǔn)對(duì)轉(zhuǎn)換后數(shù)據(jù)格

式的規(guī)范性、一致性進(jìn)行檢驗(yàn)。

三是邏輯檢驗(yàn),即結(jié)合相關(guān)聯(lián)數(shù)據(jù)對(duì)轉(zhuǎn)換后數(shù)據(jù)邏輯是否符合預(yù)

先設(shè)定的范圍、區(qū)間、大小、數(shù)值關(guān)系等規(guī)則的約束性要求進(jìn)行檢驗(yàn)。

8

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

四是合規(guī)檢驗(yàn),即結(jié)合業(yè)務(wù)場(chǎng)景的合規(guī)要求對(duì)轉(zhuǎn)換后數(shù)據(jù)內(nèi)容是

否符合法律法規(guī)和強(qiáng)制性標(biāo)準(zhǔn)的要求進(jìn)行檢驗(yàn)。

6.評(píng)估清洗結(jié)果

數(shù)據(jù)清洗后及時(shí)評(píng)價(jià)輸出結(jié)果是否符合事先設(shè)定清洗規(guī)則和規(guī)

范性、準(zhǔn)確性、完整性、一致性、可溯源性等目標(biāo)要求,并從業(yè)務(wù)角

度評(píng)估清洗后數(shù)據(jù)的有用性,判斷是否可以支撐后續(xù)加工處理活動(dòng)。

(三)常見(jiàn)技術(shù)方法

1.殘缺數(shù)據(jù)處理

組織應(yīng)當(dāng)按照所需處理數(shù)據(jù)的字段缺失比例和重要性,采取差異

化的策略進(jìn)行處理。重要性高,缺失率低的字段,可以通過(guò)計(jì)算結(jié)果

填充并進(jìn)行核驗(yàn);重要性高,缺失率高的字段,重新采集獲取或通過(guò)

其他渠道取數(shù)補(bǔ)全;重要性低,缺失率低的字段,不做處理或簡(jiǎn)單填

充;重要性低,缺失率高的字段,可以選擇刪除該字段。

(1)刪除缺失值

當(dāng)樣本數(shù)量充足,且出現(xiàn)缺失值的樣本占比相對(duì)較小時(shí),可以備

份當(dāng)前數(shù)據(jù)后,直接刪除后期加工處理不需要的字段和缺失值。

(2)填充缺失內(nèi)容

存在缺失率較低但相對(duì)重要的數(shù)據(jù)項(xiàng)時(shí),可以通過(guò)計(jì)算填充并進(jìn)

行核驗(yàn)的方式進(jìn)行補(bǔ)全,包括不同指標(biāo)的計(jì)算結(jié)果填充和同一指標(biāo)的

計(jì)算結(jié)果填充。

不同指標(biāo)的計(jì)算結(jié)果填充:即通過(guò)數(shù)據(jù)項(xiàng)與數(shù)據(jù)項(xiàng)之間的邏輯聯(lián)

9

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

系,采取相應(yīng)的計(jì)算方法得到缺失內(nèi)容。包括熱卡填補(bǔ)法、最近距離

決定填補(bǔ)法、回歸填補(bǔ)法、多重填補(bǔ)方法、K-最近鄰法、有序最近鄰

法等。例如,數(shù)據(jù)中年齡字段缺失,可以從公民身份證號(hào)中提取年齡

字段。

同一指標(biāo)的計(jì)算結(jié)果填充:即通過(guò)對(duì)同一指標(biāo)列的數(shù)據(jù)采取均值、

中位數(shù)、眾數(shù)等方式進(jìn)行計(jì)算,將相應(yīng)結(jié)果進(jìn)行填充,多用于數(shù)值型

數(shù)據(jù)。例如,某一記錄的身高數(shù)據(jù)缺失,可以使用該字段的均值進(jìn)行

填充。

(3)重新采集數(shù)據(jù)補(bǔ)全

存在缺失率較高且相對(duì)重要的數(shù)據(jù)項(xiàng)時(shí),可以通過(guò)線下補(bǔ)充收集、

業(yè)務(wù)知識(shí)或經(jīng)驗(yàn)推測(cè)、新增抽取其他數(shù)據(jù)源數(shù)據(jù)等方式,進(jìn)行關(guān)聯(lián)對(duì)

比后填補(bǔ)。

2.偏差(異常)數(shù)據(jù)處理

組織應(yīng)當(dāng)對(duì)未符合規(guī)范要求,存在格式、邏輯及內(nèi)容不匹配等方

面偏差的數(shù)據(jù)進(jìn)行處理。

(1)格式不規(guī)范數(shù)據(jù)

對(duì)存在格式不規(guī)范等問(wèn)題的數(shù)據(jù)進(jìn)行處理,包括全、半角處理和

無(wú)效字符處理。按照事先定義的規(guī)則進(jìn)行全、半角符號(hào)統(tǒng)一,以半自

動(dòng)校驗(yàn)結(jié)合半人工方式發(fā)現(xiàn)錯(cuò)誤字符,進(jìn)行自動(dòng)化修正或人工修正。

(2)邏輯沖突數(shù)據(jù)

對(duì)存在不符合邏輯約束要求、相互間存在沖突的數(shù)據(jù)進(jìn)行處理,

10

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

可通過(guò)直接推理、關(guān)聯(lián)修正和邏輯重構(gòu)等方式進(jìn)行,并再次進(jìn)行校驗(yàn)。

直接推理:了解數(shù)據(jù)潛在的邏輯規(guī)則,采取邏輯推理法,直接處

理簡(jiǎn)單邏輯錯(cuò)誤的數(shù)據(jù)。

關(guān)聯(lián)修正:借助分箱、聚類、回歸等方法識(shí)別邏輯錯(cuò)誤數(shù)據(jù),通

過(guò)相互驗(yàn)證的方法修正矛盾內(nèi)容。

邏輯重構(gòu):對(duì)于重要性較高的不合理數(shù)據(jù)進(jìn)行人工干預(yù),或重新

采集數(shù)據(jù),引入更多數(shù)據(jù)源進(jìn)行邏輯的重新梳理并再次進(jìn)行校驗(yàn)。

(3)內(nèi)容不匹配數(shù)據(jù)

對(duì)存在噪聲數(shù)據(jù)、超出明確取值范圍,以及數(shù)據(jù)中存在敏感信息

或內(nèi)容不符合要求等數(shù)據(jù)進(jìn)行處理。通過(guò)設(shè)定判定規(guī)則,借助自動(dòng)化

手段判斷數(shù)據(jù)是否在規(guī)則范圍內(nèi),不在規(guī)則范圍內(nèi)的,進(jìn)行警告及人

工處理。

噪聲數(shù)據(jù):對(duì)噪聲值進(jìn)行平滑處理,或在不影響數(shù)據(jù)結(jié)構(gòu)和后續(xù)

使用情況下,將噪聲數(shù)據(jù)進(jìn)行刪除處理。

離群值數(shù)據(jù):判斷超出明確取值范圍數(shù)據(jù)的來(lái)源是否可靠,數(shù)據(jù)

的存在是否合理,合理的數(shù)據(jù)予以保留,不合理數(shù)據(jù)予以調(diào)整。

內(nèi)容不對(duì)應(yīng)數(shù)據(jù):識(shí)別內(nèi)容與字段要求不匹配的問(wèn)題類型,如人

工填寫(xiě)錯(cuò)誤、導(dǎo)入數(shù)據(jù)時(shí)沒(méi)有對(duì)齊、數(shù)據(jù)源端業(yè)務(wù)系統(tǒng)缺陷等,通過(guò)

關(guān)聯(lián)、修正或重新采集等方式匹配相應(yīng)字段進(jìn)行填補(bǔ)。

3.重復(fù)數(shù)據(jù)處理

將具有相同含義的數(shù)據(jù)判定為重復(fù)數(shù)據(jù),包括相同數(shù)據(jù)和相似數(shù)

據(jù)。

11

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

相同數(shù)據(jù):形式、含義和內(nèi)容均相同的數(shù)據(jù),根據(jù)來(lái)源權(quán)威性和

應(yīng)用場(chǎng)合,選擇最恰當(dāng)渠道來(lái)源的數(shù)據(jù),或在不影響數(shù)據(jù)保真度和完

整性的情況下進(jìn)行合并處理。

相似數(shù)據(jù):識(shí)別相似數(shù)據(jù)的各自含義,判斷數(shù)據(jù)的實(shí)質(zhì)含義上是

否存在差異,實(shí)質(zhì)含義相同的數(shù)據(jù)按照相同數(shù)據(jù)進(jìn)行處理,實(shí)質(zhì)含義

有差異的數(shù)據(jù),不能界定為重復(fù)數(shù)據(jù),應(yīng)分別保留。

4.其他錯(cuò)誤數(shù)據(jù)處理

針對(duì)數(shù)據(jù)未能準(zhǔn)確反映所描述的對(duì)象的其他情形,可以采取以下

通用方式進(jìn)行處理:

將非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);將無(wú)意義數(shù)據(jù)、

不相關(guān)數(shù)據(jù)在進(jìn)行必要性和相關(guān)性評(píng)估后進(jìn)行刪除,提升后續(xù)數(shù)據(jù)處

理效率;對(duì)仍存在問(wèn)題未處理的錯(cuò)誤數(shù)據(jù)存入問(wèn)題數(shù)據(jù)庫(kù),便于后續(xù)

查證或重新使用。

四、數(shù)據(jù)去標(biāo)識(shí)化規(guī)程

(一)處理目的

組織實(shí)施數(shù)據(jù)去標(biāo)識(shí)化,應(yīng)當(dāng)確保經(jīng)過(guò)處理的數(shù)據(jù)達(dá)到以下效果:

1.標(biāo)識(shí)不可識(shí)別

對(duì)數(shù)據(jù)中的直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符進(jìn)行處理,避免未經(jīng)授權(quán)的主

體無(wú)需借助其他額外信息,直接根據(jù)這些標(biāo)識(shí)內(nèi)容便可以識(shí)別出原始

信息主體或相關(guān)標(biāo)識(shí)符。

2.控制被識(shí)別風(fēng)險(xiǎn)

12

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

將去標(biāo)識(shí)化后的數(shù)據(jù)可能被未經(jīng)授權(quán)的主體再次識(shí)別的風(fēng)險(xiǎn)控

制在可接受的范圍內(nèi),確保標(biāo)識(shí)符暴露的風(fēng)險(xiǎn)不會(huì)因數(shù)據(jù)接收方之間

的潛在串通或新數(shù)據(jù)的增加而增加。

3.兼顧數(shù)據(jù)效用目標(biāo)

有效平衡數(shù)據(jù)的安全性和可用性,選擇合適的去標(biāo)識(shí)化模型和技

術(shù),確保去標(biāo)識(shí)化后的數(shù)據(jù)盡量滿足數(shù)據(jù)開(kāi)發(fā)利用的預(yù)期目的和效用,

在數(shù)據(jù)安全前提下最大發(fā)揮去標(biāo)識(shí)化數(shù)據(jù)應(yīng)用價(jià)值。

(二)處理流程

數(shù)據(jù)去標(biāo)識(shí)化的流程通常包括確定去標(biāo)識(shí)化對(duì)象、制定去標(biāo)識(shí)化

目標(biāo)和計(jì)劃、識(shí)別相關(guān)標(biāo)識(shí)符、對(duì)標(biāo)識(shí)符進(jìn)行處理、驗(yàn)證審核處理結(jié)

果、評(píng)估重新標(biāo)識(shí)風(fēng)險(xiǎn)六個(gè)步驟。

1.確定去標(biāo)識(shí)化對(duì)象

組織對(duì)于自身合法取得、合法持有,并實(shí)際控制的數(shù)據(jù),應(yīng)當(dāng)基

于外部和內(nèi)部的多方面因素的考量確定需要進(jìn)行去標(biāo)識(shí)處理的數(shù)據(jù)

范圍。

(1)法規(guī)標(biāo)準(zhǔn)要求

根據(jù)國(guó)家、地區(qū)或行業(yè)的相關(guān)政策、法律、法規(guī)等的強(qiáng)制性規(guī)定,

判斷待收集、存儲(chǔ)、使用、加工或向第三方提供的數(shù)據(jù)是否涉及去標(biāo)

識(shí)化的相關(guān)要求。例如,《個(gè)人信息保護(hù)法》第51條要求,個(gè)人信息

處理者應(yīng)當(dāng)采取加密、去標(biāo)識(shí)化等安全技術(shù)措施,防止未經(jīng)授權(quán)的訪

問(wèn)以及個(gè)人信息泄露、篡改、丟失。

13

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

(2)組織策略要求

根據(jù)自身數(shù)據(jù)管理要求,或者按照與相關(guān)合作方約定,判斷數(shù)據(jù)

進(jìn)行內(nèi)外部應(yīng)用時(shí)是否需要進(jìn)行去標(biāo)識(shí)化處理。例如,將個(gè)人信息對(duì)

外展示時(shí),參考《GB/T35273—2020信息安全技術(shù)個(gè)人信息安全規(guī)

范》,涉及通過(guò)界面展示個(gè)人信息的(如顯示屏幕、紙面),個(gè)人信息

控制者宜對(duì)需展示的個(gè)人信息采取去標(biāo)識(shí)化處理等措施,降低個(gè)人信

息在展示環(huán)節(jié)的泄露風(fēng)險(xiǎn)。

(3)數(shù)據(jù)來(lái)源方要求

根據(jù)數(shù)據(jù)采集時(shí)是否存在對(duì)數(shù)據(jù)來(lái)源方等作出了去標(biāo)識(shí)化的相

關(guān)承諾或約定,判斷對(duì)數(shù)據(jù)進(jìn)行加工或向第三方提供時(shí)是否需要進(jìn)行

去標(biāo)識(shí)化處理。例如,組織已在產(chǎn)品隱私政策中聲明,將用戶個(gè)人信

息用于對(duì)外提供學(xué)術(shù)研究或描述的結(jié)果時(shí),承諾對(duì)結(jié)果中所包含的個(gè)

人信息進(jìn)行去標(biāo)識(shí)化處理。

2.制定去標(biāo)識(shí)化目標(biāo)

均衡數(shù)據(jù)安全性和可用性兩方面需求,確定數(shù)據(jù)去標(biāo)識(shí)化處理需

要達(dá)到的效果。

(1)明確標(biāo)識(shí)被識(shí)別風(fēng)險(xiǎn)的控制要求

分析數(shù)據(jù)的來(lái)源、性質(zhì)、類型,梳理待處理數(shù)據(jù)是否涉及法律法

規(guī)要求和相關(guān)承諾,結(jié)合去標(biāo)識(shí)化后數(shù)據(jù)的主要用途和使用范圍,考

慮可能采用的去標(biāo)識(shí)化模型和技術(shù)的應(yīng)用方向及能力,綜合評(píng)價(jià)組織

對(duì)相關(guān)標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符被重新識(shí)別的風(fēng)險(xiǎn)的不可接受程度。

(2)明確滿足數(shù)據(jù)可用性的最低要求

14

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

結(jié)合數(shù)據(jù)去標(biāo)識(shí)化后的用途,評(píng)估相關(guān)技術(shù)方法的應(yīng)用對(duì)初始數(shù)

據(jù)的改造程度,分析數(shù)據(jù)去標(biāo)識(shí)化后對(duì)業(yè)務(wù)活動(dòng)的可能影響,提出數(shù)

據(jù)有用性的最低要求。

3.識(shí)別相關(guān)標(biāo)識(shí)符

根據(jù)去標(biāo)識(shí)化的目標(biāo),針對(duì)需要去標(biāo)識(shí)化的數(shù)據(jù),識(shí)別出需要進(jìn)

行處理的直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符。組織可以通過(guò)以下方法識(shí)別:

(1)查表識(shí)別

組織通過(guò)預(yù)先建立標(biāo)識(shí)符元數(shù)據(jù)索引表,待具體識(shí)別時(shí),將待識(shí)

別數(shù)據(jù)的各個(gè)屬性名稱或字段名稱,逐個(gè)與元數(shù)據(jù)表中的標(biāo)識(shí)符進(jìn)行

比對(duì)。標(biāo)識(shí)符元數(shù)據(jù)索引表應(yīng)當(dāng)包括標(biāo)識(shí)符名稱、含義、格式要求、

常用數(shù)據(jù)類型、常用字段名稱等信息。查表識(shí)別法適用于數(shù)據(jù)集格式

和屬性相對(duì)明確的去標(biāo)識(shí)化場(chǎng)景。

(2)規(guī)則判定

組織通過(guò)總結(jié)可能涉及直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符的數(shù)據(jù)格式和規(guī)

律,確立相關(guān)標(biāo)識(shí)符識(shí)別規(guī)則,然后通過(guò)運(yùn)行軟件程序,自動(dòng)化地從

數(shù)據(jù)集中識(shí)別出標(biāo)識(shí)數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的標(biāo)識(shí)識(shí)別均可適用規(guī)則判定法。如

通過(guò)建立身份證號(hào)識(shí)別規(guī)則,識(shí)別非結(jié)構(gòu)化存儲(chǔ)的司法判決書(shū)中的身

份證號(hào)。

(3)人工分析

在必要場(chǎng)景下,組織通過(guò)人工發(fā)現(xiàn)和確定數(shù)據(jù)集中的直接標(biāo)識(shí)符

15

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

和準(zhǔn)標(biāo)識(shí)符。人工分析法適用性較強(qiáng),當(dāng)數(shù)據(jù)集中有特別含義的數(shù)據(jù),

或數(shù)據(jù)具有特殊值、容易引起注意的值,或者數(shù)據(jù)集中的多個(gè)不同數(shù)

據(jù)子集之間存在關(guān)聯(lián)、引用關(guān)系時(shí),人工分析可以針對(duì)性地識(shí)別和分

析。

4.對(duì)標(biāo)識(shí)符進(jìn)行處理

對(duì)數(shù)據(jù)集進(jìn)行去標(biāo)識(shí)化前,應(yīng)當(dāng)先通過(guò)數(shù)據(jù)清洗,形成規(guī)范化或

滿足特定格式要求的數(shù)據(jù)。在此基礎(chǔ)上,針對(duì)不同特征和處理要求的

數(shù)據(jù)類型,考慮去標(biāo)識(shí)化的影響,在可接受的被重新識(shí)別風(fēng)險(xiǎn)范圍內(nèi)

盡量滿足數(shù)據(jù)可用性的最低要求,選取有效的去標(biāo)識(shí)化技術(shù)方法和模

型進(jìn)行處理。具體可參考本節(jié)“(三)常見(jiàn)技術(shù)方法”。

技術(shù)選擇需要考量相關(guān)因素包括:數(shù)據(jù)是否可以刪除,是否需要

保留至少若干個(gè)類別的數(shù)據(jù)項(xiàng);去標(biāo)識(shí)后的數(shù)據(jù)是否需要保持唯一性、

可逆性,是否需要保持原有的數(shù)據(jù)格式、表達(dá)順序、統(tǒng)計(jì)特征等;是

否可以對(duì)屬性值實(shí)施隨機(jī)噪聲添加;以及運(yùn)用該去標(biāo)識(shí)化技術(shù)的成本

考量、可承受的重新標(biāo)識(shí)風(fēng)險(xiǎn)范圍和業(yè)務(wù)影響等。

5.驗(yàn)證數(shù)據(jù)處理結(jié)果

對(duì)數(shù)據(jù)去標(biāo)識(shí)化結(jié)果進(jìn)行驗(yàn)證,確保處理后的數(shù)據(jù)在安全性和可

用性方面符合預(yù)設(shè)要求。

(1)安全性驗(yàn)證

驗(yàn)證經(jīng)去標(biāo)識(shí)化處理后數(shù)據(jù)的安全性,確保所生成數(shù)據(jù)被重新識(shí)

別的風(fēng)險(xiǎn)在組織預(yù)設(shè)的可接受風(fēng)險(xiǎn)范圍內(nèi)。組織可以通過(guò)檢查生成的

數(shù)據(jù)結(jié)果、檢查去標(biāo)識(shí)化過(guò)程及記錄、開(kāi)展入侵者測(cè)試等方式驗(yàn)證去

16

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

標(biāo)識(shí)化數(shù)據(jù)的安全性。

(2)有用性驗(yàn)證

分析去標(biāo)識(shí)化后的數(shù)據(jù)對(duì)于預(yù)期應(yīng)用和業(yè)務(wù)的影響,判斷處理后

數(shù)據(jù)的質(zhì)量是否還能滿足預(yù)期業(yè)務(wù)用途。組織可以對(duì)原始數(shù)據(jù)和去標(biāo)

識(shí)化后數(shù)據(jù)分別執(zhí)行統(tǒng)計(jì)計(jì)算,并對(duì)計(jì)算結(jié)果進(jìn)行比較,判斷去標(biāo)識(shí)

化后的計(jì)算結(jié)果是否仍可接受。

6.評(píng)估被識(shí)別風(fēng)險(xiǎn)

對(duì)去標(biāo)識(shí)化后的數(shù)據(jù)進(jìn)行標(biāo)識(shí)符被識(shí)別的風(fēng)險(xiǎn)進(jìn)行評(píng)估,與預(yù)期

可接受的風(fēng)險(xiǎn)閾值進(jìn)行比較。若風(fēng)險(xiǎn)超出閾值,需繼續(xù)進(jìn)行調(diào)整直到

滿足要求。標(biāo)識(shí)符被識(shí)別風(fēng)險(xiǎn)評(píng)估常見(jiàn)的流程包括評(píng)估準(zhǔn)備、定性評(píng)

估、定量評(píng)估、形成評(píng)估結(jié)論等環(huán)節(jié),組織可借鑒《GB/T42460-2023

信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化效果評(píng)估指南》進(jìn)行流程設(shè)計(jì)。

按照標(biāo)識(shí)符被識(shí)別的風(fēng)險(xiǎn)從高到低,可以將相應(yīng)的風(fēng)險(xiǎn)閾值劃分

為高風(fēng)險(xiǎn)、較高風(fēng)險(xiǎn)、可控風(fēng)險(xiǎn)、低風(fēng)險(xiǎn)4個(gè)等級(jí)。

高風(fēng)險(xiǎn)(4級(jí)):能直接識(shí)別主體或敏感屬性的數(shù)據(jù),即包含直

接標(biāo)識(shí)符的數(shù)據(jù);較高風(fēng)險(xiǎn)(3級(jí)):僅消除直接標(biāo)識(shí)符的數(shù)據(jù),即

刪除了直接標(biāo)識(shí)符,但仍包含準(zhǔn)標(biāo)識(shí)符的數(shù)據(jù);可控風(fēng)險(xiǎn)(2級(jí)):

消除直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符的數(shù)據(jù),即對(duì)直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符均進(jìn)

行了處理,在不借助額外信息的情況下,無(wú)法識(shí)別或關(guān)聯(lián)識(shí)別個(gè)人信

息主體或特定標(biāo)識(shí)內(nèi)容;低風(fēng)險(xiǎn)(1級(jí)),不再保留個(gè)體顆粒度的聚

合數(shù)據(jù),如總計(jì)數(shù)、最大值、最小值、平均值等。

17

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

(三)常見(jiàn)技術(shù)方法

本報(bào)告將仍保留原始數(shù)據(jù)個(gè)體顆粒度的技術(shù)類型,納入去標(biāo)識(shí)化

技術(shù)方法范疇。部分技術(shù)方法參考了《GB/T37964-2019信息安全技

術(shù)個(gè)人信息去標(biāo)識(shí)化指南》。組織根據(jù)需要選擇相應(yīng)的去標(biāo)識(shí)化技術(shù),

常見(jiàn)的去標(biāo)識(shí)化技術(shù)包括數(shù)據(jù)抽樣技術(shù)、加解密技術(shù)、假名化技術(shù)、

抑制遮蓋技術(shù)等,不同技術(shù)之間可以結(jié)合使用。

1.數(shù)據(jù)抽樣技術(shù)

數(shù)據(jù)抽樣是通過(guò)選取數(shù)據(jù)集中有代表性的子集來(lái)對(duì)原始數(shù)據(jù)集

進(jìn)行分析和評(píng)估。對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)抽樣能夠增加識(shí)別出特定標(biāo)識(shí)符

的不確定性,可以作為后續(xù)應(yīng)用其他技術(shù)強(qiáng)化去標(biāo)識(shí)化效果的初步處

理。

數(shù)據(jù)抽樣的方式較多,需要根據(jù)數(shù)據(jù)集的特點(diǎn)和預(yù)期的使用場(chǎng)景

進(jìn)行選擇,包括隨機(jī)抽樣、等距抽樣、分層抽樣、整群抽樣等。

2.加解密技術(shù)

加解密技術(shù)是指利用算法對(duì)數(shù)據(jù)進(jìn)行加密和解密操作,以密碼學(xué)

為基礎(chǔ)構(gòu)建加密函數(shù),輸入敏感數(shù)據(jù)和相關(guān)標(biāo)識(shí)符,輸出處理后的加

密隱藏?cái)?shù)據(jù)。同時(shí)在有需要的時(shí)候,可以對(duì)數(shù)據(jù)進(jìn)行解密操作,即在

擁有密鑰的條件下,可以對(duì)標(biāo)識(shí)符進(jìn)行復(fù)原。常見(jiàn)的數(shù)據(jù)加密方法包

括確定性加密、保序加密、保留格式加密、同態(tài)加密等。

確定性加密:指通過(guò)確定性加密結(jié)果替代數(shù)據(jù)中的標(biāo)識(shí)符值。確

定性加密是一種非隨機(jī)加密方法,可以保證數(shù)據(jù)真實(shí)可用,一定程度

上保證數(shù)據(jù)在統(tǒng)計(jì)處理、隱私防挖掘方面的有用性,也可以生成用于

18

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

精準(zhǔn)匹配搜索、數(shù)據(jù)關(guān)聯(lián)及分析的微數(shù)據(jù)。對(duì)確定性加密結(jié)果的分析

多用于檢查數(shù)據(jù)值是否相等。

保序加密:指通過(guò)保序加密值替代微數(shù)據(jù)中的標(biāo)識(shí)符值。保序加

密同樣是一種非隨機(jī)加密方法,密文的排序與明文的排序相同。對(duì)保

序加密結(jié)果的分析多用于檢查數(shù)據(jù)是否相等和排序關(guān)系比較。

保留格式加密:指加密過(guò)程要求密文與明文具有相同的格式,可

用保留格式加密值替代微數(shù)據(jù)中的標(biāo)識(shí)符值。保留格式加密可以保證

加密后的數(shù)據(jù)具有與原始數(shù)據(jù)相同的格式和長(zhǎng)度,有助于在不需要修

改應(yīng)用系統(tǒng)匹配格式的情況下實(shí)現(xiàn)去標(biāo)識(shí)化。

同態(tài)加密:指將原始數(shù)據(jù)加密后,對(duì)得到的密文進(jìn)行特定的運(yùn)算,

得到的計(jì)算結(jié)果等價(jià)于基于原始明文數(shù)據(jù)直接進(jìn)行相同計(jì)算所得到

的數(shù)據(jù)結(jié)果。同態(tài)加密是一種隨機(jī)加密,對(duì)經(jīng)過(guò)同態(tài)加密的數(shù)據(jù)進(jìn)行

處理得到相同的輸出結(jié)果,處理過(guò)程不會(huì)泄露任何原始內(nèi)容。

3.假名化技術(shù)

假名化技術(shù)是指使用虛構(gòu)的名稱或數(shù)值,替換原始數(shù)據(jù)的直接標(biāo)

識(shí)符或準(zhǔn)標(biāo)識(shí)符的過(guò)程。假名化技術(shù)保留了原始數(shù)據(jù)的唯一性特點(diǎn),

也被稱為編碼。不同數(shù)據(jù)在假名化處理后依然可以進(jìn)行關(guān)聯(lián),并且不

會(huì)泄露原始標(biāo)識(shí)符。當(dāng)需要唯一區(qū)分?jǐn)?shù)據(jù)值并且沒(méi)有保留關(guān)于原始屬

性的直接標(biāo)識(shí)符的字符或任何其他隱含信息時(shí),可以使用假名化技術(shù)。

假名可以獨(dú)立生成或借助密鑰編碼生成。

獨(dú)立生成假名:即不依賴于被替代的原始值,生成獨(dú)立于標(biāo)識(shí)符

的假名創(chuàng)建技術(shù),如使用隨機(jī)值代替標(biāo)識(shí)符原始值。組織需要?jiǎng)?chuàng)建假

19

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

名與原始標(biāo)識(shí)的分配表,并采取適當(dāng)?shù)募夹g(shù)與管理措施限制和控制對(duì)

該分配表的訪問(wèn)。

基于密鑰的假名編碼:即基于密碼技術(shù)的標(biāo)識(shí)符派生假名創(chuàng)建技

術(shù),通過(guò)對(duì)屬性值采用加密或散列等密碼技術(shù)生成假名,也被稱為對(duì)

標(biāo)識(shí)符進(jìn)行“密鑰編碼”。其中加密技術(shù)生成的假名可以用合適的密

鑰及對(duì)應(yīng)的算法解密。

4.抑制遮蓋技術(shù)

抑制遮蓋技術(shù)即對(duì)需要進(jìn)行處理的標(biāo)識(shí)符或數(shù)據(jù)項(xiàng)進(jìn)行刪除或

屏蔽。抑制技術(shù)主要適用于分類數(shù)據(jù),可用于數(shù)值與非數(shù)值數(shù)據(jù)屬性,

執(zhí)行相對(duì)容易,通過(guò)直接刪除或屏蔽降低關(guān)聯(lián)識(shí)別的風(fēng)險(xiǎn),且可以保

持?jǐn)?shù)據(jù)的真實(shí)性,但會(huì)造成一定程度的信息缺失。但過(guò)多的抑制會(huì)影

響數(shù)據(jù)的效用,為保證數(shù)據(jù)的可用性,組織需要對(duì)抑制的數(shù)據(jù)項(xiàng)數(shù)量

和范圍設(shè)定上限。抑制遮蓋需要是永久性的,而不僅僅是“隱藏”功

能,如果底層數(shù)據(jù)仍然可訪問(wèn)或編輯,則未達(dá)到抑制遮蓋效果。根據(jù)

抑制方式的差異,抑制遮蓋技術(shù)可以分為直接刪除或字符掩碼屏蔽。

直接刪除:即從數(shù)據(jù)集中直接刪除相關(guān)標(biāo)識(shí)符,或刪除標(biāo)識(shí)符中

的部分屬性或內(nèi)容,或者刪除涉及特定屬性標(biāo)識(shí)符的數(shù)據(jù)記錄。

字符掩碼:通過(guò)使用一致的符號(hào)(例如“*”或“x”)來(lái)替換原

數(shù)據(jù)標(biāo)識(shí)符或標(biāo)識(shí)符中的部分?jǐn)?shù)值。區(qū)別于仍具有唯一性的假名,進(jìn)

行同一屬性的數(shù)值所替換的字符掩碼均為相同,具有一致性。

20

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

五、數(shù)據(jù)匿名化規(guī)程

(一)處理目的

1.促使標(biāo)識(shí)難以復(fù)原

數(shù)據(jù)匿名化處理是數(shù)據(jù)去標(biāo)識(shí)化后應(yīng)用相關(guān)技術(shù)使相關(guān)標(biāo)識(shí)符

難以復(fù)原的過(guò)程,是數(shù)據(jù)去標(biāo)識(shí)化的進(jìn)一步處理。與數(shù)據(jù)去標(biāo)識(shí)化相

比,經(jīng)匿名化處理后的數(shù)據(jù)即便借助了額外信息也難以識(shí)別特定自然

人和已被處理的標(biāo)識(shí)符。

2.符合風(fēng)險(xiǎn)可接受水平

任何數(shù)據(jù)均有被復(fù)原的可能。數(shù)據(jù)匿名化處理并非追求完美、絕

對(duì)的匿名化狀態(tài),強(qiáng)調(diào)的是運(yùn)用匿名化技術(shù)將原始數(shù)據(jù)相關(guān)標(biāo)識(shí)符的

可識(shí)別性降低到監(jiān)管和組織可接受的風(fēng)險(xiǎn)水平。如果信息主體和相關(guān)

標(biāo)識(shí)符的識(shí)別需要不合理的時(shí)間、努力或資源,則不視為是可復(fù)原的。

3.支持統(tǒng)計(jì)、訓(xùn)練用途

經(jīng)匿名化處理的數(shù)據(jù),數(shù)據(jù)顆粒度、精確度受到影響,不再保留

個(gè)體數(shù)據(jù)記錄。例如,經(jīng)匿名化處理的個(gè)人信息,不再屬于個(gè)人信息

范疇。與基于個(gè)體特征識(shí)別的用戶畫(huà)像、設(shè)備定位等用途不同,對(duì)數(shù)

據(jù)匿名化處理主要為了支撐統(tǒng)計(jì)分析、算法訓(xùn)練、科學(xué)研究等場(chǎng)景。

(二)處理流程

數(shù)據(jù)匿名化的流程通常包括明確匿名化處理對(duì)象、設(shè)定匿名化處

理目標(biāo)、先行去標(biāo)識(shí)化處理、實(shí)施數(shù)據(jù)匿名化處理、評(píng)估匿名化效果、

定期追蹤復(fù)原風(fēng)險(xiǎn)六個(gè)步驟。

21

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

1.確定匿名化對(duì)象

根據(jù)法律要求和業(yè)務(wù)用途,確定需要進(jìn)行匿名化處理的數(shù)據(jù)類型

和范圍。

(1)按照監(jiān)管要求確定處理對(duì)象

例如,組織遵照《汽車數(shù)據(jù)安全管理若干規(guī)定(試行)》要求,因

保證行車安全需要,在無(wú)法征得個(gè)人同意采集到車外個(gè)人信息且需要

向車外提供時(shí),對(duì)相關(guān)數(shù)據(jù)進(jìn)行匿名化處理,包括刪除含有能夠識(shí)別

自然人的畫(huà)面,或者對(duì)畫(huà)面中的人臉信息等進(jìn)行局部輪廓化處理等。

(2)遵循最小必要原則確定處理對(duì)象

例如,征信機(jī)構(gòu)按照《征信業(yè)務(wù)管理辦法》規(guī)定,在個(gè)人不良信

息保存期限屆滿時(shí),將個(gè)人不良信息在對(duì)外服務(wù)和應(yīng)用中刪除;作為

樣本數(shù)據(jù)繼續(xù)使用的,進(jìn)行匿名化處理。

(3)履行約定或承諾義務(wù)確定處理對(duì)象

例如,組織按照《GB/T35273-2020信息安全技術(shù)個(gè)人信息安全

規(guī)范》規(guī)定,在相關(guān)數(shù)據(jù)超出個(gè)人信息約定的存儲(chǔ)期限或達(dá)成處理目

的后,以及組織停止運(yùn)營(yíng)其產(chǎn)品或服務(wù)時(shí)或用戶注銷賬戶時(shí),對(duì)個(gè)人

信息進(jìn)行刪除或匿名化處理。

(4)基于業(yè)務(wù)開(kāi)展需要確定處理對(duì)象

例如,國(guó)家衛(wèi)生健康委等四部門(mén)發(fā)布的《涉及人的生命科學(xué)和醫(yī)

學(xué)研究倫理審查辦法》中,將“使用匿名化的信息數(shù)據(jù)開(kāi)展研究”作

為“免除倫理審查”的情形之一,組織為減少科研業(yè)務(wù)不必要的合規(guī)

負(fù)擔(dān),使用匿名化數(shù)據(jù)開(kāi)展涉及人的生命科學(xué)和醫(yī)學(xué)研究。

22

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

2.設(shè)定匿名化目標(biāo)

滿足安全性要求是數(shù)據(jù)匿名化處理的首要目標(biāo)。組織應(yīng)結(jié)合業(yè)務(wù)

場(chǎng)景和安全防護(hù)管理要求,根據(jù)數(shù)據(jù)的性質(zhì)、使用環(huán)境和使用的匿名

化技術(shù)等,結(jié)合匿名化數(shù)據(jù)的主要用途和使用場(chǎng)景,對(duì)標(biāo)識(shí)符被復(fù)原

的可能性進(jìn)行分析,評(píng)估相應(yīng)的風(fēng)險(xiǎn),設(shè)定可被組織和監(jiān)管部門(mén)接受

和認(rèn)可的風(fēng)險(xiǎn)閾值。

3.先行去標(biāo)識(shí)化處理

組織應(yīng)將去標(biāo)識(shí)化作為匿名化處理的一部分執(zhí)行,結(jié)合前述數(shù)據(jù)

去標(biāo)識(shí)化業(yè)務(wù)規(guī)程,識(shí)別相關(guān)直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符,針對(duì)性進(jìn)行去

標(biāo)識(shí)化處理,先行滿足數(shù)據(jù)的“不可識(shí)別性”要求,達(dá)到數(shù)據(jù)在不借

助額外信息的情況下無(wú)法直接識(shí)別特定自然人或相關(guān)標(biāo)識(shí)符的效果,

為后續(xù)的匿名化操作奠定基礎(chǔ)。

4.實(shí)施匿名化處理

組織針對(duì)已去標(biāo)識(shí)化的數(shù)據(jù)應(yīng)用匿名化技術(shù),使未獲得授權(quán)主體

不能輕易地將該數(shù)據(jù)與可能包含額外信息的其他數(shù)據(jù)相結(jié)合,從而難

以復(fù)原特定自然人信息或相關(guān)標(biāo)識(shí)符。不同匿名化技術(shù)的技術(shù)特點(diǎn)不

同,選擇處理技術(shù)時(shí),應(yīng)當(dāng)結(jié)合數(shù)據(jù)類型和性質(zhì)、業(yè)務(wù)場(chǎng)景、處理目

的等進(jìn)行綜合考量,相關(guān)技術(shù)具體可參考本節(jié)“(三)常見(jiàn)技術(shù)方法”。

選擇匿名化技術(shù)過(guò)程中需要考慮以下因素:

一是考慮所采用的匿名化技術(shù)進(jìn)行處理后數(shù)據(jù)是否仍滿足預(yù)期

效用。匿名化處理可能對(duì)原始數(shù)據(jù)格式、數(shù)值和表達(dá)方式進(jìn)行較大變

動(dòng),將對(duì)原始數(shù)據(jù)的保真性、顆粒度形成較大影響。

23

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

二是考慮將相關(guān)匿名化技術(shù)和去標(biāo)識(shí)化技術(shù)組合使用,形成系統(tǒng)

性匿名化處理方案。例如,如果某個(gè)屬性類別的數(shù)值直接刪除不會(huì)影

響數(shù)據(jù)效用,可以選擇抑制遮蓋技術(shù)對(duì)相關(guān)數(shù)據(jù)項(xiàng)予以刪除處理。

三是考慮不同匿名化技術(shù)的適用場(chǎng)景。結(jié)合技術(shù)特點(diǎn)和目標(biāo)要求

選擇相應(yīng)技術(shù)。如針對(duì)連續(xù)值屬性的數(shù)據(jù)可以采用噪聲添加、數(shù)據(jù)擾

動(dòng)等隨機(jī)化技術(shù),針對(duì)無(wú)需體現(xiàn)個(gè)體數(shù)據(jù)記錄的情形可以采用聚合統(tǒng)

計(jì)等技術(shù)。同時(shí),針對(duì)同一場(chǎng)景或同一數(shù)據(jù)類型的匿名化處理,也可

多種匿名化技術(shù)結(jié)合使用。

5.評(píng)估匿名化效果

組織應(yīng)用適當(dāng)?shù)哪涿夹g(shù)后,應(yīng)當(dāng)對(duì)匿名化處理的效果進(jìn)行分

析評(píng)估。計(jì)算標(biāo)識(shí)符被復(fù)原或重新標(biāo)識(shí)風(fēng)險(xiǎn)的方法需要綜合考慮數(shù)據(jù)

因素和環(huán)境因素。《GB/T42460-2023信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)

化效果評(píng)估指南》提供了“基于K匿名模型的重標(biāo)識(shí)風(fēng)險(xiǎn)計(jì)算方案

及評(píng)估事例”,可供組織借鑒參考。

k-匿名值是一種計(jì)算數(shù)據(jù)集重新識(shí)別風(fēng)險(xiǎn)水平的方法,指數(shù)據(jù)集

中可以分組在一起的相同記錄的最小數(shù)量。在評(píng)估數(shù)據(jù)集的總體重新

識(shí)別風(fēng)險(xiǎn)時(shí),通常采用最小值來(lái)表示最壞情況。k-匿名值較高意味著

重新識(shí)別的風(fēng)險(xiǎn)較低,k匿名性值較低意味著風(fēng)險(xiǎn)較高。K-匿名值為

1表示記錄是唯一的。k-匿名值需要結(jié)合實(shí)際場(chǎng)景、處理目標(biāo)和安全

等級(jí)要求進(jìn)行具體設(shè)定。在可能的情況下,應(yīng)設(shè)置更高的k-匿名閾值,

以最小化任何重新識(shí)別風(fēng)險(xiǎn)。需注意,k-匿名可能不適用于所有類型

的數(shù)據(jù)集或其他復(fù)雜情形。

24

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

6.定期追蹤復(fù)原風(fēng)險(xiǎn)

組織應(yīng)當(dāng)定期追蹤內(nèi)外部相關(guān)主體對(duì)匿名化處理數(shù)據(jù)的使用情

況,評(píng)估新技術(shù)、新數(shù)據(jù)、新主體的引入可能帶來(lái)的標(biāo)識(shí)符被復(fù)原的

新隱患,考慮數(shù)據(jù)的流通范圍、可能的技術(shù)演變等,以及未知的跨庫(kù)

數(shù)據(jù)可能導(dǎo)致與匿名數(shù)據(jù)集匹配的情形,進(jìn)而采取適當(dāng)措施保護(hù)相關(guān)

標(biāo)識(shí)符免受復(fù)原識(shí)別和披露的風(fēng)險(xiǎn)。

(三)常見(jiàn)技術(shù)方法

本報(bào)告將不再保留原始數(shù)據(jù)個(gè)體顆粒度,或原始數(shù)據(jù)記錄真實(shí)性

已受到顯著減損,或原始數(shù)據(jù)記錄不對(duì)外披露的技術(shù)類型,納入匿名

化技術(shù)方法范疇。部分技術(shù)方法參考了《GB/T37964-2019信息安全

技術(shù)個(gè)人信息去標(biāo)識(shí)化指南》。組織可結(jié)合具體場(chǎng)景單獨(dú)或組合選用

聚合統(tǒng)計(jì)、泛化、隨機(jī)化、數(shù)據(jù)合成、隱私計(jì)算等技術(shù)進(jìn)行處理。

1.聚合統(tǒng)計(jì)技術(shù)

聚合統(tǒng)計(jì)技術(shù)指將數(shù)據(jù)集從記錄列表轉(zhuǎn)換為匯總值或相關(guān)統(tǒng)計(jì)

值的方法,可以視為求和、計(jì)數(shù)、平均、最大值與最小值等一系列統(tǒng)

計(jì)技術(shù)的集合。由于聚合統(tǒng)計(jì)技術(shù)的輸出是“統(tǒng)計(jì)值”,該值有利于

對(duì)數(shù)據(jù)進(jìn)行整體報(bào)告或分析,產(chǎn)生的結(jié)果能夠代表原始數(shù)據(jù)集中的所

有記錄,且不會(huì)披露任何個(gè)體記錄,很大程度上降低了個(gè)體的標(biāo)識(shí)符

被重新識(shí)別的風(fēng)險(xiǎn)。當(dāng)組織不需要單獨(dú)的數(shù)據(jù)記錄且聚合數(shù)據(jù)足以滿

足預(yù)期效用時(shí)可以采用聚合統(tǒng)計(jì)技術(shù)。

例如,2022年我國(guó)18-80歲女性平均體重59.8kg,如果以平均體

重來(lái)標(biāo)識(shí)數(shù)據(jù)集中每個(gè)人的體重值,則未獲得授權(quán)主體無(wú)法根據(jù)體重

25

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

屬性將某一條數(shù)據(jù)記錄(女,北京,1.63m,59.8kg,1990年9月1

日)關(guān)聯(lián)到特定個(gè)人。

使用聚合統(tǒng)計(jì)技術(shù)應(yīng)注意兩方面的應(yīng)用要求:一是數(shù)據(jù)聚合統(tǒng)計(jì)

可能會(huì)顯著改變數(shù)據(jù)的初始用途,因?yàn)檩敵龅慕Y(jié)果為統(tǒng)計(jì)值,無(wú)法反

映每一單獨(dú)數(shù)據(jù)記錄的特征;二是應(yīng)用聚合統(tǒng)計(jì)技術(shù)對(duì)原始數(shù)據(jù)的樣

本量具有一定要求,若原始數(shù)據(jù)記錄的數(shù)量很少,則結(jié)合其他數(shù)據(jù)容

易推斷出其中具體的單獨(dú)數(shù)據(jù)記錄的特征。

2.泛化技術(shù)

泛化技術(shù)也是一種概括方法,又被稱為離散化處理,是通過(guò)降低

數(shù)據(jù)所選屬性的顆粒度、精度,對(duì)數(shù)據(jù)進(jìn)行更概括、抽象描述的匿名

化技術(shù)。使用泛化技術(shù)的目標(biāo)是減少屬性唯一值的數(shù)量,使得被泛化

后的值被數(shù)據(jù)集中多個(gè)記錄所共享,從而增加某個(gè)特定數(shù)據(jù)記錄被推

測(cè)出的難度。例如,將一個(gè)人的年齡轉(zhuǎn)換為年齡范圍,或?qū)⒕_位置

轉(zhuǎn)換為不太精確的位置。

數(shù)據(jù)泛化的程度需要均衡預(yù)期目的和風(fēng)險(xiǎn)控制兩方面要求。數(shù)據(jù)

范圍過(guò)大可能意味著數(shù)據(jù)效用的顯著損失,數(shù)據(jù)范圍過(guò)小可能意味著

幾乎不修改數(shù)據(jù),特定數(shù)據(jù)記錄仍然很容易重新識(shí)別。常見(jiàn)的泛化方

法包括取整、頂層與底層編碼等。

取整:即為數(shù)值型標(biāo)識(shí)符選定一個(gè)取整基數(shù),然后將每個(gè)具體值

向上或向下取整至最接近取整基數(shù)的倍數(shù)。向上還是向下取整按概率

確定,該概率值取決于觀察值與最接近取整基數(shù)倍數(shù)的接近程度。例

如,如果取整基數(shù)為10,觀察值為7,應(yīng)將7向上取整至10,概率

26

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

為0.7,若向下取整至0,概率為0.3。同時(shí)還可以按要求進(jìn)行受控取

整,如確保取整值的求和結(jié)果與原始數(shù)據(jù)的求和取整值相同。

頂層與底層編碼:即為數(shù)值型標(biāo)識(shí)符設(shè)定一個(gè)可能的取值范圍,

用高于或低于所設(shè)定的臨界值的描述替換某一特定數(shù)據(jù)記錄在該屬

性上的具體數(shù)值,主要適用于連續(xù)或分類有序的數(shù)據(jù)類型。例如,將

某一員工的薪水值設(shè)置為“高于10000元”,其中“10000”為高收入

值的界限,而不記錄準(zhǔn)確的金額。

3.隨機(jī)化技術(shù)

隨機(jī)化技術(shù)指通過(guò)隨機(jī)修改數(shù)據(jù)屬性的值,使得隨機(jī)化處理后的

值區(qū)別于原來(lái)的真實(shí)值。隨機(jī)化技術(shù)降低了未經(jīng)授權(quán)主體從同一數(shù)據(jù)

記錄中根據(jù)其他屬性值推導(dǎo)出某一屬性值的能力,會(huì)對(duì)原始數(shù)據(jù)記錄

的真實(shí)性造成一定影響。常見(jiàn)的隨機(jī)化技術(shù)有數(shù)據(jù)擾動(dòng)、數(shù)據(jù)置換等。

數(shù)據(jù)擾動(dòng):又稱噪聲添加,即通過(guò)添加隨機(jī)值來(lái)修改數(shù)據(jù)中的值,

同時(shí)盡可能保持該屬性在數(shù)據(jù)集中的原始統(tǒng)計(jì)特性,包括屬性的分布、

平均值、方差、標(biāo)準(zhǔn)偏差、協(xié)方差以及相關(guān)性。數(shù)據(jù)擾動(dòng)的程度應(yīng)當(dāng)

控制在一定范圍內(nèi)容,如果擾動(dòng)程度太小,匿名化效果較弱;如果擾

動(dòng)程度太大,最終值將與原始值相差太大,數(shù)據(jù)集的效用可能會(huì)降低。

數(shù)據(jù)擾動(dòng)通常用于數(shù)值型標(biāo)識(shí)符,例如對(duì)日期前后隨機(jī)+/-3個(gè)自然日。

數(shù)據(jù)置換:相當(dāng)于一種洗牌,即重新排列數(shù)據(jù)屬性中的標(biāo)識(shí)符,

使之無(wú)法與原始記錄對(duì)應(yīng),但各個(gè)屬性的值仍在數(shù)據(jù)集中表示,保持

了原有數(shù)據(jù)集中所選屬性整體的準(zhǔn)確統(tǒng)計(jì)分布。數(shù)值型標(biāo)識(shí)符和非數(shù)

值型標(biāo)識(shí)符均可使用數(shù)據(jù)置換技術(shù)。在保持所選屬性之間原有相關(guān)性

27

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

的情況下,置換算法可用于單個(gè)或多個(gè)屬性。例如,對(duì)姓名進(jìn)行假名

化處理后,對(duì)職位、性別、年齡等進(jìn)行亂序重排。

4.數(shù)據(jù)合成技術(shù)

數(shù)據(jù)合成技術(shù)是顯著修改原有數(shù)據(jù)的所有屬性,重新合成產(chǎn)生新

的微數(shù)據(jù)的方法。合成數(shù)據(jù)集與原始數(shù)據(jù)的特征相符,可根據(jù)所選的

統(tǒng)計(jì)特性隨機(jī)生成,但不會(huì)體現(xiàn)原始數(shù)據(jù)的任何特定記錄。但若是合

成后數(shù)據(jù)與原始數(shù)據(jù)的擬合度過(guò)高可能會(huì)存在被關(guān)聯(lián)識(shí)別風(fēng)險(xiǎn)。

通常合成數(shù)據(jù)的生成會(huì)在假名化的基礎(chǔ)上,采用隨機(jī)化技術(shù)與抽

樣技術(shù)對(duì)真實(shí)數(shù)據(jù)集進(jìn)行多次或連續(xù)轉(zhuǎn)換。合成數(shù)據(jù)通常適用于應(yīng)用

程序開(kāi)發(fā)、測(cè)試和應(yīng)用,將其作為真實(shí)數(shù)據(jù)的替代項(xiàng),幫助數(shù)據(jù)開(kāi)發(fā)

主體獲得與基于真實(shí)數(shù)據(jù)的處理同樣的效果。

5.隱私計(jì)算技術(shù)

隱私計(jì)算技術(shù)是指在保護(hù)數(shù)據(jù)本身不對(duì)外泄露的前提下實(shí)現(xiàn)數(shù)

據(jù)分析計(jì)算的技術(shù)集合,通過(guò)對(duì)所涉及的隱私信息進(jìn)行描述、度量、

評(píng)價(jià)和融合等操作,形成一套符號(hào)化、公式化且具有量化評(píng)價(jià)標(biāo)準(zhǔn)的

隱私計(jì)算方法,達(dá)到對(duì)數(shù)據(jù)“可用不可見(jiàn)”的目的。目前主流的隱私

計(jì)算技術(shù)主要分為三大方向:一是以多方安全計(jì)算為代表的基于密碼

學(xué)的隱私計(jì)算技術(shù);二是以聯(lián)邦學(xué)習(xí)為代表的人工智能與隱私保護(hù)技

術(shù)融合衍生的技術(shù);三是以可信執(zhí)行環(huán)境為代表的基于可信硬件的隱

私計(jì)算技術(shù)。

多方安全計(jì)算:是指在無(wú)可信第三方的情況下,多個(gè)參與方共同

計(jì)算一個(gè)目標(biāo)函數(shù),在不泄露己方數(shù)據(jù)的同時(shí)完成數(shù)據(jù)計(jì)算,并且保

28

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

證每一方僅獲取自己的計(jì)算結(jié)果,無(wú)法通過(guò)計(jì)算過(guò)程中的交互數(shù)據(jù)推

測(cè)出其他任意一方的輸入數(shù)據(jù)。多方安全計(jì)算通常應(yīng)用于聯(lián)合數(shù)據(jù)分

析、數(shù)據(jù)可信交換、分布式投票、隱私競(jìng)標(biāo)和拍賣、黑名單安全查詢、

數(shù)據(jù)庫(kù)檢索等場(chǎng)景。

聯(lián)邦學(xué)習(xí):是指實(shí)現(xiàn)在本地原始數(shù)據(jù)不出庫(kù)的情況下,各方通過(guò)

對(duì)中間加密數(shù)據(jù)的流通、參數(shù)交換和處理,共同建立虛擬的共有模型,

完成多方聯(lián)合的機(jī)器學(xué)習(xí)訓(xùn)練。聯(lián)邦學(xué)習(xí)可以從技術(shù)上有效解決數(shù)據(jù)

孤島問(wèn)題,讓參與方在不泄露各自擁有的用戶數(shù)據(jù)的基礎(chǔ)上,實(shí)現(xiàn)聯(lián)

合建模和AI協(xié)作,加速隱私計(jì)算在不同場(chǎng)景的應(yīng)用與落地。根據(jù)參

與方的數(shù)據(jù)分布和特征重疊情況的不同,可以分為橫向聯(lián)邦學(xué)習(xí)、縱

向聯(lián)邦學(xué)習(xí)和聯(lián)邦遷移學(xué)習(xí)。

可信執(zhí)行環(huán)境:是指將需要保護(hù)的數(shù)據(jù)和代碼存儲(chǔ)在可信執(zhí)行環(huán)

境中,即通過(guò)軟硬件方法在中央處理器中構(gòu)建一個(gè)安全的區(qū)域,對(duì)這

些數(shù)據(jù)和代碼的任何訪問(wèn)都必須通過(guò)基于硬件的訪問(wèn)控制,防止它們

在使用中未經(jīng)授權(quán)被訪問(wèn)或修改,從而保證其內(nèi)部加載的程序和數(shù)據(jù)

在機(jī)密性和完整性上得到保護(hù)??尚艌?zhí)行環(huán)境是一種硬件解決方案,

安全性較高,但運(yùn)維成本相應(yīng)上升,多用于本地和遠(yuǎn)程驗(yàn)證場(chǎng)景。

六、數(shù)據(jù)處理環(huán)境要求

(一)管理制度要求

組織應(yīng)當(dāng)遵守法律法規(guī)及強(qiáng)制性標(biāo)準(zhǔn)的相關(guān)要求,銜接自身數(shù)據(jù)

管理制度,制定數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理各環(huán)節(jié)的審批流程,

推進(jìn)數(shù)據(jù)分類分級(jí)管理,梳理特殊數(shù)據(jù)類型的內(nèi)、外部特別管理要求,

29

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

在此基礎(chǔ)上細(xì)化數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理的權(quán)限要求和操作

規(guī)范,并嵌入組織內(nèi)部管理機(jī)制。

(二)技術(shù)能力要求

組織應(yīng)當(dāng)強(qiáng)化數(shù)據(jù)處理的基礎(chǔ)技術(shù)保障,具備數(shù)據(jù)收集、存儲(chǔ)、

加工、分析、挖掘和安全防護(hù)的各類技術(shù)工具,具有安全、便捷、高

效的技術(shù)應(yīng)用系統(tǒng)和可信環(huán)境,熟知數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處

理的常見(jiàn)技術(shù)方法和應(yīng)用特點(diǎn),結(jié)合業(yè)務(wù)場(chǎng)景和內(nèi)外部要求,統(tǒng)籌組

合形成平衡數(shù)據(jù)安全要求和業(yè)務(wù)應(yīng)用目的的有效數(shù)據(jù)處理技術(shù)方案。

(三)人員能力要求

組織應(yīng)當(dāng)提升內(nèi)部人員的數(shù)據(jù)處理能力和安全防護(hù)水平,明確各

崗位數(shù)據(jù)合規(guī)職責(zé)和數(shù)據(jù)處理權(quán)限要求,定期組織數(shù)據(jù)處理技能培訓(xùn)

和安全合規(guī)教育,要求參與數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理的人員

應(yīng)當(dāng)具備相應(yīng)的數(shù)據(jù)處理能力,嚴(yán)格按照數(shù)據(jù)安全管理制度和流程進(jìn)

行操作。必要情況下,組織可以尋求第三方技術(shù)服務(wù)機(jī)構(gòu)、法律服務(wù)

機(jī)構(gòu)、審計(jì)咨詢機(jī)構(gòu)、數(shù)據(jù)安全防護(hù)機(jī)構(gòu)、檢測(cè)認(rèn)證機(jī)構(gòu)等協(xié)助提供

技術(shù)能力和業(yè)務(wù)合規(guī)支持。

(四)過(guò)程控制要求

組織應(yīng)當(dāng)推進(jìn)數(shù)據(jù)處理過(guò)程的實(shí)時(shí)可控和動(dòng)態(tài)審計(jì),采取措施清

晰記錄數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化處理過(guò)程的細(xì)節(jié)、使用的參數(shù)和

執(zhí)行情況,監(jiān)控審查去標(biāo)識(shí)化各步驟實(shí)施過(guò)程,及時(shí)發(fā)現(xiàn)已經(jīng)出現(xiàn)或

可能出現(xiàn)的錯(cuò)誤或偏差,有效采取措施進(jìn)行糾正和防護(hù),并對(duì)監(jiān)控審

查過(guò)程進(jìn)行記錄,便于日后審查、維護(hù)、回溯和審計(jì)。同時(shí)加強(qiáng)對(duì)第

30

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

三方接收者的數(shù)據(jù)授權(quán)和授權(quán)跟蹤管理,采取技術(shù)保障措施和商業(yè)流

程防范去標(biāo)識(shí)、匿名化數(shù)據(jù)的再識(shí)別和意外泄露。

(五)事故管理要求

組織應(yīng)當(dāng)完善數(shù)據(jù)處理風(fēng)險(xiǎn)和安全事件管理機(jī)制,做好數(shù)據(jù)風(fēng)險(xiǎn)

識(shí)別、風(fēng)險(xiǎn)評(píng)估、風(fēng)險(xiǎn)處置等工作,制定并實(shí)施數(shù)據(jù)安全事件應(yīng)急預(yù)

案,針對(duì)不同等級(jí)的風(fēng)險(xiǎn)采取針對(duì)性的風(fēng)險(xiǎn)處置措施,關(guān)注涉及數(shù)據(jù)

標(biāo)識(shí)符、數(shù)據(jù)映射表、匿名化處理記錄表等信息的泄露風(fēng)險(xiǎn),防范惡

意重新標(biāo)識(shí)行為。發(fā)生數(shù)據(jù)泄露、篡改、丟失等安全事件的,應(yīng)當(dāng)立

即采取補(bǔ)救措施,及時(shí)通知管理機(jī)構(gòu)并按規(guī)定告知相關(guān)數(shù)據(jù)主體。

附件一:常見(jiàn)直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符示例

附件二:常見(jiàn)標(biāo)識(shí)符的去標(biāo)識(shí)化或匿名化參考

附件三:部分?jǐn)?shù)據(jù)處理技術(shù)方法應(yīng)用建議

31

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

附件一:常見(jiàn)直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符示例

(一)直接標(biāo)識(shí)符示例

直接標(biāo)識(shí)符通常表現(xiàn)為在特定環(huán)境下可以單獨(dú)識(shí)別特定自然人

或數(shù)據(jù)所描述特定對(duì)象的識(shí)別號(hào)碼、特征或代碼。需注意,標(biāo)識(shí)符的

識(shí)別難度并不與數(shù)據(jù)的敏感程度直接掛鉤。本報(bào)告分別列舉了個(gè)人數(shù)

據(jù)、企業(yè)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)的部分直接標(biāo)識(shí)符示例,常見(jiàn)的直接標(biāo)識(shí)

符包括但不限于:

類型序號(hào)常見(jiàn)直接標(biāo)識(shí)符

1姓名

2公民身份號(hào)碼

3護(hù)照號(hào)

4工作學(xué)習(xí)編號(hào),包括工號(hào)、學(xué)號(hào)等

5電話號(hào)碼

6傳真號(hào)碼

7銀行賬戶

8駕照號(hào)

個(gè)人9車牌號(hào)

數(shù)據(jù)10社會(huì)保障號(hào)碼

11健康卡號(hào)碼

12病歷號(hào)碼

13網(wǎng)絡(luò)賬號(hào)、昵稱等

14網(wǎng)絡(luò)身份標(biāo)識(shí)號(hào)(ID)

15個(gè)人移動(dòng)終端設(shè)備標(biāo)識(shí)符

16詳細(xì)住址

17電子郵件地址

18個(gè)人行蹤軌跡

32

數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化業(yè)務(wù)規(guī)程(試行)

19生物識(shí)別碼,包括指紋和聲紋等識(shí)別碼

20全臉圖片圖像及其他任何可比對(duì)的圖像

1組織機(jī)構(gòu)名稱

2營(yíng)業(yè)執(zhí)照編號(hào)

3統(tǒng)一社會(huì)信用代碼

4法定代表人姓名

5稅務(wù)登記證號(hào)

6社會(huì)保險(xiǎn)登記證號(hào)碼

7統(tǒng)計(jì)登記證號(hào)碼

企業(yè)

8銀行賬戶信息

數(shù)據(jù)

9組織許可證號(hào)

10企業(yè)注冊(cè)地址

11網(wǎng)絡(luò)和系統(tǒng)賬號(hào)信息

12網(wǎng)站標(biāo)識(shí)碼,互聯(lián)網(wǎng)協(xié)議(IP)地址號(hào)

13網(wǎng)絡(luò)通用資源定位符(URL)

14合同編號(hào)

15商業(yè)發(fā)票編號(hào)

1設(shè)備標(biāo)識(shí)符和序列號(hào)

2設(shè)備位置信息

3設(shè)備使用記錄

4設(shè)備故障或警報(bào)記錄

物聯(lián)網(wǎng)5商品條碼

數(shù)據(jù)6貨運(yùn)設(shè)備識(shí)別碼

7集裝箱識(shí)別代碼

8醫(yī)療器械唯一標(biāo)識(shí)(UDI)

9數(shù)字版權(quán)唯一標(biāo)識(shí)符(DCI)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論