計算廣告學(xué) 課件 第四章 計算廣告數(shù)據(jù)脫敏_第1頁
計算廣告學(xué) 課件 第四章 計算廣告數(shù)據(jù)脫敏_第2頁
計算廣告學(xué) 課件 第四章 計算廣告數(shù)據(jù)脫敏_第3頁
計算廣告學(xué) 課件 第四章 計算廣告數(shù)據(jù)脫敏_第4頁
計算廣告學(xué) 課件 第四章 計算廣告數(shù)據(jù)脫敏_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)脫敏計算廣告DataDesensitization第四章目錄基本內(nèi)涵BASICCONNOTATION常用技術(shù)COMMONLYUSEDTECHNIQUES數(shù)據(jù)共享DATASHARING01基本內(nèi)涵數(shù)據(jù)脫敏數(shù)據(jù)脫敏是指在不影響數(shù)據(jù)分析結(jié)果準(zhǔn)確性的前提下,對原始數(shù)據(jù)中的敏感字段進行處理,從而降低數(shù)據(jù)敏感度、減少個人隱私風(fēng)險。數(shù)據(jù)加密數(shù)據(jù)加密就是利用密碼技術(shù)對數(shù)據(jù)進行可逆的數(shù)學(xué)變化以隱藏信息的行為。加密技術(shù)分為對稱加密與非對稱加密兩種類型。由于數(shù)據(jù)脫敏和匿名化需要防止重識別,所以僅靠加密工具不能實現(xiàn)匿名化。數(shù)據(jù)假名化假名化是通過生成新的字符(假名)來替代原標(biāo)識符(通常為直接標(biāo)識符)的數(shù)據(jù)處理方式,使得個人信息控制者在不借助額外信息情況下無法識別出個人信息主體。常用的假名生成技術(shù)包括帶密鑰加密、哈希函帶密鑰的哈希函數(shù)等。相關(guān)概念數(shù)據(jù)性質(zhì)去標(biāo)識化處理后的信息仍然屬于個人信息,其是以電子或者其他方式記錄的與已識別或者可識別的自然人有關(guān)的各種信息,不包括匿名化處理后的信息。目標(biāo)對直接標(biāo)識符和準(zhǔn)標(biāo)識符進行刪除或變換,避免攻擊者根據(jù)這些屬性直接識別或者結(jié)合其他信息識別出原始個人信息主體;控制重標(biāo)識的風(fēng)險;確保去標(biāo)識化后的數(shù)據(jù)集盡量達到其預(yù)期的用途。原則合規(guī)原則、個人信息安全保護優(yōu)先原則、技術(shù)和管理相結(jié)合原則、充分應(yīng)用軟件工具原則、持續(xù)改進原則。數(shù)據(jù)去標(biāo)識化對直接標(biāo)識符進行脫敏處理,比如將直接標(biāo)識符假名化、加密、抑制或者屏蔽等。脫敏處理匿名化是指個人信息經(jīng)過處理后無法識別特定自然人且不能復(fù)原的過程。對間接標(biāo)識符進行泛化或者隨機化。泛化或者隨機化的程度越高,安全性就越高,但是數(shù)據(jù)的可用性也就越低。泛化或隨機化常見的重識別方法包括隔離、關(guān)聯(lián)和推斷。重識別攻擊行為包括:(1)重識別一條屬于一個特定個人信息主體的記錄;(2)重識別一條特定記錄的個人信息主體;(3)盡可能多地將記錄和其對應(yīng)的個人信息主體關(guān)聯(lián);(4)判定一個特定的個人信息主體在數(shù)據(jù)集中是否存在;(5)推斷一組和其他屬性關(guān)聯(lián)的敏感屬性。評估重識別風(fēng)險隨著時間推移,重識別技術(shù)和攻擊者的重識別能力都在變化,因此需要定期進行重標(biāo)識風(fēng)險評估,并與可接受的風(fēng)險閾值進行比較。跟蹤匿名化效果數(shù)據(jù)匿名化靜態(tài)數(shù)據(jù)脫敏是對數(shù)據(jù)進行“搬移并仿真替換”,是將數(shù)據(jù)進行脫敏處理后,下發(fā)給下游環(huán)節(jié)取用和讀寫。是在數(shù)據(jù)存儲時脫敏,存儲的是脫敏數(shù)據(jù),一般用在非生產(chǎn)環(huán)境。靜態(tài)數(shù)據(jù)脫敏動態(tài)數(shù)據(jù)脫敏,即在訪問敏感數(shù)據(jù)的同時進行脫敏處理,可以為不同角色、不同權(quán)限、不同數(shù)據(jù)類型執(zhí)行不同的脫敏方案,從而確保返回的數(shù)據(jù)可用且安全,一般用在生產(chǎn)環(huán)境。動態(tài)數(shù)據(jù)脫敏數(shù)據(jù)脫敏類型靜態(tài)數(shù)據(jù)脫敏主要用于將數(shù)據(jù)抽離生產(chǎn)環(huán)境并進行分發(fā)和共享的數(shù)據(jù)使用場景;動態(tài)數(shù)據(jù)脫敏主要用于直接訪問生產(chǎn)數(shù)據(jù)的場景。使用場景區(qū)別靜態(tài)數(shù)據(jù)脫敏技術(shù)一般是通過變形、替換、屏蔽、保留格式加密等算法實現(xiàn),實際已經(jīng)改變了源數(shù)據(jù)的內(nèi)容;動態(tài)數(shù)據(jù)脫敏通過改寫查詢SQL或攔截等方式實現(xiàn),實際上未對源數(shù)據(jù)的內(nèi)容作任何改變。技術(shù)路線區(qū)別靜態(tài)數(shù)據(jù)脫敏可將脫敏設(shè)備部署于生產(chǎn)環(huán)境與測試、開發(fā)、共享環(huán)境之間;動態(tài)數(shù)據(jù)脫敏采用代理部署方式:物理旁路或邏輯串聯(lián)。部署方式區(qū)別數(shù)據(jù)脫敏兩種類型區(qū)別數(shù)據(jù)替換方法無效化方法隨機置亂方法數(shù)據(jù)替換法是將敏感字段隨機替換,如將字母變?yōu)殡S機字母,數(shù)字變?yōu)殡S機數(shù)字,文字變?yōu)殡S機文字,從而遮蔽敏感數(shù)據(jù)。在計算廣告中,數(shù)據(jù)替換方法可以應(yīng)用于虛擬用戶生成數(shù)據(jù)。無效化方法通過對字段數(shù)據(jù)值進行截斷、加密、掩碼等方式讓敏感數(shù)據(jù)脫敏。這種隱藏敏感數(shù)據(jù)的方法簡單,但缺點是用戶無法得知原數(shù)據(jù)的格式。隨機擾動技術(shù)是一種常用的無效化方法。隨機置亂方法對敏感數(shù)據(jù)列的值進行重新隨機分布,混淆原有值和其他字段的聯(lián)系。這種方法不影響原有數(shù)據(jù)的統(tǒng)計特性,最大、最小、方差等均與原數(shù)據(jù)列無異。數(shù)據(jù)脫敏方法均值統(tǒng)計方法對稱加密方法隨機置亂方法均值統(tǒng)計方法經(jīng)常用于統(tǒng)計場景,針對數(shù)值型數(shù)據(jù),先計算均值,然后使脫敏后的值在均值附近隨機分布,從而保持數(shù)據(jù)的總和不變,通常用于產(chǎn)品成本表、工資表等場合。對稱加密方法是一種采用單鑰密碼系統(tǒng)的加密方法,發(fā)送方和接收方使用相同的密鑰,這個密鑰既可用于加密原始數(shù)據(jù),也可用于解密加密后的數(shù)據(jù)。這種方法通過隨機移位改變原始數(shù)據(jù)。偏移取整在保證數(shù)據(jù)安全性的同時保證范圍的大致真實性,比前面的方法更接近真實數(shù)據(jù),在大數(shù)據(jù)分析場景中意義比較大。數(shù)據(jù)脫敏方法數(shù)據(jù)脫敏前后必須保持原有的數(shù)據(jù)特征。數(shù)據(jù)特征一致性數(shù)據(jù)脫敏不僅要抹去數(shù)據(jù)中的敏感內(nèi)容,同時也需要保持原有的數(shù)據(jù)特征、業(yè)務(wù)規(guī)則和數(shù)據(jù)關(guān)聯(lián)性,保證各類業(yè)務(wù)不受脫敏的影響,保證脫敏前后數(shù)據(jù)的一致性和有效性。數(shù)據(jù)和數(shù)據(jù)的關(guān)系要保持一致。數(shù)據(jù)關(guān)系一致性數(shù)據(jù)脫敏后數(shù)據(jù)關(guān)聯(lián)性以及業(yè)務(wù)語義等保持不變。數(shù)據(jù)關(guān)聯(lián)性包括:主外鍵關(guān)聯(lián)性、關(guān)聯(lián)字段的業(yè)務(wù)語義關(guān)聯(lián)性等。業(yè)務(wù)規(guī)則關(guān)聯(lián)性相同的數(shù)據(jù)進行多次脫敏,或者在不同的測試系統(tǒng)進行脫敏,需要保證每次脫敏后的數(shù)據(jù)具有一致性。多次脫敏一致性數(shù)據(jù)脫敏要求02常用技術(shù)統(tǒng)計技術(shù)統(tǒng)計技術(shù)是指收集、整理、分析和解釋統(tǒng)計數(shù)據(jù),并對其所反映的問題給出結(jié)論的技術(shù)方法。數(shù)據(jù)抽樣需根據(jù)數(shù)據(jù)集的特點和預(yù)期的使用場景來選擇;經(jīng)常用于數(shù)據(jù)脫敏的預(yù)處理;可以簡化對數(shù)據(jù)集的計算量。數(shù)據(jù)聚合可能會降低數(shù)據(jù)的有用性;對抗重標(biāo)識攻擊非常有效;某些保留格式加密具有確定性加密技術(shù)的特點;適用于多種格式的數(shù)據(jù);在給定有限符號集的情況下密可以保證加密后的數(shù)據(jù)具有與原始數(shù)據(jù)相同的格式和長度。保留格式加密技術(shù)密文排序與明文排序相同;在有限的范圍內(nèi)保證加密結(jié)果在統(tǒng)計處理、隱私防挖掘、數(shù)據(jù)外包存儲與處理等場景中的有用性;完全重標(biāo)識僅可能適用于擁有密鑰的一方。保序加密技術(shù)保證數(shù)據(jù)真實可用;保證數(shù)據(jù)在統(tǒng)計處理、隱私防挖掘方面的有用性;對確定性加密的重標(biāo)識攻擊主要是不具備密鑰使用權(quán)時的攻擊;關(guān)聯(lián)性攻擊可能針對采用同一密鑰進行確定性加密的密文。確定性加密技術(shù)同態(tài)加密技術(shù)允許在加密狀態(tài)下進行計算操作而無需解密數(shù)據(jù),用這種技術(shù)進行數(shù)據(jù)脫敏時,對加密數(shù)據(jù)進行處理的過程不會泄露任何原始內(nèi)容。同態(tài)加密技術(shù)同態(tài)秘密共享可將一個秘密拆分為“若干份額”,可利用拆分后秘密信息的特定子集來重構(gòu)原始的秘密。同態(tài)秘密共享技術(shù)密碼技術(shù)屏蔽技術(shù)屏蔽技術(shù)是一種基線數(shù)據(jù)脫敏技術(shù),包括從數(shù)據(jù)集中刪除所有直接標(biāo)識符,并盡可能剝離數(shù)據(jù)集中所有記錄的部分或全部剩余標(biāo)識符。包括部分數(shù)據(jù)移除、數(shù)據(jù)隔離和數(shù)據(jù)限制。局部抑制技術(shù)局部抑制技術(shù)是從所選記錄中刪除與其他標(biāo)識符結(jié)合使用可以識別出相關(guān)個人信息主體的特定屬性值。記錄抑制技術(shù)“記錄抑制”是一種從數(shù)據(jù)集中刪除整個記錄或一些記錄的數(shù)據(jù)脫敏技術(shù),需要與其它數(shù)據(jù)脫敏技術(shù)相結(jié)合以降低數(shù)據(jù)的重標(biāo)識風(fēng)險。抑制技術(shù)假名化技術(shù)假名化技術(shù)是通過生成新的字符(假名)替換原標(biāo)識符(通常為直接標(biāo)識符)的數(shù)據(jù)脫敏技術(shù)。獨立于標(biāo)識符獨立于標(biāo)識符的假名創(chuàng)建技術(shù)不依賴被替代的原始屬性值,而是獨立生成,典型方法為用隨機值代替原始屬性值?;诿艽a技術(shù)基于密碼技術(shù)的標(biāo)識符派生假名創(chuàng)建技術(shù)通過對屬性原始值采用加密或散列等密碼技術(shù)生成假名。其中加密技術(shù)生成的假名可以用合適的密鑰及對應(yīng)的算法解密,而散列技術(shù)則是一種單向的數(shù)學(xué)運算。泛化技術(shù)泛化技術(shù)是指一種降低數(shù)據(jù)集中所選屬性粒度的數(shù)據(jù)脫敏技術(shù),是對數(shù)據(jù)進行更概括、抽象的描述。取整技術(shù)取整技術(shù)為所選的屬性選定一個取整基數(shù),然后將每個值向上或向下取整至最接近取整基數(shù)的倍數(shù)。向上還是向下取整按概率確定,該概率值取決于觀察值與最接近取整基數(shù)倍數(shù)的接近程度。頂層與底層編碼技術(shù)泛化技術(shù)為某一屬性設(shè)定一個可能的最大(或最?。╅撝怠m攲优c底層編碼技術(shù)使用表示頂層(或底層)的閾值替換高于(或低于)該閾值的值,該技術(shù)適用于連續(xù)或分類有序的屬性。噪聲添加技術(shù)噪聲添加技術(shù)通過把“隨機噪聲”添加到所選的連續(xù)屬性值中,同時盡可能保持該屬性在數(shù)據(jù)集中的原始統(tǒng)計特性??梢詰?yīng)用于廣告點擊率預(yù)測。置換技術(shù)置換技術(shù)是表達式在不直接修改屬性值表達式的情況下對數(shù)據(jù)集記錄中所選屬性的值進行重新排序的一種技術(shù),它保持了整個數(shù)據(jù)集中所選屬性的準(zhǔn)確統(tǒng)計分布,適用于數(shù)字與非數(shù)字值。微聚集技術(shù)“微聚集”是指用某種算法方式計算出來的平均值代替連續(xù)屬性所有值的數(shù)據(jù)脫敏技術(shù)。每一種屬性的新值是由該屬性所在組中的平均值替換得來的。可用來精細化用戶定向投放。隨機化技術(shù)03數(shù)據(jù)共享脫敏數(shù)據(jù)共享主體脫敏數(shù)據(jù)共享主體包括脫敏數(shù)據(jù)提供方、脫敏數(shù)據(jù)接收方和脫敏數(shù)據(jù)計算方。脫敏數(shù)據(jù)共享服務(wù)主體脫敏數(shù)據(jù)共享服務(wù)主體包括平臺方、安全方和評估方。脫敏數(shù)據(jù)共享支持主體脫敏數(shù)據(jù)共享支持主體包括監(jiān)督方和技術(shù)方。數(shù)據(jù)脫敏共享參與機構(gòu)數(shù)據(jù)預(yù)處理包括進行數(shù)據(jù)標(biāo)記、匹配數(shù)據(jù)內(nèi)容、形成脫敏數(shù)據(jù)三個方面的內(nèi)容。共享評估包括形成多維評估因子、形成定性評估結(jié)論、形成評估報告三個步驟。脫敏數(shù)據(jù)共享基本流程源自提供方的風(fēng)險及其識別與控制風(fēng)險數(shù)據(jù)來源不明或未經(jīng)同意輸出個人相關(guān)數(shù)據(jù)。識別與控制要求提供方清晰數(shù)據(jù)源頭;區(qū)分數(shù)據(jù)形成方式;區(qū)分數(shù)據(jù)輸出形式;預(yù)先進行相應(yīng)數(shù)據(jù)共享評估。源自計算方的風(fēng)險及其識別與控制風(fēng)險委托處理的數(shù)據(jù)在傳輸或存儲時可能被泄漏;可能未獲得委托方的再許可,而向他方提供數(shù)據(jù);由于缺乏與信息主體的接觸場景,無法獲得真實有效的同意。識別與控制傳輸存儲脫敏數(shù)據(jù),輔以安全適當(dāng)?shù)募夹g(shù)手段、組織措施;計算方必須有委托方的真實合法授權(quán),再提供需獨立授權(quán);委托計算的數(shù)據(jù)應(yīng)為脫敏數(shù)據(jù);計算成果數(shù)據(jù)的再提供,應(yīng)遵循提供方要求而進行;預(yù)先進行相應(yīng)數(shù)據(jù)的共享評估。源自接收方的風(fēng)險及其識別與控制風(fēng)險是否獲得信息主體的同意。處理個人相關(guān)數(shù)據(jù)是否合法、正當(dāng)、必要。使用個人信息是否符合個人信息保護相關(guān)法律法規(guī)的規(guī)定??赡芪传@得提供方的許可,而向他方提供數(shù)據(jù)。識別與控制檢查接收方業(yè)務(wù)資質(zhì);細分接收方數(shù)據(jù)處理應(yīng)用目的;細分接收方數(shù)據(jù)的應(yīng)用場景;對數(shù)據(jù)進行分級、分類、分層;細分接收方獲得信息主體對其相關(guān)數(shù)據(jù)處理應(yīng)用的同意的方式方法;預(yù)先進行數(shù)據(jù)共享評估。源自數(shù)據(jù)重標(biāo)識的風(fēng)險及其識別與控制風(fēng)險脫敏數(shù)據(jù)經(jīng)重標(biāo)識后,重新成為包含個人信息的數(shù)據(jù)。被無關(guān)方獲取后重標(biāo)識。與其他數(shù)據(jù)(集)匯聚后重新識別出個人信息主體。識別與控制選擇適當(dāng)?shù)臄?shù)據(jù)處理與脫敏技術(shù);利用數(shù)據(jù)共享域“受控重標(biāo)識”功能,區(qū)分并控制重標(biāo)識的情形;預(yù)先開展數(shù)據(jù)共享評估。源自數(shù)據(jù)敏感性的風(fēng)險及其識別與控制個人敏感數(shù)據(jù)共享可能給信息主體權(quán)利、人身財產(chǎn)安全帶來風(fēng)險;法律法規(guī)禁止、限制共享的其他敏感數(shù)據(jù)進入共享可能給國家安全、公共安全帶來風(fēng)險。因此,要區(qū)分場景,與應(yīng)用無關(guān)的個人敏感數(shù)據(jù)不得共享,法律法規(guī)規(guī)定的其他敏感數(shù)據(jù)禁止共享。源自身份識別性的風(fēng)險及其識別與控制數(shù)據(jù)如若包含身份信息(標(biāo)識)或直接與身份信息(標(biāo)識)關(guān)聯(lián)的信

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論