




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
聯(lián)邦學(xué)習(xí)與安全多方計(jì)算
導(dǎo)讀:聯(lián)邦學(xué)習(xí)和安全多方計(jì)算是當(dāng)前跨機(jī)構(gòu)數(shù)據(jù)協(xié)同的兩類(lèi)主流技術(shù),本文將從基
本思想、安全性、性能等多個(gè)方面介紹二者的區(qū)別,并介紹阿里在安全多方
計(jì)算方面的最新成果。
01
聯(lián)邦學(xué)習(xí)的發(fā)展歷史
1.聯(lián)邦學(xué)習(xí)
DATAFUNCON
2020XB?Al的■標(biāo)盤(pán)術(shù)玄毆
?聯(lián)習(xí)(Federatedlearning,FL)由Google于2016年提出
?初衷是用于解決多個(gè)移動(dòng)設(shè)備的分布式建模問(wèn)題
例:GoogleGboard安卓輸入法預(yù)測(cè)
為了智能預(yù)測(cè)下,需要針對(duì)大量用
OZS±戶(hù)的輸入歷史數(shù)據(jù)進(jìn)僑腐
GdodoyoudoyoutfwA4設(shè)計(jì)目標(biāo):避免直接收集用戶(hù)的輸入歷史,
qw'e'r't*yu'i*o'p盡量在端上訓(xùn)睡
asghJk
zxcvbnma
聯(lián)邦學(xué)習(xí)在2016年由谷歌提出,因?yàn)镚oogle有安卓系統(tǒng),需要解決多個(gè)安卓設(shè)備
的分布式建模問(wèn)題。其中,主要是針對(duì)輸入法的建模,比如客戶(hù)在安卓輸入法中輸入
單詞“what”,或許他可能想繼續(xù)輸入"d。youthink",Google輸入法如果能自
動(dòng)聯(lián)想出來(lái),用戶(hù)體驗(yàn)就會(huì)變得比較好,但是自動(dòng)聯(lián)想功能需要大量的用戶(hù)數(shù)據(jù)才能
學(xué)習(xí)出來(lái),怎么獲得這些用戶(hù)數(shù)據(jù)呢?
一個(gè)比較粗暴的做法是用戶(hù)輸入了什么字就把這個(gè)字全部收集到云端上,但這種做法
無(wú)疑是對(duì)用戶(hù)隱私的一種破壞。由于谷歌崇尚不作整,怎樣在不收集用戶(hù)輸入文字的
前提下,從而預(yù)測(cè)出用戶(hù)接下來(lái)需要輸入的文字?因此,產(chǎn)生了聯(lián)邦學(xué)習(xí)。
2.聯(lián)邦學(xué)習(xí)用于多移動(dòng)端分布式建模
DATAFUNCON冬嗅賽
2020大USAl的■新授木實(shí)駿
?聯(lián)邦學(xué)習(xí)用于多移動(dòng)終端分布式建模
?設(shè)計(jì)優(yōu)點(diǎn):設(shè)備只上傳傳輸梯度VW,并不直接上傳本喃入歷史
聯(lián)邦學(xué)習(xí)的設(shè)計(jì)優(yōu)點(diǎn)就是用戶(hù)數(shù)據(jù)盡量不離開(kāi)用戶(hù)自己的安卓設(shè)備,用戶(hù)盡量在本地
完成一部分的訓(xùn)練,然后把訓(xùn)練的梯度傳到谷歌的云端,這樣谷歌只看見(jiàn)一個(gè)梯度,
它并沒(méi)有獲得這個(gè)用戶(hù)的設(shè)備以前的聊天內(nèi)容,這樣在設(shè)計(jì)上有一種privacyby
design的設(shè)計(jì)優(yōu)點(diǎn)。有很多這樣的安卓設(shè)備,比如:ParameterServeri殳備是谷歌的
云端服務(wù)器,它開(kāi)始會(huì)有一個(gè)全局的初始化模型,云端服務(wù)器會(huì)把模型推到各個(gè)設(shè)備
_L,然后各個(gè)設(shè)備基于本地的數(shù)據(jù)來(lái)優(yōu)化模型,得到一個(gè)更新的梯度,把這個(gè)更新的
梯度發(fā)給服務(wù)器,服務(wù)器收到這么多梯度之后,會(huì)更新全局模型,然后發(fā)到這些設(shè)備
上,這些設(shè)備又迭代,直到這個(gè)模型在某種程度上收斂為止,這就是聯(lián)邦學(xué)習(xí)最開(kāi)始
的一個(gè)雛形。
3.國(guó)內(nèi)聯(lián)邦學(xué)習(xí)與谷歌聯(lián)邦學(xué)習(xí)的區(qū)別
區(qū)別一:
信阿里登全
DATAFUNCONAUBMASKUITY
2020大e第Al的E斫投木買(mǎi)線(xiàn)
?2018年國(guó)內(nèi)開(kāi)始引入Federatedlearning概念,主要區(qū)別1:
國(guó)內(nèi)主要是crosssiloFL:
少量(如2個(gè))機(jī)構(gòu)之間的合作
大概在2018年左右,國(guó)內(nèi)開(kāi)始引入聯(lián)邦學(xué)習(xí)概念,與谷歌的聯(lián)邦學(xué)習(xí)相比有了一些
發(fā)展和改變。兩者主要的區(qū)別是谷歌的聯(lián)邦學(xué)習(xí)主要是面向海量移動(dòng)設(shè)備的數(shù)據(jù)之間的
合作,但是國(guó)內(nèi)主要是機(jī)構(gòu)之間的合作,被稱(chēng)為crosssiloFL,一般都是兩個(gè)或者三個(gè)
機(jī)構(gòu)之間的合作。但是,目前的應(yīng)用主要以信貸或者廣告為主,例如:兩個(gè)或多個(gè)機(jī)
構(gòu)一起判斷用戶(hù)的信用,從而決定要不要借錢(qián)給他,或者要不要給他推一些廣告。這種
情況下參與方的數(shù)目實(shí)際上跟Google的聯(lián)邦學(xué)習(xí)相比是有很大的降低的。
區(qū)別二:
京阿里安全
DATAFUNCONAUBABA5KUVTY
2020XBBAi的■際績(jī)木實(shí)然
?2018年國(guó)內(nèi)開(kāi)始引入Federatedlearning概念,主要區(qū)別2:
GoogleFL:主要面向國(guó)內(nèi)FL:主要面向
數(shù)據(jù)的橫向分割數(shù)據(jù)的縱向分割
Google有很多的設(shè)備,每個(gè)設(shè)備上都有自洽的一些樣本,也就是說(shuō)數(shù)據(jù)在多個(gè)參與
方之間,它是橫向分割的,比如說(shuō)這個(gè)綠色的在一個(gè)設(shè)備上,這個(gè)白色的在另一個(gè)設(shè)
備上就是橫向的分割,每個(gè)都有一個(gè)完整的樣本。
但是國(guó)內(nèi)經(jīng)常使用的聯(lián)邦學(xué)習(xí),主要是面向數(shù)據(jù)的縱向分割的。以信貸為例,其通常
都是針對(duì)一個(gè)人的不同特征并把它們組合起來(lái)做聯(lián)邦學(xué)習(xí)。比如說(shuō)特征1與特征2在
一個(gè)機(jī)構(gòu),特征3與特征4以及l(fā)abel是在另外一個(gè)機(jī)構(gòu),也就是說(shuō)它主要是面向數(shù)
據(jù)的縱向分割。當(dāng)然橫向分割這種應(yīng)用國(guó)內(nèi)同樣存在,但是用的比較多的或者說(shuō)比較
賺錢(qián)的,還是在這種縱向的分割法上。
02
聯(lián)邦學(xué)習(xí)面臨的安全挑戰(zhàn)
谷歌原版的聯(lián)邦學(xué)習(xí)有什么樣的安全挑戰(zhàn)?而在國(guó)內(nèi),會(huì)面臨什么樣的新的安全挑戰(zhàn)?
相關(guān)的,不能說(shuō)有梯度就算不出原數(shù)據(jù)了,那多大程度上相關(guān)呢?其實(shí)算出來(lái)是有一
定的難度,但是有一些學(xué)者也能算出來(lái),比如說(shuō)假設(shè)我們訓(xùn)練的模型是一個(gè)簡(jiǎn)單模型,
比如邏輯回歸,我們有了一堆梯度跟原始數(shù)據(jù)的這種關(guān)系,可以通過(guò)解方程組把這個(gè)
未知數(shù)解出來(lái)的,這是我們?cè)贜IPS聯(lián)邦學(xué)習(xí)workshop上的一個(gè)工作。如果這個(gè)模型
比較復(fù)雜,解方程組算就變得不現(xiàn)實(shí)了。這時(shí)有一些其他的方法,比如我們用
machinelearning的優(yōu)化方法來(lái)反向的優(yōu)化求得一個(gè)近似的解,可能求不到精確的結(jié)
果,但可以取到一個(gè)大致差不多的結(jié)果,這里有一個(gè)去年的NIPS的文章,它可以反向
的從梯度求出人臉,然后這個(gè)
人臉可能只有若干個(gè)像素的區(qū)別。所以我們看到如果不保護(hù)這個(gè)梯度的話(huà),本質(zhì)上還
是能推出原始數(shù)據(jù)的。
谷歌的解決方法:
?加差分隱私
阿里安全
DATAFUNCONAUBAeAUUWTY
2020ACBAl的齡斷授術(shù)其歧
?如何防止從梯度反推原始數(shù)據(jù)
Google應(yīng)對(duì)的方法,主要通過(guò)加差分隱私,也就是說(shuō)client上傳到云端的梯度,
它不直接上傳,而是加一個(gè)noise,但是準(zhǔn)確率會(huì)下降。準(zhǔn)確率的下降,對(duì)于
Google輸入法somehow是可以接受的,因?yàn)檩斎敕ǖ腡op3順序換了一下,
或者推薦的東西錯(cuò)了一點(diǎn),對(duì)于用戶(hù)體驗(yàn)可能差別不大,但是對(duì)于我們這種用在廣
告或者信貸場(chǎng)景下,準(zhǔn)確率差1%就可能差很多很多錢(qián),所以對(duì)我們來(lái)說(shuō)加差分隱
私不是一種能夠接受的方案。
②secureaggregation
阿里登全
DATAFUNCONAUMASKUMTV
2020大ft事AI第*斷技術(shù)買(mǎi)我
?如何防止從梯度反推原始數(shù)據(jù)
?方法2:SecureAggregation
?Server只能看到聚合之后的梯度,無(wú)法了解具體某個(gè)client的梯度
。但是Secureaggregation只適用于Client數(shù)目較多的場(chǎng)景
DATAFUNCONw阿里安全
2020ABKAl的*際技術(shù)實(shí)R
?Secureaggregation的局限性
?如果參與方過(guò)少(例如2個(gè)),Secureaggregation并不能保護(hù)梯度
?Client1拿到I侖的W,減去自己的梯度就可以推出Client2的梯度了
Google還有一種方案叫做secureaggregation,也就是說(shuō)要通過(guò)secure的方法把
這些多梯度聚合在一起,最后效果就是Server只看到了n個(gè)梯度聚合在一起的結(jié)果。
但是,不知道某個(gè)具體的client梯度是多少的,從而導(dǎo)致了Server要攻擊某個(gè)client
的概率非常的低,但是我們觀(guān)察到secureaggregation只適用于
client數(shù)目比較多的情況。我們可以假設(shè)只有兩個(gè)client,那么這個(gè)aggregate的結(jié)
果就是兩個(gè)梯度的和,通過(guò)第一個(gè)client可以推出第二個(gè)人的梯度,所以參與方至少
要三個(gè)人以上,而且這些參與方之間還不能夠合謀,所以說(shuō)這是secureaggregation
的局限性。
2.聯(lián)邦學(xué)習(xí)應(yīng)用面臨的新安全挑戰(zhàn)
講解完橫向聯(lián)邦學(xué)習(xí)的問(wèn)題之后,接下來(lái)了解下國(guó)內(nèi)引入新的聯(lián)邦學(xué)習(xí)應(yīng)用后,會(huì)面
臨什么樣的新的安全挑戰(zhàn)。
①參與方過(guò)少帶來(lái)的問(wèn)題
DATAFUNCON等喔森
2020XBBAl的■肝授木實(shí)峻
?參與方過(guò)少(例如兩方合作)帶來(lái)的問(wèn)題-續(xù)
?半同態(tài)加密保護(hù)參數(shù):只能實(shí)現(xiàn)占保護(hù)
例:Alice擁有解電能力
**?*,*5*r?^T**Z*VX
______Encrypt(VW)
一_____一夢(mèng)―IBob
'(.^nc?ypnw)〔J
^/Alice的參數(shù)對(duì)Bob???/p>
。但Bob的參數(shù)無(wú)法對(duì)Alic嘴密
我們經(jīng)常遇到crosssiloFL參與方很多情況下都是兩個(gè),由于參與方過(guò)少會(huì)引來(lái)新的
安全問(wèn)題。
我們傳的梯度是可以用半同態(tài)對(duì)它進(jìn)行加密的,例如:Alice把它的梯度用半同態(tài)加密,
然后傳給Bob,這樣是沒(méi)問(wèn)題的。Alice的參數(shù)確實(shí)是對(duì)Bob保密的,但是Bob在
這個(gè)加密的數(shù)據(jù)上運(yùn)算完之后他是需要傳回給Alice,Alice最終需要解密,或者說(shuō)每
一個(gè)round都需要解密,每一個(gè)round中Bob的參數(shù)實(shí)際上是被Alice知道的。因
為參與方只有兩個(gè),Alice得到兩個(gè)人的計(jì)算結(jié)果,她肯定是可以從這中間推斷出
Bob的信息的。也就是說(shuō),在這種同態(tài)加密保護(hù)梯度中,只有一方是受益的,另一方
他其實(shí)沒(méi)有受益,跟普通的聯(lián)邦學(xué)習(xí)是一樣的。就是說(shuō)半同態(tài)加密參數(shù)只能實(shí)現(xiàn)單向
的防護(hù)。
②縱向FL帶來(lái)的問(wèn)題
?怎樣對(duì)齊樣本?
阿里安全
DATAFUNCONAUBABA5KURTY
2020XBKAI的!B所授木買(mǎi)H
?縱向FL帶來(lái)的問(wèn)題-1
?為了實(shí)現(xiàn)縱向FL,需要首先按id對(duì)齊
?對(duì)齊過(guò)程是否符合啟私政策?
?即使用PSI(私求交)技術(shù),也只能保護(hù)”不在交集
內(nèi)的用戶(hù)身份.,但是在交集內(nèi)的用戶(hù)身份■然港■
?例:商家A知道了“用戶(hù)1也在商家B那注冊(cè)了”
?用戶(hù)1未必同It這個(gè)信息被A知曉
商家A持有商家B持有
縱向的聯(lián)邦學(xué)習(xí)又帶來(lái)了一個(gè)新的問(wèn)題一怎么對(duì)齊樣本?例如:不安全的方法跟安
全的方法,無(wú)論怎么對(duì)齊,其都是要按照主鍵對(duì)齊的。在對(duì)齊之后,不可避免的泄露
了一個(gè)信息,對(duì)齊的用戶(hù)都是誰(shuí)?可能沒(méi)對(duì)齊的用戶(hù)呢?我們是可以用
PSI這種方法來(lái)保護(hù)它的。一旦建模,就不可避免的要把這些數(shù)據(jù)提取出來(lái),也就是
說(shuō)只要在交集里面的那些用戶(hù),就會(huì)不可避免的泄露了,我們可以再往里面加入假數(shù)據(jù)
等等,但畢竟它在里面就是在里面了。比如說(shuō)A公亙跟B公司合作,他們之間想進(jìn)行
一個(gè)聚合,可能A公司的用戶(hù)并不想把我是A的注卅用戶(hù)這個(gè)信息告訴B,也就是說(shuō)
對(duì)齊這個(gè)東西它的somehow是在一個(gè)灰色地帶,所以嚴(yán)格來(lái)說(shuō)如果要對(duì)齊的話(huà),應(yīng)
該用戶(hù)顯式的點(diǎn)擊同意,我同意A把我的信息授權(quán)給B,所以縱向的樣本對(duì)齊問(wèn)即是
一個(gè)老大難的問(wèn)題,雖然現(xiàn)在可能大家都在做,但如果監(jiān)管?chē)?yán)格了,這個(gè)問(wèn)題,我們需
要一起來(lái)想怎么處理。
?無(wú)標(biāo)簽方
信阿里登全
DATAFUNCONMJBABAStaWTY
2020X?*AI的第斷投術(shù)獎(jiǎng)H
?縱向FL帶來(lái)的問(wèn)題-2
?縱向F。、然存在無(wú)標(biāo)簽方,而無(wú)標(biāo)簽方難以進(jìn)
行特征工程
?如何讓無(wú)標(biāo)簽方進(jìn)行特征工程又能保護(hù)數(shù)據(jù)除
?
?已經(jīng)脫離聯(lián)邦學(xué)習(xí)的落瞞
?需要定制化的安全解決方案
.■
商家A持有商家曜有
沒(méi)有標(biāo)簽,怎
么做特征工程?
縱向的聯(lián)邦學(xué)習(xí)肯定有一個(gè)人是無(wú)標(biāo)簽方,無(wú)標(biāo)簽方他可能需要做特征工程,他不能
直接把這個(gè)特征直接傳給別人或者直接進(jìn)行聯(lián)邦學(xué)習(xí),那么有些特征工程是需要用到
這個(gè)標(biāo)簽的,所以它怎么用呢?這也是一個(gè)難題。
實(shí)際上這個(gè)特征工程本身就是一個(gè)特定的算法,跟Google的橫向聯(lián)邦學(xué)習(xí)已經(jīng)沒(méi)有
關(guān)系了,我們需要定制一種方案,比如說(shuō)我們就是要篝那個(gè)WOE。那我們就要定制一
個(gè)方案來(lái)安全地算這個(gè)WOE,這也是第二個(gè)難題,乜就是說(shuō)縱向的聯(lián)邦學(xué)習(xí)帶來(lái)了很
多新的我們以前傳統(tǒng)的聯(lián)邦學(xué)習(xí)沒(méi)有遇到過(guò)的問(wèn)題。
阿里安全
DATAFUNCONAUBAAASCdMTY
2020xa?Al的■環(huán)搔術(shù)女駿
?舉例:計(jì)算WOE(WeightofEvidence)
?WOE定義:某個(gè)特征箱體內(nèi)的In(反例的占比/正例總占比)
?若擁有"年齡"一方不麗標(biāo)簽(樣本建正還是負(fù)),則難以正艷計(jì)算WOE
yrsr翳…
1005010%10%0
50%20%0.92
30015030%30%0
10020010%40%-1.39
1000500
上圖是WOE的例子,WOE它是要計(jì)算這個(gè)特征的重要性,比如說(shuō)我想把年齡分成不
同段,比如0~18歲等這樣幾個(gè)段,那么每個(gè)段段內(nèi)都存在正樣本數(shù)與負(fù)樣本數(shù)。那
么,這個(gè)WOE就是把反例總占比比上正例總占比,然后求一個(gè)log,這個(gè)數(shù)越大,
說(shuō)明這個(gè)特征這個(gè)分段對(duì)這個(gè)模型越重要,也就是它的判別度越高,我們最后就可以
給它加一些分,這個(gè)分總可能比較好。但是,對(duì)綠色的參與方來(lái)說(shuō),他是不知道那個(gè)
標(biāo)簽的(假設(shè)標(biāo)簽是在另一方),那他怎么知道這正樣本數(shù)跟負(fù)樣本數(shù)呢,所以他是
沒(méi)辦法知道的。
所以,怎么計(jì)算WOE也是一個(gè)難題,這也是縱向聯(lián)盟帶來(lái)的新的難題。
03
安全多方計(jì)算解決方案
1.安全多方計(jì)算
DATAFUNCON冬饕蠡
2020XB*AI的■管技術(shù)實(shí)續(xù)
?安全多方計(jì)算(SecureMultipartyComputation,MPC)
?可證明安全
?嚴(yán)格的安全定義:除最終的訓(xùn)練結(jié)鼠之外,不泄露任何數(shù)據(jù)內(nèi)容
?Semi-Honestmodel
?Maliciousmodel
除最終的計(jì)算結(jié)果之外,
一切中間結(jié)果都是加空狀
態(tài),永不解密
什么是安全多方計(jì)算?怎么用它來(lái)解決這些難題?
安全多方計(jì)算是一個(gè)密碼學(xué)的定義,它叫securemultipartycomputationMPC,它
是可證明安全的,也就是說(shuō)它有一個(gè)嚴(yán)格的安全定義,雙方想計(jì)算什么東西,除了這個(gè)
計(jì)算的結(jié)果之外,中間的任<可步驟都是不泄露任何數(shù)據(jù)內(nèi)容的。
比如說(shuō)a和b想一起算個(gè)f(a,b),雙方就真的就只知道f(a,b),其他??蓶|西,都是
零泄露的。當(dāng)然它里面有細(xì)分,比如說(shuō)有semihonestmodel跟maliciousmodel,
這個(gè)就是具體技術(shù)問(wèn)題,就不細(xì)講了。
2.舉例子說(shuō)明安全多方計(jì)算到底怎么做?
京阿里登全
DATAFUNCONALBAAASeCURFY
2020XBSAl第■新搔水玄it
?例:Alice和Bob分別擁有數(shù)據(jù)a,b,希望聯(lián)合計(jì)算機(jī)器學(xué)習(xí)模
比如說(shuō)Alice跟Bob,他們分別擁有數(shù)據(jù)a和b,他們想進(jìn)行一個(gè)聯(lián)合的機(jī)器學(xué)習(xí)
這里我們不管它是縱向橫向總之它就有一堆數(shù)據(jù)它有一堆數(shù)據(jù)就對(duì)了。
f(a,b)0a,b
安全多方計(jì)算MPC有很多種,我們這里是用基于秘密共享的例子,就是說(shuō)用秘密共
享的MPC方法怎么做這個(gè)建模。
阿里至全
DATAFUNCONAUBABA5KUKTY
2020大的密Ai的?斯統(tǒng)本實(shí)展
?Step1:隨機(jī)拆分
阿里安全
DATAFUNCONAUBAAASKUTTY
2020XttfiAi的■浙”術(shù)京毆J」:,
?Step2:交換分量
-得到秘密分享狀態(tài)的a和b/
?單方視角下都是亂碼,只有雙方同意的情況下才能復(fù)原
a-^b-r7
阿里安全
DATAFUNCONALJBAAAseawn
2020XBSAl的?徐矮木支if
?Step2:秘密分享狀態(tài)下進(jìn)行計(jì)算
?加法:即]B各自本地將"密文"相加即可得到a+b的"加空"版本
?其他操作:乘法、痛、除法…
?構(gòu)成整個(gè)機(jī)器學(xué)習(xí)算法
首先,a跟b會(huì)把他自己的這個(gè)數(shù)據(jù)進(jìn)行一個(gè)隨機(jī)拆分,比如a有一堆數(shù)據(jù),生成了
一堆隨機(jī)數(shù),a減去這個(gè)隨機(jī)數(shù),這個(gè)r是他本地生成的隨機(jī)數(shù),同理,Bob他也會(huì)本
地生成隨機(jī)數(shù)r',那這個(gè)r跟r'先不告訴對(duì)方,另■就把這個(gè)數(shù)據(jù)分成了兩份,任意
一份單拎出來(lái)看好像都是個(gè)nonsense的garbage,因?yàn)樗请S機(jī)的嘛,它減去隨機(jī)
的也是個(gè)隨機(jī)的,然后,他們兩個(gè)人可以交換一下這個(gè)分量,比如說(shuō)Bob把這個(gè)b-r,
發(fā)給對(duì)方,Alice把這個(gè)r發(fā)給Bob。之后,我們稱(chēng)這個(gè)數(shù)據(jù)集現(xiàn)在處于一個(gè)秘密共享
的狀態(tài),也就是說(shuō)單方視角上他們看到的都是亂碼,只有雙方同意的情況下,把這兩
個(gè)數(shù)據(jù)拼到一起,他才能知道最終的數(shù)據(jù)是什么。那么這個(gè)秘密共享狀態(tài)下的數(shù)據(jù)集,
它的優(yōu)點(diǎn)就是它還是能夠計(jì)算的。
我們?cè)趺此鉧加b?其就是本地把這兩個(gè)分量相加。比如Alice算出了a加b減去這
兩個(gè)東西,Bob就把這兩個(gè)東西加起來(lái),可以看到這兩個(gè)東西如果拼在一起的話(huà),它是
可以得到a加b的。同理,我們也可以在秘密共享的狀態(tài)下做a乘b、
a除b,agreaterthanb等等,協(xié)議會(huì)復(fù)雜一點(diǎn),但是都是能做的。然后這些操作
它構(gòu)成了整個(gè)機(jī)器學(xué)習(xí)的算法,比如說(shuō)我可以在上面算一個(gè)f(a,b),然后得到f;a,b)
的秘密共享狀態(tài),我們兩個(gè)人再商量一下,把這個(gè)拼起來(lái),發(fā)現(xiàn)了f(a,b)是多少,同
時(shí)中間的任何中間結(jié)果都是秘密共享狀態(tài)的,都是零泄漏的。
3.WOE為例子,我們?cè)趺磥?lái)無(wú)泄漏的計(jì)算這個(gè)WOE呢?
?對(duì)比:使用半同態(tài)計(jì)算WOE的方案會(huì)泄露每個(gè)分箱的樣本數(shù)目
因?yàn)閃OE就是一個(gè)正負(fù)樣本的比值,正負(fù)樣本我不知道,但是知道標(biāo)簽的那一方可
以發(fā)一個(gè)秘密共享的向量過(guò)來(lái)。比如,正樣本的就是1,負(fù)樣本的就是0,他把這個(gè)
向量以秘密共享的方式發(fā)過(guò)來(lái),我自己的這個(gè)向量跟這個(gè)秘密共享的向量進(jìn)行一個(gè)乘
法,得到一個(gè)秘密共享的這個(gè)結(jié)果,這個(gè)秘密共享的結(jié)果就是這個(gè)正樣本的數(shù)。但是,
它是秘密共享狀態(tài)的,所以我也不知道它是多少。之后,我可以進(jìn)行一個(gè)秘密共享的
除法,可以再次進(jìn)行一個(gè)秘密共享的log。最后,如果我
要是必要的話(huà),我就把這個(gè)數(shù)據(jù)復(fù)原出來(lái),比如算出WOE是0.9,然后這個(gè)過(guò)程中任
何數(shù)據(jù)都是沒(méi)有泄露的,除了你要計(jì)算的那個(gè)WOE最終的結(jié)果。如果我們不用安全
多方計(jì)算,用其他的自設(shè)方法來(lái)算WOE呢?比如說(shuō)我們用半同態(tài)來(lái)算這個(gè)WOE,
那邊把加密的0跟1發(fā)過(guò)來(lái),這樣會(huì)泄露我每個(gè)分箱的樣本數(shù)目,比如我0~18歲
有150個(gè)人,這個(gè)數(shù)據(jù)有樣木有標(biāo)簽的一方,不可避免的被他知道了,這個(gè)泄漏雖然
少,但是中間肯定是有泄漏的。
對(duì)于這兩個(gè)方法,因?yàn)槲覀儼踩喾接?jì)算的除法跟向量?jī)?nèi)積還是比較高效的,所以這
個(gè)方法還是比較好的。
4.安全多方計(jì)算不需要"數(shù)據(jù)對(duì)齊”就可以建模
阿里安全
DATAFUNCONAUBAaASKURTY
2020大It籌Al的金所技術(shù)買(mǎi)展
?安全多方計(jì)算不需要"對(duì)齊數(shù)據(jù)"就可以建模
?秘密共事?tīng)顟B(tài)下進(jìn)行陶,各機(jī)構(gòu)不泄■自己的名戶(hù)信息
?交集也是秘密共享伏態(tài),不泡儂集內(nèi)的用戶(hù)身份
?GDPR第5條(b)’
?對(duì)個(gè)人數(shù)據(jù)的處理不應(yīng)當(dāng)違反?初收集該數(shù)據(jù)時(shí)的初始目的(對(duì)齊敢艷過(guò)程是存在風(fēng)險(xiǎn)的)
?若為統(tǒng)計(jì)用途,則可以和出該初始日的(可以建便)
MPCFMK,
遒*?-皿上的加1^2癡I3癡14標(biāo)簽
Uie<2XXyyyyyy
Htpvy/en^neerin*JbiaxTVopenMjunx/prmt^fnatdvng/
然后來(lái)到比較關(guān)鍵的數(shù)據(jù)對(duì)齊方面,雖然有PSI的數(shù)據(jù)對(duì)齊,但交集里面的用戶(hù)身份
是不可避免的泄露,不過(guò)我們有方法可以在秘密共享的狀態(tài)下進(jìn)行匹配。
比如說(shuō)商家A持有用戶(hù)1與用戶(hù)2,商家B它持有用戶(hù)2與用戶(hù)3,然后他們可以把
他們所有的數(shù)據(jù)都以秘點(diǎn)共享的形式分成兩份。大家有4個(gè)秘密共享的數(shù)據(jù),誰(shuí)也不
知道哪個(gè)是誰(shuí),然后在這個(gè)秘密共享狀態(tài)下可以進(jìn)行匹配,得到一個(gè)秘密共享的結(jié)果。
從4行得到了1行,但是大家只看見(jiàn)了4行變成1行,誰(shuí)也不知道這一行是user2,
最后得到了秘密共亨狀態(tài)下的user2,然后秘密共亨狀態(tài)的數(shù)據(jù)是可以進(jìn)行MPC建模
的。這樣完美的保護(hù)了用戶(hù)的隱私,誰(shuí)也不知道這是user2,user2呢也沒(méi)有讓任何人
知道她是A的客戶(hù)還是B的客戶(hù),那么這樣做有什么好處呢?
我們可以下結(jié)論說(shuō)我們這樣做是合規(guī)的。例如:我們以GDPR為例子,其第5條規(guī)定:
對(duì)個(gè)人數(shù)據(jù)的處理不應(yīng)當(dāng)違反最初收集該數(shù)據(jù)時(shí)的初始目的,意思就是:用戶(hù)讓你干
什么你就可以干什么,用戶(hù)沒(méi)答應(yīng)干什么你就不能干什么。嚴(yán)格來(lái)說(shuō)對(duì)齊數(shù)據(jù)的處理
這個(gè)過(guò)程,用戶(hù)是沒(méi)有同意商家A把我是你的注冊(cè)用戶(hù)這個(gè)信息告訴商家B的,所以,
這個(gè)過(guò)程somehow是存在風(fēng)險(xiǎn)的。但是GDPR也規(guī)定,統(tǒng)計(jì)用途是可以超出這個(gè)初
始目的,很明顯建模是一個(gè)統(tǒng)計(jì)性的。比如,他在這個(gè)交集上建出一個(gè)模型,這個(gè)肯
定是一個(gè)統(tǒng)計(jì)性的模型,也就是我們可以說(shuō)秘密共享狀態(tài)下的數(shù)據(jù)對(duì)齊是合規(guī)的,這
是安全多方計(jì)算的一個(gè)優(yōu)勢(shì)。
具體的算法比較密碼學(xué),大家可以參考一下Facebook最近發(fā)的一個(gè)blog,上面的方
法就是在秘密共享狀態(tài)下進(jìn)行數(shù)據(jù)對(duì)齊,這是安全多方計(jì)算解決的第二個(gè)數(shù)據(jù)挑戰(zhàn)一
一怎么對(duì)齊數(shù)據(jù)。
5.安全多方學(xué)習(xí)缺點(diǎn)
DATAFUNCON
2020XB*AI的?際發(fā)術(shù)實(shí)21
在LR等模型方面,安全多方計(jì)算的性能完全可以滿(mǎn)足業(yè)務(wù)需求
?20000樣本,lomfif,LR建模耗時(shí):秒級(jí)~分鐘級(jí)
=J.oma。4
NIGMS?ftdPUtONAwari1oc
ChengHong
ZhicongHuangFupingQu
Wcn-jieLu
AlibabuGemMLoh.AlibahfGrwtp
安全多方計(jì)算有什么缺點(diǎn)呢?它的缺點(diǎn)就是它性能肯定是低于聯(lián)邦學(xué)習(xí)的,為什么這
么說(shuō)?
因?yàn)槁?lián)邦學(xué)習(xí)中每個(gè)round總有一部分是可以本地算的,不需要網(wǎng)絡(luò),然后算完之后
再交互一次。但是安全多方計(jì)算,他每一個(gè)操作都需要交互,例如:每一個(gè)乘法,每一
個(gè)比較都需要雙方的交互,也就是說(shuō)它的性能可能是比較弱的。但是,目前在logistic
regression這種簡(jiǎn)單模型下,它的性能經(jīng)過(guò)我們的優(yōu)化己經(jīng)是完全可接受了。比如說(shuō)
萬(wàn)級(jí)樣本百級(jí)特征可以10秒鐘跑完,我們?nèi)ツ陞⒓恿艘粋€(gè)iDASH的安全多方計(jì)算比
賽,他的題目是:有三個(gè)醫(yī)院,每個(gè)醫(yī)院是有一些病人的數(shù)據(jù),他們規(guī)定這個(gè)病人的數(shù)
據(jù)是嚴(yán)格不能夠傳給別的醫(yī)院的,他們?nèi)齻€(gè)醫(yī)院想合作在這個(gè)數(shù)據(jù)上進(jìn)行一個(gè)建模,也
就是說(shuō)判斷某些基因的人可能/不可能得某些病,這樣數(shù)據(jù)越多建模是越準(zhǔn)確的。但是,
由于合規(guī)問(wèn)題,醫(yī)院之間不能互傳數(shù)據(jù),所以比賽要求要使用安全多方計(jì)算來(lái)實(shí)現(xiàn)醫(yī)院
之間的聯(lián)合建模。
我們是取得了這個(gè)比賽的冠軍,我們是唯——個(gè)準(zhǔn)確率超過(guò)70%的隊(duì)伍,我們的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 汽車(chē)安全檢驗(yàn)政策解讀
- 地下水水文地質(zhì)工程地質(zhì)研究重點(diǎn)基礎(chǔ)知識(shí)點(diǎn)
- 連片土地轉(zhuǎn)租合同協(xié)議
- 車(chē)輛購(gòu)買(mǎi)贈(zèng)送協(xié)議書(shū)范本
- 運(yùn)輸木架租借合同協(xié)議
- 員工試用期勞動(dòng)合同協(xié)議書(shū)
- 產(chǎn)業(yè)園區(qū)租賃經(jīng)營(yíng)協(xié)議書(shū)
- 投資咨詢(xún)服務(wù)合同協(xié)議
- 舊房改造協(xié)議書(shū)
- 旅游酒店連鎖管理服務(wù)合同
- 建筑總工程師招聘面試題與參考回答(某大型央企)2024年
- 糖尿病視網(wǎng)膜病變護(hù)理
- 解讀智能測(cè)試用例生成
- 獸藥GSP質(zhì)量管理制度匯編
- 【基于單片機(jī)的智能送餐配送車(chē)設(shè)計(jì)與實(shí)現(xiàn)(論文)11000字】
- 2024年供電營(yíng)業(yè)規(guī)則復(fù)習(xí)題庫(kù)含答案解析
- GB/T 18457-2024制造醫(yī)療器械用不銹鋼針管要求和試驗(yàn)方法
- 2024年生態(tài)環(huán)境執(zhí)法大練兵比武競(jìng)賽理論考試題庫(kù)-上(單選題)
- 東盟互聯(lián)互通總體規(guī)劃2025
- 2024-2030年中國(guó)婦科凝膠行業(yè)市場(chǎng)發(fā)展分析及前景趨勢(shì)與投資研究報(bào)告
- 中華人民共和國(guó)執(zhí)業(yè)醫(yī)師法培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論