2024聯(lián)邦學(xué)習(xí)與安全多方計(jì)算_第1頁(yè)
2024聯(lián)邦學(xué)習(xí)與安全多方計(jì)算_第2頁(yè)
2024聯(lián)邦學(xué)習(xí)與安全多方計(jì)算_第3頁(yè)
2024聯(lián)邦學(xué)習(xí)與安全多方計(jì)算_第4頁(yè)
2024聯(lián)邦學(xué)習(xí)與安全多方計(jì)算_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聯(lián)邦學(xué)習(xí)與安全多方計(jì)算

導(dǎo)讀:聯(lián)邦學(xué)習(xí)和安全多方計(jì)算是當(dāng)前跨機(jī)構(gòu)數(shù)據(jù)協(xié)同的兩類(lèi)主流技術(shù),本文將從基

本思想、安全性、性能等多個(gè)方面介紹二者的區(qū)別,并介紹阿里在安全多方

計(jì)算方面的最新成果。

01

聯(lián)邦學(xué)習(xí)的發(fā)展歷史

1.聯(lián)邦學(xué)習(xí)

DATAFUNCON

2020XB?Al的■標(biāo)盤(pán)術(shù)玄毆

?聯(lián)習(xí)(Federatedlearning,FL)由Google于2016年提出

?初衷是用于解決多個(gè)移動(dòng)設(shè)備的分布式建模問(wèn)題

例:GoogleGboard安卓輸入法預(yù)測(cè)

為了智能預(yù)測(cè)下,需要針對(duì)大量用

OZS±戶(hù)的輸入歷史數(shù)據(jù)進(jìn)僑腐

GdodoyoudoyoutfwA4設(shè)計(jì)目標(biāo):避免直接收集用戶(hù)的輸入歷史,

qw'e'r't*yu'i*o'p盡量在端上訓(xùn)睡

asghJk

zxcvbnma

聯(lián)邦學(xué)習(xí)在2016年由谷歌提出,因?yàn)镚oogle有安卓系統(tǒng),需要解決多個(gè)安卓設(shè)備

的分布式建模問(wèn)題。其中,主要是針對(duì)輸入法的建模,比如客戶(hù)在安卓輸入法中輸入

單詞“what”,或許他可能想繼續(xù)輸入"d。youthink",Google輸入法如果能自

動(dòng)聯(lián)想出來(lái),用戶(hù)體驗(yàn)就會(huì)變得比較好,但是自動(dòng)聯(lián)想功能需要大量的用戶(hù)數(shù)據(jù)才能

學(xué)習(xí)出來(lái),怎么獲得這些用戶(hù)數(shù)據(jù)呢?

一個(gè)比較粗暴的做法是用戶(hù)輸入了什么字就把這個(gè)字全部收集到云端上,但這種做法

無(wú)疑是對(duì)用戶(hù)隱私的一種破壞。由于谷歌崇尚不作整,怎樣在不收集用戶(hù)輸入文字的

前提下,從而預(yù)測(cè)出用戶(hù)接下來(lái)需要輸入的文字?因此,產(chǎn)生了聯(lián)邦學(xué)習(xí)。

2.聯(lián)邦學(xué)習(xí)用于多移動(dòng)端分布式建模

DATAFUNCON冬嗅賽

2020大USAl的■新授木實(shí)駿

?聯(lián)邦學(xué)習(xí)用于多移動(dòng)終端分布式建模

?設(shè)計(jì)優(yōu)點(diǎn):設(shè)備只上傳傳輸梯度VW,并不直接上傳本喃入歷史

聯(lián)邦學(xué)習(xí)的設(shè)計(jì)優(yōu)點(diǎn)就是用戶(hù)數(shù)據(jù)盡量不離開(kāi)用戶(hù)自己的安卓設(shè)備,用戶(hù)盡量在本地

完成一部分的訓(xùn)練,然后把訓(xùn)練的梯度傳到谷歌的云端,這樣谷歌只看見(jiàn)一個(gè)梯度,

它并沒(méi)有獲得這個(gè)用戶(hù)的設(shè)備以前的聊天內(nèi)容,這樣在設(shè)計(jì)上有一種privacyby

design的設(shè)計(jì)優(yōu)點(diǎn)。有很多這樣的安卓設(shè)備,比如:ParameterServeri殳備是谷歌的

云端服務(wù)器,它開(kāi)始會(huì)有一個(gè)全局的初始化模型,云端服務(wù)器會(huì)把模型推到各個(gè)設(shè)備

_L,然后各個(gè)設(shè)備基于本地的數(shù)據(jù)來(lái)優(yōu)化模型,得到一個(gè)更新的梯度,把這個(gè)更新的

梯度發(fā)給服務(wù)器,服務(wù)器收到這么多梯度之后,會(huì)更新全局模型,然后發(fā)到這些設(shè)備

上,這些設(shè)備又迭代,直到這個(gè)模型在某種程度上收斂為止,這就是聯(lián)邦學(xué)習(xí)最開(kāi)始

的一個(gè)雛形。

3.國(guó)內(nèi)聯(lián)邦學(xué)習(xí)與谷歌聯(lián)邦學(xué)習(xí)的區(qū)別

區(qū)別一:

信阿里登全

DATAFUNCONAUBMASKUITY

2020大e第Al的E斫投木買(mǎi)線(xiàn)

?2018年國(guó)內(nèi)開(kāi)始引入Federatedlearning概念,主要區(qū)別1:

國(guó)內(nèi)主要是crosssiloFL:

少量(如2個(gè))機(jī)構(gòu)之間的合作

大概在2018年左右,國(guó)內(nèi)開(kāi)始引入聯(lián)邦學(xué)習(xí)概念,與谷歌的聯(lián)邦學(xué)習(xí)相比有了一些

發(fā)展和改變。兩者主要的區(qū)別是谷歌的聯(lián)邦學(xué)習(xí)主要是面向海量移動(dòng)設(shè)備的數(shù)據(jù)之間的

合作,但是國(guó)內(nèi)主要是機(jī)構(gòu)之間的合作,被稱(chēng)為crosssiloFL,一般都是兩個(gè)或者三個(gè)

機(jī)構(gòu)之間的合作。但是,目前的應(yīng)用主要以信貸或者廣告為主,例如:兩個(gè)或多個(gè)機(jī)

構(gòu)一起判斷用戶(hù)的信用,從而決定要不要借錢(qián)給他,或者要不要給他推一些廣告。這種

情況下參與方的數(shù)目實(shí)際上跟Google的聯(lián)邦學(xué)習(xí)相比是有很大的降低的。

區(qū)別二:

京阿里安全

DATAFUNCONAUBABA5KUVTY

2020XBBAi的■際績(jī)木實(shí)然

?2018年國(guó)內(nèi)開(kāi)始引入Federatedlearning概念,主要區(qū)別2:

GoogleFL:主要面向國(guó)內(nèi)FL:主要面向

數(shù)據(jù)的橫向分割數(shù)據(jù)的縱向分割

Google有很多的設(shè)備,每個(gè)設(shè)備上都有自洽的一些樣本,也就是說(shuō)數(shù)據(jù)在多個(gè)參與

方之間,它是橫向分割的,比如說(shuō)這個(gè)綠色的在一個(gè)設(shè)備上,這個(gè)白色的在另一個(gè)設(shè)

備上就是橫向的分割,每個(gè)都有一個(gè)完整的樣本。

但是國(guó)內(nèi)經(jīng)常使用的聯(lián)邦學(xué)習(xí),主要是面向數(shù)據(jù)的縱向分割的。以信貸為例,其通常

都是針對(duì)一個(gè)人的不同特征并把它們組合起來(lái)做聯(lián)邦學(xué)習(xí)。比如說(shuō)特征1與特征2在

一個(gè)機(jī)構(gòu),特征3與特征4以及l(fā)abel是在另外一個(gè)機(jī)構(gòu),也就是說(shuō)它主要是面向數(shù)

據(jù)的縱向分割。當(dāng)然橫向分割這種應(yīng)用國(guó)內(nèi)同樣存在,但是用的比較多的或者說(shuō)比較

賺錢(qián)的,還是在這種縱向的分割法上。

02

聯(lián)邦學(xué)習(xí)面臨的安全挑戰(zhàn)

谷歌原版的聯(lián)邦學(xué)習(xí)有什么樣的安全挑戰(zhàn)?而在國(guó)內(nèi),會(huì)面臨什么樣的新的安全挑戰(zhàn)?

相關(guān)的,不能說(shuō)有梯度就算不出原數(shù)據(jù)了,那多大程度上相關(guān)呢?其實(shí)算出來(lái)是有一

定的難度,但是有一些學(xué)者也能算出來(lái),比如說(shuō)假設(shè)我們訓(xùn)練的模型是一個(gè)簡(jiǎn)單模型,

比如邏輯回歸,我們有了一堆梯度跟原始數(shù)據(jù)的這種關(guān)系,可以通過(guò)解方程組把這個(gè)

未知數(shù)解出來(lái)的,這是我們?cè)贜IPS聯(lián)邦學(xué)習(xí)workshop上的一個(gè)工作。如果這個(gè)模型

比較復(fù)雜,解方程組算就變得不現(xiàn)實(shí)了。這時(shí)有一些其他的方法,比如我們用

machinelearning的優(yōu)化方法來(lái)反向的優(yōu)化求得一個(gè)近似的解,可能求不到精確的結(jié)

果,但可以取到一個(gè)大致差不多的結(jié)果,這里有一個(gè)去年的NIPS的文章,它可以反向

的從梯度求出人臉,然后這個(gè)

人臉可能只有若干個(gè)像素的區(qū)別。所以我們看到如果不保護(hù)這個(gè)梯度的話(huà),本質(zhì)上還

是能推出原始數(shù)據(jù)的。

谷歌的解決方法:

?加差分隱私

阿里安全

DATAFUNCONAUBAeAUUWTY

2020ACBAl的齡斷授術(shù)其歧

?如何防止從梯度反推原始數(shù)據(jù)

Google應(yīng)對(duì)的方法,主要通過(guò)加差分隱私,也就是說(shuō)client上傳到云端的梯度,

它不直接上傳,而是加一個(gè)noise,但是準(zhǔn)確率會(huì)下降。準(zhǔn)確率的下降,對(duì)于

Google輸入法somehow是可以接受的,因?yàn)檩斎敕ǖ腡op3順序換了一下,

或者推薦的東西錯(cuò)了一點(diǎn),對(duì)于用戶(hù)體驗(yàn)可能差別不大,但是對(duì)于我們這種用在廣

告或者信貸場(chǎng)景下,準(zhǔn)確率差1%就可能差很多很多錢(qián),所以對(duì)我們來(lái)說(shuō)加差分隱

私不是一種能夠接受的方案。

②secureaggregation

阿里登全

DATAFUNCONAUMASKUMTV

2020大ft事AI第*斷技術(shù)買(mǎi)我

?如何防止從梯度反推原始數(shù)據(jù)

?方法2:SecureAggregation

?Server只能看到聚合之后的梯度,無(wú)法了解具體某個(gè)client的梯度

。但是Secureaggregation只適用于Client數(shù)目較多的場(chǎng)景

DATAFUNCONw阿里安全

2020ABKAl的*際技術(shù)實(shí)R

?Secureaggregation的局限性

?如果參與方過(guò)少(例如2個(gè)),Secureaggregation并不能保護(hù)梯度

?Client1拿到I侖的W,減去自己的梯度就可以推出Client2的梯度了

Google還有一種方案叫做secureaggregation,也就是說(shuō)要通過(guò)secure的方法把

這些多梯度聚合在一起,最后效果就是Server只看到了n個(gè)梯度聚合在一起的結(jié)果。

但是,不知道某個(gè)具體的client梯度是多少的,從而導(dǎo)致了Server要攻擊某個(gè)client

的概率非常的低,但是我們觀(guān)察到secureaggregation只適用于

client數(shù)目比較多的情況。我們可以假設(shè)只有兩個(gè)client,那么這個(gè)aggregate的結(jié)

果就是兩個(gè)梯度的和,通過(guò)第一個(gè)client可以推出第二個(gè)人的梯度,所以參與方至少

要三個(gè)人以上,而且這些參與方之間還不能夠合謀,所以說(shuō)這是secureaggregation

的局限性。

2.聯(lián)邦學(xué)習(xí)應(yīng)用面臨的新安全挑戰(zhàn)

講解完橫向聯(lián)邦學(xué)習(xí)的問(wèn)題之后,接下來(lái)了解下國(guó)內(nèi)引入新的聯(lián)邦學(xué)習(xí)應(yīng)用后,會(huì)面

臨什么樣的新的安全挑戰(zhàn)。

①參與方過(guò)少帶來(lái)的問(wèn)題

DATAFUNCON等喔森

2020XBBAl的■肝授木實(shí)峻

?參與方過(guò)少(例如兩方合作)帶來(lái)的問(wèn)題-續(xù)

?半同態(tài)加密保護(hù)參數(shù):只能實(shí)現(xiàn)占保護(hù)

例:Alice擁有解電能力

**?*,*5*r?^T**Z*VX

______Encrypt(VW)

一_____一夢(mèng)―IBob

'(.^nc?ypnw)〔J

^/Alice的參數(shù)對(duì)Bob???/p>

。但Bob的參數(shù)無(wú)法對(duì)Alic嘴密

我們經(jīng)常遇到crosssiloFL參與方很多情況下都是兩個(gè),由于參與方過(guò)少會(huì)引來(lái)新的

安全問(wèn)題。

我們傳的梯度是可以用半同態(tài)對(duì)它進(jìn)行加密的,例如:Alice把它的梯度用半同態(tài)加密,

然后傳給Bob,這樣是沒(méi)問(wèn)題的。Alice的參數(shù)確實(shí)是對(duì)Bob保密的,但是Bob在

這個(gè)加密的數(shù)據(jù)上運(yùn)算完之后他是需要傳回給Alice,Alice最終需要解密,或者說(shuō)每

一個(gè)round都需要解密,每一個(gè)round中Bob的參數(shù)實(shí)際上是被Alice知道的。因

為參與方只有兩個(gè),Alice得到兩個(gè)人的計(jì)算結(jié)果,她肯定是可以從這中間推斷出

Bob的信息的。也就是說(shuō),在這種同態(tài)加密保護(hù)梯度中,只有一方是受益的,另一方

他其實(shí)沒(méi)有受益,跟普通的聯(lián)邦學(xué)習(xí)是一樣的。就是說(shuō)半同態(tài)加密參數(shù)只能實(shí)現(xiàn)單向

的防護(hù)。

②縱向FL帶來(lái)的問(wèn)題

?怎樣對(duì)齊樣本?

阿里安全

DATAFUNCONAUBABA5KURTY

2020XBKAI的!B所授木買(mǎi)H

?縱向FL帶來(lái)的問(wèn)題-1

?為了實(shí)現(xiàn)縱向FL,需要首先按id對(duì)齊

?對(duì)齊過(guò)程是否符合啟私政策?

?即使用PSI(私求交)技術(shù),也只能保護(hù)”不在交集

內(nèi)的用戶(hù)身份.,但是在交集內(nèi)的用戶(hù)身份■然港■

?例:商家A知道了“用戶(hù)1也在商家B那注冊(cè)了”

?用戶(hù)1未必同It這個(gè)信息被A知曉

商家A持有商家B持有

縱向的聯(lián)邦學(xué)習(xí)又帶來(lái)了一個(gè)新的問(wèn)題一怎么對(duì)齊樣本?例如:不安全的方法跟安

全的方法,無(wú)論怎么對(duì)齊,其都是要按照主鍵對(duì)齊的。在對(duì)齊之后,不可避免的泄露

了一個(gè)信息,對(duì)齊的用戶(hù)都是誰(shuí)?可能沒(méi)對(duì)齊的用戶(hù)呢?我們是可以用

PSI這種方法來(lái)保護(hù)它的。一旦建模,就不可避免的要把這些數(shù)據(jù)提取出來(lái),也就是

說(shuō)只要在交集里面的那些用戶(hù),就會(huì)不可避免的泄露了,我們可以再往里面加入假數(shù)據(jù)

等等,但畢竟它在里面就是在里面了。比如說(shuō)A公亙跟B公司合作,他們之間想進(jìn)行

一個(gè)聚合,可能A公司的用戶(hù)并不想把我是A的注卅用戶(hù)這個(gè)信息告訴B,也就是說(shuō)

對(duì)齊這個(gè)東西它的somehow是在一個(gè)灰色地帶,所以嚴(yán)格來(lái)說(shuō)如果要對(duì)齊的話(huà),應(yīng)

該用戶(hù)顯式的點(diǎn)擊同意,我同意A把我的信息授權(quán)給B,所以縱向的樣本對(duì)齊問(wèn)即是

一個(gè)老大難的問(wèn)題,雖然現(xiàn)在可能大家都在做,但如果監(jiān)管?chē)?yán)格了,這個(gè)問(wèn)題,我們需

要一起來(lái)想怎么處理。

?無(wú)標(biāo)簽方

信阿里登全

DATAFUNCONMJBABAStaWTY

2020X?*AI的第斷投術(shù)獎(jiǎng)H

?縱向FL帶來(lái)的問(wèn)題-2

?縱向F。、然存在無(wú)標(biāo)簽方,而無(wú)標(biāo)簽方難以進(jìn)

行特征工程

?如何讓無(wú)標(biāo)簽方進(jìn)行特征工程又能保護(hù)數(shù)據(jù)除

?

?已經(jīng)脫離聯(lián)邦學(xué)習(xí)的落瞞

?需要定制化的安全解決方案

.■

商家A持有商家曜有

沒(méi)有標(biāo)簽,怎

么做特征工程?

縱向的聯(lián)邦學(xué)習(xí)肯定有一個(gè)人是無(wú)標(biāo)簽方,無(wú)標(biāo)簽方他可能需要做特征工程,他不能

直接把這個(gè)特征直接傳給別人或者直接進(jìn)行聯(lián)邦學(xué)習(xí),那么有些特征工程是需要用到

這個(gè)標(biāo)簽的,所以它怎么用呢?這也是一個(gè)難題。

實(shí)際上這個(gè)特征工程本身就是一個(gè)特定的算法,跟Google的橫向聯(lián)邦學(xué)習(xí)已經(jīng)沒(méi)有

關(guān)系了,我們需要定制一種方案,比如說(shuō)我們就是要篝那個(gè)WOE。那我們就要定制一

個(gè)方案來(lái)安全地算這個(gè)WOE,這也是第二個(gè)難題,乜就是說(shuō)縱向的聯(lián)邦學(xué)習(xí)帶來(lái)了很

多新的我們以前傳統(tǒng)的聯(lián)邦學(xué)習(xí)沒(méi)有遇到過(guò)的問(wèn)題。

阿里安全

DATAFUNCONAUBAAASCdMTY

2020xa?Al的■環(huán)搔術(shù)女駿

?舉例:計(jì)算WOE(WeightofEvidence)

?WOE定義:某個(gè)特征箱體內(nèi)的In(反例的占比/正例總占比)

?若擁有"年齡"一方不麗標(biāo)簽(樣本建正還是負(fù)),則難以正艷計(jì)算WOE

yrsr翳…

1005010%10%0

50%20%0.92

30015030%30%0

10020010%40%-1.39

1000500

上圖是WOE的例子,WOE它是要計(jì)算這個(gè)特征的重要性,比如說(shuō)我想把年齡分成不

同段,比如0~18歲等這樣幾個(gè)段,那么每個(gè)段段內(nèi)都存在正樣本數(shù)與負(fù)樣本數(shù)。那

么,這個(gè)WOE就是把反例總占比比上正例總占比,然后求一個(gè)log,這個(gè)數(shù)越大,

說(shuō)明這個(gè)特征這個(gè)分段對(duì)這個(gè)模型越重要,也就是它的判別度越高,我們最后就可以

給它加一些分,這個(gè)分總可能比較好。但是,對(duì)綠色的參與方來(lái)說(shuō),他是不知道那個(gè)

標(biāo)簽的(假設(shè)標(biāo)簽是在另一方),那他怎么知道這正樣本數(shù)跟負(fù)樣本數(shù)呢,所以他是

沒(méi)辦法知道的。

所以,怎么計(jì)算WOE也是一個(gè)難題,這也是縱向聯(lián)盟帶來(lái)的新的難題。

03

安全多方計(jì)算解決方案

1.安全多方計(jì)算

DATAFUNCON冬饕蠡

2020XB*AI的■管技術(shù)實(shí)續(xù)

?安全多方計(jì)算(SecureMultipartyComputation,MPC)

?可證明安全

?嚴(yán)格的安全定義:除最終的訓(xùn)練結(jié)鼠之外,不泄露任何數(shù)據(jù)內(nèi)容

?Semi-Honestmodel

?Maliciousmodel

除最終的計(jì)算結(jié)果之外,

一切中間結(jié)果都是加空狀

態(tài),永不解密

什么是安全多方計(jì)算?怎么用它來(lái)解決這些難題?

安全多方計(jì)算是一個(gè)密碼學(xué)的定義,它叫securemultipartycomputationMPC,它

是可證明安全的,也就是說(shuō)它有一個(gè)嚴(yán)格的安全定義,雙方想計(jì)算什么東西,除了這個(gè)

計(jì)算的結(jié)果之外,中間的任<可步驟都是不泄露任何數(shù)據(jù)內(nèi)容的。

比如說(shuō)a和b想一起算個(gè)f(a,b),雙方就真的就只知道f(a,b),其他??蓶|西,都是

零泄露的。當(dāng)然它里面有細(xì)分,比如說(shuō)有semihonestmodel跟maliciousmodel,

這個(gè)就是具體技術(shù)問(wèn)題,就不細(xì)講了。

2.舉例子說(shuō)明安全多方計(jì)算到底怎么做?

京阿里登全

DATAFUNCONALBAAASeCURFY

2020XBSAl第■新搔水玄it

?例:Alice和Bob分別擁有數(shù)據(jù)a,b,希望聯(lián)合計(jì)算機(jī)器學(xué)習(xí)模

比如說(shuō)Alice跟Bob,他們分別擁有數(shù)據(jù)a和b,他們想進(jìn)行一個(gè)聯(lián)合的機(jī)器學(xué)習(xí)

這里我們不管它是縱向橫向總之它就有一堆數(shù)據(jù)它有一堆數(shù)據(jù)就對(duì)了。

f(a,b)0a,b

安全多方計(jì)算MPC有很多種,我們這里是用基于秘密共享的例子,就是說(shuō)用秘密共

享的MPC方法怎么做這個(gè)建模。

阿里至全

DATAFUNCONAUBABA5KUKTY

2020大的密Ai的?斯統(tǒng)本實(shí)展

?Step1:隨機(jī)拆分

阿里安全

DATAFUNCONAUBAAASKUTTY

2020XttfiAi的■浙”術(shù)京毆J」:,

?Step2:交換分量

-得到秘密分享狀態(tài)的a和b/

?單方視角下都是亂碼,只有雙方同意的情況下才能復(fù)原

a-^b-r7

阿里安全

DATAFUNCONALJBAAAseawn

2020XBSAl的?徐矮木支if

?Step2:秘密分享狀態(tài)下進(jìn)行計(jì)算

?加法:即]B各自本地將"密文"相加即可得到a+b的"加空"版本

?其他操作:乘法、痛、除法…

?構(gòu)成整個(gè)機(jī)器學(xué)習(xí)算法

首先,a跟b會(huì)把他自己的這個(gè)數(shù)據(jù)進(jìn)行一個(gè)隨機(jī)拆分,比如a有一堆數(shù)據(jù),生成了

一堆隨機(jī)數(shù),a減去這個(gè)隨機(jī)數(shù),這個(gè)r是他本地生成的隨機(jī)數(shù),同理,Bob他也會(huì)本

地生成隨機(jī)數(shù)r',那這個(gè)r跟r'先不告訴對(duì)方,另■就把這個(gè)數(shù)據(jù)分成了兩份,任意

一份單拎出來(lái)看好像都是個(gè)nonsense的garbage,因?yàn)樗请S機(jī)的嘛,它減去隨機(jī)

的也是個(gè)隨機(jī)的,然后,他們兩個(gè)人可以交換一下這個(gè)分量,比如說(shuō)Bob把這個(gè)b-r,

發(fā)給對(duì)方,Alice把這個(gè)r發(fā)給Bob。之后,我們稱(chēng)這個(gè)數(shù)據(jù)集現(xiàn)在處于一個(gè)秘密共享

的狀態(tài),也就是說(shuō)單方視角上他們看到的都是亂碼,只有雙方同意的情況下,把這兩

個(gè)數(shù)據(jù)拼到一起,他才能知道最終的數(shù)據(jù)是什么。那么這個(gè)秘密共享狀態(tài)下的數(shù)據(jù)集,

它的優(yōu)點(diǎn)就是它還是能夠計(jì)算的。

我們?cè)趺此鉧加b?其就是本地把這兩個(gè)分量相加。比如Alice算出了a加b減去這

兩個(gè)東西,Bob就把這兩個(gè)東西加起來(lái),可以看到這兩個(gè)東西如果拼在一起的話(huà),它是

可以得到a加b的。同理,我們也可以在秘密共享的狀態(tài)下做a乘b、

a除b,agreaterthanb等等,協(xié)議會(huì)復(fù)雜一點(diǎn),但是都是能做的。然后這些操作

它構(gòu)成了整個(gè)機(jī)器學(xué)習(xí)的算法,比如說(shuō)我可以在上面算一個(gè)f(a,b),然后得到f;a,b)

的秘密共享狀態(tài),我們兩個(gè)人再商量一下,把這個(gè)拼起來(lái),發(fā)現(xiàn)了f(a,b)是多少,同

時(shí)中間的任何中間結(jié)果都是秘密共享狀態(tài)的,都是零泄漏的。

3.WOE為例子,我們?cè)趺磥?lái)無(wú)泄漏的計(jì)算這個(gè)WOE呢?

?對(duì)比:使用半同態(tài)計(jì)算WOE的方案會(huì)泄露每個(gè)分箱的樣本數(shù)目

因?yàn)閃OE就是一個(gè)正負(fù)樣本的比值,正負(fù)樣本我不知道,但是知道標(biāo)簽的那一方可

以發(fā)一個(gè)秘密共享的向量過(guò)來(lái)。比如,正樣本的就是1,負(fù)樣本的就是0,他把這個(gè)

向量以秘密共享的方式發(fā)過(guò)來(lái),我自己的這個(gè)向量跟這個(gè)秘密共享的向量進(jìn)行一個(gè)乘

法,得到一個(gè)秘密共享的這個(gè)結(jié)果,這個(gè)秘密共享的結(jié)果就是這個(gè)正樣本的數(shù)。但是,

它是秘密共享狀態(tài)的,所以我也不知道它是多少。之后,我可以進(jìn)行一個(gè)秘密共享的

除法,可以再次進(jìn)行一個(gè)秘密共享的log。最后,如果我

要是必要的話(huà),我就把這個(gè)數(shù)據(jù)復(fù)原出來(lái),比如算出WOE是0.9,然后這個(gè)過(guò)程中任

何數(shù)據(jù)都是沒(méi)有泄露的,除了你要計(jì)算的那個(gè)WOE最終的結(jié)果。如果我們不用安全

多方計(jì)算,用其他的自設(shè)方法來(lái)算WOE呢?比如說(shuō)我們用半同態(tài)來(lái)算這個(gè)WOE,

那邊把加密的0跟1發(fā)過(guò)來(lái),這樣會(huì)泄露我每個(gè)分箱的樣本數(shù)目,比如我0~18歲

有150個(gè)人,這個(gè)數(shù)據(jù)有樣木有標(biāo)簽的一方,不可避免的被他知道了,這個(gè)泄漏雖然

少,但是中間肯定是有泄漏的。

對(duì)于這兩個(gè)方法,因?yàn)槲覀儼踩喾接?jì)算的除法跟向量?jī)?nèi)積還是比較高效的,所以這

個(gè)方法還是比較好的。

4.安全多方計(jì)算不需要"數(shù)據(jù)對(duì)齊”就可以建模

阿里安全

DATAFUNCONAUBAaASKURTY

2020大It籌Al的金所技術(shù)買(mǎi)展

?安全多方計(jì)算不需要"對(duì)齊數(shù)據(jù)"就可以建模

?秘密共事?tīng)顟B(tài)下進(jìn)行陶,各機(jī)構(gòu)不泄■自己的名戶(hù)信息

?交集也是秘密共享伏態(tài),不泡儂集內(nèi)的用戶(hù)身份

?GDPR第5條(b)’

?對(duì)個(gè)人數(shù)據(jù)的處理不應(yīng)當(dāng)違反?初收集該數(shù)據(jù)時(shí)的初始目的(對(duì)齊敢艷過(guò)程是存在風(fēng)險(xiǎn)的)

?若為統(tǒng)計(jì)用途,則可以和出該初始日的(可以建便)

MPCFMK,

遒*?-皿上的加1^2癡I3癡14標(biāo)簽

Uie<2XXyyyyyy

Htpvy/en^neerin*JbiaxTVopenMjunx/prmt^fnatdvng/

然后來(lái)到比較關(guān)鍵的數(shù)據(jù)對(duì)齊方面,雖然有PSI的數(shù)據(jù)對(duì)齊,但交集里面的用戶(hù)身份

是不可避免的泄露,不過(guò)我們有方法可以在秘密共享的狀態(tài)下進(jìn)行匹配。

比如說(shuō)商家A持有用戶(hù)1與用戶(hù)2,商家B它持有用戶(hù)2與用戶(hù)3,然后他們可以把

他們所有的數(shù)據(jù)都以秘點(diǎn)共享的形式分成兩份。大家有4個(gè)秘密共享的數(shù)據(jù),誰(shuí)也不

知道哪個(gè)是誰(shuí),然后在這個(gè)秘密共享狀態(tài)下可以進(jìn)行匹配,得到一個(gè)秘密共享的結(jié)果。

從4行得到了1行,但是大家只看見(jiàn)了4行變成1行,誰(shuí)也不知道這一行是user2,

最后得到了秘密共亨狀態(tài)下的user2,然后秘密共亨狀態(tài)的數(shù)據(jù)是可以進(jìn)行MPC建模

的。這樣完美的保護(hù)了用戶(hù)的隱私,誰(shuí)也不知道這是user2,user2呢也沒(méi)有讓任何人

知道她是A的客戶(hù)還是B的客戶(hù),那么這樣做有什么好處呢?

我們可以下結(jié)論說(shuō)我們這樣做是合規(guī)的。例如:我們以GDPR為例子,其第5條規(guī)定:

對(duì)個(gè)人數(shù)據(jù)的處理不應(yīng)當(dāng)違反最初收集該數(shù)據(jù)時(shí)的初始目的,意思就是:用戶(hù)讓你干

什么你就可以干什么,用戶(hù)沒(méi)答應(yīng)干什么你就不能干什么。嚴(yán)格來(lái)說(shuō)對(duì)齊數(shù)據(jù)的處理

這個(gè)過(guò)程,用戶(hù)是沒(méi)有同意商家A把我是你的注冊(cè)用戶(hù)這個(gè)信息告訴商家B的,所以,

這個(gè)過(guò)程somehow是存在風(fēng)險(xiǎn)的。但是GDPR也規(guī)定,統(tǒng)計(jì)用途是可以超出這個(gè)初

始目的,很明顯建模是一個(gè)統(tǒng)計(jì)性的。比如,他在這個(gè)交集上建出一個(gè)模型,這個(gè)肯

定是一個(gè)統(tǒng)計(jì)性的模型,也就是我們可以說(shuō)秘密共享狀態(tài)下的數(shù)據(jù)對(duì)齊是合規(guī)的,這

是安全多方計(jì)算的一個(gè)優(yōu)勢(shì)。

具體的算法比較密碼學(xué),大家可以參考一下Facebook最近發(fā)的一個(gè)blog,上面的方

法就是在秘密共享狀態(tài)下進(jìn)行數(shù)據(jù)對(duì)齊,這是安全多方計(jì)算解決的第二個(gè)數(shù)據(jù)挑戰(zhàn)一

一怎么對(duì)齊數(shù)據(jù)。

5.安全多方學(xué)習(xí)缺點(diǎn)

DATAFUNCON

2020XB*AI的?際發(fā)術(shù)實(shí)21

在LR等模型方面,安全多方計(jì)算的性能完全可以滿(mǎn)足業(yè)務(wù)需求

?20000樣本,lomfif,LR建模耗時(shí):秒級(jí)~分鐘級(jí)

=J.oma。4

NIGMS?ftdPUtONAwari1oc

ChengHong

ZhicongHuangFupingQu

Wcn-jieLu

AlibabuGemMLoh.AlibahfGrwtp

安全多方計(jì)算有什么缺點(diǎn)呢?它的缺點(diǎn)就是它性能肯定是低于聯(lián)邦學(xué)習(xí)的,為什么這

么說(shuō)?

因?yàn)槁?lián)邦學(xué)習(xí)中每個(gè)round總有一部分是可以本地算的,不需要網(wǎng)絡(luò),然后算完之后

再交互一次。但是安全多方計(jì)算,他每一個(gè)操作都需要交互,例如:每一個(gè)乘法,每一

個(gè)比較都需要雙方的交互,也就是說(shuō)它的性能可能是比較弱的。但是,目前在logistic

regression這種簡(jiǎn)單模型下,它的性能經(jīng)過(guò)我們的優(yōu)化己經(jīng)是完全可接受了。比如說(shuō)

萬(wàn)級(jí)樣本百級(jí)特征可以10秒鐘跑完,我們?nèi)ツ陞⒓恿艘粋€(gè)iDASH的安全多方計(jì)算比

賽,他的題目是:有三個(gè)醫(yī)院,每個(gè)醫(yī)院是有一些病人的數(shù)據(jù),他們規(guī)定這個(gè)病人的數(shù)

據(jù)是嚴(yán)格不能夠傳給別的醫(yī)院的,他們?nèi)齻€(gè)醫(yī)院想合作在這個(gè)數(shù)據(jù)上進(jìn)行一個(gè)建模,也

就是說(shuō)判斷某些基因的人可能/不可能得某些病,這樣數(shù)據(jù)越多建模是越準(zhǔn)確的。但是,

由于合規(guī)問(wèn)題,醫(yī)院之間不能互傳數(shù)據(jù),所以比賽要求要使用安全多方計(jì)算來(lái)實(shí)現(xiàn)醫(yī)院

之間的聯(lián)合建模。

我們是取得了這個(gè)比賽的冠軍,我們是唯——個(gè)準(zhǔn)確率超過(guò)70%的隊(duì)伍,我們的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論