2024聯(lián)邦學(xué)習(xí)與安全多方計(jì)算

上傳人：追*** IP屬地：河北上傳時(shí)間：2024-11-30 格式：PDF 頁(yè)數(shù)：23 大?。?0.35MB 積分：12 舉報(bào) 版權(quán)申訴

2024聯(lián)邦學(xué)習(xí)與安全多方計(jì)算_第2頁(yè)

2024聯(lián)邦學(xué)習(xí)與安全多方計(jì)算_第3頁(yè)

2024聯(lián)邦學(xué)習(xí)與安全多方計(jì)算_第4頁(yè)

2024聯(lián)邦學(xué)習(xí)與安全多方計(jì)算_第5頁(yè)

已閱讀5頁(yè)，還剩18頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聯(lián)邦學(xué)習(xí)與安全多方計(jì)算

導(dǎo)讀：聯(lián)邦學(xué)習(xí)和安全多方計(jì)算是當(dāng)前跨機(jī)構(gòu)數(shù)據(jù)協(xié)同的兩類(lèi)主流技術(shù)，本文將從基

本思想、安全性、性能等多個(gè)方面介紹二者的區(qū)別，并介紹阿里在安全多方

計(jì)算方面的最新成果。

聯(lián)邦學(xué)習(xí)的發(fā)展歷史

1.聯(lián)邦學(xué)習(xí)

DATAFUNCON

2020XB?Al的■標(biāo)盤(pán)術(shù)玄毆

?聯(lián)習(xí)(Federatedlearning,FL)由Google于2016年提出

?初衷是用于解決多個(gè)移動(dòng)設(shè)備的分布式建模問(wèn)題

例：GoogleGboard安卓輸入法預(yù)測(cè)

為了智能預(yù)測(cè)下,需要針對(duì)大量用

OZS±戶(hù)的輸入歷史數(shù)據(jù)進(jìn)僑腐

GdodoyoudoyoutfwA4設(shè)計(jì)目標(biāo)：避免直接收集用戶(hù)的輸入歷史，

qw'e'r't*yu'i*o'p盡量在端上訓(xùn)睡

asghJk

zxcvbnma

聯(lián)邦學(xué)習(xí)在2016年由谷歌提出，因?yàn)镚oogle有安卓系統(tǒng)，需要解決多個(gè)安卓設(shè)備

的分布式建模問(wèn)題。其中,主要是針對(duì)輸入法的建模，比如客戶(hù)在安卓輸入法中輸入

單詞“what”,或許他可能想繼續(xù)輸入"d。youthink",Google輸入法如果能自

動(dòng)聯(lián)想出來(lái)，用戶(hù)體驗(yàn)就會(huì)變得比較好，但是自動(dòng)聯(lián)想功能需要大量的用戶(hù)數(shù)據(jù)才能

學(xué)習(xí)出來(lái)，怎么獲得這些用戶(hù)數(shù)據(jù)呢？

一個(gè)比較粗暴的做法是用戶(hù)輸入了什么字就把這個(gè)字全部收集到云端上，但這種做法

無(wú)疑是對(duì)用戶(hù)隱私的一種破壞。由于谷歌崇尚不作整，怎樣在不收集用戶(hù)輸入文字的

前提下，從而預(yù)測(cè)出用戶(hù)接下來(lái)需要輸入的文字？因此，產(chǎn)生了聯(lián)邦學(xué)習(xí)。

2.聯(lián)邦學(xué)習(xí)用于多移動(dòng)端分布式建模

DATAFUNCON冬嗅賽

2020大USAl的■新授木實(shí)駿

?聯(lián)邦學(xué)習(xí)用于多移動(dòng)終端分布式建模

?設(shè)計(jì)優(yōu)點(diǎn)：設(shè)備只上傳傳輸梯度VW,并不直接上傳本喃入歷史

聯(lián)邦學(xué)習(xí)的設(shè)計(jì)優(yōu)點(diǎn)就是用戶(hù)數(shù)據(jù)盡量不離開(kāi)用戶(hù)自己的安卓設(shè)備，用戶(hù)盡量在本地

完成一部分的訓(xùn)練，然后把訓(xùn)練的梯度傳到谷歌的云端，這樣谷歌只看見(jiàn)一個(gè)梯度，

它并沒(méi)有獲得這個(gè)用戶(hù)的設(shè)備以前的聊天內(nèi)容，這樣在設(shè)計(jì)上有一種privacyby

design的設(shè)計(jì)優(yōu)點(diǎn)。有很多這樣的安卓設(shè)備，比如：ParameterServeri殳備是谷歌的

云端服務(wù)器，它開(kāi)始會(huì)有一個(gè)全局的初始化模型，云端服務(wù)器會(huì)把模型推到各個(gè)設(shè)備

_L,然后各個(gè)設(shè)備基于本地的數(shù)據(jù)來(lái)優(yōu)化模型，得到一個(gè)更新的梯度，把這個(gè)更新的

梯度發(fā)給服務(wù)器，服務(wù)器收到這么多梯度之后，會(huì)更新全局模型，然后發(fā)到這些設(shè)備

上,這些設(shè)備又迭代，直到這個(gè)模型在某種程度上收斂為止，這就是聯(lián)邦學(xué)習(xí)最開(kāi)始

的一個(gè)雛形。

3.國(guó)內(nèi)聯(lián)邦學(xué)習(xí)與谷歌聯(lián)邦學(xué)習(xí)的區(qū)別

區(qū)別一：

信阿里登全

DATAFUNCONAUBMASKUITY

2020大e第Al的E斫投木買(mǎi)線(xiàn)

?2018年國(guó)內(nèi)開(kāi)始引入Federatedlearning概念，主要區(qū)別1:

國(guó)內(nèi)主要是crosssiloFL:

少量（如2個(gè)）機(jī)構(gòu)之間的合作

大概在2018年左右，國(guó)內(nèi)開(kāi)始引入聯(lián)邦學(xué)習(xí)概念，與谷歌的聯(lián)邦學(xué)習(xí)相比有了一些

發(fā)展和改變。兩者主要的區(qū)別是谷歌的聯(lián)邦學(xué)習(xí)主要是面向海量移動(dòng)設(shè)備的數(shù)據(jù)之間的

合作，但是國(guó)內(nèi)主要是機(jī)構(gòu)之間的合作，被稱(chēng)為crosssiloFL,一般都是兩個(gè)或者三個(gè)

機(jī)構(gòu)之間的合作。但是，目前的應(yīng)用主要以信貸或者廣告為主，例如：兩個(gè)或多個(gè)機(jī)

構(gòu)一起判斷用戶(hù)的信用，從而決定要不要借錢(qián)給他，或者要不要給他推一些廣告。這種

情況下參與方的數(shù)目實(shí)際上跟Google的聯(lián)邦學(xué)習(xí)相比是有很大的降低的。

區(qū)別二：

京阿里安全

DATAFUNCONAUBABA5KUVTY

2020XBBAi的■際績(jī)木實(shí)然

?2018年國(guó)內(nèi)開(kāi)始引入Federatedlearning概念，主要區(qū)別2:

GoogleFL:主要面向國(guó)內(nèi)FL:主要面向

數(shù)據(jù)的橫向分割數(shù)據(jù)的縱向分割

Google有很多的設(shè)備，每個(gè)設(shè)備上都有自洽的一些樣本，也就是說(shuō)數(shù)據(jù)在多個(gè)參與

方之間，它是橫向分割的，比如說(shuō)這個(gè)綠色的在一個(gè)設(shè)備上，這個(gè)白色的在另一個(gè)設(shè)

備上就是橫向的分割，每個(gè)都有一個(gè)完整的樣本。

但是國(guó)內(nèi)經(jīng)常使用的聯(lián)邦學(xué)習(xí)，主要是面向數(shù)據(jù)的縱向分割的。以信貸為例，其通常

都是針對(duì)一個(gè)人的不同特征并把它們組合起來(lái)做聯(lián)邦學(xué)習(xí)。比如說(shuō)特征1與特征2在

一個(gè)機(jī)構(gòu)，特征3與特征4以及l(fā)abel是在另外一個(gè)機(jī)構(gòu)，也就是說(shuō)它主要是面向數(shù)

據(jù)的縱向分割。當(dāng)然橫向分割這種應(yīng)用國(guó)內(nèi)同樣存在，但是用的比較多的或者說(shuō)比較

賺錢(qián)的，還是在這種縱向的分割法上。

聯(lián)邦學(xué)習(xí)面臨的安全挑戰(zhàn)

谷歌原版的聯(lián)邦學(xué)習(xí)有什么樣的安全挑戰(zhàn)？而在國(guó)內(nèi)，會(huì)面臨什么樣的新的安全挑戰(zhàn)?

相關(guān)的，不能說(shuō)有梯度就算不出原數(shù)據(jù)了，那多大程度上相關(guān)呢？其實(shí)算出來(lái)是有一

定的難度，但是有一些學(xué)者也能算出來(lái)，比如說(shuō)假設(shè)我們訓(xùn)練的模型是一個(gè)簡(jiǎn)單模型，

比如邏輯回歸，我們有了一堆梯度跟原始數(shù)據(jù)的這種關(guān)系，可以通過(guò)解方程組把這個(gè)

未知數(shù)解出來(lái)的，這是我們?cè)贜IPS聯(lián)邦學(xué)習(xí)workshop上的一個(gè)工作。如果這個(gè)模型

比較復(fù)雜，解方程組算就變得不現(xiàn)實(shí)了。這時(shí)有一些其他的方法，比如我們用

machinelearning的優(yōu)化方法來(lái)反向的優(yōu)化求得一個(gè)近似的解，可能求不到精確的結(jié)

果，但可以取到一個(gè)大致差不多的結(jié)果，這里有一個(gè)去年的NIPS的文章，它可以反向

的從梯度求出人臉，然后這個(gè)

人臉可能只有若干個(gè)像素的區(qū)別。所以我們看到如果不保護(hù)這個(gè)梯度的話(huà)，本質(zhì)上還

是能推出原始數(shù)據(jù)的。

谷歌的解決方法：

?加差分隱私

阿里安全

DATAFUNCONAUBAeAUUWTY

2020ACBAl的齡斷授術(shù)其歧

?如何防止從梯度反推原始數(shù)據(jù)

Google應(yīng)對(duì)的方法，主要通過(guò)加差分隱私，也就是說(shuō)client上傳到云端的梯度，

它不直接上傳，而是加一個(gè)noise，但是準(zhǔn)確率會(huì)下降。準(zhǔn)確率的下降，對(duì)于

Google輸入法somehow是可以接受的，因?yàn)檩斎敕ǖ腡op3順序換了一下，

或者推薦的東西錯(cuò)了一點(diǎn)，對(duì)于用戶(hù)體驗(yàn)可能差別不大，但是對(duì)于我們這種用在廣

告或者信貸場(chǎng)景下，準(zhǔn)確率差1%就可能差很多很多錢(qián)，所以對(duì)我們來(lái)說(shuō)加差分隱

私不是一種能夠接受的方案。

②secureaggregation

阿里登全

DATAFUNCONAUMASKUMTV

2020大ft事AI第*斷技術(shù)買(mǎi)我

?如何防止從梯度反推原始數(shù)據(jù)

?方法2:SecureAggregation

?Server只能看到聚合之后的梯度，無(wú)法了解具體某個(gè)client的梯度

。但是Secureaggregation只適用于Client數(shù)目較多的場(chǎng)景

DATAFUNCONw阿里安全

2020ABKAl的*際技術(shù)實(shí)R

?Secureaggregation的局限性

?如果參與方過(guò)少（例如2個(gè)）,Secureaggregation并不能保護(hù)梯度

?Client1拿到I侖的W,減去自己的梯度就可以推出Client2的梯度了

Google還有一種方案叫做secureaggregation,也就是說(shuō)要通過(guò)secure的方法把

這些多梯度聚合在一起，最后效果就是Server只看到了n個(gè)梯度聚合在一起的結(jié)果。

但是，不知道某個(gè)具體的client梯度是多少的，從而導(dǎo)致了Server要攻擊某個(gè)client

的概率非常的低，但是我們觀(guān)察到secureaggregation只適用于

client數(shù)目比較多的情況。我們可以假設(shè)只有兩個(gè)client,那么這個(gè)aggregate的結(jié)

果就是兩個(gè)梯度的和，通過(guò)第一個(gè)client可以推出第二個(gè)人的梯度，所以參與方至少

要三個(gè)人以上，而且這些參與方之間還不能夠合謀，所以說(shuō)這是secureaggregation

的局限性。

2.聯(lián)邦學(xué)習(xí)應(yīng)用面臨的新安全挑戰(zhàn)

講解完橫向聯(lián)邦學(xué)習(xí)的問(wèn)題之后，接下來(lái)了解下國(guó)內(nèi)引入新的聯(lián)邦學(xué)習(xí)應(yīng)用后，會(huì)面

臨什么樣的新的安全挑戰(zhàn)。

①參與方過(guò)少帶來(lái)的問(wèn)題

DATAFUNCON等喔森

2020XBBAl的■肝授木實(shí)峻

?參與方過(guò)少(例如兩方合作)帶來(lái)的問(wèn)題-續(xù)

?半同態(tài)加密保護(hù)參數(shù)：只能實(shí)現(xiàn)占保護(hù)

例：Alice擁有解電能力

**?*,*5*r?^T**Z*VX

______Encrypt(VW)

一_____一夢(mèng)―IBob

'(.^nc?ypnw)〔J

^/Alice的參數(shù)對(duì)Bob?？?/p>

。但Bob的參數(shù)無(wú)法對(duì)Alic嘴密

我們經(jīng)常遇到crosssiloFL參與方很多情況下都是兩個(gè)，由于參與方過(guò)少會(huì)引來(lái)新的

安全問(wèn)題。

我們傳的梯度是可以用半同態(tài)對(duì)它進(jìn)行加密的，例如：Alice把它的梯度用半同態(tài)加密，

然后傳給Bob,這樣是沒(méi)問(wèn)題的。Alice的參數(shù)確實(shí)是對(duì)Bob保密的，但是Bob在

這個(gè)加密的數(shù)據(jù)上運(yùn)算完之后他是需要傳回給Alice,Alice最終需要解密，或者說(shuō)每

一個(gè)round都需要解密,每一個(gè)round中Bob的參數(shù)實(shí)際上是被Alice知道的。因

為參與方只有兩個(gè)，Alice得到兩個(gè)人的計(jì)算結(jié)果，她肯定是可以從這中間推斷出

Bob的信息的。也就是說(shuō)，在這種同態(tài)加密保護(hù)梯度中，只有一方是受益的，另一方

他其實(shí)沒(méi)有受益，跟普通的聯(lián)邦學(xué)習(xí)是一樣的。就是說(shuō)半同態(tài)加密參數(shù)只能實(shí)現(xiàn)單向

的防護(hù)。

②縱向FL帶來(lái)的問(wèn)題

?怎樣對(duì)齊樣本？

阿里安全

DATAFUNCONAUBABA5KURTY

2020XBKAI的!B所授木買(mǎi)H

?縱向FL帶來(lái)的問(wèn)題-1

?為了實(shí)現(xiàn)縱向FL,需要首先按id對(duì)齊

?對(duì)齊過(guò)程是否符合啟私政策？

?即使用PSI（私求交）技術(shù)，也只能保護(hù)”不在交集

內(nèi)的用戶(hù)身份.，但是在交集內(nèi)的用戶(hù)身份■然港■

?例：商家A知道了“用戶(hù)1也在商家B那注冊(cè)了”

?用戶(hù)1未必同It這個(gè)信息被A知曉

商家A持有商家B持有

縱向的聯(lián)邦學(xué)習(xí)又帶來(lái)了一個(gè)新的問(wèn)題一怎么對(duì)齊樣本？例如：不安全的方法跟安

全的方法，無(wú)論怎么對(duì)齊，其都是要按照主鍵對(duì)齊的。在對(duì)齊之后，不可避免的泄露

了一個(gè)信息，對(duì)齊的用戶(hù)都是誰(shuí)？可能沒(méi)對(duì)齊的用戶(hù)呢？我們是可以用

PSI這種方法來(lái)保護(hù)它的。一旦建模，就不可避免的要把這些數(shù)據(jù)提取出來(lái)，也就是

說(shuō)只要在交集里面的那些用戶(hù)，就會(huì)不可避免的泄露了，我們可以再往里面加入假數(shù)據(jù)

等等，但畢竟它在里面就是在里面了。比如說(shuō)A公亙跟B公司合作，他們之間想進(jìn)行

一個(gè)聚合，可能A公司的用戶(hù)并不想把我是A的注卅用戶(hù)這個(gè)信息告訴B,也就是說(shuō)

對(duì)齊這個(gè)東西它的somehow是在一個(gè)灰色地帶，所以嚴(yán)格來(lái)說(shuō)如果要對(duì)齊的話(huà),應(yīng)

該用戶(hù)顯式的點(diǎn)擊同意，我同意A把我的信息授權(quán)給B,所以縱向的樣本對(duì)齊問(wèn)即是

一個(gè)老大難的問(wèn)題，雖然現(xiàn)在可能大家都在做，但如果監(jiān)管?chē)?yán)格了，這個(gè)問(wèn)題，我們需

要一起來(lái)想怎么處理。

?無(wú)標(biāo)簽方

信阿里登全

DATAFUNCONMJBABAStaWTY

2020X?*AI的第斷投術(shù)獎(jiǎng)H

?縱向FL帶來(lái)的問(wèn)題-2

?縱向F。、然存在無(wú)標(biāo)簽方，而無(wú)標(biāo)簽方難以進(jìn)

行特征工程

?如何讓無(wú)標(biāo)簽方進(jìn)行特征工程又能保護(hù)數(shù)據(jù)除

?已經(jīng)脫離聯(lián)邦學(xué)習(xí)的落瞞

?需要定制化的安全解決方案

.■

商家A持有商家曜有

沒(méi)有標(biāo)簽，怎

么做特征工程?

縱向的聯(lián)邦學(xué)習(xí)肯定有一個(gè)人是無(wú)標(biāo)簽方，無(wú)標(biāo)簽方他可能需要做特征工程，他不能

直接把這個(gè)特征直接傳給別人或者直接進(jìn)行聯(lián)邦學(xué)習(xí)，那么有些特征工程是需要用到

這個(gè)標(biāo)簽的，所以它怎么用呢？這也是一個(gè)難題。

實(shí)際上這個(gè)特征工程本身就是一個(gè)特定的算法，跟Google的橫向聯(lián)邦學(xué)習(xí)已經(jīng)沒(méi)有

關(guān)系了，我們需要定制一種方案，比如說(shuō)我們就是要篝那個(gè)WOE。那我們就要定制一

個(gè)方案來(lái)安全地算這個(gè)WOE,這也是第二個(gè)難題，乜就是說(shuō)縱向的聯(lián)邦學(xué)習(xí)帶來(lái)了很

多新的我們以前傳統(tǒng)的聯(lián)邦學(xué)習(xí)沒(méi)有遇到過(guò)的問(wèn)題。

阿里安全

DATAFUNCONAUBAAASCdMTY

2020xa?Al的■環(huán)搔術(shù)女駿

?舉例：計(jì)算WOE（WeightofEvidence）

?WOE定義：某個(gè)特征箱體內(nèi)的In（反例的占比/正例總占比）

?若擁有"年齡"一方不麗標(biāo)簽（樣本建正還是負(fù)），則難以正艷計(jì)算WOE

yrsr翳…

1005010%10%0

50%20%0.92

30015030%30%0

10020010%40%-1.39

1000500

上圖是WOE的例子，WOE它是要計(jì)算這個(gè)特征的重要性，比如說(shuō)我想把年齡分成不

同段,比如0~18歲等這樣幾個(gè)段，那么每個(gè)段段內(nèi)都存在正樣本數(shù)與負(fù)樣本數(shù)。那

么,這個(gè)WOE就是把反例總占比比上正例總占比，然后求一個(gè)log,這個(gè)數(shù)越大,

說(shuō)明這個(gè)特征這個(gè)分段對(duì)這個(gè)模型越重要，也就是它的判別度越高，我們最后就可以

給它加一些分，這個(gè)分總可能比較好。但是，對(duì)綠色的參與方來(lái)說(shuō)，他是不知道那個(gè)

標(biāo)簽的（假設(shè)標(biāo)簽是在另一方），那他怎么知道這正樣本數(shù)跟負(fù)樣本數(shù)呢，所以他是

沒(méi)辦法知道的。

所以，怎么計(jì)算WOE也是一個(gè)難題，這也是縱向聯(lián)盟帶來(lái)的新的難題。

安全多方計(jì)算解決方案

1.安全多方計(jì)算

DATAFUNCON冬饕蠡

2020XB*AI的■管技術(shù)實(shí)續(xù)

?安全多方計(jì)算(SecureMultipartyComputation,MPC)

?可證明安全

?嚴(yán)格的安全定義：除最終的訓(xùn)練結(jié)鼠之外，不泄露任何數(shù)據(jù)內(nèi)容

?Semi-Honestmodel

?Maliciousmodel

除最終的計(jì)算結(jié)果之外，

一切中間結(jié)果都是加空狀

態(tài)，永不解密

什么是安全多方計(jì)算？怎么用它來(lái)解決這些難題？

安全多方計(jì)算是一個(gè)密碼學(xué)的定義，它叫securemultipartycomputationMPC,它

是可證明安全的，也就是說(shuō)它有一個(gè)嚴(yán)格的安全定義，雙方想計(jì)算什么東西,除了這個(gè)

計(jì)算的結(jié)果之外,中間的任＜可步驟都是不泄露任何數(shù)據(jù)內(nèi)容的。

比如說(shuō)a和b想一起算個(gè)f(a,b),雙方就真的就只知道f(a,b),其他?？蓶|西，都是

零泄露的。當(dāng)然它里面有細(xì)分，比如說(shuō)有semihonestmodel跟maliciousmodel,

這個(gè)就是具體技術(shù)問(wèn)題，就不細(xì)講了。

2.舉例子說(shuō)明安全多方計(jì)算到底怎么做？

京阿里登全

DATAFUNCONALBAAASeCURFY

2020XBSAl第■新搔水玄it

?例：Alice和Bob分別擁有數(shù)據(jù)a,b,希望聯(lián)合計(jì)算機(jī)器學(xué)習(xí)模

比如說(shuō)Alice跟Bob，他們分別擁有數(shù)據(jù)a和b,他們想進(jìn)行一個(gè)聯(lián)合的機(jī)器學(xué)習(xí)

這里我們不管它是縱向橫向總之它就有一堆數(shù)據(jù)它有一堆數(shù)據(jù)就對(duì)了。

f(a,b)0a,b

安全多方計(jì)算MPC有很多種，我們這里是用基于秘密共享的例子，就是說(shuō)用秘密共

享的MPC方法怎么做這個(gè)建模。

阿里至全

DATAFUNCONAUBABA5KUKTY

2020大的密Ai的?斯統(tǒng)本實(shí)展

?Step1:隨機(jī)拆分

阿里安全

DATAFUNCONAUBAAASKUTTY

2020XttfiAi的■浙”術(shù)京毆J」：，

?Step2:交換分量

-得到秘密分享狀態(tài)的a和b/

?單方視角下都是亂碼，只有雙方同意的情況下才能復(fù)原

a-^b-r7

阿里安全

DATAFUNCONALJBAAAseawn

2020XBSAl的?徐矮木支if

?Step2:秘密分享狀態(tài)下進(jìn)行計(jì)算

?加法：即］B各自本地將"密文"相加即可得到a+b的"加空"版本

?其他操作：乘法、痛、除法…

?構(gòu)成整個(gè)機(jī)器學(xué)習(xí)算法

首先，a跟b會(huì)把他自己的這個(gè)數(shù)據(jù)進(jìn)行一個(gè)隨機(jī)拆分，比如a有一堆數(shù)據(jù)，生成了

一堆隨機(jī)數(shù)，a減去這個(gè)隨機(jī)數(shù)，這個(gè)r是他本地生成的隨機(jī)數(shù)，同理，Bob他也會(huì)本

地生成隨機(jī)數(shù)r',那這個(gè)r跟r'先不告訴對(duì)方,另■就把這個(gè)數(shù)據(jù)分成了兩份，任意

一份單拎出來(lái)看好像都是個(gè)nonsense的garbage,因?yàn)樗请S機(jī)的嘛，它減去隨機(jī)

的也是個(gè)隨機(jī)的，然后，他們兩個(gè)人可以交換一下這個(gè)分量，比如說(shuō)Bob把這個(gè)b-r,

發(fā)給對(duì)方,Alice把這個(gè)r發(fā)給Bob。之后，我們稱(chēng)這個(gè)數(shù)據(jù)集現(xiàn)在處于一個(gè)秘密共享

的狀態(tài)，也就是說(shuō)單方視角上他們看到的都是亂碼,只有雙方同意的情況下，把這兩

個(gè)數(shù)據(jù)拼到一起，他才能知道最終的數(shù)據(jù)是什么。那么這個(gè)秘密共享狀態(tài)下的數(shù)據(jù)集，

它的優(yōu)點(diǎn)就是它還是能夠計(jì)算的。

我們?cè)趺此鉧加b?其就是本地把這兩個(gè)分量相加。比如Alice算出了a加b減去這

兩個(gè)東西，Bob就把這兩個(gè)東西加起來(lái),可以看到這兩個(gè)東西如果拼在一起的話(huà)，它是

可以得到a加b的。同理，我們也可以在秘密共享的狀態(tài)下做a乘b、

a除b,agreaterthanb等等，協(xié)議會(huì)復(fù)雜一點(diǎn)，但是都是能做的。然后這些操作

它構(gòu)成了整個(gè)機(jī)器學(xué)習(xí)的算法，比如說(shuō)我可以在上面算一個(gè)f(a,b),然后得到f；a,b)

的秘密共享狀態(tài)，我們兩個(gè)人再商量一下，把這個(gè)拼起來(lái)，發(fā)現(xiàn)了f(a,b)是多少，同

時(shí)中間的任何中間結(jié)果都是秘密共享狀態(tài)的,都是零泄漏的。

3.WOE為例子，我們?cè)趺磥?lái)無(wú)泄漏的計(jì)算這個(gè)WOE呢？

?對(duì)比：使用半同態(tài)計(jì)算WOE的方案會(huì)泄露每個(gè)分箱的樣本數(shù)目

因?yàn)閃OE就是一個(gè)正負(fù)樣本的比值，正負(fù)樣本我不知道，但是知道標(biāo)簽的那一方可

以發(fā)一個(gè)秘密共享的向量過(guò)來(lái)。比如，正樣本的就是1,負(fù)樣本的就是0，他把這個(gè)

向量以秘密共享的方式發(fā)過(guò)來(lái),我自己的這個(gè)向量跟這個(gè)秘密共享的向量進(jìn)行一個(gè)乘

法，得到一個(gè)秘密共享的這個(gè)結(jié)果，這個(gè)秘密共享的結(jié)果就是這個(gè)正樣本的數(shù)。但是，

它是秘密共享狀態(tài)的，所以我也不知道它是多少。之后，我可以進(jìn)行一個(gè)秘密共享的

除法，可以再次進(jìn)行一個(gè)秘密共享的log。最后，如果我

要是必要的話(huà)，我就把這個(gè)數(shù)據(jù)復(fù)原出來(lái)，比如算出WOE是0.9,然后這個(gè)過(guò)程中任

何數(shù)據(jù)都是沒(méi)有泄露的，除了你要計(jì)算的那個(gè)WOE最終的結(jié)果。如果我們不用安全

多方計(jì)算，用其他的自設(shè)方法來(lái)算WOE呢？比如說(shuō)我們用半同態(tài)來(lái)算這個(gè)WOE,

那邊把加密的0跟1發(fā)過(guò)來(lái)，這樣會(huì)泄露我每個(gè)分箱的樣本數(shù)目，比如我0~18歲

有150個(gè)人，這個(gè)數(shù)據(jù)有樣木有標(biāo)簽的一方，不可避免的被他知道了，這個(gè)泄漏雖然

少，但是中間肯定是有泄漏的。

對(duì)于這兩個(gè)方法，因?yàn)槲覀儼踩喾接?jì)算的除法跟向量?jī)?nèi)積還是比較高效的，所以這

個(gè)方法還是比較好的。

4.安全多方計(jì)算不需要"數(shù)據(jù)對(duì)齊”就可以建模

阿里安全

DATAFUNCONAUBAaASKURTY

2020大It籌Al的金所技術(shù)買(mǎi)展

?安全多方計(jì)算不需要"對(duì)齊數(shù)據(jù)"就可以建模

?秘密共事?tīng)顟B(tài)下進(jìn)行陶，各機(jī)構(gòu)不泄■自己的名戶(hù)信息

?交集也是秘密共享伏態(tài)，不泡儂集內(nèi)的用戶(hù)身份

?GDPR第5條（b）’

?對(duì)個(gè)人數(shù)據(jù)的處理不應(yīng)當(dāng)違反?初收集該數(shù)據(jù)時(shí)的初始目的（對(duì)齊敢艷過(guò)程是存在風(fēng)險(xiǎn)的）

?若為統(tǒng)計(jì)用途，則可以和出該初始日的（可以建便）

MPCFMK,

遒*?-皿上的加1^2癡I3癡14標(biāo)簽

Uie<2XXyyyyyy

Htpvy/en^neerin*JbiaxTVopenMjunx/prmt^fnatdvng/

然后來(lái)到比較關(guān)鍵的數(shù)據(jù)對(duì)齊方面，雖然有PSI的數(shù)據(jù)對(duì)齊，但交集里面的用戶(hù)身份

是不可避免的泄露，不過(guò)我們有方法可以在秘密共享的狀態(tài)下進(jìn)行匹配。

比如說(shuō)商家A持有用戶(hù)1與用戶(hù)2,商家B它持有用戶(hù)2與用戶(hù)3,然后他們可以把

他們所有的數(shù)據(jù)都以秘點(diǎn)共享的形式分成兩份。大家有4個(gè)秘密共享的數(shù)據(jù)，誰(shuí)也不

知道哪個(gè)是誰(shuí)，然后在這個(gè)秘密共享狀態(tài)下可以進(jìn)行匹配，得到一個(gè)秘密共享的結(jié)果。

從4行得到了1行，但是大家只看見(jiàn)了4行變成1行,誰(shuí)也不知道這一行是user2,

最后得到了秘密共亨狀態(tài)下的user2,然后秘密共亨狀態(tài)的數(shù)據(jù)是可以進(jìn)行MPC建模

的。這樣完美的保護(hù)了用戶(hù)的隱私，誰(shuí)也不知道這是user2,user2呢也沒(méi)有讓任何人

知道她是A的客戶(hù)還是B的客戶(hù)，那么這樣做有什么好處呢？

我們可以下結(jié)論說(shuō)我們這樣做是合規(guī)的。例如：我們以GDPR為例子，其第5條規(guī)定:

對(duì)個(gè)人數(shù)據(jù)的處理不應(yīng)當(dāng)違反最初收集該數(shù)據(jù)時(shí)的初始目的，意思就是：用戶(hù)讓你干

什么你就可以干什么，用戶(hù)沒(méi)答應(yīng)干什么你就不能干什么。嚴(yán)格來(lái)說(shuō)對(duì)齊數(shù)據(jù)的處理

這個(gè)過(guò)程，用戶(hù)是沒(méi)有同意商家A把我是你的注冊(cè)用戶(hù)這個(gè)信息告訴商家B的，所以,

這個(gè)過(guò)程somehow是存在風(fēng)險(xiǎn)的。但是GDPR也規(guī)定，統(tǒng)計(jì)用途是可以超出這個(gè)初

始目的，很明顯建模是一個(gè)統(tǒng)計(jì)性的。比如，他在這個(gè)交集上建出一個(gè)模型，這個(gè)肯

定是一個(gè)統(tǒng)計(jì)性的模型，也就是我們可以說(shuō)秘密共享狀態(tài)下的數(shù)據(jù)對(duì)齊是合規(guī)的,這

是安全多方計(jì)算的一個(gè)優(yōu)勢(shì)。

具體的算法比較密碼學(xué)，大家可以參考一下Facebook最近發(fā)的一個(gè)blog,上面的方

法就是在秘密共享狀態(tài)下進(jìn)行數(shù)據(jù)對(duì)齊，這是安全多方計(jì)算解決的第二個(gè)數(shù)據(jù)挑戰(zhàn)一

一怎么對(duì)齊數(shù)據(jù)。

5.安全多方學(xué)習(xí)缺點(diǎn)

DATAFUNCON

2020XB*AI的?際發(fā)術(shù)實(shí)21

在LR等模型方面，安全多方計(jì)算的性能完全可以滿(mǎn)足業(yè)務(wù)需求

?20000樣本,lomfif,LR建模耗時(shí)：秒級(jí)~分鐘級(jí)

=J.oma。4

NIGMS?ftdPUtONAwari1oc

ChengHong

ZhicongHuangFupingQu

Wcn-jieLu

AlibabuGemMLoh.AlibahfGrwtp

安全多方計(jì)算有什么缺點(diǎn)呢？它的缺點(diǎn)就是它性能肯定是低于聯(lián)邦學(xué)習(xí)的，為什么這

么說(shuō)？

因?yàn)槁?lián)邦學(xué)習(xí)中每個(gè)round總有一部分是可以本地算的，不需要網(wǎng)絡(luò)，然后算完之后

再交互一次。但是安全多方計(jì)算，他每一個(gè)操作都需要交互，例如：每一個(gè)乘法,每一

個(gè)比較都需要雙方的交互，也就是說(shuō)它的性能可能是比較弱的。但是，目前在logistic

regression這種簡(jiǎn)單模型下，它的性能經(jīng)過(guò)我們的優(yōu)化己經(jīng)是完全可接受了。比如說(shuō)

萬(wàn)級(jí)樣本百級(jí)特征可以10秒鐘跑完，我們?nèi)ツ陞⒓恿艘粋€(gè)iDASH的安全多方計(jì)算比

賽，他的題目是：有三個(gè)醫(yī)院，每個(gè)醫(yī)院是有一些病人的數(shù)據(jù)，他們規(guī)定這個(gè)病人的數(shù)

據(jù)是嚴(yán)格不能夠傳給別的醫(yī)院的，他們?nèi)齻€(gè)醫(yī)院想合作在這個(gè)數(shù)據(jù)上進(jìn)行一個(gè)建模，也

就是說(shuō)判斷某些基因的人可能/不可能得某些病，這樣數(shù)據(jù)越多建模是越準(zhǔn)確的。但是，

由于合規(guī)問(wèn)題，醫(yī)院之間不能互傳數(shù)據(jù)，所以比賽要求要使用安全多方計(jì)算來(lái)實(shí)現(xiàn)醫(yī)院

之間的聯(lián)合建模。

我們是取得了這個(gè)比賽的冠軍，我們是唯——個(gè)準(zhǔn)確率超過(guò)70%的隊(duì)伍，我們的

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2024聯(lián)邦學(xué)習(xí)與安全多方計(jì)算

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

2024聯(lián)邦學(xué)習(xí)與安全多方計(jì)算

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔