小象-機(jī)器學(xué)習(xí)-14.em算法_第1頁
小象-機(jī)器學(xué)習(xí)-14.em算法_第2頁
小象-機(jī)器學(xué)習(xí)-14.em算法_第3頁
小象-機(jī)器學(xué)習(xí)-14.em算法_第4頁
小象-機(jī)器學(xué)習(xí)-14.em算法_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余53頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

本課件包括演示文稿、示例、代碼、題庫、和在課程范圍外向任何第散播。任何其他人或機(jī)構(gòu)不得盜版、、仿造其中的創(chuàng)意及內(nèi)容,我們 課 咨

主要內(nèi)通過實(shí)例直觀求 混合模型適合快速掌握GMM,及編程實(shí)通過極大似然估計(jì)詳細(xì)推導(dǎo)EM算適合理論層面的深入理用坐標(biāo)上升理解EM的過推導(dǎo)GMM的參數(shù)φ、μ、復(fù)習(xí)多 模復(fù) 日乘子

EM

復(fù)習(xí):Jensen不等式:若f是凸函基本Jensen不等

:K-means算假定輸入樣本為S=x1,x2,...,xm,則算法步

j更新簇中心:j

1

1|cj

中止條件:迭代次數(shù)/簇中心變化率/最小平方誤差

K-means

極大似然估10次拋硬幣的結(jié)果是:正正反正正正反反正 pp1pppp1p1 p71最優(yōu)解是

二項(xiàng)分布的極大似然估N-n次朝下hpnN 1

pn

進(jìn)一

按照MLE的過程分 f

nLxn

xi

化簡對(duì)數(shù)似然函xilxlog e 2 xilog e 2

2

x2i i

參數(shù)估計(jì)的結(jié)

lx

nlog221xi i

n

i2

xi i

符合直觀想1nini2

xi i 該結(jié)論將作為下面分析的基

無監(jiān)督分類:聚類

從直觀理解猜測GMM的參數(shù)估 分布的概率為π1π2...πK,第i個(gè)

建立目標(biāo)函

Nx|,

目標(biāo)函由于在對(duì)數(shù)函數(shù)里面又有加和,我們沒法直

第一步:估算數(shù)據(jù)來自哪個(gè)組估計(jì)數(shù)據(jù)由每個(gè)組份生成的概率:對(duì)于每個(gè)樣本xi,i,k

kNxi|k,kKKj

jNxi

j,j上式中的μ和Σ也是待估計(jì)的值,因此采樣迭代法:需要先驗(yàn)給定μ和Σγ(i,k亦可看成組份k在生成數(shù)據(jù)xi

第二步:估計(jì)每個(gè)組份的做生成了ikxi|i1,2,!N這些點(diǎn)。組份k一個(gè)標(biāo)準(zhǔn) 分布,利用上面的結(jié)論NN

i,k

N 1 N

Nk

i,k

Nni Nni

EM算法的提

通過極大似然估計(jì)建立目標(biāo)函

問題的提

Jensen不等令Qi是z的某一個(gè)分布,Qi≥0,有

尋找盡量緊的下

進(jìn)一步分

EM算法整體框

坐標(biāo)上

從理論公式推導(dǎo) 分布的概率為φ1φ2...φK,第i個(gè)

E-

M-將多項(xiàng)分布 分布的參數(shù)帶入

對(duì)均值求偏

分布的均

分布的方差:求偏導(dǎo),等于

多項(xiàng)分布的參

日乘子 φi一定非負(fù),所以,不用考

求偏導(dǎo),等于

總對(duì)于所有的數(shù)據(jù)點(diǎn),可以看作組份k生成了這些點(diǎn)。組份k是一個(gè)標(biāo)準(zhǔn)的分布,利用上面的結(jié)論:i,kxi|i1,2,!N1

ii

Nk N 1N

i,kxx

1

NN

EM

GMM與圖

pLSA模基于概率統(tǒng)計(jì)的pLSA模型LatentSemantic

pLSA模D代表文檔,Z代 (隱含類別),W代表單詞 zk的出現(xiàn)概率 zk出現(xiàn)單詞wj的概率每個(gè) 整個(gè)文檔的生成過程是這樣

pLSA模 Pd,wPw|dPd Pw|d k

Pw|zPz|d 而Pw|z,Pz|d對(duì)應(yīng)了兩組多項(xiàng)分布,而

NMNM

j

Pd,wPw|dPd

ndi,

|

Pwj|

k

wj|

Pzk| nd,w

Pw|zPz|dPd

nd,w Pw|zPz|dPd

目標(biāo)函數(shù)分觀察數(shù)據(jù)為(di,wj)對(duì) zk是隱含變量目標(biāo)函

nd,w

Pw|zPz|dPdl

未知變量/自變量Pwj|zk,Pz|d 使用逐 近的辦法的似然函數(shù)期望的極大值,得到最優(yōu)解P(zk|di)、P(wj|zk,即:EM

求隱含變 zk的后驗(yàn)概假定P(zk|di)、P(wj|zk)已知,求隱含變量zk Pw|zPz|d Pz|d, K Pz|dKPwj| l在(di,wj,zk)已知的前提下,求關(guān)于參數(shù)P(zk|di)、P(wj|zk)的似然函數(shù)期望的極大值,得到最優(yōu)解P(zk|di)、P(wj|zk,帶入上一步,從

分析似然函數(shù)期在(di,wj,zk)已知的前提下,求關(guān)于參數(shù)P(zk|di)、P(wj|zk)的似然函數(shù)期望的極大值,得到最優(yōu)解P(zk|di)、P(wj|zk,帶入上一步,從

nd,wlogPw|d

i

nd,wKPz|d,wlogPw,z|d

j k1

nd,w

Pz|d,wlogPw|zPz|d k

完成目標(biāo)函數(shù)的建關(guān)于參數(shù)P(zk|di)、P(wj|zk的函數(shù)E,并且, End,w k

Pz|d,wlogPw|zPz|d k PwjkK

|z|di

目標(biāo)函數(shù)的求

KPz|d,wlogPw|zPz|dLagndi,wj k

|z Pz|di

k j

k

ndi,wjPzk|di,wj

令 Pw|z

Pw|z 令ndi,wjPzk|di,wj 令

|di

Pzk|di

分析第一個(gè)等

ndi,wjPzk|di,wj 令iPw|z 令i

kndi,wjPzk|di,wjkPwj|zkiMMm1iMMm1i

|d,w |d,w

|zkk|zkk nd,wPz|d,w m1i

nd,wPz|d,w nd,wPz|d,wPw|z m1

ndi,wjPzk|di,wjPwj|zk Mnd,wPz|d,wM m1

同理分析第二個(gè)等求極值時(shí)的解——M- ndi,wjPzk|di,wj

nd,wPz|d,w nd,wPz|d

di,wjPk Pz|d,w

|d,w Pw|zPz|d 別忘了E-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論