EM算法--應(yīng)用到三個模型：高斯混合模型,混合樸素貝葉斯模型,因子分析模型

上傳人：3*** IP屬地：湖北上傳時間：2022-01-09 格式：DOCX 頁數(shù)：35 大小：396.45KB 積分：28 舉報 版權(quán)申訴

EM算法--應(yīng)用到三個模型：高斯混合模型,混合樸素貝葉斯模型,因子分析模型_第2頁

EM算法--應(yīng)用到三個模型：高斯混合模型,混合樸素貝葉斯模型,因子分析模型_第3頁

EM算法--應(yīng)用到三個模型：高斯混合模型,混合樸素貝葉斯模型,因子分析模型_第4頁

EM算法--應(yīng)用到三個模型：高斯混合模型,混合樸素貝葉斯模型,因子分析模型_第5頁

已閱讀5頁，還剩30頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、EM算法-應(yīng)用到三個模型：高斯混合模型，混合樸素貝葉斯模型，因子分析模型判別模型求的是條件概率p(y|x)，生成模型求的是聯(lián)合概率p(x,y) .即 = p(x|y) p(y) 常見的判別模型有線性回歸、對數(shù)回歸、線性判別分析、支持向量機(jī)、boosting、條件隨機(jī)場、神經(jīng)網(wǎng)絡(luò)等。常見的生產(chǎn)模型有隱馬爾科夫模型、樸素貝葉斯模型、高斯混合模型、LDA、Restricted Boltzmann Machine等。所以這里說的高斯混合模型，樸素貝葉斯模型都是求p(x,y)聯(lián)合概率的。(下面推導(dǎo)會見原因)套路小結(jié)：凡是生產(chǎn)模型，目的都是求出

2、聯(lián)合概率表達(dá)式，然后對聯(lián)合概率表達(dá)式里的各個參數(shù)再進(jìn)行估計，求出其表達(dá)式。下面的EM算法，GMM等三個模型都是做這同一件事：設(shè)法求出聯(lián)合概率，然后對出現(xiàn)的參數(shù)進(jìn)行估計。一、EM算法：作用是進(jìn)行參數(shù)估計。應(yīng)用：（因為是無監(jiān)督，所以一般應(yīng)用在聚類上，也用在HMM參數(shù)估計上）所以凡是有EM算法的，一定是無監(jiān)督學(xué)習(xí).因為EM是對參數(shù)聚集給定訓(xùn)練樣本是樣例獨(dú)立，我們想要知道每個樣例隱含的類別z，使是p(x,z)最大，（即如果將樣本x(i)看作觀察值，潛在類別z看作是隱藏變量，則x可能是類別z，那么聚類問題也就是參數(shù)估計問題，）故p(x,z)最大似然估計是：所以可

3、見用到EM算法的模型（高斯混合模型，樸素貝葉斯模型）都是求p(x,y)聯(lián)合概率，為生成模型。對上面公式，直接求一般比較困難，因為有隱藏變量z存在，但是一般確定了z后，求解就容易了。EM是一種解決存在隱含變量優(yōu)化問題的有效方法。竟然不能直接最大化()，我們可建立的下界（E步），再優(yōu)化下界（M步），見下圖第三步，取的就是下界（總式）解釋上式：對于每一個樣例 i，讓Qi表示該樣例隱含變量 z 的某種分布，Qi滿足的條件是（如果 z 是連續(xù)性的，那么Qi是概率密度函數(shù)（因子分析模型就是如此），需要將求和符號換成積分符號即：因子分析模型是如此，這個會用在EM算法的M

4、步求。比如要將班上學(xué)生聚類，假設(shè)隱藏變量z是身高，那么就是連續(xù)的高斯分布。如果按照隱藏變量是男女，那么就是伯努利分布（即兩點分布：）了。上總式第1到第2步是分子分母同乘一個數(shù)，第2到3步是：用了jasen不等式：（凸函數(shù)圖形上表示反為凹函數(shù)，記住。）如圖：。因為第2步log是凹函數(shù) ：，所以f(E(x) >= Ef(x).這樣就完成了第3步（詳情見對應(yīng)講義。）至此推導(dǎo)完上面3步公式，下面所有模型都是對上面第3步公式進(jìn)行參數(shù)估計的！下面對第三步的Q(z)進(jìn)行推導(dǎo)：（見講義）所以Q(Z)最終表示：，其中z只受參數(shù)影響

5、。所以EM算法：（承上啟下：在m步中，最終是對參數(shù)進(jìn)行估計，而這一步具體到高斯混合模型，則有三個參數(shù)：mu,phi,sigma代替，即高斯混合模型要推導(dǎo)三個參數(shù)，下面會講）至此，這就是EM算法所有推導(dǎo)，EM算法推導(dǎo)也只能推導(dǎo)這些步，具體再將這些公式推導(dǎo)下去，就要結(jié)合模型了。總結(jié)：如果將樣本看作觀察值，潛在類別看作是隱藏變量，那么聚類問題也就是參數(shù)估計問題，只不過聚類問題中參數(shù)分為隱含類別變量和其他參數(shù)。對應(yīng)到EM上，E步估計隱含變量，M步估計其他參數(shù)，交替將極值推向最大。例子：在Mitchell的Machine Learning書中也舉了一個EM應(yīng)用的例

6、子，將班上學(xué)生的身高都放在一起，要求聚成兩個類。這些身高可以看作是男生身高的高斯分布和女生身高的高斯分布組成。因此變成了如何估計每個樣例是男生還是女生，然后在確定男女生情況下，如何估計均值和方差，里面也給出了公式。二、混合高斯模型：將EM算法融到高斯混合模型，將上面EM算法的E步、M步的公式再具體推導(dǎo)下去。整個模型簡單描述為：對于每個樣例，我們先從k個類別中按多項式分布抽取一個，然后根據(jù)所對應(yīng)的 k 個多值高斯分布中的一個，生成樣例，整個過程稱作混合高斯模型。（即對樣例x，最終目的是生成樣例x。（？）即對樣例x，從k個類別抽取一個z,從根據(jù)

7、z生成x。）特別地，混合高斯模型的（1）隱含類別標(biāo)簽，被認(rèn)為滿足多項式分布，即 (這里只受參數(shù)（即phi）影響)（2）樣例被認(rèn)為滿足高斯分布，即 (所以和分別為樣例x的均值和協(xié)方差) 補(bǔ)充：服從的多項式分布概率公式為：，即類似C(n,x)*p6x*(1-p6)(n-x) 類型所以上面（1）（2）可知混合高斯模型中，這里的仍是隱含隨機(jī)變量。模型細(xì)化多了三個變量，和。(即是phi,mu,sigma). 其中j就是樣本類別中 =

8、j的比率。j是類別為 j 的樣本特征均值，j是類別為 j 的樣例的特征的協(xié)方差矩陣(j是一個矩陣！)。所以由上面（1）（2）合并得，最大似然估計p(x, z)，對數(shù)化后如下：（對比一、EM算法里的總式：，只是參數(shù)由原化成三個，和）注意第二步有兩個迭加號。第二個迭加號是z(i)=1 直到k個類別。z只有k個類別。參考一、中EM算法推導(dǎo)：所以混合高斯模型：從EM算法步驟的變

9、成：（其中M步三個參數(shù)的右邊公式在下面會進(jìn)行推導(dǎo)。這里直接先給出參數(shù)結(jié)果。） 1. E步：每個樣例i的隱含類別z(i)為j的概率可以通過條件概率計算得到。即（E）（這里貝葉斯公式，分子是z=j一種類別情況，分母是z=1kk中類別的累加）1）對上式的分子第一項：（由上面加黃色背景段文字可知）服從高斯分布：，故 = 。（其中即是）2）對(E)式分子第二項（又上面可知）服從多項式分布： &

10、#160; 所以分子直接代入即可，所以可以求得。 2.M步：先給出最終結(jié)果為: ,推導(dǎo)如下：先看EM算法的M步：（M）下面對三個參數(shù)phi,mu,sigma(，和)分別進(jìn)行求導(dǎo):（i）對i 求導(dǎo)得(固定i，i):

11、; <- 它是由（據(jù)Ng說求的過程不重要？）等于0時所得（ii）對i求導(dǎo)(固定i，i）：推導(dǎo)過程用了SVM中的拉格朗日乘子方法：因為i是隱性隨機(jī)變量z的多項式分布概率值，又有約束條件

12、又由上面（M）步公式：（why?）所以聯(lián)合上兩式，直接構(gòu)成拉格朗日乘子：，（iii）的推導(dǎo)：也類似，不過稍微復(fù)雜一些，畢竟是矩陣。結(jié)果在之前的混合高斯模型中已經(jīng)給出。

13、3.迭代：對上面E,M步進(jìn)行迭代，最后一定會收斂（證明見講義） EM算法-應(yīng)用到三個模型：高斯混合模型，混合樸素貝葉斯模型，因子分析模型判別模型求的是條件概率p(y|x)，生成模型求的是聯(lián)合概率p(x,y) .即 = p(x|y) p(y) 常見的判別模型有線性回歸、對數(shù)回歸、線性判別分析、支持向量機(jī)、boosting、條件隨機(jī)場、神經(jīng)網(wǎng)絡(luò)等。常見的生產(chǎn)模型有隱馬爾科夫模型、樸素貝葉斯模型、高斯混合模型、LDA、Restricted Boltzmann Machine等。所以這里說的高斯混合模型，樸素貝葉斯模型都是求p(x,y)聯(lián)合概

14、率的。(下面推導(dǎo)會見原因)套路小結(jié)：凡是生產(chǎn)模型，目的都是求出聯(lián)合概率表達(dá)式，然后對聯(lián)合概率表達(dá)式里的各個參數(shù)再進(jìn)行估計，求出其表達(dá)式。下面的EM算法，GMM等三個模型都是做這同一件事：設(shè)法求出聯(lián)合概率，然后對出現(xiàn)的參數(shù)進(jìn)行估計。一、EM算法：作用是進(jìn)行參數(shù)估計。應(yīng)用：（因為是無監(jiān)督，所以一般應(yīng)用在聚類上，也用在HMM參數(shù)估計上）所以凡是有EM算法的，一定是無監(jiān)督學(xué)習(xí).因為EM是對參數(shù)聚集給定訓(xùn)練樣本是樣例獨(dú)立，我們想要知道每個樣例隱含的類別z，使是p(x,z)最大，（即如果將樣本x(i)看作觀察值，潛在類別z看作是隱藏變量，則x可能是類別z

15、，那么聚類問題也就是參數(shù)估計問題，）故p(x,z)最大似然估計是：所以可見用到EM算法的模型（高斯混合模型，樸素貝葉斯模型）都是求p(x,y)聯(lián)合概率，為生成模型。對上面公式，直接求一般比較困難，因為有隱藏變量z存在，但是一般確定了z后，求解就容易了。EM是一種解決存在隱含變量優(yōu)化問題的有效方法。竟然不能直接最大化()，我們可建立的下界（E步），再優(yōu)化下界（M步），見下圖第三步，取的就是下界（總式）解釋上式：對于每一個樣例 i，讓Qi表示該樣例隱含變量 z 的某種分布，Qi滿足的條件是（如果 z 是連續(xù)性的，那么Qi是概率密度函數(shù)（因子分析模型就是如此）

16、，需要將求和符號換成積分符號即：因子分析模型是如此，這個會用在EM算法的M步求。比如要將班上學(xué)生聚類，假設(shè)隱藏變量z是身高，那么就是連續(xù)的高斯分布。如果按照隱藏變量是男女，那么就是伯努利分布（即兩點分布：）了。上總式第1到第2步是分子分母同乘一個數(shù)，第2到3步是：用了jasen不等式：（凸函數(shù)圖形上表示反為凹函數(shù)，記住。）如圖：。因為第2步log是凹函數(shù) ：，所以f(E(x) >= Ef(x).這樣就完成了第3步（詳情見對應(yīng)講義。）至此推導(dǎo)完上面3步公式，下面所有模型都是對上面第3步公式進(jìn)行參數(shù)估計的！下面對第三步的Q(z)

17、進(jìn)行推導(dǎo)：（見講義）所以Q(Z)最終表示：，其中z只受參數(shù)影響。所以EM算法：（承上啟下：在m步中，最終是對參數(shù)進(jìn)行估計，而這一步具體到高斯混合模型，則有三個參數(shù)：mu,phi,sigma代替，即高斯混合模型要推導(dǎo)三個參數(shù)，下面會講）至此，這就是EM算法所有推導(dǎo)，EM算法推導(dǎo)也只能推導(dǎo)這些步，具體再將這些公式推導(dǎo)下去，就要結(jié)合模型了。總結(jié)：如果將樣本看作觀察值，潛在類別看作是隱藏變量，那么聚類問題也就是參數(shù)估計問題，只不過聚類問題中參數(shù)分為隱含類別變量和其他參數(shù)。對應(yīng)到EM上，E步估計隱含變量，M步估計其他參數(shù)，交替將極值推向最大。例子：在M

18、itchell的Machine Learning書中也舉了一個EM應(yīng)用的例子，將班上學(xué)生的身高都放在一起，要求聚成兩個類。這些身高可以看作是男生身高的高斯分布和女生身高的高斯分布組成。因此變成了如何估計每個樣例是男生還是女生，然后在確定男女生情況下，如何估計均值和方差，里面也給出了公式。二、混合高斯模型：將EM算法融到高斯混合模型，將上面EM算法的E步、M步的公式再具體推導(dǎo)下去。整個模型簡單描述為：對于每個樣例，我們先從k個類別中按多項式分布抽取一個，然后根據(jù)所對應(yīng)的 k 個多值高斯分布中的一個，生成樣例，整個過程稱作混合高斯模型。（即對樣例

19、x，最終目的是生成樣例x。（？）即對樣例x，從k個類別抽取一個z,從根據(jù)z生成x。）特別地，混合高斯模型的（1）隱含類別標(biāo)簽，被認(rèn)為滿足多項式分布，即 (這里只受參數(shù)（即phi）影響)（2）樣例被認(rèn)為滿足高斯分布，即 (所以和分別為樣例x的均值和協(xié)方差) 補(bǔ)充：服從的多項式分布概率公式為：，即類似C(n,x)*p6x*(1-p6)(n-x) 類型所以上面（1）（2）可知混合高斯模型中，這里的仍是隱含隨機(jī)變量。模型細(xì)化多了三個變量，和。(即是phi,mu,

20、sigma). 其中j就是樣本類別中 = j的比率。j是類別為 j 的樣本特征均值，j是類別為 j 的樣例的特征的協(xié)方差矩陣(j是一個矩陣！)。所以由上面（1）（2）合并得，最大似然估計p(x, z)，對數(shù)化后如下：（對比一、EM算法里的總式：，只是參數(shù)由原化成三個，和）注意第二步有兩個迭加號。第二個迭加號是z(i)=1 直到k個類別。z只有k個類別。參考一、中EM算法推導(dǎo)

21、：所以混合高斯模型：從EM算法步驟的變成：（其中M步三個參數(shù)的右邊公式在下面會進(jìn)行推導(dǎo)。這里直接先給出參數(shù)結(jié)果。） 1. E步：每個樣例i的隱含類別z(i)為j的概率可以通過條件概率計算得到。即（E）（這里貝葉斯公式，分子是z=j一種類別情況，分母是z=1kk中類別的累加）1）對上式的分子第一項：（由上面加黃色背景段文字可知）服從高斯分布：，故 = 。（其中即是）2）對(E)式分子第二項（又上面可知）服從

22、多項式分布：所以分子直接代入即可，所以可以求得。 2.M步：先給出最終結(jié)果為: ,推導(dǎo)如下：先看EM算法的M步：（M）下面對三個參數(shù)phi,mu,sigma(，和)分別進(jìn)行求導(dǎo):（i）對i 求導(dǎo)得

23、(固定i，i): <- 它是由（據(jù)Ng說求的過程不重要？）等于0時所得（ii）對i求導(dǎo)(固定i，i）：推導(dǎo)過程用了SVM中的拉格朗日乘子方法：因為i是隱性隨機(jī)

24、變量z的多項式分布概率值，又有約束條件又由上面（M）步公式：（why?）所以聯(lián)合上兩式，直接構(gòu)成拉格朗日乘子：，（iii）的推導(dǎo)：也類似，不過稍微復(fù)雜一些

25、，畢竟是矩陣。結(jié)果在之前的混合高斯模型中已經(jīng)給出。 3.迭代：對上面E,M步進(jìn)行迭代，最后一定會收斂（證明見講義） EM算法-應(yīng)用到三個模型：高斯混合模型，混合樸素貝葉斯模型，因子分析模型判別模型求的是條件概率p(y|x)，生成模型求的是聯(lián)合概率p(x,y) .即 = p(x|y) p(y) 常見的判別模型有線性回歸、對數(shù)回歸、線性判別分析、支持向量機(jī)、boosting、條件隨機(jī)場、神經(jīng)網(wǎng)絡(luò)等。常見的生產(chǎn)模型有隱馬爾科夫模型、樸素貝葉斯模型、高斯混合模型、LDA、Restricted Boltzmann Mach

26、ine等。所以這里說的高斯混合模型，樸素貝葉斯模型都是求p(x,y)聯(lián)合概率的。(下面推導(dǎo)會見原因)套路小結(jié)：凡是生產(chǎn)模型，目的都是求出聯(lián)合概率表達(dá)式，然后對聯(lián)合概率表達(dá)式里的各個參數(shù)再進(jìn)行估計，求出其表達(dá)式。下面的EM算法，GMM等三個模型都是做這同一件事：設(shè)法求出聯(lián)合概率，然后對出現(xiàn)的參數(shù)進(jìn)行估計。一、EM算法：作用是進(jìn)行參數(shù)估計。應(yīng)用：（因為是無監(jiān)督，所以一般應(yīng)用在聚類上，也用在HMM參數(shù)估計上）所以凡是有EM算法的，一定是無監(jiān)督學(xué)習(xí).因為EM是對參數(shù)聚集給定訓(xùn)練樣本是樣例獨(dú)立，我們想要知道每個樣例隱含的類別z，使是p(x,z)最大，（即如

27、果將樣本x(i)看作觀察值，潛在類別z看作是隱藏變量，則x可能是類別z，那么聚類問題也就是參數(shù)估計問題，）故p(x,z)最大似然估計是：所以可見用到EM算法的模型（高斯混合模型，樸素貝葉斯模型）都是求p(x,y)聯(lián)合概率，為生成模型。對上面公式，直接求一般比較困難，因為有隱藏變量z存在，但是一般確定了z后，求解就容易了。EM是一種解決存在隱含變量優(yōu)化問題的有效方法。竟然不能直接最大化()，我們可建立的下界（E步），再優(yōu)化下界（M步），見下圖第三步，取的就是下界（總式）解釋上式：對于每一個樣例 i，讓Qi表示該樣例隱含變量 z 的某種分布，Qi滿足的條件

28、是（如果 z 是連續(xù)性的，那么Qi是概率密度函數(shù)（因子分析模型就是如此），需要將求和符號換成積分符號即：因子分析模型是如此，這個會用在EM算法的M步求。比如要將班上學(xué)生聚類，假設(shè)隱藏變量z是身高，那么就是連續(xù)的高斯分布。如果按照隱藏變量是男女，那么就是伯努利分布（即兩點分布：）了。上總式第1到第2步是分子分母同乘一個數(shù)，第2到3步是：用了jasen不等式：（凸函數(shù)圖形上表示反為凹函數(shù)，記住。）如圖：。因為第2步log是凹函數(shù) ：，所以f(E(x) >= Ef(x).這樣就完成了第3步（詳情見對應(yīng)講義。）至此推導(dǎo)完上面3步公式，下面所有模

29、型都是對上面第3步公式進(jìn)行參數(shù)估計的！下面對第三步的Q(z)進(jìn)行推導(dǎo)：（見講義）所以Q(Z)最終表示：，其中z只受參數(shù)影響。所以EM算法：（承上啟下：在m步中，最終是對參數(shù)進(jìn)行估計，而這一步具體到高斯混合模型，則有三個參數(shù)：mu,phi,sigma代替，即高斯混合模型要推導(dǎo)三個參數(shù)，下面會講）至此，這就是EM算法所有推導(dǎo)，EM算法推導(dǎo)也只能推導(dǎo)這些步，具體再將這些公式推導(dǎo)下去，就要結(jié)合模型了。總結(jié)：如果將樣本看作觀察值，潛在類別看作是隱藏變量，那么聚類問題也就是參數(shù)估計問題，只不過聚類問題中參數(shù)分為隱含類別變量和其他參數(shù)。對應(yīng)到

30、EM上，E步估計隱含變量，M步估計其他參數(shù)，交替將極值推向最大。例子：在Mitchell的Machine Learning書中也舉了一個EM應(yīng)用的例子，將班上學(xué)生的身高都放在一起，要求聚成兩個類。這些身高可以看作是男生身高的高斯分布和女生身高的高斯分布組成。因此變成了如何估計每個樣例是男生還是女生，然后在確定男女生情況下，如何估計均值和方差，里面也給出了公式。二、混合高斯模型：將EM算法融到高斯混合模型，將上面EM算法的E步、M步的公式再具體推導(dǎo)下去。整個模型簡單描述為：對于每個樣例，我們先從k個類別中按多項式分布抽取一個，然后根據(jù)所對應(yīng)的

31、k 個多值高斯分布中的一個，生成樣例，整個過程稱作混合高斯模型。（即對樣例x，最終目的是生成樣例x。（？）即對樣例x，從k個類別抽取一個z,從根據(jù)z生成x。）特別地，混合高斯模型的（1）隱含類別標(biāo)簽，被認(rèn)為滿足多項式分布，即 (這里只受參數(shù)（即phi）影響)（2）樣例被認(rèn)為滿足高斯分布，即 (所以和分別為樣例x的均值和協(xié)方差) 補(bǔ)充：服從的多項式分布概率公式為：，即類似C(n,x)*p6x*(1-p6)(n-x) 類型所以上面（1）（2）可知混合高斯模型中，

32、0;這里的仍是隱含隨機(jī)變量。模型細(xì)化多了三個變量，和。(即是phi,mu,sigma). 其中j就是樣本類別中 = j的比率。j是類別為 j 的樣本特征均值，j是類別為 j 的樣例的特征的協(xié)方差矩陣(j是一個矩陣！)。所以由上面（1）（2）合并得，最大似然估計p(x, z)，對數(shù)化后如下：（對比一、EM算法里的總式：，只是參數(shù)由原化成三個，和）注意第二步有兩個迭加號。第二個迭加號是z(i)=1 直

33、到k個類別。z只有k個類別。參考一、中EM算法推導(dǎo)：所以混合高斯模型：從EM算法步驟的變成：（其中M步三個參數(shù)的右邊公式在下面會進(jìn)行推導(dǎo)。這里直接先給出參數(shù)結(jié)果。） 1. E步：每個樣例i的隱含類別z(i)為j的概率可以通過條件概率計算得到。即（E）（這里貝葉斯公式，分子是z=j一種類別情況，分母是z=1kk中類別的累加）1）對上式的分子第一項：（由上面加黃色背景段文字可知）服從高斯分布：，故 =

34、; 。（其中即是）2）對(E)式分子第二項（又上面可知）服從多項式分布：所以分子直接代入即可，所以可以求得。 2.M步：先給出最終結(jié)果為: ,推導(dǎo)如下：先看EM算法的M步：（M）下面

35、對三個參數(shù)phi,mu,sigma(，和)分別進(jìn)行求導(dǎo):（i）對i 求導(dǎo)得(固定i，i): <- 它是由（據(jù)Ng說求的過程不重要？）等于0時所得（ii）對i求導(dǎo)(固定i，i）：

36、0; 推導(dǎo)過程用了SVM中的拉格朗日乘子方法：因為i是隱性隨機(jī)變量z的多項式分布概率值，又有約束條件又由上面（M）步公式：（why?）所以聯(lián)合上兩式，直接構(gòu)成拉格朗日乘子：， &#

37、160; （iii）的推導(dǎo)：也類似，不過稍微復(fù)雜一些，畢竟是矩陣。結(jié)果在之前的混合高斯模型中已經(jīng)給出。 3.迭代：對上面E,M步進(jìn)行迭代，最后一定會收斂（證明見講義）如圖，最終收斂成2個類，這里的樣例收斂于橢圓，原因是高斯分布的二維幾何圖形是一個橢圓，（具體幾何圖形見下面因子分析，有詳解）拓展：混合高斯模型GMM與K-means比較：相同點：都是可用于聚類的算法；都需要指定K值。不同點：對GMM來說，引入了概率；GMM可以給出一個樣本屬于某類的概率是多少。所以高斯混合模型既可以做聚類，也可做概率密度估計

38、三、混合樸素貝葉斯模型混合高斯的例子：文本聚類: 要對一系列的文本聚類成若干主題。（用svm寫文本分類是最好的）就是文本聚類一個應(yīng)用怎樣在文本新聞問題用到EM算法呢?->混合樸素貝葉斯模型?；旌蠘闼刎惾~斯模型有2個：多值伯努利事件模型（文本聚類就是用此）；多項式事件模型。模型描述為：給定m個樣本的訓(xùn)練集合是，每個文本屬于(0,1)n。即每個文本是n維 0或1的向量。故= wordj 是否出現(xiàn)在文本i 里我們要對(值是0或1) 進(jìn)行建模，是隱含隨

39、機(jī)變量，這里取兩個值：2個聚類。所以對混合貝葉斯模型，假設(shè) 服從參數(shù)有伯努利分布（兩點分布），即：圖中x換成即可）。故每個文本按某概率屬于聚類1或者聚類2 同高斯混合模型，混合貝葉斯模型的聯(lián)合概率是：又由貝葉斯公式可知： p(|) = p(|&#

40、160;) （i） p( = 1 | = 0) = (ii) 把上面的z全部換成y,就得到常見的樸素貝葉斯公式：一般會前面兩個等式右邊的x=1，或省去=1，即寫成i|y=1 = p(xi | y =1)

41、 i|y=0 = p(xi | y =0) ,默認(rèn)x取了1 其中p(y=1)表示類別1（例如類別1表示垃圾郵件）的在所有文本的概率。這里xi表示一個單詞，取值只有0或者1，表示出現(xiàn)在文本里或者沒有出現(xiàn)。 EM算法步驟：1.E步：這里三個參數(shù)phi,mu,sigma,改成，與j|z 將上面（i）（ii）式帶入即可求得2.M步：對比貝葉斯原公式

42、： = 這里Wi表示文本來自于類1，分子表示：類1且包含詞j的文檔個數(shù)，分布表示類1的文檔總數(shù)。所以全式表示：類1包含詞j的比率。 EM算法不能做出絕對的假設(shè)0或者1，所以只能用Wi表示，最終Wi的值會靠近0或1，在數(shù)值上與0或1無分別。 = （分子的橫斜是多余的，忽略）全式表示：類0包含詞j的比率 &#

43、160; j|z = 3.迭代上面12步驟，收斂，求出參數(shù)估計，帶回聯(lián)合概率，將聯(lián)合概率排序，由聯(lián)合概率最高值，可得知哪個文本是輸入哪個類了。如圖，最終收斂成2個類，這里的樣例收斂于橢圓，原因是高斯分布的二維幾何圖形是一個橢圓，（具體幾何圖形見下面因子分析，有詳解）拓展：混合高斯模型GMM與K-means比較：相同點：都是可用于聚類的算法；都需要指定K值。

44、60;不同點：對GMM來說，引入了概率；GMM可以給出一個樣本屬于某類的概率是多少。所以高斯混合模型既可以做聚類，也可做概率密度估計三、混合樸素貝葉斯模型混合高斯的例子：文本聚類: 要對一系列的文本聚類成若干主題。（用svm寫文本分類是最好的）就是文本聚類一個應(yīng)用怎樣在文本新聞問題用到EM算法呢?->混合樸素貝葉斯模型。混合樸素貝葉斯模型有2個：多值伯努利事件模型（文本聚類就是用此）；多項式事件模型。模型描述為：給定m個樣本的訓(xùn)練集合是，每個文本屬于(0,

45、1)n。即每個文本是n維 0或1的向量。故= wordj 是否出現(xiàn)在文本i 里我們要對(值是0或1) 進(jìn)行建模，是隱含隨機(jī)變量，這里取兩個值：2個聚類。所以對混合貝葉斯模型，假設(shè) 服從參數(shù)有伯努利分布（兩點分布），即：圖中x換成即可）。故每個文本按某概率屬于聚類1或者聚類2 同高斯混合模型，混合貝葉斯模型的聯(lián)合概率是：又 &#

46、160; 由貝葉斯公式可知： p(|) = p(| ) （i） p( = 1 | = 0) = (ii) 把上面的z全部換成y,就得到常見的樸素貝葉斯公

48、將上面（i）（ii）式帶入即可求得2.M步：對比貝葉斯原公式： = 這里Wi表示文本來自于類1，分子表示：類1且包含詞j的文檔個數(shù)，分布表示類1的文檔總數(shù)。所以全式表示：類1包含詞j的比率。 EM算法不能做出絕對的假設(shè)0或者1，所以只能用Wi表示，最終Wi的值會靠近0或1，在數(shù)值上與0或1無分別。 =

49、（分子的橫斜是多余的，忽略）全式表示：類0包含詞j的比率 j|z = 3.迭代上面12步驟，收斂，求出參數(shù)估計，帶回聯(lián)合概率，將聯(lián)合概率排序，由聯(lián)合概率最高值，可得知哪個文本是輸入哪個類了。如圖，最終收斂成2個類，這里的樣例收斂于橢圓，原因是高斯分布的二維幾何圖形是一個橢圓，（具體幾何圖形見下面因子分析，有詳解）拓展：混合高斯模型GMM與K-means比較：相同點：都是可用于聚類的算法；都需要指定K值。不同點：對GMM來說，引入了概率；GMM可以給出一個樣本屬于某類的概率是多少。所以高斯混合模型既可以做聚類，也可做概率密度估計三、混合樸素貝葉斯模型 &#

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

EM算法--應(yīng)用到三個模型：高斯混合模型,混合樸素貝葉斯模型,因子分析模型

文檔簡介

溫馨提示

最新文檔

評論

EM算法--應(yīng)用到三個模型：高斯混合模型,混合樸素貝葉斯模型,因子分析模型

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔