




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、EM算法-應(yīng)用到三個模型: 高斯混合模型 ,混合樸素貝葉斯模型,因子分析模型判別模型求的是條件概率p(y|x),生成模型求的是聯(lián)合概率p(x,y) .即 = p(x|y) p(y) 常見的判別模型有線性回歸、對數(shù)回歸、線性判別分析、支持向量機、boosting、條件 隨機場、神經(jīng)網(wǎng)絡(luò)等。常見的生產(chǎn)模型有隱馬爾科夫模型、樸素貝葉斯模型、高斯混合模型、LDA、Restricted Boltzmann Machine等。所以這里說的高斯混合模型,樸素貝葉斯模型都是求p(x,y)聯(lián)合概率的。(下面推導(dǎo)會見原因)套路小結(jié): 凡是生產(chǎn)模型,目的都是求出
2、聯(lián)合概率表達式,然后對聯(lián)合概率表達式里的各個參數(shù)再進行估計,求出其表達式。下面的EM算法,GMM等三個模型都是做這同一件事:設(shè)法求出聯(lián)合概率,然后對出現(xiàn)的參數(shù)進行估計。 一、EM算法:作用是進行參數(shù)估計。應(yīng)用:(因為是無監(jiān)督,所以一般應(yīng)用在聚類上,也用在HMM參數(shù)估計上)所以凡是有EM算法的,一定是無監(jiān)督學(xué)習(xí).因為EM是對參數(shù)聚集給定訓(xùn)練樣本是 樣例獨立,我們想要知道每個樣例隱含的類別z,使是p(x,z)最大,(即 如果將樣本x(i)看作觀察值, 潛在類別z看作是隱藏變量, 則x可能是類別z, 那么聚類問題也就是參數(shù)估計問題,)故p(x,z)最大似然估計是:所以可
3、見用到EM算法的模型(高斯混合模型,樸素貝葉斯模型)都是求p(x,y)聯(lián)合概率,為生成模型。 對上面公式,直接求一般比較困難,因為有隱藏變量z存在,但是一般確定了z后,求解就容易了。EM是一種解決存在隱含變量優(yōu)化問題的有效方法。竟然不能直接最大化(),我們可建立的下界(E步),再優(yōu)化下界(M步),見下圖第三步,取的就是下界 (總式)解釋上式:對于每一個樣例 i,讓Qi表示該樣例隱含變量 z 的某種分布,Qi滿足的條件是 (如果 z 是連續(xù)性的,那么Qi是概率密度函數(shù)(因子分析模型就是如此),需要將求和符號換成積分符號即:因子分析模型是如此,這個會用在EM算法的M
4、步求。比如要將班上學(xué)生聚類,假設(shè)隱藏變量z是身高,那么就是連續(xù)的高斯分布。 如果按照隱藏變量是男女,那么就是伯努利分布(即兩點分布:)了。上總式第1到第2步是分子分母同乘一個數(shù),第2到3步是:用了jasen不等式: (凸函數(shù)圖形上表示反為凹函數(shù),記住。)如圖: 。因為第2步log是凹函數(shù) :,所以f(E(x) >= Ef(x).這樣就完成了第3步(詳情見對應(yīng)講義。) 至此推導(dǎo)完上面3步公式,下面所有模型都是對上面第3步公式進行參數(shù)估計的! 下面 對第三步的Q(z)進行推導(dǎo):(見講義)所以Q(Z)最終表示: ,其中z只受參數(shù)影響
5、。所以EM算法:(承上啟下:在m步中,最終是對參數(shù)進行估計,而這一步具體到高斯混合模型,則有三個參數(shù):mu,phi,sigma代替,即高斯混合模型要推導(dǎo)三個參數(shù),下面會講)至此,這就是EM算法所有推導(dǎo),EM算法推導(dǎo)也只能推導(dǎo)這些步,具體再將這些公式推導(dǎo)下去,就要結(jié)合模型了。 總結(jié):如果將樣本看作觀察值, 潛在類別看作是隱藏變量, 那么聚類問題也就是參數(shù)估計問題,只不過聚類問題中參數(shù)分為隱含類別變量和其他參數(shù)。對應(yīng)到EM上,E步估計隱含變量,M步估計其他參數(shù),交替將極值推向最大。例子:在Mitchell的Machine Learning書中也舉了一個EM應(yīng)用的例
6、子,將班上學(xué)生的身高都放在一起,要求聚成兩個類。這些身高可以看作是男生身高的高斯分布和女生 身高的高斯分布組成。因此變成了如何估計每個樣例是男生還是女生,然后在確定男女生情 況下,如何估計均值和方差,里面也給出了公式。 二、混合高斯模型:將EM算法融到高斯混合模型,將上面EM算法的E步、M步的公式再具體推導(dǎo)下去。 整個模型簡單描述為:對于每個樣例 ,我們先從k個類別中按多項式分布抽取一個,然后根據(jù)所對應(yīng)的 k 個多值高斯分布中的一個,生成樣例,整個過程稱作混合高斯模型。(即對樣例x, 最終目的是生成樣例x。(?)即對樣例x,從k個類別抽取一個z,從根據(jù)
7、z生成x。) 特別地,混合高斯模型的(1)隱含類別標簽 ,被認為滿足多項式分布,即 (這里只受參數(shù)(即phi)影響)(2)樣例被認為滿足 高斯分布,即 (所以和分別為樣例x的均值和協(xié)方差) 補充:服從的多項式分布概率公式為:,即類似C(n,x)*p6x*(1-p6)(n-x) 類型所以 上面(1)(2)可知混合高斯模型中, 這里的仍是隱含隨機變量。模型細化多了三個變量,和。(即是phi,mu,sigma). 其中j就是樣本類別中 =
8、j的比率。j是類別為 j 的樣本特征均值,j是類別為 j 的樣例的特征的協(xié)方差矩陣(j是一個矩陣!)。 所以由上面(1)(2)合并得,最大似然估計p(x, z),對數(shù)化后如下: (對比一、EM算法里的總式: ,只是參數(shù)由原化成三個,和)注意第二步有兩個迭加號。第二個迭加號是z(i)=1 直到k個類別。z只有k個類別。 參考一、中EM算法推導(dǎo):所以混合高斯模型:從EM算法步驟的 變
9、成: (其中M步三個參數(shù)的右邊公式在下面會進行推導(dǎo)。這里直接先給出參數(shù)結(jié)果。) 1. E步: 每個樣例i的隱含類別z(i)為j的概率 可以通過條件概率計算得到。即 (E)(這里貝葉斯公式,分子是z=j一種類別情況,分母是z=1kk中類別的累加)1)對上式的分子第一項:(由上面加黃色背景段文字可知)服從高斯分布:,故 = 。(其中即是)2)對(E)式分子第二項(又上面可知) 服從 多項式分布: &
10、#160; 所以分子直接代入即可,所以 可以求得。 2.M步:先給出最終結(jié)果為: ,推導(dǎo)如下:先看EM算法的M步: (M) 下面對三個參數(shù)phi,mu,sigma(,和)分別進行求導(dǎo):(i)對i 求導(dǎo)得(固定i,i):
11、; <- 它是由(據(jù)Ng說求的過程不重要?)等于0時所得 (ii)對i求導(dǎo)(固定i,i): 推導(dǎo)過程用了SVM中的拉格朗日乘子方法:因為i是 隱性隨機變量z的多項式分布概率值,又有約束條件
12、又由上面(M)步公式:(why?) 所以聯(lián)合上兩式,直接構(gòu)成拉格朗日乘子:, (iii)的推導(dǎo):也類似,不過稍微復(fù)雜一些,畢竟是矩陣。結(jié)果在之前的混合高斯模型中已經(jīng)給出。
13、3.迭代:對上面E,M步進行迭代,最后一定會收斂(證明見講義) EM算法-應(yīng)用到三個模型: 高斯混合模型 ,混合樸素貝葉斯模型,因子分析模型判別模型求的是條件概率p(y|x),生成模型求的是聯(lián)合概率p(x,y) .即 = p(x|y) p(y) 常見的判別模型有線性回歸、對數(shù)回歸、線性判別分析、支持向量機、boosting、條件 隨機場、神經(jīng)網(wǎng)絡(luò)等。常見的生產(chǎn)模型有隱馬爾科夫模型、樸素貝葉斯模型、高斯混合模型、LDA、Restricted Boltzmann Machine等。所以這里說的高斯混合模型,樸素貝葉斯模型都是求p(x,y)聯(lián)合概
14、率的。(下面推導(dǎo)會見原因)套路小結(jié): 凡是生產(chǎn)模型,目的都是求出聯(lián)合概率表達式,然后對聯(lián)合概率表達式里的各個參數(shù)再進行估計,求出其表達式。下面的EM算法,GMM等三個模型都是做這同一件事:設(shè)法求出聯(lián)合概率,然后對出現(xiàn)的參數(shù)進行估計。 一、EM算法:作用是進行參數(shù)估計。應(yīng)用:(因為是無監(jiān)督,所以一般應(yīng)用在聚類上,也用在HMM參數(shù)估計上)所以凡是有EM算法的,一定是無監(jiān)督學(xué)習(xí).因為EM是對參數(shù)聚集給定訓(xùn)練樣本是 樣例獨立,我們想要知道每個樣例隱含的類別z,使是p(x,z)最大,(即 如果將樣本x(i)看作觀察值, 潛在類別z看作是隱藏變量, 則x可能是類別z
15、, 那么聚類問題也就是參數(shù)估計問題,)故p(x,z)最大似然估計是:所以可見用到EM算法的模型(高斯混合模型,樸素貝葉斯模型)都是求p(x,y)聯(lián)合概率,為生成模型。 對上面公式,直接求一般比較困難,因為有隱藏變量z存在,但是一般確定了z后,求解就容易了。EM是一種解決存在隱含變量優(yōu)化問題的有效方法。竟然不能直接最大化(),我們可建立的下界(E步),再優(yōu)化下界(M步),見下圖第三步,取的就是下界 (總式)解釋上式:對于每一個樣例 i,讓Qi表示該樣例隱含變量 z 的某種分布,Qi滿足的條件是 (如果 z 是連續(xù)性的,那么Qi是概率密度函數(shù)(因子分析模型就是如此)
16、,需要將求和符號換成積分符號即:因子分析模型是如此,這個會用在EM算法的M步求。比如要將班上學(xué)生聚類,假設(shè)隱藏變量z是身高,那么就是連續(xù)的高斯分布。 如果按照隱藏變量是男女,那么就是伯努利分布(即兩點分布:)了。上總式第1到第2步是分子分母同乘一個數(shù),第2到3步是:用了jasen不等式: (凸函數(shù)圖形上表示反為凹函數(shù),記住。)如圖: 。因為第2步log是凹函數(shù) :,所以f(E(x) >= Ef(x).這樣就完成了第3步(詳情見對應(yīng)講義。) 至此推導(dǎo)完上面3步公式,下面所有模型都是對上面第3步公式進行參數(shù)估計的! 下面 對第三步的Q(z)
17、進行推導(dǎo):(見講義)所以Q(Z)最終表示: ,其中z只受參數(shù)影響。所以EM算法:(承上啟下:在m步中,最終是對參數(shù)進行估計,而這一步具體到高斯混合模型,則有三個參數(shù):mu,phi,sigma代替,即高斯混合模型要推導(dǎo)三個參數(shù),下面會講)至此,這就是EM算法所有推導(dǎo),EM算法推導(dǎo)也只能推導(dǎo)這些步,具體再將這些公式推導(dǎo)下去,就要結(jié)合模型了。 總結(jié):如果將樣本看作觀察值, 潛在類別看作是隱藏變量, 那么聚類問題也就是參數(shù)估計問題,只不過聚類問題中參數(shù)分為隱含類別變量和其他參數(shù)。對應(yīng)到EM上,E步估計隱含變量,M步估計其他參數(shù),交替將極值推向最大。例子:在M
18、itchell的Machine Learning書中也舉了一個EM應(yīng)用的例子,將班上學(xué)生的身高都放在一起,要求聚成兩個類。這些身高可以看作是男生身高的高斯分布和女生 身高的高斯分布組成。因此變成了如何估計每個樣例是男生還是女生,然后在確定男女生情 況下,如何估計均值和方差,里面也給出了公式。 二、混合高斯模型:將EM算法融到高斯混合模型,將上面EM算法的E步、M步的公式再具體推導(dǎo)下去。 整個模型簡單描述為:對于每個樣例 ,我們先從k個類別中按多項式分布抽取一個,然后根據(jù)所對應(yīng)的 k 個多值高斯分布中的一個,生成樣例,整個過程稱作混合高斯模型。(即對樣例
19、x, 最終目的是生成樣例x。(?)即對樣例x,從k個類別抽取一個z,從根據(jù)z生成x。) 特別地,混合高斯模型的(1)隱含類別標簽 ,被認為滿足多項式分布,即 (這里只受參數(shù)(即phi)影響)(2)樣例被認為滿足 高斯分布,即 (所以和分別為樣例x的均值和協(xié)方差) 補充:服從的多項式分布概率公式為:,即類似C(n,x)*p6x*(1-p6)(n-x) 類型所以 上面(1)(2)可知混合高斯模型中, 這里的仍是隱含隨機變量。模型細化多了三個變量,和。(即是phi,mu,
20、sigma). 其中j就是樣本類別中 = j的比率。j是類別為 j 的樣本特征均值,j是類別為 j 的樣例的特征的協(xié)方差矩陣(j是一個矩陣!)。 所以由上面(1)(2)合并得,最大似然估計p(x, z),對數(shù)化后如下: (對比一、EM算法里的總式: ,只是參數(shù)由原化成三個,和)注意第二步有兩個迭加號。第二個迭加號是z(i)=1 直到k個類別。z只有k個類別。 參考一、中EM算法推導(dǎo)
21、:所以混合高斯模型:從EM算法步驟的 變成: (其中M步三個參數(shù)的右邊公式在下面會進行推導(dǎo)。這里直接先給出參數(shù)結(jié)果。) 1. E步: 每個樣例i的隱含類別z(i)為j的概率 可以通過條件概率計算得到。即 (E)(這里貝葉斯公式,分子是z=j一種類別情況,分母是z=1kk中類別的累加)1)對上式的分子第一項:(由上面加黃色背景段文字可知)服從高斯分布:,故 = 。(其中即是)2)對(E)式分子第二項(又上面可知) 服從
22、多項式分布: 所以分子直接代入即可,所以 可以求得。 2.M步:先給出最終結(jié)果為: ,推導(dǎo)如下:先看EM算法的M步: (M) 下面對三個參數(shù)phi,mu,sigma(,和)分別進行求導(dǎo):(i)對i 求導(dǎo)得
23、(固定i,i): <- 它是由(據(jù)Ng說求的過程不重要?)等于0時所得 (ii)對i求導(dǎo)(固定i,i): 推導(dǎo)過程用了SVM中的拉格朗日乘子方法:因為i是 隱性隨機
24、變量z的多項式分布概率值,又有約束條件 又由上面(M)步公式:(why?) 所以聯(lián)合上兩式,直接構(gòu)成拉格朗日乘子:, (iii)的推導(dǎo):也類似,不過稍微復(fù)雜一些
25、,畢竟是矩陣。結(jié)果在之前的混合高斯模型中已經(jīng)給出。 3.迭代:對上面E,M步進行迭代,最后一定會收斂(證明見講義) EM算法-應(yīng)用到三個模型: 高斯混合模型 ,混合樸素貝葉斯模型,因子分析模型判別模型求的是條件概率p(y|x),生成模型求的是聯(lián)合概率p(x,y) .即 = p(x|y) p(y) 常見的判別模型有線性回歸、對數(shù)回歸、線性判別分析、支持向量機、boosting、條件 隨機場、神經(jīng)網(wǎng)絡(luò)等。常見的生產(chǎn)模型有隱馬爾科夫模型、樸素貝葉斯模型、高斯混合模型、LDA、Restricted Boltzmann Mach
26、ine等。所以這里說的高斯混合模型,樸素貝葉斯模型都是求p(x,y)聯(lián)合概率的。(下面推導(dǎo)會見原因)套路小結(jié): 凡是生產(chǎn)模型,目的都是求出聯(lián)合概率表達式,然后對聯(lián)合概率表達式里的各個參數(shù)再進行估計,求出其表達式。下面的EM算法,GMM等三個模型都是做這同一件事:設(shè)法求出聯(lián)合概率,然后對出現(xiàn)的參數(shù)進行估計。 一、EM算法:作用是進行參數(shù)估計。應(yīng)用:(因為是無監(jiān)督,所以一般應(yīng)用在聚類上,也用在HMM參數(shù)估計上)所以凡是有EM算法的,一定是無監(jiān)督學(xué)習(xí).因為EM是對參數(shù)聚集給定訓(xùn)練樣本是 樣例獨立,我們想要知道每個樣例隱含的類別z,使是p(x,z)最大,(即 如
27、果將樣本x(i)看作觀察值, 潛在類別z看作是隱藏變量, 則x可能是類別z, 那么聚類問題也就是參數(shù)估計問題,)故p(x,z)最大似然估計是:所以可見用到EM算法的模型(高斯混合模型,樸素貝葉斯模型)都是求p(x,y)聯(lián)合概率,為生成模型。 對上面公式,直接求一般比較困難,因為有隱藏變量z存在,但是一般確定了z后,求解就容易了。EM是一種解決存在隱含變量優(yōu)化問題的有效方法。竟然不能直接最大化(),我們可建立的下界(E步),再優(yōu)化下界(M步),見下圖第三步,取的就是下界 (總式)解釋上式:對于每一個樣例 i,讓Qi表示該樣例隱含變量 z 的某種分布,Qi滿足的條件
28、是 (如果 z 是連續(xù)性的,那么Qi是概率密度函數(shù)(因子分析模型就是如此),需要將求和符號換成積分符號即:因子分析模型是如此,這個會用在EM算法的M步求。比如要將班上學(xué)生聚類,假設(shè)隱藏變量z是身高,那么就是連續(xù)的高斯分布。 如果按照隱藏變量是男女,那么就是伯努利分布(即兩點分布:)了。上總式第1到第2步是分子分母同乘一個數(shù),第2到3步是:用了jasen不等式: (凸函數(shù)圖形上表示反為凹函數(shù),記住。)如圖: 。因為第2步log是凹函數(shù) :,所以f(E(x) >= Ef(x).這樣就完成了第3步(詳情見對應(yīng)講義。) 至此推導(dǎo)完上面3步公式,下面所有模
29、型都是對上面第3步公式進行參數(shù)估計的! 下面 對第三步的Q(z)進行推導(dǎo):(見講義)所以Q(Z)最終表示: ,其中z只受參數(shù)影響。所以EM算法:(承上啟下:在m步中,最終是對參數(shù)進行估計,而這一步具體到高斯混合模型,則有三個參數(shù):mu,phi,sigma代替,即高斯混合模型要推導(dǎo)三個參數(shù),下面會講)至此,這就是EM算法所有推導(dǎo),EM算法推導(dǎo)也只能推導(dǎo)這些步,具體再將這些公式推導(dǎo)下去,就要結(jié)合模型了。 總結(jié):如果將樣本看作觀察值, 潛在類別看作是隱藏變量, 那么聚類問題也就是參數(shù)估計問題,只不過聚類問題中參數(shù)分為隱含類別變量和其他參數(shù)。對應(yīng)到
30、EM上,E步估計隱含變量,M步估計其他參數(shù),交替將極值推向最大。例子:在Mitchell的Machine Learning書中也舉了一個EM應(yīng)用的例子,將班上學(xué)生的身高都放在一起,要求聚成兩個類。這些身高可以看作是男生身高的高斯分布和女生 身高的高斯分布組成。因此變成了如何估計每個樣例是男生還是女生,然后在確定男女生情 況下,如何估計均值和方差,里面也給出了公式。 二、混合高斯模型:將EM算法融到高斯混合模型,將上面EM算法的E步、M步的公式再具體推導(dǎo)下去。 整個模型簡單描述為:對于每個樣例 ,我們先從k個類別中按多項式分布抽取一個,然后根據(jù)所對應(yīng)的
31、k 個多值高斯分布中的一個,生成樣例,整個過程稱作混合高斯模型。(即對樣例x, 最終目的是生成樣例x。(?)即對樣例x,從k個類別抽取一個z,從根據(jù)z生成x。) 特別地,混合高斯模型的(1)隱含類別標簽 ,被認為滿足多項式分布,即 (這里只受參數(shù)(即phi)影響)(2)樣例被認為滿足 高斯分布,即 (所以和分別為樣例x的均值和協(xié)方差) 補充:服從的多項式分布概率公式為:,即類似C(n,x)*p6x*(1-p6)(n-x) 類型所以 上面(1)(2)可知混合高斯模型中,
32、0;這里的仍是隱含隨機變量。模型細化多了三個變量,和。(即是phi,mu,sigma). 其中j就是樣本類別中 = j的比率。j是類別為 j 的樣本特征均值,j是類別為 j 的樣例的特征的協(xié)方差矩陣(j是一個矩陣!)。 所以由上面(1)(2)合并得,最大似然估計p(x, z),對數(shù)化后如下: (對比一、EM算法里的總式: ,只是參數(shù)由原化成三個,和)注意第二步有兩個迭加號。第二個迭加號是z(i)=1 直
33、到k個類別。z只有k個類別。 參考一、中EM算法推導(dǎo):所以混合高斯模型:從EM算法步驟的 變成: (其中M步三個參數(shù)的右邊公式在下面會進行推導(dǎo)。這里直接先給出參數(shù)結(jié)果。) 1. E步: 每個樣例i的隱含類別z(i)為j的概率 可以通過條件概率計算得到。即 (E)(這里貝葉斯公式,分子是z=j一種類別情況,分母是z=1kk中類別的累加)1)對上式的分子第一項:(由上面加黃色背景段文字可知)服從高斯分布:,故 =
34、; 。(其中即是)2)對(E)式分子第二項(又上面可知) 服從 多項式分布: 所以分子直接代入即可,所以 可以求得。 2.M步:先給出最終結(jié)果為: ,推導(dǎo)如下:先看EM算法的M步: (M) 下面
35、對三個參數(shù)phi,mu,sigma(,和)分別進行求導(dǎo):(i)對i 求導(dǎo)得(固定i,i): <- 它是由(據(jù)Ng說求的過程不重要?)等于0時所得 (ii)對i求導(dǎo)(固定i,i):
36、0; 推導(dǎo)過程用了SVM中的拉格朗日乘子方法:因為i是 隱性隨機變量z的多項式分布概率值,又有約束條件 又由上面(M)步公式:(why?) 所以聯(lián)合上兩式,直接構(gòu)成拉格朗日乘子:,
37、160; (iii)的推導(dǎo):也類似,不過稍微復(fù)雜一些,畢竟是矩陣。結(jié)果在之前的混合高斯模型中已經(jīng)給出。 3.迭代:對上面E,M步進行迭代,最后一定會收斂(證明見講義) 如圖,最終收斂成2個類,這里的樣例收斂于橢圓,原因是高斯分布的二維幾何圖形是一個橢圓,(具體幾何圖形見下面因子分析,有詳解) 拓展:混合高斯模型GMM與K-means比較:相同點:都是可用于聚類的算法;都需要指定K值。 不同點:對GMM來說,引入了概率;GMM可以給出一個樣本屬于某類的概率是多少。所以高斯混合模型既可以做聚類,也可做概率密度估計
38、 三、混合樸素貝葉斯模型 混合高斯的例子:文本聚類: 要對一系列的文本聚類成若干主題。(用svm寫文本分類是最好的)就是文本聚類一個應(yīng)用怎樣在文本新聞問題用到EM算法呢?->混合樸素貝葉斯模型。混合樸素貝葉斯模型有2個:多值伯努利事件模型(文本聚類就是用此);多項式事件模型。 模型描述為:給定m個樣本的訓(xùn)練集合是 , 每個文本屬于(0,1)n。即每個文本是n維 0或1的向量。 故= wordj 是否出現(xiàn)在文本i 里 我們要對(值是0或1) 進行建模,是隱含隨
39、機變量,這里取兩個值:2個聚類。 所以對混合貝葉斯模型,假設(shè) 服從參數(shù)有伯努利分布(兩點分布),即: 圖中x換成即可)。 故每個文本按某概率屬于聚類1或者聚類2 同高斯混合模型,混合貝葉斯模型的聯(lián)合概率是:又 由貝葉斯公式可知: p(|) = p(|
40、160;) (i) p( = 1 | = 0) = (ii) 把上面的z全部換成y,就得到常見的樸素貝葉斯公式: 一般會前面兩個等式右邊的x=1,或省去=1,即寫成i|y=1 = p(xi | y =1)
41、 i|y=0 = p(xi | y =0) ,默認x取了1 其中p(y=1)表示類別1(例如類別1表示垃圾郵件)的在所有文本的概率。這里xi表示一個單詞,取值只有0或者1,表示出現(xiàn)在文本里或者沒有出現(xiàn)。 EM算法步驟:1.E步: 這里三個參數(shù)phi,mu,sigma,改成,與j|z 將上面(i)(ii)式帶入即可求得2.M步:對比貝葉斯原公式
42、: = 這里Wi表示文本來自于類1,分子表示:類1且包含詞j的文檔個數(shù),分布表示類1的文檔總數(shù)。所以全式表示:類1包含詞j的比率。 EM算法不能做出絕對的假設(shè)0或者1,所以只能用Wi表示,最終Wi的值會靠近0或1,在數(shù)值上與0或1無分別。 = (分子的橫斜是多余的,忽略)全式表示:類0包含詞j的比率
43、160; j|z = 3.迭代上面12步驟,收斂,求出參數(shù)估計,帶回聯(lián)合概率,將聯(lián)合概率排序,由聯(lián)合概率最高值 ,可得知哪個文本是輸入哪個類了。如圖,最終收斂成2個類,這里的樣例收斂于橢圓,原因是高斯分布的二維幾何圖形是一個橢圓,(具體幾何圖形見下面因子分析,有詳解) 拓展:混合高斯模型GMM與K-means比較:相同點:都是可用于聚類的算法;都需要指定K值。
44、60;不同點:對GMM來說,引入了概率;GMM可以給出一個樣本屬于某類的概率是多少。所以高斯混合模型既可以做聚類,也可做概率密度估計 三、混合樸素貝葉斯模型 混合高斯的例子:文本聚類: 要對一系列的文本聚類成若干主題。(用svm寫文本分類是最好的)就是文本聚類一個應(yīng)用怎樣在文本新聞問題用到EM算法呢?->混合樸素貝葉斯模型?;旌蠘闼刎惾~斯模型有2個:多值伯努利事件模型(文本聚類就是用此);多項式事件模型。 模型描述為:給定m個樣本的訓(xùn)練集合是 , 每個文本屬于(0,
45、1)n。即每個文本是n維 0或1的向量。 故= wordj 是否出現(xiàn)在文本i 里 我們要對(值是0或1) 進行建模,是隱含隨機變量,這里取兩個值:2個聚類。 所以對混合貝葉斯模型,假設(shè) 服從參數(shù)有伯努利分布(兩點分布),即: 圖中x換成即可)。 故每個文本按某概率屬于聚類1或者聚類2 同高斯混合模型,混合貝葉斯模型的聯(lián)合概率是:又
46、160; 由貝葉斯公式可知: p(|) = p(| ) (i) p( = 1 | = 0) = (ii) 把上面的z全部換成y,就得到常見的樸素貝葉斯公
47、式: 一般會前面兩個等式右邊的x=1,或省去=1,即寫成i|y=1 = p(xi | y =1) i|y=0 = p(xi | y =0) ,默認x取了1 其中p(y=1)表示類別1(例如類別1表示垃圾郵件)的在所有文本的概率。這里xi表示一個單詞,取值只有0或者1,表示出現(xiàn)在文本里或者沒有出現(xiàn)。 EM算法步驟:1.E步: 這里三個參數(shù)phi,mu,sigma,改成,與j|z
48、 將上面(i)(ii)式帶入即可求得2.M步:對比貝葉斯原公式: = 這里Wi表示文本來自于類1,分子表示:類1且包含詞j的文檔個數(shù),分布表示類1的文檔總數(shù)。所以全式表示:類1包含詞j的比率。 EM算法不能做出絕對的假設(shè)0或者1,所以只能用Wi表示,最終Wi的值會靠近0或1,在數(shù)值上與0或1無分別。 =
49、 (分子的橫斜是多余的,忽略)全式表示:類0包含詞j的比率 j|z = 3.迭代上面12步驟,收斂,求出參數(shù)估計,帶回聯(lián)合概率,將聯(lián)合概率排序,由聯(lián)合概率最高值 ,可得知哪個文本是輸入哪個類了。如圖,最終收斂成2個類,這里的樣例收斂于橢圓,原因是高斯分布的二維幾何圖形是一個橢圓,(具體幾何圖形見下面因子分析,有詳解) 拓展:混合高斯模型GMM與K-means比較:相同點:都是可用于聚類的算法;都需要指定K值。 不同點:對GMM來說,引入了概率;GMM可以給出一個樣本屬于某類的概率是多少。所以高斯混合模型既可以做聚類,也可做概率密度估計 三、混合樸素貝葉斯模型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度婚慶服務(wù)市場區(qū)域保護競業(yè)禁止協(xié)議
- 2025年度知識產(chǎn)權(quán)侵權(quán)糾紛和解執(zhí)行協(xié)議
- 二零二五年度泵車租賃與新型環(huán)保材料應(yīng)用合作協(xié)議
- 二零二五年度汽車修理廠租賃合同及汽車維修市場拓展服務(wù)協(xié)議
- 2025年度新能源汽車合作研發(fā)保密協(xié)議
- 二零二五年度環(huán)??萍脊締T工聘用合同模板
- 二零二五年度專業(yè)家務(wù)與家庭生活管理保姆服務(wù)協(xié)議
- 二零二五年度家庭財產(chǎn)分割與債務(wù)承擔(dān)合同
- 二零二五年度雙向轉(zhuǎn)診醫(yī)療資源共享與利益分配合作協(xié)議模板
- 裝修公司客服述職報告
- 歡樂的那達慕混聲合唱簡譜
- 【初中語文】羈旅思鄉(xiāng)類(10首)+中考語文必考古詩賞析(84首)(意象大全)
- JGJ107-2010鋼筋機械連接技術(shù)規(guī)程課件
- 季節(jié)性疾病防治知識講座
- PPR給水管技術(shù)交底樣本
- 中國李氏家譜模板
- 分布式光伏發(fā)電并網(wǎng)與運維管理
- 《計算機應(yīng)用基礎(chǔ) Win10+Office 2016》教案 模塊一 計算機基礎(chǔ)知識(二)
- 第1講 溝通概論1
- 二手車交易行業(yè)行業(yè)網(wǎng)絡(luò)安全與威脅防護
- 秦漢時期建筑
評論
0/150
提交評論