基于EM算法的混合模型參數(shù)估計(jì)

上傳人：s*** IP屬地：貴州上傳時(shí)間：2022-08-12 格式：DOC 頁(yè)數(shù)：4 大?。?7.50KB 積分：20 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)專心-專注-專業(yè)精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)基于EM算法的混合模型參數(shù)估計(jì)作者：樊菊蘭來(lái)源：科教導(dǎo)刊電子版2018年第06期摘要有限混合模型是用于分析復(fù)雜問(wèn)題的一個(gè)有效的建模工具。在諸多的混合模型中，混合高斯模型的應(yīng)用更為廣泛，尤其是在圖像處理、人臉識(shí)別、通信和信號(hào)處理等。理論及數(shù)值試驗(yàn)充分證明：混合高斯分布模型能夠逼近任何一個(gè)光滑分布，而對(duì)該模型參數(shù)的有效估計(jì)是準(zhǔn)確分析、模擬復(fù)雜問(wèn)題的必要前提。EM算法自從提出，就已成為一種非常流行地處理不完全數(shù)據(jù)的極大似然估計(jì)的方法。恰好我們經(jīng)常處理的樣本數(shù)據(jù)集通?？煽醋?/p>

2、是不完全數(shù)據(jù)，進(jìn)而EM算法就為混合高斯模型的參數(shù)估計(jì)提供了一種標(biāo)準(zhǔn)框架。關(guān)鍵詞 EM算法 R軟件混合模型高斯混合參數(shù)估計(jì)中圖分類號(hào)：O212 文獻(xiàn)標(biāo)識(shí)碼：A0引言EM 算法就是一種一般的從“不完全數(shù)據(jù)”中求解模型參數(shù)的極大似然估計(jì)的方法，它是在觀察數(shù)據(jù)的基礎(chǔ)上添加一些“潛在數(shù)據(jù)”，從而簡(jiǎn)化計(jì)算并完成一系列簡(jiǎn)單的極大化或模擬。EM 算法的每一步迭代中包括一個(gè) E 步期望步（Expectation Step）和一個(gè)M 步極大似然步（Maximum Likelihood Step）。算法的優(yōu)勢(shì)在于它在一定意義下可靠地收斂到局部極大，也就是說(shuō)在一般條件下每次迭代都增加似然函數(shù)值，當(dāng)似然函數(shù)值是有

3、界的時(shí)候，迭代序列收斂到一個(gè)穩(wěn)定值的上確界。缺點(diǎn)是當(dāng)缺失數(shù)據(jù)比例較大時(shí)候，它的收斂比率比較緩慢?；旌戏植际怯邢迋€(gè)分布的組合，它綜合了各個(gè)分支的性質(zhì)和特點(diǎn)，它具有許多優(yōu)勢(shì)：（1）可以用來(lái)模擬復(fù)雜的數(shù)據(jù)或問(wèn)題。由于混合模型擁有許多不同類型的混合形式，有相同總體的混合，也有各種不同總體的混合。因此，可以根據(jù)數(shù)據(jù)的不同情況，來(lái)選擇與之相符的混合模型來(lái)進(jìn)行模擬。（2）為同性質(zhì)和異性質(zhì)的模擬提供了一個(gè)方法。當(dāng)m= l時(shí)，該模型就是一個(gè)單一分布。當(dāng)ml時(shí)，它就是分布的線性組合。在現(xiàn)實(shí)生活中，許多現(xiàn)象都非常復(fù)雜，不同元素往往具有各不相同的性質(zhì)，這時(shí)，混合模型是一個(gè)最合適的工具，因?yàn)樗梢园言厮鶟M足的分布都綜

4、合起來(lái)，組合成一個(gè)新的分布，在這個(gè)新的混合分布的基礎(chǔ)上，再進(jìn)行下一步的分析。它具比單一分布有更多的益處。綜上所述，混合分布可以對(duì)大量的數(shù)據(jù)進(jìn)行有效的模擬，尤其是在對(duì)數(shù)據(jù)先驗(yàn)知識(shí)了解較少的情況下，混合分布是一個(gè)很好的選擇，它更加靈活、有效。1同分布同類型的混合分布一種類型的混合分布有：二項(xiàng)分布，指數(shù)分布，泊松分布，正態(tài)分布等等。下面我們以二項(xiàng)分布和正態(tài)分布為例研究混合分布的EM算法的過(guò)程。1.1 L階混合二項(xiàng)分布參數(shù)估計(jì)的EM算法L階混合二項(xiàng)分布的概率密度函數(shù)為其中，且為未知參數(shù)。現(xiàn)在設(shè)是來(lái)自于混合二項(xiàng)分布的樣本。我們的目的是求未知參數(shù)的極大似然估計(jì)。為此先考査其對(duì)數(shù)似然函數(shù)不難看化直接求它的最

5、大值點(diǎn)很難，我們下面將推導(dǎo)該問(wèn)題的EM算法：引入潛在變量，其中，且相互獨(dú)立，是取值為0或1的指示變量，表示來(lái)自于第j個(gè)分支密度，且1.2 M階混合正態(tài)分布（高斯分布）的EM算法估計(jì)隨著社會(huì)、科學(xué)的不斷發(fā)展，混合模型已經(jīng)越來(lái)越被大家熟悉和認(rèn)識(shí)。有限混合高斯分布的以其獨(dú)有的特性更是被大家熟知，并被用于實(shí)際生活中的各個(gè)領(lǐng)域。根據(jù)混合模型的介紹我們可以知道，有限混合正態(tài)分布就是有限個(gè)（2個(gè)或2個(gè)以上）正態(tài)分布的加權(quán)組合。它們的組合具有比單一高斯分布更豐富的性質(zhì)和特點(diǎn)，并且當(dāng)混合正態(tài)分布的階數(shù)不斷增加時(shí)，它可以逼近任何連續(xù)的概率分布。正因?yàn)槿绱?，它的?yīng)用非常廣泛，如在股票、金融、證券、醫(yī)藥、農(nóng)業(yè)等領(lǐng)域都

6、可以用到它。如今，利用它對(duì)數(shù)據(jù)進(jìn)行擬合，即對(duì)其參數(shù)的估計(jì)已經(jīng)成為人們非常關(guān)心的問(wèn)題。每個(gè)分支都有兩個(gè)參數(shù)需要估計(jì)，并且待估計(jì)參數(shù)的先驗(yàn)分布也比較復(fù)雜。1.2.1當(dāng)M己知時(shí)，用EM算法估計(jì)參數(shù)1.2.2當(dāng)M未知時(shí)，基于聚類的EM算法以上的EM算法是設(shè)定混合元個(gè)數(shù)在計(jì)算過(guò)程中是不變的，而在實(shí)際應(yīng)用中，混合高斯模型中的混合元個(gè)數(shù)M一般未知。下面就M未知時(shí)給出一種參數(shù)估計(jì)方法，該方法是建立在聚類算法和EM算法基礎(chǔ)上的一種方法，即初始狀態(tài)的混合元數(shù)比最終得到的混合元數(shù)要大（通常情況下將初始混合數(shù)設(shè)定為最終混合數(shù)的兩倍以上能得到比較好的結(jié)果）。這樣，在建模過(guò)程中可以將相近的兩個(gè)高斯分量并為一個(gè)聚類，然后在

7、重新有EM算法進(jìn)行建模，以此往復(fù)，最終得到想要的混合數(shù)，具體步驟如下（1）設(shè)置初始混合數(shù)（一般將初始混合數(shù)設(shè)置為目標(biāo)混合數(shù)的兩倍以上）。（2）用以上方法算得到元混合高斯分布參數(shù)估計(jì)為。（3）尋找相近（指均值和方差接近）的兩個(gè)高斯分量，將它們合并成一個(gè)新的高斯分量，并且將混合數(shù)減1。合并規(guī)則如下：設(shè)兩個(gè)相近高斯分量的參數(shù)分別為和，合并后新的高斯分量的參數(shù)為，則（4）這時(shí)混合個(gè)數(shù)減小一個(gè)，返回步驟（2）進(jìn)行EM算法估計(jì)，依次下去直到混合數(shù)達(dá)到需要的混合數(shù)M即可?；诰垲惖腅M算法在識(shí)別率上有所提高，而且其實(shí)際運(yùn)算速度也加快了。這是因?yàn)樵趯⒕垲愃惴ㄈ诤线M(jìn)來(lái)以后，相似的高斯分量合并在一起，因而提高了識(shí)

8、別率；并且通過(guò)不斷地合并相似的高斯分量，使EM算法的收斂速度加快，迭代次數(shù)降低，從而提高了運(yùn)算效率.聚類方法的選取和聚類數(shù)目的判定是聚類分析中經(jīng)常遇到的兩大問(wèn)題一般說(shuō)來(lái)，混合元個(gè)數(shù)越大，用樣本對(duì)總體擬合度越高，但是計(jì)算越復(fù)雜，如何選取合適的混合元個(gè)數(shù)很關(guān)鍵，混合模型聚類常通過(guò)貝葉斯信息準(zhǔn)則（BIC）選擇模型。計(jì)算不同模型的BIC值，一般情況下模型的BIC值越大，該模型就越符合實(shí)際。BIC值的計(jì)算依賴于模型的參數(shù)估計(jì)，因此EM算法直接影響B(tài)IC值的計(jì)算。1.2.3基于EM算法的實(shí)例以3分支混合高斯分布模型為例做模擬試驗(yàn)來(lái)說(shuō)明EM算法估計(jì)混合高斯模型參數(shù)的具體過(guò)程并且驗(yàn)證該算法的可行性，實(shí)驗(yàn)步驟如

9、下：（1）按照上述產(chǎn)生隨機(jī)樣本點(diǎn)的方法隨機(jī)產(chǎn)生2000個(gè)三分支二維混合高斯分布模型的樣本點(diǎn)。（2）設(shè)定EM算法迭代計(jì)算過(guò)程中所涉及到的各參數(shù)的初始值，在本試驗(yàn)中初始值的選擇為：先對(duì)混合比例執(zhí)行平均分配原則，各分支的均值從各樣本的最大值與最小值之間隨機(jī)產(chǎn)生，各分支參數(shù)的初始值及估計(jì)結(jié)果如下：從上表可以看出，通過(guò)大樣本的數(shù)值模擬試驗(yàn)，證實(shí)了用EM算法對(duì)混合高斯分布模型的概率密度函數(shù)做參數(shù)估計(jì)時(shí)，其收斂速度比較快。尤其是在大樣本的情況下，其估計(jì)結(jié)果更加接近參數(shù)的真值。2結(jié)語(yǔ)EM算法可通過(guò)對(duì)不完全數(shù)據(jù)進(jìn)行擴(kuò)充之后成為完全數(shù)據(jù)，再對(duì)參數(shù)進(jìn)行極大似然估升，使得分析的結(jié)果更加有效。參考文獻(xiàn)1 肖枝洪，朱強(qiáng).統(tǒng)計(jì)模擬及其R實(shí)現(xiàn)M.武漢：武漢大學(xué)出版社，2010.2 連軍艷. EM算法及其改進(jìn)在混合模型參數(shù)估計(jì)中的應(yīng)用研究D.西安：長(zhǎng)安大學(xué)， 2006.3 王愛(ài)平，張功營(yíng)，劉方. EM算法研究與應(yīng)用J.計(jì)算機(jī)技術(shù)與發(fā)展， 2009，19（09）：108-110.4 楊基棟.EM算法理論及其應(yīng)用J.安慶師范學(xué)院學(xué)報(bào)（自然科學(xué)版），2009，15（04）： 30-35.5 張士峰，混合正態(tài)分布參數(shù)極大似然估計(jì)的EM算法J.飛行器測(cè)控學(xué)報(bào)，2004，23（04）：47-52.6 Dempster，A.P.&D.B.Ru

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于EM算法的混合模型參數(shù)估計(jì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于EM算法的混合模型參數(shù)估計(jì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔