基于EM算法的混合模型參數(shù)估計(jì)_第1頁(yè)
基于EM算法的混合模型參數(shù)估計(jì)_第2頁(yè)
基于EM算法的混合模型參數(shù)估計(jì)_第3頁(yè)
基于EM算法的混合模型參數(shù)估計(jì)_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)專心-專注-專業(yè)精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)基于EM算法的混合模型參數(shù)估計(jì)作者:樊菊蘭來(lái)源:科教導(dǎo)刊電子版2018年第06期摘 要 有限混合模型是用于分析復(fù)雜問(wèn)題的一個(gè)有效的建模工具。在諸多的混合模型中,混合高斯模型的應(yīng)用更為廣泛,尤其是在圖像處理、人臉識(shí)別、通信和信號(hào)處理等。理論及數(shù)值試驗(yàn)充分證明:混合高斯分布模型能夠逼近任何一個(gè)光滑分布,而對(duì)該模型參數(shù)的有效估計(jì)是準(zhǔn)確分析、模擬復(fù)雜問(wèn)題的必要前提。EM算法自從提出,就已成為一種非常流行地處理不完全數(shù)據(jù)的極大似然估計(jì)的方法。恰好我們經(jīng)常處理的樣本數(shù)據(jù)集通??煽醋?/p>

2、是不完全數(shù)據(jù),進(jìn)而EM算法就為混合高斯模型的參數(shù)估計(jì)提供了一種標(biāo)準(zhǔn)框架。關(guān)鍵詞 EM算法 R軟件 混合模型 高斯混合 參數(shù)估計(jì)中圖分類號(hào):O212 文獻(xiàn)標(biāo)識(shí)碼:A0引言EM 算法就是一種一般的從“不完全數(shù)據(jù)”中求解模型參數(shù)的極大似然估計(jì)的方法,它是在觀察數(shù)據(jù)的基礎(chǔ)上添加一些“潛在數(shù)據(jù)”,從而簡(jiǎn)化計(jì)算并完成一系列簡(jiǎn)單的極大化或模擬。EM 算法的每一步迭代中包括一個(gè) E 步期望步(Expectation Step)和一個(gè)M 步極大似然步(Maximum Likelihood Step)。算法的優(yōu)勢(shì)在于它在一定意義下可靠地收斂到局部極大,也就是說(shuō)在一般條件下每次迭代都增加似然函數(shù)值,當(dāng)似然函數(shù)值是有

3、界的時(shí)候,迭代序列收斂到一個(gè)穩(wěn)定值的上確界。缺點(diǎn)是當(dāng)缺失數(shù)據(jù)比例較大時(shí)候,它的收斂比率比較緩慢?;旌戏植际怯邢迋€(gè)分布的組合,它綜合了各個(gè)分支的性質(zhì)和特點(diǎn),它具有許多優(yōu)勢(shì):(1)可以用來(lái)模擬復(fù)雜的數(shù)據(jù)或問(wèn)題。由于混合模型擁有許多不同類型的混合形式,有相同總體的混合,也有各種不同總體的混合。因此,可以根據(jù)數(shù)據(jù)的不同情況,來(lái)選擇與之相符的混合模型來(lái)進(jìn)行模擬。(2)為同性質(zhì)和異性質(zhì)的模擬提供了一個(gè)方法。當(dāng)m= l時(shí),該模型就是一個(gè)單一分布。當(dāng)ml時(shí),它就是分布的線性組合。在現(xiàn)實(shí)生活中,許多現(xiàn)象都非常復(fù)雜,不同元素往往具有各不相同的性質(zhì),這時(shí),混合模型是一個(gè)最合適的工具,因?yàn)樗梢园言厮鶟M足的分布都綜

4、合起來(lái),組合成一個(gè)新的分布,在這個(gè)新的混合分布的基礎(chǔ)上,再進(jìn)行下一步的分析。它具比單一分布有更多的益處。綜上所述,混合分布可以對(duì)大量的數(shù)據(jù)進(jìn)行有效的模擬,尤其是在對(duì)數(shù)據(jù)先驗(yàn)知識(shí)了解較少的情況下,混合分布是一個(gè)很好的選擇,它更加靈活、有效。1同分布同類型的混合分布一種類型的混合分布有:二項(xiàng)分布,指數(shù)分布,泊松分布,正態(tài)分布等等。下面我們以二項(xiàng)分布和正態(tài)分布為例研究混合分布的EM算法的過(guò)程。1.1 L階混合二項(xiàng)分布參數(shù)估計(jì)的EM算法L階混合二項(xiàng)分布的概率密度函數(shù)為其中,且為未知參數(shù)。現(xiàn)在設(shè)是來(lái)自于混合二項(xiàng)分布的樣本。我們的目的是求未知參數(shù)的極大似然估計(jì)。為此先考査其對(duì)數(shù)似然函數(shù)不難看化直接求它的最

5、大值點(diǎn)很難,我們下面將推導(dǎo)該問(wèn)題的EM算法:引入潛在變量,其中,且相互獨(dú)立,是取值為0或1的指示變量,表示來(lái)自于第j個(gè)分支密度,且1.2 M階混合正態(tài)分布(高斯分布)的EM算法估計(jì)隨著社會(huì)、科學(xué)的不斷發(fā)展,混合模型已經(jīng)越來(lái)越被大家熟悉和認(rèn)識(shí)。有限混合高斯分布的以其獨(dú)有的特性更是被大家熟知,并被用于實(shí)際生活中的各個(gè)領(lǐng)域。根據(jù)混合模型的介紹我們可以知道,有限混合正態(tài)分布就是有限個(gè)(2個(gè)或2個(gè)以上)正態(tài)分布的加權(quán)組合。它們的組合具有比單一高斯分布更豐富的性質(zhì)和特點(diǎn),并且當(dāng)混合正態(tài)分布的階數(shù)不斷增加時(shí),它可以逼近任何連續(xù)的概率分布。正因?yàn)槿绱?,它的?yīng)用非常廣泛,如在股票、金融、證券、醫(yī)藥、農(nóng)業(yè)等領(lǐng)域都

6、可以用到它。如今,利用它對(duì)數(shù)據(jù)進(jìn)行擬合,即對(duì)其參數(shù)的估計(jì)已經(jīng)成為人們非常關(guān)心的問(wèn)題。每個(gè)分支都有兩個(gè)參數(shù)需要估計(jì),并且待估計(jì)參數(shù)的先驗(yàn)分布也比較復(fù)雜。1.2.1當(dāng)M己知時(shí),用EM算法估計(jì)參數(shù)1.2.2當(dāng)M未知時(shí),基于聚類的EM算法以上的EM算法是設(shè)定混合元個(gè)數(shù)在計(jì)算過(guò)程中是不變的,而在實(shí)際應(yīng)用中,混合高斯模型中的混合元個(gè)數(shù)M一般未知。下面就M未知時(shí)給出一種參數(shù)估計(jì)方法,該方法是建立在聚類算法和EM算法基礎(chǔ)上的一種方法,即初始狀態(tài)的混合元數(shù)比最終得到的混合元數(shù)要大(通常情況下將初始混合數(shù)設(shè)定為最終混合數(shù)的兩倍以上能得到比較好的結(jié)果)。這樣,在建模過(guò)程中可以將相近的兩個(gè)高斯分量并為一個(gè)聚類,然后在

7、重新有EM算法進(jìn)行建模,以此往復(fù),最終得到想要的混合數(shù),具體步驟如下(1)設(shè)置初始混合數(shù)(一般將初始混合數(shù)設(shè)置為目標(biāo)混合數(shù)的兩倍以上)。(2)用以上方法算得到元混合高斯分布參數(shù)估計(jì)為。(3)尋找相近(指均值和方差接近)的兩個(gè)高斯分量,將它們合并成一個(gè)新的高斯分量,并且將混合數(shù)減1。合并規(guī)則如下:設(shè)兩個(gè)相近高斯分量的參數(shù)分別為和,合并后新的高斯分量的參數(shù)為,則(4)這時(shí)混合個(gè)數(shù)減小一個(gè),返回步驟(2)進(jìn)行EM算法估計(jì),依次下去直到混合數(shù)達(dá)到需要的混合數(shù)M即可?;诰垲惖腅M算法在識(shí)別率上有所提高,而且其實(shí)際運(yùn)算速度也加快了。這是因?yàn)樵趯⒕垲愃惴ㄈ诤线M(jìn)來(lái)以后,相似的高斯分量合并在一起,因而提高了識(shí)

8、別率;并且通過(guò)不斷地合并相似的高斯分量,使EM算法的收斂速度加快,迭代次數(shù)降低,從而提高了運(yùn)算效率.聚類方法的選取和聚類數(shù)目的判定是聚類分析中經(jīng)常遇到的兩大問(wèn)題一般說(shuō)來(lái),混合元個(gè)數(shù)越大,用樣本對(duì)總體擬合度越高,但是計(jì)算越復(fù)雜,如何選取合適的混合元個(gè)數(shù)很關(guān)鍵,混合模型聚類常通過(guò)貝葉斯信息準(zhǔn)則(BIC)選擇模型。計(jì)算不同模型的BIC值,一般情況下模型的BIC值越大,該模型就越符合實(shí)際。BIC值的計(jì)算依賴于模型的參數(shù)估計(jì),因此EM算法直接影響B(tài)IC值的計(jì)算。1.2.3基于EM算法的實(shí)例以3分支混合高斯分布模型為例做模擬試驗(yàn)來(lái)說(shuō)明EM算法估計(jì)混合高斯模型參數(shù)的具體過(guò)程并且驗(yàn)證該算法的可行性,實(shí)驗(yàn)步驟如

9、下:(1)按照上述產(chǎn)生隨機(jī)樣本點(diǎn)的方法隨機(jī)產(chǎn)生2000個(gè)三分支二維混合高斯分布模型的樣本點(diǎn)。(2)設(shè)定EM算法迭代計(jì)算過(guò)程中所涉及到的各參數(shù)的初始值,在本試驗(yàn)中初始值的選擇為:先對(duì)混合比例執(zhí)行平均分配原則,各分支的均值從各樣本的最大值與最小值之間隨機(jī)產(chǎn)生,各分支參數(shù)的初始值及估計(jì)結(jié)果如下:從上表可以看出,通過(guò)大樣本的數(shù)值模擬試驗(yàn),證實(shí)了用EM算法對(duì)混合高斯分布模型的概率密度函數(shù)做參數(shù)估計(jì)時(shí),其收斂速度比較快。尤其是在大樣本的情況下,其估計(jì)結(jié)果更加接近參數(shù)的真值。2結(jié)語(yǔ)EM算法可通過(guò)對(duì)不完全數(shù)據(jù)進(jìn)行擴(kuò)充之后成為完全數(shù)據(jù),再對(duì)參數(shù)進(jìn)行極大似然估升,使得分析的結(jié)果更加有效。參考文獻(xiàn)1 肖枝洪,朱強(qiáng).統(tǒng)計(jì)模擬及其R實(shí)現(xiàn)M.武漢:武漢大學(xué)出版社,2010.2 連軍艷. EM算法及其改進(jìn)在混合模型參數(shù)估計(jì)中的應(yīng)用研究D.西安:長(zhǎng)安大學(xué), 2006.3 王愛(ài)平,張功營(yíng),劉方. EM算法研究與應(yīng)用J.計(jì)算機(jī)技術(shù)與發(fā)展, 2009,19(09):108-110.4 楊基棟.EM算法理論及其應(yīng)用J.安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2009,15(04): 30-35.5 張士峰,混合正態(tài)分布參數(shù)極大似然估計(jì)的EM算法J.飛行器測(cè)控學(xué)報(bào),2004,23(04):47-52.6 Dempster,A.P.&D.B.Ru

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論