下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
最大似然估計(jì)概述最大似然估計(jì)是一種統(tǒng)計(jì)方法,它用來求一個(gè)樣本集的相關(guān)概率密度函數(shù)的參數(shù)。這個(gè)方法最早是遺傳學(xué)家以及統(tǒng)計(jì)學(xué)家羅納德·費(fèi)雪爵士在1912年至1922年間開始使用的?!八迫弧笔菍?duì)likelihood的一種較為貼近文言文的翻譯,“似然”用現(xiàn)代的中文來說即“可能性”。故而,假設(shè)稱之為“最大可能性估計(jì)”那么更加通俗易懂。最大似然法明確地使用概率模型,其目標(biāo)是尋找能夠以較高概率產(chǎn)生觀察數(shù)據(jù)的系統(tǒng)發(fā)生樹。最大似然法是一類完全基于統(tǒng)計(jì)的系統(tǒng)發(fā)生樹重建方法的代表。該方法在每組序列比對(duì)中考慮了每個(gè)核苷酸替換的概率。最大似然法是要解決這樣一個(gè)問題:給定一組數(shù)據(jù)和一個(gè)參數(shù)待定的模型,如何確定模型的參數(shù),使得這個(gè)確定參數(shù)后的模型在所有模型中產(chǎn)生數(shù)據(jù)的概率最大。通俗一點(diǎn)講,就是在什么情況下最有可能發(fā)生的事件。舉個(gè)例子,假設(shè)有一個(gè)罐子,里面有黑白兩種顏色的球,數(shù)目多少不知,兩種顏色的比例也不知。我們想知道罐中白球和黑球的比例,但我們不能把罐中的球全部拿出來數(shù)?,F(xiàn)在我們可以每次任意從已經(jīng)搖勻的罐中拿一個(gè)球出來,記錄球的顏色,然后把拿出來的球再放回罐中。這個(gè)過程可以重復(fù),我們可以用記錄的球的顏色來估計(jì)罐中黑白球的比例。假設(shè)在前面的一百次重復(fù)記錄中,有七十次是白球,請(qǐng)問罐中白球所占的比例最有可能是多少?
我想很多人立馬有答案:70%。這個(gè)答案是正確的??墒菫槭裁茨兀俊渤WR(shí)嘛!這還要問?!〕其實(shí),在很多常識(shí)的背后,都有相應(yīng)的理論支持。在上面的問題中,就有最大似然法的支持例如,轉(zhuǎn)換出現(xiàn)的概率大約是顛換的三倍。在一個(gè)三條序列的比對(duì)中,如果發(fā)現(xiàn)其中有一列為一個(gè)C,一個(gè)T和一個(gè)G,我們有理由認(rèn)為,C和T所在的序列之間的關(guān)系很有可能更接近。由于被研究序列的共同祖先序列是未知的,概率的計(jì)算變得復(fù)雜;又由于可能在一個(gè)位點(diǎn)或多個(gè)位點(diǎn)發(fā)生屢次替換,并且不是所有的位點(diǎn)都是相互獨(dú)立,概率計(jì)算的復(fù)雜度進(jìn)一步加大。盡管如此,還是能用客觀標(biāo)準(zhǔn)來計(jì)算每個(gè)位點(diǎn)的概率,計(jì)算表示序列關(guān)系的每棵可能的樹的概率。然后,根據(jù)定義,概率總和最大的那棵樹最有可能是反映真實(shí)情況的系統(tǒng)發(fā)生樹。最大似然估計(jì)的原理給定一個(gè)概率分布D,假定其概率密度函數(shù)〔連續(xù)分布〕或概率聚集函數(shù)〔離散分布〕為fD,以及一個(gè)分布參數(shù)θ,我們可以從這個(gè)分布中抽出一個(gè)具有n個(gè)值的采樣,通過利用fD,我們就能計(jì)算出其概率:但是,我們可能不知道θ的值,盡管我們知道這些采樣數(shù)據(jù)來自于分布D。那么我們?nèi)绾尾拍芄烙?jì)出θ呢?一個(gè)自然的想法是從這個(gè)分布中抽出一個(gè)具有n個(gè)值的采樣X1,X2,...,Xn,然后用這些采樣數(shù)據(jù)來估計(jì)θ.一旦我們獲得,我們就能從中找到一個(gè)關(guān)于θ的估計(jì)。最大似然估計(jì)會(huì)尋找關(guān)于θ的最可能的值〔即,在所有可能的θ取值中,尋找一個(gè)值使這個(gè)采樣的“可能性”最大化〕。這種方法正好同一些其他的估計(jì)方法不同,如θ的非偏估計(jì),非偏估計(jì)未必會(huì)輸出一個(gè)最可能的值,而是會(huì)輸出一個(gè)既不高估也不低估的θ值。要在數(shù)學(xué)上實(shí)現(xiàn)最大似然估計(jì)法,我們首先要定義可能性:并且在θ的所有取值上,使這個(gè)[[函數(shù)最大化。這個(gè)使可能性最大的值即被稱為θ的最大似然估計(jì)。注意這里的可能性是指不變時(shí),關(guān)于θ的一個(gè)函數(shù)。最大似然估計(jì)函數(shù)不一定是惟一的,甚至不一定存在。最大似然估計(jì)的例子離散分布,離散有限參數(shù)空間考慮一個(gè)拋硬幣的例子。假設(shè)這個(gè)硬幣正面跟反面輕重不同。我們把這個(gè)硬幣拋80次〔即,我們獲取一個(gè)采樣并把正面的次數(shù)記下來,正面記為H,反面記為T〕。并把拋出一個(gè)正面的概率記為p,拋出一個(gè)反面的概率記為1?p〔因此,這里的p即相當(dāng)于上邊的θ〕。假設(shè)我們拋出了49個(gè)正面,31個(gè)反面,即49次H,31次T。假設(shè)這個(gè)硬幣是我們從一個(gè)裝了三個(gè)硬幣的盒子里頭取出的。這三個(gè)硬幣拋出正面的概率分別為p=1/3,p=1/2,p=2/3.這些硬幣沒有標(biāo)記,所以我們無法知道哪個(gè)是哪個(gè)。使用最大似然估計(jì),通過這些試驗(yàn)數(shù)據(jù)〔即采樣數(shù)據(jù)〕,我們可以計(jì)算出哪個(gè)硬幣的可能性最大。這個(gè)可能性函數(shù)取以下三個(gè)值中的一個(gè):我們可以看到當(dāng)時(shí),可能性函數(shù)取得最大值。這就是p的最大似然估計(jì).離散分布,連續(xù)參數(shù)空間現(xiàn)在假設(shè)例子1中的盒子中有無數(shù)個(gè)硬幣,對(duì)于中的任何一個(gè)p,都有一個(gè)拋出正面概率為p的硬幣對(duì)應(yīng),我們來求其可能性函數(shù)的最大值:其中.我們可以使用微分法來求最值。方程兩邊同時(shí)對(duì)p取微分,并使其為零。在不同比例參數(shù)值下一個(gè)二項(xiàng)式過程的可能性曲線t=3,n=10;其最大似然估計(jì)值發(fā)生在其眾數(shù)(數(shù)學(xué))并在曲線的最大值處。其解為p=0,p=1,以及p=49/80.使可能性最大的解顯然是p=49/80〔因?yàn)閜=0和p=1這兩個(gè)解會(huì)使可能性為零〕。因此我們說最大似然估計(jì)值為..這個(gè)結(jié)果很容易一般化。只需要用一個(gè)字母t代替49用以表達(dá)伯努利試驗(yàn)中的被觀察數(shù)據(jù)〔即樣本〕的'成功'次數(shù),用另一個(gè)字母n代表伯努利試驗(yàn)的次數(shù)即可。使用完全同樣的方法即可以得到最大似然估計(jì)值:對(duì)于任何成功次數(shù)為t,試驗(yàn)總數(shù)為n的伯努利試驗(yàn)。連續(xù)分布,連續(xù)參數(shù)空間最常見的連續(xù)概率分布是正態(tài)分布,其概率密度函數(shù)如下:其n個(gè)正態(tài)隨機(jī)變量的采樣的對(duì)應(yīng)密度函數(shù)〔假設(shè)其獨(dú)立并服從同一分布〕為:或:,這個(gè)分布有兩個(gè)參數(shù):μ,σ2.有人可能會(huì)擔(dān)憂兩個(gè)參數(shù)與上邊的討論的例子不同,上邊的例子都只是在一個(gè)參數(shù)上對(duì)可能性進(jìn)行最大化。實(shí)際上,在兩個(gè)參數(shù)上的求最大值的方法也差不多:只需要分別把可能性在兩個(gè)參數(shù)上最大化即可。當(dāng)然這比一個(gè)參數(shù)麻煩一些,但是一點(diǎn)也不復(fù)雜。使用上邊例子同樣的符號(hào),我們有θ=(μ,σ2).最大化一個(gè)似然函數(shù)同最大化它的自然對(duì)數(shù)是等價(jià)的。因?yàn)樽匀粚?duì)數(shù)log是一個(gè)連續(xù)且在似然函數(shù)的值域內(nèi)嚴(yán)格遞增的函數(shù)。[注意:可能性函數(shù)〔似然函數(shù)〕的自然對(duì)數(shù)跟信息熵以及Fisher信息聯(lián)系緊密。求對(duì)數(shù)通常能夠一定程度上簡(jiǎn)化運(yùn)算,比方在這個(gè)例子中可以看到:這個(gè)方程的解是.這確實(shí)是這個(gè)函數(shù)的最大值,因?yàn)樗铅汤镱^惟一的拐點(diǎn)并且二階導(dǎo)數(shù)嚴(yán)格小于零。同理,我們對(duì)σ求導(dǎo),并使其為零。這個(gè)方程的解是.因此,其關(guān)于θ=(μ,σ2)的最大似然估計(jì)為:..性質(zhì)泛函不變性〔Functionalinvariance〕如果是θ的一個(gè)最大似然估計(jì),那么α=g(θ)的最大似然估計(jì)是.函數(shù)g無需是一個(gè)——映射。漸近線行為最大似然估計(jì)函數(shù)在采樣樣本總數(shù)趨于無窮的時(shí)候到達(dá)最小方差〔其證明可見于Cramer-Raolowerbound〕。當(dāng)最大似然估計(jì)非偏時(shí),等價(jià)的,在極限的情況下我們可以稱其有最小的均方差。對(duì)于獨(dú)立的觀察來說,最大似然估計(jì)函數(shù)經(jīng)常趨于正態(tài)分布。偏差最大似然估計(jì)的非偏估計(jì)偏差是非常重要的。考慮這樣一個(gè)例子,標(biāo)有1到n的n張票放在一個(gè)盒子中。從盒子中隨機(jī)抽取票。如果n是未知的話,那么n的最大似然估計(jì)值就是抽出的票上標(biāo)有的n,盡管其期望值的只有(n+1)/2.為了估計(jì)出最高的n值,我們能確定的只能是n值不小于抽出來的票上的值。最大似然估計(jì)法的思想很簡(jiǎn)單:在已經(jīng)得到試驗(yàn)結(jié)果的情況下,我們應(yīng)該尋找使這個(gè)結(jié)果出現(xiàn)的可能性最大的那個(gè)作為真的估計(jì)。
我們分兩種情進(jìn)行分析:
1.離散型總體
設(shè)為離散型隨機(jī)變量,其概率分布的形式為,那么樣本的概率分布為,在固定時(shí),上式表示取值的概率;當(dāng)固定時(shí),它是的函數(shù),我們把它記為并稱為似然函數(shù)。似然函數(shù)的值的大小意味著該樣本值出現(xiàn)的可能性的大小。既然已經(jīng)得到了樣本值,那它出現(xiàn)的可能性應(yīng)該是大的,即似然函數(shù)的值應(yīng)該是大的。因而我們選擇使到達(dá)最大值的那個(gè)作為真的估計(jì)。2.連續(xù)型總體
設(shè)為連續(xù)型隨機(jī)變量,其概率密度函數(shù)為那么為從該總體抽出的樣本。因?yàn)橄嗷オ?dú)立且同分布,于是,樣本的聯(lián)合概率密度函數(shù)為
,在是固定時(shí),它是在處的密度,它的大小與落在附近的概率的大小成正比,而當(dāng)樣本值固定時(shí),它是的函數(shù)。我們?nèi)园阉洖椴⒎Q為似然函數(shù)。類似于剛剛的討論,我們選擇使最大的那個(gè)作為真的估計(jì)。
總之,在有了試驗(yàn)結(jié)果即樣本值時(shí),似然函數(shù)反映了的各個(gè)不同值導(dǎo)出這個(gè)結(jié)果的可能性的大小。我們選擇使到達(dá)最大值的那個(gè)作為真的估計(jì)。這種求點(diǎn)估計(jì)的方法就叫作最大似然法。
7.2.2最大似然估計(jì)的求法
假定現(xiàn)在我們已經(jīng)觀測(cè)到一組樣本要去估計(jì)未知參數(shù)。一種直觀的想法是,哪一組能數(shù)值使現(xiàn)在的樣本出現(xiàn)的可能性最大,哪一組參數(shù)可能就是真正的參數(shù),我們就要用它作為參數(shù)的估計(jì)值。這里,假定我們有一組樣本.如果對(duì)參數(shù)的兩組不同的值和,似然函數(shù)有如下關(guān)系
,
那么,從又是概率密度函數(shù)的角度來看,上式的意義就是參數(shù)使出現(xiàn)的可能性比參數(shù)使出現(xiàn)的可能性大,當(dāng)然參數(shù)比更像是真正的參數(shù).這樣的分析就導(dǎo)致了參數(shù)估計(jì)的一種方法,即用使似然函數(shù)到達(dá)最大值的點(diǎn),作為未知參數(shù)的估計(jì),這就是所謂的最大似然估計(jì)。現(xiàn)在我們討論求最大似然估計(jì)的具體方法.為簡(jiǎn)單起見,以下記,求θ的極大似然估計(jì)就歸結(jié)為求的最大值點(diǎn).由于對(duì)數(shù)函數(shù)是單調(diào)增函數(shù),所以
(7.2.1)
與有相同的最大值點(diǎn)。而在許多情況下,求的最大值點(diǎn)比擬簡(jiǎn)單,于是,我們就將求的最大值點(diǎn)改為求的最大值點(diǎn).對(duì)關(guān)于求導(dǎo)數(shù),并命其等于零,得到方程組
,
(7.2.2)
稱為似然方程組。解這個(gè)方程組,又能驗(yàn)證它是一個(gè)極大值點(diǎn),那么它必是,也就是的最大值點(diǎn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《建設(shè)工程施工合同示范文本》
- 幼兒園健康教案《五官很重要》及教學(xué)反思
- 2025年運(yùn)載火箭控制系統(tǒng)仿真實(shí)時(shí)處理系統(tǒng)合作協(xié)議書
- 后勤部門工作參考計(jì)劃
- 2025年聚甲醛、聚甲醛合金及改性材料項(xiàng)目發(fā)展計(jì)劃
- 大型型貨車租賃合同書
- 特別贊助協(xié)議書
- 國(guó)際航運(yùn)船只租賃合同
- 商場(chǎng)租賃合同書
- 2025年古馬隆樹脂項(xiàng)目建議書
- 2025年高考化學(xué)二、三輪復(fù)習(xí)策略講座
- 2022年高考數(shù)學(xué)試卷(上海)(秋考)(空白卷)
- 湖南省長(zhǎng)沙市2023-2024學(xué)年四年級(jí)上冊(cè)期末數(shù)學(xué)試題
- 山東省濟(jì)南市語文小升初2024年模擬試題與參考答案
- 裝配式建筑復(fù)習(xí)試題及答案
- 空氣動(dòng)力學(xué)仿真技術(shù):湍流模型:k-ε湍流模型原理與應(yīng)用
- 榛子食品深加工生產(chǎn)項(xiàng)目可行性研究報(bào)告-2024年重點(diǎn)項(xiàng)目
- 支撐梁拆除安全協(xié)議書
- 2024-2030年中國(guó)充血性心力衰竭(CHF)治療設(shè)備行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略分析報(bào)告
- 高中期末考試考風(fēng)考紀(jì)及誠(chéng)信教育
- 小學(xué)語文大單元設(shè)計(jì)論文
評(píng)論
0/150
提交評(píng)論