




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1,2,一、統(tǒng)計(jì)推斷中可用的三種信息 二、貝葉斯公式 三、共軛先驗(yàn)分布 四、超參數(shù)及其確定 五、多參數(shù)模型 六、充分統(tǒng)計(jì)量,第一章 先驗(yàn)分布與后驗(yàn)分布,3,1.總體信息:總體分布或所屬分布族提供給我們的信息 2.樣本信息:從總體抽取的樣本提供給我們的信息 3.先驗(yàn)信息:在抽樣之前有關(guān)統(tǒng)計(jì)推斷的一些信息。 (兩個(gè)例子),1.1 統(tǒng)計(jì)推斷中可用的三種信息,4,1.2 貝葉斯公式,貝葉斯統(tǒng)計(jì)學(xué)的基礎(chǔ)是著名的貝葉斯公式,它是英國(guó)學(xué)者貝葉斯(T.R.Bayes17021761)在他死后二年發(fā)表的一篇論文論有關(guān)機(jī)遇問(wèn)題的求解中提出的。經(jīng)過(guò)二百年的研究與應(yīng)用,貝葉斯的統(tǒng)計(jì)思想得到很大的發(fā)展,目前已形成一個(gè)統(tǒng)
2、計(jì)學(xué)派貝葉斯學(xué)派。為了紀(jì)念他,英國(guó)歷史最悠久的統(tǒng)計(jì)雜志Biometrika在1958年又全文刊登貝葉斯的這篇論文。,5,一、貝葉斯公式的三種形式,初等概率論中的貝葉斯公式是用事件的 概率形式給出的??稍谪惾~斯統(tǒng)計(jì)學(xué)中應(yīng)用 更多的是貝葉斯公式的密度函數(shù)形式。 1.貝葉斯公式的事件形式: 假定 是互不相容的事件,它 們之和 包含事件B,即 ,則有:,6,例1.5 投資決策問(wèn)題,為了提高某產(chǎn)品的質(zhì)量,公司經(jīng)理考慮增加投 資來(lái)改進(jìn)生產(chǎn)設(shè)備,預(yù)計(jì)需投資100萬(wàn)元,但從投 資效果看,下屬部門有兩種意見(jiàn): 1 :改進(jìn)生產(chǎn)設(shè)備后,高質(zhì)量產(chǎn)品可占90% 2 :改進(jìn)生產(chǎn)設(shè)備后,高質(zhì)量產(chǎn)品可占70% 問(wèn):公司經(jīng)理怎
3、樣決策? 注:根據(jù)過(guò)去的經(jīng)驗(yàn)知:1的可信度為40%,2的可 信度為60%,7,假設(shè) 隨機(jī)變量X有一個(gè)密度函數(shù)p(x;),其中是一個(gè)參數(shù),不同的對(duì)應(yīng)不同的密度函數(shù),故從貝葉斯觀點(diǎn)看,p(x;)是在給定后的一個(gè)條件密度函數(shù),因此記為p(x)更恰當(dāng)一些。這個(gè)條件密度能提供我們的有關(guān)的信息就是總體信息。,假設(shè) 當(dāng)給定后,從總體p(x)中隨機(jī)抽取一個(gè)樣本X1,Xn,該樣本中含有的有關(guān)信息。這種信息就是樣本信息。,2.貝葉斯公式的密度函數(shù)形式: 在給出貝葉斯公式的密度函數(shù)形式之前,先介紹以下貝葉斯學(xué)派的一些具體思想或者叫著基本假設(shè) :,8,假設(shè) 從貝葉斯觀點(diǎn)來(lái)看,未知參數(shù)是一個(gè)隨機(jī)變量。而描述這個(gè)隨機(jī)變量
4、的分布可從先驗(yàn)信息中歸納出來(lái),這個(gè)分布稱為先驗(yàn)分布,其密度函數(shù)用()表示。,(1) 先驗(yàn)分布 定義1 將總體中的未知參數(shù)看成一取值于的隨機(jī)變量,它有一概率分布,記為(),稱為參數(shù)的先驗(yàn)分布。,(2) 后驗(yàn)分布 在貝葉斯統(tǒng)計(jì)學(xué)中,把以上的三種信息歸納起來(lái)的最好形式是在總體分布基礎(chǔ)上獲得的樣本X1,Xn,和參數(shù)的聯(lián)合密度函數(shù):,9,在這個(gè)聯(lián)合密度函數(shù)中。當(dāng)樣本 給定之后,未知的僅是參數(shù)了,我們關(guān)心的是樣本給定后,的條件密度函數(shù),依據(jù)密度的計(jì)算公式,容易獲得這個(gè)條件密度函數(shù):,這就是貝葉斯公式的密度函數(shù)形式,其中 稱為的后驗(yàn)密度函數(shù),或后驗(yàn)分布。而 :,是樣本的邊際分布,或稱樣本 的無(wú)條件分布,它的
5、積分區(qū)域就是參數(shù)的取值范圍,隨具體情況而定。,10,3.貝葉斯公式的離散形式:,當(dāng) 是離散隨機(jī)變量時(shí),先驗(yàn)分布可用先驗(yàn)分布列(i),這時(shí)后驗(yàn)分布也是離散形式: 假如總體X也是離散的,則只須將p(x|)換成P(X=x|)即可。,11,前面的分析總結(jié)如下:人們根據(jù)先驗(yàn)信息對(duì)參數(shù)已有一個(gè)認(rèn)識(shí),這個(gè)認(rèn)識(shí)就是先驗(yàn)分布()。通過(guò)試驗(yàn),獲得樣本。從而對(duì)的先驗(yàn)分布進(jìn)行調(diào)整,調(diào)整的方法就是使用上面的貝葉斯公式,調(diào)整的結(jié)果就是后驗(yàn)分布 。后驗(yàn)分布是三種信息的綜合。獲得后驗(yàn)分布使人們對(duì)的認(rèn)識(shí)又前進(jìn)一步,可看出,獲得樣本的的效果是把我們對(duì)的認(rèn)識(shí)由()調(diào)整到 。所以對(duì)的統(tǒng)計(jì)推斷就應(yīng)建立在后驗(yàn)分布 的基礎(chǔ)上。,二、后驗(yàn)分
6、布是三種信息的綜合,12,例1.4 設(shè)事件A的概率為 ,即 。為了估計(jì) 而作n次獨(dú)立觀察,其中事件A出現(xiàn)次數(shù)為X,則有X服從二項(xiàng)分布 即,解題步驟:1.作貝葉斯假設(shè)。如果此時(shí)我們對(duì)事件A的發(fā)生沒(méi)有任何了解,對(duì) 的大小也沒(méi)有任何信息。在這種情況下,貝葉斯建議用區(qū)間(0,1)上的均勻分布作為的先驗(yàn)分布。因?yàn)樗冢?,1)上每一點(diǎn)都是機(jī)會(huì)均等的。因此:,2.計(jì)算樣本X與參數(shù) 的聯(lián)合分布:,此式在定義域上與二項(xiàng)分布有區(qū)別。,如何求出后驗(yàn)分布?,13,即:,5.具體算例。拉普拉斯計(jì)算過(guò)這個(gè)概率,研究男嬰的誕生比例是否大于0.5?如抽了251527個(gè)男嬰,女嬰241945個(gè)。他選用U(0,1)作為的先驗(yàn)分
7、布,于是可得的后驗(yàn)分布Be(x+1,n-x+1), 其中n=251527+241945=493472,x=251527。由此拉普拉斯計(jì)算了“0.5”的后驗(yàn)概率: 故他斷言男嬰誕生的概率大于0.5。,4.利用貝葉斯公式可得 的后驗(yàn)分布:,3.計(jì)算X的邊際密度為:,14,注:1.伽瑪分布與貝塔分布簡(jiǎn)介:,定義:定義在0,1上,且用密度函數(shù):,表示的概率分布稱為型分布,記為(p,q)或者e(p,q)。,15,2.特例:當(dāng)p=q=1時(shí), (1,1)型分布即為區(qū)間0,1上的均勻分布; 當(dāng)p=q=1/2, (1/2,1/2)型分布稱為反正弦分布,密度函數(shù)為: 設(shè) ,則 的密度函數(shù)為:,即:,3.數(shù)字特征:
8、,16,3.為什么將貝塔分布作為的先驗(yàn)分布族是恰當(dāng)?shù)模?(1)參數(shù)是廢品率,它僅在(0,1)上取值。因此,必需用區(qū)間(0,1)上的一個(gè)分布去擬合先驗(yàn)信息。分布正是這樣一個(gè)分布。,(2)分布含有兩個(gè)參數(shù)p與q,不同的p與q就對(duì)應(yīng)不同的先驗(yàn)分布,因此這種分布的適應(yīng)面較大。,(3)樣本X的分布為二項(xiàng)分布b(n,)時(shí),假如的先驗(yàn)分布為分布,則用貝葉斯估計(jì)算得的后驗(yàn)分布仍然是分布,只是其中的參數(shù)不同。這樣的先驗(yàn)分布(分布)稱為參數(shù)的共軛先驗(yàn)分布。選擇共軛先驗(yàn)分布在處理數(shù)學(xué)問(wèn)題上帶來(lái)不少方便。,17,1.3 共軛先驗(yàn)分布,一、共軛先驗(yàn)分布 定義2 設(shè) 是總體分布中的參數(shù)(或參數(shù)向 量), ()是 的先驗(yàn)密
9、度函數(shù),假如由抽樣 信息算得的后驗(yàn)密度函數(shù)與()有相同的形式, 則稱()是 的(自然)共軛先驗(yàn)分布。,注意:共軛先驗(yàn)分布是對(duì)某一分布中的參數(shù)而言的。如正態(tài)均值、正態(tài)方差、泊松均值等。離開(kāi)指定參數(shù)及其所在的分布去談?wù)摴曹椣闰?yàn)分布是沒(méi)有意義的。,18,(2)確定先驗(yàn)分布:,例1.6 證明:正態(tài)均值(方差已知)的共軛先驗(yàn)分布是正態(tài)分布。,證明思路: (1)寫出樣本的似然函數(shù):,19,(3)計(jì)算后驗(yàn)分布:,20,21,補(bǔ)充例題: 設(shè)X表示人的胸圍,根據(jù)經(jīng)驗(yàn),胸圍是近 似服從正態(tài)分布的?,F(xiàn)測(cè)量了n=10000個(gè) 人的胸圍,得樣本均值為39.8(cm),樣本 方差為4,假設(shè)的先驗(yàn)分布為N(38,9), 求
10、的后驗(yàn)分布。 (答案: N(39.8,1/2500),說(shuō)明:樣本較大時(shí),似然函數(shù)起決定作用, 先驗(yàn)信息幾乎不起做用。,22,二、怎樣簡(jiǎn)化后驗(yàn)分布的計(jì)算 省略常數(shù)因子,在給定樣本分布p(x|)和先驗(yàn)分布()后可用貝葉斯公式計(jì)算的后驗(yàn)分布:()= p(x|) ()/m(x),由于m(x)不依賴于,在計(jì)算的后驗(yàn)分布中僅起到一個(gè)正則化因子的作用。假如把m(x)省略,把貝葉斯公式改寫成如下等價(jià)形式: 其中符號(hào)“ ”表示兩邊僅差一個(gè)常數(shù)因子,一個(gè)不依賴于的常數(shù)因子。上式右端稱為后驗(yàn)分布 的核。,23,利用后驗(yàn)分布的核重新證明例1.6,24,例1.7 證明:二項(xiàng)分布的成功概率的共軛先驗(yàn)分布是貝塔分布。,25
11、,三、共軛先驗(yàn)分布的優(yōu)缺點(diǎn),共軛先驗(yàn)分布在很多場(chǎng)合被采用,因?yàn)樗?兩個(gè)優(yōu)點(diǎn): (1)計(jì)算方便。 (2)后驗(yàn)分布的一些參數(shù)可得到很好的解釋。 不足:怎樣找到合適的先驗(yàn)分布?,26,例1.8 例1.6中后驗(yàn)均值與后驗(yàn)方差的合理解釋。,由例1.6知 其中 是用方差倒數(shù)組成的權(quán),于是后驗(yàn)均值 是樣本均值與先驗(yàn)均值 的加權(quán)平均。 而 可解釋為:后驗(yàn)分布的精度是樣本均 值分布的精度與先驗(yàn)分布精度之和,增加樣本量n或減少先 驗(yàn)分布方差都有利于提高后驗(yàn)分布的精度。,27,例1.9 對(duì)例1.7中后驗(yàn)分布的均值和方差的解釋。 分析:后驗(yàn)分布Be(+x, +n-x)的均值和方差可寫為:,28,29,30,四、 常
12、用的一些共軛先驗(yàn)分布,共軛先驗(yàn)分布選取的一般原則: 是由似然函數(shù)L()=p(x|)中所含的因式所 決定的,即選與似然函數(shù)具有相同核的分布作 為先驗(yàn)分布。 例1.10 設(shè) 是來(lái)自正態(tài)分布 的 一個(gè)樣本觀測(cè)值,其中已知,求 方差的共 軛先驗(yàn)分布。,31,解題的基本思路:,寫出樣本的似然函數(shù):,么分布具有這種形式的核呢?,32,33,34,常用的一些共軛先驗(yàn)分布,35,1.4 超參數(shù)及其確定,一、超參數(shù)的定義:先驗(yàn)分布中所含的未知參數(shù)稱為超參數(shù) 二、估計(jì)方法:共軛先驗(yàn)分布是一種有信息的先驗(yàn)分布,故其中所含的超參數(shù)應(yīng)充分利用各種先驗(yàn)信息來(lái)確定它,下面用一個(gè)例子來(lái)介紹目前國(guó)內(nèi)外文獻(xiàn)中對(duì)超參數(shù)的估計(jì)方法:
13、 問(wèn)題:二項(xiàng)分布中成功概率的共軛先驗(yàn)分布是貝塔分布Be(,),怎樣確定兩個(gè)超參數(shù)和?,36,1.利用先驗(yàn)矩:,37,2.利用先驗(yàn)分位數(shù):,假如根據(jù)先驗(yàn)信息可以確定貝塔分布的二個(gè)分位數(shù),則可用這兩個(gè)分位數(shù)來(lái)確定與,譬如用兩個(gè)上、下四分位數(shù)U與L來(lái)確定與,U與L分別滿足如下二個(gè)方程: 從這兩個(gè)方程解出與即可確定超參數(shù)。,38,求解方法:1利用貝塔分布和F分布間的關(guān)系,對(duì)不同的與多算一些值,使積分值逐漸逼近0.25. 2 對(duì)一些典型的與,尋求其上下四分位數(shù),這樣可獲得一張表,(見(jiàn)課本18頁(yè))查表即可,39,3.利用先驗(yàn)矩和先驗(yàn)分位數(shù),假如根據(jù)先驗(yàn)信息可獲得先驗(yàn)均值 和p分位數(shù) ,則可列出下列方程:
14、由此可解出與的估計(jì)值。 4.其它方法,40,1.5 多參數(shù)模型,由以上幾節(jié)內(nèi)容可知,求某一個(gè)參數(shù)的后驗(yàn)分布的基本思想可概括為:先根據(jù)先驗(yàn)信息給出參數(shù)的先驗(yàn)分布,然后按貝葉斯公式算得后驗(yàn)分布,即: 但在很多實(shí)際問(wèn)題中卻包含有多個(gè)未知參數(shù)的情形,如正態(tài)分布、多項(xiàng)分布以及多元正態(tài)分布等,此時(shí)可采用與單參數(shù)相似的方法來(lái)求參數(shù)的后驗(yàn)分布,而把其它的參數(shù)看成是討厭參數(shù)。,41,例1.12 試求正態(tài)均值與正態(tài)方差的(聯(lián)合) 共軛先驗(yàn)分布及后驗(yàn)分布。(P24),1.取先驗(yàn)分布為 的情形 2.關(guān)于指數(shù)分布族的若干結(jié)論 3.取先驗(yàn)分布為共軛先驗(yàn)分布的情形,42,1.取先驗(yàn)分布為 的情形,43,44,back,45
15、,3.取先驗(yàn)分布為共軛先驗(yàn)分布的情形,(1)求 的共軛先驗(yàn)密度 (2)求 的后驗(yàn)邊際密度 (3)求給定 后 的條件后驗(yàn)密度函數(shù) 例題,46,例 有一實(shí)驗(yàn)站關(guān)于生長(zhǎng)小麥的經(jīng)驗(yàn)為每塊樣地的均值 和標(biāo)準(zhǔn)差分別為100及10的正態(tài)分布,現(xiàn)在他們研究施加激 素的影響。在12塊地施加激素后所得產(chǎn)量如下(單位:千克): 141,102,73,171,137,91,81,157,146,69,121,134 關(guān)于方差的信息是均值、標(biāo)準(zhǔn)差分別約為300及160; 關(guān)于均值的信息是均值約為110,約為15即相當(dāng)于觀測(cè)了 15個(gè)觀測(cè)值。 求: (1) 的共軛先驗(yàn); (2) 的后驗(yàn)密度函數(shù); (3) 的邊際后驗(yàn); (
16、4) 對(duì) 已知情況下的條件后驗(yàn)密度函數(shù)。,back,47,1.6 充分統(tǒng)計(jì)量,一、經(jīng)典統(tǒng)計(jì)中充分統(tǒng)計(jì)量的回顧 充分性是數(shù)理統(tǒng)計(jì)中最重要的概念之一,也是數(shù)理統(tǒng)計(jì)這 一學(xué)科特有的基本概念之一。它是Fisher在1925年提出的。 充分性的直觀定義:不損失信息的統(tǒng)計(jì)量。,48,定義:設(shè) 是來(lái)自分布函數(shù)F(x|)的一個(gè)樣本,T=T(x)是統(tǒng)計(jì)量,假如在給定T(x)=t的條件下,x的條件分布與無(wú)關(guān)的話,則稱該統(tǒng)計(jì)量為的充分統(tǒng)計(jì)量。,49,充分統(tǒng)計(jì)量的一個(gè)重要特性:當(dāng)?shù)玫匠浞纸y(tǒng)計(jì)量T的某個(gè)取值t之后,而失去原樣本的觀察值也沒(méi)有關(guān)系。因?yàn)槲覀兛梢愿鶕?jù)上述的條件分布來(lái)構(gòu)造某個(gè)隨機(jī)試驗(yàn),從中獲得來(lái)自總體的一個(gè)新
17、樣本,這個(gè)新樣本雖不能完全恢復(fù)老樣本的原狀,但它與老樣本所含的有關(guān)參數(shù)的信息是一樣的。,50,因子分解定理:一個(gè)統(tǒng)計(jì)量T(x)對(duì)參數(shù)是充分的充要條件是:存在一個(gè)t與的函數(shù)g(t,)和一個(gè)樣本x的函數(shù)h(x),使得對(duì)任一樣本x和任意,樣本的聯(lián)合密度p(x|)可表示為它們的乘積,即: p(x|)= g(T(x),) h(x),這個(gè)定理表明:假如存在充分統(tǒng)計(jì)量T(x), 則樣本分布p(x|)一定可以分解為兩個(gè)因子的 乘積:一個(gè)是與無(wú)關(guān),僅與樣本x有關(guān);另一 個(gè)是可以與有關(guān),但與樣本x的關(guān)系僅僅通過(guò) 充分統(tǒng)計(jì)量T(x)表現(xiàn)出來(lái)。,51,二、貝葉斯統(tǒng)計(jì)中充分統(tǒng)計(jì)量的有關(guān)結(jié)論及應(yīng)用,定理1.6.1設(shè) 是來(lái)自密度函數(shù)p(x|)的一個(gè)樣本,T=T(x)是統(tǒng)計(jì)量,它的密度函數(shù)為p(t|),又設(shè)H=()是的某個(gè)先驗(yàn)分布族,則T(x)為的充分統(tǒng)計(jì)量的充要條件是對(duì)任一
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 外科護(hù)士長(zhǎng)個(gè)人述職報(bào)告范文
- 2025年幼兒園疫病信息報(bào)告計(jì)劃
- 抖音短視頻新媒體運(yùn)營(yíng)職責(zé)
- 零成本智能硬件營(yíng)銷方案范文
- 以市場(chǎng)機(jī)制為翼鑄博物館核心產(chǎn)品之魂
- 以實(shí)驗(yàn)探究為翼展初中生物創(chuàng)新之翔:創(chuàng)新能力培養(yǎng)實(shí)踐與探索
- 醫(yī)療行業(yè)一體機(jī)培訓(xùn)心得體會(huì)
- 壓瘡護(hù)理流程優(yōu)化小組職責(zé)
- 專升本學(xué)科交叉學(xué)習(xí)心得體會(huì)
- 六年級(jí)下學(xué)期語(yǔ)文家校互動(dòng)計(jì)劃
- 山東省濟(jì)南市歷城區(qū)2022-2023學(xué)年六年級(jí)下學(xué)期期末數(shù)學(xué)試卷
- 嘉峪關(guān)市招聘公辦幼兒園編制外聘用制教師考試真題2022
- 農(nóng)村小城鎮(zhèn)建設(shè)論文3000字范文
- 重癥患者SOFA評(píng)分表實(shí)用文檔
- 2022年7月浙江省普通高校招生學(xué)考科目考試歷史試題及答案
- 特種設(shè)備壓力管道基礎(chǔ)知識(shí)
- GB/T 5976-2006鋼絲繩夾
- GB/T 18981-2008射釘
- 新《高等教育學(xué)》考試復(fù)習(xí)題庫(kù)450題(含各題型)
- CSC-2000變電站自動(dòng)監(jiān)控系統(tǒng)使用說(shuō)明書(shū)
- MES七大功能-MES項(xiàng)目解決方案
評(píng)論
0/150
提交評(píng)論