先驗分布的先驗分布與計算學(xué)習(xí)機制

上傳人：1*** IP屬地：廣東上傳時間：2023-11-11 格式：DOCX 頁數(shù)：5 大小：40.82KB 積分：12 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

先驗分布的先驗分布與計算學(xué)習(xí)機制

由于數(shù)據(jù)收集和知識發(fā)現(xiàn)的搜索，巴巴斯網(wǎng)絡(luò)的發(fā)展促使計算機科學(xué)家注重學(xué)習(xí)和統(tǒng)計推斷方法。Bayesian方法的特點是使用概率去表示所有形式的不確定性,學(xué)習(xí)或其他形式的推理都用概率規(guī)則來實現(xiàn)。貝葉斯學(xué)習(xí)的結(jié)果表示為隨機變量的概率分布,它可以解釋為我們對不同可能性的信任程度。Bayesian定理和Bayesian假設(shè)是貝葉斯學(xué)習(xí)的兩大支柱。貝葉斯方法使用主觀概率和先驗分布,用于學(xué)習(xí)和建造貝葉斯網(wǎng)絡(luò),特別適用于樣本難得的情況。本文分析Bayesian方法的計算學(xué)習(xí)機制和問題求解的基本步驟,導(dǎo)出在沒有先驗分布的任何信息時,使用貝葉斯假設(shè)符合最大熵原則,而提高先驗指派的精確度對提高貝葉斯方法學(xué)習(xí)的質(zhì)量和效率有重要的作用。1隨機變量px—連續(xù)隨機變量的Bayesian定理變量X取值為x的概率表示為p(X=x|ξ)或p(x|ξ),它是個人帶有先驗信息ξ所得到的。為了簡便起見,本文以下省去ξ而記為p(X=x)或p(x)。同時,p(X=x)或p(x)也表示密度函數(shù)或概率分布。其實際意義可在上下文中加以判別。如果變量的密度函數(shù)依賴于未知參數(shù)θ,則密度函數(shù)是θ在給定某個值時X的條件密度函數(shù),記為p(x|θ)。假定根據(jù)參數(shù)θ的先驗信息確定其先驗分布密度為π(θ)?，F(xiàn)得到X的一個樣本X=(X1,X2,…,Xn),樣本觀測值為x=(x1,x2,…,xn)。于是p(x|θ)又可看作X1,X2,…,Xn作為相互獨立的隨機變量的聯(lián)合條件分布密度函數(shù):p(x|θ)=n∏i=1p(xi|θ)?(i=1,2,?,n).(1)p(x|θ)=∏i=1np(xi|θ)?(i=1,2,?,n).(1)這個函數(shù)即樣本的似然函數(shù)。設(shè)樣本X與參數(shù)θ的聯(lián)合分布密度記為h(x,θ),將其按乘法公式展開:h(x?θ)=π(θ|x)m(x)?(2)h(x?θ)=π(θ|x)m(x)?(2)其中m(x)為x的邊緣密度函數(shù)。π(θ|x)是在給定樣本觀測值x的條件下,θ的條件分布密度函數(shù),稱為θ的后驗分布密度函數(shù)。根據(jù)乘法公式和邊緣密度函數(shù)的定義,由(2)式得:π(θ|x)=h(x,θ)m(x)=p(x|θ)π(θ)∫Θp(x|θ)π(θ)dθ.(3)式(3)就是連續(xù)隨機變量形式(或密度函數(shù)形式)的Bayesian公式(Bayesian定理)。2貝葉斯假設(shè)無信息先驗中的熵值如何合理地確定先驗分布,是Bayesian方法的一個重要問題。在沒有任何信息可以幫助我們?nèi)ゴ_定先驗分布的情況下,則認(rèn)為參數(shù)θ具有無信息先驗分布π(θ)。當(dāng)θ∈D時π(θ)=C,當(dāng)θ∈/D時π(θ)=0。這就是貝葉斯假設(shè)。最大熵原則:無信息先驗分布應(yīng)取參數(shù)θ的變化范圍內(nèi)熵最大的分布。可以證明,隨機變量(或隨機向量)的熵為最大的充分必要條件是隨機變量(或隨機向量)為均勻分布。因此,貝葉斯假設(shè)取無信息先驗分布為“均勻分布”,符合信息論的最大熵原則?，F(xiàn)就隨機變量取有限個值的情況加以證明。定理:設(shè)隨機變量x只取有限個值a1,a2,…,an,相應(yīng)的概率記為p1,p2,…,pn,則x的熵G(x)最大的充分必要條件是:p1=p2=?=pn=1n。0=οGοpi=-lnpi-1+λ?(i=1,2,?,n)?求得p1=p2=…=pn。又因為n∑i=1pi=1,所以p1=p2=?=pn=1n。此時相應(yīng)的熵是-n∑i=11nln1n=lnn。反之,當(dāng)p1=p2=…=pn時,G(p1,p2,…,pn)取得最大值。對于連續(xù)的隨機變量也有同樣的結(jié)果。由此可見,在沒有任何信息確定先驗分布時,采用貝葉斯假設(shè)是合理的。3共越界分布的定義就機器學(xué)習(xí)而言所關(guān)心的問題是:貝葉斯方法得到的后驗分布是否與先驗分布同屬于相同的分布?如果是這樣的話,就可以利用后驗分布作為進一步試驗的先驗分布,多次繼續(xù)這個過程,使用多個樣本的數(shù)據(jù)來計算θ。關(guān)于這個問題有如下結(jié)果:定義1設(shè)樣本X1,X2,…,Xn對參數(shù)θ的條件分布為p(x1,x2,…,xn|θ),如果先驗分布密度函數(shù)π(θ)決定的后驗密度π(θ|x)與π(θ)同屬于一種類型,則稱為p(x|θ)的共軛分布。定義2設(shè)P={p(x|θ):θ∈Θ}是以θ為參數(shù)的密度函數(shù)族,H={π(θ)}是θ的先驗分布族,假設(shè)對任何p∈P和π∈H,得到的后驗分布π(θ|x)仍然在H族中,則稱H為P的共軛分布族。如果選定的先驗分布屬于共軛分布族,則得到的后驗分布與先驗分布屬于同一種分布。定義3如果隨機變量Z服從分布f(x),而f(x)=c·g(x)(其中c是常數(shù)因子),則可記為Z∝g(x),并稱g(x)為分布密度函數(shù)f(x)的核。因為當(dāng)樣本分布與先驗分布的密度函數(shù)都是θ的指數(shù)函數(shù)時,它們相乘后指數(shù)相加,結(jié)果仍是同一類型的指數(shù)函數(shù),只相差一個常數(shù)比例因子。所以有如下定理:定理如果隨機變量Z的分布密度函數(shù)f(x)的核為指數(shù)函數(shù),則該分布屬于共軛分布族。用共軛分布作先驗可以將歷史上做過的各次試驗進行合理綜合,也可以為今后的試驗結(jié)果分析提供一個合理的前提。由于非共軛分布的計算實際上是相當(dāng)困難的,相比之下,共軛分布計算后驗只需要利用先驗做乘法,其計算特別簡單?？梢哉f共軛分布族為Bayesian學(xué)習(xí)的實際使用鋪平了道路。4共吾先驗分布的估計結(jié)果到底Bayesian公式求得的后驗是否比原來信息有所改善呢?其學(xué)習(xí)的機制是什么?現(xiàn)以正態(tài)分布為例進行分析,從參數(shù)的變化看先驗信息和樣本數(shù)據(jù)在學(xué)習(xí)中所起的作用。設(shè)X1,X2,…,Xn是來自正態(tài)分布N(θ,σ21)的一個樣本,其中σ21已知,θ未知。為了求θ的估計量?θ,取另一個正態(tài)分布N(μ0,σ20)作為該正態(tài)均值θ的先驗分布,即取先驗為:π(θ)=N(μ0,σ20)。用貝葉斯公式可以計算出后驗仍為正態(tài)分布:h(θ|ˉx1)=Ν(α1?d21),其中:ˉx1=n∑i=1xin,α1=(1σ20μ0+nσ20ˉx1)/(1σ20+nσ21)?d21=(1σ20+nσ21)-1.用后驗h(θ|ˉx)的數(shù)學(xué)期望α1作為θ的估計值,有:?θ=E(θ|ˉx1)=(1σ20μ0+nσ21ˉx1)?d21.(4)由此可見,這樣得到的θ的估計值?θ是先驗分布中的期望μ0與樣本均值ˉx1的加權(quán)平均。樣本的容量n越大則樣本均值ˉx1在后驗均值中所占的比重越大。當(dāng)n相當(dāng)大時,先驗均值在后驗中的影響將變得很小。這說明Bayesian公式求出的后驗確實對先驗信息和樣本數(shù)據(jù)進行了合理的綜合,其得到的結(jié)果比單獨使用先驗信息或樣本數(shù)據(jù)都更完善,其學(xué)習(xí)機制確實是有效的。在采用其他共軛先驗分布的情況下,也有類似的結(jié)果。從前面的討論可知,在共軛先驗的前提下,可以將得到的后驗信息作為新一輪計算的先驗,與進一步獲得的樣本信息綜合,求得下一個后驗信息。如果多次重復(fù)這個過程,得到的后驗信息是否越來越接近于實際結(jié)果?對這個問題可作如下分析:用計算得到的后驗分布h(θ|ˉx1)=Ν(α1,d21)作為新一輪計算的先驗時,設(shè)新的樣本X1,X2,…,Xn來自正態(tài)分布N(θ,σ22),其中σ22已知,θ待估計。則新的后驗分布為:h1(θ|ˉx2)=Ν(α2,d22),其中:ˉx2=n∑i=1xin,α2=(1d21α1+nσ22ˉx2)/(1d21+nσ22),d22=(1d21+nσ22)-1.用后驗h1(θ|ˉx2)的數(shù)學(xué)期望α2=(1σ20μ0+nσ21ˉx)(1σ20+nσ21)作為θ的估計值,由于α1=(1σ20μ0+nσ21ˉx1)?d21,計算可得α2=(1d21α1+nσ22ˉx2)?d22=(1σ20μ0+nσ21ˉx1+nσ22ˉx2)?d22=(1σ20μ0+nσ21ˉx1)?d22+nσ22ˉx2?d22.(5)又由于nσ22>0,故d22=(1d21+nσ22)-1=(1σ20+nσ21+nσ22)-1<d21=(1σ20+nσ21)-1.可知在α2中,(1σ20μ0+nσ21ˉx1)?d22<α1,也就是說,由于新樣本的加入,先驗和舊樣本所占的比重降低。由式(6)容易看出,當(dāng)新的樣本(不失一般性,假定容量相同)繼續(xù)增加,將有αm=(1σ20μ0+nσ21ˉx1+nσ22ˉx2+?+nσ2mˉxm)?d2m=(1σ20μ0+m∑k=1nσ2kˉxk)?d2m?(k=1?2???m).(6)由(6)式可知,如果所有新的樣本的方差相同,則等同于一個容量為m×n的樣本。以上過程將先驗和各樣本均值按各自的精度加權(quán)平均,精度越高者其權(quán)值越大。由此可見,在采用貝葉斯假設(shè)時,隨著使用的樣本增多,樣本信息的影響越來越顯著。在樣本的噪音很小的前提下,得到的后驗信息也將越來越接近于實際,只不過需要大量的計算而已。5拋圖釘出現(xiàn)頭的概率的確定Bayesian方法學(xué)習(xí)和問題求解的基本步驟概括為:1)定義隨機變量。將未知參數(shù)看成隨機變量(或隨機向量),記為θ。將樣本觀測值x1,x2,…,xn的聯(lián)合分布密度p(x1,x2,…,xn;θ)看成是x1,x2,…,xn對θ的條件分布密度,記為p(x1,x2,…,xn|θ)或p(D|θ)。2)確定先驗分布密度p(θ)。采用共軛先驗分布。如果對先驗分布沒有任何信息,就采用無信息先驗分布的貝葉斯假設(shè)。3)利用貝葉斯定理計算后驗分布密度。4)利用計算得到的后驗分布密度對所求問題作出推斷。以單變量單個參數(shù)情形為例,考慮“拋擲圖釘問題”:將圖釘拋到空中,圖釘落下靜止后將取以下兩種狀態(tài)之一:頭(head)著地或尾(tail)著地。假設(shè)我們拋圖釘N次,問從前N次的結(jié)果如何決定第N+1次出現(xiàn)頭的概率。第一步,定義隨機變量Θ,其值θ對應(yīng)于拋圖釘頭著地的物理概率可能的真值。密度函數(shù)p(θ)表示我們對Θ的不確定性。第l次拋擲結(jié)果的變量為Xl(l=1,2,…,N+1),觀測值的集合為D={X1=x1,…,Xn=xn}。于是將問題表示為由p(θ)計算p(xN+1|D)。第二步,用貝葉斯定理獲得給定D時Θ的概率分布:p(θ|D)=p(θ)p(D|θ)p(D),其中,p(D)=∫p(D|θ)p(θ)dθ,p(D|θ)是二項分布樣本的似然函數(shù)。如果已知Θ的值(即參數(shù)θ),則D中的觀測值是相互獨立的,并且任何一次觀測出現(xiàn)頭的概率是θ,出現(xiàn)尾的概率為(1-θ)。于是有p(θ|D)=p(θ)θh(1-θ)tp(D)?(7)其中h和t分別是在D中觀測到的頭和尾的次數(shù),稱為二項分布樣本的充分統(tǒng)計量。第三步,求Θ的所有可能的值的平均值,作為第N+1次拋擲圖釘出現(xiàn)頭的概率p(XΝ+1=heads|D)=∫p(XΝ+1=heads|θ)p(θ|D)dθ=∫θ?p(θ|D)dθ≡Ep(θ|D)(θ)?(8)其中Ep(θ|D)(θ)表示θ對于分布p(θ|D)的數(shù)學(xué)期望。第四步,為Θ指派先驗分布和超參數(shù)。指派先驗通常采用的方法是先假定先驗的分布,再確定分布的參數(shù)。假定先驗是Beta分布:p(θ)=Beta(θ|αh,αt)≡Γ(α)Γ(αh)Γ(αt)θαh-1(1-θ)αt-1?(9)其中αh>0和αt>0是Beta分布的參數(shù),α=αh+αt,Γ(·)是Gamma函數(shù)。為了和參數(shù)θ相區(qū)別,將αh和αt稱為“超參數(shù)”。因為Beta分布屬于共軛分布族,得到的后驗也是Beta分布:p(θ|D)=Γ(α+Ν)Γ(αh+h)Γ(αt+t)θαh+h-1(1-θ)αt+t-1=Beta(θ|αh+h,αt+t).(10)對于這個分布,θ的數(shù)學(xué)期望有一個簡單的形式:∫θ?Beta(θ|αh,αt)dθ=αhα.(11)于是,給定一個Beta先驗,得到第N+1次拋擲出現(xiàn)頭的概率的簡單表達(dá)式:p(XΝ+1=heads|D)=αh+hα+Ν.(12)6貝葉斯定理綜合Bayesian定理的

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

先驗分布的先驗分布與計算學(xué)習(xí)機制

文檔簡介

溫馨提示

最新文檔

評論

先驗分布的先驗分布與計算學(xué)習(xí)機制

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔