版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1第二章
貝葉斯決策理論
§2.1基于最小錯誤率的貝葉斯判別法§2.2基于貝葉斯公式的幾種判別規(guī)則§2.3正態(tài)分布模式的統(tǒng)計決策§2.4概率密度函數(shù)的估計§2.5貝葉斯分類器的錯誤概率2§2.3正態(tài)分布模式的統(tǒng)計決策
一、正態(tài)分布判別函數(shù)
1、為什么采用正態(tài)分布:
a、正態(tài)分布在物理上是合理的、廣泛的。
b、正態(tài)分布數(shù)學上簡單,N(μ,σ2)只有均值和方差兩個參數(shù)。
2、單變量正態(tài)分布:
33、(多變量)多維正態(tài)分布(1)函數(shù)形式:456(2)、性質(zhì):
①、μ與∑對分布起決定作用P(χ)=N(μ,∑),μ由n個分量組成,∑由n(n+1)/2元素組成(對稱獨立元素)?!喽嗑S正態(tài)分布由n+n(n+1)/2個參數(shù)組成。
②、等密度點的軌跡是一個超橢球面。區(qū)域中心由μ決定,區(qū)域形狀由∑決定。③、不相關性等價于獨立性。若xi與xj互不相關,則xi與xj一定獨立。④、線性變換的正態(tài)性Y=AX,A為線性變換矩陣。若X為正態(tài)分布,則Y也是正態(tài)分布。⑤、線性組合的正態(tài)性。74、判別函數(shù):類條件概率密度用正態(tài)來表示:5、決策面方程:8二、最小錯誤率(Bayes)分類器:從最小錯誤率這個角度來分析Bayes分類器1.第一種情況:各個特征統(tǒng)計獨立,且同方差情況。(最簡單情況)判別函數(shù):9
最小距離分類器:未知x與μi相減,找最近的μi把x歸類如果M類先驗概率相等:1011討論:二類情況下i=1,212未知x,把x與各類均值相減,把x歸于最近一類。最小距離分類器。2、第二種情況:Σi=
Σ相等,即各類協(xié)方差相等。1314討論:針對ω1,ω2二類情況,如圖:153、第三種情況(一般情況):Σ?為任意,各類協(xié)方差矩陣不等,二次項xT
Σ?x與i有關。所以判別函數(shù)為二次型函數(shù)。1617第四節(jié)概率密度函數(shù)的估計
意義:
貝葉斯決策分類器大都涉及類概率密度函數(shù),對于正態(tài)分布模式,其概率密度函數(shù)可通過均值向量和協(xié)方差矩陣的估算而確定。在無法用參數(shù)表征概率密度函數(shù)時,則可以通過某些函數(shù)來近似地表示。
概率密度函數(shù)估計是為貝葉斯決策分類器確定條件.18貝葉斯分類器中只要知道先驗概率,條件概率或后驗概概率P(ωi),P(x/ωi),P(ωi/x)就可以設計分類器了。現(xiàn)在來研究如何用已知訓練樣本的信息去估計P(ωi),P(x/ωi),P(ωi/x)
參數(shù)估計與非參數(shù)估計參數(shù)估計:先假定研究的問題具有某種數(shù)學模型,如正態(tài)分布,二項分布,再用已知類別的學習樣本估計里面的參數(shù)。非參數(shù)估計:不假定數(shù)學模型,直接用已知類別的學習樣本的先驗知識直接估計數(shù)學模型。方法:19
監(jiān)督學習與非監(jiān)督學習監(jiān)督學習:在已知類別樣本指導下的學習和訓練,參數(shù)估計和非參數(shù)估計都屬于監(jiān)督學習。非監(jiān)督學習:不知道樣本類別,只知道樣本的某些信息去估計,如:聚類分析。20一、均值向量和協(xié)方差矩陣的參數(shù)估計
將參數(shù)作為隨機參數(shù)看待時的估計量算法一般以模式樣本的平均作為均值向量的近似值。設某類的模式樣本數(shù)為N,其均值向量估計量為協(xié)方差矩陣C寫成向量形式為
21其無偏估計量為
而有偏估計量為22二、概率密度函數(shù)的函數(shù)近似
當無法用參數(shù)表征概率密度函數(shù)時,則需要選取某種基函數(shù)作近似估計。以P(X)表示以作為的估計,采取最小二乘估計方法,使估計函數(shù)與的均方誤差函數(shù)R最小。將寫成m項展開式則:23選擇使誤差函數(shù)R最小,即取偏微分式中右邊為的數(shù)學期望,可用N個樣本的均值來近似故:一般選擇正交函數(shù)集作為基函數(shù),故有:24∴系數(shù):當基函數(shù)正交歸一時,則對所有k,有。由于與k無關,且可以認為對所有,,則:求得所有系數(shù)后,根據(jù)得到概率密度函數(shù),作為對的估計。25例:如圖所示為兩個類別的模式分布,現(xiàn)通過這些訓練樣本估計兩類概率密度函數(shù),借以得到貝葉斯分類器。
解:類概率密度函數(shù)以m項基函數(shù)的多項式來近似:
由于基函數(shù)必須在模式定義域內(nèi)正交,故選擇埃爾米特函數(shù),因為其正交域在內(nèi),該函數(shù)一維形式的前幾項為:26對于類:
27
為類的模式樣本數(shù)目,m=4,K=1時系數(shù)為:用同樣的方法計算類概率密度函數(shù)近似展開式系數(shù),有:
28所以:
貝葉斯分類器設計:判別界面為:
29三、后驗概率的函數(shù)估計
利用后驗概率的貝葉斯判別函數(shù):關鍵是估計后驗概率密度函數(shù):
按照選取基函數(shù)的方法來逼近,則可以建立如下形式的判別函數(shù):目的:用來近似。30采取線性逼近方法,將式簡化為:定義一個隨機變量使其取值作為的帶噪聲的觀察值,即為噪聲因子,其數(shù)學期望值為零。有用來近似未知的。把它代入準則函數(shù),即可采取梯度法求解權向量。31取準則函數(shù)為:32此方法迭代的每一步都必須校正權向量,每一步的校正值正比于增量因子故稱為增量校正算法。當全部訓練模式通過迭代都能被正確分類時,就可以認為權向量收斂于正確的解。M個類別有M個權向量,須分別迭代求解。解算出權向量之后,就可以將x作為的近似函數(shù),即有:33例:取下圖中的模式樣本,用增量校正算法來迭代求解近似判別函數(shù)中的權向量,以確定基于后驗概率的判別函數(shù)。
解:首先寫出訓練樣本的增廣向量:令:于是:3435如此迭代下去,當K=15時,利用已能對全部樣本正確地進行分類,說明權向量的解為:按理,還須對類判別函數(shù)的權向量迭代求解,由于是兩類問題,當已經(jīng)有了近似函數(shù)式,即的近似函數(shù)式已經(jīng)求得時,即可根據(jù)以下判別規(guī)則對兩類模式進行分類36四、均值向量和協(xié)方差矩陣的貝葉斯估計將概率密度函數(shù)的參數(shù)估計量看成是隨機量,根據(jù)這些估計量統(tǒng)計特性的先驗知識,先粗略地給出這些估計量的密度函數(shù),再通過訓練模式樣本集,利用貝葉斯公式通過迭代運算過程求出參數(shù)的后驗概率密度。37設為N個用于估計未知參數(shù)的密度函數(shù)的樣本,利用貝葉斯定理,可以得到在逐一給定了之后的條件密度函數(shù)的迭代公式:對于,是它的先驗概率密度。加入新的樣本后,得到新的概率密度。
應是最早的先驗概率密度。當給出第一個樣本,按貝葉斯定理計算,就得到后驗率密度。將作為下一步計算的先驗概率密度,讀入樣本,又得到后驗概率密度,……依此可以算出最后的值。38單變量正態(tài)密度函數(shù)的均值估計法若一模式樣本集的類概率密度函數(shù)為單變量正態(tài)分布,其中已知,均值待求,即:給定N個訓練樣本,最初的先驗概率密度為,是根據(jù)先驗知識對的推測,其不確定性由表示。由于均值的估計量是樣本的線性函數(shù),而樣本是正態(tài)分布,所以應為正態(tài)。39由初始條件:根據(jù)貝葉斯法則:40每一次迭代運算從樣本子集中逐一給出一個樣本,N次運算獨立地給出N個樣本,因此:式中與無關的因子和均并入常數(shù)項。
41
是平方函數(shù)的指數(shù)函數(shù),仍為正態(tài)密度函數(shù),可將它寫成,即:
42由訓練樣本集,求得均值的后驗概率密度為。
:根據(jù)N個樣本對均值的估計,是先驗信息()與訓練樣本的信息(上式中的)相結(jié)合的結(jié)果,是利用N個訓練樣本信息對均值先驗估計的補充。是對這個估計的不確定性的度量。時→0。是和的線性組合,兩者的系數(shù)非負,其和為1,故值在和之間。只要,當時,趨于樣本均值的估計量。圖2-4-3是一正態(tài)密度的均值學習過程,每增加一次樣本,都減小對的估計的不確定性,隨著樣本的增加其曲線愈顯“尖銳”,均值與估計量之間的偏差的絕對值亦愈來愈小。43上述方法的目的,是為了通過N個訓練樣本來估計模式樣本的類概率密度函數(shù)。由于上述兩個正態(tài)密度函數(shù)之積對的積分結(jié)果也是正態(tài)密度函數(shù),即:在采用訓練樣本之前,均值未知,經(jīng)過采用N個樣本進行估計之后,概率密度函數(shù)為,獲得了均值值的估計,同時原來的方差也作了修正;成為
44§2.5
貝葉斯分類器的錯誤概率
一般來說,任何判別規(guī)則都不能得到完全正確的分類,為了評價一種判別規(guī)則,需要計算將屬于某一類的模式錯分到另一類去的概率。
451、一般錯誤率分析:46472、正態(tài)分布最小錯誤率(在正態(tài)分布情況下求最小錯誤率)4849在實際工作中如果使用數(shù)量有限的訓練樣本集,既作為設計分類器的訓練樣本,又用它來檢驗分類器的錯誤概率,通常采用兩種方式:一種方式稱為樣本劃分法。將訓練樣本分成兩組,用其中一組來設計分類器,用另一組檢驗分類器,求其錯誤概率。再采用不同的樣本分法,可得不同的錯誤概率,取其平均值作為錯誤概率的估計。另一種方式是留一個出來法。每次留下N個樣本中的一個,用其余N-1個樣本來設計分類器,用留下的那個樣本進行檢驗,這樣重復進行N次。每次留下的應是不同的一個樣本。根據(jù)N次檢驗中判別錯誤的樣本數(shù)目,就能得出錯誤概率的估計值。50附:Bayes分類的算法(假定各類樣本服從正態(tài)分布)1.輸入類數(shù)M;特征數(shù)n,待分樣本數(shù)m.2.輸入訓練樣本數(shù)N和訓練集資料矩陣X(N×n)。并計算有關參數(shù)。3.計算矩陣y中各類的后驗概率。4.若按最小錯誤率原則分類,則可根據(jù)3的結(jié)果判定y中各類樣本的類別。5.若按最小風險原則分類,則輸入各值,并計算y中各樣本屬于各類時的風險并判定各樣本類別。51例1、有訓練集資料矩陣如下表所示,現(xiàn)已知,N=9、N1=5、N2=4、n=2、M=2,試問,X=(0,0)T應屬于哪一類?訓練樣本號k123451234特征x1特征x2110-1-1
010-1
01110-1-2-2-2類別ω1
ω
252解1、假定二類協(xié)方差矩陣不等(∑1≠∑2)則均值:535455解2、假定兩類協(xié)方差矩陣相等∑=∑1+∑256訓練樣本號k123123123特征x1012-2-1-201-1特征x210-110-1-1-2-2類別ω1ω2ω3解1、假定三類協(xié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育機構(gòu)校長勞動合同3篇
- 新版項目軟件合同3篇
- 提前終止月嫂合同3篇
- 安裝工程合同中的技術解析3篇
- 數(shù)碼相機購買合同3篇
- 摩托車位轉(zhuǎn)讓合同模板3篇
- 教育培訓機構(gòu)店長勞動合同3篇
- 旅游產(chǎn)品銷售員招聘合同3篇
- 新版銀行抵押貸款合同3篇
- 新媒體合作協(xié)議書3篇
- 家政培訓行業(yè)的發(fā)展趨勢與前景分析
- 定制酒項目投資分析及可行性報告
- 售后客服年終工作總結(jié)匯報
- 教師專業(yè)化發(fā)展經(jīng)費保障制度
- 家長會課件:初二家長座談會課件
- 物理九年級全冊知識點總結(jié)(滬粵版)
- 20567-5納稅籌劃-教案及講稿
- 部編版三年級上冊作文評價表
- 2019MATLAB-Simulink電力系統(tǒng)建模與仿真第2版
- 繪本故事:睡睡鎮(zhèn)
- BMW銷售流程培訓教材課件
評論
0/150
提交評論