第三章6貝葉斯決策理論_第1頁
第三章6貝葉斯決策理論_第2頁
第三章6貝葉斯決策理論_第3頁
第三章6貝葉斯決策理論_第4頁
第三章6貝葉斯決策理論_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、3.9貝葉斯決策理論貝葉斯分類器關(guān)于分類的錯誤率分析最小風險Bayes分類器 Bayes分類器算法和例題最大最小判別準則決策樹條件概率密度分存Bayes分類器一最優(yōu)分類器、最佳分類器_、兩類問題例如:細胞識別問題 ®正常細胞,®異常細胞某地區(qū),經(jīng)大量統(tǒng)計獲先驗概率P(3jf(32)。若取該地區(qū) 某人細胞兀屬何種細胞,只能由先驗概率決定。勢叮 叫嚴W 這種分類器決策無意義P(°) < P(co2).x G 6t>2 J對兀再觀察:有細胞光密度管征,有類條件概率密度:P(x/ CD ) l=l?2,. O 如圖所示利用貝葉斯公式: 2pg/x) = p(x

2、/cd,.)p(d(./£pag)pg),(也稱為后驗概率: 通過對細胞的再觀察,"就可以把先驗概率轉(zhuǎn)化為后驗概 率,利用后驗概率可對未知細胞兀進行識別。過對細胞的再觀察,就可以把先驗概率轉(zhuǎn)化為后驗概 ,利用后驗概率可對未知細胞兀進行識別。J若尸(/兀) > 尸(馬/兀),則兀G CDX若尸( < P(co2/x)x g a>2設(shè)N個樣本分為兩類®2o每個樣本抽 出n個特征,X (兀,%2,兀39 ,兀門)丁1、判別函數(shù):gS)= glS) g2(X)10尸()0.80.60.40.2X后驗概率分布若已知先驗概率P(cojf(co)類條件概率密度

3、P(x/co 1), P(x/ co2)O貝IJ可得貝葉斯判別函數(shù)四種形式:CDX力2 g(x) = P(ojx) - P(co2/x),(后驗概率)(2)g(x) = P(A/°)P(e)- P(勸i?2)P2),(類條件概率密度鴿-唸,(似然比形式能i 鴿鸚,(取對數(shù)方湯(2)P(a/o)P(Qi)Px/CDPCD)=>CDXx eco?Px/co) VDZ 、=> x e戸)CDXco?舲帑CDX=> x e52、決策規(guī)則:(1)戸(°/乂):刊戀/乂)=>兀丘3、決策|衍方程:*(x) = 0 最小錯誤率分析兀為一維時,決策而為一點,無為二維

4、時決策面為曲線,兀為三維時,決策而為曲 面,無大于三維時決策而為超曲面。例:某地區(qū)細胞識另倂鳳雇尚,作肚齒嗓知細胞K先從類條件概率密 度分布曲線上查到:P(® /兀)=1 一 P(® /兀)=0.18 2因為Plx)>/兀),兀丘®屬正常細胞。因為Pg)» P(®),所以先驗概率起很大化用.4、分類器設(shè)計:CD.X G閾值單元 決策二、多類情況:<Dz=(CD7,CO2v.,COm), X=Xj.X2 兀)L判別函數(shù):M類有M個判別函數(shù)助,勺,乩(兀)每個判別函數(shù)有 上面的四種形式。=maxPx/a>j)P(v7) =>

5、 x e cdi = 12 M)2決策規(guī)則:gf(x) =A另一種形式:= In PQxg) + In Pg)=max1< J<M* n P(x/a)+ In P(°)=> x e3、決策面方程:&(勸=勺(丸人即&(勸-g/(K)= °4、分類器設(shè)計:X =L兀特征向量判別計算關(guān)于分類器的錯誤率分析1、一般錯誤率分析:二類問題:和/兀) > 尸(5/兀),貝欣®,這時錯誤率為(卜).P加屮他處貪"即這時錯誤率最小° 尸(©/兀),當平均錯誤率:p(e)=P(e/x)dxJs第一類判錯:用(幺)

6、=P(XG&/©)= j Pgcojdx第二類判錯:P2(e) = P(x e 7?/®) = £ P(x/co2)dx總錯誤率:P(e) = P(a)i)P(e) + P(cd2)P2(e)=j P(©)P(x/®)dA:+J P(co2)P(x/a2)dx使錯誤率最小條件:P(® )P(x/©) = P(® )P(x/®)(證明略)P(e)min =匸 P(d )P(x/dpgjpgq )dx對于多類問題:總錯誤率p) =G R2I(d + P(x w 3/®)+ + P(x e R

7、m /©)PS1)+ P(x e R Ja>2) + P(x g &/)+ + P(x g Rm /® )尸(今)+ + P(X G R /%) + P(X W) + .+ P(XG Rm_x )cdm )p(%)M M1=亍£ p(x w © /® )p(e)(計算量很大)卜 1 J=1jHiM用平均正確分類概率:P(M) = Y P(x G Rgpg/=!錯誤率:P(e) = l-P(M計算相對簡單c最小風險Bayes分類器假定要判斷某人是正常(卩)還是肺病患者(叫),于是在判斷中可能出 現(xiàn)以下情況:第一類,判對(正常-正常)

8、入門;第二類,判錯(正常-肺?。┤?1 ; |第三類,判對(肺病一肺?。┤朊?第四類,判錯(肺病-正常)A12o 在判斷時,除了能做出“是” g類或“不是” 0)/類的動作以外, 還可以做出“拒識”的動作。為了更好地研究最小風險分類器, 我們先說明幾個概念:行動嚀表示把模式兀判決為®類的一次動作。損耗函數(shù)九滬九G/0)表示模式X本來屬于卩類而錯判為卩所受 損失。因為這是正確判決,故損失最小。少損耗函數(shù)九戶心冋)表示模式X本來屬于勺類錯判為®所受損 矢。因為這是錯誤判決,故損失最人。風險R (期望損失):對未知兀釆取一個判決行動班兀)所付出 代價(損耗)條件風險(也叫條件期望

9、損失):R(ai/x)= E/力j)=£2(e/60j2 = 1,2,.,a.(a < M)j=i >在整個特征空間中定義期望風險,了期望風險:R = j* R(a(x)/x)P(0Zx,(平均風險)條件風險只反映對某兀取值的決策行動5所帶來的風險。期 望風險則反映在整個特征空間不同的兀取值的決策行動所帶來 的平均風險。最小風險Bayes決策規(guī)則:若尺仏/兀)二minR(ai / x), Mxwq.°例:已知正常細胞先驗概率為P(®) = 09,異常為PS?)-。丄從類條件概率密度分布ft線上查的PCx/©.) = 0.2, P(x/coi)

10、 = 0.4,2 I =0,入2 = 6池21 =1 幾22 = °由上例中計算出的后驗既率:P(®/x) = 0.818,P(®/兀)=0.182條件風險:R(ajx)=工備尸丿/兀)=人2尸(®/%)= 1092戶17?(a2/x)=人1 尸(©/a:) = 0.818因為A© /x)> R(a2/x)異常細胞因決策©類風險大。因;12=6較大,決策損失起決舸乍用。二類問題:把x歸于吋風險:/x) = (coj/x) + X12P(d2/x)把xJ 5時風險:R(a2/x) = X217(0)!/x) + X22P

11、(co2/x)CO(o2最小風險分類規(guī)則:7?(0Cj/x)< (oc2/jc) => XG COj(Z21 -Z11)P(CO1/x)(九2 一九22)X G函數(shù):叫訃MRgjx)=工尢(j/cojjpg/Q =工為戶(叫丿兀)=p(r=lj知丿工1=l-P(coz/x) T后驗概率 7?(a,/x)最小,就相當幵/兀)最大, 這時便得到最小錯誤酚類器。coE2決策樹一多峰情況Bayes分類器只能適用于樣本分布呈單峰情況,對多峰情況則不行。 V若用決磊樹,可進行如下步驟分類若兀2二兀20則轉(zhuǎn)(2),否則轉(zhuǎn)(4);X(2) 若a > k 則轉(zhuǎn),否貝Lk e cOj (x e

12、A);2(3) 若兀 > 兀亡貝Lk e cOj (x c c 否 貝Lk e co2 (x c B)(4) 若a > x,則 轉(zhuǎn)(5),杏貝Lk e co2(x e D) x20(5) 若兀 > 亠2貝Lk e co2(x e F 貝Lk e co, (x e E)>b乂 2兀20<CQ二工工碼9f J其中Tz表示屬于類樣本數(shù)仏表示屬于®類樣本數(shù)臨原屬于®類,誤判為®類的損失,Q表示在節(jié)點L上各類樣本混淆程度2、決策樹的構(gòu)造,需要考慮以下問題:1)、如何判斷一節(jié)點是否為葉子。如右圖表示,假定A、B、C、D、E、F各包含50個樣本,并

13、有以下的代價矩陣 兀1(0 10<10對于節(jié)點a,可以作出以下兩個決策之一: 決策1, a不再分割:決策2, a分為兩類決策1的代價為A1 (a) =Ca 一節(jié)點a的代價決策2的代價為 A2 (a) =a (Cb+CJ 節(jié)點b,c的代價和 其中,a為一經(jīng)驗因子,用以防止無限分割下去2 2Q=心九 + 廠2諾人=150x150x10+150x150x10=45000C/=! >12 22 2G + G =Y ribrjb + 乞 丫 時山入j = 200000/=1 >1i=l j=只要經(jīng)驗因子a<2.25,便有A2(a) Aa),因此取決策2的代價較小,故應把a 分為兩類。一般地決策代價為:LCL.P = 1不再分割c(C° + C心),F(xiàn) = 2,分為兩類R卜決策分類公式:心乙)二4(乙)以=不驚黑葉<分為兩類2)、選擇節(jié)點的分割方式:a、根據(jù)經(jīng)驗確定。全部樣本分為三類,其代價矩陣為入12入J(01060'入21入22入2310050J入31入32入33 >.60500 J例如,入=X?®1= 10,入=入和=60,%合為因為入2 =入21入32 =入23 =50,冋f 以3,類,而33

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論