貝葉斯決策理論2726524_第1頁
貝葉斯決策理論2726524_第2頁
貝葉斯決策理論2726524_第3頁
貝葉斯決策理論2726524_第4頁
貝葉斯決策理論2726524_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第四章 貝葉斯決策理論 貝葉斯分類器 正態(tài)分布決策理論 關(guān)于分類的錯誤率分析 最小風(fēng)險Bayes分類器 Bayes分類器算法和例題 聶曼皮爾遜判別準(zhǔn)則 最大最小判別準(zhǔn)則 決策樹 序貫分類v 對x再觀察:有細(xì)胞光密度特征 ,有類條件概率密度: P(x/ ) =1,2,。如圖所示v 利用貝葉斯公式利用貝葉斯公式 : 通過 對細(xì)胞的再觀察,就可以把先驗概率轉(zhuǎn)化為后驗概率,利用后驗概率可對未知細(xì)胞x進(jìn)行識別 。 第四章第四章 貝葉斯決策理論貝葉斯決策理論v 4-1 Bayes分類器分類器最優(yōu)分類器、最佳分類器一、兩類問題例如:細(xì)胞識別問題 1正常細(xì)胞,2異常細(xì)胞某地區(qū),經(jīng)大量統(tǒng)計獲先驗概率P(1),P

2、(2)。若取該地區(qū)某人細(xì)胞x屬何種細(xì)胞 ,只能由 先驗概率決定。這種分類器決策無意義221121),()(),()(xPPxPP,(也稱為后驗概率)21)()()()()(jjjiiiPxPPxPxP)(1xP)(2xPx條件概率密度分布)(ixP221121),()(),()(xxPxPxxPxP則若則若 設(shè)N個樣本分為兩類1,2。每個樣本抽出n個特征, x =(x1, x2, x3, xn)Tv 通過 對細(xì)胞的再觀察,就可以把先驗概率轉(zhuǎn)化為后驗概率,利用后驗概率可對未知細(xì)胞x進(jìn)行識別 。 1、判別函數(shù):若已知先驗概率P(1),P(2),類條件概率密度P(x/ 1), P(x/ 2)。 則可

3、得貝葉斯判別函數(shù)四種形式 :)()()(21xgxgxg)(1xP)(2xPx2 . 04 . 06 . 08 . 00 . 1后驗概率分布)(xPi2、決策規(guī)則:)( ,)()(ln)()(ln)() 4()( ,)()()()()() 3 ()(),()()()()() 2()(),()()() 1 (12211221221121取對數(shù)方法似然比形式類條件概率密度后驗概率PPxPxPxgPPxPxPxgPxPPxPxgxPxPxg2112212112212122112121)()(ln)()(ln)()4()()()()()3()()()()()2()()()1 (xPPxPxPxgxPP

4、xPxPxPxPPxPxxPxP 3、決策面方程: x為一維時,決策面為一點,x為二維時決策面為曲線,x為三維時,決策面為曲面,x大于三維時決策面為超曲面。v 例例:某地區(qū)細(xì)胞識別; P(1)=0.9, P(2)=0.1 未知細(xì)胞x,先從類條件概率密度分布曲線上查到:v 解解:該細(xì)胞屬于正常細(xì)胞還是異常細(xì)胞,先計算后驗概率:0)(xgP(x/ 1)=0.2, P(x/ 2)=0.4.),()(),()(,182. 0)(1)(818. 01 . 04 . 09 . 02 . 09 . 02 . 0)()()()()(211211221111用所以先驗概率起很大作因為屬正常細(xì)胞。因為PPxxPx

5、PxPxPPxPPxPxPjjjg(x)nxxxX.21特征向量判別計算決策21x閾值單元 4、分類器設(shè)計: 二、多類情況:=(1,2,m),x=(x1,x2,xn) 1.判別函數(shù):M類有M個判別函數(shù)g1(x), g2(x), gm(x).每個判別函數(shù)有上面的四種形式。 2.決策規(guī)則:),.,2, 1( ,)()(max)()()(1MixPxPPxPxgijjMjiiiiijMjiiixPxPPxPxg)(ln)(lnmax)(ln)(ln)(1另一種形式:3、決策面方程:4、分類器設(shè)計:0)()(),()(xgxgxgxgjiji即g1(x)Maxg(x)nxxxX.21特征向量判別計算決

6、策ixg2(x)gn(x)最大值選擇器.v4-2 正態(tài)分布決策理論正態(tài)分布決策理論 一、正態(tài)分布判別函數(shù) 1、為什么采用正態(tài)分布: a、正態(tài)分布在物理上是合理的、廣泛的。 b、正態(tài)分布數(shù)學(xué)上簡單,N(, ) 只有均值和方差兩個參數(shù)。 2、單變量正態(tài)分布: )()()(,)()(:),(21exp21)(22222方差,均值或數(shù)學(xué)期望其中dxxPxxEdxxxPxENxxP1)()( , 0)(dxxPxxP列關(guān)系:概率密度函數(shù)應(yīng)滿足下)(xPX2295.013、(多變量)多維正態(tài)分布 (1)函數(shù)形式:的行列式為的逆陣,為維協(xié)方差矩陣,為維均值向量,維特征向量其中121211212),.,(,.

7、,:21exp21)(nnnnxxxxxxxPTnTnTniiiiidxxPxxE)()(nnnnnnnnnnnnTxxxxxxxxExxxxExxE.,.,.111111111111是協(xié)方差,非對角線是方差對角線jijixxExxExxExxEijijnnnnnnnnnnnnn22222212121221111111111,.(2)、性質(zhì): 、與對分布起決定作用P()=N(, ), 由n個分量組成,由n(n+1)/2元素組成。多維正態(tài)分布由n+n(n+1)/2個參數(shù)組成。 、等密度點的軌跡是一個超橢球面。區(qū)域中心由決定,區(qū)域形狀由決定。 、不相關(guān)性等價于獨立性。若xi與xj互不相關(guān),則xi與

8、xj一定獨立。 、線性變換的正態(tài)性Y=AX,A為線性變換矩陣。若X為正態(tài)分布,則Y也是正態(tài)分布。 、線性組合的正態(tài)性。211X2X 判別函數(shù):類條件概率密度用正態(tài)來表示:)(lnln212ln221)(ln21exp21ln)(21exp21)()()(112121212iiiiTiiiiTiiniiiTiiniiPnxxPxxPxxPxPxg二、最小錯誤率(Bayes)分類器:從最小錯誤率這個角度來分析Bayes 分類器 1.第一種情況:第一種情況:各個特征統(tǒng)計獨立,且同方差情況。(最簡單情況) 決策面方程:0)()(xgxg0)()(ln21)()(11jiiiiiiiPPxxxxxgxg

9、 iTiiiiiiiTiiiiiiiiiTiixxxPxPxxxginIIIPnxxxg222121221),(ln2)(ln21)(2ln2,1,)(lnln212ln221)(其中對分類無影響。無關(guān)。都與因為)(,2)()(.)()(2221歐氏距離imxxgPPP零。,只有方差,協(xié)方差為即22112.0.0.:nniI判別函數(shù): 最小距離分類器:未知x與i相減,找最近的i把x歸類v如果M類先驗概率相等: ijTjMwiTiiiiTiiiiiTiiTTTiTixwxwwxwxgPwwwxwxgixxxxxxx0102020max)()(ln21,21)( ,)(,2判別規(guī)則:其中:線性判別

10、函數(shù)簡化可得:無關(guān)與因為二次項)()(ln)(210)(0)()(200jijijijijijiPPxWxxWxgxg其中決策面方程:21212211212212)()(ln)(21)(1)()()(xPPxxgxgxgTTT對于二類情況討論:的聯(lián)線。垂直于決策面同方向同相與,所以又因為垂直與,因此分界面點積為與因率面是一個圓形。協(xié)方差為零。所以等概因為HWWWHxxWbIajii)(0)(: )(,: )(21210221i二類情況下界面。均值聯(lián)線的垂直線作為對多類情況,用各類的。離開先驗概率大的一類否則就是聯(lián)線的中點。通過如果先驗概率相等: )(),()(),()(: )(2121dHPP

11、HPPc12WH時決策面)()(21PP124334H23H14H12H1121x2xHW20 x)()()(21)()(.)()()()(ln)()(21)(.21321121馬氏距離,若先驗概率相等無關(guān)與因為rxxxgPPPPPxxxgiiTiiiiiTiiM 未知x,把x與各類均值相減,把x歸于最近一類。最小距離分類器。)(ln21,)()()(101011iiTiiiiiTiiTiTiPwWwxWxgixxxx其中(線性函數(shù))無關(guān)。與展開;把 2、第二種情況:、第二種情況:i 相等,即各類協(xié)方差相等。)()()()()(ln)(21)(, 0)(1010jiTjijijijijiTPP

12、xWxxW。其中0)()()()(ln)(21)()()()(max)(21212211111212010 xgxgxPPxxgxgxgxwxWwxWxgjijiTTijTjMjiTii相鄰與決策界面:若對于二類情況決策規(guī)則: 討論:針對1,2二類情況,如圖:。離開先驗概率大的一類否則通過均值聯(lián)線中點則則若各類先驗概率相等,值聯(lián)線。不垂直于不同相與所以因為點。通過正交,與所以點積為與因為本征值決定長軸由所以等概率面是橢圓,因為HHxdHWWcxHxxWxxWbIajijijiii;),(21: )(;)();(: )()(, 0)(: )(,: )(010001121x2xHW20 x 3、第

13、三種情況、第三種情況(一般情況):為任意,各類協(xié)方差矩陣不等,二次項xT x與i有關(guān)。所以判別函數(shù)為二次型函數(shù)。ijTjjTMjiTiiTixwxWxWxwxWxWxxg010max)(決策規(guī)則:2121212122111112)()(lnln21)()(21)()(21)()()(xPPxxxxxgxgxgTT對于二類情況)(lnln2121)()( ,21,)(:10110iiiiTiiiiiiiiTiiTiPwnWnnWwxWxWxxg,維列向量矩陣其中判別函數(shù)圓)(a1x2x12雙曲線)(d122橢圓)(b21拋物線)(c1212先驗概率相等。為條件獨立;二類情況對于二類問題,條件:各

14、種圖形:下面看一下決策界面的決策面方程::0)()(2121cxxbaxgxgji直線)(e2211v4-3 關(guān)于分類器的錯誤率分析關(guān)于分類器的錯誤率分析 1、一般錯誤率分析、一般錯誤率分析:dxxPPdxxPPePxPPxPPdxxPPdxxPPePPePPePdxxPRxPePdxxPRxPePdxxePePxxPxxPxePxPxxPxPTTYYRRRR)()()()()()()()()()()()()()()()()()()()()()()()()()(),(),()().(,),()(1122min22112211221122121121211221211212(證明略)使錯誤率最小

15、條件:總錯誤率:第二類判錯:第一類判錯:平均錯誤率:這時錯誤率最小。當(dāng)當(dāng)這時錯誤率為則二類問題:若)()(11PxP)()(22PxPTY1R2R1Y計算量很大)總錯誤率對于多類問題:)()()()(.)()(.)()(.)()()()(.)()()(11121222321111312iMiMjjjMMMMMMMPRxPPRxPRxPRxPPRxPRxPRxPPRxPRxPRxPePijMiiRiMiiiidxPxPPRxPMPi11)()()()()(用平均正確分類概率:,計算相對簡單。錯誤率:)(1)(MPeP2、正態(tài)分布最小錯誤率、正態(tài)分布最小錯誤率(在正態(tài)分布情況下求最小錯誤率)21)

16、()(21PP設(shè):)(21exp21)()(21exp21)(2211BxxPAxxP率。因此可計算出最小錯誤可以計算若已知錯誤率最小對多維問題:可計算可以計算若已知,其中:。可得代入把值值就是,可解出條件:把上式代入最小錯誤率.,)(21,21exp21)(,)(,)()(,2121exp21)()()()()()()(.)()()()(21211212min222111min212221122211minmin2211kkduuePNxPNxPePkkxuduudxxPPdxxPPePePePYYxxPPxPPTkkYYTTTTv4-4 最小風(fēng)險最小風(fēng)險Bayes分類器分類器 假定要判斷某

17、人是正常(1)還是肺病患者(2),于是在判斷中可能出現(xiàn)以下情況:第一類,判對(正常正常) 11 ;第二類,判錯(正常肺病) 21 ; 第三類,判對(肺病肺病) 22;第四類,判錯(肺病正常) 12 。 在判斷時,除了能做出“是” i類或“不是” i類的動作以外,還可以做出“拒識”的動作。為了更好地研究最小風(fēng)險分類器,我們先說明幾個概念: 在整個特征空間中定義期望風(fēng)險, 期望風(fēng)險: ).(,.,2 , 1,1MaaixPExRjMjjijii )( , 平均風(fēng)險dxxPxxRR行動i:表示把模式x判決為i類的一次動作。 損耗函數(shù)ii=(i/i)表示模式X本來屬于i類而錯判為i所受損失。因為這是正

18、確判決,故損失最小。 損耗函數(shù)ij=(i/j)表示模式X本來屬于j類錯判為i所受損失。因為這是錯誤判決,故損失最大。 風(fēng)險R(期望損失):對未知x采取一個判決行動(x)所付出的代價(損耗) 條件風(fēng)險(也叫條件期望損失):條件風(fēng)險只反映對某x取值的決策行動i所帶來的風(fēng)險。期望風(fēng)險則反映在整個特征空間不同的x取值的決策行動所帶來的平均風(fēng)險。 最小風(fēng)險Bayes決策規(guī)則:kiMikxxRxR則若,min,.,2 , 1 二類問題:把x歸于1時風(fēng)險: 把x歸于2時風(fēng)險:作用。較大,決策損失起決定因類風(fēng)險大。因決策異常細(xì)胞因為條件風(fēng)險:概率:由上例中計算出的后驗,曲線上查的從類條件概率密度分布異常為概率

19、為例:已知正常細(xì)胞先驗6,)()(818. 0)()(092. 1)()()(182. 0)(,818. 0)(0, 1, 6, 04 . 0)(, 2 . 0)(, 1 . 0)(, 9 . 0)(1212112122121211212221121121xxRxRxPxRxPxPxRxPxPxPxPPPjjjii)()()()()()(22212122121111xPxPxRxPxPxR分類器。這時便得到最小錯誤率最大,最小,就相當(dāng)于后驗概率時時函數(shù)用最小風(fēng)險分類規(guī)則:)()()(1)()()()()(, 1, 0)(:10)()()()()(1121221211121121xPxRxPxP

20、xPxPxRjijixxPxxRxRiiijjjijijijjMiiijjjv4-5 Bayes分類的算法分類的算法(假定各類樣本服從正態(tài)分布)v1.輸入類數(shù)M;特征數(shù)n,待分樣本數(shù)m.v2.輸入訓(xùn)練樣本數(shù)N和訓(xùn)練集資料矩陣X(Nn)。并計算有關(guān)參數(shù)。v3.計算矩陣y中各類的后驗概率。v4.若按最小錯誤率原則分類,則可根據(jù) 3 的結(jié)果判定y中各類樣本的類別。v5.若按最小風(fēng)險原則分類,則輸入各值,并計算y中各樣本屬于各類時的風(fēng)險并判定各樣本類別。v 例例1、有訓(xùn)練集資料矩陣如下表所示,現(xiàn)已知,N=9、N1=5、N2=4、n=2、M=2,試問,X=(0,0)T應(yīng)屬于哪一類?v解解1、假定二類協(xié)方

21、差 矩陣不等(12) 則均值:53, 0) 11011 (511211XX訓(xùn)練樣本號k 1 2 3 4 5 1 2 3 4 特征 x1特征 x21 1 0 -1 -1 0 1 0 -1 0 1 1 1 0-1 -2 -2 -2類別1 2方法)的計算請看協(xié)方差協(xié)方差矩陣為1122211211212221212111(,410032,103001:.)47, 0(,)53, 0(,CCCCXXXXXXTTTT計算方法同上)協(xié)方差矩陣為(410032,103001103)( )(410)( )(411)01()01()00()01 ()01 (41)()(1512112251122222112122

22、5111112222221115111111TkkkTkkkkkTkxxxxCCCxxxxCxxxxC223. 0)()(ln,94)(,95)(:59. 0ln,61,103,40023,310001212121211211PPPP先驗概率188.12)5 .13(81.14091.101832210)()0 , 0(091.10)()0 , 0(),(x,),(x0)()(lnln21)xx()xx(21)xx()xx(21)()()(22222122221121212121211222111112xxxxxxgXxgxxxxxPPxgxgxgTTTTTT程:這是一個非線性橢圓方得分界線方

23、程為:令類。屬于所以判代入得:將利用公式:1X2X12待定樣本11211兩種解得分界線62. 0.61. 0068. 21147)()0 , 0(x068. 2)()(ln)xxxx(21x)xx()(221211212111112所示為一直線,如圖中虛線從而得分界線方程為類,判為故應(yīng)把xxxgPPxgTTTT1X2X12待定樣本11211兩種解得分界線得:所以代入Tx0 , 0,11200053,20110035121 v 解解2、假定兩類協(xié)方差矩陣相等=1+2訓(xùn)練樣本號k1 2 31 2 31 2 3特征 x10 1 2-2 -1 -2 0 1 -1特征 x21 0 -1 1 0 -1 -

24、1 -2 -2類別123v 解解1、假定三類協(xié)方差不等;v例例2:有訓(xùn)練集資料矩陣如下表所示,現(xiàn)已知, N=9、N1=N2=3、n=2、M=3,試問,未知樣本 X=(0,0)T應(yīng)屬于哪一類?3213213100110031,1001:)35, 0(x)0 ,35(x,)0 , 1 (x,協(xié)方差矩陣為,均值TTT300110031001131211,所以6 . 3)()(, 5 . 0)(:0 , 02 . 710321)(2 . 710321)(1221)(.lnln2121,21,)(3131311321222213122212122211111321321xgxgxgXxxxxgxxxxg

25、xxxxgPwwWwxwxWxxgPPPTiiiiTiioiiiiiioTiiTi代入得將所以其中代入多類判別函數(shù)先驗概率,12X321X待定樣品353511x3x2x06.252)()(055)()(01.36)()()()(),()(),()(0,021221321222132121211332211xxxxgxgxxxxxgxgxxxgxgxgxgxgxgxgxgXT分別令類為故應(yīng)判樣品12X321X待定樣品353511x3x2xv 可得三類分界線如圖所示:可得三類分界線如圖所示:4225)()(,143)(:0 , 0422575)(422575)(,14373)()(:730073,

26、37003732123121101321 xgxgxgXxxgxxgxxgwxwxgTiTii代入得將所以代入多類時判別函數(shù) 解解2、設(shè)三類協(xié)方差矩陣相等12X321X待定樣品353511x3x2x2187573)()(7575)()(21878)()()()(),()(),()(0,0211321321211332211xxxgxgxxxgxgxxgxgxgxgxgxgxgxgXT分別令類為故應(yīng)判樣品v 可得三類分界線如圖所示:可得三類分界線如圖所示:v作業(yè)作業(yè):在下列條件下,求待定樣本x=(2,0)T的類別,畫出分界線,編程上機(jī)。v 1、二類協(xié)方差相等,2、二類協(xié)方差不等。訓(xùn)練樣本號k1

27、2 31 2 3特征x11 1 2-1 -1 -2特征x21 0 -11 0 -1類別 1 2v 作業(yè)作業(yè):有訓(xùn)練集資料矩陣如下表所示,現(xiàn)已知, N=9、N1=N2= N3=3、n=2、M=3,試問,X=(-2,2)T應(yīng)屬于哪一類? 要求:要求:用兩種解法a、三類協(xié)方差不等;b、三類協(xié)方差相等。 編程上機(jī),畫出三類的分界線。訓(xùn)練樣本號k 1 2 31 2 3 1 2 3特征x10 2 1-1 -2 -2 0 0 1特征x20 1 0 1 0 -1 -2 -1 -2類別123為代定常數(shù)其中:先定義一個輔助常數(shù):要滿足以上條件最小,使為常數(shù)時取聶曼皮爾遜準(zhǔn)則是在,如圖所示:的錯誤率判為為的錯誤率判

28、為為TdxxPTdxxPTrdxxPdxxP1212212110222211122211,v4-6 在一類錯誤率固定使另一類錯誤率最小的判在一類錯誤率固定使另一類錯誤率最小的判別準(zhǔn)則別準(zhǔn)則(聶曼-皮爾遜判決neyman-pearson))(1xP)(2xP12X1X12dxxPdxxPxxTxPxPxPxTPrdxxPxTPrdxxPdxxP211122211121121112111),(.,11同理:類屬于區(qū)域在即區(qū)域內(nèi)應(yīng)使在應(yīng)使積分為負(fù)最小為變量,要使式中,因為.)()(.()()(,)()(121212221211TxTxPxPxTxPxPdxxTPxPr值皮爾遜規(guī)則歸結(jié)為找閾得到判決準(zhǔn)

29、則根據(jù)兩個不等式,我們區(qū)域)在v例例:兩類的模式分布為二維正態(tài) 協(xié)方差矩陣為單位矩陣1=2=I,設(shè)20.09求聶曼皮爾遜準(zhǔn)則 T.v 解:解:最小一定這時可確定,為常數(shù)時,的函數(shù)在取為的分界線作時當(dāng)1222222121,)(.,)()(TTdxxPTTxPxPTTT0 , 1,0 , 121 22exp212exp21)(21exp212exp21)(22212222221111xxxxxPxxxxxPTT同理:所以因為是兩類正態(tài)如圖所示:時為最小錯誤率小但大小大但小大如圖所示:的不同直線。判別邊界是平行于對于不同式有了判別邊界和判別形即判別式為:判別邊界為:如右圖所示.1,;,ln212ex

30、p2exp2exp)()(:121222112111121TTTxTxTxxTxxTTxxPxP42 12141111x2x12345. 07 . 0345. 07 . 0v所以此時聶曼皮爾遜分類器的分界線為:2111345. 0,69. 02lnln,ln21xxTTx所以因為v由圖可知為保證2足夠小,邊界應(yīng)向1一側(cè)靠,則1v T與2的關(guān)系表如右:最小的判別規(guī)則。時使這就是在給定最小上式使此時判別式為:由表查得給定12122121209. 0,2)()(209. 0 xTxPxPT的關(guān)系表與2TT 4 2 1 20.04 0.09 0.16 0.25 0.38v4-7最大最小判別準(zhǔn)則最大最小

31、判別準(zhǔn)則:前邊的討論都是假定先驗概率不變,現(xiàn)在討論在P(i)變化時如何使最大可能風(fēng)險最小,先驗概率P(1)與風(fēng)險R間的變化關(guān)系如下: .)(,11)(12122212111212211122212221121222211212212111121122122121的線性函數(shù)就是被確定,風(fēng)險一旦,對二類情況有:關(guān)系:與風(fēng)險PRdxxPdxxPPdxxPRdxxPdxxPPPdxxPPxPPdxxPPxPPdxxPxxRdxxPxxRdxxPxxRRPRi 1222221211121221122212221dxxPdxxPbdxxPabPaR其中:)(1xP)(2xP12X1X12 這樣,就得出最小

32、風(fēng)險與先驗概率的關(guān)系曲線,如圖所示: 討論: 。使最大風(fēng)險為不變,變化,則平行,與橫坐標(biāo)這時直線如圖所示,這時候最大風(fēng)險為最小即無關(guān)與使如果選擇關(guān)系為一條曲線與選擇不同時,當(dāng)關(guān)系為直線關(guān)系與區(qū)間固定時,當(dāng)a:0., 0,3;,2;,1112221222222121112122111211211121212RPPRdxxPaRdxxPdxxPPRbPRRPPR1PR固定21,*RA選擇不同21,)(1*P1PR*RB)(1*P不變變化RP1 .,0. 0,2121211222112112兩類錯誤概率相等若選取損失為滿足應(yīng)該使邊界所以在最大最小判別中ePePdxxPdxxPb上式證明,所選的判別邊

33、界,使兩類的概率相等: ePeP21這時可使最大可能的風(fēng)險為最小,這時先驗概率變化,其風(fēng)險不變v4-8 決策樹決策樹多峰情況多峰情況v Bayes分類器只能適用于樣本分布呈單峰情況,對多峰情況則不行。v 若用決策樹,可進(jìn)行如下步驟分類 ExxFxxxxDxxxxBxxCxxxxAxxxxxx121212111211211111202,5),5(4,3;,32);4(),2(1否則則若否則則轉(zhuǎn)若否則則若否則則轉(zhuǎn)若否則轉(zhuǎn)則轉(zhuǎn)若2XEFDCAB1X21112212x20 x11xv 整個分類過程可用右圖的樹表示:v 1、基本概念v (1)決策樹:二叉樹。每個節(jié)點都是兩類分類器。例如;節(jié)點a上的決策規(guī)

34、則為:v (2)代價(損失)矩陣定義節(jié)點L的代價為:cbxx202202xx202xx111xx111xx121xx121xx111xx121xx121xxABCDEFabc1j11222v 2、決策樹的構(gòu)造在構(gòu)造決策樹時,需要考慮以下問題:1)、如何判斷一節(jié)點是否為葉子。如右圖表示,假定A、B、C、D、E、F各包含50個樣本,并有以下的代價矩陣v 對于節(jié)點a,可以作出以下兩個決策之一:v 決策1,a不再分割v 決策2,a分為兩類v 決策1的代價為 A1(a)=Ca 節(jié)點a的代價v 決策2的代價為 A2(a)=(Cb+Cc) 節(jié)點b,c的代價和v 其中, 為一經(jīng)驗因子,用以防止無限分割下去上各

35、類樣本混淆程度表示在節(jié)點類的損失,誤判為類原屬于類樣本數(shù)表示屬于類樣本數(shù)表示屬于其中:LCrrrrCLijijjjLiiLijijjLiLL,202xx202xx111xx 111xx 121xx 121xx 111xx 121xx 121xx ABCDEFabc1j1122201010022211211v 只要經(jīng)驗因子2.25,便有A2(a) A1(a),因此取決策2的代價較小,故應(yīng)把分為兩類。v 一般地決策代價為:2)、選擇節(jié)點的分割方式: a、根據(jù)經(jīng)驗確定。例如,全部樣本分為三類,其代價矩陣為200000450000101501501015015021212121211212212121

36、ijijjcicijijjbibcbaaaaijijjaiaarrrrCCrrrrrrC分為兩類不再分割樹葉決策分類公式:,分為兩類,不再分割LLALAPCCPCLARRLP122121,L1R2R050605001060100333231232221131211v b、根據(jù)對樣本分布的了解試探確定。如右圖所示,將a劃分為b,c的方式有兩種v c、根據(jù)聚類結(jié)果來劃分。3)、如何確定各節(jié)點分類器。v原則:v 、分類器應(yīng)盡量簡單,因此,多采用線性分類器,v 、盡量減小分類時所使用的特征,選用最有效的特征進(jìn)行分類2XEFDCAB1X21112212x20 x11x。原則劃分作為另一類。根據(jù)這一類,而合為一,所以,因為L32123

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論