




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于貝葉斯網(wǎng)絡(luò)的信用評(píng)估模型
近年來(lái),隨著我國(guó)經(jīng)濟(jì)的快速發(fā)展,信用消費(fèi)逐漸出現(xiàn)。住房抵押貸款、汽車租賃、信用卡等個(gè)人消費(fèi)貸款要注意信用擔(dān)保。個(gè)人信用制度作為國(guó)家信用體系的一部分,正是個(gè)人信用消費(fèi)得以伸展的平臺(tái)。個(gè)人信用評(píng)估作為個(gè)人信用制度的組成部分,其主要目的就是對(duì)可能引起信用風(fēng)險(xiǎn)的因素進(jìn)行定性分析、定量計(jì)算,以測(cè)量消費(fèi)者的違約概率,為授信方?jīng)Q策提供依據(jù)。由于信用評(píng)估的重要性和問(wèn)題本身的復(fù)雜性,已有許多方法和技術(shù)被建議,如判別分析、回歸分析、數(shù)學(xué)規(guī)劃法、決策樹(shù)、最鄰近方法和神經(jīng)網(wǎng)絡(luò)等。然而,所有這些模型的建立都是基于判決兩類樣本點(diǎn)損失相同的情況。而事實(shí)上,將違約類樣本點(diǎn)誤判為不違約給銀行帶來(lái)的損失和將不違約類樣本點(diǎn)誤判為違約類樣本點(diǎn)給銀行帶來(lái)的損失是不同的。以往的研究往往集中于提高模型在測(cè)試樣本上的分類精度,而沒(méi)有考慮兩類誤判成本是不同的情況,在實(shí)際使用過(guò)程中常常造成對(duì)風(fēng)險(xiǎn)估計(jì)不足。因此,有必要采用最小總風(fēng)險(xiǎn)準(zhǔn)則(MOR)代替最小錯(cuò)誤概率準(zhǔn)則(MPE)來(lái)進(jìn)行分類。貝葉斯網(wǎng)絡(luò)分類器作為一種概率型分類器,繼承了貝葉斯網(wǎng)絡(luò)的優(yōu)點(diǎn),并具有良好的分類精度和語(yǔ)義表達(dá)能力,受到越來(lái)越多研究者的關(guān)注,并積極拓展它的應(yīng)用領(lǐng)域,現(xiàn)已廣泛應(yīng)用于模式識(shí)別、數(shù)據(jù)挖掘、垃圾郵件處理和醫(yī)學(xué)診斷。近來(lái),該方法也開(kāi)始應(yīng)用到管理領(lǐng)域,如客戶關(guān)系管理領(lǐng)域的客戶分類、客戶欺詐和對(duì)市場(chǎng)細(xì)分方面的研究。由于該分類器容易結(jié)合損失函數(shù)實(shí)現(xiàn)最小化總風(fēng)險(xiǎn)分類的目標(biāo),本文在介紹貝葉斯分類原理、貝葉斯網(wǎng)絡(luò)及其分類器基本原理的基礎(chǔ)上,結(jié)合考慮損失函數(shù)的情況,初探將該方法運(yùn)用到消費(fèi)者的信用評(píng)估中,用MOR來(lái)代替MPE對(duì)兩分類問(wèn)題進(jìn)行識(shí)別,在最小總風(fēng)險(xiǎn)條件下給出未知類的類別;然后使用兩個(gè)真實(shí)數(shù)據(jù)進(jìn)行了實(shí)證研究;最后給出了結(jié)論及今后的研究方向。1類型l和分類方法,分為以下幾種類型設(shè)U={X,C}是隨機(jī)變量有限集。其中:X={X1,…,Xn}是屬性變量集;C是類變量,取值為{c1,…,cl};xi是屬性Xi的取值。樣本xi=(x1,…,xn)屬于ci的概率,由貝葉斯定理可表示為P(C=cj|X=xi)=P(C=cj)×P(X=xi|C=cj)/P(X=xi)=P(cj)×P(x1,…,xn|cj)/P(x1,…,xn)=γ×P(cj)×P(x1,…,xn|cj)(1)其中:γ是正則化因子;P(cj)是類cj的先驗(yàn)概率;P(x1,…,xn|cj)是類cj關(guān)于xi的似然。由概率的鏈?zhǔn)椒▌t,式(1)可以表示為Ρ(cj|x1,?,xn)=γ×Ρ(cj)×n∏i=1Ρ(xi|x1,?,xi-1,xi+1,?,xn,cj)P(cj|x1,?,xn)=γ×P(cj)×∏i=1nP(xi|x1,?,xi?1,xi+1,?,xn,cj)(2)給定訓(xùn)練樣本集D={u1,…,uN},分類任務(wù)的目標(biāo)是對(duì)訓(xùn)練樣本集D進(jìn)行分析,確定一個(gè)映射函數(shù)f:(x1,…,xn)→C,使得對(duì)任意未知類別的實(shí)例x=(x1,…,xn)可以標(biāo)定類標(biāo)簽。最小錯(cuò)誤概率準(zhǔn)則,即貝葉斯最大后驗(yàn)概率準(zhǔn)則:給定某一實(shí)例x=(x1,…,xn),貝葉斯分類器選擇后驗(yàn)概率P(cj|x1,…,xn)最大的類作為該實(shí)例的類標(biāo)簽,即Ρ(ci|x)=maxj=1,?,lΡ(cj|x)P(ci|x)=maxj=1,?,lP(cj|x),則判定x為ci。2貝葉斯決策原則在分類的決策中,使錯(cuò)誤概率達(dá)到最小是重要的,但實(shí)際上,有些問(wèn)題需要考慮一個(gè)比錯(cuò)誤概率更為廣泛的概念——風(fēng)險(xiǎn)。在個(gè)人信用評(píng)估中,對(duì)消費(fèi)者信貸的分類不僅要考慮盡可能作出正確的判斷,而且還要考慮到作出錯(cuò)誤判斷時(shí)會(huì)帶來(lái)什么后果。在信用評(píng)估中,如果把信用良好的客戶誤判為信用差的客戶固然會(huì)使銀行損失一筆收益,但如果把原本是信用差的客戶錯(cuò)判為信用良好,就會(huì)造成更大損失。顯然這兩種不同的錯(cuò)誤判斷所造成損失的嚴(yán)重程度是有顯著差別的,后者的損失比前者更嚴(yán)重。如果要使誤判風(fēng)險(xiǎn)最小化,就要考慮損失函數(shù)(lossfunction)。損失函數(shù)精確地闡述了每種行為所付出的代價(jià)大小,并且用于將概率轉(zhuǎn)換為一種判決。令{α1,…,αa}表示有限的a種可能采取的行為集,損失函數(shù)λ(αi|cj)描述類別狀態(tài)為cj時(shí)采取行動(dòng)αi的風(fēng)險(xiǎn)。假定觀測(cè)到某個(gè)特定模式x將采取行為αi,如果真實(shí)類別狀態(tài)為cj,定義在類別狀態(tài)為cj采取行為αi將有損失為λ(αi|cj),P(cj|x)是x實(shí)際類別狀態(tài)為cj時(shí)的概率,與行為αi相關(guān)的條件期望損失為R(αi|x)=E[λ(αi|cj)]=l∑j=1λ(αi|cj)Ρ(cj|x)R(αi|x)=E[λ(αi|cj)]=∑j=1lλ(αi|cj)P(cj|x);i=1,…,a(3)用決策理論的術(shù)語(yǔ)來(lái)表達(dá),一個(gè)預(yù)期的損失被稱為一次風(fēng)險(xiǎn),R(αi|x)稱為條件風(fēng)險(xiǎn)。由于x是隨機(jī)向量的觀察值,對(duì)于x的不同觀察值,采取決策αi時(shí),其條件風(fēng)險(xiǎn)的大小是不同的。所以究竟采用哪一種決策將隨x的取值而定。這樣決策α可以看成隨機(jī)向量x的函數(shù),記為α(x),其本身也是一個(gè)隨機(jī)變量,可以定義期望風(fēng)險(xiǎn)為R=E=∑RP(x)(4)其中:期望風(fēng)險(xiǎn)R反映對(duì)所有x的取值采取相應(yīng)決策α(x)所帶來(lái)的平均風(fēng)險(xiǎn);而條件風(fēng)險(xiǎn)R(αi|x)只是反映了對(duì)某一x的取值采取決策αi所帶來(lái)的風(fēng)險(xiǎn)。顯然要求的是采取一系列的決策行動(dòng)α(x)使期望風(fēng)險(xiǎn)R最小。如果在采取每一決策或行動(dòng)時(shí)條件風(fēng)險(xiǎn)都最小,則對(duì)所有的x作出決策時(shí),其期望風(fēng)險(xiǎn)也必然最小,這樣的決策就是最小總風(fēng)險(xiǎn)準(zhǔn)則。最小總風(fēng)險(xiǎn)準(zhǔn)則為R(αk|x)=mini=1,?,aR(αi|x)R(αk|x)=mini=1,?,aR(αi|x),則α=αk。使錯(cuò)誤概率和總風(fēng)險(xiǎn)達(dá)到最小的兩種貝葉斯決策規(guī)則存在著密切聯(lián)系。設(shè)損失函數(shù)為式(5)中λ(αi|cj)對(duì)于正確決策,即i=j沒(méi)有損失;而對(duì)于任何錯(cuò)誤決策,其損失均為1。這樣定義的損失函數(shù)稱為0-1損失函數(shù)。根據(jù)式(4),條件風(fēng)險(xiǎn)為R(αi|x)=l∑j=1λ(αi|cj)Ρ(cj|x)=l∑j=1,j≠iΡ(cj|x)R(αi|x)=∑j=1lλ(αi|cj)P(cj|x)=∑j=1,j≠ilP(cj|x)(6)其中:l∑j=1,j≠iΡ(cj|x)∑j=1,j≠ilP(cj|x)表示對(duì)x采取決策cj的條件錯(cuò)誤概率。所以在0-1損失函數(shù)中,使R(αk|x)=mini=1,?,aR(αi|x)R(αk|x)=mini=1,?,aR(αi|x)的最小總風(fēng)險(xiǎn)貝葉斯決策等價(jià)于最小錯(cuò)誤率貝葉斯決策。由此可見(jiàn),MPE就是在0-1損失函數(shù)條件下的MOR。為便于使用,考慮將上述結(jié)論應(yīng)用于兩類問(wèn)題的結(jié)果。假設(shè)行為α1對(duì)應(yīng)于類別判決c1,行為α2對(duì)應(yīng)于判決c2。為了簡(jiǎn)化符號(hào),以λij=λ(αi|cj)表示當(dāng)實(shí)際類別為cj時(shí)誤判為ci所引起的損失。如果寫出式(3)所給的條件風(fēng)險(xiǎn),可得R(α1|x)=λ11P(c1|x)+λ12P(c2|x)(7)R(α2|x)=λ21P(c1|x)+λ22P(c2|x)(8)如果R(α1|x)<R(α2|x),則判定x為c1;否則相反。3貝葉斯網(wǎng)絡(luò)分類器3.1核心網(wǎng)絡(luò)模型參數(shù)集貝葉斯網(wǎng)絡(luò)是由隨機(jī)變量集合U={X1,…,Xn}組成的聯(lián)合概率分布的編碼,形式上是一對(duì)二元組B=〈G,Θ〉。G是一有向無(wú)環(huán)圖,它的節(jié)點(diǎn)對(duì)應(yīng)隨機(jī)變量X1,…,Xn,有向邊代表變量之間的相依性。圖的結(jié)構(gòu)G編碼了獨(dú)立性假設(shè):給定每個(gè)節(jié)點(diǎn)的父節(jié)點(diǎn)的條件下,該節(jié)點(diǎn)獨(dú)立于它的非自子孫節(jié)點(diǎn)。Θ代表了這個(gè)網(wǎng)絡(luò)的量化參數(shù)集,每一個(gè)參數(shù)對(duì)應(yīng)于Xi的每一種可能取值xi,pa(xi)∈Pa(Xi)。其中:Pa(Xi)是Xi在G中父變量的集合;pa(xi)是Pa(Xi)的一個(gè)構(gòu)成。B在U上定義了惟一的聯(lián)合概率分布:ΡB(X1,??Xn)=n∏i=1ΡB[Xi|Ρa(Xi)]PB(X1,??Xn)=∏i=1nPB[Xi|Pa(Xi)](9)學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的首要任務(wù)是對(duì)一個(gè)定義在U上的訓(xùn)練樣本集D={u1,…,uN},尋找最匹配D的網(wǎng)絡(luò)結(jié)構(gòu)B。一旦獲得了網(wǎng)絡(luò)結(jié)構(gòu)B,就可以估計(jì)參數(shù)Θ。用貝葉斯網(wǎng)絡(luò)作為分類工具,實(shí)際上就是用貝葉斯網(wǎng)絡(luò)求解式(2)。由于貝葉斯網(wǎng)絡(luò)表達(dá)了變量集的聯(lián)合概率分布,只要確定了變量集的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)和屬性變量的條件概率分布,就可以求得P(cj|x1,…,xn)。根據(jù)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的不同假定,可以分為樸素貝葉斯分類模型、通用貝葉斯分類模型以及樹(shù)增強(qiáng)貝葉斯分類模型。3.2基于matlab的訓(xùn)練分類器樸素貝葉斯分類模型(naiveBayesianclassificationmodel,NB)采用了最簡(jiǎn)單的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),將類節(jié)點(diǎn)強(qiáng)制作為其他屬性的父(根)節(jié)點(diǎn),并假定各屬性節(jié)點(diǎn)在已知類的條件下相互獨(dú)立。其拓?fù)浣Y(jié)構(gòu)如圖1所示。每個(gè)屬性Xi只與類變量C相關(guān),因此式(2)中的P(xi|x1,…,xi-1,xi+1,…,xn,cj)簡(jiǎn)化為P(xi|cj),即Ρ(cj|x1,?,cn)=γ×Ρ(xj)×n∏i=1Ρ(xi|cj)P(cj|x1,?,cn)=γ×P(xj)×∏i=1nP(xi|cj)(10)由于屬性的排列順序不影響概率分布P(cj|x1,…,xn),不失一般性可以假定前q個(gè)屬性為離散屬性,(q+1)~n為連續(xù)屬性,則有Ρ(xk≤Xk<xk+Δ|C=cj)=xk+Δ∫xkf(xk∶μcj,σcj)dxkP(xk≤Xk<xk+Δ|C=cj)=∫xkxk+Δf(xk∶μcj,σcj)dxk(11)由導(dǎo)數(shù)的定義:limΔ→0Ρ(xk≤Xk<xk+Δ|C=cj)/Δ=f(xklimΔ→0P(xk≤Xk<xk+Δ|C=cj)/Δ=f(xk:μcj,σcj)(12)P(xk≤Xk<xk+Δ|C=cj)≈f(xj:μcj,σcj)Δ(13)式(10)可以寫為Ρ(cj|x1,?,xn)=γ×Ρ(cj)×q∏i=1Ρ(xi|cj)n∏k=q+1f(xk|cj)ΔP(cj|x1,?,xn)=γ×P(cj)×∏i=1qP(xi|cj)∏k=q+1nf(xk|cj)Δ(14)其中:P(xi|cj)為離散屬性變量Xi類條件概率分布;f(xk|cj)為連續(xù)屬性變量Xk的類條件概率密度函數(shù)。因子Δ出現(xiàn)在式(14)的每一個(gè)類,當(dāng)進(jìn)行正則化后,Δ將被抵消。故式(14)又可以寫為Ρ(cj|x1,?,xn)=β×Ρ(cj)×q∏i=1Ρ(xi|cj)×n∏k=q+1f(xk|cj)P(cj|x1,?,xn)=β×P(cj)×∏i=1qP(xi|cj)×∏k=q+1nf(xk|cj)(15)其中:β=1/P(x1,…,xq)×f(xq+1,…,xn|x1,…,xq)。通過(guò)屬性變量集的類條件概率分布,NB將離散屬性變量和連續(xù)屬性變量統(tǒng)一在概率分布中,簡(jiǎn)潔地實(shí)現(xiàn)了對(duì)特征屬性的編碼。訓(xùn)練分類器時(shí),NB首先按照類標(biāo)簽把訓(xùn)練樣本集分成幾個(gè)子集Dj(1≤j≤l),用訓(xùn)練樣本集估計(jì)每個(gè)類的先驗(yàn)概率,一般可以按P(C=cj)=Ni/N進(jìn)行估算。其中:Ni是在子數(shù)據(jù)集C=ci的樣本數(shù);N為訓(xùn)練集樣本總數(shù)。然后在每個(gè)由cj標(biāo)定的子集對(duì)類條件屬性的概率進(jìn)行估計(jì)。對(duì)類條件屬性的概率估計(jì)方法為:對(duì)每一個(gè)離散屬性,可以根據(jù)最大似然估計(jì)準(zhǔn)則,取P(Xj=xjk|C=ci)=Nijk/Ni。其中:Nijk為事件Xj=xjk在子數(shù)據(jù)集C=ci上發(fā)生的頻數(shù);Ni是子數(shù)據(jù)集C=ci的樣本數(shù)。對(duì)于連續(xù)屬性,通常假定服從正態(tài)分布,則式(15)中的f(xk|cj)為f(xk|cj)=g(xk∶μk,cj,σk,cj)=[1/(√2πσk,cj)]exp[(xk-μk,cj)2/(2σ2k,cj)](16)f(xk|cj)=g(xk∶μk,cj,σk,cj)=[1/(2π??√σk,cj)]exp[(xk?μk,cj)2/(2σ2k,cj)](16)μk,cj=(1/n)j∑x∈Djxkμk,cj=(1/n)j∑x∈Djxk(17)σk,cj=[1/(nj-1)]∑x∈Dj(xk-μk,cj)2σk,cj=[1/(nj?1)]∑x∈Dj(xk?μk,cj)2(18)NB的最大特點(diǎn)是不需要搜索網(wǎng)絡(luò)結(jié)構(gòu),只需簡(jiǎn)單地計(jì)算訓(xùn)練集中各個(gè)離散屬性值發(fā)生的頻率數(shù)或?qū)B續(xù)離散屬性采用正態(tài)分布假定,就可以估計(jì)出每個(gè)屬性的概率估計(jì)值或概率密度,因而效率特別高。理論上,它在滿足其限定條件下是最優(yōu)的,針對(duì)其較強(qiáng)的限定條件,可以嘗試著減弱它以擴(kuò)大最優(yōu)范圍,從而產(chǎn)生新的分類器。3.3用gbn進(jìn)行分類通用貝葉斯網(wǎng)絡(luò)分類器(generalBayesiannetworkclassifier,GBN)將類節(jié)點(diǎn)和屬性節(jié)點(diǎn)作為同等地位的網(wǎng)絡(luò)節(jié)點(diǎn),根據(jù)選定的評(píng)分函數(shù)和樣本數(shù)據(jù)訓(xùn)練出貝葉斯網(wǎng)絡(luò),直接作為分類器。用GBN進(jìn)行分類的過(guò)程實(shí)際上就是將屬性節(jié)點(diǎn)作為證據(jù)節(jié)點(diǎn)引入到貝葉斯網(wǎng)絡(luò)中,求得類節(jié)點(diǎn)后驗(yàn)概率的過(guò)程。在貝葉斯網(wǎng)絡(luò)中,把某節(jié)點(diǎn)的父節(jié)點(diǎn)、子節(jié)點(diǎn)及子節(jié)點(diǎn)的父節(jié)點(diǎn)稱為該節(jié)點(diǎn)的馬爾可夫覆蓋。根據(jù)有向馬爾可夫覆蓋的性質(zhì),一個(gè)節(jié)點(diǎn)取某個(gè)值的概率只受其馬爾可夫覆蓋節(jié)點(diǎn)的影響,而與其余節(jié)點(diǎn)無(wú)關(guān)。這樣一些可能對(duì)分類有重要意義的變量,由于被歸于馬爾可夫覆蓋以外,而影響不到分類節(jié)點(diǎn)。多數(shù)情形下,經(jīng)過(guò)學(xué)習(xí)的GBN比NB的分類效果要差,尤其當(dāng)屬性較多時(shí)效果更差。另外,GBN是一個(gè)無(wú)約束的貝葉斯網(wǎng)絡(luò),其結(jié)構(gòu)學(xué)習(xí)本身就是一個(gè)NP-complete問(wèn)題,目前條件下不可能搜索整個(gè)空間。事實(shí)上,只有在屬性個(gè)數(shù)極少的情況下才具有實(shí)用價(jià)值。3.4最大權(quán)重的建立NB直接面向分類目標(biāo),網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)潔明了,但其屬性變量間完全獨(dú)立的條件使其難以適用于實(shí)際情況。GBN克服了NB屬性變量間相互獨(dú)立假設(shè)的限制,通過(guò)對(duì)數(shù)據(jù)的學(xué)習(xí)找到它們的相關(guān)性,但卻由于馬爾可夫覆蓋節(jié)點(diǎn)的影響排除了某些可能對(duì)分類有意義的關(guān)鍵屬性。增強(qiáng)型樸素貝葉斯分類器正是基于此的改進(jìn),其中最簡(jiǎn)單的一種為樹(shù)增強(qiáng)型樸素貝葉斯分類器(treeaugmentednaiveBayesianclassifier,TAN)。該分類器以類變量作為所有屬性節(jié)點(diǎn)的父節(jié)點(diǎn),而屬性節(jié)點(diǎn)之間構(gòu)成一個(gè)樹(shù)型結(jié)構(gòu),如圖2所示。它的Pa(C)=?,且Pa(Xi)除C以外至多有一個(gè)其他的屬性,每個(gè)屬性除由類變量指向它的弧外至多可以有一個(gè)相關(guān)的弧指向它。由于限制了相關(guān)弧的數(shù)目,可以進(jìn)行有效的學(xué)習(xí)。這類模型已由Geiger給出了證明,并用Chow和Liu學(xué)習(xí)樹(shù)結(jié)構(gòu)的貝葉斯網(wǎng)絡(luò)算法進(jìn)行學(xué)習(xí)。構(gòu)造TAN網(wǎng)絡(luò)結(jié)構(gòu)的算法如下:a)計(jì)算每對(duì)屬性變量i≠j的條件互信息熵I(Ai;Aj|C)。其中:I(Ai;Aj|C)=∑xi,xj,c?ΡD(ai,aj,c)log(?ΡD(ai,aj|c)/[?ΡD(ai|c)?ΡD(aj|c)])Aj|C)=∑xi,xj,cP?D(ai,aj,c)log(P?D(ai,aj|c)/[P?D(ai|c)P?D(aj|c)])。?ΡD(?)P?D(?)是訓(xùn)練樣本中·事件發(fā)生的經(jīng)驗(yàn)頻率。b)構(gòu)造一個(gè)完全無(wú)向圖,它的頂點(diǎn)是屬性變量。標(biāo)注Xi和Xj相連接邊的權(quán)重為I(Ai;Aj|C)。c)建立一個(gè)最大的權(quán)重跨度樹(shù)。d)選擇根節(jié)點(diǎn),并設(shè)置所有弧的方向由根節(jié)點(diǎn)指出,把無(wú)向樹(shù)轉(zhuǎn)換為有向樹(shù)(根節(jié)點(diǎn)的選擇不改變網(wǎng)絡(luò)結(jié)構(gòu)的對(duì)數(shù)似然)。e)增加一個(gè)類變量節(jié)點(diǎn)及類變量節(jié)點(diǎn)與屬性節(jié)點(diǎn)之間的弧。步驟a)的計(jì)算復(fù)雜度為O(n2×N),c)的計(jì)算復(fù)雜度為O(n2×logn),N為訓(xùn)練樣本數(shù)。由于通常有N>logn,時(shí)間復(fù)雜度為O(n2×N)。建立最大權(quán)重跨度樹(shù)的方法是:首先把邊按權(quán)重由大到小排序;然后遵照選擇的邊不能構(gòu)成回路的原則,按照邊的權(quán)重由大到小的順序選擇邊,由此構(gòu)成的樹(shù)便是最大權(quán)重跨度樹(shù)。按照以上方法構(gòu)造的TAN是考慮了分類精度和計(jì)算時(shí)間復(fù)雜度的一種折中。實(shí)驗(yàn)證明,通常其具有比NB更好的分類精度而所付出的代價(jià)并不大,因此獲得了廣泛應(yīng)用。4以最小風(fēng)險(xiǎn)準(zhǔn)則為識(shí)別模型的學(xué)習(xí)算法對(duì)于實(shí)際問(wèn)題,最小總風(fēng)險(xiǎn)貝葉斯決策可按下列步驟進(jìn)行:a)在已知P(cj)、P(x|cj)(j=1,…,l)以及給出待識(shí)別的x的情況下,根據(jù)式(1)計(jì)算出后驗(yàn)概率P(cj|x)。b)利用計(jì)算出的后驗(yàn)概率及損失函數(shù),按式(3)計(jì)算采取αi(i=1,2,…,a)的條件風(fēng)險(xiǎn)R(αi|x)。其中:R(αi|x)=l∑j=1λ(αi|cj)Ρ(cj|x)R(αi|x)=∑j=1lλ(αi|cj)P(cj|x);i=1,2,…,a(19)c)對(duì)式(19)中得到的a個(gè)條件風(fēng)險(xiǎn)值R(αi|x)(i=1,…,a)進(jìn)行比較,找出使條件風(fēng)險(xiǎn)最小的決策αk,即R(αk|x)=mini=1,?,aR(αi|x)R(αk|x)=mini=1,?,aR(αi|x)(20)則αk就是最小總風(fēng)險(xiǎn)貝葉斯決策。從上面的步驟可以看出,在已知損失函數(shù)的情況下,問(wèn)題的關(guān)鍵在于要計(jì)算符合實(shí)際情況的先驗(yàn)概率P(cj)和類條件概率P(x|cj)。由前面的論述可知,貝葉斯網(wǎng)絡(luò)可以表達(dá)全聯(lián)合概率分布,而且貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)可以通過(guò)從數(shù)據(jù)中學(xué)習(xí)的方法獲得。一旦獲得了貝葉斯網(wǎng)絡(luò)分類模型,再按照最小風(fēng)險(xiǎn)準(zhǔn)則進(jìn)行分類決策已經(jīng)是非常簡(jiǎn)單的問(wèn)題了。下面給出用貝葉斯網(wǎng)絡(luò)按最小風(fēng)險(xiǎn)準(zhǔn)則決策的算法:a)根據(jù)訓(xùn)練樣本選擇貝葉斯網(wǎng)絡(luò)分類模型B,并訓(xùn)練分類模型B。b)根據(jù)給定的損失函數(shù)對(duì)未知類別的樣本x計(jì)算R(ci|x)=l∑j=1λ(ci|cj)ΡB(cj|x);i=1,2,…,l(21)其中:R(ci|x)是判定x為ci類的風(fēng)險(xiǎn);PB(cj|x)是根據(jù)貝葉斯網(wǎng)絡(luò)B計(jì)算得到的x為cj類的概率;λ(ci|cj)是x實(shí)際為cj而誤判為ci產(chǎn)生的損失。c)比較R(ci|x)(i=1,…,l),選擇R(ci|x)值最小的ci作為x對(duì)應(yīng)的類。5實(shí)驗(yàn)5.1澳大利亞信用數(shù)據(jù)的屬性本文以德國(guó)和澳大利亞信用數(shù)據(jù)為例進(jìn)行了實(shí)證研究。其中德國(guó)信用數(shù)據(jù)記錄1000條;定義了兩類人,第一類(goodcredit)樣本700個(gè),第二類(badcredit)樣本300個(gè),每個(gè)樣本有20個(gè)屬性(信用信息指標(biāo)),詳細(xì)指標(biāo)如表1所示。其中2-5-8-11-13-16-17為定量屬性,其余的為定性屬性。澳大利亞信用數(shù)據(jù)與德國(guó)信用數(shù)據(jù)相似,但兩類人的數(shù)量相對(duì)比較均衡,第一類為307,第二類為383。為了保護(hù)商業(yè)機(jī)密,公開(kāi)的數(shù)據(jù)對(duì)屬性名和定性的屬性值作了符號(hào)代換,共有15個(gè)屬性。其中,定量屬性6個(gè);定性屬性9個(gè)。下面的實(shí)驗(yàn)對(duì)以上兩個(gè)數(shù)據(jù)集均采用德國(guó)信用數(shù)據(jù)中的成本矩陣,即λ11=λ22=0,λ12=1,λ21=5。5.2算法的層交叉驗(yàn)證正如前文所述,GBN分類性能通常較差且在巨大的結(jié)構(gòu)空間進(jìn)行結(jié)構(gòu)搜索本身就是NP-complete問(wèn)題,因此本文僅對(duì)NB與TAN進(jìn)行實(shí)證研究。由于TAN不能處理連續(xù)屬性,采用了Fayyad等人基于信息熵的離散化方法對(duì)連續(xù)變量進(jìn)行了離散化處理;各類的先驗(yàn)概率,即式(2)中的P(ci)按訓(xùn)練樣本中的各類占訓(xùn)練樣本總數(shù)的比例計(jì)。為了客觀地評(píng)價(jià)分類器的性能,最小化數(shù)據(jù)間相關(guān)性的影響,改進(jìn)計(jì)算結(jié)果的可靠性,采用10層交叉驗(yàn)證進(jìn)行了計(jì)算。樣本按比例隨機(jī)分成10個(gè)等份,每次保留獨(dú)立的一份作為測(cè)試集,取其余的九份作為訓(xùn)練集,輪換計(jì)算10次。每次的測(cè)試集均不相同,分別采用MPE和MOR進(jìn)行了計(jì)算,用10次計(jì)算誤分率的平均值作為最終誤分率,結(jié)果如表2所示。表2中g(shù)ood和bad分別為第一類和第
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 貸款中介服務(wù)合同二零二五年
- 工程管理讀書報(bào)告
- 代理注銷合同范例
- MW發(fā)電機(jī)轉(zhuǎn)子掉塊修理方案
- 2016-2024-學(xué)年度第一學(xué)期1、2年級(jí)航模課教案
- 產(chǎn)權(quán)房賣給個(gè)人合同樣本
- 供農(nóng)機(jī)合同樣本
- 下門單間出租合同樣本
- 內(nèi)墻涂料施工方案
- 信息咨詢服務(wù)合同樣本
- 檢驗(yàn)科標(biāo)本運(yùn)送培訓(xùn)
- 初中作文指導(dǎo)-景物描寫(課件)
- 秋 輕合金 鋁合金相圖及合金相課件
- 6.3.1 平面向量基本定理 課件(共15張PPT)
- 安全安全檢查表分析(SCL)記錄表(設(shè)備、設(shè)施)
- 城市濕地公園設(shè)計(jì)導(dǎo)則2017
- 小學(xué)巡課記錄表
- 消防管道隱蔽工程驗(yàn)收?qǐng)?bào)審表(表格記錄)
- 地質(zhì)災(zāi)害群測(cè)群防講義
- 高頻變壓器標(biāo)準(zhǔn)工時(shí)對(duì)照表
- 232425黃昆固體物理教案
評(píng)論
0/150
提交評(píng)論