最小錯(cuò)誤率貝葉斯分類器_第1頁
最小錯(cuò)誤率貝葉斯分類器_第2頁
最小錯(cuò)誤率貝葉斯分類器_第3頁
最小錯(cuò)誤率貝葉斯分類器_第4頁
最小錯(cuò)誤率貝葉斯分類器_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、碩士研究生專業(yè)課考試大作業(yè)課程名稱:模式識(shí)別課程編號(hào):063806任課教師姓名:劉海波職稱:副教授學(xué)生姓名:黃躍平學(xué)號(hào):S309060181作業(yè)題目:最小錯(cuò)誤率貝葉斯分類器成績(jī):二00年四月二十五日模式識(shí)別課程大作業(yè)最小錯(cuò)誤率貝葉斯分類摘要:統(tǒng)計(jì)決策理論是處理模式識(shí)別問題的基本理論之一,而貝葉斯決策理論方法又是統(tǒng)計(jì)模式識(shí) 別中的一個(gè)基本方法,它可以有效地對(duì)大量數(shù)據(jù)進(jìn)行分析,并生成相應(yīng)的分類器,對(duì)于數(shù)據(jù)的分類 識(shí)別有著重大的意義。本文把最小錯(cuò)誤率的貝葉斯方法運(yùn)用到男女性別的識(shí)別中,提高了分類的準(zhǔn) 確性和有效性。關(guān)鍵詞:貝葉斯統(tǒng)計(jì)決策;最小錯(cuò)誤率;先驗(yàn)概率;條件概率1問題描述模式是通過對(duì)具體的個(gè)別

2、事物進(jìn)行觀測(cè)所得到的具有時(shí)間和空間分布的信息;把模式所屬的類 別或同一類中模式的總體稱為模式類 (或簡(jiǎn)稱為類)。而“模式識(shí)別”則是在某些一定量度或觀測(cè)基礎(chǔ) 上把待識(shí)模式劃分到各自的模式類中去。有兩種基本的模式識(shí)別方法,即統(tǒng)計(jì)模式識(shí)別方法和結(jié)構(gòu)(句法)模式識(shí)別方法。統(tǒng)計(jì)模式識(shí)別是對(duì)模式的統(tǒng)計(jì)分類方法,即結(jié)合統(tǒng)計(jì)概率論的貝葉斯決策系統(tǒng)進(jìn)行模式識(shí)別的技術(shù),又稱為決策理 論識(shí)別方法。與此相應(yīng)的模式識(shí)別系統(tǒng)都是有兩個(gè)過程(設(shè)計(jì)與實(shí)現(xiàn))所組成?!霸O(shè)計(jì)”是指用一定數(shù)量的樣本(訓(xùn)練集/學(xué)習(xí)集)進(jìn)行分類器的設(shè)計(jì)?!皩?shí)現(xiàn)”是指用所設(shè)計(jì)的分類器對(duì)待識(shí)別的樣本進(jìn)行分 類決策?;诮y(tǒng)計(jì)模式識(shí)別方法的系統(tǒng)主要由以下幾個(gè)部

3、分組成:信息獲取、預(yù)處理、特征提取和 選擇、分類決策。圖1統(tǒng)計(jì)模式識(shí)別系統(tǒng)在本文中問題主要是通過提取人類身高和體重兩個(gè)特征值,然后對(duì)樣本集進(jìn)行訓(xùn)練學(xué)習(xí)并設(shè)計(jì)分類器設(shè)計(jì),最后對(duì)待識(shí)別的樣本集進(jìn)行男女性別的分類。2研究現(xiàn)狀貝葉斯(Revere nd Thomas Bayes 1702-1761)學(xué)派奠基性的工作是貝葉斯的論文“關(guān)于幾率性問題求解的評(píng)論”。或許是他自己感覺到他的學(xué)說還有不完善的地方,這一論文在他生前并沒有發(fā)表, 而是在他死后,由他的朋友發(fā)表的。著名的數(shù)學(xué)家拉普拉斯(Laplace,P.S)用貝葉斯的方法導(dǎo)出了重要的“相繼律”,貝葉斯的方法和理論逐漸被人理解和重視起來。但由于當(dāng)時(shí)貝葉斯

4、方法在理論和實(shí) 際應(yīng)用中還存在很多不完善的地方,因而在十九世紀(jì)并未被普遍接受。二十世紀(jì)初,意大利的菲納 特(B.de Finetti )及其英國(guó)的杰弗萊(Jeffreys,H.)都對(duì)貝葉斯學(xué)派的理論作出重要的貢獻(xiàn)。第二次 世界大戰(zhàn)后,瓦爾德(Wald,A.)提出了統(tǒng)計(jì)的決策理論,在這一理論中,貝葉斯解占有重要的地位;信息論的發(fā)展也對(duì)貝葉斯學(xué)派做出了新的貢獻(xiàn)。1958年英國(guó)最悠久的統(tǒng)計(jì)雜志Biometrika全文重新刊登了貝葉斯的論文,20世紀(jì)50年代,以羅賓斯(Robb ins, H.)為代表,提出了經(jīng)驗(yàn)貝葉斯方法和 經(jīng)典方法相結(jié)合,引起統(tǒng)計(jì)界的廣泛注意,這一方法很快就顯示出它的優(yōu)點(diǎn),成為很活

5、躍的一個(gè)方 向。在這里值得一提的是,八十年代以后,人工智能的發(fā)展,尤其是機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘的興起, 為貝葉斯理論的發(fā)展和應(yīng)用提供了更為廣闊的空間。密度估計(jì)貝葉斯學(xué)習(xí)理論利用先驗(yàn)信息和樣本數(shù)據(jù)來獲得對(duì)未知樣本的估計(jì),而概率(聯(lián)合概率和條件 概率)是先驗(yàn)信息和樣本數(shù)據(jù)信息在貝葉斯學(xué)習(xí)理論中的表現(xiàn)形式。如何獲得這些概率(也稱之為 密度估計(jì))是貝葉斯學(xué)習(xí)理論爭(zhēng)議較多的地方。貝葉斯密度估計(jì)研究如何根據(jù)樣本的數(shù)據(jù)信息和人 類專家的先驗(yàn)知識(shí)獲得對(duì)未知變量(向量)的分布及其參數(shù)的估計(jì)。它有兩個(gè)過程:一是確定未知 變量的先驗(yàn)分布;一是獲得相應(yīng)分布的參數(shù)估計(jì)。如果以前對(duì)所有信息一無所知,稱這種分布為無 信息先驗(yàn)分

6、布;如果知道其分布求它的分布參數(shù),稱之為有信息先驗(yàn)分布。由于在數(shù)據(jù)挖掘中,從 數(shù)據(jù)中學(xué)習(xí)是它的特性,所以無信息先驗(yàn)分布是貝葉斯學(xué)習(xí)理論的主要研究對(duì)象。研究無信息分布 的奠基性工作是貝葉斯假設(shè)-參數(shù)的無信息先驗(yàn)分布在參數(shù)的取值范圍內(nèi)應(yīng)是均勻的。對(duì)參數(shù)有界 的情況,貝葉斯假設(shè)在實(shí)際運(yùn)用中獲得了很大的成功,與經(jīng)典的參數(shù)估計(jì)方法是一致的,而當(dāng)參數(shù) 無界時(shí),貝葉斯假設(shè)卻遇到了困難。為此,人們又提出了一些選取先驗(yàn)分布的原則:共軛分布:共軛分布假定先驗(yàn)分布與后驗(yàn)分布屬于同一種類型。這一假定為后驗(yàn)分布的計(jì)算 帶來很大的方便,同時(shí)在認(rèn)知上,它要求經(jīng)驗(yàn)的知識(shí)與現(xiàn)在的樣本信息有某種同一性,它們 能轉(zhuǎn)化為同一類型的經(jīng)

7、驗(yàn)知識(shí)。杰弗萊原則:在貝葉斯假設(shè)中,如果對(duì)參數(shù)選用均勻分布,那么它的函數(shù)作為參數(shù)時(shí),也應(yīng) 服從均勻分布。然而這種情況是很少見的,為克服這一矛盾,杰弗萊提出了不變性的要求。 他認(rèn)為一個(gè)合理的決定先驗(yàn)分布的原則應(yīng)具有某種不變性,并且巧妙的利用費(fèi)歇信息陣的一 個(gè)不變性質(zhì),給出了一個(gè)具體的方法求得適合于要求的先驗(yàn)分布。最大熵原則:利用信息論中熵的理論,在確定無信息先驗(yàn)分布時(shí)應(yīng)取參數(shù)變化范圍內(nèi)熵最大 的分布作為先驗(yàn)分布。最大熵原則比貝葉斯假設(shè)前進(jìn)了不少,但在無限區(qū)間上產(chǎn)生了各種各 樣的新問題。樸素貝葉斯學(xué)習(xí)模型樸素貝葉斯學(xué)習(xí)模型(Simple Bayesian或Naive Bayesian)假定特征向量

8、的各分量相對(duì)于決策變量是相對(duì)獨(dú)立的,也就是說各分量獨(dú)立地作用于決策變量。盡管這一假定一定程度上限制了樸素貝 葉斯模型的適用范圍,然而在實(shí)際應(yīng)用中,不僅指數(shù)級(jí)的降低了貝葉斯網(wǎng)絡(luò)構(gòu)建的復(fù)雜性,而且在 違背這種假定的條件下,樸素貝葉斯也表現(xiàn)出相當(dāng)?shù)慕研院透咝?,它已?jīng)成功地應(yīng)用到分類、 聚類及模型選擇等數(shù)據(jù)挖掘的任務(wù)中。目前,許多研究人員正致力于放松特征變量間條件獨(dú)立性的 限制,以使它適用于更大的范圍。主要集中在兩個(gè)方面:增廣貝葉斯學(xué)習(xí)模型 (Augment-Simple Bayesian) Geoffrey L.Webb1在樸素貝葉斯模型中為每個(gè)類別賦一權(quán)值,這個(gè)權(quán)值乘以原來的概率值 作為新的調(diào)

9、整值,在應(yīng)用中有效地提高了預(yù)測(cè)精度。 Eamonn J.Keogh通過在特征屬性之間增加相應(yīng)的弧來降低樸素貝葉斯模型屬性之間獨(dú)立性 的限制,并且給出了建立屬性之間關(guān)聯(lián)的兩種方法:貪婪的爬山搜索法和超父節(jié)點(diǎn)搜索法?;贐oosting樸素貝葉斯模型 Charles Elkan利用Boosting技術(shù)對(duì)樸素貝葉斯模型進(jìn)行了改進(jìn)。他通過調(diào)整訓(xùn)練樣本的權(quán)重,產(chǎn)生幾個(gè)樸素貝葉斯模型,然后再將這些模型以一定的方式組合起來,并且證明,組合 后的模型在表達(dá)能力上相當(dāng)于具有幾個(gè)隱含層的感知機(jī)模型。然而Boosting技術(shù)并非對(duì)所有樸素貝葉斯模型都適用,有時(shí)甚至?xí)档退念A(yù)測(cè)精度。 Kai Ming Ting和Z

10、ijian Zheng仔細(xì)地分析了 Boosting技術(shù)在樸素貝葉斯模型中失敗的原因,認(rèn)為學(xué)習(xí)算法的穩(wěn)定性是Boosting成功與否的一個(gè)關(guān)鍵因素,并且給出了一個(gè)結(jié)合決策樹算法和Boosting技術(shù)的樸素貝葉斯模型。 PAC-Bayesian 學(xué)習(xí)現(xiàn)代學(xué)習(xí)理論大致可以分為兩大類:貝葉斯推理和PAC (Probability ApproximationCorrect )學(xué)習(xí)。這兩類學(xué)習(xí)算法都以訓(xùn)練數(shù)據(jù)集作為輸入,經(jīng)過學(xué)習(xí),輸出一個(gè)概念或模型;它們也都關(guān)聯(lián)著 相應(yīng)的正確性定理:PAC學(xué)習(xí)對(duì)獨(dú)立同分布的訓(xùn)練樣本集提供了很好的性能保證,而貝葉斯正確性 定理能保證充分地利用先驗(yàn)信息。結(jié)合這兩類學(xué)習(xí)算法的

11、優(yōu)點(diǎn),產(chǎn)生了PAC-Bayes學(xué)習(xí)理論。貝葉斯神經(jīng)網(wǎng)絡(luò)模型樸素貝葉斯模型在表達(dá)形式上等價(jià)于感知機(jī)模型,對(duì)應(yīng)于分類器中線性可分的情況。當(dāng)線性不 可分時(shí),也就是說當(dāng)考慮屬性間的相關(guān)性時(shí),需要引入具有隱含層的神經(jīng)網(wǎng)絡(luò)模型。貝葉斯網(wǎng)絡(luò)學(xué)習(xí)貝葉斯網(wǎng)絡(luò)是處理不確定信息最有效的表示方法之一。Pear于1988年出版了第一本關(guān)于貝葉斯網(wǎng)絡(luò)方面的書。 接著Neapolitan(1990)、Jensen(1996)、Castillo等(1997)也相繼出版了他們關(guān)于貝葉斯 網(wǎng)絡(luò)的專著。貝葉斯網(wǎng)絡(luò)是表示變量間概率分布及關(guān)系的有向無環(huán)圖。結(jié)點(diǎn)表示隨機(jī)變量,弧表示 變量間的依賴關(guān)系,定量的概率分布在條件概率表中指定。貝

12、葉斯網(wǎng)絡(luò)的一個(gè)關(guān)鍵特征是它提供了 把整個(gè)概率分布分解成幾個(gè)局部分布的方法,網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)表明如何從局部的概率分布獲得完全 的聯(lián)合概率分布。貝葉斯網(wǎng)絡(luò)適合于對(duì)領(lǐng)域知識(shí)具有一定了解的情況,至少對(duì)變量間的依賴關(guān)系較 清楚的情況。否則完全從數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)的結(jié)構(gòu)不但復(fù)雜性較高(隨著變量的增加,指數(shù)級(jí)增 加),網(wǎng)絡(luò)維護(hù)代價(jià)昂貴,而且它的估計(jì)參數(shù)較多,為系統(tǒng)帶來了高方差,影響了它的預(yù)測(cè)精度。3算法原理貝葉斯決策理論方法是統(tǒng)計(jì)模式識(shí)別中的一個(gè)基本方法,這種方法在對(duì)數(shù)據(jù)進(jìn)行概率分析的基 礎(chǔ)上生成分類器(決策規(guī)則),再應(yīng)用生成的分類器對(duì)新數(shù)據(jù)依據(jù)概率方法進(jìn)行分類。在運(yùn)用貝葉斯理論的時(shí)候必須滿足如下的基本條件:

13、各類別總體的概率分布是已知的;被決策的分類數(shù)是一定的;有很多種標(biāo)準(zhǔn)用于衡量分類器設(shè)計(jì)的優(yōu)劣,對(duì)于用貝葉斯決策而言,有基于最小錯(cuò)誤率的貝葉斯決策,基于最小風(fēng)險(xiǎn)的貝葉斯決策,在限定一類錯(cuò)誤率條件下使另一類錯(cuò)誤率為最小的兩類別決策、最小 最大決策、序貫分類方法等。貝葉斯公式:設(shè)D1,D2,,, Dn為樣本空間S的一個(gè)劃分,如果 P(Di)表示事件Di發(fā)生的概 率,且P(Di) > 0對(duì)于任一事件 x, P(x) > 0,則有:P(Dj|x)二P(x|Dj)P(Dj)n、P(x|Di)P(Di)i 二決策過程:在模式分類問題中,人們往往希望盡量減少分類的錯(cuò)誤,從這樣的要求出發(fā),利用 概率論

14、中的貝葉斯公式,就能得出使錯(cuò)誤率為最小的分類規(guī)則,稱之為基于最小錯(cuò)誤率的貝葉斯決 尺S 策。對(duì)于兩類情況', 2,X - xi, x2, , xd 如果 P( J | x)二 max P(j | x)= x 打j 1,2對(duì)于多類情況。=叫,豹2 ,eX = x ,勺,如果 P()| x) P(打 | x), j =1,2,c and j = i = x 打?qū)?shù)形式為maxln P( J InP(x| 打)二判別函數(shù):分類器的設(shè)計(jì)主要有以下幾方面的內(nèi)容:首先應(yīng)定義判別函數(shù)和分類決策面方程。對(duì)于C類分類問題,按照分類決策規(guī)則可以把d維特征空間分成 c個(gè)分類決策域,將劃分分類決策域的邊界稱為

15、分類決策面,在數(shù)學(xué)上用解析形式可以表示成分類決策面方程。用于表達(dá)分類決策規(guī)則的某些函數(shù) 則稱為判別函數(shù)。判別函數(shù)與決策面方程是密切相關(guān)的,且它們都有相應(yīng)的分類決策規(guī)則所確定。、工t設(shè) ' 1P* 2,. ex = x ,勺,必通常定義一組判別函數(shù)gKx),i=i,2,,, c用于表示多類決策規(guī)則。如果它使gi(x) gj(x)對(duì)于一切j工i成立,則將x歸于3 i類,根據(jù)上面的分類規(guī)則顯然這里的gi(x)可定義為f(p(x|3 )p( 3 )+h(x),其中f()為任一單調(diào)函數(shù)。分類器的設(shè)計(jì):分類器可以看成是由硬件和軟件組成的一個(gè)“機(jī)器”。它的功能是先計(jì)算出c個(gè)判別函數(shù),再從中選出對(duì)應(yīng)于

16、判別函數(shù)為最大值的類作為決策結(jié)果。如圖2所示:圖2多類分類器4算法實(shí)現(xiàn)以matlab為開發(fā)平臺(tái),程序設(shè)計(jì)思想:先驗(yàn)概率的計(jì)算;條件概率的計(jì)算;在這里以升高和體重作為兩個(gè)特征值,我們知道他們是服從于正態(tài)分布;對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練,求出正太分布 的參數(shù);最后對(duì)待訓(xùn)練樣本進(jìn)行分類;%身高和體重都作為特征clear all;Result(1,1:2)=0;%判別矩陣的初始化%訓(xùn)練樣本FH FW=textread('FEMALE.txt','%f %f);MH MW=textread('MALE.txt','%f %f);%身高與體重都作為特征X1=FH F

17、W;X1=X1'X2=MH MW;X2=X2:%測(cè)試樣本t2H t2W=textread('test2.txt','%f %f %*s');%身高與體重都作為特征X=t2H t2W;X10=X(1:50,:);X10=X10'%test2 中的女生 50X20=X(51:300,:);X20=X20'%test2 中的男生 250%畫出各樣本的分布情況figure;subplot(3,1,1)plot(X1(1,:),X1(2,:),'r.','Li neWidth',2),hold onplot(X2(1

18、,:),X2(2,:),'b+','Li neWidth',2),hold ontitle('訓(xùn)練樣本分布情況')legend('訓(xùn)練樣本FAMALE','訓(xùn)練樣本MALE')subplot(3,1,2)plot(X10(1,:),X10(2,:),'r.','Li neWidth',2),hold onplot(X20(1,:),X20(2,:),'b+','Li neWidth',2),hold ontitle('測(cè)試樣本test2分布情況

19、')lege nd('FAMALE','MALE')%先驗(yàn)概率P(1)=le ngth(X1)/(le ngth(X1)+le ngth(X2);P(2)=le ngth(X2)/(le ngth(X1)+le ngth(X2);%訓(xùn)練樣本從正態(tài)分布;求相關(guān)參數(shù):cov(X):協(xié)方差矩陣Ave:均值a=X1'W11=cov(a(:,1),a(:,2);% 樣本 FEMAIE 的方差b=X2'W22=cov(b(:,1),b(:,2);% 樣本 MAIE 的方差A(yù)ve1=(sum(X1')/length(X1)'% 樣本 F

20、EMAIE 的均值A(chǔ)ve2=(sum(X2')/length(X2)'% 樣本 MAIE 的均值%X=X'for j=1:300g仁-1/2* in v(W11)*(X(:,j)'-Ave1')'*(X(:,j)'-Ave1')-log(2*pi)-1/2*log(det(W11)+log(P(1);%判別函數(shù)g2=-1/2* in v(W22)*(X(:,j)'-Ave2')'*(X(:,j)'-Ave2')-log(2*pi)-1/2*log(det(W22)+log(P(2);%判9別

21、函數(shù)if gi>=g2Result(1,1)=Result(1,1)+1;% 記錄 FAMALEXF(:,j)=X(:,j);else Result(1,2)=Result(1,2)+1;% 記錄 MALE XM(:,j)=X(:,j);endendsubplot(3,1,3)plot(XF(1,:),XF(2,:),'r.','Li neWidth',2),hold on plot(XM(1,:),XM(2,:),'b+','LineWidth',2),hold ontitle('測(cè)試樣本test2身高體重都作為特

22、征時(shí)的分布情況')lege nd('FAMALE','MALE')Result %反饋分類結(jié)果5實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)結(jié)果如圖所示:100306040140145150155160165170測(cè)試樣本怕站2分布情況150Result = 訓(xùn)練樣t:FAMALE* 訓(xùn)紡樣豐IV1ALE1S0135190 FAMALE + MALE150195155I190JLJIJ1651701751801S5側(cè)試樣本悒址2身高體蜜那柞腳特征時(shí)的分布情況452556結(jié)論從理論上講,依據(jù)貝葉斯理論所設(shè)計(jì)的分類器應(yīng)該有最優(yōu)的性能,如果所有的模式識(shí)別問題都 可以這樣來解決,那么模式識(shí)別問題就成了一個(gè)簡(jiǎn)單的計(jì)算問題,但是實(shí)際問題往往更復(fù)雜。貝葉 斯決策理論要求兩個(gè)前捉,一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論