最小錯(cuò)誤率貝葉斯分類器

上傳人：y*** IP屬地：天津上傳時(shí)間：2021-12-04 格式：DOCX 頁數(shù)：11 大?。?1.86KB 積分：18 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、碩士研究生專業(yè)課考試大作業(yè)課程名稱：模式識(shí)別課程編號(hào)：063806任課教師姓名：劉海波職稱：副教授學(xué)生姓名：黃躍平學(xué)號(hào)：S309060181作業(yè)題目：最小錯(cuò)誤率貝葉斯分類器成績(jī)：二00年四月二十五日模式識(shí)別課程大作業(yè)最小錯(cuò)誤率貝葉斯分類摘要：統(tǒng)計(jì)決策理論是處理模式識(shí)別問題的基本理論之一，而貝葉斯決策理論方法又是統(tǒng)計(jì)模式識(shí) 別中的一個(gè)基本方法，它可以有效地對(duì)大量數(shù)據(jù)進(jìn)行分析，并生成相應(yīng)的分類器，對(duì)于數(shù)據(jù)的分類識(shí)別有著重大的意義。本文把最小錯(cuò)誤率的貝葉斯方法運(yùn)用到男女性別的識(shí)別中，提高了分類的準(zhǔn) 確性和有效性。關(guān)鍵詞：貝葉斯統(tǒng)計(jì)決策；最小錯(cuò)誤率；先驗(yàn)概率；條件概率1問題描述模式是通過對(duì)具體的個(gè)別

2、事物進(jìn)行觀測(cè)所得到的具有時(shí)間和空間分布的信息；把模式所屬的類別或同一類中模式的總體稱為模式類 (或簡(jiǎn)稱為類)。而“模式識(shí)別”則是在某些一定量度或觀測(cè)基礎(chǔ) 上把待識(shí)模式劃分到各自的模式類中去。有兩種基本的模式識(shí)別方法，即統(tǒng)計(jì)模式識(shí)別方法和結(jié)構(gòu)(句法)模式識(shí)別方法。統(tǒng)計(jì)模式識(shí)別是對(duì)模式的統(tǒng)計(jì)分類方法，即結(jié)合統(tǒng)計(jì)概率論的貝葉斯決策系統(tǒng)進(jìn)行模式識(shí)別的技術(shù)，又稱為決策理論識(shí)別方法。與此相應(yīng)的模式識(shí)別系統(tǒng)都是有兩個(gè)過程(設(shè)計(jì)與實(shí)現(xiàn))所組成?！霸O(shè)計(jì)”是指用一定數(shù)量的樣本(訓(xùn)練集/學(xué)習(xí)集)進(jìn)行分類器的設(shè)計(jì)?！皩?shí)現(xiàn)”是指用所設(shè)計(jì)的分類器對(duì)待識(shí)別的樣本進(jìn)行分類決策?；诮y(tǒng)計(jì)模式識(shí)別方法的系統(tǒng)主要由以下幾個(gè)部

3、分組成：信息獲取、預(yù)處理、特征提取和選擇、分類決策。圖1統(tǒng)計(jì)模式識(shí)別系統(tǒng)在本文中問題主要是通過提取人類身高和體重兩個(gè)特征值，然后對(duì)樣本集進(jìn)行訓(xùn)練學(xué)習(xí)并設(shè)計(jì)分類器設(shè)計(jì)，最后對(duì)待識(shí)別的樣本集進(jìn)行男女性別的分類。2研究現(xiàn)狀貝葉斯(Revere nd Thomas Bayes 1702-1761)學(xué)派奠基性的工作是貝葉斯的論文“關(guān)于幾率性問題求解的評(píng)論”。或許是他自己感覺到他的學(xué)說還有不完善的地方，這一論文在他生前并沒有發(fā)表，而是在他死后，由他的朋友發(fā)表的。著名的數(shù)學(xué)家拉普拉斯(Laplace,P.S)用貝葉斯的方法導(dǎo)出了重要的“相繼律”，貝葉斯的方法和理論逐漸被人理解和重視起來。但由于當(dāng)時(shí)貝葉斯

4、方法在理論和實(shí) 際應(yīng)用中還存在很多不完善的地方，因而在十九世紀(jì)并未被普遍接受。二十世紀(jì)初，意大利的菲納特(B.de Finetti )及其英國(guó)的杰弗萊(Jeffreys,H.)都對(duì)貝葉斯學(xué)派的理論作出重要的貢獻(xiàn)。第二次世界大戰(zhàn)后，瓦爾德(Wald,A.)提出了統(tǒng)計(jì)的決策理論，在這一理論中，貝葉斯解占有重要的地位；信息論的發(fā)展也對(duì)貝葉斯學(xué)派做出了新的貢獻(xiàn)。1958年英國(guó)最悠久的統(tǒng)計(jì)雜志Biometrika全文重新刊登了貝葉斯的論文，20世紀(jì)50年代，以羅賓斯(Robb ins, H.)為代表，提出了經(jīng)驗(yàn)貝葉斯方法和經(jīng)典方法相結(jié)合，引起統(tǒng)計(jì)界的廣泛注意，這一方法很快就顯示出它的優(yōu)點(diǎn)，成為很活

5、躍的一個(gè)方向。在這里值得一提的是，八十年代以后，人工智能的發(fā)展，尤其是機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘的興起，為貝葉斯理論的發(fā)展和應(yīng)用提供了更為廣闊的空間。密度估計(jì)貝葉斯學(xué)習(xí)理論利用先驗(yàn)信息和樣本數(shù)據(jù)來獲得對(duì)未知樣本的估計(jì)，而概率（聯(lián)合概率和條件概率）是先驗(yàn)信息和樣本數(shù)據(jù)信息在貝葉斯學(xué)習(xí)理論中的表現(xiàn)形式。如何獲得這些概率（也稱之為密度估計(jì)）是貝葉斯學(xué)習(xí)理論爭(zhēng)議較多的地方。貝葉斯密度估計(jì)研究如何根據(jù)樣本的數(shù)據(jù)信息和人類專家的先驗(yàn)知識(shí)獲得對(duì)未知變量（向量）的分布及其參數(shù)的估計(jì)。它有兩個(gè)過程：一是確定未知變量的先驗(yàn)分布；一是獲得相應(yīng)分布的參數(shù)估計(jì)。如果以前對(duì)所有信息一無所知，稱這種分布為無信息先驗(yàn)分

6、布；如果知道其分布求它的分布參數(shù)，稱之為有信息先驗(yàn)分布。由于在數(shù)據(jù)挖掘中，從數(shù)據(jù)中學(xué)習(xí)是它的特性，所以無信息先驗(yàn)分布是貝葉斯學(xué)習(xí)理論的主要研究對(duì)象。研究無信息分布的奠基性工作是貝葉斯假設(shè)-參數(shù)的無信息先驗(yàn)分布在參數(shù)的取值范圍內(nèi)應(yīng)是均勻的。對(duì)參數(shù)有界的情況，貝葉斯假設(shè)在實(shí)際運(yùn)用中獲得了很大的成功，與經(jīng)典的參數(shù)估計(jì)方法是一致的，而當(dāng)參數(shù) 無界時(shí)，貝葉斯假設(shè)卻遇到了困難。為此，人們又提出了一些選取先驗(yàn)分布的原則：共軛分布：共軛分布假定先驗(yàn)分布與后驗(yàn)分布屬于同一種類型。這一假定為后驗(yàn)分布的計(jì)算帶來很大的方便，同時(shí)在認(rèn)知上，它要求經(jīng)驗(yàn)的知識(shí)與現(xiàn)在的樣本信息有某種同一性，它們能轉(zhuǎn)化為同一類型的經(jīng)

7、驗(yàn)知識(shí)。杰弗萊原則：在貝葉斯假設(shè)中，如果對(duì)參數(shù)選用均勻分布，那么它的函數(shù)作為參數(shù)時(shí)，也應(yīng) 服從均勻分布。然而這種情況是很少見的，為克服這一矛盾，杰弗萊提出了不變性的要求。他認(rèn)為一個(gè)合理的決定先驗(yàn)分布的原則應(yīng)具有某種不變性，并且巧妙的利用費(fèi)歇信息陣的一個(gè)不變性質(zhì)，給出了一個(gè)具體的方法求得適合于要求的先驗(yàn)分布。最大熵原則：利用信息論中熵的理論，在確定無信息先驗(yàn)分布時(shí)應(yīng)取參數(shù)變化范圍內(nèi)熵最大的分布作為先驗(yàn)分布。最大熵原則比貝葉斯假設(shè)前進(jìn)了不少，但在無限區(qū)間上產(chǎn)生了各種各樣的新問題。樸素貝葉斯學(xué)習(xí)模型樸素貝葉斯學(xué)習(xí)模型（Simple Bayesian或Naive Bayesian）假定特征向量

8、的各分量相對(duì)于決策變量是相對(duì)獨(dú)立的，也就是說各分量獨(dú)立地作用于決策變量。盡管這一假定一定程度上限制了樸素貝葉斯模型的適用范圍，然而在實(shí)際應(yīng)用中，不僅指數(shù)級(jí)的降低了貝葉斯網(wǎng)絡(luò)構(gòu)建的復(fù)雜性，而且在違背這種假定的條件下，樸素貝葉斯也表現(xiàn)出相當(dāng)?shù)慕研院透咝?，它已?jīng)成功地應(yīng)用到分類、聚類及模型選擇等數(shù)據(jù)挖掘的任務(wù)中。目前，許多研究人員正致力于放松特征變量間條件獨(dú)立性的限制，以使它適用于更大的范圍。主要集中在兩個(gè)方面：增廣貝葉斯學(xué)習(xí)模型（Augment-Simple Bayesian） Geoffrey L.Webb1在樸素貝葉斯模型中為每個(gè)類別賦一權(quán)值，這個(gè)權(quán)值乘以原來的概率值作為新的調(diào)

9、整值，在應(yīng)用中有效地提高了預(yù)測(cè)精度。 Eamonn J.Keogh通過在特征屬性之間增加相應(yīng)的弧來降低樸素貝葉斯模型屬性之間獨(dú)立性的限制，并且給出了建立屬性之間關(guān)聯(lián)的兩種方法：貪婪的爬山搜索法和超父節(jié)點(diǎn)搜索法?；贐oosting樸素貝葉斯模型 Charles Elkan利用Boosting技術(shù)對(duì)樸素貝葉斯模型進(jìn)行了改進(jìn)。他通過調(diào)整訓(xùn)練樣本的權(quán)重，產(chǎn)生幾個(gè)樸素貝葉斯模型，然后再將這些模型以一定的方式組合起來，并且證明，組合后的模型在表達(dá)能力上相當(dāng)于具有幾個(gè)隱含層的感知機(jī)模型。然而Boosting技術(shù)并非對(duì)所有樸素貝葉斯模型都適用，有時(shí)甚至?xí)档退念A(yù)測(cè)精度。 Kai Ming Ting和Z

10、ijian Zheng仔細(xì)地分析了 Boosting技術(shù)在樸素貝葉斯模型中失敗的原因，認(rèn)為學(xué)習(xí)算法的穩(wěn)定性是Boosting成功與否的一個(gè)關(guān)鍵因素，并且給出了一個(gè)結(jié)合決策樹算法和Boosting技術(shù)的樸素貝葉斯模型。 PAC-Bayesian 學(xué)習(xí)現(xiàn)代學(xué)習(xí)理論大致可以分為兩大類：貝葉斯推理和PAC (Probability ApproximationCorrect )學(xué)習(xí)。這兩類學(xué)習(xí)算法都以訓(xùn)練數(shù)據(jù)集作為輸入，經(jīng)過學(xué)習(xí)，輸出一個(gè)概念或模型；它們也都關(guān)聯(lián)著相應(yīng)的正確性定理：PAC學(xué)習(xí)對(duì)獨(dú)立同分布的訓(xùn)練樣本集提供了很好的性能保證，而貝葉斯正確性定理能保證充分地利用先驗(yàn)信息。結(jié)合這兩類學(xué)習(xí)算法的

11、優(yōu)點(diǎn)，產(chǎn)生了PAC-Bayes學(xué)習(xí)理論。貝葉斯神經(jīng)網(wǎng)絡(luò)模型樸素貝葉斯模型在表達(dá)形式上等價(jià)于感知機(jī)模型，對(duì)應(yīng)于分類器中線性可分的情況。當(dāng)線性不可分時(shí)，也就是說當(dāng)考慮屬性間的相關(guān)性時(shí)，需要引入具有隱含層的神經(jīng)網(wǎng)絡(luò)模型。貝葉斯網(wǎng)絡(luò)學(xué)習(xí)貝葉斯網(wǎng)絡(luò)是處理不確定信息最有效的表示方法之一。Pear于1988年出版了第一本關(guān)于貝葉斯網(wǎng)絡(luò)方面的書。接著Neapolitan(1990)、Jensen(1996)、Castillo等(1997)也相繼出版了他們關(guān)于貝葉斯網(wǎng)絡(luò)的專著。貝葉斯網(wǎng)絡(luò)是表示變量間概率分布及關(guān)系的有向無環(huán)圖。結(jié)點(diǎn)表示隨機(jī)變量，弧表示變量間的依賴關(guān)系，定量的概率分布在條件概率表中指定。貝

12、葉斯網(wǎng)絡(luò)的一個(gè)關(guān)鍵特征是它提供了把整個(gè)概率分布分解成幾個(gè)局部分布的方法，網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)表明如何從局部的概率分布獲得完全的聯(lián)合概率分布。貝葉斯網(wǎng)絡(luò)適合于對(duì)領(lǐng)域知識(shí)具有一定了解的情況，至少對(duì)變量間的依賴關(guān)系較清楚的情況。否則完全從數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)的結(jié)構(gòu)不但復(fù)雜性較高(隨著變量的增加，指數(shù)級(jí)增加)，網(wǎng)絡(luò)維護(hù)代價(jià)昂貴，而且它的估計(jì)參數(shù)較多，為系統(tǒng)帶來了高方差，影響了它的預(yù)測(cè)精度。3算法原理貝葉斯決策理論方法是統(tǒng)計(jì)模式識(shí)別中的一個(gè)基本方法，這種方法在對(duì)數(shù)據(jù)進(jìn)行概率分析的基礎(chǔ)上生成分類器(決策規(guī)則)，再應(yīng)用生成的分類器對(duì)新數(shù)據(jù)依據(jù)概率方法進(jìn)行分類。在運(yùn)用貝葉斯理論的時(shí)候必須滿足如下的基本條件：

13、各類別總體的概率分布是已知的；被決策的分類數(shù)是一定的；有很多種標(biāo)準(zhǔn)用于衡量分類器設(shè)計(jì)的優(yōu)劣，對(duì)于用貝葉斯決策而言，有基于最小錯(cuò)誤率的貝葉斯決策，基于最小風(fēng)險(xiǎn)的貝葉斯決策，在限定一類錯(cuò)誤率條件下使另一類錯(cuò)誤率為最小的兩類別決策、最小最大決策、序貫分類方法等。貝葉斯公式：設(shè)D1，D2，,， Dn為樣本空間S的一個(gè)劃分，如果 P(Di)表示事件Di發(fā)生的概率，且P(Di) > 0對(duì)于任一事件 x, P(x) > 0,則有：P(Dj|x)二P(x|Dj)P(Dj)n、P(x|Di)P(Di)i 二決策過程：在模式分類問題中，人們往往希望盡量減少分類的錯(cuò)誤，從這樣的要求出發(fā)，利用概率論

14、中的貝葉斯公式，就能得出使錯(cuò)誤率為最小的分類規(guī)則，稱之為基于最小錯(cuò)誤率的貝葉斯決尺S 策。對(duì)于兩類情況', 2，X - xi, x2, , xd 如果 P( J | x)二 max P(j | x)= x 打j 1,2對(duì)于多類情況。=叫,豹2 ,eX = x ,勺，如果 P()| x) P(打 | x), j =1,2,c and j = i = x 打?qū)?shù)形式為maxln P( J InP(x| 打)二判別函數(shù)：分類器的設(shè)計(jì)主要有以下幾方面的內(nèi)容：首先應(yīng)定義判別函數(shù)和分類決策面方程。對(duì)于C類分類問題，按照分類決策規(guī)則可以把d維特征空間分成 c個(gè)分類決策域，將劃分分類決策域的邊界稱為

15、分類決策面，在數(shù)學(xué)上用解析形式可以表示成分類決策面方程。用于表達(dá)分類決策規(guī)則的某些函數(shù) 則稱為判別函數(shù)。判別函數(shù)與決策面方程是密切相關(guān)的，且它們都有相應(yīng)的分類決策規(guī)則所確定。、工t設(shè) ' 1P* 2,. ex = x ,勺，必通常定義一組判別函數(shù)gKx)，i=i，2，,， c用于表示多類決策規(guī)則。如果它使gi(x) gj(x)對(duì)于一切j工i成立，則將x歸于3 i類，根據(jù)上面的分類規(guī)則顯然這里的gi(x)可定義為f(p(x|3 )p( 3 )+h(x)，其中f()為任一單調(diào)函數(shù)。分類器的設(shè)計(jì)：分類器可以看成是由硬件和軟件組成的一個(gè)“機(jī)器”。它的功能是先計(jì)算出c個(gè)判別函數(shù)，再從中選出對(duì)應(yīng)于

16、判別函數(shù)為最大值的類作為決策結(jié)果。如圖2所示：圖2多類分類器4算法實(shí)現(xiàn)以matlab為開發(fā)平臺(tái)，程序設(shè)計(jì)思想：先驗(yàn)概率的計(jì)算；條件概率的計(jì)算；在這里以升高和體重作為兩個(gè)特征值，我們知道他們是服從于正態(tài)分布；對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練，求出正太分布的參數(shù)；最后對(duì)待訓(xùn)練樣本進(jìn)行分類；%身高和體重都作為特征clear all;Result(1,1:2)=0;%判別矩陣的初始化%訓(xùn)練樣本FH FW=textread('FEMALE.txt','%f %f);MH MW=textread('MALE.txt','%f %f);%身高與體重都作為特征X1=FH F

17、W;X1=X1'X2=MH MW；X2=X2：%測(cè)試樣本t2H t2W=textread('test2.txt','%f %f %*s');%身高與體重都作為特征X=t2H t2W;X10=X(1:50,:);X10=X10'%test2 中的女生 50X20=X(51:300,:);X20=X20'%test2 中的男生 250%畫出各樣本的分布情況figure;subplot(3,1,1)plot(X1(1,:),X1(2,:),'r.','Li neWidth',2),hold onplot(X2(1

18、,:),X2(2,:),'b+','Li neWidth',2),hold ontitle('訓(xùn)練樣本分布情況')legend('訓(xùn)練樣本FAMALE','訓(xùn)練樣本MALE')subplot(3,1,2)plot(X10(1,:),X10(2,:),'r.','Li neWidth',2),hold onplot(X20(1,:),X20(2,:),'b+','Li neWidth',2),hold ontitle('測(cè)試樣本test2分布情況

19、')lege nd('FAMALE','MALE')%先驗(yàn)概率P(1)=le ngth(X1)/(le ngth(X1)+le ngth(X2);P(2)=le ngth(X2)/(le ngth(X1)+le ngth(X2);%訓(xùn)練樣本從正態(tài)分布；求相關(guān)參數(shù)：cov(X):協(xié)方差矩陣Ave:均值a=X1'W11=cov(a(:,1),a(:,2);% 樣本 FEMAIE 的方差b=X2'W22=cov(b(:,1),b(:,2);% 樣本 MAIE 的方差A(yù)ve1=(sum(X1')/length(X1)'% 樣本 F

20、EMAIE 的均值A(chǔ)ve2=(sum(X2')/length(X2)'% 樣本 MAIE 的均值%X=X'for j=1:300g仁-1/2* in v(W11)*(X(:,j)'-Ave1')'*(X(:,j)'-Ave1')-log(2*pi)-1/2*log(det(W11)+log(P(1);%判別函數(shù)g2=-1/2* in v(W22)*(X(:,j)'-Ave2')'*(X(:,j)'-Ave2')-log(2*pi)-1/2*log(det(W22)+log(P(2);%判9別

21、函數(shù)if gi>=g2Result(1,1)=Result(1,1)+1;% 記錄 FAMALEXF(:,j)=X(:,j);else Result(1,2)=Result(1,2)+1;% 記錄 MALE XM(:,j)=X(:,j);endendsubplot(3,1,3)plot(XF(1,:),XF(2,:),'r.','Li neWidth',2),hold on plot(XM(1,:),XM(2,:),'b+','LineWidth',2),hold ontitle('測(cè)試樣本test2身高體重都作為特

22、征時(shí)的分布情況')lege nd('FAMALE','MALE')Result %反饋分類結(jié)果5實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)結(jié)果如圖所示：100306040140145150155160165170測(cè)試樣本怕站2分布情況150Result = 訓(xùn)練樣t：FAMALE* 訓(xùn)紡樣豐IV1ALE1S0135190 FAMALE + MALE150195155I190JLJIJ1651701751801S5側(cè)試樣本悒址2身高體蜜那柞腳特征時(shí)的分布情況452556結(jié)論從理論上講，依據(jù)貝葉斯理論所設(shè)計(jì)的分類器應(yīng)該有最優(yōu)的性能，如果所有的模式識(shí)別問題都可以這樣來解決，那么模式識(shí)別問題就成了一個(gè)簡(jiǎn)單的計(jì)算問題，但是實(shí)際問題往往更復(fù)雜。貝葉斯決策理論要求兩個(gè)前捉，一

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最小錯(cuò)誤率貝葉斯分類器

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔