樸素貝葉斯分類(lèi)器

上傳人：9*** IP屬地：湖北上傳時(shí)間：2023-02-06 格式：PPT 頁(yè)數(shù)：14 大?。?71.50KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩9頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

樸素貝葉斯分類(lèi)器

學(xué)院：汽車(chē)學(xué)院專(zhuān)業(yè)：車(chē)輛工程姓名：李振江主要內(nèi)容樸素貝葉斯分類(lèi)器理論和計(jì)算過(guò)程具體實(shí)例一、樸素貝葉斯分類(lèi)器理論和計(jì)算過(guò)程應(yīng)用MAP假設(shè)分類(lèi)新實(shí)例x的目標(biāo)是在給定描述實(shí)例的屬性值X{x1,x2,x3,…，xm}的情況下，得到最可能的類(lèi)標(biāo)記c(i)。應(yīng)用公式得到:現(xiàn)在要做的就是基于訓(xùn)練實(shí)例集估計(jì)式中的兩個(gè)概率值。估計(jì)每個(gè)P(c)值很容易，只要計(jì)算每個(gè)類(lèi)標(biāo)記c出現(xiàn)在訓(xùn)練實(shí)例集中的頻率就可以。然而，估計(jì)每個(gè)P(x1,x2,x3,…,xm∣c)值不太可行，原因在于:①完整估計(jì)P(x1,x2,x3,…,xm∣c)值的時(shí)間復(fù)雜度相當(dāng)于學(xué)習(xí)一個(gè)貝葉斯網(wǎng)絡(luò)，是一個(gè)NP-難問(wèn)題。②這些P(x1,x2,x3,…,xm∣c)值的數(shù)量等于可能實(shí)例的數(shù)量乘以可能類(lèi)的數(shù)量。因此，為獲得合理的估計(jì)，實(shí)例空間中每個(gè)實(shí)例必須出現(xiàn)多次，這要求訓(xùn)練實(shí)例集非常大。為此，提出了相互條件獨(dú)立的樸素貝葉斯分類(lèi)器。一、樸素貝葉斯分類(lèi)器理論和計(jì)算過(guò)程

樸素貝葉斯分類(lèi)器在貝葉斯分類(lèi)器中結(jié)構(gòu)最簡(jiǎn)單，它是包含一個(gè)根節(jié)點(diǎn)、多個(gè)葉節(jié)點(diǎn)的樹(shù)狀貝葉斯網(wǎng)，其結(jié)構(gòu)如下圖所示。其中葉節(jié)點(diǎn)A1,A2,...,An是屬性變量，描述待分類(lèi)對(duì)象的屬性;根節(jié)點(diǎn)C是類(lèi)別變量，描述對(duì)象的類(lèi)別。一、樸素貝葉斯分類(lèi)器理論和計(jì)算過(guò)程樸素貝葉斯分類(lèi)器假定：在給定類(lèi)標(biāo)記時(shí)屬性值之間是相互條件獨(dú)立的。也就是說(shuō)，在給定實(shí)例的情況下，觀察到的聯(lián)合概率正好是每個(gè)屬性值概率的乘積。具體的數(shù)學(xué)表達(dá)式如下：將其代入上個(gè)式子，可以得到樸素貝葉斯分類(lèi)器的分類(lèi)公式：

一、樸素貝葉斯分類(lèi)器理論和計(jì)算過(guò)程貝葉斯算法處理流程一、樸素貝葉斯分類(lèi)器理論和計(jì)算過(guò)程具體的計(jì)算過(guò)程：(1)每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量X（x1,x2,x3,…,xn）表示，分別描述對(duì)n個(gè)屬性A1,A2,A3,…,AN樣本的N個(gè)度量。(2)假定有m個(gè)類(lèi)C1，C2，C3，…，C4，給定一個(gè)未知的數(shù)據(jù)樣本X（x1,x2,x3,…,xn）（即沒(méi)有類(lèi)標(biāo)號(hào))，樸素貝葉斯分類(lèi)將未知的樣本分配給類(lèi)Ci，當(dāng)且僅當(dāng)根據(jù)貝葉斯定理，最大化即可進(jìn)行分類(lèi)。其中

最大的類(lèi)Ci稱(chēng)為最大后驗(yàn)假定。(3)其中P(X)代表屬性集A1,A2,A3,…,AN取值為x1,x2,x3,…,xn時(shí)的聯(lián)合概率，為一常數(shù)。類(lèi)的先驗(yàn)概率可以用P（Ci

）=si/s計(jì)算，其中si是類(lèi)Ci中訓(xùn)練樣本數(shù)，而s是訓(xùn)練樣本總數(shù)。（4）給定具有許多屬性的數(shù)據(jù)集，計(jì)算P(X|Ci)即P(A1=x1，…,An=xn|Ci)的開(kāi)銷(xiāo)可能非常大。為降低計(jì)算P(X|Ci)的開(kāi)銷(xiāo)，可以做類(lèi)條件獨(dú)立的樸素假定。給定樣本的類(lèi)標(biāo)號(hào)，假定屬性值相互條件獨(dú)立，即在屬性間，不存在依賴(lài)關(guān)系。這樣有：一、樸素貝葉斯分類(lèi)器理論和計(jì)算過(guò)程概率P（x1|Ci），P（x1|Ci），…，P（x1|Ci）可以由訓(xùn)練樣本估值，其中：（a）如果Ak是離散屬性，P（xk|Ci）=N（Ak=xk，C=Ci）/N（C=Ci

）。其中N(C=Ci)是樣本集中屬于類(lèi)Ci的樣本個(gè)數(shù)。N（Ak=xk，C=Ci

）是樣本集中屬于類(lèi)型Ci且屬性Ak取值為xk的樣本個(gè)數(shù)。（b）若Ak是連續(xù)值屬性，常用的處理方法有兩種：一種是對(duì)其離散化，然后按著離散值處理；另一種就是假定這一屬性服從某一分布，常假定服從正態(tài)分布。(5〕對(duì)末知樣本X分類(lèi)的時(shí)候，對(duì)每個(gè)類(lèi)Ci.計(jì)算P(X|Ci)P(Ci)。樣本X被指派到類(lèi)Ci當(dāng)且僅當(dāng)P(X|Ci)P(Ci)>P(X|Ci)P(Ci)，1≤j≤m，j≠i。換言之，X被指派到其P(X|Ci)P(Ci)最大的類(lèi)Ci。二、具體實(shí)例根據(jù)顧客的基本情況來(lái)判斷其是否會(huì)買(mǎi)電腦。給定下表所示的14個(gè)訓(xùn)練實(shí)例，其中每一個(gè)顧客用屬性age,income,student和creditrating來(lái)描述，類(lèi)屬性為buycomputer

現(xiàn)有一測(cè)試實(shí)例x:<age<=30,income=medium,student=yes,creditrating=fair>，問(wèn)這一顧客是否會(huì)買(mǎi)電腦。顯然，我們的任務(wù)就是要預(yù)測(cè)此新實(shí)例的類(lèi)屬性Buycomputer的取值(yes或no)。為此，我們構(gòu)建如上圖所示的樸素貝葉斯網(wǎng)絡(luò)分類(lèi)器。圖中的類(lèi)結(jié)點(diǎn)C表示類(lèi)屬性Buycomputer，其他4個(gè)結(jié)點(diǎn)A1，A2，A3，A4分別代表4個(gè)屬性age,income,student和creditrating，類(lèi)結(jié)C是所有屬性結(jié)點(diǎn)的父親結(jié)點(diǎn)，屬性結(jié)點(diǎn)和屬性結(jié)點(diǎn)之間沒(méi)有任何的依賴(lài)關(guān)系。二、具體實(shí)例根據(jù)公式有為計(jì)算C(x)，需要從14個(gè)訓(xùn)練實(shí)例中估計(jì)出概率:P(yes),P(<=30|yes),P(medium|yes),P(yes|yes),P(fair|yes),P(no),P(<=30|no),P(medium|no),P(yes|no),P(fair|no)。具體的計(jì)算過(guò)程如下：二、具體實(shí)例使用以上概率，我們可以得到P(yes)P(<=30|yes)P(medium|yes)P(yes|yes)P(fair|yes)=0.028P(no)P(<=30|no)P(medium|no)P(yes|no)P(fair|no)=0.007可見(jiàn)，樸素貝葉斯分類(lèi)器將此實(shí)例分類(lèi)為yes。將上述概率歸一化，可得到樸素貝葉斯分類(lèi)器分類(lèi)此實(shí)例為yes的概率是0.028/(0.028+0.007)=0.8。總結(jié)樸素貝葉斯算法的優(yōu)點(diǎn)：a.算法邏輯簡(jiǎn)單，易于實(shí)現(xiàn)；b.分類(lèi)過(guò)程中空開(kāi)銷(xiāo)??；c.算法穩(wěn)定，對(duì)于不同的數(shù)據(jù)特點(diǎn)其分類(lèi)性能差別不大，健壯性比較好。那么“樸素貝葉斯分類(lèi)法的效率如何呢？”該分類(lèi)法與決策樹(shù)和神經(jīng)網(wǎng)絡(luò)分類(lèi)法的各種比較試驗(yàn)表明，在某些領(lǐng)域，樸素貝葉斯分類(lèi)法足以與它們媲美。理論上講，與其他所有分類(lèi)算法相比，樸素貝葉斯分類(lèi)算法最有最小的錯(cuò)誤率。然而，實(shí)踐中并非總是如此，這是因?yàn)閷?duì)其使用的假定（如類(lèi)條件獨(dú)立性）的不正確性，以及缺乏可用的概率數(shù)據(jù)造成的。貝葉斯分類(lèi)法還可以用來(lái)為不直接使用貝葉斯定理的其它分類(lèi)法提供理論判定。例如，在某些假定下，可以證明：與樸素貝葉斯分類(lèi)法一樣，許多神經(jīng)網(wǎng)絡(luò)和曲線擬合算法輸出的最大的后驗(yàn)假定。實(shí)際使用中，我們有可能遇見(jiàn)兩個(gè)問(wèn)題：（1）樸素貝葉斯分類(lèi)項(xiàng)的特征屬性都是離散值，如果是連續(xù)值該怎么進(jìn)行特征屬性劃分？如果P（aj|yi）=0怎么辦？（2）如果特征屬性之間是有關(guān)聯(lián)的，而不是相互獨(dú)立的該怎么解決？擴(kuò)展針對(duì)第一個(gè)問(wèn)題：特征屬性是連續(xù)值的時(shí)候，通常假定其值是服從高斯分布的，即：而P(ak|yi)=g(ak,ηyi

,σyi)。所以只要計(jì)算出訓(xùn)練樣本中在各個(gè)類(lèi)別中該特征項(xiàng)劃分的各個(gè)均值和標(biāo)準(zhǔn)差，代入公式即可得到其估計(jì)值。對(duì)于P(ak|yi)=0的情況可以引入拉普拉斯校準(zhǔn)，對(duì)每類(lèi)別下所有劃分的計(jì)數(shù)加一，這樣如果訓(xùn)練樣本集數(shù)量充分大時(shí)，并不會(huì)對(duì)結(jié)果產(chǎn)生影響，并且解決了上述頻率為0的情況擴(kuò)展針對(duì)第二個(gè)問(wèn)題：樸素貝葉斯算法是在假定各個(gè)特征屬性相互獨(dú)立的情況下提出來(lái)的，這在現(xiàn)實(shí)生活中是很難實(shí)現(xiàn)的，所以針對(duì)這個(gè)問(wèn)題人們做了大量的工作來(lái)解決這一缺點(diǎn)。（1）如果特征屬性之間是有聯(lián)系的，并且是一個(gè)有向無(wú)環(huán)圖，可以采用另一個(gè)相關(guān)的貝葉斯分類(lèi)算法—

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

樸素貝葉斯分類(lèi)器

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

樸素貝葉斯分類(lèi)器

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔