版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
樸素貝葉斯分類(lèi)器
學(xué)院:汽車(chē)學(xué)院專(zhuān)業(yè):車(chē)輛工程姓名:李振江主要內(nèi)容樸素貝葉斯分類(lèi)器理論和計(jì)算過(guò)程具體實(shí)例一、樸素貝葉斯分類(lèi)器理論和計(jì)算過(guò)程應(yīng)用MAP假設(shè)分類(lèi)新實(shí)例x的目標(biāo)是在給定描述實(shí)例的屬性值X{x1,x2,x3,…,xm}的情況下,得到最可能的類(lèi)標(biāo)記c(i)。應(yīng)用公式得到:現(xiàn)在要做的就是基于訓(xùn)練實(shí)例集估計(jì)式中的兩個(gè)概率值。估計(jì)每個(gè)P(c)值很容易,只要計(jì)算每個(gè)類(lèi)標(biāo)記c出現(xiàn)在訓(xùn)練實(shí)例集中的頻率就可以。然而,估計(jì)每個(gè)P(x1,x2,x3,…,xm∣c)值不太可行,原因在于:①完整估計(jì)P(x1,x2,x3,…,xm∣c)值的時(shí)間復(fù)雜度相當(dāng)于學(xué)習(xí)一個(gè)貝葉斯網(wǎng)絡(luò),是一個(gè)NP-難問(wèn)題。②這些P(x1,x2,x3,…,xm∣c)值的數(shù)量等于可能實(shí)例的數(shù)量乘以可能類(lèi)的數(shù)量。因此,為獲得合理的估計(jì),實(shí)例空間中每個(gè)實(shí)例必須出現(xiàn)多次,這要求訓(xùn)練實(shí)例集非常大。為此,提出了相互條件獨(dú)立的樸素貝葉斯分類(lèi)器。一、樸素貝葉斯分類(lèi)器理論和計(jì)算過(guò)程
樸素貝葉斯分類(lèi)器在貝葉斯分類(lèi)器中結(jié)構(gòu)最簡(jiǎn)單,它是包含一個(gè)根節(jié)點(diǎn)、多個(gè)葉節(jié)點(diǎn)的樹(shù)狀貝葉斯網(wǎng),其結(jié)構(gòu)如下圖所示。其中葉節(jié)點(diǎn)A1,A2,...,An是屬性變量,描述待分類(lèi)對(duì)象的屬性;根節(jié)點(diǎn)C是類(lèi)別變量,描述對(duì)象的類(lèi)別。一、樸素貝葉斯分類(lèi)器理論和計(jì)算過(guò)程樸素貝葉斯分類(lèi)器假定:在給定類(lèi)標(biāo)記時(shí)屬性值之間是相互條件獨(dú)立的。也就是說(shuō),在給定實(shí)例的情況下,觀察到的聯(lián)合概率正好是每個(gè)屬性值概率的乘積。具體的數(shù)學(xué)表達(dá)式如下:將其代入上個(gè)式子,可以得到樸素貝葉斯分類(lèi)器的分類(lèi)公式:
一、樸素貝葉斯分類(lèi)器理論和計(jì)算過(guò)程貝葉斯算法處理流程一、樸素貝葉斯分類(lèi)器理論和計(jì)算過(guò)程具體的計(jì)算過(guò)程:(1)每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量X(x1,x2,x3,…,xn)表示,分別描述對(duì)n個(gè)屬性A1,A2,A3,…,AN樣本的N個(gè)度量。(2)假定有m個(gè)類(lèi)C1,C2,C3,…,C4,給定一個(gè)未知的數(shù)據(jù)樣本X(x1,x2,x3,…,xn)(即沒(méi)有類(lèi)標(biāo)號(hào)),樸素貝葉斯分類(lèi)將未知的樣本分配給類(lèi)Ci,當(dāng)且僅當(dāng)根據(jù)貝葉斯定理,最大化即可進(jìn)行分類(lèi)。其中
最大的類(lèi)Ci稱(chēng)為最大后驗(yàn)假定。(3)其中P(X)代表屬性集A1,A2,A3,…,AN取值為x1,x2,x3,…,xn時(shí)的聯(lián)合概率,為一常數(shù)。類(lèi)的先驗(yàn)概率可以用P(Ci
)=si/s計(jì)算,其中si是類(lèi)Ci中訓(xùn)練樣本數(shù),而s是訓(xùn)練樣本總數(shù)。(4)給定具有許多屬性的數(shù)據(jù)集,計(jì)算P(X|Ci)即P(A1=x1,…,An=xn|Ci)的開(kāi)銷(xiāo)可能非常大。為降低計(jì)算P(X|Ci)的開(kāi)銷(xiāo),可以做類(lèi)條件獨(dú)立的樸素假定。給定樣本的類(lèi)標(biāo)號(hào),假定屬性值相互條件獨(dú)立,即在屬性間,不存在依賴(lài)關(guān)系。這樣有:一、樸素貝葉斯分類(lèi)器理論和計(jì)算過(guò)程概率P(x1|Ci),P(x1|Ci),…,P(x1|Ci)可以由訓(xùn)練樣本估值,其中:(a)如果Ak是離散屬性,P(xk|Ci)=N(Ak=xk,C=Ci)/N(C=Ci
)。其中N(C=Ci)是樣本集中屬于類(lèi)Ci的樣本個(gè)數(shù)。N(Ak=xk,C=Ci
)是樣本集中屬于類(lèi)型Ci且屬性Ak取值為xk的樣本個(gè)數(shù)。(b)若Ak是連續(xù)值屬性,常用的處理方法有兩種:一種是對(duì)其離散化,然后按著離散值處理;另一種就是假定這一屬性服從某一分布,常假定服從正態(tài)分布。(5〕對(duì)末知樣本X分類(lèi)的時(shí)候,對(duì)每個(gè)類(lèi)Ci.計(jì)算P(X|Ci)P(Ci)。樣本X被指派到類(lèi)Ci當(dāng)且僅當(dāng)P(X|Ci)P(Ci)>P(X|Ci)P(Ci),1≤j≤m,j≠i。換言之,X被指派到其P(X|Ci)P(Ci)最大的類(lèi)Ci。二、具體實(shí)例根據(jù)顧客的基本情況來(lái)判斷其是否會(huì)買(mǎi)電腦。給定下表所示的14個(gè)訓(xùn)練實(shí)例,其中每一個(gè)顧客用屬性age,income,student和creditrating來(lái)描述,類(lèi)屬性為buycomputer
現(xiàn)有一測(cè)試實(shí)例x:<age<=30,income=medium,student=yes,creditrating=fair>,問(wèn)這一顧客是否會(huì)買(mǎi)電腦。顯然,我們的任務(wù)就是要預(yù)測(cè)此新實(shí)例的類(lèi)屬性Buycomputer的取值(yes或no)。為此,我們構(gòu)建如上圖所示的樸素貝葉斯網(wǎng)絡(luò)分類(lèi)器。圖中的類(lèi)結(jié)點(diǎn)C表示類(lèi)屬性Buycomputer,其他4個(gè)結(jié)點(diǎn)A1,A2,A3,A4分別代表4個(gè)屬性age,income,student和creditrating,類(lèi)結(jié)C是所有屬性結(jié)點(diǎn)的父親結(jié)點(diǎn),屬性結(jié)點(diǎn)和屬性結(jié)點(diǎn)之間沒(méi)有任何的依賴(lài)關(guān)系。二、具體實(shí)例根據(jù)公式有為計(jì)算C(x),需要從14個(gè)訓(xùn)練實(shí)例中估計(jì)出概率:P(yes),P(<=30|yes),P(medium|yes),P(yes|yes),P(fair|yes),P(no),P(<=30|no),P(medium|no),P(yes|no),P(fair|no)。具體的計(jì)算過(guò)程如下:二、具體實(shí)例使用以上概率,我們可以得到P(yes)P(<=30|yes)P(medium|yes)P(yes|yes)P(fair|yes)=0.028P(no)P(<=30|no)P(medium|no)P(yes|no)P(fair|no)=0.007可見(jiàn),樸素貝葉斯分類(lèi)器將此實(shí)例分類(lèi)為yes。將上述概率歸一化,可得到樸素貝葉斯分類(lèi)器分類(lèi)此實(shí)例為yes的概率是0.028/(0.028+0.007)=0.8。總結(jié)樸素貝葉斯算法的優(yōu)點(diǎn):a.算法邏輯簡(jiǎn)單,易于實(shí)現(xiàn);b.分類(lèi)過(guò)程中空開(kāi)銷(xiāo)??;c.算法穩(wěn)定,對(duì)于不同的數(shù)據(jù)特點(diǎn)其分類(lèi)性能差別不大,健壯性比較好。那么“樸素貝葉斯分類(lèi)法的效率如何呢?”該分類(lèi)法與決策樹(shù)和神經(jīng)網(wǎng)絡(luò)分類(lèi)法的各種比較試驗(yàn)表明,在某些領(lǐng)域,樸素貝葉斯分類(lèi)法足以與它們媲美。理論上講,與其他所有分類(lèi)算法相比,樸素貝葉斯分類(lèi)算法最有最小的錯(cuò)誤率。然而,實(shí)踐中并非總是如此,這是因?yàn)閷?duì)其使用的假定(如類(lèi)條件獨(dú)立性)的不正確性,以及缺乏可用的概率數(shù)據(jù)造成的。貝葉斯分類(lèi)法還可以用來(lái)為不直接使用貝葉斯定理的其它分類(lèi)法提供理論判定。例如,在某些假定下,可以證明:與樸素貝葉斯分類(lèi)法一樣,許多神經(jīng)網(wǎng)絡(luò)和曲線擬合算法輸出的最大的后驗(yàn)假定。實(shí)際使用中,我們有可能遇見(jiàn)兩個(gè)問(wèn)題:(1)樸素貝葉斯分類(lèi)項(xiàng)的特征屬性都是離散值,如果是連續(xù)值該怎么進(jìn)行特征屬性劃分?如果P(aj|yi)=0怎么辦?(2)如果特征屬性之間是有關(guān)聯(lián)的,而不是相互獨(dú)立的該怎么解決?擴(kuò)展針對(duì)第一個(gè)問(wèn)題:特征屬性是連續(xù)值的時(shí)候,通常假定其值是服從高斯分布的,即:而P(ak|yi)=g(ak,ηyi
,σyi)。所以只要計(jì)算出訓(xùn)練樣本中在各個(gè)類(lèi)別中該特征項(xiàng)劃分的各個(gè)均值和標(biāo)準(zhǔn)差,代入公式即可得到其估計(jì)值。對(duì)于P(ak|yi)=0的情況可以引入拉普拉斯校準(zhǔn),對(duì)每類(lèi)別下所有劃分的計(jì)數(shù)加一,這樣如果訓(xùn)練樣本集數(shù)量充分大時(shí),并不會(huì)對(duì)結(jié)果產(chǎn)生影響,并且解決了上述頻率為0的情況擴(kuò)展針對(duì)第二個(gè)問(wèn)題:樸素貝葉斯算法是在假定各個(gè)特征屬性相互獨(dú)立的情況下提出來(lái)的,這在現(xiàn)實(shí)生活中是很難實(shí)現(xiàn)的,所以針對(duì)這個(gè)問(wèn)題人們做了大量的工作來(lái)解決這一缺點(diǎn)。(1)如果特征屬性之間是有聯(lián)系的,并且是一個(gè)有向無(wú)環(huán)圖,可以采用另一個(gè)相關(guān)的貝葉斯分類(lèi)算法—
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程施工合同詳細(xì)版
- 2025年阿壩貨運(yùn)運(yùn)輸駕駛員從業(yè)資格證考試試題
- 2025年煙臺(tái)經(jīng)營(yíng)性道路客貨運(yùn)輸駕駛員從業(yè)資格考試
- 2025年隴南貨運(yùn)從業(yè)資格證在哪里練題
- 2025年淄博b2貨運(yùn)資格證全題
- 《高血壓治療新進(jìn)展》課件
- 第四單元 崇尚法治精神
- 水上救援車(chē)使用準(zhǔn)則
- 科研機(jī)構(gòu)鍋爐升級(jí)拆除合同
- 生物技術(shù)企業(yè)設(shè)計(jì)審查
- 學(xué)歷提升之路
- 播音主持專(zhuān)業(yè)教學(xué)計(jì)劃
- GB/T 44787-2024靜電控制參數(shù)實(shí)時(shí)監(jiān)控系統(tǒng)通用規(guī)范
- 電梯困人應(yīng)急演練方案
- 【初中歷史】西晉的短暫統(tǒng)一和北方各族的內(nèi)遷課件 2024-2025學(xué)年統(tǒng)編版七年級(jí)歷史上冊(cè)
- 科研團(tuán)隊(duì)協(xié)作管理制度
- 中醫(yī)治療淋巴水腫
- 財(cái)務(wù)管理案例光線傳媒影視巨頭的資本路
- 2024年金華市婺州糧食收儲(chǔ)限公司公開(kāi)招聘工作人員高頻難、易錯(cuò)點(diǎn)500題模擬試題附帶答案詳解
- 鑄造車(chē)間管理和獎(jiǎng)懲制度
- 蝸牛與黃鸝鳥(niǎo)(課件)人音版音樂(lè)二年級(jí)上冊(cè)
評(píng)論
0/150
提交評(píng)論