




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于樸素貝葉斯分類器文本分類物電.12計(jì)研
基于樸素貝葉斯分類器文本分類
1.貝葉斯定理在分類中的應(yīng)用2.樸素貝葉斯分類器3.樸素貝葉斯文本分類算法3.1.多項(xiàng)式模型3.2伯努力模型1.貝葉斯定理在分類中的應(yīng)用
分類(classification):常常需要把一個(gè)事物分到某個(gè)類別。一個(gè)事物具有很多屬性,把它的眾多屬性看做一個(gè)向量,即X=(x1,x2,x3,…,xn),用x這個(gè)向量來代表這個(gè)事物。類別也是有很多種,用集合Y={y1,y2,…ym}表示。如果x屬于y1類別,就可以給x打上y1標(biāo)簽,意思是說x屬于y1類別。這就是所謂的分類(Classification)。1.貝葉斯定理在分類中的應(yīng)用x的集合記為X,稱為屬性集。一般X和Y的關(guān)系是不確定的,你只能在某種程度上說x有多大可能性屬于類y1,比如說x有80%的可能性屬于類y1,這時(shí)可以把X和Y看做是隨機(jī)變量,P(Y|X)稱為Y的后驗(yàn)概率(posteriorprobability),與之相對的,P(Y)稱為Y的先驗(yàn)概率(priorprobability)。1.貝葉斯定理在分類中的應(yīng)用在訓(xùn)練階段,我們要根據(jù)從訓(xùn)練數(shù)據(jù)中收集的信息,對X和Y的每一種組合學(xué)習(xí)后驗(yàn)概率P(Y|X)。分類時(shí),來了一個(gè)實(shí)例x,在剛才訓(xùn)練得到的一堆后驗(yàn)概率中找出所有的P(Y|x),其中最大的那個(gè)y,即為x所屬分類。1.貝葉斯定理在分類中的應(yīng)用在訓(xùn)練階段,我們要根據(jù)從訓(xùn)練數(shù)據(jù)中收集的信息,對X和Y的每一種組合學(xué)習(xí)后驗(yàn)概率P(Y|X)。分類時(shí),來了一個(gè)實(shí)例x,在剛才訓(xùn)練得到的一堆后驗(yàn)概率中找出所有的P(Y|X=x),其中最大的那個(gè)y,即為x所屬分類。根據(jù)貝葉斯公式,后驗(yàn)概率為:實(shí)際中只考慮最值問題即可1.貝葉斯定理在分類中的應(yīng)用考慮一個(gè)醫(yī)療診斷問題,有兩種可能的假設(shè):(1)病人有癌癥。(2)病人無癌癥。樣本數(shù)據(jù)來自某化驗(yàn)測試,它也有兩種可能的結(jié)果:陽性和陰性。假設(shè)我們已經(jīng)有先驗(yàn)知識:在所有人口中只有0.008的人患病。此外,化驗(yàn)測試對有病的患者有98%的可能返回陽性結(jié)果,對無病患者有97%的可能返回陰性結(jié)果。1.貝葉斯定理在分類中的應(yīng)用上面的數(shù)據(jù)可以用以下概率式子表示:P(cancer)=0.008,P(無cancer)=0.992P(陽性|cancer)=0.98,P(陰性|cancer)=0.02P(陽性|無cancer)=0.03,P(陰性|無cancer)=0.97假設(shè)現(xiàn)在有一個(gè)新病人,化驗(yàn)測試返回陽性,是否將病人斷定為有癌癥呢?在這里,Y={cancer,無cancer},共兩個(gè)類別,這個(gè)新病人是一個(gè)樣本,他有一個(gè)屬性陽性,可以令x=(陽性)。1.貝葉斯定理在分類中的應(yīng)用我們可以來計(jì)算各個(gè)類別的后驗(yàn)概率:P(cancer|陽性)=P(陽性|cancer)p(cancer)=0.98*0.008=0.0078P(無cancer|陽性)=P(陽性|無cancer)*p(無cancer)=0.03*0.992=0.0298因此,應(yīng)該判斷為無癌癥。歸一處理:P(癌癥)=0.0078/(0.0078+0.0298)=0.207P(無癌癥)=0.7932.樸素貝葉斯分類器
條件獨(dú)立性:
樸素貝葉斯分類器基于一個(gè)簡單的假設(shè):在給定目標(biāo)屬性之間是相互獨(dú)立的。舉例:{Machine,learning}:最可能的目標(biāo)值2.樸素貝葉斯分類器
P(xi|Y=y)怎么計(jì)算呢?
它一般根據(jù)類別y下包含屬性xi的實(shí)例的比例來估計(jì)。以文本分類為例,xi表示一個(gè)單詞,P(xi|Y=y)=包含該類別下包含單詞的xi的文章總數(shù)/該類別下的文章總數(shù)。2.樸素貝葉斯分類器當(dāng)訓(xùn)練樣本不能覆蓋那么多的屬性值時(shí),都會出現(xiàn)上述的窘境。簡單的使用樣本比例來估計(jì)類條件概率的方法太脆弱了,尤其是當(dāng)訓(xùn)練樣本少而屬性數(shù)目又很大時(shí)。解決方法是使用m估計(jì)(m-estimate)方法來估計(jì)條件概率:2.樸素貝葉斯分類器n是類yj中的樣本總數(shù),nc是類yj中取值xi的樣本數(shù),m是稱為等價(jià)樣本大小的參數(shù),而p是用戶指定的參數(shù)。如果沒有訓(xùn)練集(即n=0),則P(xi|yj)=pm=|V|時(shí),就是多項(xiàng)式模型m=2時(shí),就是伯努利模型3.樸素貝葉斯文本分類算法文本分類問題
在文本分類中,假設(shè)我們有一個(gè)文檔d∈X,X是文檔向量空間(documentspace),和一個(gè)固定的類集合C={c1,c2,…,cj},類別又稱為標(biāo)簽。顯然,文檔向量空間是一個(gè)高維度空間。我們把一堆打了標(biāo)簽的文檔集合<d,c>作為訓(xùn)練樣本,<d,c>∈X×C。例如:<d,c>={BeijingjoinstheWorldTradeOrganization,China}對于這個(gè)只有一句話的文檔,我們把它歸類到China,即打上china標(biāo)簽。
我們期望用某種訓(xùn)練算法,訓(xùn)練出一個(gè)函數(shù)γ,能夠?qū)⑽臋n映射到某一個(gè)類別:γ:X→C
目的:3.樸素貝葉斯文本分類算法在多項(xiàng)式模型中,設(shè)某文檔d=(t1,t2,…,tk),tk是該文檔中出現(xiàn)過的單詞,允許重復(fù),則先驗(yàn)概率P(c)=類c下單詞總數(shù)/整個(gè)訓(xùn)練樣本的單詞總數(shù)類條件概率P(tk|c)=(類c下單詞tk在各個(gè)文檔中出現(xiàn)過的次數(shù)之和+1)/(類c下單詞總數(shù)+|V|)V是訓(xùn)練樣本的單詞表(即抽取單詞,單詞出現(xiàn)多次,只算一個(gè)),|V|則表示訓(xùn)練樣本包含多少種單詞。在這里,m=|V|,p=1/|V|。3.1多項(xiàng)式模型3.樸素貝葉斯文本分類算法doc
doc類別Inc=china1ChineseBeijingChineseyes2ChineseChineseShanghaiyes3ChineseMacaoyes4TokyoJapanChineseno3.1多項(xiàng)式模型例子:給定一個(gè)新樣本ChineseChineseChineseTokyoJapan,對其進(jìn)行分類。3.樸素貝葉斯文本分類算法該文本用屬性向量表示為d=(Chinese,Chinese,Chinese,Tokyo,Japan),類別集合為Y={yes,no}。類yes下總共有8個(gè)單詞,類no下總共有3個(gè)單詞,訓(xùn)練樣本單詞總數(shù)為11,因此P(yes)=8/11,P(no)=3/11。類條件概率計(jì)算如下:P(Chinese|yes)=(5+1)/(8+6)=6/14=3/7P(Japan|yes)=P(Tokyo|yes)=(0+1)/(8+6)=1/14P(Chinese|no)=(1+1)/(3+6)=2/9P(Japan|no)=P(Tokyo|no)=(1+1)/(3+6)=2/93.1多項(xiàng)式模型分析:3.樸素貝葉斯文本分類算法有了以上類條件概率,開始計(jì)算后驗(yàn)概率,P(yes|d)=(3/7)3×1/14×1/14×8/11=108/184877≈0.00058417P(no|d)=(2/9)3×2/9×2/9×3/11=32/216513≈0.00014780因此,這個(gè)文檔屬于類別china。3.1多項(xiàng)式模型分析:3.樸素貝葉斯文本分類算法P(c)=類c下文件總數(shù)/整個(gè)訓(xùn)練樣本的文件總數(shù)P(tk|c)=(類c下包含單詞tk的文件數(shù)+1)/(類c下單詞總數(shù)+2)在這里,m=2,p=1/2。在這里,后驗(yàn)概率的求法也不同3.2伯努利模型3.樸素貝葉斯文本分類算法還是使用前面例子中的數(shù)據(jù),不過模型換成了使用伯努利模型。類yes下總共有3個(gè)文件,類no下有1個(gè)文件,訓(xùn)練樣本文件總數(shù)為11,因此P(yes)=3/4,P(Chinese|yes)=(3+1)/(3+2)=4/5P(Japan|yes)=P(Tokyo|yes)=(0+1)/(3+2)=1/5P(Beijing|yes)=P(Macao|yes)=P(Shanghai|yes)=(1+1)/(3+2)=2/5P(Chinese|no)=(1+1)/(1+2)=2/3P(Japan|no)=P(Tokyo|no)=(1+1)/(1+2)=2/3P(Beijing|no)=P(Macao|no)=P(Shanghai|no)=(0+1)/(1+2)=1/33.2伯努利模型3.樸素貝葉斯文本分類算法分析:給定一個(gè)新樣本ChineseChineseChineseTokyoJapan,對其進(jìn)行分類。P(yes|d)=P(yes)×P(Chinese|yes)×P(Japan|yes)×P(Tokyo|yes)×(1-P(Beijing|yes))×(1-P(Shanghai|yes))×(1-P(Macao|yes))=3/4×4/5×1/5×1/5×(1-2/5)×(1-2/5)×(1-2/5)=81/15625≈0.005P(no|d)=1/4×2/3×2/3×2/3×(1-1/3)×(1-1/3)×(1-1/3)=16/729≈0.022因此,這個(gè)文檔不屬
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年一月聚丙烯基熒光探針檢測靈敏度協(xié)議
- 個(gè)人信貸合同范例
- 房屋租賃合同臺帳
- 東莞會策劃合同樣本
- 住房擔(dān)保貸款合同樣本
- 標(biāo)準(zhǔn)聘用合同
- 乒乓球館租賃服務(wù)合同標(biāo)準(zhǔn)文本
- 二零二五版農(nóng)家樂住宿房裝修合同
- 二零二五危險(xiǎn)品運(yùn)輸駕駛員聘用合同
- 二零二五房屋受損賠償協(xié)議書范例
- 2021年10月自考00567馬列文論選讀試題及答案含解析
- 2024年度糖尿病2024年指南版課件
- 2024年鄭州黃河護(hù)理職業(yè)學(xué)院單招職業(yè)技能測試題庫及答案解析文檔版
- 非機(jī)動車交通管理及規(guī)劃研究
- 勞務(wù)派遣及醫(yī)院護(hù)工實(shí)施預(yù)案
- 華電行測題庫及答案2024
- 產(chǎn)后病(中醫(yī)婦科學(xué))
- 蘇州市2023-2024學(xué)年高一上學(xué)期期末考試數(shù)學(xué)試題(原卷版)
- 社區(qū)獲得性肺炎教學(xué)演示課件
- 農(nóng)村藍(lán)莓樹補(bǔ)償標(biāo)準(zhǔn)
- 市級臨床重點(diǎn)專科申報(bào)書(麻醉科)
評論
0/150
提交評論