版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于樸素貝葉斯分類器文本分類物電.12計研
基于樸素貝葉斯分類器文本分類
1.貝葉斯定理在分類中的應(yīng)用2.樸素貝葉斯分類器3.樸素貝葉斯文本分類算法3.1.多項式模型3.2伯努力模型1.貝葉斯定理在分類中的應(yīng)用
分類(classification):常常需要把一個事物分到某個類別。一個事物具有很多屬性,把它的眾多屬性看做一個向量,即X=(x1,x2,x3,…,xn),用x這個向量來代表這個事物。類別也是有很多種,用集合Y={y1,y2,…ym}表示。如果x屬于y1類別,就可以給x打上y1標簽,意思是說x屬于y1類別。這就是所謂的分類(Classification)。1.貝葉斯定理在分類中的應(yīng)用x的集合記為X,稱為屬性集。一般X和Y的關(guān)系是不確定的,你只能在某種程度上說x有多大可能性屬于類y1,比如說x有80%的可能性屬于類y1,這時可以把X和Y看做是隨機變量,P(Y|X)稱為Y的后驗概率(posteriorprobability),與之相對的,P(Y)稱為Y的先驗概率(priorprobability)。1.貝葉斯定理在分類中的應(yīng)用在訓練階段,我們要根據(jù)從訓練數(shù)據(jù)中收集的信息,對X和Y的每一種組合學習后驗概率P(Y|X)。分類時,來了一個實例x,在剛才訓練得到的一堆后驗概率中找出所有的P(Y|x),其中最大的那個y,即為x所屬分類。1.貝葉斯定理在分類中的應(yīng)用在訓練階段,我們要根據(jù)從訓練數(shù)據(jù)中收集的信息,對X和Y的每一種組合學習后驗概率P(Y|X)。分類時,來了一個實例x,在剛才訓練得到的一堆后驗概率中找出所有的P(Y|X=x),其中最大的那個y,即為x所屬分類。根據(jù)貝葉斯公式,后驗概率為:實際中只考慮最值問題即可1.貝葉斯定理在分類中的應(yīng)用考慮一個醫(yī)療診斷問題,有兩種可能的假設(shè):(1)病人有癌癥。(2)病人無癌癥。樣本數(shù)據(jù)來自某化驗測試,它也有兩種可能的結(jié)果:陽性和陰性。假設(shè)我們已經(jīng)有先驗知識:在所有人口中只有0.008的人患病。此外,化驗測試對有病的患者有98%的可能返回陽性結(jié)果,對無病患者有97%的可能返回陰性結(jié)果。1.貝葉斯定理在分類中的應(yīng)用上面的數(shù)據(jù)可以用以下概率式子表示:P(cancer)=0.008,P(無cancer)=0.992P(陽性|cancer)=0.98,P(陰性|cancer)=0.02P(陽性|無cancer)=0.03,P(陰性|無cancer)=0.97假設(shè)現(xiàn)在有一個新病人,化驗測試返回陽性,是否將病人斷定為有癌癥呢?在這里,Y={cancer,無cancer},共兩個類別,這個新病人是一個樣本,他有一個屬性陽性,可以令x=(陽性)。1.貝葉斯定理在分類中的應(yīng)用我們可以來計算各個類別的后驗概率:P(cancer|陽性)=P(陽性|cancer)p(cancer)=0.98*0.008=0.0078P(無cancer|陽性)=P(陽性|無cancer)*p(無cancer)=0.03*0.992=0.0298因此,應(yīng)該判斷為無癌癥。歸一處理:P(癌癥)=0.0078/(0.0078+0.0298)=0.207P(無癌癥)=0.7932.樸素貝葉斯分類器
條件獨立性:
樸素貝葉斯分類器基于一個簡單的假設(shè):在給定目標屬性之間是相互獨立的。舉例:{Machine,learning}:最可能的目標值2.樸素貝葉斯分類器
P(xi|Y=y)怎么計算呢?
它一般根據(jù)類別y下包含屬性xi的實例的比例來估計。以文本分類為例,xi表示一個單詞,P(xi|Y=y)=包含該類別下包含單詞的xi的文章總數(shù)/該類別下的文章總數(shù)。2.樸素貝葉斯分類器當訓練樣本不能覆蓋那么多的屬性值時,都會出現(xiàn)上述的窘境。簡單的使用樣本比例來估計類條件概率的方法太脆弱了,尤其是當訓練樣本少而屬性數(shù)目又很大時。解決方法是使用m估計(m-estimate)方法來估計條件概率:2.樸素貝葉斯分類器n是類yj中的樣本總數(shù),nc是類yj中取值xi的樣本數(shù),m是稱為等價樣本大小的參數(shù),而p是用戶指定的參數(shù)。如果沒有訓練集(即n=0),則P(xi|yj)=pm=|V|時,就是多項式模型m=2時,就是伯努利模型3.樸素貝葉斯文本分類算法文本分類問題
在文本分類中,假設(shè)我們有一個文檔d∈X,X是文檔向量空間(documentspace),和一個固定的類集合C={c1,c2,…,cj},類別又稱為標簽。顯然,文檔向量空間是一個高維度空間。我們把一堆打了標簽的文檔集合<d,c>作為訓練樣本,<d,c>∈X×C。例如:<d,c>={BeijingjoinstheWorldTradeOrganization,China}對于這個只有一句話的文檔,我們把它歸類到China,即打上china標簽。
我們期望用某種訓練算法,訓練出一個函數(shù)γ,能夠?qū)⑽臋n映射到某一個類別:γ:X→C
目的:3.樸素貝葉斯文本分類算法在多項式模型中,設(shè)某文檔d=(t1,t2,…,tk),tk是該文檔中出現(xiàn)過的單詞,允許重復,則先驗概率P(c)=類c下單詞總數(shù)/整個訓練樣本的單詞總數(shù)類條件概率P(tk|c)=(類c下單詞tk在各個文檔中出現(xiàn)過的次數(shù)之和+1)/(類c下單詞總數(shù)+|V|)V是訓練樣本的單詞表(即抽取單詞,單詞出現(xiàn)多次,只算一個),|V|則表示訓練樣本包含多少種單詞。在這里,m=|V|,p=1/|V|。3.1多項式模型3.樸素貝葉斯文本分類算法doc
doc類別Inc=china1ChineseBeijingChineseyes2ChineseChineseShanghaiyes3ChineseMacaoyes4TokyoJapanChineseno3.1多項式模型例子:給定一個新樣本ChineseChineseChineseTokyoJapan,對其進行分類。3.樸素貝葉斯文本分類算法該文本用屬性向量表示為d=(Chinese,Chinese,Chinese,Tokyo,Japan),類別集合為Y={yes,no}。類yes下總共有8個單詞,類no下總共有3個單詞,訓練樣本單詞總數(shù)為11,因此P(yes)=8/11,P(no)=3/11。類條件概率計算如下:P(Chinese|yes)=(5+1)/(8+6)=6/14=3/7P(Japan|yes)=P(Tokyo|yes)=(0+1)/(8+6)=1/14P(Chinese|no)=(1+1)/(3+6)=2/9P(Japan|no)=P(Tokyo|no)=(1+1)/(3+6)=2/93.1多項式模型分析:3.樸素貝葉斯文本分類算法有了以上類條件概率,開始計算后驗概率,P(yes|d)=(3/7)3×1/14×1/14×8/11=108/184877≈0.00058417P(no|d)=(2/9)3×2/9×2/9×3/11=32/216513≈0.00014780因此,這個文檔屬于類別china。3.1多項式模型分析:3.樸素貝葉斯文本分類算法P(c)=類c下文件總數(shù)/整個訓練樣本的文件總數(shù)P(tk|c)=(類c下包含單詞tk的文件數(shù)+1)/(類c下單詞總數(shù)+2)在這里,m=2,p=1/2。在這里,后驗概率的求法也不同3.2伯努利模型3.樸素貝葉斯文本分類算法還是使用前面例子中的數(shù)據(jù),不過模型換成了使用伯努利模型。類yes下總共有3個文件,類no下有1個文件,訓練樣本文件總數(shù)為11,因此P(yes)=3/4,P(Chinese|yes)=(3+1)/(3+2)=4/5P(Japan|yes)=P(Tokyo|yes)=(0+1)/(3+2)=1/5P(Beijing|yes)=P(Macao|yes)=P(Shanghai|yes)=(1+1)/(3+2)=2/5P(Chinese|no)=(1+1)/(1+2)=2/3P(Japan|no)=P(Tokyo|no)=(1+1)/(1+2)=2/3P(Beijing|no)=P(Macao|no)=P(Shanghai|no)=(0+1)/(1+2)=1/33.2伯努利模型3.樸素貝葉斯文本分類算法分析:給定一個新樣本ChineseChineseChineseTokyoJapan,對其進行分類。P(yes|d)=P(yes)×P(Chinese|yes)×P(Japan|yes)×P(Tokyo|yes)×(1-P(Beijing|yes))×(1-P(Shanghai|yes))×(1-P(Macao|yes))=3/4×4/5×1/5×1/5×(1-2/5)×(1-2/5)×(1-2/5)=81/15625≈0.005P(no|d)=1/4×2/3×2/3×2/3×(1-1/3)×(1-1/3)×(1-1/3)=16/729≈0.022因此,這個文檔不屬
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025土豆銷售合同
- 2024年版:解除婚姻關(guān)系補充協(xié)議書
- 2025版SPF豬飼養(yǎng)與疫病防控一體化服務(wù)合同3篇
- 2025林權(quán)轉(zhuǎn)讓合同模版
- 2025版集體用地租賃合同范本(含土地用途限制)2篇
- 二零二五年度1號金融資產(chǎn)轉(zhuǎn)讓及代持風險控制合同3篇
- 2024年高端設(shè)備租賃場地服務(wù)合同3篇
- 2025年智能門禁監(jiān)控系統(tǒng)安裝與售后服務(wù)合同樣本3篇
- 2024年跨國物流與供應(yīng)鏈管理協(xié)議
- 2024年門窗安裝工程保險合同
- 圖書館管理系統(tǒng)答辯
- 先天性心臟病封堵術(shù)護理
- 2024北京初三(上)期末語文匯編:記敘文閱讀
- 三級安全教育試題(公司級、部門級、班組級)
- 2024年金融工作會議
- 2024年人教版八年級生物上冊期末考試卷(附答案)
- 2024年叉車租賃合同經(jīng)典版(四篇)
- 環(huán)保工程施工安全檢查表
- 人教版五年級上冊數(shù)學期末考試試卷含答案
- 小學科學青島版(六三制)六年級上冊全冊教案(共25課)(2022秋)
- 2024焊接工藝規(guī)程
評論
0/150
提交評論