樸素貝葉斯分類器完整_第1頁
樸素貝葉斯分類器完整_第2頁
樸素貝葉斯分類器完整_第3頁
樸素貝葉斯分類器完整_第4頁
樸素貝葉斯分類器完整_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、分類器分類器陳世超1什么是分類器?什么是分類器?分類是數(shù)據(jù)挖掘的一種非常重要的方法。分類的概念是在已有數(shù)據(jù)的基礎(chǔ)上學(xué)會一個分類函數(shù)或構(gòu)造出一個分類模型(即我們通常所說的分類器(Classifier))。該函數(shù)或模型能夠把數(shù)據(jù)庫中的數(shù)據(jù)紀(jì)錄映射到給定類別中的某一個,從而可以應(yīng)用于數(shù)據(jù)預(yù)測。總之,分類器是數(shù)據(jù)挖掘中對樣本進(jìn)行分類的方法的統(tǒng)稱.2分類器的構(gòu)造和實施分類器的構(gòu)造和實施分類器的構(gòu)造和實施大體會經(jīng)過以下幾個步驟:選定樣本(包含正樣本和負(fù)樣本),將所有樣本分成訓(xùn)練樣本和測試樣本兩部分。在訓(xùn)練樣本上執(zhí)行分類器算法,生成分類模型。在測試樣本上執(zhí)行分類模型,生成預(yù)測結(jié)果。根據(jù)預(yù)測結(jié)果,計算必要的評

2、估指標(biāo),評估分類模型的性能。3影響分類器準(zhǔn)確度的因素影響分類器準(zhǔn)確度的因素 (1)、訓(xùn)練集的記錄數(shù)量。生成器要利用訓(xùn)練集進(jìn)行學(xué)習(xí),因而訓(xùn)練集越大,分類器也就越可靠。然而,訓(xùn)練集越大,生成器構(gòu)造分類器的時間也就越長。錯誤率改善情況隨訓(xùn)練集規(guī)模的增大而降低。 (2)、屬性的數(shù)目。更多的屬性數(shù)目對于生成器而言意味著要計算更多的組合,使得生成器難度增大,需要的時間也更長。有時隨機的關(guān)系會將生成器引入歧途,結(jié)果可能構(gòu)造出不夠準(zhǔn)確的分類器(這在技術(shù)上被稱為過分?jǐn)M合)。因此,如果我們通過常識可以確認(rèn)某個屬性與目標(biāo)無關(guān),則將它從訓(xùn)練集中移走。 (3)、屬性中的信息。有時生成器不能從屬性中獲取足夠的信息來正確、

3、低錯誤率地預(yù)測標(biāo)簽(如試圖根據(jù)某人眼睛的顏色來決定他的收入)。加入其他的屬性(如職業(yè)、每周工作小時數(shù)和年齡),可以降低錯誤率。 (4)、待預(yù)測記錄的分布。如果待預(yù)測記錄來自不同于訓(xùn)練集中記錄的分布,那么錯誤率有可能很高。比如如果你從包含家用轎車數(shù)據(jù)的訓(xùn)練集中構(gòu)造出分類器,那么試圖用它來對包含許多運動用車輛的記錄進(jìn)行分類可能沒多大用途,因為數(shù)據(jù)屬性值的分布可能是有很大差別的。4對分類器的錯誤率進(jìn)行評估的方法對分類器的錯誤率進(jìn)行評估的方法(1) 保留方法(Holdout):記錄集中的一部分(通常是2/3)作為訓(xùn)練集,保留剩余的部分用作測試集。生成器使用2/3 的數(shù)據(jù)來構(gòu)造分類器,然后使用這個分類器

4、來對測試集進(jìn)行分類,得出的錯誤率就是評估錯誤率。(2) 交叉糾錯方法(Cross validation):數(shù)據(jù)集被分成k 個沒有交叉數(shù)據(jù)的子集,所有子集的大小大致相同。生成器訓(xùn)練和測試共k 次;每一次,生成器使用去除一個子集的剩余數(shù)據(jù)作為訓(xùn)練集,然后在被去除的子集上進(jìn)行測試。把所有得到的錯誤率的平均值作為評估錯誤率。交叉糾錯法可以被重復(fù)多次(t),對于一個t 次k 分的交叉糾錯法,k *t 個分類器被構(gòu)造并被評估,這意味著交叉糾錯法的時間是分類器構(gòu)造時間的k *t 倍。增加重復(fù)的次數(shù)意味著運行時間的增長和錯誤率評估的改善。我們可以對k 的值進(jìn)行調(diào)整,將它減少到3 或5,這樣可以縮短運行時間。然

5、而,減小訓(xùn)練集有可能使評估產(chǎn)生更大的偏差。5貝葉斯分類算法貝葉斯分類算法定義:假設(shè)X是類的標(biāo)號未知的數(shù)據(jù)樣本。設(shè)H為某種假定,如數(shù)據(jù)樣本X屬于某特定的類C。對于分類問題,我們希望確定P(H|X),即給定觀測數(shù)據(jù)樣本X,假定H成立的概率。貝葉斯定理給出了如下的計算P(H|X)的簡單有效的方法:P(H|X)=(P(X|H)*P(H))/P(X)P(H)是先驗概率,P(X|H)代表假設(shè)H成立的情況下,觀察到X的概率。P(H|X)是后驗概率。例如,假定數(shù)據(jù)樣本域由水果組成,用它們的顏色和形狀來描述。假定X表示紅色和圓的,H表示假定X是蘋果,則P(H|X)反應(yīng)當(dāng)我們看到X是紅色并是圓的的時候,我們對X是

6、蘋果的確信程度。貝葉斯分類對兩種數(shù)據(jù)具有較好的分類效果:一種是完全獨立的數(shù)據(jù),另一種是函數(shù)依賴的數(shù)據(jù)6簡單的說,貝葉斯定理是基于假設(shè)的先驗概率、給定假設(shè)下觀察到不同數(shù)據(jù)的概率,提供了一種計算后驗概率的方法。在人工智能領(lǐng)域,貝葉斯方法是一種非常具有代表性的不確定性知識表示和推理方法。7樸素貝葉斯分類算法樸素貝葉斯分類算法樸素貝葉斯是貝葉斯證據(jù)獨立的表達(dá)形式,屬于一種特例。實際應(yīng)用過程中貝葉斯表達(dá)式非常復(fù)雜,但是我們希望把它拆分成多個樸素貝葉斯來表達(dá),這樣能夠快速獲得后驗概率。8樸素貝葉斯的基本思想:對于給定的待分類項xa1,a2.an,求解在此項中出現(xiàn)的條件下各類別ci出現(xiàn)的概率。哪個P(ci|

7、x)最大,就把此待分類項歸屬于哪個類別。9樸素貝葉斯分類算法過程樸素貝葉斯分類算法過程1。每個數(shù)據(jù)樣本用一個n維特征向量X=x1,x2,.xn表示,分別描述對n個屬性A1,A2,.,An樣本的n個度量。2。假定有m個類C1,C2,.Cm,給定一個位置的數(shù)據(jù)樣本X,分類器將預(yù)測X屬于具有最高后驗概率的類。也就是說,樸素貝葉斯分類將未知的樣本分配給類Ci(1=iP(Cj|X),對任意的j=1,2,。m,j不等于i。這樣,最大化P(Ci|X)。其P(Ci|X)最大的類Ci稱為最大后驗假定。根據(jù)貝葉斯定理:103。由于P(X)對于所有類為常數(shù),只需要P(X|Ci)*P(Ci)最大即可。如果Ci類的先驗

8、概率未知,則通常假定這些類是等概率的,即P(C1)=P(C2)=P(C3)=.=P(Cm),因此就轉(zhuǎn)換為對P(X|Ci)的最大化(P(X|Ci)常被稱為給定Ci時數(shù)據(jù)X的似然度,而使P(X|Ci)最大的假設(shè)Ci稱為最大似然度)。否則,需要最大化P(X|Ci)*P(Ci)。 注意,類的先驗概率可以用P(Ci)=si/s計算,其中si是Ci中的訓(xùn)練樣本數(shù),s是訓(xùn)練樣本總數(shù)。114。給定具有許多屬性的數(shù)據(jù)集,計算P(X|Ci)的開銷可能非常大。為降低P(X|Ci)的開銷,可以做類條件獨立的樸素假定。給定樣本的類標(biāo)號,假定屬性值相互條件獨立,即在屬性間,不存在依賴關(guān)系。這樣只需考慮分子:其中概率P(x

9、1|Ci),P(x2|Ci),.P(xn|Ci)可以由訓(xùn)練樣本估值。如果Ak是離散屬性,則P(xk|Ci)=sik|si,其中sik是在屬性Ak上具有xk的類Ci的訓(xùn)練樣本數(shù),而si是Ci中的訓(xùn)練樣本數(shù)。如果Ak是連續(xù)值屬性,則通常假定該屬性服從高斯分布。因而125。對未知樣本X分類,也就是對每個類Ci,計算P(X|Ci)*P(Ci)。樣本X被指到類Ci,當(dāng)且僅當(dāng)P(Ci|X)P(Cj|X),1=j=m,j不等于i,換言之,X被指派到其P(X|Ci)*P(Ci)最大的類。1314貝葉斯算法的處理流程:貝葉斯算法的處理流程:第一階段:準(zhǔn)備階段該階段為樸素貝葉斯分類做必要的準(zhǔn)備。主要是依據(jù)具體情況

10、確定特征屬性,并且對特征屬性進(jìn)行適當(dāng)劃分。然后就說對一部分待分類項進(jìn)行人人工劃分,以確定訓(xùn)練樣本。工劃分,以確定訓(xùn)練樣本。這一階段的輸入是所有待分類項,輸出是特征屬性和訓(xùn)練樣本。分類器的質(zhì)量很大程度上依賴于特征屬性及其劃分以及訓(xùn)練樣本的質(zhì)量。15第二階段:分類器訓(xùn)練階段主要工作是計算每個類別在訓(xùn)練樣本中出現(xiàn)頻率頻率以及每個特征屬性劃分對每個類別的條件概率估計概率估計。輸入是特征屬性和訓(xùn)練樣本,輸出是分類器。16第三階段:應(yīng)用階段這個階段的任務(wù)就是使用分類器對待分類項進(jìn)行分類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關(guān)系。17樸素貝葉斯分類舉例樸素貝葉斯分類舉例數(shù)據(jù)樣本用屬性age,

11、income,student和creditrating描述。類標(biāo)號屬性buy_computer具有兩個不同值。設(shè)C1對應(yīng)于類buy_computer=”yes”,而C2對應(yīng)類buy_computer=”no”。設(shè)我們希望分類的未知樣本為:X=(age=”=30”,income=”medium”,student=”yes”,credit_rating=”fair”)。18步驟步驟 1。我們需要最大化P(X|Ci)*P(Ci),i=1,2。每個類的先驗概率P(Ci)可以根據(jù)訓(xùn)練樣本計算:P(buy_computer=”yes”)=9/14=0.643,P(buy_computer=”no”)=5/

12、14=0.357。2。為計算P(X|Ci),i=1,2,我們計算下面的條件概率:P(age=30|buy_computer=”yes”)=2/9=0.222,P(age=30|buy_computer=”no”)=3/5=0.600,P(income=”medium”|buy_computer=”yes”)=4/9=0.444,P(income=”medium”|buy_computer=”no”)=2/5=0.400,P(student=”yes”|buy_computer=”yes”)=6/9=0.677,P(credit_rating=”fair”|buy_computer=”yes”)

13、=6/9=0.667P(student=”yes”|buy_computer=”no”)=1/5=0.200。P(credit_rating=”fair”|buy_computer=”no”)=2/5=0.400193。假設(shè)條件獨立性,使用以上概率,我們得到:P(X|buy_computer=”yes”)=0.222*0.444*0.667*0.667=0.044,P(X|buy_computer=”no”)=0.600*0.400*0.200*0.400=0.019P(X|buy_computer=”yes”)*P(buy_computer=”yes”)=0.044*0.643=0.028P

14、(X|buy_computer=”no”)*P(buy_computer=”no”)=0.019*0.357=0.007因此,對于樣本X,樸素貝葉斯分類預(yù)測buy_computer=”yes”20樸素貝葉斯的特點樸素貝葉斯的特點樸素貝葉斯核心:假設(shè)所有特征都彼此獨立。雖然所有特征彼此獨立這個假設(shè),在現(xiàn)實中不太可能成立,但是它可以大大簡化計算,而且有研究表明對分類結(jié)果的準(zhǔn)確性影響不大。21樸素貝葉斯算法的優(yōu)點:樸素貝葉斯算法的優(yōu)點:1.算法邏輯簡單,易于實現(xiàn)2.分類過程中時空開銷小3.算法穩(wěn)定,對于不同的數(shù)據(jù)特定其分類性能差別不大,健壯性比較好。22一個問題一個問題如果特征屬性之間是有關(guān)聯(lián)的,而不是相互獨立的怎么辦?23樸素貝葉斯算法是在假定各個特征屬性相互獨立的情況下提出來的,這在現(xiàn)實生活中是很難實現(xiàn)的,所以針對這個問題人們做了大量工作解決這個缺點。(1)如果特征屬性之間是有聯(lián)系的,并且是一個有向無環(huán)圖,可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論