機(jī)器學(xué)習(xí)原理與應(yīng)用課件 第5章 樸素貝葉斯_第1頁(yè)
機(jī)器學(xué)習(xí)原理與應(yīng)用課件 第5章 樸素貝葉斯_第2頁(yè)
機(jī)器學(xué)習(xí)原理與應(yīng)用課件 第5章 樸素貝葉斯_第3頁(yè)
機(jī)器學(xué)習(xí)原理與應(yīng)用課件 第5章 樸素貝葉斯_第4頁(yè)
機(jī)器學(xué)習(xí)原理與應(yīng)用課件 第5章 樸素貝葉斯_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5章

樸素貝葉斯1學(xué)習(xí)目標(biāo)理解樸素貝葉斯的基本原理掌握Scikit-learn庫(kù)構(gòu)建不同類(lèi)型樸素貝葉斯模型的基本方法122目錄頁(yè)35.1基本原理5.2應(yīng)用實(shí)例樸素貝葉斯5.1基本原理樸素貝葉斯算法利用貝葉斯定理構(gòu)建分類(lèi)模型,同時(shí)通過(guò)特征相互獨(dú)立(即樸素的基本含義)的假設(shè)簡(jiǎn)化模型求解的復(fù)雜度。45.1基本原理貝葉斯原理相關(guān)概念:1.先驗(yàn)概率:通過(guò)經(jīng)驗(yàn)判斷事件發(fā)生的概率(如乳腺癌發(fā)病率為24.2%且52.9%發(fā)生在發(fā)展中國(guó)家、微博用戶(hù)男生比例占55%等)2.后驗(yàn)概率:事件發(fā)生后推測(cè)起因的概率(如已知病人患有“乳腺癌”的情況下推斷遺傳因素、營(yíng)養(yǎng)過(guò)剩等導(dǎo)致“乳腺癌”起因的概率)3.條件概率:當(dāng)前事件在另一事件已發(fā)生情況下的發(fā)生概率(如在已知存在“遺傳因素”的情況下“乳腺癌”發(fā)病的概率)4.似然函數(shù):用于確定模型參數(shù)的函數(shù)。概率描述已知參數(shù)時(shí)變量的輸出,而似然則描述已知變量輸出時(shí)未知參數(shù)的可能取值55.1.1基本概念

65.1.1基本概念

75.1.1基本概念

85.1.1基本概念

95.1.1基本概念

105.1.1基本概念表1所示的“學(xué)生作息與成績(jī)關(guān)系”數(shù)據(jù),此處以預(yù)測(cè)“出勤=早、休息=晚”學(xué)生成績(jī)的好或差為例描述其基本過(guò)程11序號(hào)出勤休息成績(jī)1早晚好2早早好3早晚差4晚早差5晚晚好6早晚好7早早好8晚早差9晚晚差10早晚好表1學(xué)生作息與成績(jī)關(guān)系數(shù)據(jù)5.1.1基本概念

125.1.1基本概念

135.1.1基本概念

145.1.2主要類(lèi)型在Scikit-learn庫(kù)native_bayes模塊中,根據(jù)特征的類(lèi)條件概率可將樸素貝葉斯模型分為:(1)高斯樸素貝葉斯(GaussianNB)GaussianNB假設(shè)特征的類(lèi)條件概率服從正態(tài)分布(均值與方差根據(jù)訓(xùn)練數(shù)據(jù)估計(jì))。(2)多項(xiàng)式樸素貝葉斯(MultinomialNB)MultinomialNB假設(shè)特征的類(lèi)條件概率服從多項(xiàng)式分布,與適于連續(xù)型特征取值的GaussianNB不同,其更適于離散型特征情況下分類(lèi)問(wèn)題的求解。155.1.2主要類(lèi)型(3)伯努利樸素貝葉斯(BernoulliNB)BernoulliNB假設(shè)特征的類(lèi)條件概率服從伯努利分布,即數(shù)據(jù)包含多個(gè)特征,而每個(gè)特征的取值僅有兩種;因而,與MultinomialNB不同,BernoulliNB更關(guān)注事件是否存在而非發(fā)生的次數(shù)。165.1.2主要類(lèi)型(4)補(bǔ)集樸素貝葉斯(ComplementNB)ComplementNB主要用于解決樸素貝葉斯中的“樸素”假設(shè)以及樣本不均衡等因素產(chǎn)生的各種問(wèn)題(在計(jì)算每個(gè)類(lèi)別的分類(lèi)概率時(shí),傳統(tǒng)的樸素貝葉斯分類(lèi)器可能會(huì)傾向于預(yù)測(cè)樣本數(shù)較多的類(lèi)別)。具體而言,對(duì)于指定類(lèi)別及其補(bǔ)集,ComplementNB首先計(jì)算相應(yīng)特征條件概率的乘積,然后利用兩者之商作為指定類(lèi)別最終的分類(lèi)概率。175.2應(yīng)用實(shí)例(1)高斯樸素貝葉斯(GaussianNB)導(dǎo)入方法:fromsklearn.naive_bayesimportGaussianNB函數(shù)原型:GaussianNB()185.2應(yīng)用實(shí)例(2)多項(xiàng)式樸素貝葉斯(MultinomialNB)導(dǎo)入方法:fromsklearn.naive_bayesimportMultinomialNB函數(shù)原型:classsklearn.naive_bayes.MultinomialNB(alpha=1.0,fit_prior=True,class_prior=None)195.2應(yīng)用實(shí)例(3)伯努利樸素貝葉斯(BernoulliNB)導(dǎo)入方法:fromsklearn.naive_bayesimportBernoulliNB函數(shù)原型:classsklearn.naive_bayes.BernoulliNB(alpha=1.0,binarize=0.0,fit_prior=True,class_prior=None)205.2應(yīng)用實(shí)例(4)補(bǔ)集樸素貝葉斯(ComplementNB)導(dǎo)入方法:fromsklearn.naive_bayesimportComplementNB函數(shù)原型:classsklearn.naive_bayes.ComplementNB(alpha=1.0,fit_prior=True,class_prior=None,norm=False)215.2.1高斯樸素貝葉斯高斯樸素貝葉斯分類(lèi)器假定每個(gè)特征的條件概率均服從高斯分布,進(jìn)而可根據(jù)貝葉斯公式計(jì)算新樣本屬于各個(gè)類(lèi)別的后驗(yàn)概率,最后通過(guò)最大化后驗(yàn)概率來(lái)確定樣本的所屬類(lèi)別。在實(shí)際中,若特征分布形態(tài)未知或不易確定時(shí),通常可先采用高斯樸素貝葉斯分類(lèi)器進(jìn)行初始分類(lèi)或預(yù)測(cè),若相應(yīng)的精度達(dá)不到指定標(biāo)準(zhǔn),則可嘗試其他類(lèi)型的樸素貝葉斯分類(lèi)器。案例5-1:成績(jī)預(yù)測(cè)(1)問(wèn)題描述如表1所示“學(xué)生作息與成績(jī)關(guān)系”數(shù)據(jù)構(gòu)建高斯樸素貝葉斯分類(lèi)器以實(shí)現(xiàn)新樣本的預(yù)測(cè)(2)編程實(shí)現(xiàn)見(jiàn)5-1成績(jī)預(yù)測(cè).py225.2.1高斯樸素貝葉斯(3)結(jié)果分析成績(jī)?yōu)楹没虿?[[0.98406780.0159322]]成績(jī)類(lèi)別:[0]預(yù)測(cè)精度:0.8235.2.1高斯樸素貝葉斯案例5-2:紅酒分類(lèi)(1)問(wèn)題描述利用高斯樸素貝葉斯分類(lèi)器對(duì)Scikit-learn庫(kù)中的紅酒數(shù)據(jù)進(jìn)行分類(lèi),具體要求如下:①利用訓(xùn)練樣本構(gòu)建模型,然后利用測(cè)試樣本測(cè)試模型的精度。②對(duì)分類(lèi)結(jié)果進(jìn)行可視化。(2)編程實(shí)現(xiàn)見(jiàn)5-2紅酒分類(lèi).py245.2.1高斯樸素貝葉斯(3)結(jié)果分析預(yù)測(cè)精度:0.981481481481481525高斯樸素貝葉斯分類(lèi)效果圖(方形:訓(xùn)練樣本,圓形:測(cè)試樣本)5.2.2多項(xiàng)式樸素貝葉斯多項(xiàng)式樸素貝葉斯主要適用于離散型特征(如次數(shù)、頻率、計(jì)數(shù)等)相關(guān)的分類(lèi)問(wèn)題的求解。例如,在文本分類(lèi)問(wèn)題中判斷一段文本是屬于教育類(lèi)別還是軍事類(lèi)別,此時(shí)僅需求取兩者相應(yīng)的概率P(教育|文本)與P(軍事|文本)的大小即可(其中最大者相應(yīng)的類(lèi)別即為文本所屬類(lèi)別);其中,由于文本本身由多個(gè)關(guān)鍵詞構(gòu)成,因而概率P(教育|文本)與P(軍事|文本)可轉(zhuǎn)化為求取P(教育|關(guān)鍵詞1,關(guān)鍵詞2,關(guān)鍵詞3...)與P(軍事|鍵詞1,關(guān)鍵詞2,關(guān)鍵詞3...),進(jìn)而可通過(guò)貝葉斯公式將概率求取問(wèn)題轉(zhuǎn)化為不同關(guān)鍵詞出現(xiàn)頻率統(tǒng)計(jì)的問(wèn)題。265.2.2多項(xiàng)式樸素貝葉斯實(shí)例5-3:特征離散化(1)問(wèn)題描述首先構(gòu)造包含兩個(gè)特征的樣本集,然后完成以下實(shí)驗(yàn):①對(duì)樣本集進(jìn)行歸一化處理。②將樣本集劃分為訓(xùn)練樣本與測(cè)試樣本,然后利用訓(xùn)練樣本構(gòu)建多項(xiàng)式樸素貝葉斯模型并利用測(cè)試樣本測(cè)試其精度。③查看相關(guān)先驗(yàn)概率與類(lèi)條件概率。④對(duì)原特征進(jìn)行離散化處理并重新進(jìn)行模型訓(xùn)練與測(cè)試。(2)編程實(shí)現(xiàn)見(jiàn)實(shí)例5-3特征離散化.py275.2.2多項(xiàng)式樸素貝葉斯(3)結(jié)果分析類(lèi)先驗(yàn)概率:[0.482857140.51714286]類(lèi)條件概率:[[0.506365280.49363472][0.466060450.53393955]]預(yù)測(cè)精度:0.46數(shù)據(jù)基本結(jié)構(gòu):(700,20)預(yù)測(cè)精度:1.0每個(gè)特征值離散為10個(gè)獨(dú)熱編碼值,兩個(gè)特征相應(yīng)獨(dú)熱編碼值共20個(gè)。以離散化后的特征值訓(xùn)練MultinomialNB模型,其精度可提高到1.0285.2.2多項(xiàng)式樸素貝葉斯實(shí)例5-4:文本分類(lèi)。(1)問(wèn)題描述首先下載Scikit-learn庫(kù)fetch_20newsgroups數(shù)據(jù)(包含18846篇新聞文本及20個(gè)新聞?lì)悇e),然后統(tǒng)計(jì)文本中的詞頻并構(gòu)建多項(xiàng)式樸素貝葉斯分類(lèi)器對(duì)文本進(jìn)行分類(lèi)。(2)編程實(shí)現(xiàn)見(jiàn)實(shí)例5-4:文本分類(lèi).py295.2.2多項(xiàng)式樸素貝葉斯(3)結(jié)果分析預(yù)測(cè)精度:0.82本例首先對(duì)文本進(jìn)行分詞、詞頻統(tǒng)計(jì)與向量化處理,進(jìn)而生成多項(xiàng)式樸素貝葉斯分類(lèi)器構(gòu)建相應(yīng)的樣本。由于分類(lèi)器自身性能以及特征取值分布的影響,利用測(cè)試樣本對(duì)多項(xiàng)式樸素貝葉斯分類(lèi)器進(jìn)行測(cè)試的精度為0.82。305.2.3伯努利樸素貝葉斯伯努利樸素貝葉斯與多項(xiàng)式樸素貝葉斯非常相似,但與多項(xiàng)式樸素貝葉斯不同的是其偏重于解決“是否存在”問(wèn)題而非次數(shù)或頻率問(wèn)題;例如,在文本分類(lèi)中,伯努利樸素貝葉斯使用標(biāo)示關(guān)鍵詞“是否出現(xiàn)”的0/1值而非關(guān)鍵詞出現(xiàn)的次數(shù)或頻率構(gòu)建樣本以構(gòu)建分類(lèi)器。315.2.3伯努利樸素貝葉斯(1)問(wèn)題描述Scikit-learm庫(kù)手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集包含1797個(gè)手寫(xiě)數(shù)字樣本,每個(gè)樣本為8×8二維數(shù)組(元素取值為0-16之間的整數(shù)),相應(yīng)分類(lèi)標(biāo)記為0-9之間的整數(shù)。利用伯努利樸素貝葉斯分類(lèi)器實(shí)現(xiàn)Scikit-learn庫(kù)手寫(xiě)數(shù)字樣本的分類(lèi)。(2)編程實(shí)現(xiàn)見(jiàn)5.2.3伯努利樸素貝葉斯.py325.2.3伯努利樸素貝葉斯(3)結(jié)果分析(1797,64)(1797,)測(cè)試精度:0.84提高相應(yīng)的精度。33伯努利樸素貝葉斯分類(lèi)器5.2.4補(bǔ)集樸素貝葉斯補(bǔ)集樸素貝葉斯通過(guò)考慮每個(gè)類(lèi)別的補(bǔ)集解決類(lèi)別不平衡的問(wèn)題,在實(shí)際中能夠更好地適應(yīng)樣本數(shù)較少的類(lèi)別。然而,由于需要計(jì)算每個(gè)類(lèi)別及其補(bǔ)集的概率,因而計(jì)算復(fù)雜度相對(duì)較高。(1)問(wèn)題描述首先構(gòu)造兩類(lèi)數(shù)量不均衡的樣本并將其劃分為訓(xùn)練樣本與測(cè)試樣本,然后利用訓(xùn)練構(gòu)建高斯樸素貝葉斯、多項(xiàng)式樸素貝葉斯、伯努利樸素貝葉斯與補(bǔ)集樸素貝葉斯分類(lèi)器并利用測(cè)試樣本測(cè)試其性能(求取并對(duì)比相應(yīng)的精度、召回率與AUC值)。(2)編程實(shí)現(xiàn)見(jiàn)5.2.4補(bǔ)集樸素貝葉斯.py345.2.4補(bǔ)集樸素貝葉斯(3)結(jié)果分析Gaussian Accuracy:0.997 Recall:0.463 AUC:0.989Multinomial Accuracy:0.996 Recall:0.000

AUC:0.98035Bernoulli Accuracy:0.989 Recall:0.604 AUC:0.979Complement Accuracy:0.933 Recall:0.963 AUC:0.9805.2.4補(bǔ)集樸素貝葉斯(3)結(jié)果分析高斯與多項(xiàng)式樸素貝葉斯對(duì)不均衡數(shù)據(jù)較為敏感,召回率相對(duì)較低;相對(duì)而言,伯努利與補(bǔ)集樸素貝葉斯可較好地緩解數(shù)據(jù)不均衡問(wèn)題,尤其是補(bǔ)集樸素貝葉斯,其雖然精度不高,但對(duì)不均衡數(shù)據(jù)適應(yīng)性較好。此外,在特征取值連

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論