基于樸素貝葉斯實現(xiàn)垃圾郵件過濾_第1頁
基于樸素貝葉斯實現(xiàn)垃圾郵件過濾_第2頁
基于樸素貝葉斯實現(xiàn)垃圾郵件過濾_第3頁
基于樸素貝葉斯實現(xiàn)垃圾郵件過濾_第4頁
基于樸素貝葉斯實現(xiàn)垃圾郵件過濾_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

基于樸素貝葉斯實現(xiàn)垃圾郵件過濾目錄背景01相關(guān)理論基礎(chǔ)02垃圾郵件過濾系統(tǒng)的實現(xiàn)03總結(jié)041摘要:隨著因特網(wǎng)的普及,電子郵件在人們的日常生活中扮演著重要的角色,且成為了互聯(lián)網(wǎng)上最重要、最普及的溝通工具之一2然而,隨之誕生的垃圾郵件也越來越泛濫,如何有效地抵御垃圾郵件是全世界共同面臨的一道難題,也是互聯(lián)網(wǎng)上目前急待解決的問題3因此,研究更為有效的垃圾郵件過濾防范系統(tǒng),是具有重要現(xiàn)實意義的課題4本文實驗中以收集的一些郵件為語料,應(yīng)用樸素貝葉斯分類算法,通過訓(xùn)練集計算得到類別的先驗概率和特征項的類條件概率,并以此為基礎(chǔ)對測試集中的郵件進行歸類判斷,以準(zhǔn)確率和查全率為指標(biāo)給出了實驗結(jié)果,最終產(chǎn)生了一個較其它單種郵件過濾方法更為高效的實驗數(shù)據(jù)5關(guān)鍵詞:垃圾郵件過濾;樸素貝葉斯;特征項背景當(dāng)今Internet技術(shù)的迅猛發(fā)展,使計算機與網(wǎng)絡(luò)在人們的工作、學(xué)習(xí)、生活中帶來了極大的方便,其中電子郵件由其快捷、方便、高效的特點已成為現(xiàn)代人們通信方式的重要組成部分然而隨著電子郵件的廣泛普及,帶來的不僅只是便利,亦帶來令人擔(dān)憂的網(wǎng)絡(luò)安全問題根據(jù)英文和漢文郵件的使用經(jīng)驗垃圾郵件的出現(xiàn)極大程度上危害到用戶,首先造成了網(wǎng)絡(luò)帶寬資源的浪費,出現(xiàn)瓶頸資料的問題,直接的影響網(wǎng)絡(luò)運行效率產(chǎn)生對信息空間資源非法占有,出現(xiàn)漏洞給黑客利用,導(dǎo)致網(wǎng)絡(luò)出現(xiàn)嚴(yán)峻的網(wǎng)絡(luò)安全隱患問題目前全世界每天發(fā)布的網(wǎng)上垃圾郵件就高達(dá)近千億之多,這些垃圾郵件不僅占據(jù)了郵件服務(wù)器的大量存儲空間,同時也侵犯了收件人的隱私,浪費了收件人大量的時間和精力,垃圾郵件已經(jīng)成為當(dāng)今互聯(lián)網(wǎng)上一個頗令人頭痛的問題因此,為了保證郵件系統(tǒng)的正常運行和郵箱用戶的利益,研究有效的郵件過濾方法勢在必行目前解決垃圾郵件問題有眾多的途徑和思路,但現(xiàn)在并不存在一種方法能完美地解決垃圾郵件問題,要根治垃圾郵件問題需要反垃圾郵件技術(shù)、郵件傳輸體系、經(jīng)濟體制、法律等多方面的努力在實際應(yīng)用中,僅憑借某一項或幾項技術(shù)往往很難達(dá)到阻止絕大部分垃圾郵件的目標(biāo),本系統(tǒng)結(jié)合多種反垃圾郵件技術(shù),建立了一套多層次的反垃圾郵件系統(tǒng)該系統(tǒng)的過濾技術(shù)從不同的方面、不同的角度、不同的特點出發(fā),相互補充,取長補短,實現(xiàn)了一個具有較高正確率、較高性能的垃圾郵件過濾系統(tǒng),大大提高了整體過濾的準(zhǔn)確率和查全率,減少誤判率,有效地過濾了各種垃圾郵件本系統(tǒng)針對垃圾郵件的過濾主要從兩個方面加于設(shè)計,首先一方面:郵件外部特征的顯式過濾,可分別從黑白名單、發(fā)送者郵件地址、郵件接收者地址、郵件傳送途徑、郵件主題等相關(guān)信息來給予郵件的第一級過濾,嚴(yán)格地過濾規(guī)則對垃圾郵件判斷的準(zhǔn)確性也非常高相關(guān)理論基礎(chǔ)另外一方面:如果上一級的規(guī)則過濾對郵件的判別沒有起到有效作用時,則進入本系統(tǒng)的二級過濾該級過濾中,通過信息增益法建立特征詞庫,然后再以改進的樸素貝葉斯算法作為郵件過濾的模型對新郵件進行過濾分類為了更好的實現(xiàn)過濾的效果,本系統(tǒng)在二級過濾分類的結(jié)果中,再次找出分錯類的郵件,將它們送入訓(xùn)練樣本集進行再學(xué)習(xí),重建特征庫,最終精確郵件的分類效果貝葉斯分類算法是基于概率統(tǒng)計原理的一種分類方法,具有理論清楚、運算速度快、分類精度高等優(yōu)點,因而被廣泛地應(yīng)用在各個領(lǐng)域的文本分類中,并取得很好的效果最初,貝葉斯定理是由牧師托馬斯貝葉斯發(fā)表于1763年,他是18世紀(jì)的數(shù)學(xué)家和神學(xué)家。貝葉斯定理是貝葉斯理論中最重要的一個公式,是貝葉斯學(xué)習(xí)方法的理論基礎(chǔ),它將事件的先驗概率與后驗概率巧妙地聯(lián)系起來,利用先驗知識和統(tǒng)計現(xiàn)有數(shù)據(jù),使用概率的方法來確定某一事件的后驗概率010203050406定義4.1:一個隨機試驗E所有可能的結(jié)果構(gòu)成的集合稱為該隨機試驗E樣本空間,記為S。樣本空間的元素,即E的每個結(jié)果,稱為樣本點。試驗E的樣本空間S的子集為E的隨機事件,簡稱為事件定義4.2:設(shè)E是隨機事件,S是它的樣本空間。對于E的每一事件A賦予一個實數(shù),記為P(A),稱為事件A發(fā)生的概率定義4.3:設(shè)A,B是兩個事件,且P(A)>0,則稱P(B|A)=P(AB)/P(A)(4.1)為在事件A發(fā)生的條件下事件B發(fā)生的條件概率。公式4.1稱為條件概率公式NEXT在條件概率基礎(chǔ)上可建立貝葉斯公式定理:設(shè)試驗E的樣本空間為S,A為E的事件,Bl,B2,...,Bn為S的一個劃分,且P(Ai)>0,P(Bi)>0(i=1,2,...,n),則nP(Bi|A)=P(A|Bi)P(Bi)/∑P(A|Bj)P(Bj)i=1,2,...,n(4.2)j=1公式4.2稱為貝葉斯(Beyes)公式這里,P(Bi)為先驗概率,P(Bi|A)為后驗概率,即由結(jié)果追溯原因先驗概率是指根據(jù)歷史的資料或主觀判斷所確定的各種事件發(fā)生的概率,該概率沒能經(jīng)過實驗證實,屬于檢驗前的概率,稱之為先驗概率后驗概率一般是指利用貝葉斯公式,結(jié)合調(diào)查等方式獲取了新的附加信息,對先驗概率進行修正后得到的更符合實際的概率貝葉斯公式是貝葉斯理論的基石,它主要用于在已知事件A發(fā)生的條件下,來判斷A是伴隨著Bl,B2,...,Bn中哪個事件發(fā)生的情況下而發(fā)生的,即要求知道A發(fā)生的條件下某個原因Bi的概率,這就是條件概率P(Bi|A),所以這個公式又稱為原因概率公式垃圾郵件過濾系統(tǒng)的實現(xiàn)樸素貝葉斯分類(NBC)是以貝葉斯定理為基礎(chǔ)并且假設(shè)特征條件之間相互獨立的方法,先通過已給定的訓(xùn)練集,以特征詞之間獨立作為前提假設(shè),學(xué)習(xí)從輸入到輸出的聯(lián)合概率分布,再基于學(xué)習(xí)到的模型,輸入X求出使得后驗概率最大的輸出Y(1)收集數(shù)據(jù):提供文本文件(2)準(zhǔn)備數(shù)據(jù):將文本文件解析成詞條向量(3)分析數(shù)據(jù):檢查詞條確保解析的正確性(4)訓(xùn)練算法:計算不同的獨立特征的條件概率(5)測試算法:計算錯誤率基于樸素貝葉斯實現(xiàn)垃圾郵件過濾(6)使用算法:構(gòu)建一個完整的程序?qū)σ唤M文檔進行分類垃圾郵件過濾實驗(一)、準(zhǔn)備收集好的數(shù)據(jù)集,并下載到本地文件夾基于樸素貝葉斯實現(xiàn)垃圾郵件過濾ham文件夾下的文件為正常郵件,里面共有25封txt格式按數(shù)字命名順序排列的正常郵件,正常郵件內(nèi)容如下圖所示基于樸素貝葉斯實現(xiàn)垃圾郵件過濾spam文件下的txt文件為垃圾郵件,里面有25封txt格式按數(shù)字命名順序排列的垃圾郵件,垃圾郵件內(nèi)容如下圖所示基于樸素貝葉斯實現(xiàn)垃圾郵件過濾(二)、樸素貝葉斯分類器訓(xùn)練函數(shù)參數(shù)trainMatrix-訓(xùn)練文檔矩陣,即setOfWords2Vec返回的returnVec構(gòu)成的矩陣trainCategory-訓(xùn)練類別標(biāo)簽向量,即loadDataSet返回的classVec基于樸素貝葉斯實現(xiàn)垃圾郵件過濾返回值p0Vect-正常郵件類的條件概率數(shù)組p1Vect-垃圾郵件類的條件概率數(shù)組pAbusive-文檔屬于垃圾郵件類的概率(三)、樸素貝葉斯分類器訓(xùn)分類函數(shù)參數(shù)vec2Classify-待分類的詞條數(shù)組p0Vec-正常郵件類的條件概率數(shù)組p1Vec-垃圾郵件類的條件概率數(shù)組基于樸素貝葉斯實現(xiàn)垃圾郵件過濾pClass1-文檔屬于垃圾郵件的概率返回值0-屬于正常郵件類1-屬于垃圾郵件類基于樸素貝葉斯實現(xiàn)垃圾郵件過濾(1)、測試樸素貝葉斯分類器,使用樸素貝葉斯進行交叉驗證基于樸素貝葉斯實現(xiàn)垃圾郵件過濾3.2實驗結(jié)果與分析基于樸素貝葉斯實現(xiàn)垃圾郵件過濾測試結(jié)果截圖可以看到,實驗結(jié)果平均錯誤率為10%左右樸素貝葉斯優(yōu)缺點123優(yōu)點:在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題缺點:對于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感,由于樸素貝葉斯的"特征條件獨立"特點,所以會帶來一些準(zhǔn)確率上的損失注意:使用拉普拉斯平滑解決零概率問題;對乘積結(jié)果取自然對數(shù)避免下溢出問題,采用自然對數(shù)進行處理不會有任何損失基于樸素貝葉斯實現(xiàn)垃圾郵件過濾總結(jié)電子郵件已成為人們生活中較為普及的通信手段,為了能帶給人們更多的方便,郵件系統(tǒng)的安全性和可靠性就成為了大家關(guān)注的焦點,尤其是垃圾郵件日趨泛濫的問題更值得我們?nèi)ネ咨频奶幚砗徒鉀Q本文首先對垃圾郵件的特征、危害性、發(fā)展的現(xiàn)狀及目前常用的反垃圾郵件手段作了介紹,總結(jié)分析了傳統(tǒng)郵件過濾技術(shù)的特點及各自的不足之處在此基礎(chǔ)上,本文主要通過對貝葉斯算法與樸素貝葉斯算法原理進行了解,更好地利用樸素貝葉斯算來對垃圾郵件過濾進行實驗與討論實驗數(shù)據(jù)表明,本文研究的垃圾郵件過濾方法能較好地完成郵件的分類,取

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論