




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、垃圾郵件過濾系統(tǒng)垃圾郵件過濾系統(tǒng) 1、什么是垃圾郵件?垃圾郵件過濾 2、什么是過濾?如何過濾?垃圾郵件的定義垃圾郵件的定義 垃圾郵件是指向未主動請求的用戶發(fā)送的電子郵件如廣告、刊物或其他資料;或沒有明確的退信方法、發(fā)信人、回信地址等的郵件;或者利用網(wǎng)絡從事違反網(wǎng)絡服務供應商的安全策略或服務條款的行為和其他預計會導致投訴的郵件。垃圾郵件的防范垃圾郵件的防范 現(xiàn)在,采用的反垃圾郵件技術主要從三個方面來防范垃圾郵件:郵件發(fā)送方、郵件傳輸過程、郵件接收方。采用的主要技術有: 1、郵件服務系統(tǒng)的安全加固:主要措施有增強郵件服務器 的安全性、提供郵件服務安全身份認證、添加反垃圾 郵件的專用設備或插件等。
2、2、郵件過濾技術。主要技術有基于規(guī)則(如IP地址、域名、 郵件地址等)和基于統(tǒng)計的過濾方式(基于郵件內(nèi)容過 濾)。 3、提高發(fā)送垃圾郵件成本,從源頭上阻止垃圾郵件的產(chǎn) 生。主要技術有電子郵票、Challenge-Response, SPE (sender policy framework)等。過濾過濾l過濾就是分類。l信息過濾(Information filtering)是一個十分廣泛的概念。有人定義信息過濾為:根據(jù)用戶的信息需求對動態(tài)數(shù)據(jù)流進行過濾,僅僅把滿足用戶需求的信息傳送給用戶,以提高獲取信息的效率。這種定義主要是著重于信息檢索方面,他們主要研究的問題在于信息的自動分類、文本文摘自動化
3、,以及Web數(shù)據(jù)的檢索等問題。信息過濾所需要解決這樣幾個問題信息過濾所需要解決這樣幾個問題1.如何獲取信息。2.信息如何進行表示。3.根據(jù)什么樣的規(guī)則和方法來處理信息。4.信息相似度如何計算。5.匹配規(guī)則的自動生成。 其中信息表示是系統(tǒng)的基礎部分,信息表示的好壞將直接影響到其他的幾個方面,因為它決定了信息處理的方法、規(guī)則的生成等。 信息過濾在文檔類信息中的應用就是將文檔內(nèi)容按照一定的表示方法如向量空間模型進行整理后,采用文本分類的方法進行信息過濾。 文本分類的算法有基于概念的文本分類算法、貝葉斯分類方法、K最近鄰接分類算法、基于語義網(wǎng)絡的概念推理網(wǎng)分類方法和向量空間法等。我們主要采用的是貝葉斯
4、分類方法。 貝葉斯分類方法貝葉斯分類方法 貝葉斯分類算法是一種廣泛應用的分類算法,應用于文本分類時,通過計算文本屬于每個類別的概率P(cj|dx),將該文本歸為概率最大的一類,計算P(cj|dx)時利用貝葉斯公式。簡單貝葉斯分類算法即Naive Bayesian,它建立在“貝葉斯假設”的基礎之上:假設所有的特征之間互相獨立。實際上,在生活中這種獨立性很難存在,但從目前的實驗結(jié)果看來,基于這個假設的簡單貝葉斯分類算法的效果很好,而且計算簡單,因此在很多場合得到適用。Graham使用使用Naive Bayesian過濾過濾垃圾郵件的理論垃圾郵件的理論 Paul Graham于2002年8月發(fā)表了一
5、篇文章:A Plan for Spam,在文章中Graham提議建立垃圾郵件和非垃圾郵件單詞的貝葉斯概率模型?;舅枷?在已知的垃圾郵件中,一些單詞出現(xiàn)的頻率較高。運用一些眾所周知的數(shù)學知識,對于每個特征,可以生成一個“垃圾郵件指示性概率” (spamminess probability)。根據(jù)郵件中所包含的一組詞,可以用另一個簡單的數(shù)學公式來確定文本郵件的“整體垃圾郵件概率”(combined probability),也稱郵件的聯(lián)合概率。算法說明算法說明之所以選擇貝葉斯算法,原因是由于該算法的優(yōu)點在于: 1、實現(xiàn)簡單; 2、貝葉斯模型能夠自我糾正。 特征概率的算法特征概率的算法 對于訓練集
6、中的一個特征w: b(w)含有特征w的垃圾郵件數(shù)量/總的垃圾郵件 的數(shù)量; g(w)含有特征w的合法郵件數(shù)量/總的合法郵件的數(shù)量;特征w概率f(w)的計算:b(w)p(w) =b(w) + g(w)(s* x) + (n* p(w)f(w) =s+n上式中:n:含特征w的郵件數(shù)量;s:一個常數(shù)參量,通常為1;x:當n0時,我們需要假設的常量,也是特征w的 概率,通常設為0.5;p(w)是Graham方法對特征概率的估計。郵件特征聯(lián)合概率的算法郵件特征聯(lián)合概率的算法 在過濾過程中,對于進入過濾的郵件,我們要根據(jù)訓練的結(jié)果和該郵件的特征表示,給該郵件一個綜合的判定值,即聯(lián)合概率。然后根據(jù)設定的閾值
7、,判定此郵件是垃圾郵件還是合法郵件。 計算方法如下:(1-)(1-)(1-)(1-)ABCNABCNABCN A,B,C,.,N代表了各個特征的在哈希表hash-spamminess中的值。當郵件特征中包含以前沒有從來沒有出現(xiàn)的特征,建議特征概率為0.4。 本垃圾郵件過濾系統(tǒng)的工作說明本垃圾郵件過濾系統(tǒng)的工作說明垃圾郵件過濾系統(tǒng)的系統(tǒng)流程圖 : 特征庫訓練器(特征提?。┻^濾器(把垃圾郵件標識出來) 郵件訓練集郵件測試集存儲過濾結(jié)果 郵件提取郵件提?。豪脤︵]件的解碼提取郵件信息,包括對測 試集郵件的提取和訓練集郵件的提取。特征提取特征提取:將由訓練集或者測試集中的郵件,進行特征提取。在訓練集中
8、,把從郵件提取的特征,按照已定的算法進行計算,再用放入特征庫中來進行儲存;在測試集中,提取郵件的特征,交給下個環(huán)節(jié)處理。 在系統(tǒng)中,郵件階段是通過對郵件的解碼獲取信息,并將郵件轉(zhuǎn)換為文本。特征提取是提取郵件的主題和郵件體中的字符串,利用token串統(tǒng)計提取出的token串中各個token出現(xiàn)的次數(shù)。模式匹配:模式匹配:接受特征提取中后的信息,根據(jù)規(guī)則數(shù)據(jù)庫中的規(guī)則,按照某種相似度計算算法計算信息與實際需求的相關性,在達到一定的閥值后,輸出過濾的結(jié)果。信息表示信息表示:提供對過濾后的郵件的瀏覽,以及對過濾效果的評價。 模式匹配階段分為兩個階段:訓練和測試。 訓練階段主要是訓練規(guī)則庫,提取spam和ham的特征;主要分三步: 解析郵件和提取特征; 建立三個哈希表:hash-good、hash-bad、 hash-spamminess; hash-good存放合法郵件中提取的特征和各特征在合法郵件中出現(xiàn)的次數(shù);hash-bad存放垃圾郵件中提取的特征和各特征在垃圾郵件中出現(xiàn)的次數(shù); 綜合考慮hash-good和hash-bad,建立各特征的垃圾郵件指示概率(spammniess probability), 存入哈希表hash-spamminess中。 測試階段是利用已訓練完成的規(guī)則庫,對郵件進行判斷。并向用戶提交結(jié)果。 其過濾過程為: 對于新的郵件,提取郵件的特征,通常是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 開式、閉式泵的工作原理和調(diào)試方法
- 交通勸導面試題及答案
- 2025年 廣西高校畢業(yè)生“三支一扶”計劃招募考試試卷附答案
- 手工香皂產(chǎn)品營銷活動
- 治未病科健康宣教課件
- 認識自己小學心理健康
- 2025年中國女士格子襯衫行業(yè)市場全景分析及前景機遇研判報告
- 學校安全教育匯報材料
- 《數(shù)智時代下的供應鏈管理:理論與實踐》課件 第二章 供應鏈管理焦點與核心理念
- 卷材車間技師培訓
- 2025年云南南方地勘工程有限公司招聘筆試參考題庫含答案解析
- 杭州市富陽區(qū)衛(wèi)健系統(tǒng)事業(yè)單位招聘筆試真題2024
- 2023-2024學年貴州省黔南州都勻市統(tǒng)編版三年級下冊期末考試語文試卷
- 2025鋼管租賃合同樣本
- 2024年福建省廈門市思明區(qū)初中畢業(yè)班適應性練習(二)地理試卷
- 醫(yī)學多學科診療制度
- 2025年行政執(zhí)法人員執(zhí)法證考試必考多選題庫及答案(共250題)
- 2024年山東夏季高中學業(yè)水平合格考歷史試卷真題(含答案詳解)
- 2023年上海高中學業(yè)水平合格性考試歷史試卷真題(含答案詳解)
- 小學教育研究方法智慧樹知到期末考試答案章節(jié)答案2024年海南師范大學
- 轉(zhuǎn)化國際食品法典(CAC)農(nóng)藥最大殘留限量標準
評論
0/150
提交評論