




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
文本分析之垃圾郵件過濾系統(tǒng)小組成員:馬力15241043郝殊宇15241033陳思宇14261031林尹棋15241040李文哲15241038李文強15241037張佳慧15241058目錄Content文本分析簡介簡要介紹文本分析的概念、如何運作、主要功能和應(yīng)用貝葉斯垃圾郵件過濾算法原理介紹貝葉斯算法背后的數(shù)學(xué)模型與公式貝葉斯垃圾郵件過濾算法的應(yīng)用案例通過實際案例展示讓大家加深對該算法的理解簡述與總結(jié)概括貝葉斯算法運作規(guī)則,展望垃圾郵件過濾功能的未來1Part文本分析簡介簡要介紹文本分析的概念、如何運作、主要功能和應(yīng)用。Part1文本分析簡介
文本分析是指對文本的表示及其特征項的選取,即對文本進行科學(xué)的抽象,建立它的數(shù)學(xué)模型,用以描述和代替文本。使計算機能夠通過對這種模型的計算和操作來實現(xiàn)對文本的識別?;靖拍钊绾芜\作Part1文本分析簡介應(yīng)用:電子郵件管理文檔管理自動問答系統(tǒng)市場研究情報收集主要功能:文本總結(jié)文本分類文本聚類關(guān)聯(lián)分析分布分析趨勢預(yù)測Part1文本分析簡介今天,我們主要介紹文本分析在垃圾郵件過濾中的應(yīng)用,介紹如何通過貝葉斯算法對垃圾郵件進行過濾。2Part貝葉斯垃圾郵件過濾算法原理介紹貝葉斯算法背后的數(shù)學(xué)模型與公式。Part2貝葉斯垃圾郵件過濾算法原理Part2貝葉斯垃圾郵件過濾算法原理√
基于多項式模型和低風(fēng)險的貝葉斯垃圾郵件處理主要是利用兩個模型,將判別出的垃圾郵件不看作是一個準(zhǔn)確事件。再進一步的判別和確定,最終得出一個準(zhǔn)確率高的答案。采用貝葉斯多項式模型來對特征項利用率進行改進,同時采用低風(fēng)險策略來對郵件進行分類。我們的理解:3Part貝葉斯垃圾郵件過濾算法的應(yīng)用案例通過實際案例展示讓大家加深對該算法的理解。Part3貝葉斯垃圾郵件過濾算法的應(yīng)用案例例如:一封含有“法輪功”字樣的垃圾郵件A
和一封含有“法律”字樣的非垃圾郵件B
根據(jù)郵件A生成hashtable_bad,該哈希表中的記錄為
法:1次
輪:1次
功:1次
計算得在本表中:
法出現(xiàn)的概率為0.3
輪出現(xiàn)的概率為0.3
功出現(xiàn)的概率為0.3
根據(jù)郵件B生成hashtable_good,該哈希表中的記錄為:
法:1
律:1
計算得在本表中:
法出現(xiàn)的概率為0.5
律出現(xiàn)的概率為0.5
綜合考慮兩個哈希表,共有四個TOKEN串:法輪功律Part3貝葉斯垃圾郵件過濾算法的應(yīng)用案例當(dāng)郵件中出現(xiàn)“法”時,該郵件為垃圾郵件的概率為:
P=0.3/(0.3+0.5)=0.375
出現(xiàn)“輪”時:
P=0.3/(0.3+0)=1
出現(xiàn)“功“時:
P=0.3/(0.3+0)=1
出現(xiàn)“律”時
P=0/(0+0.5)=0;
由此可得第三個哈希表:hashtable_probability其數(shù)據(jù)為:
法:0.375輪:1功:1律:0
當(dāng)新到一封含有“功律”的郵件時,我們可得到兩個TOKEN串,功律
查詢哈希表hashtable_probability可得
P(垃圾郵件|功)=1
P(垃圾郵件|律)=0
此時該郵件為垃圾郵件的可能性為:
P=(0*1)/[0*1+(1-0)*(1-1)]=0(ps:實際應(yīng)用時應(yīng)該不能出現(xiàn)0,否則一項為零會影響全局)
由此可推出該郵件為非垃圾郵件4Part簡述與總結(jié)概括貝葉斯算法運作規(guī)則,展望垃圾郵件過濾功能的未來Part4簡述與總結(jié)簡述:1.收集大量垃圾郵件和非垃圾郵件,建立二者數(shù)據(jù)集分類2.編碼3.計算字符串出現(xiàn)概率4.自我學(xué)習(xí)5.接收郵件+判斷Part4簡述與總結(jié)Start技術(shù)系統(tǒng)客戶端“錯糾率”依舊較高,因此,要過濾垃圾郵件,必須將兩種或以上的技術(shù)合并使用,以達到有較好的過濾效果,降低誤判率。今客戶端郵件過濾器,重點考慮用戶個性化特征
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 產(chǎn)品購銷合同的撰寫
- 工程防水補漏合同
- 專業(yè)服務(wù)網(wǎng)絡(luò)工程合同
- 劇本創(chuàng)作合作協(xié)議
- 昌寧離婚協(xié)議書
- 轉(zhuǎn)讓高科物業(yè)合同協(xié)議
- 道路環(huán)境清理合同協(xié)議
- 運動場地安全協(xié)議合同
- 郵政客服簽協(xié)議合同
- 超市自營聯(lián)營合同協(xié)議
- 中職ps期末考試試卷及答案
- 高溫下質(zhì)子交換膜燃料電池密封墊泄漏機理分析
- 光催化反應(yīng)的化學(xué)機理試題及答案
- 2025-2030年中國科技金融行業(yè)前景預(yù)測及投資戰(zhàn)略規(guī)劃研究報告
- 美育課程中的跨學(xué)科融合教學(xué)實踐
- 2024年湖北省竹溪縣事業(yè)單位公開招聘醫(yī)療衛(wèi)生崗筆試題帶答案
- 浙江省臺州市十校聯(lián)盟2024-2025學(xué)年高二下學(xué)期期中聯(lián)考技術(shù)試題(含答案)
- 2024年廣東大亞灣開發(fā)區(qū)招聘公辦學(xué)校教師筆試真題
- 四川2025年四川美術(shù)學(xué)院招聘輔導(dǎo)員筆試歷年參考題庫附帶答案詳解
- 八下勞動教育課件
- 2025年04月中國科學(xué)技術(shù)大學(xué)附屬第一醫(yī)院(安徽省立醫(yī)院)護理人員招聘213人筆試歷年專業(yè)考點(難、易錯點)附帶答案詳解
評論
0/150
提交評論