版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
31.1研究背景及意義 31.2國內(nèi)外研究現(xiàn)狀 31.3研究思路 4 52.1垃圾短信的定義 52.2垃圾短信的特征 52.3垃圾短信帶來的危害 5 73.1貝葉斯公式的原理 73.2貝葉斯算法的介紹 83.2.1PG貝葉斯算法 3.2.2GR貝葉斯算法 83.2.3樸素貝葉斯算法 93.3樸素貝葉斯算法優(yōu)缺點 3.3.1樸素貝葉斯算法的優(yōu)點 3.3.2貝葉斯分類方法的缺點 4.1.1開發(fā)環(huán)境介紹 4.1.2相關(guān)模塊介紹 4.2數(shù)據(jù)獲取 4.3數(shù)據(jù)處理 4.4提取特征構(gòu)建模型 4.4.1數(shù)據(jù)集劃分 4.4.2特征值提取 4.4.3樸素貝葉斯的實現(xiàn) 4.5垃圾短信過濾器的實現(xiàn) 20 5.1模型評價 22 23 24第1章緒論信收發(fā)量的背后催存在量灰色垃圾短信,2013年時垃圾短信一度占據(jù)當(dāng)時國內(nèi)逐步由明面轉(zhuǎn)換為地下,不過垃圾短信不僅沒有被抑制甚至一度煥發(fā)第二春(方現(xiàn)狀的根本原因,如果不能遏制這種趨勢,未來垃圾短圾短信占到了所有垃圾短信的20%,這使得日本從2004年開始就投入大量資金圾短信情況也不容樂觀,德國在2004年就垃圾短信出臺了相關(guān)法案,法案規(guī)定商業(yè)短信的發(fā)送需要用戶授權(quán),未經(jīng)授權(quán)將會收到嚴(yán)厲的法律制裁。法案還指出禁止發(fā)送法西斯相關(guān)內(nèi)容和黃色暴力內(nèi)容(李博,王浩淼,2022)。德國政府還向群眾宣傳相關(guān)法律法規(guī),對于濫發(fā)短信者追溯到個人,處以約50萬人民幣的罰款,對于發(fā)送不良短信者將處以更高的罰款(張偉明,陳靜嫻,2020)。美國作為科技強(qiáng)國,針對垃圾短信曾花費數(shù)十億美金研發(fā)新的反垃圾軟件,這一舉措一度使垃圾短信攔截成為炙手可熱的市場,同時美國政府也在1991年頒布電話消費者保護(hù)目前我國在垃圾短信方面的法律法規(guī)還不夠完善,不過目前垃圾短信問題已經(jīng)引起國家的關(guān)注,國務(wù)院信息辦針對國內(nèi)垃圾短信現(xiàn)狀已經(jīng)開始相關(guān)研究擇機(jī)頒布《個人信息保護(hù)法》,《個人信息保護(hù)法》的頒布將會保障個人信息權(quán)益,根據(jù)這種情形對垃圾短信等侵犯個人權(quán)益的行為提供法律依據(jù)。接下來如何識別本文基于短信文本內(nèi)容,將文本內(nèi)容進(jìn)行預(yù)處理→文本分詞→提取特征值→建立模型→最終結(jié)果,通過以往經(jīng)驗樸素貝葉斯算法建立的識別模型,能準(zhǔn)確地識別出垃圾短信,以完成對圾短信的識別問題。本文基于此方法的研究主要思想如下:去重去重最終結(jié)果去除空格去除空值第2章垃圾短信概述(2)端口號太過完美,如666666,以10086、95588等號碼結(jié)尾。(3)回復(fù)0000無法發(fā)送,說明發(fā)送方為偽基站。(4)帶有網(wǎng)址或鏈接,用戶一但點擊鏈接輕則泄露個人信息,重則損失功發(fā)送至目標(biāo)用戶,發(fā)送方往往會加大發(fā)送的力度。(6)短時間內(nèi)收到大量短信,偽基站的發(fā)送往往是短時間內(nèi)發(fā)送大量的短信(7)1065和1069號段,該號段為運營商自營號段,往往是垃圾短信重災(zāi)區(qū)2.3垃圾短信帶來的危害1、人民不愿意相信短信,垃圾短信的爆發(fā)大大超出了人們的預(yù)期,日常生活中垃圾短信比例遠(yuǎn)高于正常短信。2、傳播病毒,垃圾短信如果附帶下載鏈接等網(wǎng)址,通常都是網(wǎng)絡(luò)病毒,這些病毒被黑客利用,攻擊手機(jī),造成嚴(yán)重的危害(朱家輝,許美琳,3、泄露個人信息,垃圾短信往往采取欺瞞,誘導(dǎo)等方式,獲取用戶的相關(guān)4、新冠疫情期間一些別有用心的人利用短信傳播謠言,給人民群眾造成巨大恐懼。5、許多違法犯罪分子,利用短信傳播黃色暴力信息,危害青少年心理健康;6、浪費時間,通常來說垃圾短信發(fā)送方多為商家,目的是推廣自己的產(chǎn)品,而用戶處理這些垃圾短信需要花費大量的時間。7、運營商效率低下,大量的垃圾短信占用了許多通訊線路,運營商需要更高的服務(wù)器滿足正常短信通訊。8、他國間諜發(fā)布編造各種不實謠言,誘導(dǎo)群眾對國家不信任,破壞社會穩(wěn)第3章貝葉斯算法3.1貝葉斯公式的原理一般條件下,事件A在事件B發(fā)生的條件下的概率,與事件B在事件A發(fā)生的條件下的概率是不同的;而現(xiàn)實生活中往往我們只知道事件A在事件B發(fā)生的條件下的概率而不知道事件B在事件A發(fā)生的條件下的概率,從這些因素可以推測現(xiàn)實生活中一個事件的發(fā)生往往會出現(xiàn)一組數(shù)據(jù),假設(shè)數(shù)據(jù)為B?,B?,…,Bn,對任一事件A,有如下公式:貝葉斯法則是聯(lián)系隨機(jī)事件A和B的條件概率和邊緣概率橋梁。其中P(A|B)P(后驗概率)=P(標(biāo)準(zhǔn)似然估計)*P(先驗概率)(3-4)3.2貝葉斯算法的介紹濾器PaulGraham改進(jìn)了貝葉斯算法,故稱之為PG貝葉斯算法,此結(jié)果與劉振PG貝葉斯算法基于原始數(shù)據(jù)集中各詞語在正常短信和垃圾短信中的頻率 (垃圾短信的頻率Ns和正常短信的頻率Nt),應(yīng)用聯(lián)合概率公式計算得到特征項是垃圾短信的局部概率,記為P(wi)(C?和C?為平滑參數(shù),分別取值為2和1):GR貝葉斯算法是GaryRobinson發(fā)現(xiàn)了PG貝葉斯算法的弊端提出的改進(jìn)模型,他發(fā)現(xiàn)PG貝葉斯中垃圾特征值得選取有許多不確定性,因此他使用卡法分布來計算特征值的選取,假設(shè)H代表與垃圾短信更加相似,S表示與正常短信更加相似,計算判別值I來判斷該特征值的歸屬問題,判別值I的計算方法如下(魏當(dāng)通過卡方分布計算得到的H和S值接近,計算之后I接近0.5,則該短作者對于上述結(jié)果進(jìn)行了反復(fù)校驗與比對,尤其是與同行結(jié)論進(jìn)行了細(xì)致的比對與剖析,以確保所得結(jié)果的穩(wěn)定性和可靠性。在與同行研究的對比中,作者注意到,盡管在具體成果的表述形式上可能存在些微不同,但核心結(jié)論和趨勢均保持一致,這進(jìn)一步增強(qiáng)了本研究結(jié)論的可信度。特別地,作者深入探討了與方佳佳教授在相關(guān)主題研究中的結(jié)論的異同,通過這種對比與分析,不僅深化了對研究主題的理解,也為后續(xù)研究提供了寶貴的借鑒和啟示,為研究的深化和創(chuàng)新提供3.2.3樸素貝葉斯算法樸素貝葉斯的優(yōu)勢在于算法簡單,思路簡單易于實現(xiàn)等。樸素貝葉斯算法的基礎(chǔ)是假設(shè)各特征之間相互獨立,是由P(A|B)到P(B|A)的過程,即通過數(shù)據(jù)的處理找到特征X與Y的聯(lián)合分布函數(shù)P(X,Y),然后使用公出相應(yīng)的概率。樸素貝葉斯算法的網(wǎng)絡(luò)模型如圖3.1(鄧智強(qiáng),魏欣怡,2020)。貝葉斯分類器擁有三種模型,高斯貝葉斯,伯努利貝葉斯與樸素貝葉斯,這三種模型都要求數(shù)據(jù)集中的特征間相互獨立(余哲瀚,葉慧玲,2019)。前述結(jié)果在此外,這一驗證環(huán)節(jié)也為后續(xù)研究指明了道路,即在已驗證有效的理論體系下,由于每個文本都擁有眾多的特征所以每個文本都具有n維特征向量,在此情景內(nèi)發(fā)生對于給定的類變量Ck,基于其特征屬性之間相互獨立令特征屬性為w?,W?,…,Wn,我們就可以得到伯努利算法中的條件概率P(w;ICi)的值(曾在伯努利貝葉斯算法模型中,無論詞組出現(xiàn)了多少次,無論詞組的出現(xiàn)順是相同的。所以伯努利樸素貝葉斯中只看重特征出現(xiàn)與否,出現(xiàn)權(quán)重為1,不出Bxi為1表示特征在文本中出現(xiàn),Bxi為0表示特征在文本中不出現(xiàn),則有:P(d|Ci)=i=1(BxiP(w;ICi)+(1P(d|Ci)是由特征簡單相乘,出現(xiàn)與否只是采用前式與后式的區(qū)別。若特征在文本中出現(xiàn),則乘的是P(w;ICi),不出現(xiàn),則乘的項是1-P(w;ICi)。特征項的條件概率特征項的條件概率在訓(xùn)練集上分別統(tǒng)計各類別的先驗概率和每個特征項的條件概率其次是將測試集的垃圾短信同樣進(jìn)行分詞處理后提取特征提取,將測試集中向量空間的所有類別的先驗概率和測試集中特征項的條件概率通過貝葉斯算法進(jìn)行概率計算,考慮到理論與實踐間的差異,本文進(jìn)行了深入的分析與必要的調(diào)整。為確保理論模型能更貼近實際操作,我們不僅嚴(yán)謹(jǐn)?shù)赝茖?dǎo)和驗證了理論框架,還深入實踐,通過多元化的研究方法等渠道,廣泛收集了行業(yè)內(nèi)的第一手資料。這些實踐數(shù)據(jù)幫助我們識別并理解理論模型在實際應(yīng)用中可能面臨的挑戰(zhàn)與偏并據(jù)此修正和完善了當(dāng)前成果,提高了其預(yù)測準(zhǔn)確性和實用性,確保了研究結(jié)果的可靠性和泛化性。通過這些綜合考量,本文不僅加深了對研究主題的理解,也為相關(guān)領(lǐng)域的研究者和從業(yè)者提供了更具操作性和指導(dǎo)意義的理論支撐和實踐參考。最終綜合判定是否屬于垃圾短信(石澤凱,韓雅琴,2019)。如圖3.3:特征空間特征空間特征項的條件概率類別的先驗概率各類別的先驗概率和垃圾短信文本向量化3.3.1樸素貝葉斯算法的優(yōu)點樸素貝葉斯算法在基于文本內(nèi)容的分類上,具有不可撼動的地位,使用樸素貝葉斯算法進(jìn)行文本分類工作也是目前國際趨勢(章思遠(yuǎn),林玉潔,2022):(1)構(gòu)建簡易,樸素貝葉斯算法被業(yè)內(nèi)人士寵愛的原因是操作簡捷,效率較高,數(shù)據(jù)集只需要滿足離散和數(shù)據(jù)量足夠大,模型會有較高的準(zhǔn)確率。(2)錯誤率較低,樸素貝葉斯根據(jù)數(shù)據(jù)進(jìn)行分類,當(dāng)數(shù)據(jù)量足夠大時樸素貝葉斯會有較高的準(zhǔn)確率,長期使用樸素貝葉斯會使數(shù)據(jù)量越來越大,準(zhǔn)確率會越來越高。(3)精準(zhǔn),長期使用樸素貝葉斯會使數(shù)據(jù)標(biāo)簽更為精確集中,樸素貝葉斯對于垃圾短信的先驗概率會逐步提高,使得模型準(zhǔn)確率逐步提高。為確保研究結(jié)論的可復(fù)制性和普及性,本研究采取了多項措施,旨在加強(qiáng)研究的嚴(yán)謹(jǐn)性和普適性。從研究策劃到數(shù)據(jù)收集、解析,每一步都嚴(yán)格遵循科學(xué)方法論,力求標(biāo)準(zhǔn)化與透明化。在規(guī)劃階段,明確界定了研究目標(biāo)與變量,以保證研究的邏輯清晰與可操作性。同時,運用多種數(shù)據(jù)來源及收集手段,增加數(shù)據(jù)的多樣性和代表性,避免單一數(shù)據(jù)源可能帶來的片面性。通過詳盡的研究日志、數(shù)據(jù)收集分析流程的描述,以及清晰的研究結(jié)果可視化呈現(xiàn),有助于研究成果的廣泛傳播。(4)自定義庫,日常工作中用戶會自行標(biāo)記垃圾短信,根據(jù)這種情形樸素貝葉斯分類器可以逐步標(biāo)記垃圾短信特征值,提高垃圾短信特征值準(zhǔn)確率,不斷目前,由于樸素貝葉斯算法的流程較為簡單,模型構(gòu)建較為簡潔,準(zhǔn)確率較高,盡管樸素貝葉斯所需大量的數(shù)據(jù)庫,所以基于文本內(nèi)容的文本分類中樸素貝葉斯算法依然是主流算法之一。3.3.2貝葉斯分類方法的缺點(1)樸素貝葉斯分類器目前大范圍使用在英文文本中,基于中文文本內(nèi)容的樸素貝葉斯分類器并沒有大規(guī)模使用,原因在于中文文本分詞與英文文本分詞相比難度更大,準(zhǔn)確率也沒有英文分詞高,從這些因素可以推測在引用jieba分詞后,還需手動添加停用詞,自定義字典使得工作量增加,程序更加冗雜(林偉(2)樸素貝葉斯的準(zhǔn)確率來自于原始數(shù)據(jù)庫的大小,所以一款好的樸素貝葉斯分類器需要龐大的數(shù)據(jù)庫,但樸素貝葉斯算法不能實時更新數(shù)據(jù)庫,這會導(dǎo)致先驗概率失準(zhǔn),當(dāng)系統(tǒng)將d∈Ck誤判為Ck的情況,在用戶識別后系統(tǒng)通過學(xué)習(xí)只是將短信向量d在不同的類別中進(jìn)行簡單地增減,而并不能保障P(Ck|d)>P(Ck|d);這樣將導(dǎo)致調(diào)整后的系統(tǒng)在下次遇到與d具有相同新特性的短信時仍然(3)容錯率較低,由于用戶自行標(biāo)記垃圾短信會出現(xiàn)誤標(biāo)等不當(dāng)操作行為,樸素貝葉斯會錯誤的標(biāo)記垃圾短信,影響用戶正常收發(fā)合法短信,會對用戶產(chǎn)生相應(yīng)的損失,降低系統(tǒng)的實用性。(4)儲存空間大,數(shù)據(jù)量的龐大與否決定了樸素貝葉斯算法分類的精準(zhǔn)度,數(shù)據(jù)量越大,分類準(zhǔn)確率越高,龐大的數(shù)據(jù)集會影響服務(wù)器效率,提高程序的復(fù)雜程度,數(shù)據(jù)處理速度也會大幅度降低,影響使用。第4章模型的設(shè)計與實現(xiàn)本文使用的是Anaconda3編輯器進(jìn)行編程,Anaconda3是基于jupyternotebook的編輯器,它是一款方便python設(shè)計的軟件,自帶python與豐富的第究與其結(jié)論的一致性表明了所采用的研究方法和數(shù)據(jù)分析手段在探索類似問題找尋最短路徑切割句子。在不同的分詞模式下有著不同的效果,分詞模式分為其中Precisemode為準(zhǔn)確模式,從中不難發(fā)現(xiàn)一般適Fullmode為全模式,是速度最快的模式,可以將整句所有可能都給出,但paddlemode為漿模式也稱為攪拌模式,他是利用paddle機(jī)器學(xué)習(xí)模塊,使jieba分詞器除了上述幾種模式外還可以添加自定義詞典,當(dāng)jieba分詞結(jié)果行分詞。盡管jieba分詞自建庫在不斷更新,在這種情況里展開但自己添加詞典Pandas和Matplotlib構(gòu)造,其中的接口簡單方便,是機(jī)器學(xué)習(xí)中非Scikit-Learn采取監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩種,此處本文采取監(jiān)督學(xué)習(xí)。Scikit-Learn庫中還有預(yù)處理,回歸,聚類,分類,降維,模型選擇六大模塊。Scikit-Learn大部分函數(shù)可以分為轉(zhuǎn)換器與估計器,通過轉(zhuǎn)換器一步步將初始數(shù)據(jù)轉(zhuǎn)換為模型需要的數(shù)據(jù),最終通過估計器輸出(方建平,楊柳青,2021)。估計器的作用是預(yù)測評分或者進(jìn)行回歸分析,估計器也是模型的一種。基本上估計器都會有以下幾個方法:傳入數(shù)據(jù)以及標(biāo)簽即可訓(xùn)練模型,訓(xùn)練的時間用于對模型的正確率進(jìn)行評分(范圍0-1)。但由于對在不同的問題下,評判模型優(yōu)劣的的標(biāo)準(zhǔn)不限于簡單的正確率,可能還包括召回率或者是查準(zhǔn)率等其他的指標(biāo),特別是對于并不能很好的評估模型的優(yōu)劣,因此在對模型進(jìn)行評估時,不要輕易的被score的得分蒙蔽。為numpy數(shù)組。我們通常使用這個方法轉(zhuǎn)化器(Transformer)用于對數(shù)據(jù)的處理,例如分詞處理,特征提取,數(shù)據(jù)集劃分等,其用法與估計器用法一致。fittransform(x,y)該方法在計算出數(shù)據(jù)變換方式之后對輸入x就地轉(zhuǎn)換。以上僅僅是簡單的概括Scikit-Learn的函數(shù)的一些特點。Scikit-Learn絕大部分的函數(shù)的基本用法大概如此。但是不同的估計器會有自己不同的屬性,例如隨機(jī)森林會有Feature_importance來對衡量特征的重要性,而邏輯回歸有coef_存放將樣本分為兩類,分別用0和1表示,1為正類,表示該數(shù)據(jù)是正常短信,0為0商業(yè)秘密的秘密性那是維系其商業(yè)價值和壟斷地位的前提條件之一0帶給我們大常州一場壯觀的視覺盛宴0有原因不明的泌尿系統(tǒng)結(jié)石等023年從鹽城拉回來的麻麻的嫁妝0感到自減肥、跳減肥健美操、1感謝致電杭州蕭山全金釜韓國燒烤店,本店位于金城路xxx號。韓式燒0這款UVe智能殺菌機(jī)器人是掃地機(jī)的最佳伴侶1一次價值xxx元王牌項目;可充值xxx元店內(nèi)項目卡一張;可以參與V動0此類皮膚特別容易招惹粉刺、黑頭等0烏蘭察布豐鎮(zhèn)市法院成立愛心救助基金—(長期誠信在本市作各類資格職稱(以及印/章、牌、……等。祥:xx■《依林美容》三.八.女人節(jié)傾情大放送活動開始啦!!!!超值套餐00商業(yè)秘密的秘密性那是維系其商業(yè)價值和壟斷地位的前提條件之一10帶給我們大常州一場壯觀的視覺盛宴203023年從鹽城拉回來的麻麻的嫁妝40感到自減肥、跳減肥健美操、51感謝致電杭州蕭山全金釜韓國燒烤店,本店位于金城路xxx號。韓式燒烤等,價格實惠、歡迎惠顧【全…60這款UVe智能殺菌機(jī)器人是掃地機(jī)的最佳伴侶71一次價值xXX元土牌項目;可充值xxx元店內(nèi)項目卡一張;可以參與V動好生活白分白抽獎機(jī)會一89使用jieba分詞自動將中文語句切分為中文詞語,切分效果如圖4-3分詞之前:"將汽車工程和建筑設(shè)計完美融為一分詞之前:"將汽車工程和建筑設(shè)計完美融為一體"中文分詞分詞結(jié)果:"將""汽車""工程""和""建筑""設(shè)計""完美""融為一體"所以我們分詞要盡量將這些無意義詞剔除,在這場景里在jieba分詞中這種行為"家長您好:旗幟數(shù)學(xué)本若提高學(xué)生成績的宗旨,新學(xué)期開課啦。招生電話:地址:五完小西十""家長""您好""旗幟""數(shù)學(xué)""本著""提高""學(xué)生""成績""的""宗旨""新""學(xué)期""開課"“啦”"招生""電話""地址""五""完小""西""十""家長""您好""旗幟""數(shù)學(xué)""提高"學(xué)生""成績""宗旨”“新""學(xué)期""開課"“招生""電話""地址""五""完小""西""十"4.4提取特征構(gòu)建模型4.4.1數(shù)據(jù)集劃分train_test_split分?jǐn)?shù)、交叉驗證分?jǐn)?shù)、model_selection.gridsearch網(wǎng)格搜索和交叉數(shù),相關(guān)代碼見附錄,StratifiedKFold拆分函數(shù)屬于分層的K折交叉驗證。該結(jié)果與預(yù)期一致,且與前輩構(gòu)建的成熟架構(gòu)基本吻合,本文不僅驗證了階段性研究成果的實效性,還進(jìn)一步穩(wěn)固了該領(lǐng)域的理論根基。這一發(fā)現(xiàn)為本文的基礎(chǔ)研究提供了強(qiáng)有力的實證依據(jù),也彰顯了已有理論框架的廣泛適用性和穩(wěn)定性。通過對比分析,當(dāng)前研究中的數(shù)據(jù)點與先前文獻(xiàn)的關(guān)鍵結(jié)論相呼應(yīng),加深了本文對該領(lǐng)域內(nèi)在機(jī)理的理解,為后續(xù)研究者在此基礎(chǔ)上進(jìn)行更深入的挖掘和創(chuàng)新打開了大門。此外,結(jié)果的一致性還意味著本文在方法論上的選擇是恰當(dāng)?shù)?,為后續(xù)類似方法的研究樹立了典范。StratifiedKFold是由KFold交叉驗證變化而來,根據(jù)標(biāo)簽將原始數(shù)據(jù)分為訓(xùn)練集和測試集,得到的訓(xùn)練集與數(shù)據(jù)集再數(shù)據(jù)構(gòu)成上一致。將全部訓(xùn)練集S分成K個不相交的子集,也就是K折交叉驗證器會把樣本數(shù)據(jù)隨機(jī)的平均分成K份,每次隨機(jī)的選擇K-1份作為訓(xùn)練集,在此情景內(nèi)發(fā)生剩下的1份做測試集,本文令K=5,也就是80%數(shù)據(jù)集為訓(xùn)練集20%數(shù)據(jù)集為測試集(任澤凱,吳雅琴,2023)。當(dāng)這一輪完成后,重新隨機(jī)選擇K-1份來訓(xùn)練數(shù)據(jù)。若干輪(小于K)之后,測試集與訓(xùn)練集隨機(jī)互換,依然選擇其中K組為測試集,其余的K-1組子集數(shù)據(jù)作為訓(xùn)練集,所以一般分成K份就這樣會得到K組模型,最終輸出這K個模型的K各分?jǐn)?shù),處在這個局面下對于這K各分?jǐn)?shù)取平均值為最終分類器得分。4.4.2特征值提取對文本內(nèi)容進(jìn)行特征值提取,當(dāng)垃圾短信的數(shù)據(jù)量太大,文本信息過多時,提取特征值可以排除一些負(fù)面特征的干擾,還會是訓(xùn)練速度加快。TF-IDF(TermFrequency-InverseDocumentFrequency,詞頻-逆文件頻率)是一種常用的加權(quán)技術(shù),TF是指詞頻,通俗的說就是當(dāng)一個詞語在語句中出現(xiàn)的頻率越多,在全部的語句中出現(xiàn)的頻率越少,其權(quán)重越高就越能代表該句。其計算公式如下(洪思IDF是逆向文件頻率(inversedocumentfrequency),IDF反應(yīng)了一個詞在所有文本中出現(xiàn)的頻率,如果一個詞在很多的文本中出現(xiàn),那么它的IDF值應(yīng)該低,比如“感謝”在文本中出現(xiàn)頻率也很高,但這個詞并不重要,這樣就引入了IDF,IDF值越低表明這個值越重要,IDF值越大說明這個詞在所有語句中出現(xiàn)的頻率越高,其特征值越不重要。其計算公式如下。有了這些知識,我們即可調(diào)用sklearn中的結(jié)果根據(jù)詞條出現(xiàn)的頻率提取出特征值,根據(jù)這種情形融入Pipelin中,相關(guān)4.4.3樸素貝葉斯的實現(xiàn)由于樸素貝葉斯算法的簡潔性,sklearn-learn庫中就包含了三種樸素貝葉斯分類器,高斯貝葉斯分類器GaussianNB,伯努利貝葉斯分類器BernoulliNB以及多項式貝葉斯分類器MultinomialNB,相對于其他的機(jī)器學(xué)習(xí),樸素貝葉斯分類器的參數(shù),算法都較為簡單,易于學(xué)習(xí)掌握(夏家輝,許美琳,2020)。樸素貝葉斯算法不同他們的適用條件也不同,GaussianNB適用于樣本特征為連續(xù)型,且服從正態(tài)分布,MultinomialNB適用于樣本特征為多元離散型,BernoulliNB適用于樣本特征值為二元離散型或較少的多元離散型,特征值只有存在或不存在。垃圾短信特征較多,根據(jù)現(xiàn)有背景屬于多元離散型,因此我們選擇MultinomialNB算法。關(guān)于樸素貝葉斯前文已經(jīng)介紹許多,在此不再展開介紹,主要介紹MultinomialNB。MultinomialNB假設(shè)特征的先驗概率為多項式分布,即如下式:其中P(X;=x;|Y=Ck)是第k個類別的第j維特征的第1個取值條件概率,mk是訓(xùn)練集中輸出為第k類的樣本個數(shù)。λ為一個大于0的常數(shù),常常取值為1,即拉普拉斯平滑,也可以取其他值。所以實現(xiàn)樸素貝葉斯秩序只需scikit-learn中得MultinomialNB庫,并設(shè)定alpha平滑系數(shù)的值也就是λ,默認(rèn)alpha為1.0,相關(guān)代碼見附錄。4.5垃圾短信過濾器的實現(xiàn)機(jī)器學(xué)習(xí)中,往往整體思路大致相同,例如一般的中文文本處理流程如下:(1)將原始數(shù)據(jù)進(jìn)行初步處理,將結(jié)果中文分詞。為保障上述結(jié)論的可靠性,本論文從多個層面進(jìn)行了深入的探討與核實。我們采用了多種渠道的高質(zhì)量數(shù)據(jù),并通過嚴(yán)格的篩選與整理步驟,確保了數(shù)據(jù)的準(zhǔn)確性與信賴度。這些數(shù)據(jù)涉及多種變量和影響因素,為研究的綜合分析提供了穩(wěn)固的基礎(chǔ)。在研究方法方面,本文運用了多種先進(jìn)的統(tǒng)計與分析技術(shù),旨在全面且公正地評估所研究的問題,從不同角度揭示數(shù)據(jù)所隱藏的規(guī)律和關(guān)系。通過綜合這些方法,我們得以更深入地理解所研究現(xiàn)象的本質(zhì)機(jī)理。(2)將中文分詞結(jié)果提取特征值。(3)用特征值特征向量訓(xùn)練模型。此處采用scikit-learn庫中的pineline,pineline顧名思義就是一條流水線,流水線的輸入是最原始的數(shù)據(jù),輸出的是最終得結(jié)果,原始數(shù)據(jù)經(jīng)過轉(zhuǎn)換器得處理后,進(jìn)入下一個轉(zhuǎn)換器,最終進(jìn)入估計器輸出結(jié)果。從這些因素可以推測流水線中封裝得是所有的過程,在本文中會將特征提取和樸素貝葉斯封裝在流水線中其研究思路如圖4-4,相關(guān)代碼見附錄。邏輯回歸詞語詞語圖4-4pineline流程圖標(biāo)簽商業(yè)秘密的秘密性那是維系其商業(yè)價值和壟斷地位的前提條件商業(yè)秘密的秘密性那是維系其商業(yè)價值和壟斷地位的前提信感到自減肥、跳減肥健美操、感到自減肥、跳減肥健美操、感謝致電杭州蕭山全金鯊韓國燒烤店,本店位于金城路xx號。韓式燒烤等,惠顧【全…感謝致電杭州蕭山全金鯊韓國燒烤店,本店位于金城路xx號一次價值xx元王牌項目;可充值xx元店內(nèi)項目卡一張;可以參與V動好生一次價值xxx元王牌項目;可充值xxx元店內(nèi)項目卡一張;信5.1模型評價squares,簡稱RSS),它的定義為:預(yù)測結(jié)果0.9475-R2取值一般介于0-1之間,其數(shù)值大小反映了回歸貢獻(xiàn)的相對程度,即最常用于評價回歸模型優(yōu)劣程度的指標(biāo)。本課程設(shè)計的R2值輸出結(jié)果如下對輸出結(jié)果求平均值得到最終評分為0.9476,可以看到輸入結(jié)果較為優(yōu)異,可以得出結(jié)論本課程設(shè)計通過上述內(nèi)容的開發(fā)與學(xué)習(xí),最終得到較為理想的垃圾短信分類器,該模型也可用于其他中文文本工作。本此課程設(shè)計主要研究了基于文本內(nèi)容垃圾短信識別,使用python設(shè)計垃圾短信過濾器的開發(fā),通過機(jī)器學(xué)習(xí)和樸素貝葉斯算法的學(xué)習(xí),基本實現(xiàn)垃圾短信識別,準(zhǔn)確率在95%左右,系統(tǒng)設(shè)計關(guān)鍵在于sklearn模塊和樸素貝葉斯算法,將原始數(shù)據(jù)進(jìn)行簡單處理后進(jìn)行分詞操作,對得到的特征值進(jìn)行特征值提取,基于特征構(gòu)建樸素貝葉斯模型,最后對模型進(jìn)行評價。本論文所做的主要工作有:1.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版商場臨時場地租賃合同范本
- 2025年生物制藥原輔材料采購合同2篇
- 2025年度倉儲物流場地使用協(xié)議3篇
- 2024年股權(quán)轉(zhuǎn)讓合同書范本:上市公司股權(quán)轉(zhuǎn)讓
- 2025年度美容美發(fā)店員工績效獎金分配合同3篇
- 2025年度櫥柜設(shè)計與安裝項目委托管理合同4篇
- 二零二五年度超詳細(xì)!環(huán)保項目投資合作協(xié)議3篇
- 二零二五版門窗安裝工程監(jiān)理合同4篇
- 二零二五版杭州電子制造業(yè)勞動合同匯編3篇
- 2025年度輪胎電商平臺運營合作協(xié)議4篇
- 2024年09月2024興業(yè)銀行總行崗測評筆試歷年參考題庫附帶答案詳解
- 山東省煙臺市招遠(yuǎn)市2024-2025學(xué)年九年級上學(xué)期期末考試英語(筆試)試題(含答案)
- 2025年安徽銅陵市公安局第二批輔警招聘158人歷年高頻重點提升(共500題)附帶答案詳解
- 駱駝祥子讀書筆記一至二十四章
- 急診科輸液的規(guī)律護(hù)理
- 商會年會策劃方案范例(3篇)
- 2022年公務(wù)員多省聯(lián)考《申論》真題(安徽C卷)及答案解析
- 【高考語文】2024年全國高考新課標(biāo)I卷-語文試題評講
- 大型活動保安培訓(xùn)
- 中心食堂(蔬菜類、豆制品、畜肉、禽肉類、水產(chǎn)類) 投標(biāo)方案(技術(shù)方案)
- 信息系統(tǒng)運維服務(wù)類合同6篇
評論
0/150
提交評論