基于有監(jiān)督學(xué)習(xí)的惡意代碼特征數(shù)據(jù)集分類預(yù)測(cè)_第1頁(yè)
基于有監(jiān)督學(xué)習(xí)的惡意代碼特征數(shù)據(jù)集分類預(yù)測(cè)_第2頁(yè)
基于有監(jiān)督學(xué)習(xí)的惡意代碼特征數(shù)據(jù)集分類預(yù)測(cè)_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于有監(jiān)督學(xué)習(xí)的惡意代碼特征數(shù)據(jù)集分類預(yù)測(cè)

0惡意代碼攻擊的威脅隨著互聯(lián)網(wǎng)的快速發(fā)展,政務(wù)、電子商務(wù)、信息交流、網(wǎng)絡(luò)游戲、視頻交流等網(wǎng)絡(luò)功能得到了發(fā)展,促進(jìn)了人類社會(huì)的發(fā)展。另一方面,網(wǎng)絡(luò)惡意軟件泛濫。利用惡意程序作為主要工具的病毒產(chǎn)業(yè)鏈給互聯(lián)網(wǎng)用戶帶來(lái)了巨大的經(jīng)濟(jì)損失和精神損害。2006年國(guó)產(chǎn)病毒“熊貓燒香”從最初的破壞系統(tǒng),發(fā)展到借病毒牟取暴利,獲利數(shù)千萬(wàn);2013年,勒索軟件“密碼鎖”在兩個(gè)月之內(nèi)入侵超過(guò)23.4萬(wàn)臺(tái)windows電腦,最終黑客“獲利”2700萬(wàn)美元;2017年5月12日,WanaCrypt勒索病毒攻擊了全球74個(gè)國(guó)家,包括美國(guó)、英國(guó)、中國(guó)、西班牙、俄羅斯等,造成數(shù)十億的經(jīng)濟(jì)損失。網(wǎng)絡(luò)黑產(chǎn)的盛行促進(jìn)了惡意代碼技術(shù)的發(fā)展,特洛伊木馬、蠕蟲(chóng)、后門、邏輯炸彈等各類惡意程序?qū)映霾桓F,重則危及系統(tǒng)安全、破壞系統(tǒng)數(shù)據(jù);輕則未經(jīng)用戶許可獲取其敏感信息、曝露個(gè)人隱私。惡意代碼編寫者的技術(shù)水平越來(lái)越高,對(duì)抗殺毒軟件的新技術(shù)層出不窮,靜態(tài)分析和動(dòng)態(tài)分析都遇到了很大的挑戰(zhàn):很多惡意代碼采用壓縮、變形和多態(tài)等組合技術(shù)對(duì)抗靜態(tài)分析;采用反Hook、反調(diào)試技術(shù)、反虛擬機(jī)技術(shù)檢測(cè)自身是否運(yùn)行在虛擬分析環(huán)境中以對(duì)抗動(dòng)態(tài)分析本文研究在python大數(shù)據(jù)處理的基礎(chǔ)上,基于機(jī)器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)方法,通過(guò)分析惡意程序的靜態(tài)文件特征和動(dòng)態(tài)程序行為特征深入研究對(duì)惡意程序的高準(zhǔn)確率自動(dòng)分類,力求在不需人工判斷和干預(yù)的情況下識(shí)別惡意程序的類型,使惡意代碼分類變得更加簡(jiǎn)單、高效,可以提高反惡意代碼人員的工作效率,減少了這一環(huán)節(jié)的人力和資金的投入,從而加強(qiáng)了網(wǎng)絡(luò)安全。1基于機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)技術(shù)對(duì)于惡意代碼的檢測(cè)研究,傳統(tǒng)的做法是按照提煉的規(guī)則對(duì)病毒樣本進(jìn)行匹配檢測(cè)。但面對(duì)大數(shù)據(jù)時(shí)代惡意代碼爆炸式的增長(zhǎng)趨勢(shì),依賴人工進(jìn)行惡意代碼分析變得愈發(fā)困難。為了解決這個(gè)難點(diǎn),基于機(jī)器學(xué)習(xí)算法的惡意代碼檢測(cè)思想被提出來(lái)?;跈C(jī)器學(xué)習(xí)的檢測(cè)技術(shù)為實(shí)現(xiàn)高準(zhǔn)確率、自動(dòng)化的未知惡意代碼檢測(cè)提供了行之有效的技術(shù)途徑,逐漸成為業(yè)內(nèi)研究的熱點(diǎn)。文獻(xiàn)有監(jiān)督學(xué)習(xí)使用已知某種或某些特性的樣本作為訓(xùn)練集,建立一個(gè)數(shù)學(xué)模型,再用已建立的模型來(lái)預(yù)測(cè)未知樣本。本文研究探討基于機(jī)器學(xué)習(xí)的惡意代碼分類識(shí)別的主流技術(shù)途徑與解決方案,基于有監(jiān)督學(xué)習(xí)的多種經(jīng)典算法實(shí)現(xiàn)了一個(gè)惡意代碼分類識(shí)別模型,取得了良好的實(shí)驗(yàn)結(jié)果。2惡意程序分類檢測(cè)模型設(shè)計(jì)Scikit-learn是一個(gè)專門用于機(jī)器學(xué)習(xí)python庫(kù),它包含了分類、回歸、無(wú)監(jiān)督、數(shù)據(jù)降維、數(shù)據(jù)預(yù)處理等多個(gè)模塊和常見(jiàn)的大部分機(jī)器學(xué)習(xí)方法。TFLearn是一個(gè)在tensorflow上建立的一個(gè)模塊化的易于使用的深度學(xué)習(xí)庫(kù),它提供了基于tensorflow的高層API接口,有助于加快用戶構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò)的過(guò)程,節(jié)省冗長(zhǎng)的代碼時(shí)間。本文提出一種基于有監(jiān)督學(xué)習(xí)的惡意程序分類檢測(cè)模型,該模型在實(shí)現(xiàn)上主要使用了Scikit-learn和TFLearn兩種機(jī)器學(xué)習(xí)庫(kù),有效地提高了對(duì)惡意程序分類的檢測(cè)率。本文模型主要包括特征提取器和有監(jiān)督學(xué)習(xí)分類器兩個(gè)模塊,其中有監(jiān)督學(xué)習(xí)分類器是整個(gè)模型的核心部分(1)MarcoRamilli的MIST數(shù)據(jù)集存儲(chǔ)在JSON文件中,保存的是惡意代碼的特征文本。讀取MIST數(shù)據(jù)集后首先以單詞來(lái)單位切分文件,提取N-Gram特征,再使用TF-IDF算法進(jìn)一步處理提升算法分類性能,完成特征文本向量化(2)對(duì)其中異常數(shù)據(jù)進(jìn)行檢測(cè)與處理,例如清理丟失或錯(cuò)誤的數(shù)據(jù),添加、插入和刪除無(wú)關(guān)數(shù)據(jù)等,最后進(jìn)行數(shù)據(jù)分組和轉(zhuǎn)換,以獲得新的、有意義的新數(shù)據(jù)。對(duì)于向量化后的特征數(shù)據(jù)再使用PCA和VarianceThreshold方法進(jìn)行數(shù)據(jù)維度約簡(jiǎn)形成新的特征數(shù)據(jù)。然后按文件劃分為訓(xùn)練集數(shù)據(jù)和測(cè)試集數(shù)據(jù)。(3)本文模型的核心部分為有監(jiān)督學(xué)習(xí)分類器,基于有監(jiān)督學(xué)習(xí)的步驟,本文基于scikit-learn庫(kù)實(shí)現(xiàn)了一個(gè)通用模型(4)對(duì)于同樣的數(shù)據(jù)集,分別使用深度學(xué)習(xí)算法中的CNN算法和RNN算法進(jìn)行同樣的實(shí)驗(yàn),并一起與步驟(3)的9種模型的實(shí)驗(yàn)結(jié)果進(jìn)行比較3結(jié)果分析實(shí)驗(yàn)部分包括實(shí)驗(yàn)環(huán)境與數(shù)據(jù)、實(shí)驗(yàn)過(guò)程與結(jié)果分析兩部分內(nèi)容。3.1數(shù)據(jù)集與模型本文以WindowsServer下的Anaconda作為實(shí)驗(yàn)平臺(tái),使用MarcoRamilli的MIST數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集。MIST主要使用CWSandbox來(lái)分析大量的惡意程序,提取靜態(tài)的文件特征和動(dòng)態(tài)的程序行為特征。MIST目前包含的惡意程序主要分為APT1、Cryto、Locker、Zeus4類。MIST數(shù)據(jù)集各類型數(shù)據(jù)如表1所示。本文模型采用機(jī)器學(xué)習(xí)領(lǐng)域常用精確率、召回率、F1-Score等三項(xiàng)指標(biāo)來(lái)評(píng)估本文實(shí)驗(yàn)?zāi)P汀T跈C(jī)器學(xué)習(xí)領(lǐng)域,混淆矩陣是可視化工具,特別用于有監(jiān)督學(xué)習(xí),此三種指標(biāo)用混淆矩陣來(lái)解釋3.2實(shí)驗(yàn)結(jié)果分析本文模型在某大學(xué)校園網(wǎng)環(huán)境中一臺(tái)WindowsServer服務(wù)器上進(jìn)行實(shí)驗(yàn)測(cè)試。實(shí)驗(yàn)過(guò)程中對(duì)本文模型提出的有監(jiān)督學(xué)習(xí)分類模型進(jìn)行測(cè)試,并將實(shí)驗(yàn)結(jié)果分別與CNN和RNN兩種深度學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn)結(jié)果對(duì)比,如圖2和圖3所示。由圖可知,本文采用的多種有監(jiān)督學(xué)習(xí)方法比采用CNN算法和RNN算法的深度學(xué)習(xí)模型的分類效果都要好:針對(duì)本實(shí)驗(yàn)數(shù)據(jù),在9種模型中,比較好的實(shí)驗(yàn)結(jié)果是LogisticRegression算法、SVM算法和MLP算法。因?yàn)閿?shù)據(jù)集小的原因,兩種深度學(xué)習(xí)模型實(shí)驗(yàn)結(jié)果并不好,大大劣于9種有監(jiān)督學(xué)習(xí)算法。4惡意代碼分類模型在當(dāng)前網(wǎng)絡(luò)黑產(chǎn)導(dǎo)致惡意程序大爆發(fā)的背景下,本文提出一種基于有監(jiān)督學(xué)習(xí)的惡意程序分類檢測(cè)模型,模型使用自然語(yǔ)言處理N-Gram模型和TF-IDF算法進(jìn)行惡意代碼向量化,使用PCA等方法對(duì)數(shù)據(jù)進(jìn)行降維,基于多種有監(jiān)督學(xué)習(xí)算法實(shí)現(xiàn)了惡意代碼分類模型,并采用Python多進(jìn)程技術(shù)提高了模型運(yùn)行效率。實(shí)驗(yàn)結(jié)果表明,針對(duì)小數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論