一種多核集成的在線半監(jiān)督學(xué)習(xí)方法

上傳人：1*** IP屬地：廣東上傳時間：2023-10-18 格式：DOCX 頁數(shù)：8 大小：44.43KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

一種多核集成的在線半監(jiān)督學(xué)習(xí)方法

在許多實時預(yù)測問題中，傳感器和其他數(shù)據(jù)采集設(shè)備從環(huán)境中不斷收集數(shù)據(jù)，并不斷地將數(shù)據(jù)發(fā)送給學(xué)習(xí)系統(tǒng)。學(xué)習(xí)系統(tǒng)應(yīng)該根據(jù)到達的訓(xùn)練數(shù)據(jù)實時學(xué)習(xí)，并根據(jù)任意時間實時為新數(shù)據(jù)提供預(yù)測。傳統(tǒng)的機器學(xué)習(xí)方法難以滿足訓(xùn)練數(shù)據(jù)先存儲和再學(xué)習(xí)的實際需求，因此在線學(xué)習(xí)（在線學(xué)習(xí)）是處理大規(guī)模實時預(yù)測問題的方法已引起研究人員的興趣。在線學(xué)習(xí)中,每個時刻學(xué)習(xí)器都會從訓(xùn)練數(shù)據(jù)流中接收到一個訓(xùn)練樣本.通常,學(xué)習(xí)器需要首先對該樣本進行預(yù)測,然后根據(jù)該預(yù)測輸出與樣本真實標記的比對結(jié)果來確定如何更新當前模型,以期通過這種模型的順序更新方式學(xué)得泛化能力強的模型.在整個學(xué)習(xí)過程中,學(xué)習(xí)器不需要使用任何數(shù)據(jù)的分布信息,因此學(xué)習(xí)器可以不存儲或者僅存儲少量訓(xùn)練數(shù)據(jù).此外,學(xué)習(xí)過程分散在不同時刻進行,故模型更新較為迅速.這使得對于任意時刻的預(yù)測請求,學(xué)習(xí)器總可以使用最新的模型進行預(yù)測.最近已出現(xiàn)了不少針對在線學(xué)習(xí)的研究,包括采用被動-主動(passive-aggressive)方式來設(shè)計在線學(xué)習(xí)的更新方式;在RKHS(reproducingkernelhilbertspace)中進行在線學(xué)習(xí);在有限圖上進行在線學(xué)習(xí);在RKHS中導(dǎo)出更有效的更新準則.此外,在線學(xué)習(xí)的思想還被成功用于自然語言處理、互聯(lián)網(wǎng)搜索中.然而,以往對在線學(xué)習(xí)的研究均在監(jiān)督學(xué)習(xí)的框架下進行,即假設(shè)所有訓(xùn)練數(shù)據(jù)都具有標記.事實上,在真實的實時應(yīng)用中,為大規(guī)模數(shù)據(jù)流中的每個樣本都提供標記是相當困難的.很多實時系統(tǒng)全天候運行,為每個樣本提供標記意味著需要人員24小時不間斷地為所有樣本進行標記.即使能夠負擔這樣大的人力物力,在數(shù)據(jù)積累非常迅速的應(yīng)用中,也來不及為數(shù)據(jù)流中每個樣本提供標記.例如網(wǎng)絡(luò)入侵檢測中,網(wǎng)絡(luò)管理員難以迅速地判斷流經(jīng)網(wǎng)關(guān)的數(shù)據(jù)是否屬于入侵攻擊.因此,在絕大多數(shù)實際問題中,往往僅有少量的數(shù)據(jù)能夠被人工標記.如果僅利用這些少量的有標記數(shù)據(jù)進行在線學(xué)習(xí),不僅造成數(shù)據(jù)資源的浪費,而且還因沒有使用最新收集到的未標記數(shù)據(jù)更新模型而降低模型預(yù)測的時效性.因此,如果能夠自動而有效地利用數(shù)據(jù)流中未標記的樣本進行在線學(xué)習(xí),有望提高在線學(xué)習(xí)方法在實際的實時應(yīng)用中的可用性.半監(jiān)督學(xué)習(xí)是利用未標記數(shù)據(jù)學(xué)習(xí)的主流技術(shù)之一,它能夠在不加外界干預(yù)的情況下,自動地利用少量已標記數(shù)據(jù)和大量未標記數(shù)據(jù)進行學(xué)習(xí).目前半監(jiān)督學(xué)習(xí)方法大致可分為以下4類:基于生成式模型的方法、基于低密度劃分的方法、基于圖和流形正則化的方法以及基于disagreement的方法.這些方法已經(jīng)被廣泛用于自然語言處理、計算機輔助醫(yī)療診斷、互聯(lián)網(wǎng)搜索、基于內(nèi)容的圖像檢索等應(yīng)用中.由于半監(jiān)督學(xué)習(xí)方法往往需要假設(shè)數(shù)據(jù)分布與標記之間存在某種聯(lián)系,并且往往需要在所有樣本上進行全局優(yōu)化,因此并不能直接在不考慮數(shù)據(jù)分布信息且要求實時響應(yīng)的在線學(xué)習(xí)中使用.最近,Goldberg等人在在線半監(jiān)督學(xué)習(xí)方面進行了嘗試,提出了基于流形正則化的在線半監(jiān)督學(xué)習(xí)方法.但是由于流形正則化需要考慮數(shù)據(jù)分布的全局信息,因此需要利用一些特殊技術(shù)在在線學(xué)習(xí)環(huán)境下獲取數(shù)據(jù)流形的近似信息.事實上,數(shù)據(jù)分布的全局信息在在線半監(jiān)督學(xué)習(xí)中并非必需.如果能同時在線學(xué)習(xí)多個有差異的函數(shù),則可利用它們在概念層面上的相容性來幫助縮小學(xué)習(xí)的搜索空間.此時,未標記數(shù)據(jù)實際上僅提供了相容性的測試平臺.學(xué)習(xí)算法可逐個考察在未標記樣本上的相容性,并不需要利用數(shù)據(jù)的分布信息.顯然,這一做法更加符合在線學(xué)習(xí)不考慮數(shù)據(jù)分布這一特性.據(jù)此,本文提出了一種基于多核集成的在線半監(jiān)督學(xué)習(xí)方法OMike(onlinemultI-kernelensemble).該方法同時在多個核(kernel)對應(yīng)的RKHS中學(xué)習(xí)一組預(yù)測函數(shù),并使用這些函數(shù)對未標記樣本預(yù)測的一致程度來正則化在線學(xué)習(xí)的即時風(fēng)險.基于正則化后的即時風(fēng)險,借助在線凸優(yōu)化技術(shù)對其進行求解,最后使用多數(shù)投票結(jié)合所有預(yù)測函數(shù).OMike不僅不需要借助特殊方法增量式地獲取數(shù)據(jù)分布的近似信息,同時還可通過集成多個有差異函數(shù)來獲得強泛化性能.在UCI數(shù)據(jù)集上的實驗測試以及在網(wǎng)絡(luò)入侵檢測上的應(yīng)用表明,OMike方法能夠有效利用大量未標記數(shù)據(jù)提升在線學(xué)習(xí)性能.本文其余部分安排如下:第1節(jié)給出基于多核集成的在線半監(jiān)督學(xué)習(xí)方法OMike算法;第2節(jié)提供實驗結(jié)果;第3節(jié)為結(jié)束語.1在線學(xué)習(xí)性能的優(yōu)化設(shè)訓(xùn)練數(shù)據(jù)流為(x1,y1,δ1),(x2,y2,δ2),…,(xt,yt,δt),…,其中xt∈Rd為時刻tOMike接收到的d維特征向量,yt∈{+1,-1}為xt的潛在概念標記,當且僅當δt=1時該標記可見.給定V個核k1,k2,…,kV,相應(yīng)的RKHS分別為H1,H2,…,HV.OMike同時從接收到的訓(xùn)練數(shù)據(jù)流中在線地學(xué)習(xí)V個預(yù)測函數(shù)f1∈H1,…,fV∈HV.在學(xué)習(xí)過程的任意時刻,均可采用多數(shù)投票(式(1))對V個預(yù)測函數(shù)進行集成:?y=argmaxy∈{+1,-1}∑v:sign(fv(x))=y1.(1)在線學(xué)習(xí)過程中,學(xué)習(xí)器往往需要利用當前時刻T∈N接收到的訓(xùn)練樣本xT來更新現(xiàn)有模型,使其在xT上的損失降低,以期通過該方式獲得較優(yōu)的模型.事實上,如果不考慮計算和存儲開銷,也不考慮學(xué)習(xí)系統(tǒng)的實時響應(yīng),當不存在概念漂移(conceptdrift)時,在時刻T的最佳模型可通過最小化定義在訓(xùn)練集x1,x2,…,xT上的風(fēng)險函數(shù)來獲得.為了與在線學(xué)習(xí)區(qū)分,稱這種可同時利用x1,x2,…,xT學(xué)習(xí)的方式為批量學(xué)習(xí)(batchlearning).由于在線學(xué)習(xí)僅能根據(jù)當前樣本來優(yōu)化當前模型的性能,其學(xué)習(xí)效果和批量學(xué)習(xí)仍可能存在差距.為獲得較優(yōu)性能,在設(shè)計在線學(xué)習(xí)的更新準則時,應(yīng)使得在線學(xué)習(xí)在任意時刻T的效果盡可能地逼近在x1,x2,…,xT上批量學(xué)習(xí)的效果.以下部分,本文從風(fēng)險函數(shù)最小化的角度出發(fā),建立OMike的平均即時風(fēng)險(instantaneousrisk)和相應(yīng)批量學(xué)習(xí)的批量風(fēng)險(batchrisk)之間的逼近關(guān)系,并從中導(dǎo)出OMike方法的模型更新準則.類似方法已在文獻中被用于推導(dǎo)在線流形正則化方法的模型更新準則.設(shè)截止到時刻T,學(xué)習(xí)器共從數(shù)據(jù)流中接收到n個有標記樣本和m個未標記樣本,其中T=m+n.在批量模式下,基于多核集成的半監(jiān)督學(xué)習(xí)方法通過最小化定義在有標記數(shù)據(jù)和未標記數(shù)據(jù)上的批量風(fēng)險函數(shù)來進行半監(jiān)督學(xué)習(xí):R(f)=1nV∑v=1(n∑i=1l(fv(xi),yi)+12λ1∥fv∥2Η)+λ22mV∑u,v=1m∑j=1(fu(xj)-fv(xj))2?(2)其中,f=(f1,f2,…,fV),l(a,b)為損失函數(shù)(例如:HingeLoss),‖·‖2H表示在RKHS中元素的二范數(shù),λ1,λ2為正則化參數(shù).若要在線學(xué)習(xí)的最終效果和批量學(xué)習(xí)的效果一致,則在線學(xué)習(xí)過程須等效于對式(2)進行最小化.將式(2)進行改寫,可得:R(f)=1ΤΤ∑t=1Rt(f)?(3)其中,Rt(f)=ΤnV∑v=1δtl(fv(xt),yt)+12λ1V∑v=1∥fv∥2Η+λ2Τ2mV∑u,v=1m∑j=1(1-δt)(fu(xt))-fv(xt))2.(4)從式(3)可以看出,Rt(f)僅與時刻t的訓(xùn)練樣本(xt,yt,δt)相關(guān),故可視為時刻t的即時風(fēng)險函數(shù),分配到在線學(xué)習(xí)過程中的時刻t進行最小化.由于在時刻t僅有一個樣本,因此在線學(xué)習(xí)器可簡單地根據(jù)式(5)進行一步梯度下降(gradientdescent),以減小時刻t的即時風(fēng)險Rt(f),從而得到時刻t+1的預(yù)測函數(shù)ft+1.fv,t+1←fv,t-ηt?Rt(f)?fv|f=ft?(5)其中,ηt為時刻t的學(xué)習(xí)速率,且:?Rt(f)?fv=Τnδtl′(fv(xt),yt)kv(xt,?)+λ1fv+λ2Τ2mV∑u=1(1-δt)(fv(xt))-fu(xt))kv(xt,?).(6)這樣,整個在線學(xué)習(xí)過程實際上就是依照時間順序,逐一使用相應(yīng)的即時風(fēng)險函數(shù)進行一步梯度下降.該過程對應(yīng)的平均即時風(fēng)險為Rair=1ΤΤ∑t=1Rt(ft).設(shè)通過最小化式(3)所求得的最優(yōu)解為f*.將最優(yōu)解代入式(3)可以看出,其最小的風(fēng)險值和平均即時風(fēng)險仍存在差異.該差異可能導(dǎo)致OMike學(xué)得的最終預(yù)測函數(shù)與在相同數(shù)據(jù)上直接最小化式(3)所學(xué)得的預(yù)測函數(shù)存在差異,從而有可能造成性能不佳.所幸的是,由于Rt(f)(t=1,…,T)為一組凸函數(shù),根據(jù)Zinkevich對梯度下降與在線凸規(guī)劃的分析可知,當T→∞時,在Rt(f)(t=1,…,T)上順序地采用學(xué)習(xí)速率遞減的梯度下降所導(dǎo)出的平均即時風(fēng)險1ΤΤ∑t=1Rt(ft)收斂于min1ΤΤ∑t=1Rt(f*).因此,在漸進意義下,OMike采用上述梯度下降方式進行在線學(xué)習(xí)的性能與直接優(yōu)化式(3)來進行批量學(xué)習(xí)的性能相當.上述基于梯度下降的在線學(xué)習(xí)過程似乎并不需要保存任何訓(xùn)練樣本,各時刻接收到的樣本被用來計算梯度后即可丟棄.但事實上由于預(yù)測函數(shù)均定義于RKHS中,根據(jù)表示定理,預(yù)測函數(shù)表示為fv,t=Τ∑t=1αv,tkv(xi,?),因此需要保存所有的樣本點以生成用于表示fv,t的基{kv(xi,·)}ti=1.然而,在大多數(shù)大規(guī)模實時預(yù)測問題中不可能保存數(shù)據(jù)流中的所有訓(xùn)練樣本.在此,本文對其作了近似,僅緩存數(shù)據(jù)流中的s個樣本,用于表示預(yù)測函數(shù).當選取的s不是非常小時,對預(yù)測函數(shù)的近似表示所造成的截斷誤差可以控制在一個較小的范圍內(nèi).由于數(shù)據(jù)緩存大小有限,當數(shù)據(jù)緩存填滿后,需要利用新接收到的樣本替換緩存中一個舊樣本.這樣的替換直接導(dǎo)致用于表示預(yù)測函數(shù)的基發(fā)生了變化.因此,OMike的模型更新過程不應(yīng)僅簡單依照式(5)進行,還應(yīng)該設(shè)法減小由于表示預(yù)測函數(shù)的基發(fā)生變化而造成的影響.具體來說,時刻t第v個核對應(yīng)的預(yù)測函數(shù)為fv,t=t-1∑i=t-sαv,ikv(xi,·);如果不考慮緩存溢出,經(jīng)過梯度下降后對應(yīng)的預(yù)測函數(shù)應(yīng)更新為?fv,t=t∑i=t-sβv,ikv(xi,·),其中,?fv,t使用所有緩存中的舊樣本以及當前樣本所對應(yīng)的基表示,βv,i(i=t-s,…,t)通過如下基于梯度下降的更新公式求解:{βv,i←αv,i(1-ηtλ1)?i<t?βv,t←-ηt(Τnδtl′(fv(xt),yt)+λ2ΤmV∑u=1(1-δt)(fv(xt)-fu(xt)))?i=t.(7)在進入時刻t+1前,將緩存中的一個舊樣本用當前樣本進行替換,以保證數(shù)據(jù)緩存的容量不變.設(shè)時刻t+1第v個核對應(yīng)的預(yù)測函數(shù)表示為fv,t+1=t∑i=t-s+1γv,ikv(xi,·).在此,本文通過求解式(8)所示的優(yōu)化問題來尋找距離?fv,t最近的fv,t+1:minγv12∥fv,t+1-?fv,t∥2=minγv12∥t∑i=t-s+1γv?ikv(xi,?)-t∑i=t-sβv?ikv(xi,?)∥2.(8)對式(8)進行求解可得:γv=A-1vCvβv?(9)其中,Av={kv(xi,xj)}ti,j=t-s+1,Cv={kv(xi,xj)}ti=t-s+1,j=t-s,γv=(γv,t-s+1,…,γv,t)為時刻t+1表示預(yù)測函數(shù)的基的系數(shù).OMike算法流程的偽碼表示詳見算法1.算法1.OMike算法偽代碼.輸入:訓(xùn)練數(shù)據(jù)流D={(x1,y1,δ1),…,(xt,yt,δt),…};正則化參數(shù)λ1,λ2;損失函數(shù)l(a,b);視圖個數(shù)V;V個視圖的對應(yīng)的核k1,…,kV,數(shù)據(jù)緩存大小s.①初始化所有視圖的預(yù)測函數(shù)f1←0,f2←0,…,fV←0.②初始化時間計數(shù)器t←1;數(shù)據(jù)緩存B←?.③當D中有數(shù)據(jù),循環(huán)執(zhí)行步驟④～(11).④按照式(7)求解更新后的預(yù)測函數(shù)?f1,?f2,?,?fV.⑤把當前樣本xt加入數(shù)據(jù)緩存B.⑥如果|B|<s,則執(zhí)行步驟⑦.⑦采用更新后的預(yù)測函數(shù)覆蓋當前預(yù)測函數(shù)f1←f?1,?,fV←f?V.⑧否則,執(zhí)行步驟⑨～⑩.⑨從B中刪除停留時間最長的未標記樣本.⑩采用式(9)對更新后的預(yù)測函數(shù)進行修正后,覆蓋預(yù)測函數(shù)f1,f2,…,fV.(11)t←t+1.輸出:在任意時刻t,可按照式(1)中多數(shù)投票原則集成f1,f2,…,fV.2測試測試2.1未標記樣本在線監(jiān)督系統(tǒng)的分析本文選取了4個規(guī)模較大的UCI數(shù)據(jù)集進行實驗測試,以驗證OMike方法的有效性.由于OMike僅能處理數(shù)值型屬性,本文將數(shù)據(jù)集中所有列名屬性進行二值化.此外,OMike處理的是二類分類問題,對于多類別的數(shù)據(jù)集,本文從中挑選出兩個類別的樣本進行實驗.經(jīng)過預(yù)處理后的實驗數(shù)據(jù)集的相關(guān)信息如表1所示:針對每個數(shù)據(jù)集,隨機挑選75%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其余25%用做測試集.在訓(xùn)練數(shù)據(jù)中,隨機挑選10%的數(shù)據(jù)作為有標記數(shù)據(jù),其余90%作為未標記數(shù)據(jù).將所有有標記和未標記數(shù)據(jù)隨機排成數(shù)據(jù)流形式,提交給在線學(xué)習(xí)算法進行學(xué)習(xí).實驗中OMike采用3個參數(shù)不同的RBF核,對應(yīng)的RBF核參數(shù)分別設(shè)為0.5,1,2.根據(jù)文獻,為保證平均即時風(fēng)險收斂于批量風(fēng)險,梯度下降中采用的學(xué)習(xí)速率需隨時間遞減.在此,梯度下降的學(xué)習(xí)速率設(shè)為ηt=1/t.為模擬有限存儲空間,學(xué)習(xí)過程中數(shù)據(jù)緩存大小固定為s=100.當緩存被填滿后,在每個時刻需要用當前樣本去代替緩存中的一個舊樣本.直觀地說,在線學(xué)習(xí)過程中有標記數(shù)據(jù)對模型的調(diào)整作用通常比未標記樣本大,從而所攜帶的有用信息較多.因此,更新數(shù)據(jù)緩存時刪除的樣本是在緩存中停留時間最長的未標記樣本,如緩存中無未標記樣本,則刪除停留時間最長的有標記樣本.本文使用了兩種在線監(jiān)督學(xué)習(xí)方法與OMike方法進行對比,以考察未標記數(shù)據(jù)在在線學(xué)習(xí)中的效用.第1種方法為監(jiān)督的多核集成方法,簡記為OnlineL-3.該方法使用和OMike相同的3個核來構(gòu)造預(yù)測函數(shù).在學(xué)習(xí)過程中,OnlineL-3忽略數(shù)據(jù)流中所有未標記樣本,僅利用有標記樣本進行學(xué)習(xí),最終采用與OMike相同的多數(shù)投票機制進行集成.另一種方法為僅使用一個預(yù)測函數(shù)的在線監(jiān)督學(xué)習(xí)方法,簡記為OnlineL-1.該方法采用的核以及核參數(shù)與OnlineL-3中性能居中的預(yù)測函數(shù)的參數(shù)相同.與OnlineL-3相同,該方法僅使用有標記數(shù)據(jù)進行學(xué)習(xí).在實驗中,兩種監(jiān)督學(xué)習(xí)方法的參數(shù)和OMike中的參數(shù)保持一致,并采用在即時風(fēng)險函數(shù)上的梯度下降來進行在線學(xué)習(xí).不同的是,監(jiān)督學(xué)習(xí)方法的即時風(fēng)險中沒有在未標記數(shù)據(jù)上的正則化項.在實驗中,采用兩種指標來評估在線學(xué)習(xí)算法的性能.第1種指標是學(xué)習(xí)器的累積錯誤率(accumulatederrorrate),它反映了從開始在線學(xué)習(xí)到當前時刻學(xué)習(xí)器所提供實時預(yù)測的累積性能.具體計算方式如下:在時刻t學(xué)習(xí)器更新模型前,可先對該樣本的類別標記進行預(yù)測.時刻t的累積錯誤率為從學(xué)習(xí)開始到t為止的t次預(yù)測中錯誤預(yù)測所占的比例.除累積錯誤率外,實驗中還考察算法學(xué)得的最終模型在測試集上的錯誤率.為與前者區(qū)別,稱該指標為泛化錯誤率(generalizationerrorrate).在各數(shù)據(jù)集上重復(fù)25次隨機實驗,記錄3種算法的累積錯誤率及訓(xùn)練停止后學(xué)得模型的泛化錯誤率.各數(shù)據(jù)集上的平均累積錯誤率如圖1所示,其中橫軸代表訓(xùn)練時間,縱軸代表累積錯誤率.值得注意的是,在實驗中各算法使用的正則化參數(shù)均通過交叉驗證進行設(shè)置.從圖1中可以看出,除在satellite_1vs2上優(yōu)勢不明顯外,在kr-vs-kp,waveform_0vs1兩個數(shù)據(jù)集上OMike的曲線都始終位于OnlineL-1與OnlineL-3曲線的下方;在sick上經(jīng)過一定時間后,OMike的累積錯誤率也降低到OnlineL-1與OnlineL-3的曲線以下.這說明在OMike在學(xué)習(xí)過程中能夠利用兩種監(jiān)督學(xué)習(xí)方法所不能利用的未標記數(shù)據(jù)的信息,幫助自身更快地學(xué)得性能較優(yōu)的預(yù)測函數(shù),使得在隨后的訓(xùn)練過程中能夠提供比監(jiān)督學(xué)習(xí)更好的實時預(yù)測.各數(shù)據(jù)集上不同在線學(xué)習(xí)方法停止時學(xué)得的最終模型的平均泛化錯誤率如表2所示,其中最低錯誤率采用粗體標出.從表中可以看出,OMike在所有數(shù)據(jù)集上均取得最低的錯誤率.相對于不利用任何未標記數(shù)據(jù)的監(jiān)督多核集成方法OnlineL-3而言,利用未標記數(shù)據(jù)學(xué)習(xí)的OMike性能平均提升了38.3%.顯著水平為0.05的成對雙側(cè)t檢驗表明,OMike相對于OnlineL-3的所有性能提升具有顯著性.此外,對比兩種監(jiān)督在線學(xué)習(xí)方法可發(fā)現(xiàn),在kr-vs-kp和waveform_0vs1兩個數(shù)據(jù)集上采用多核集成的OnlineL-3算法學(xué)得模型的性能明顯優(yōu)于僅使用單學(xué)習(xí)器的OnlineL-1所學(xué)得模型的性能,在其余兩個數(shù)據(jù)集上二者性能相當.顯著水平為0.05的成對雙側(cè)t檢驗表明,OnlineL-3與OnlineL-1在kr-vs-kp和waveform_0vs1上存在顯著的性能差異.實驗結(jié)果表明,在線學(xué)習(xí)環(huán)境下,采用多核集成可取得比單個學(xué)習(xí)器更優(yōu)的性能.在此基礎(chǔ)上,在學(xué)習(xí)過程中對未標記數(shù)據(jù)進行有效利用,還可顯著提升多核集成的泛化性能.在實驗中,3種在線學(xué)習(xí)方法均采用數(shù)據(jù)緩存中的數(shù)據(jù)來近似表示學(xué)得的預(yù)測函數(shù).緩存大小直接影響到對預(yù)測函數(shù)的表達能力.因此,本文還進一步考察了緩存大小s對OMike算法性能的影響.在實驗中取s∈{50,100,150,200}4種不同的緩存大小,其余實驗設(shè)置保持不變.圖2中給出了在4個數(shù)據(jù)集上選擇不同緩存大小所對應(yīng)測試的錯誤率.從圖2可以清楚看出,學(xué)得模型的錯誤率隨著緩存大小的增加而降低.當s=50時,其性能明顯差于其他緩存大小.為提高性能可以增加緩存大小.然而,當緩存大小為100時,雖然繼續(xù)增加緩存可得到相對更好的性能,但是性能改善幅度相當有限.因此,緩存大小設(shè)為100,可同時兼顧性能和存儲開銷.2.2實驗結(jié)果與分析網(wǎng)絡(luò)入侵檢測在網(wǎng)絡(luò)安全中占有十分重要的地位.入侵檢測系統(tǒng)可部署在網(wǎng)關(guān)或路由器上,用于對網(wǎng)絡(luò)入侵進行實時偵測.為了適應(yīng)入侵形式的多樣性和動態(tài)性,入侵檢測系統(tǒng)需要不斷根據(jù)流經(jīng)網(wǎng)關(guān)的數(shù)據(jù)進行在線的學(xué)習(xí).由于網(wǎng)絡(luò)管理員不可能隨時監(jiān)控網(wǎng)絡(luò)并實時指出當前是否發(fā)生了網(wǎng)絡(luò)入侵,故入侵檢測系統(tǒng)從網(wǎng)關(guān)收集到的大部分數(shù)據(jù)缺少標記.所以,網(wǎng)絡(luò)入侵檢測成為一個典型的在線半監(jiān)督學(xué)習(xí)問題.為驗證本文提出的基于多核集成的在線半監(jiān)督學(xué)習(xí)方法OMike在網(wǎng)絡(luò)入侵檢測中的有效性,本文在KDD-99網(wǎng)絡(luò)入侵檢測的部分數(shù)據(jù)上進行實驗.原始數(shù)據(jù)集包含超過500萬條網(wǎng)絡(luò)連接記錄,其中包含正常的網(wǎng)絡(luò)連接以及DOS,R2L,U2R和probing四類惡意的網(wǎng)絡(luò)入侵攻擊,每條連接記錄使用TCP基本屬性、連接內(nèi)容屬性、TCP連接屬性3方面共41維屬性描述.本文實驗中針對

人人文庫> 全部分類> 專業(yè)文獻 > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

一種多核集成的在線半監(jiān)督學(xué)習(xí)方法

文檔簡介

溫馨提示

最新文檔

評論

一種多核集成的在線半監(jiān)督學(xué)習(xí)方法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔