版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、本科畢業(yè)設(shè)計(jì)(論文) BP神經(jīng)網(wǎng)絡(luò)的異常點(diǎn)檢測(cè)應(yīng)用可行性研究摘 要異常點(diǎn)數(shù)據(jù)是指數(shù)據(jù)集中與眾不同數(shù)據(jù)。這部分?jǐn)?shù)據(jù)的量小,但是對(duì)于我們的日常生產(chǎn)生活的影響極大。因此,異常點(diǎn)檢測(cè)被廣泛應(yīng)用于網(wǎng)絡(luò)入侵檢測(cè),金融保險(xiǎn),天氣預(yù)報(bào)以及新藥研制等領(lǐng)域。相對(duì)于大量的正常數(shù)據(jù)挖掘而言,異常點(diǎn)檢測(cè)被稱作小模式數(shù)據(jù)挖掘。BP算法是一種常用的數(shù)據(jù)挖掘算法。但是BP算法進(jìn)行實(shí)際數(shù)據(jù)的異常點(diǎn)數(shù)據(jù)挖掘過(guò)程中存在:實(shí)際數(shù)據(jù)的維數(shù)較高,存在冗余特征的干擾,以及在高維特征下,數(shù)據(jù)量不充分的問(wèn)題。因此,本文分析BP神經(jīng)網(wǎng)絡(luò)處理各種數(shù)據(jù)的情況,并得到以下結(jié)果。(1)BP神經(jīng)網(wǎng)絡(luò)能夠較好的分離特征單一的仿真數(shù)據(jù);但是(2)特征相似性較
2、大的數(shù)據(jù)集,難以分離判斷;(3)正常數(shù)據(jù)不充分或者不具有代表性,因此正常數(shù)據(jù)類學(xué)習(xí)不充分,從而導(dǎo)致異常無(wú)法判斷。針對(duì)以上問(wèn)題,本文提出了以下的改進(jìn)措施:(1)BP算法前進(jìn)行特征約簡(jiǎn)(映射)從中選取有益于異常檢測(cè)的特征(2)多神經(jīng)網(wǎng)絡(luò)融合,不同神經(jīng)網(wǎng)絡(luò)識(shí)別不同的特征,相互取長(zhǎng)補(bǔ)短,融合后得到最終的結(jié)果。關(guān)鍵字:異常,BP,異常點(diǎn)檢測(cè),神經(jīng)網(wǎng)絡(luò)注:本設(shè)計(jì)(論文)題目來(lái)源于教師的國(guó)家級(jí)(或部級(jí)、省級(jí)、廳級(jí)、市級(jí)、校級(jí)、企業(yè))科研項(xiàng)目,項(xiàng)目編號(hào)為: 。AbstractOutlier data is the data set different data. This part of the small
3、amount of data, but for our daily production and life of great. Therefore, the anomaly detection is widely used in network intrusion detection, finance, insurance, weather, and new drug development and other fields. Relative to the large number of normal data mining, the anomaly detection model is c
4、alled data mining small. BP algorithm is a commonly used data mining algorithm. But the BP algorithm to real data outliers exist in the data mining process: the higher the dimension of the actual data, there are redundant features of the interference, and high-dimensional feature, the issue of inade
5、quate data. Therefore, this paper analyzes a variety of BP neural network processing of data, and to get the following results. (1) BP neural network can better separation characteristics of a single simulation data; but (2) the characteristics of similar large data sets, separation is difficult to
6、judge; (3) normal data is not sufficient or not representative, so the normal data class learning is not sufficient, leading to abnormal can not judge. To solve the above problem, this paper proposes the following improvements: (1) BP algorithm before feature reduction (map) benefit from anomaly det
7、ection features selected (2) integration of multiple neural networks, different neural network to recognize the different characteristics of each each other, the final fusion result.Key Words:Outliers-Data,BP,Algorithms,Neural Networks目 錄TOC o 1-3 h u HYPERLINK l _Toc15360 1引言 PAGEREF _Toc15360 1 HY
8、PERLINK l _Toc22533 1.1背景 PAGEREF _Toc22533 1 HYPERLINK l _Toc12713 1.2傳統(tǒng)已有異常點(diǎn)算法介紹 PAGEREF _Toc12713 1 HYPERLINK l _Toc2775 1.2.1基于統(tǒng)計(jì)學(xué)的異常點(diǎn)檢測(cè)算法 PAGEREF _Toc2775 1 HYPERLINK l _Toc16237 1.2.2基于距離的異常點(diǎn)檢測(cè)算法 PAGEREF _Toc16237 2 HYPERLINK l _Toc18933 1.2.3基于密度的算法 PAGEREF _Toc18933 3 HYPERLINK l _Toc14195 1
9、.2.4基于偏差的異常點(diǎn)檢測(cè) PAGEREF _Toc14195 5 HYPERLINK l _Toc30183 1.2.5基于聚類的異常點(diǎn)檢測(cè)算法 PAGEREF _Toc30183 6 HYPERLINK l _Toc23344 2基于屬性特征在異常點(diǎn)檢測(cè)中的研究 PAGEREF _Toc23344 7 HYPERLINK l _Toc26904 3 BP神經(jīng)網(wǎng)絡(luò)介紹 PAGEREF _Toc26904 9 HYPERLINK l _Toc26374 3.1模型簡(jiǎn)介 PAGEREF _Toc26374 9 HYPERLINK l _Toc4986 3.2計(jì)算各層節(jié)點(diǎn)輸出 PAGEREF _
10、Toc4986 9 HYPERLINK l _Toc976 3.3 修正權(quán)值 PAGEREF _Toc976 10 HYPERLINK l _Toc22633 4 異常檢測(cè)中BP神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì) PAGEREF _Toc22633 13 HYPERLINK l _Toc5568 4.1可微閾值單元 PAGEREF _Toc5568 13 HYPERLINK l _Toc26760 4.2單個(gè)BP網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì) PAGEREF _Toc26760 13 HYPERLINK l _Toc23355 4.3BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程的基本步驟 PAGEREF _Toc23355 14 HYPERLINK l
11、_Toc24494 5實(shí)驗(yàn)研究 PAGEREF _Toc24494 17 HYPERLINK l _Toc9119 5.1研究使用的數(shù)據(jù)庫(kù)介紹 PAGEREF _Toc9119 17 HYPERLINK l _Toc28449 5.2訓(xùn)練方案一實(shí)驗(yàn):把bp神經(jīng)網(wǎng)絡(luò)相似性代替距離算法相似度量 PAGEREF _Toc28449 17 HYPERLINK l _Toc25867 5.3訓(xùn)練方案二實(shí)驗(yàn):用單個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)庫(kù)整體特性進(jìn)行學(xué)習(xí) PAGEREF _Toc25867 18 HYPERLINK l _Toc24235 5.4訓(xùn)練方案三實(shí)驗(yàn):多神經(jīng)網(wǎng)絡(luò)各種形式訓(xùn)練及其決策 PAGEREF
12、_Toc24235 19 HYPERLINK l _Toc29096 5.4.1實(shí)驗(yàn)設(shè)計(jì)思路 PAGEREF _Toc29096 19 HYPERLINK l _Toc17226 5.4.2實(shí)驗(yàn)方案及步驟 PAGEREF _Toc17226 20 HYPERLINK l _Toc20487 5.4.3實(shí)驗(yàn)分析 PAGEREF _Toc20487 22 HYPERLINK l _Toc149 5.4.4實(shí)驗(yàn)失敗原因分析 PAGEREF _Toc149 23 HYPERLINK l _Toc6025 5.5BP調(diào)參實(shí)驗(yàn) PAGEREF _Toc6025 25 HYPERLINK l _Toc461
13、5 5.5.1對(duì)實(shí)驗(yàn)一調(diào)整隱層實(shí)驗(yàn) PAGEREF _Toc4615 25 HYPERLINK l _Toc30957 5.5.2對(duì)實(shí)驗(yàn)二調(diào)整隱層實(shí)驗(yàn) PAGEREF _Toc30957 26 HYPERLINK l _Toc17353 5.5.3對(duì)實(shí)驗(yàn)三調(diào)整隱層實(shí)驗(yàn) PAGEREF _Toc17353 29 HYPERLINK l _Toc7293 5.6數(shù)據(jù)仿真實(shí)驗(yàn) PAGEREF _Toc7293 31 HYPERLINK l _Toc32441 5.6.1實(shí)驗(yàn)思路 PAGEREF _Toc32441 31 HYPERLINK l _Toc2671 5.6.2實(shí)驗(yàn)步驟 PAGEREF _
14、Toc2671 31 HYPERLINK l _Toc10686 5.6.3實(shí)驗(yàn)結(jié)果 PAGEREF _Toc10686 32 HYPERLINK l _Toc14192 5.6.4結(jié)果分析 PAGEREF _Toc14192 33 HYPERLINK l _Toc29354 5.7實(shí)驗(yàn)整體分析 PAGEREF _Toc29354 33 HYPERLINK l _Toc24187 總結(jié)與展望 PAGEREF _Toc24187 35 HYPERLINK l _Toc9016 致謝 PAGEREF _Toc9016 391引言1.1背景異常點(diǎn)(離群點(diǎn)或者孤立點(diǎn))檢測(cè)是數(shù)據(jù)挖掘中一個(gè)重要方面,Ha
15、wkins1最早給出了異常點(diǎn)的本質(zhì)定義:異常點(diǎn)是數(shù)據(jù)集中與眾不同地?cái)?shù)據(jù),以至于使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生與完全不同的機(jī)制。異常點(diǎn)可能由于度量或執(zhí)行錯(cuò)誤產(chǎn)生,也可能是由于固有數(shù)據(jù)可變性的結(jié)果。例如,一個(gè)公司首席執(zhí)行官的工資自然遠(yuǎn)遠(yuǎn)高于公司其他雇員的工資,成為一個(gè)異常點(diǎn)。許多數(shù)據(jù)挖掘算法試圖減少異常點(diǎn)的對(duì)挖掘結(jié)果的影響,或者在挖掘過(guò)程中排除異常點(diǎn)。然而異常點(diǎn)可能隱藏著重要的信息,也許比一般的數(shù)據(jù)更有價(jià)值。因此人們開始逐漸研究異常點(diǎn)挖掘算法。目前異常點(diǎn)檢測(cè)已經(jīng)開始用于信用卡欺詐、網(wǎng)絡(luò)入侵檢測(cè)以及金融申請(qǐng)和交易欺詐等領(lǐng)域2,近年來(lái)異常點(diǎn)檢測(cè)已成為數(shù)據(jù)挖掘研究中的一個(gè)熱點(diǎn)問(wèn)題。傳統(tǒng)數(shù)據(jù)挖掘主
16、要有以下幾類:基于統(tǒng)計(jì)的方法,基于距離的方法,基于偏移方法,基于聚類方法,基于密度方法。本文從特征與異常檢測(cè)的關(guān)系出發(fā)進(jìn)行研究。BP神經(jīng)網(wǎng)絡(luò)適用于儲(chǔ)存和描述這種復(fù)雜的關(guān)系。但是異常檢測(cè)過(guò)程,通常數(shù)據(jù)的位數(shù)較高,在高維特征存在冗余特征干擾,以及高維特征下數(shù)據(jù)不充分的問(wèn)題,因此,本文研究了BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于不同情況。1.2傳統(tǒng)已有異常點(diǎn)算法介紹1.2.1基于統(tǒng)計(jì)學(xué)的異常點(diǎn)檢測(cè)算法早期的異常點(diǎn)檢測(cè)算法大多數(shù)是基于統(tǒng)計(jì)學(xué)實(shí)現(xiàn)的,通??梢苑譃榛诜植嫉臋z測(cè)算法和基于深度的檢測(cè)算法兩類。前者一般通過(guò)先構(gòu)造一個(gè)標(biāo)準(zhǔn)概率分布來(lái)擬合數(shù)據(jù)集,然后根據(jù)概率分布來(lái)確定異常點(diǎn),例如Rosner提出的單樣本多個(gè)異常檢測(cè)算
17、法ESD算法,和Yamnishi等使用混合高斯模型的異常點(diǎn)檢測(cè)算法。此類算法估計(jì)多維分布的概率模型的難度較大,且準(zhǔn)確性低?;谏疃确椒ㄖ饕杂?jì)算幾何為基礎(chǔ),通過(guò)計(jì)算不同層的K-D凸包將外層的對(duì)象判定為異常點(diǎn)。但當(dāng)數(shù)據(jù)集較大,此類方法在維數(shù)上的伸縮性不好。基于統(tǒng)計(jì)的異常點(diǎn)檢測(cè)方法易于理解,實(shí)現(xiàn)方便,但此方法檢測(cè)出來(lái)的異常點(diǎn)很可能被不同的分布模型檢測(cè)出來(lái),解釋異常點(diǎn)意義時(shí)經(jīng)常發(fā)生多義性。其次,此方法在很大程度上依賴于待挖掘的數(shù)據(jù)集是否滿足某種概率分布模型、模型的參數(shù)、異常點(diǎn)的數(shù)目等對(duì)基于統(tǒng)計(jì)的方法都有非常重要的意義,而確定這些參數(shù)通常比較困難;另外,此方法大多適合于挖掘單變量的數(shù)值型數(shù)據(jù),然而許多
18、數(shù)據(jù)挖掘問(wèn)題要求在多維空間中發(fā)現(xiàn)異常點(diǎn),目前幾乎沒(méi)有多元的不一致檢驗(yàn),當(dāng)沒(méi)有特定的檢驗(yàn)時(shí),或觀察到的分布不能恰當(dāng)?shù)赜萌魏螛?biāo)準(zhǔn)的分布建模時(shí),此類方法不能確保所有的異常點(diǎn)被發(fā)現(xiàn)。1.2.2基于距離的異常點(diǎn)檢測(cè)算法基于距離的異常點(diǎn)檢測(cè)算法的基本思想是把數(shù)據(jù)點(diǎn)看作空間中的點(diǎn),異常點(diǎn)被定義為與大多數(shù)數(shù)據(jù)距離較遠(yuǎn)的點(diǎn)。通常這類異常被描述為。當(dāng)且僅當(dāng)數(shù)據(jù)集中至少有個(gè)數(shù)據(jù)點(diǎn)與點(diǎn)的距離大于時(shí),數(shù)據(jù)對(duì)象點(diǎn)稱為異常點(diǎn)。這類方法與基于密度的檢測(cè)算法有很大的相似之處,不需要事先知道數(shù)據(jù)集的分布模型,對(duì)于任意分布模型均有效。基于距離方法最早是由Knorr和Ng在1998年提出的。他們用DB(p,d)來(lái)表示數(shù)據(jù)集中的異常點(diǎn)
19、,采用不同的參數(shù)與,可以表示所有的異常點(diǎn)。與此 定 義 相應(yīng)的算法有三種,它們是基于索引(Index-based)的算法,嵌套循環(huán)(Nest-Loop,NL)算法,基于單元或劃分(cell-based)的算法等。基于索引的方法依賴多維索引結(jié)構(gòu)(R-trees,X -trees,KD -tress等)的性能。隨著維數(shù)的增加,所有的索引結(jié)構(gòu)的性能迅速下降,使得算法性能不佳。NL算法可以避免構(gòu)建索引結(jié)構(gòu),減少了算法的次數(shù)。以上兩方法的算法時(shí)間復(fù)雜度為,當(dāng)遇到大量數(shù)據(jù)集時(shí)它們還有待改進(jìn)?;趩卧姆椒ㄊ前褦?shù)據(jù)集劃分為單元,逐個(gè)單元的檢測(cè),而非逐個(gè)對(duì)象的檢測(cè)。它的時(shí)間復(fù)雜度為,其中取決于單元的個(gè)數(shù)和維數(shù)
20、。 Knorr和Ng通過(guò)試驗(yàn)證明,當(dāng)時(shí)此算法優(yōu)于NL算法。相對(duì)前兩者,基于單元的算法無(wú)論是在數(shù)據(jù)量還是在維數(shù)增加時(shí),性能都是最好的。此算法需要將數(shù)據(jù)空間分隔成彼此獨(dú)立的單元結(jié)構(gòu),經(jīng)過(guò)多次選擇來(lái)判斷離群數(shù)據(jù)。對(duì)于參數(shù)的每個(gè)變化都需要調(diào)整單元結(jié)構(gòu),因此會(huì)影響了算法的結(jié)果。后來(lái),Rastogi和Ramaswamy提出了一個(gè)新的基于距離的異常點(diǎn)定義,即基于距離的第最近鄰(k-th Nearest Neighbor)異常點(diǎn)挖掘方法。給定維空間中包含個(gè)點(diǎn)的數(shù)據(jù)集、參數(shù)和 (自然數(shù)),表示點(diǎn)和它的第最近鄰的距離。如果滿足的點(diǎn)q不超過(guò)n-1個(gè),即,那么稱為異常點(diǎn)。如果對(duì)數(shù)據(jù)對(duì)象根據(jù)它們的距離進(jìn)行排序,那么前n
21、個(gè)點(diǎn)就被看作異常點(diǎn)。他們用聚類算法首先對(duì)數(shù)據(jù)集進(jìn)行聚類,然后在類中發(fā)現(xiàn)異常點(diǎn)。相對(duì)于異常點(diǎn)挖掘,異常點(diǎn)挖掘方法人為干預(yù)的因素要小一些。但它也有自身缺陷,就是要計(jì)算數(shù)據(jù)集中所有點(diǎn)的,這顯然影響到算法的效率。對(duì)低維空間的數(shù)據(jù)此方法優(yōu)于索引算法和NL算法,但對(duì)于高維數(shù)據(jù)此算法性能不高。Bay和Sc hwabacher在沿用Rastogi和Ramaswamy對(duì)于異常定義的基礎(chǔ)上,提出了一種基于隨機(jī)抽樣的檢測(cè)方法,它通過(guò)隨機(jī)抽樣的方法,減少了尋找k近鄰的范圍,在試驗(yàn)數(shù)據(jù)上獲得了幾乎線性的計(jì)算復(fù)雜度。隨著人們對(duì)基于距離的方法的不斷研究,一些新的、較好的算法也不斷的涌現(xiàn)。代表性的算法有: 陸聲鏈等提出一個(gè)判
22、斷異常點(diǎn)的新定義,并設(shè)計(jì)基于抽樣近似檢測(cè)算法。使得算法性能有所提高;另外,徐雪松等利用聚類算法與第k個(gè)最近鄰的原理提出了基于距離的再聚類的異常點(diǎn)算法,它克服一些基于距離算法的缺點(diǎn),并取得較好的試驗(yàn)結(jié)果。與基于統(tǒng)計(jì)的方法相比,它有以下幾個(gè)優(yōu)點(diǎn): 則可找出數(shù)據(jù)集中的異常點(diǎn)。(1) 在理論上可以處理任意維任意類型的數(shù)據(jù),這就克服了基于統(tǒng)計(jì)方法僅能檢測(cè)單個(gè)屬性的缺點(diǎn)。(2) 不必對(duì)數(shù)據(jù)集的相關(guān)信息(數(shù)據(jù)服從哪種統(tǒng)計(jì)分布模型,數(shù)據(jù)類型特點(diǎn)等)足夠了解。實(shí)際上在給出了距離的度量,并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后。1.2.3基于密度的算法基于密度方法是在基于距離的方法上改進(jìn)而來(lái)?;诿芏鹊漠惓S^點(diǎn)比基于距離的異常觀點(diǎn)更
23、貼近Hawkins的異常定義,因此能夠檢測(cè)出基于距離異常算法所不能識(shí)別的局部異常。局部異常觀點(diǎn)摒棄了以前所有的異常定義中非此即彼的絕對(duì)異常觀念,更加符合現(xiàn)實(shí)生活的中的應(yīng)用。所謂密度是基于任意一點(diǎn)和P點(diǎn)距離小于給定半徑R的鄰域空間內(nèi)的數(shù)據(jù)點(diǎn)的個(gè)數(shù)計(jì)算得到的。一般的對(duì)密度的定義是點(diǎn)到其量近鄰的平均距離,平均距離小則密度小。基于密度的異常點(diǎn)檢測(cè),就是探測(cè)局部密度,通過(guò)不同的密度估計(jì)策略來(lái)檢測(cè)異常點(diǎn)。代表性算法主要有以下幾種。Brito等提出相互k近鄰圖(Mutual kNearest Neighbor,簡(jiǎn)稱MkNN)算法,其主要思想是對(duì)每個(gè)連通子圖進(jìn)行檢測(cè),如果包含多個(gè)結(jié)點(diǎn)就組成一個(gè)簇,如果僅有一個(gè)
24、結(jié)點(diǎn),那么該結(jié)點(diǎn)就是異常點(diǎn)。該算法針對(duì)數(shù)據(jù)點(diǎn)的分布對(duì)各種特殊形狀都有效,但算法執(zhí)行效率不高。(2)Ville Hautamaki等提出兩種基于密度的異常點(diǎn)檢測(cè)算法,第一種算法思路為在kNN圖中,若頂點(diǎn)u成為其它點(diǎn)的k近鄰的次數(shù)少于給定閾值T時(shí)就被認(rèn)為是異常點(diǎn),另一種算法則是先對(duì)所有頂點(diǎn)的平均k近鄰距離進(jìn)行排序,然后將平均k近鄰距離大于T點(diǎn)頂點(diǎn)視為異常點(diǎn)。 (3)Papadimitriou定義了多粒度偏離系數(shù)(MultiGranularity Deviation Factor,簡(jiǎn)稱MDEF),該算法將多粒度偏離系數(shù)是所在鄰域的標(biāo)準(zhǔn)多粒度偏離系數(shù)的3倍的點(diǎn)判定為異常點(diǎn),然而標(biāo)準(zhǔn)多粒度偏離系數(shù)的計(jì)算
25、量大,對(duì)算法的可行性有一定的限制。(4)Dongmei Ren等采用相對(duì)密度系數(shù)(Relative Density Factor,簡(jiǎn)稱RDF),即P點(diǎn)的密度相對(duì)該點(diǎn)的鄰域密度的比值作為孤立程度的度量方法,其基本思路是首先基于RDF對(duì)位于簇中心的數(shù)據(jù)點(diǎn)進(jìn)行剪枝,然后僅僅在剩下的較小的數(shù)據(jù)集中進(jìn)行異常點(diǎn)檢測(cè)。該方法降低了數(shù)據(jù)集的大小,提高了算法效率,但是在剪枝過(guò)程中對(duì)于特殊分布的數(shù)據(jù)集就有可能將異常點(diǎn)剪掉,算法的準(zhǔn)確性受到限制。(5)Breuning 提出了局部異常的概念及相應(yīng)異常檢測(cè)方法(DBOM算法),即數(shù)據(jù)集中的每個(gè)對(duì)象的異常程度用局部異常因子LOF來(lái)衡量。也就是說(shuō)是否是異常點(diǎn)不僅僅取決于它
26、與周圍數(shù)據(jù)的距離大小,而且與鄰域內(nèi)的密度情況有關(guān)。一個(gè)對(duì)象領(lǐng)域內(nèi)的密度可以用包含固定結(jié)點(diǎn)個(gè)數(shù)的域半徑指定半徑領(lǐng)域中包含的結(jié)點(diǎn)數(shù)來(lái)描述。這樣就不會(huì)像DB(p,d)異常點(diǎn)那樣遺漏一部分異常點(diǎn)。LOF算法充分體現(xiàn)了“局部”的概念,每個(gè)點(diǎn)都給出了一個(gè)離群程度,離群程度最強(qiáng)的那個(gè)幾個(gè)點(diǎn)被標(biāo)記為異常點(diǎn)。文獻(xiàn)有關(guān)發(fā)面對(duì)LOF進(jìn)行推廣:一是由原來(lái)的一個(gè)鄰域的變化為兩個(gè)(計(jì)算密度領(lǐng)域和比較密度領(lǐng)域);二是剪除非異常對(duì)象來(lái)減小計(jì)算代價(jià);因此,使用算法比傳統(tǒng)的LOF算法有所提高。在現(xiàn)有的計(jì)算局部異常因子(LOF)算法中,把具有很高LOF值的對(duì)象作為異常點(diǎn)。計(jì)算LOF要耗費(fèi)很大的計(jì)算量,針對(duì)此問(wèn)題malik Agye
27、mang提出了修改算法,即局部稀疏系數(shù)(LSC)算法。這種方法主要是引入局部稀疏系數(shù)(LSC)這一概念,根據(jù)每個(gè)對(duì)象的LSC值按從大到小的順序排列整個(gè)數(shù)據(jù)集并把前n個(gè)對(duì)象作為異常點(diǎn)。但是,此方法在實(shí)際應(yīng)用中計(jì)算量亦是不小,效率有待提高。另外,岳峰等利用反向K近鄰(RKNN)這個(gè)概念提出了一個(gè)異常點(diǎn)檢測(cè)算法(ODRKNN),在綜合數(shù)據(jù)集和正式數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)構(gòu)表明,該算法能有效地檢測(cè)出異常點(diǎn),且算法效率高于典型的基于密度的異常點(diǎn)檢測(cè)算法LOF和LSC的效率。1.2.4基于偏差的異常點(diǎn)檢測(cè)基于偏差的異常點(diǎn)檢測(cè)不使用統(tǒng)計(jì)檢驗(yàn)或者基于距離的度量來(lái)識(shí)別異常對(duì)象。相反,它通過(guò)檢查一組對(duì)象的主要特征來(lái)識(shí)別異
28、常點(diǎn)。背離這種描述的對(duì)象認(rèn)為是異常點(diǎn)。因此,在該方法中,屬于偏差通常用于指異常點(diǎn)。主要有兩種技術(shù):第一種順序地比較集合中的對(duì)象,叫順序異常技術(shù)(sequential exception technique);第二種采用OLAP數(shù)據(jù)立方體方法識(shí)別大型多維數(shù)據(jù)中的異常區(qū)域。(1) 序列異常技術(shù):Aming和Argrawal 提出一種序列異常(sequential exception)的概念。這個(gè)算法復(fù)雜度與數(shù)據(jù)集大小呈線性關(guān)系,有優(yōu)異的計(jì)算性能。但是并沒(méi)有得到普遍的認(rèn)同,這是因?yàn)樾蛄挟惓T诟拍钌嫌幸欢ǖ娜毕荩鼘?duì)異常點(diǎn)存在的假設(shè)太過(guò)理想化,對(duì)現(xiàn)實(shí)復(fù)雜數(shù)據(jù)效果不太好。(2) OLAP數(shù)據(jù)立方體技術(shù):
29、在大規(guī)模的多維數(shù)據(jù)中采用數(shù)據(jù)立方體來(lái)確定反常區(qū)域.如果一個(gè)立方體的單元值顯著地不同于根據(jù)統(tǒng)計(jì)模型得到的值,該單元被認(rèn)為是一個(gè)異常。此方法是發(fā)現(xiàn)驅(qū)動(dòng)探索的一種形式。此方法由于搜索空間很大,人工探測(cè)非常困難。第一種概念有缺陷,遺漏了不少異常點(diǎn),時(shí)間復(fù)雜度與數(shù)據(jù)集大小成線性關(guān)系,適用性不高。第二種搜索空間大,人工探測(cè)困難,效率不高,只適用多維數(shù)據(jù)。1.2.5基于聚類的異常點(diǎn)檢測(cè)算法在聚類算法中,異常點(diǎn)檢測(cè)僅僅是聚類的副產(chǎn)品。聚類算法發(fā)展方向是優(yōu)化聚類過(guò)程,而不是提高對(duì)異常點(diǎn)檢測(cè)的能力,異常點(diǎn)檢測(cè)和聚類是兩個(gè)相對(duì)立的過(guò)程,聚類是把屬于統(tǒng)一類的數(shù)據(jù)點(diǎn)聚集在一起,歸為一類,而異常點(diǎn)檢測(cè)是把和大多數(shù)數(shù)據(jù)點(diǎn)相
30、異的點(diǎn)挖掘出來(lái)。Su等人首先提出基于聚類的異常點(diǎn)檢測(cè)算法,聚集的較小簇被認(rèn)為是異常點(diǎn),但這中方法忽略了小聚集簇和大聚集簇之間的距離,當(dāng)一個(gè)小聚集簇和一個(gè)大聚集簇非常接近的時(shí)候,小聚集簇中的這些點(diǎn)更可能是大聚集簇的邊界點(diǎn)而不是異常點(diǎn)。模糊k均值聚類算法(FCM)常用于異常點(diǎn)檢測(cè),該算法動(dòng)態(tài)地分配權(quán)重給每一個(gè)數(shù)據(jù)點(diǎn),權(quán)重表示該數(shù)據(jù)點(diǎn)和數(shù)據(jù)集中心之間的距離,通過(guò)各點(diǎn)的權(quán)重來(lái)判斷異常點(diǎn)。此類算法沒(méi)有先驗(yàn)知識(shí)指導(dǎo)如何確定聚類中心,只能是隨機(jī)選取,優(yōu)化搜索空間較大,算法的復(fù)雜度較大。Hongyi Zhang等引為了提高模糊核聚類算法的運(yùn)行效率,提出了新的模糊核聚類算法,該算法用先驗(yàn)知識(shí)對(duì)參數(shù)初始化。取代了
31、用聚類中心初始化,改進(jìn)了聚類的目標(biāo)函數(shù),降低了算法的時(shí)間復(fù)雜度,但該算法沒(méi)有提到如何選取核函數(shù),對(duì)于算法模糊性的控制不好撐握。2基于屬性特征在異常點(diǎn)檢測(cè)中的研究傳統(tǒng)算法大都是通過(guò)數(shù)據(jù)在空間地特性來(lái)判斷檢測(cè)異常點(diǎn)。本文的方向是從特征出發(fā)研究。傳統(tǒng)算法從整個(gè)數(shù)據(jù)集合在空間中分布地特性出發(fā)研究,比如距離的從整個(gè)數(shù)據(jù)集空間距離進(jìn)行研究,同樣密度的按數(shù)據(jù)集空間密度研究,聚類也是按數(shù)據(jù)集空間特性。而本文直接從已知部分?jǐn)?shù)據(jù)維度的特征著手,即是直接從每一組數(shù)據(jù)的特征來(lái)研究。對(duì)于單屬性特征的情況,根據(jù)數(shù)據(jù)重要性調(diào)整特征(即維度)權(quán)值,并根據(jù)數(shù)據(jù)重要性調(diào)整。假設(shè)數(shù)據(jù)特征表示在每個(gè)屬性上面,獨(dú)立沒(méi)有組合屬性表現(xiàn)特征
32、地情況下,每一組數(shù)據(jù)屬性對(duì)應(yīng)權(quán)值數(shù)據(jù)乘積和,表示這個(gè)數(shù)據(jù)在這組數(shù)據(jù)中全局中所占的重要性。例如檢測(cè)是否是糖尿病人的數(shù)據(jù)庫(kù),三十歲以下這個(gè)年齡維度上病人較少,然而五十歲后這個(gè)維度病人比例就多了。映射到維度為三十歲以下這個(gè)維度地病人比較少,映射到維度為十歲以上較多。這樣我們可以添加一個(gè)權(quán)值與年齡這一項(xiàng)數(shù)據(jù)乘積,這個(gè)乘積必須使權(quán)值與當(dāng)前數(shù)據(jù)乘積出來(lái)的數(shù)據(jù)成正比,表示年齡增長(zhǎng)能夠體現(xiàn)在這組數(shù)據(jù)中的重要性。以便全局統(tǒng)籌決策較容易。設(shè)X為一組數(shù)據(jù)集合,可使趨向某個(gè)數(shù)值,表示這組數(shù)據(jù)某個(gè)總體特征。異常或者非異常,可以通過(guò)趨向某個(gè)數(shù)值表示特征異常,另一個(gè)方向數(shù)值表示非異常。有時(shí)候數(shù)據(jù)組合的重要性是體現(xiàn)在幾個(gè)數(shù)據(jù)
33、地組合里面,既可能體現(xiàn)在幾個(gè)屬性上面,比如說(shuō)一組數(shù)組(A,B,C),可能AB組合特征不顯示異常,然而ABC組合就顯示異常,這些組合是不定地。所有在屬性權(quán)值之上需要一組對(duì)屬性不同組合特征的權(quán)值調(diào)整。圖2.1 樣例圖示如圖2.1,某個(gè)異常點(diǎn)可能異常特征是屬性1,可能是屬性1、屬性2地組合,對(duì)于同個(gè)數(shù)據(jù)庫(kù)不同點(diǎn)具有組合不確定性。由于特征地不可確定性,數(shù)值不確定,組合不確定。我們可以采用神經(jīng)網(wǎng)絡(luò)自學(xué)習(xí)調(diào)整權(quán)值。同時(shí)根據(jù)已知數(shù)據(jù)訓(xùn)練修改這些權(quán)值,使其具有識(shí)別某種組合特征的能力。使其自學(xué)習(xí)特征,自動(dòng)控制調(diào)整權(quán)值及權(quán)值組合。人工神經(jīng)網(wǎng)絡(luò)作為一種新型信息處理系統(tǒng),在信息處理方面,具有如下顯著的特點(diǎn):()輸入-
34、輸出映射能力。人工神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)能力,通過(guò)學(xué)習(xí),能夠根據(jù)網(wǎng)絡(luò)期望輸出和網(wǎng)絡(luò)實(shí)際輸出之差來(lái)調(diào)整神經(jīng)元間連接權(quán)值和閾值,直至使實(shí)際輸出與期望輸出之間的誤差減小到滿意的程度,這樣就實(shí)現(xiàn)了輸入到輸出的映射。人工神經(jīng)網(wǎng)絡(luò)的輸入-輸出映射能力對(duì)于預(yù)測(cè)有特別重要的意義。(2)非線性特性。人工神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線性,這種非線性分散在每個(gè)神經(jīng)元,通過(guò)傳遞函數(shù)實(shí)現(xiàn)。利用神經(jīng)網(wǎng)絡(luò)的非線性特性,可解決藥學(xué)研究及實(shí)驗(yàn)數(shù)據(jù)處理過(guò)程中大量的非線性問(wèn)題。(3)高度并行性。人工神經(jīng)網(wǎng)絡(luò)是由許多相同的簡(jiǎn)單處理單元并聯(lián)組合而成,具有高度并行性特性,使其對(duì)特定任務(wù)的計(jì)算變得很快,對(duì)信息的處理能力與效果驚人,因此提供了一種解決高
35、層復(fù)雜問(wèn)題的能力和方法。(4)良好的容錯(cuò)性與聯(lián)想記憶功能。人工神經(jīng)網(wǎng)絡(luò)通過(guò)自身的網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)崿F(xiàn)對(duì)信息的記憶,而所記憶的信息是存儲(chǔ)在神經(jīng)元之間的權(quán)值中。從單個(gè)權(quán)值中看不出所存儲(chǔ)的信息內(nèi)容,因而是分布式的存儲(chǔ)方式,這使得網(wǎng)絡(luò)具有良好的容錯(cuò)性,既能進(jìn)行模式信息處理工作,又能進(jìn)行模式識(shí)別工作。因?yàn)檫@些特點(diǎn),神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用在聚類分析、模式識(shí)別、信號(hào)處理、系統(tǒng)辨識(shí)、優(yōu)化計(jì)算、預(yù)測(cè)控制等領(lǐng)域。根據(jù)神經(jīng)網(wǎng)絡(luò)記憶分類地特性,本文設(shè)想通過(guò)這些特性學(xué)習(xí)出能夠辨別異常點(diǎn)非異常點(diǎn)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),主要研究其可行性。3 BP神經(jīng)網(wǎng)絡(luò)介紹3.1模型簡(jiǎn)介人工神經(jīng)網(wǎng)絡(luò)理論是80年代中后期迅速發(fā)展起來(lái)的一項(xiàng)前沿研究領(lǐng)域,其應(yīng)用
36、已滲透到各個(gè)領(lǐng)域。BP神經(jīng)網(wǎng)絡(luò)模型是人工神經(jīng)網(wǎng)絡(luò)的重要模型之一,應(yīng)用尤為廣泛。BP算法主要包括兩個(gè)過(guò)程,一是由學(xué)習(xí)樣本、網(wǎng)絡(luò)權(quán)值從輸入層隱含層輸出層逐次算出各層節(jié)點(diǎn)的輸出;二是反過(guò)來(lái)由計(jì)算輸出與實(shí)際輸出偏差構(gòu)出的誤差函數(shù)E(),用梯度下降法調(diào)節(jié)網(wǎng)絡(luò)權(quán)值,即 (3.1)使誤差減小。設(shè)輸入層節(jié)點(diǎn)數(shù)為n,隱含層節(jié)點(diǎn)數(shù)為r,輸出層節(jié)點(diǎn)數(shù)為m,隱含層與輸入層之間的權(quán)值矩陣為,隱含層節(jié)點(diǎn)閥值為,輸出層與隱含層之間權(quán)值矩陣為,輸出層節(jié)點(diǎn)閥值為,并設(shè)有N個(gè)學(xué)習(xí)樣本其中為第P個(gè)學(xué)習(xí)樣本的輸入向量,為其實(shí)際輸出向量。其中,下文中如不指明則相同。3.2計(jì)算各層節(jié)點(diǎn)輸出輸入層節(jié)點(diǎn),取其輸出與輸入相同,即隱含層節(jié)點(diǎn)輸入
37、,輸出分別為: (3.2)若令則有:,。輸出層節(jié)點(diǎn)輸入,輸出分別為: (3.3)若令,則有: (3.4)3.3 修正權(quán)值設(shè) 其中為第p個(gè)學(xué)習(xí)樣本產(chǎn)生的輸出誤差,為總誤差。由誤差函數(shù)調(diào)整權(quán)值有: 其中 其中 (3.5)其中為學(xué)習(xí)速率,一般在0,1內(nèi)取值。權(quán)值修正為: (3.6) (3.7)4 異常檢測(cè)中BP神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)4.1可微閾值單元fX0 = 1WnW2W1XnX2X1W0 = -圖 4.1可微閾值單元如圖 4.1 可微閾值單元,圖中為sigmoid單元,與感知器相似,sigmoid單元先計(jì)算它的線性組合,然后應(yīng)用一個(gè)閾值到此結(jié)果。然而,對(duì)sigmoid單元,閾值輸出是輸入的連續(xù)函數(shù)。更精
38、確地講,sigmoid單元這樣計(jì)算輸出。 (4.1)其中: (4.2)經(jīng)常被稱為sigmoid函數(shù)或者也可以稱為logistic函數(shù)。注意它的輸出范圍為0到1,隨輸入單調(diào)遞增。因?yàn)檫@個(gè)函數(shù)把非常大的書值域映射到一個(gè)小范圍的輸出。也叫擠壓函數(shù)。本算法就是想把所有整數(shù)據(jù)特征映射到一個(gè)小范圍來(lái)處理判斷。4.2單個(gè)BP網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)采用4.1為神經(jīng)感知器,隱層感知器根據(jù)實(shí)際數(shù)據(jù)庫(kù)的屬性確定,一般少于等于屬性個(gè)數(shù),輸出層一個(gè)輸出感知器。輸入隱層輸出層圖 4.2 BP結(jié)構(gòu)輸入層為一組數(shù)據(jù),全連接到隱層,隱層計(jì)算輸出受擠壓函數(shù)處理后的數(shù)值,輸出層的輸入為隱層輸出。最后輸出0到1的數(shù)值。隱層輸出層的神經(jīng)元,每個(gè)
39、的都初始化為-0.05,其他權(quán)值都初始化:(double) (rand()/32767.0)*2-1);隨機(jī)數(shù)種子為系統(tǒng)時(shí)間。訓(xùn)練教師信號(hào),按具體方案處理設(shè)定。4.3BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程的基本步驟(1)定義誤差函數(shù)為期望輸出與實(shí)際輸出之差的平方和: (4.3)其中yj是輸出單元的期望輸出,是實(shí)際的輸出。(2)調(diào)節(jié)權(quán)值的公式為: (4.4) 其中為學(xué)習(xí)步長(zhǎng),取正參數(shù),代表上一層神經(jīng)元的輸出,而有兩種情況:1) 如果j是輸出層(第m層)的神經(jīng)元,則 (4.5) 2) 如果j不在輸出層,而是隱含層的神經(jīng)元,則 (4.6) 是該神經(jīng)元的輸出,而求本層的必須用到上一層的,可見(jiàn)誤差函數(shù)的求取是一個(gè)始于輸出
40、層的反向傳播的遞歸過(guò)程。(3)將學(xué)習(xí)模式不斷輸入到輸入層,再根據(jù)輸出層產(chǎn)生的誤差不斷修正神經(jīng)元間連結(jié)的權(quán)值和神經(jīng)元的閾值,直到學(xué)習(xí)模式全部輸入或誤差達(dá)到一定的值。反向傳播算法在網(wǎng)絡(luò)規(guī)模較大時(shí)計(jì)算量很大,收斂較慢,而且存在局部最小的問(wèn)題,根據(jù)這一問(wèn)題,在具體操作時(shí)采用了加入動(dòng)量項(xiàng)的方法: (4.7) 稱為動(dòng)量因子,這樣后一次的權(quán)值更新適當(dāng)考慮上一次的權(quán)值更新,可以改善收斂特性。5實(shí)驗(yàn)研究5.1研究使用的數(shù)據(jù)庫(kù)介紹在嘗試各種算法方案地研究中,使用的數(shù)據(jù)庫(kù)名稱:The Insurance Company Benchmark (COIL 2000).關(guān)于保險(xiǎn)的數(shù)據(jù),其中包括:TICDATA2000.t
41、xt,訓(xùn)練數(shù)據(jù),5822組數(shù)據(jù),每組86個(gè)屬性,第86個(gè)為是否異常的標(biāo)志變量,總地為兩類數(shù)據(jù);TICEVAL2000,測(cè)試數(shù)據(jù),4000組,每組為85個(gè)特征屬性;TICTGTS2000.txt,與ticeval2000對(duì)應(yīng)組地結(jié)果。5.2訓(xùn)練方案一實(shí)驗(yàn):把bp神經(jīng)網(wǎng)絡(luò)相似性代替距離算法相似度量起初思路是采用兩兩相似性地訓(xùn)練,然后得出一個(gè)整體數(shù)據(jù)庫(kù)屬性特征的神經(jīng)網(wǎng)絡(luò)。采用表示X與Y兩者相似性差異。在神經(jīng)網(wǎng)絡(luò)則表示為兩者整體特征差異大小。假設(shè)這樣能夠成功,則以后只要判斷測(cè)試數(shù)據(jù)與整體已知數(shù)據(jù)庫(kù)地整體差異大小,就可以判斷異常與否。神網(wǎng)絡(luò)結(jié)構(gòu)大概如下:XY兩兩做差絕對(duì)值輸入層隱層輸出層注:每個(gè)方向箭頭
42、抽象全連接圖 5.1 方案一圖隱層采用85個(gè)可微閾值單元,輸出采用一個(gè),網(wǎng)絡(luò)全連接。每個(gè)單元為86個(gè)權(quán)重,初始化權(quán)值按4.2給出的方法。具體方式,對(duì)已知數(shù)據(jù)集做兩兩訓(xùn)練,比如數(shù)據(jù)X和Y,做差fabsf(Xi - Yi),然后輸入一個(gè)BP神經(jīng)網(wǎng)絡(luò),已知數(shù)據(jù)庫(kù)中第86個(gè)屬性,(X 86,Y86)對(duì)應(yīng)為(0,0)則教師信號(hào)為1,(1,1)則教師信號(hào)為1,(0,1)則為0,部分順序。實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)庫(kù)100與4000組數(shù)據(jù)做兩兩訓(xùn)練還有4000組與4000組數(shù)據(jù)訓(xùn)練。經(jīng)觀察驗(yàn)證,測(cè)試數(shù)據(jù)與已知數(shù)據(jù)地相似性與否沒(méi)法與測(cè)試計(jì)算結(jié)果數(shù)據(jù)存在必然地比例關(guān)系。輸出結(jié)果的所有數(shù)據(jù),在0到1區(qū)間之間,不管相似不相似都集
43、中分布在靠近0,沒(méi)有區(qū)分度,不能明顯表示相似與否地概念。然后又對(duì)測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)庫(kù),進(jìn)行相似性求和,對(duì)比測(cè)試數(shù)據(jù)中異常點(diǎn)與非異常點(diǎn)與訓(xùn)練數(shù)據(jù)庫(kù)地相似性和,依然沒(méi)有區(qū)分度。經(jīng)多次嘗試,降低訓(xùn)練次數(shù)精度,本實(shí)驗(yàn)方案依然失敗。經(jīng)過(guò)大量實(shí)驗(yàn),失敗原因:第一,bp處理輸出區(qū)分度不夠,難以有判斷方案。第二,訓(xùn)練方案地問(wèn)題,數(shù)據(jù)集合里面,缺乏異常點(diǎn)地訓(xùn)練,bp權(quán)值能增長(zhǎng)方向把小規(guī)模局部數(shù)據(jù)地特征給掩蓋掉了,難以輸出好地?cái)?shù)據(jù)來(lái)區(qū)分。第三,數(shù)據(jù)特征不顯著。第四,訓(xùn)練順序?qū)е?。解決方法:第一種改變訓(xùn)練方案,改變判斷方案;第二種改變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以便輸出數(shù)據(jù)區(qū)分度更高,便于區(qū)別異常非異常。5.3訓(xùn)練方案二實(shí)驗(yàn):用
44、單個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)庫(kù)整體特性進(jìn)行學(xué)習(xí)實(shí)驗(yàn)設(shè)計(jì)思路:為避免上述問(wèn)題,改變訓(xùn)練順序和訓(xùn)練方法,單組數(shù)據(jù)輸入單個(gè)bp神經(jīng)網(wǎng)絡(luò)。為盡量得出可區(qū)分地?cái)?shù)據(jù),強(qiáng)化局部異常點(diǎn)特性。實(shí)驗(yàn)方案:對(duì)神經(jīng)網(wǎng)絡(luò)BP1,先使用非異常點(diǎn)經(jīng)行訓(xùn)練,教師信號(hào)為0。然后再對(duì)異常點(diǎn)進(jìn)行訓(xùn)練,教師信號(hào)為1。(1) 對(duì)所有非異常點(diǎn)數(shù)據(jù),按組分別對(duì)BP1進(jìn)行訓(xùn)練,教師信號(hào)都為1,(ticdata2000.txt數(shù)據(jù)庫(kù)里面大部分為正常數(shù)據(jù))保存BP1權(quán)值;(2)加載BP1數(shù)據(jù)到BP2, 針對(duì)數(shù)據(jù)庫(kù)每個(gè)異常點(diǎn),教師信號(hào)統(tǒng)一修改為0.1至0.7之間地任何一個(gè)數(shù)值,正向(數(shù)據(jù)庫(kù)地方向順序)訓(xùn)練一次,再逆向訓(xùn)練一次。訓(xùn)練完后,保存訓(xùn)練權(quán)值。實(shí)
45、驗(yàn)觀察:測(cè)試數(shù)據(jù)庫(kù)獨(dú)個(gè)輸進(jìn)BP1計(jì)算。整個(gè)數(shù)據(jù)庫(kù)的所有計(jì)算結(jié)果,不管異常點(diǎn)非異常點(diǎn)的計(jì)算結(jié)果,都在0到1這個(gè)區(qū)間內(nèi)呈現(xiàn)正態(tài)分布。數(shù)據(jù)主要疊加在兩個(gè)教師信號(hào)數(shù)值之間,難以區(qū)分。實(shí)驗(yàn)結(jié)果失敗。數(shù)據(jù)難以區(qū)分。根據(jù)實(shí)際數(shù)據(jù),越逼近1地越小于第二次訓(xùn)練地教師信號(hào)地,都為異常點(diǎn)。比如本次第一次訓(xùn)練教師信號(hào)1,第二次異常點(diǎn)信號(hào)0.7,結(jié)果異常點(diǎn)主要集中在小于0.7和大于0.8之間,其中小于0.5和大于0.9異常點(diǎn)占地比率最大。正態(tài)分布地兩邊。第二次訓(xùn)練把非異常數(shù)據(jù)都集中在兩次教師信號(hào)中間。數(shù)據(jù)都呈現(xiàn)正態(tài)分布,不好處理,特別是兩個(gè)教師信號(hào)數(shù)值中間區(qū)間異常點(diǎn)與非異常點(diǎn)占自己比例都是很大,難以區(qū)分。解決方案,找一
46、種訓(xùn)練方法讓異常非異常點(diǎn)往不同方向逼近,并使其不互相影響。5.4訓(xùn)練方案三實(shí)驗(yàn):多神經(jīng)網(wǎng)絡(luò)各種形式訓(xùn)練及其決策5.4.1實(shí)驗(yàn)設(shè)計(jì)思路用一個(gè)神經(jīng)網(wǎng)絡(luò)表示異常點(diǎn)地特征,教師信號(hào)1;用另一個(gè)異常點(diǎn)表示非異常點(diǎn)地特征,教師信號(hào)0.為了有一個(gè)好地區(qū)分度。同時(shí)測(cè)試數(shù)據(jù)可以通過(guò)進(jìn)行不同神經(jīng)網(wǎng)絡(luò)計(jì)算兩次,以便得結(jié)果進(jìn)行具體判斷結(jié)果。算法結(jié)構(gòu)圖如圖5.2.BP1隱層.X1X2Xn.異常與否BP2隱層 圖 5.2 訓(xùn)練方案圖5.4.2實(shí)驗(yàn)方案及步驟 訓(xùn)練方案,把訓(xùn)練集合,分成兩個(gè)集合,一個(gè)為正常數(shù)據(jù)集合,一個(gè)異常。每個(gè)訓(xùn)練次數(shù)少于40次(根據(jù)實(shí)際增長(zhǎng)速度,減少控制次數(shù)),以便使數(shù)據(jù)有一定地區(qū)分度。訓(xùn)練強(qiáng)度不要太大
47、,以便避免無(wú)法發(fā)現(xiàn)局部異常特征地?cái)?shù)據(jù)。訓(xùn)練準(zhǔn)備:訓(xùn)練采用ticdata2000.txt地前4000組數(shù)據(jù),前85個(gè)屬性為訓(xùn)練輸入,第86個(gè)為訓(xùn)練用教師信號(hào)。觀察測(cè)試采用所有ticeval2000.txt作為輸入,tictgts2000.txt為測(cè)試數(shù)據(jù)實(shí)際結(jié)果,已知正常數(shù)據(jù)3762,異常238.,通過(guò)這個(gè)可以輔助分析。流程:(1)第一組數(shù)據(jù)單個(gè)輸入BP1訓(xùn)練,保存相應(yīng)BP1權(quán)值,教師信號(hào)0.0,ticdata2000正常數(shù)據(jù)訓(xùn)練;(2)第二組數(shù)據(jù)單個(gè)輸入BP2訓(xùn)練,保存BP2權(quán)值,教師信號(hào)1.0,ticdata2000異常數(shù)據(jù)訓(xùn)練;測(cè)試方法:通過(guò)測(cè)試地兩個(gè)數(shù)據(jù)庫(kù),輸?shù)接?xùn)練后地兩個(gè)神經(jīng)網(wǎng)絡(luò),同時(shí)
48、借助已知數(shù)據(jù)捕獲有用數(shù)據(jù)進(jìn)行分析。觀察測(cè)試數(shù)據(jù)庫(kù)計(jì)算分布結(jié)果分布情況,并統(tǒng)計(jì)分布情況(表5.1. 表5.2.表5.3表5.4)。表 5.1BP1正常測(cè)試數(shù)據(jù)地分布輸出統(tǒng)計(jì)(tictgts2000中為0) (單位:個(gè)數(shù))輸出范圍0.0-0.10.1-0.20.2-0.30.3-0.40.4-0.50.5-0.60.6-0.70.7-0.80.8-0.90.9-1.0小于0.2測(cè)試數(shù)據(jù)庫(kù)正常數(shù)據(jù)個(gè)數(shù)376200000000037623762表 5.2BP1異常測(cè)試數(shù)據(jù)地分布統(tǒng)計(jì)輸出(tictgts2000中為1) (單位:個(gè)數(shù))輸出范圍0.0-0.10.1-0.20.2-0.30.3-0.40.4
49、-0.50.5-0.60.6-0.70.7-0.80.8-0.90.9-1.0大于0.2測(cè)試數(shù)據(jù)庫(kù)異常數(shù)據(jù)個(gè)數(shù)2380000000000238 5.3 BP2正常測(cè)試數(shù)據(jù)地輸出統(tǒng)計(jì)(tictgts2000中為0) (單位:個(gè)數(shù))輸出范圍0.0-0.10.1-0.20.2-0.30.3-0.40.4-0.50.5-0.60.6-0.70.7-0.80.8-0.90.9-1.0大于0.2地?cái)?shù)據(jù)測(cè)試異常點(diǎn)數(shù)據(jù)數(shù)量個(gè)數(shù)0000004726 201238238表 5.4BP2異常測(cè)試數(shù)據(jù)地輸出統(tǒng)計(jì)(tictgts2000中為1) (單位:個(gè)數(shù))輸出范圍0.0-0.10.1-0.20.2-0.30.3-0
50、.40.4-0.50.5-0.60.6-0.70.7-0.80.8-0.90.9-1.0小0.2地?cái)?shù)據(jù)數(shù)測(cè)試數(shù)據(jù)庫(kù)正常數(shù)據(jù)數(shù)量個(gè)數(shù)0001036541635122974037625.4.3實(shí)驗(yàn)分析(單位:縱軸個(gè)數(shù),橫軸順序表示每隔0.1地區(qū)間)注:橫軸表示0到1區(qū)間,比如1表示0到0.1計(jì)算結(jié)果分布,縱軸表示個(gè)數(shù);系列1表示異常點(diǎn)計(jì)算結(jié)果,系列2表示非異常點(diǎn)計(jì)算結(jié)果圖5.3使用已訓(xùn)練的BP1計(jì)算結(jié)果分布(單位:縱軸個(gè)數(shù),橫軸順序表示每隔0.1地區(qū)間)注:橫軸表示0到1區(qū)間,比如1表示0到0.1計(jì)算結(jié)果分布,縱軸表示個(gè)數(shù);系列2表示異常點(diǎn)計(jì)算結(jié)果,系列1表示非異常點(diǎn)計(jì)算結(jié)果圖5.4使用已訓(xùn)練的B
51、P2計(jì)算結(jié)果分布已知BP1保存的是正常數(shù)據(jù)地特性,越逼近0越是屬于正常數(shù)據(jù)特性;BP2保存的是異常數(shù)據(jù)地特性。表5.1BP1計(jì)算,正異常數(shù)據(jù)地實(shí)際輸出,集中在0-0.1之中。無(wú)大于0.1地任何數(shù)據(jù)。剛好所有正常數(shù)據(jù)都在0.1之下。表5.2BP1計(jì)算,異常數(shù)據(jù)地實(shí)際輸出集中在0-0.1,證明異常數(shù)據(jù)特性被正常數(shù)據(jù)所包含。表5.3BP2計(jì)算,異常點(diǎn)數(shù)據(jù)集中在0.6-1.0之間,剛好是已知異常點(diǎn)個(gè)數(shù)。表5.4BP2計(jì)算,正常數(shù)據(jù)集中在1.4-1.0之間,BP2為異常點(diǎn)特性,證明正常數(shù)據(jù)有很大一部分特征與異常數(shù)據(jù)特征有交集。綜合上面各個(gè)表和圖5.3和圖5.4分析:從上表可以推出,對(duì)于未知檢測(cè)數(shù)據(jù)輸入,
52、呈現(xiàn)無(wú)法區(qū)分地現(xiàn)象。圖5.3圖5.4見(jiàn)數(shù)據(jù)呈現(xiàn)疊加分布,即分布一樣,無(wú)法區(qū)分異常與異常與否。5.4.4實(shí)驗(yàn)失敗原因分析(1)可能是數(shù)據(jù)特征疊加問(wèn)題,異常與分異常具有很強(qiáng)地交叉特征。單位:橫軸屬性順序,縱軸屬性數(shù)值。注:訓(xùn)練數(shù)據(jù)庫(kù)中的,每個(gè)點(diǎn)代表一個(gè)屬性值,橫軸代表屬性順序,縱軸代表屬性值.圖 5.5組正常數(shù)據(jù)單位:橫軸屬性順序,縱軸屬性數(shù)值。注:訓(xùn)練數(shù)據(jù)庫(kù)中的,每個(gè)點(diǎn)代表一個(gè)屬性值,橫軸代表屬性順序,縱軸代表屬性值.圖5.6一組異常數(shù)據(jù)如圖 5.5圖5.6為兩組庫(kù)中地?cái)?shù)據(jù),大多數(shù)屬性屬于一個(gè)范圍空間,這種情況在BP屬于相似性很大地情況,很難區(qū)分開來(lái)。縱軸10以下比較集中,相似特征太多。(2)B
53、P結(jié)構(gòu)過(guò)擬化。解決設(shè)想,減少隱層個(gè)數(shù),生成隨機(jī),空間具有兩類特征地?cái)?shù)據(jù)。5.5BP調(diào)參實(shí)驗(yàn)對(duì)上面三個(gè)實(shí)驗(yàn)地隱層進(jìn)行調(diào)整,主要分別取5個(gè)、15個(gè)、25個(gè)隱層單元進(jìn)行訓(xùn)練測(cè)試。5.5.1對(duì)實(shí)驗(yàn)一調(diào)整隱層實(shí)驗(yàn)實(shí)驗(yàn)方式主要通過(guò)對(duì)訓(xùn)練數(shù)據(jù)庫(kù)地訓(xùn)練,然后采用測(cè)試數(shù)據(jù)庫(kù)進(jìn)行測(cè)試統(tǒng)計(jì),實(shí)驗(yàn)一方案采用組測(cè)試數(shù)據(jù)與原訓(xùn)練數(shù)據(jù)庫(kù)4000組兩兩計(jì)算,然后求和,結(jié)果為與元數(shù)據(jù)庫(kù)整體相異地程度。根據(jù)數(shù)據(jù)分布,和原來(lái)測(cè)試結(jié)果進(jìn)行對(duì)照分析。一下摘取部分信息。5、15、25個(gè)隱層結(jié)點(diǎn)訓(xùn)練后測(cè)試結(jié)果與已知結(jié)果對(duì)照表:表5.5 5個(gè)隱層測(cè)試結(jié)果前11組 (單位:相似度)序號(hào)123456789101112異常與否0100000000
54、01計(jì)算結(jié)果分布3914.0533414.243429.3043415.5923973.0733954.1393907.5633410.4693645.3753410.4663735.5473549.66表5.6 15個(gè)隱層測(cè)試結(jié)果前11組 (單位:相似度)序號(hào)123456789101112異常與否010000000001計(jì)算結(jié)果分布507.3817444.8667719.5331631.563700.27261210.217759.2085776.8747598.13741108.0071171.494671.9588表5.7 15個(gè)隱層測(cè)試結(jié)果前12組 (單位:相似度)序號(hào)12345678
55、9101112異常與否010000000001計(jì)算結(jié)果分布4252.0734411.9784254.2764416.7094603.9454694.2654606.7974393.0954260.6114270.2464454.9324596.794通過(guò)表5.5 表5.6 表5.7 表計(jì)算結(jié)果分析,沒(méi)有出現(xiàn)較好區(qū)分度,無(wú)法做未知數(shù)據(jù)異常與否地判斷。同時(shí)也可看到與上面實(shí)驗(yàn)一樣結(jié)果,證明不是算法問(wèn)題,而是數(shù)據(jù)特征不好區(qū)分。5.5.2對(duì)實(shí)驗(yàn)二調(diào)整隱層實(shí)驗(yàn)實(shí)驗(yàn)方式,調(diào)整隱層神經(jīng)單元個(gè)數(shù)5、15、25分別做一次,每次訓(xùn)練完的權(quán)值去計(jì)算測(cè)試數(shù)據(jù)庫(kù),然后通過(guò)已知結(jié)果,統(tǒng)計(jì)異常點(diǎn)與非異常在0到1之間的分布情況
56、,看是否有區(qū)分度較高地方案。實(shí)驗(yàn)計(jì)算結(jié)果:表5.8 5個(gè)隱層實(shí)驗(yàn)結(jié)果 單位:個(gè)數(shù)分區(qū)0.0-0.10.1-0.20.2-0.30.3-0.40.4-0.50.5-0.60.6-0.70.7-0.80.8-0.90.9-1.0正常點(diǎn)分布62554610588400000異常點(diǎn)分布01472367100000(單位:縱軸個(gè)數(shù),橫軸順序表示每隔0.1地區(qū)間)注:對(duì)照表5.8,橫軸表示0到1區(qū)間,比如1表示0到0.1計(jì)算結(jié)果分布,縱軸表示個(gè)數(shù);系列1表示非異常點(diǎn)計(jì)算結(jié)果,系列2表示異常點(diǎn)計(jì)算結(jié)果圖5.7 5個(gè)隱層實(shí)驗(yàn)結(jié)果表5.9 15個(gè)隱層實(shí)驗(yàn)結(jié)果 單位:個(gè)數(shù)分區(qū)0.0-0.10.1-0.20.2-0
57、.30.3-0.40.4-0.50.5-0.60.6-0.70.7-0.80.8-0.90.9-1.0正常點(diǎn)計(jì)算分布004555762510201086409200異常點(diǎn)分布0022236677041005.10 25個(gè)隱層實(shí)驗(yàn)結(jié)果 單位:個(gè)數(shù)分區(qū)0.0-0.10.1-0.20.2-0.30.3-0.40.4-0.50.5-0.60.6-0.70.7-0.80.8-0.90.9-1.0正常點(diǎn)分布1146211843259700000異常點(diǎn)分布90109298200000(單位:縱軸個(gè)數(shù),橫軸順序表示每隔0.1地區(qū)間)注:對(duì)照表5.9,橫軸表示0到1區(qū)間,比如1表示0到0.1計(jì)算結(jié)果分布,縱軸表
58、示個(gè)數(shù);系列1表示非異常點(diǎn)計(jì)算結(jié)果,系列2表示異常點(diǎn)計(jì)算結(jié)果圖5.8 15個(gè)隱層實(shí)驗(yàn)結(jié)果(單位:縱軸個(gè)數(shù),橫軸順序表示每隔0.1地區(qū)間)注:對(duì)照表5.10,橫軸表示0到1區(qū)間,比如1表示0到0.1計(jì)算結(jié)果分布,縱軸表示個(gè)數(shù);系列1表示非異常點(diǎn)計(jì)算結(jié)果,系列2表示異常點(diǎn)計(jì)算結(jié)果圖5.9 25個(gè)隱層實(shí)驗(yàn)結(jié)果通過(guò)表5.8、表5.9、表5.10、 圖5.7、圖5.8、圖5.9觀察分析,數(shù)據(jù)依然呈現(xiàn)之前實(shí)驗(yàn)地分布情況,不是BP算法隱層太多地問(wèn)題。5.5.3對(duì)實(shí)驗(yàn)三調(diào)整隱層實(shí)驗(yàn)分別把隱層單元改為5、15、25分別按實(shí)驗(yàn)三方案做實(shí)驗(yàn)。4000組測(cè)試數(shù)據(jù)。下面為計(jì)算結(jié)果分布。結(jié)果如表5.11至表5.13。表5
59、.11 5個(gè)隱層實(shí)驗(yàn)結(jié)果 單位:個(gè)數(shù)分區(qū)0.0-0.10.1-0.20.2-0.30.3-0.40.4-0.50.5-0.60.6-0.70.7-0.80.8-0.90.9-1.0正常點(diǎn)分布0000207349560000異常點(diǎn)分布0000122188000表5.12 15個(gè)隱層實(shí)驗(yàn)結(jié)果 單位:個(gè)數(shù)分區(qū)0.0-0.10.1-0.20.2-0.30.3-0.40.4-0.50.5-0.60.6-0.70.7-0.80.8-0.90.9-1.0正常點(diǎn)分布427133616173681130000異常點(diǎn)分布43851028000000表5.13 25個(gè)隱層實(shí)驗(yàn)結(jié)果 單位:個(gè)數(shù)分區(qū)0.0-0.10.1
60、-0.20.2-0.30.3-0.40.4-0.50.5-0.60.6-0.70.7-0.80.8-0.90.9-1.0正常點(diǎn)計(jì)算分布00031614039911491829226異常點(diǎn)分布0000385079899(單位:縱軸個(gè)數(shù),橫軸順序表示每隔0.1地區(qū)間)注:對(duì)照表5.11,橫軸表示0到1區(qū)間,比如1表示0到0.1計(jì)算結(jié)果分布,縱軸表示個(gè)數(shù);系列1表示非異常點(diǎn)計(jì)算結(jié)果,系列2表示異常點(diǎn)計(jì)算結(jié)果圖5.10 5個(gè)隱層實(shí)驗(yàn)結(jié)果(單位:縱軸個(gè)數(shù),橫軸順序表示每隔0.1地區(qū)間)注:對(duì)照表5.12,橫軸表示0到1區(qū)間,比如1表示0到0.1計(jì)算結(jié)果分布,縱軸表示個(gè)數(shù);系列1表示非異常點(diǎn)計(jì)算結(jié)果,系列
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東司法警官職業(yè)學(xué)院《新能源材料》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東省外語(yǔ)藝術(shù)職業(yè)學(xué)院《商務(wù)溝通與談判技巧》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東輕工職業(yè)技術(shù)學(xué)院《手繪插圖技法》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東農(nóng)工商職業(yè)技術(shù)學(xué)院《健康評(píng)估1》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東女子職業(yè)技術(shù)學(xué)院《作文教學(xué)設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東茂名健康職業(yè)學(xué)院《物理思維方法》2023-2024學(xué)年第一學(xué)期期末試卷
- 【原創(chuàng)】2013-2020學(xué)年高一生物(蘇教版)下學(xué)期期末復(fù)習(xí)試題(一)
- 【創(chuàng)新設(shè)計(jì)】2022年高三生物(人教版)一輪復(fù)習(xí)-基礎(chǔ)課時(shí)案45-細(xì)胞工程-考點(diǎn)探究
- 【經(jīng)濟(jì)貿(mào)易】大學(xué)《微觀經(jīng)濟(jì)學(xué)》課件
- 《創(chuàng)業(yè)企劃書》課件
- 2023年小學(xué)五年級(jí)數(shù)學(xué)上學(xué)期期末水平測(cè)試試卷(天河區(qū))
- 中考數(shù)學(xué)計(jì)算題100道
- 高壓變頻器整流變壓器
- 集團(tuán)資產(chǎn)重組實(shí)施方案
- 《新唯識(shí)論》儒佛會(huì)通思想研究
- 《減法教育》讀書筆記思維導(dǎo)圖PPT模板下載
- 慢性阻塞性肺疾病全球倡議(GOLD)
- 工程項(xiàng)目管理(第五版)叢培經(jīng) 第七章
- GB/T 33195-2016道路交通事故車輛速度鑒定
- GB/T 15176-1994插入式電子元器件用插座及其附件總規(guī)范
- GB/T 14383-2008鍛制承插焊和螺紋管件
評(píng)論
0/150
提交評(píng)論