版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、.基于改進SFS特征選擇BP識別算法-電氣論文基于改進SFS特征選擇BP識別算法 朱旭東,梁光明,馮雁(國防科學(xué)技術(shù)大學(xué)電子科學(xué)與工程學(xué)院,湖南長沙410073)摘要:特征選擇在BP神經(jīng)網(wǎng)絡(luò)算法中起著重要作用,順序前向選擇算法(SFS算法)利用前向搜索疊加的方式,從眾多的原始特征中獲得對分類識別算法最有效的主要特征,實現(xiàn)樣本特征維數(shù)壓縮。提出一種改進SFS特征選擇算法,設(shè)計了加權(quán)判別函數(shù)和測試反饋停止準(zhǔn)則。實驗證明,改進算法能有效壓縮樣本特征維數(shù),提高BP 網(wǎng)絡(luò)收斂速度和正確識別率。關(guān)鍵詞:特征選擇;SFS;BP網(wǎng)絡(luò);收斂速度中圖分類號:TN911?34;TP391.4 文獻標(biāo)識碼:A 文章編
2、號:1004?373X(2015)12?0001?04收稿日期:2014?12?25基金項目:湖南省創(chuàng)新基金支持項目(202c26214300674)0 引言一個完善的BP神經(jīng)網(wǎng)絡(luò)識別系統(tǒng)中,特征選擇是不可缺少的一個重要技術(shù)環(huán)節(jié),它一般處于樣本特征數(shù)據(jù)采集和識別算法兩大環(huán)節(jié)之間,與后續(xù)的BP神經(jīng)網(wǎng)絡(luò)分類算法的性能息息相關(guān),是模式識別領(lǐng)域研究的核心內(nèi)容之一。近幾年來,在數(shù)據(jù)挖掘的機器學(xué)習(xí)領(lǐng)域所涉及的維數(shù)都比較高,所提取的特征不能滿足不同類的樣本差別較大,而同類的樣本差別較小的特點,或者提取的特征彼此相關(guān)性很大,并且存在很多冗余的特征。另外,當(dāng)樣本特征維數(shù)增加到一定值以后若是再繼續(xù)增加,反而會導(dǎo)致
3、分類識別算法識別率變差,這些不足嚴(yán)重影響到分類識別算法性能。特征選擇的任務(wù)就是從原始特征中挑選出對識別算法最有效且數(shù)目最少的特征,去除噪音特征和冗余不相關(guān)的特征,實現(xiàn)樣本特征空間維數(shù)的簡化,減少識別算法運算復(fù)雜度和系統(tǒng)運算時間,提高網(wǎng)絡(luò)收斂速度。因此,特征選擇在BP神經(jīng)網(wǎng)絡(luò)算法中起著重要作用。一般情況下,一個完整的特征選擇算法包括4個要素:搜索起點和方向,搜索策略,特征評估函數(shù)和算法停止準(zhǔn)則。文獻1?4提出了SFS特征選擇的算法,文獻5提出了基于一種特征判別函數(shù)的SFS 特征選擇算法,并在BP 網(wǎng)絡(luò)和向量機識別系統(tǒng)中進行了驗證;本文在此基礎(chǔ)上,設(shè)計了加權(quán)判別函數(shù)和測試反饋停止準(zhǔn)則等改進方法,使
4、特征選擇算法更為合理、規(guī)范,選出的優(yōu)秀特征子集更為有效和精簡。1 SFS 算法模型和缺陷分析順序前向選擇算法(SFS)是一種簡單的自下而上的搜索方法5,首先把目標(biāo)特征集初始化為空集合,然后根據(jù)所設(shè)立的評價規(guī)則函數(shù)處理原始特征集合中的每一個特征,比較每個特征的函數(shù)值,選擇其中函數(shù)值最大的對應(yīng)特征加入目標(biāo)特征子集。然后在保留這個入選特征的基礎(chǔ)上重復(fù)上面的過程,從原始特征集剩余的特征中循環(huán)選擇剩余的特征與入選的特征匹配,比較組合特征所得到的函數(shù)值,選擇與入選特征組合所得到的評價函數(shù)值最大的特征加入目標(biāo)特征子集。按照順序前向選擇方式重復(fù)以上的選擇步驟,直到維數(shù)達(dá)到規(guī)定的最大維數(shù)6。作為一種最基本的貪心
5、算法,該算法要求每次選擇的特征都能使加入后的新特征子集最優(yōu)7。具體的算法描述如下:假設(shè)原始特征集有n 個特征,表示為:fd ,1dn,設(shè)立特征評估準(zhǔn)則函數(shù)為: 式中:M 表示樣本所含的類別;i 和j 分別表示第i 類和第j 類的類內(nèi)特征向量均值;i2 和j2 分別表示第i 類和第j 類的類內(nèi)方差5。Step1: 將目標(biāo)特征子集Xk初始化為空,即Xk= ? 。Step2: 計算原始特征集F ( f1,f2 ,?,fn ) 中每一個特征fd 的函數(shù)評價函數(shù)值FDR( fd ) ,找到其中最大的函數(shù)值FDR( fa ) =max FDR( fd ) ,將FDR( fa ) 所對應(yīng)的特征fa 加入目標(biāo)
6、特征子集Xk;Step3:將其余未入選的n-1個特征依次與已入選特征fa 匹配,得到匹配后的組合特征的準(zhǔn)則函數(shù)值FDR的大小按照升序排序,如果:FDR(Xk ?F1) FDR(Xk ?F2) ? FDR(Xk ?Fn - 1)(2)則將能使FDR 值最大的特征加入到目標(biāo)特征子集Xk中,得到更新后的目標(biāo)特征子集:Xk = Xk ? F1 (3)Step4:按照Step3的思想,依次增加能使FDR 值最大的的特征到目標(biāo)特征子集Xk 中,每次只增加一個特征,直到目標(biāo)特征子集的數(shù)量達(dá)到設(shè)定的最大的L 值的水平,從而得到更新后最終的目標(biāo)特征子集Xk。通過順序前向選擇算法更新目標(biāo)特征子集,使目標(biāo)特征子集幾
7、乎包含原始特征集中的所有最優(yōu)特征,更能準(zhǔn)確地代表原始特征集,過濾掉大部分的噪聲和冗余特征,增加了分類的有效性,算法計算量較小。但是,與此同時,SFS 算法也存在著明顯的缺陷:現(xiàn)有的特征評估準(zhǔn)則函數(shù)公式區(qū)分度不夠好,還有待進一步完善;傳統(tǒng)的算法停止準(zhǔn)則是建立在預(yù)先憑借經(jīng)驗設(shè)立特征子集最大維數(shù),當(dāng)目標(biāo)特征子集的特征維數(shù)達(dá)到預(yù)先設(shè)定最大維數(shù)時停止搜索運算。該種方法武斷性強,并沒有考慮客觀實驗數(shù)據(jù)的差異性,可以進一步根據(jù)需要進行停止準(zhǔn)則的改進;算法沒有充分地考慮目標(biāo)特征子集已入選的特征與特征之間的相關(guān)性。針對以上問題,需要在原SFS算法的基礎(chǔ)上進行必要的改進。2 改進算法2.1 SFS判別函數(shù)公式加權(quán)
8、改進式(1)給出的判別函數(shù)FDR 是類與類之間的差異性和類內(nèi)一致性的比值,F(xiàn)DR值越大表示兩類之間的差別性越大。分子i 和j 分別表示第i 類和第j 類的類內(nèi)特征向量均值,(i-j)2代表各類別之間的差異性,(i-j)2越大FDR 值越大;分母i2 和j2 分別表示第i類和第j 類的類內(nèi)方差,i2 - j2 代表的是各自類內(nèi)的分布一致性。i2 和j2 各自的值越小,F(xiàn)DR值就越大。分母i2 - j2 不能很好地表現(xiàn)第i 類和第j 類的各自的類內(nèi)一致性,還可能出現(xiàn)負(fù)數(shù)的情況,并且顯然沒有考慮到各類別的類內(nèi)方差可能存在個別偏大的情況。因此,可以通過改進判別函數(shù)FDR 的公式來解決上述這些問題。改進
9、的判別公式FDR 如下所示: 式中:M 表示樣本所含的類別;i 和j 分別表示第i 類和第j 類的類內(nèi)特征向量均值;i2 和j2 分別表示第i類和第j 類的類內(nèi)方差2,a,b (0,1 。式(4)FDR 是在原有式(1)FDR 的基礎(chǔ)上把公式的分母進行了一些改進。如果想FDR 值很大,就要求公式分母上各類別的類內(nèi)方差i2 和j2 的值都要很小,要求各類別的類內(nèi)一致性要很高,但是在實際的工程實驗時,不能保證所有數(shù)據(jù)樣本類別的類內(nèi)方差都能符合要求,總是存在少部分類別的類內(nèi)方差可能偏大。因此,在判別公式分母各類別的類內(nèi)方差i2 和j2 前分別加個取值在(0,1 的系數(shù),當(dāng)出現(xiàn)個別類內(nèi)方差i2和j2
10、過大的情況時,適當(dāng)?shù)販p小相應(yīng)類別方差系數(shù)的取值,這樣就能保證判別公式FDR 的值很大;另外,將判別公式分母i2 和j2 之間由“ - ”變成“ + ”更能準(zhǔn)確地表達(dá)判別函數(shù)的函數(shù)值大小與各類別的類內(nèi)一致性的關(guān)系。判別公式要求只有各類別的類內(nèi)一致性同時很高,即各類別的類內(nèi)方差i2 和j2 的值同時很小,函數(shù)值FDR 才能最大。綜上所述,改進后的FDR 判別函數(shù)能更好地描述各類別之間的區(qū)別性,判別函數(shù)FDR 值越大,各類別的差別性就越大。判別函數(shù)FDR為選擇最優(yōu)特征組合提供了更科學(xué)、更合理和更準(zhǔn)確的衡量標(biāo)尺。2.2 基于測試反饋的SFS算法停止準(zhǔn)則改進原SFS 算法停止準(zhǔn)則是憑借經(jīng)驗預(yù)先設(shè)置特征子
11、集最大維數(shù),當(dāng)目標(biāo)特征子集的特征數(shù)量達(dá)到預(yù)先設(shè)置的最大維數(shù)時,強行停止搜索運算。這樣的停止準(zhǔn)則武斷性強,沒有考慮到實際數(shù)據(jù)的差異性和實驗環(huán)境的復(fù)雜性,算法的預(yù)期效果會受到影響,得到的最優(yōu)特征子集的有效性和科學(xué)性往往會打折扣。針對這個缺陷,本文提出了一種基于分類正確率反饋的SFS算法的停止準(zhǔn)則,根據(jù)入選特征子集的特征依次用BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練所有樣本,在測試集上用對應(yīng)的特征測試,如果在特征選擇測試中前后幾次的分類正確率差值平均值小于設(shè)定的閾值,說明特征子集的測試正確率進入了峰值,可以停止搜索算法。具體基于分類正確率反饋的SFS 停止準(zhǔn)則算法如下:Step1:設(shè)置正確率浮動門限閾值為0 ,初始化目標(biāo)特
12、征子集Xk 為空,即Xk = ? ;Step2:利用SFS 算法依次從原始特征集F =Fj ,j = 1,2,N 中遴選出與Xk 中特征匹配的判別函數(shù)值最大的特征加入特征子集Xk ,得到更新后的最優(yōu)特征子集Xk =s1,s2 ,sm :1 m N ;Step3:將匹配更新后最優(yōu)特征子集Xk 的訓(xùn)練樣本送入BP 網(wǎng)絡(luò)訓(xùn)練,當(dāng)訓(xùn)練次數(shù)大于500 次時,停止訓(xùn)練,得到與最優(yōu)特征子集Xk 中維數(shù)相對應(yīng)的m 個訓(xùn)練模型M =Mode1,Mode2 ,Modem 。將訓(xùn)練模型M 在測試集上得到m 個對應(yīng)特征的分類準(zhǔn)確度R =1,2 ,m ;用m ,m + 1 和m + 2 分別表示特征子集Xk =s1,s
13、2 ,sm ,Xk =s1,s2 ,sm ,sm + 1 和Xk =s1,s2 ,sm ,sm + 1,sm + 2 時經(jīng)測試集得到的與Xk 特征維數(shù)相對應(yīng)的BP網(wǎng)絡(luò)分類準(zhǔn)確度;Step4:如果Max| a | m + 1 - ai ,| a | m + 2 - am + 1 0 ,算法停止搜索。否則,轉(zhuǎn)到Step2?;跍y試反饋的算法停止準(zhǔn)則是將選擇的最優(yōu)特征送入BP網(wǎng)絡(luò)測試所選特征相對應(yīng)的分類準(zhǔn)確度,并將結(jié)果反饋回SFS算法,SFS算法根據(jù)反饋的情況決定是否繼續(xù)搜索?;跍y試反饋的算法停止準(zhǔn)則更加科學(xué)、規(guī)范和合理,能根據(jù)不同的實驗數(shù)據(jù)采取智能的算法停止策略,泛化性更強,準(zhǔn)確性更好,應(yīng)用性更
14、廣泛。3 實驗結(jié)果及分析仿真平臺主要利用Matlab軟件,針對給定的數(shù)據(jù)樣本建立BP神經(jīng)網(wǎng)絡(luò)識別系統(tǒng),用Matlab語言編寫應(yīng)用程序,通過比較改進前和改進后算法的仿真結(jié)果,分析改進算法的優(yōu)劣,證實了改進算法的可行性和有效性。為了對改進算法進行檢驗,保證數(shù)據(jù)的真實性,實驗采用醫(yī)學(xué)顯微鏡醫(yī)學(xué)檢驗樣本對算法進行了驗證,數(shù)據(jù)庫為尿沉渣細(xì)胞,共14類,形狀、紋理、顏色等特征共90 維,從2 萬多個樣本中,選出了1 212 個訓(xùn)練樣本和151個測試樣本。實驗選用3 層的BP 網(wǎng)絡(luò)結(jié)構(gòu),輸入層節(jié)點的數(shù)量是根據(jù)每個樣本提取的維數(shù)來確定;中間的隱含層節(jié)點數(shù)根據(jù)經(jīng)驗選擇為2×輸入特征維數(shù)+2;輸出層節(jié)點
15、數(shù)根據(jù)分類的數(shù)量選擇為14,代表14類細(xì)胞。這是典型的3層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。隱含層的激活函數(shù)和輸出層的輸出函數(shù)都采用tansig,訓(xùn)練函數(shù)選擇trainrp函數(shù),輸出層傳輸函數(shù)采用purelin,訓(xùn)練步數(shù)為500,目標(biāo)誤差精度是0.001。建立好實驗環(huán)境后,根據(jù)特征選擇相應(yīng)的維數(shù)將訓(xùn)練樣本送入BP網(wǎng)絡(luò)進行訓(xùn)練構(gòu)造與選擇最優(yōu)特征維數(shù)相對應(yīng)的模型,利用特征選擇相對應(yīng)維數(shù)的模型對測試集進行測試得到相應(yīng)的BP識別正確率,其性能曲線如圖1所示。圖中橫坐標(biāo)表示最優(yōu)特征選擇的維數(shù),縱坐標(biāo)表示與選擇最優(yōu)特征維數(shù)相對應(yīng)的BP算法識別正確率。圖1為原始全部特征、原SFS、改進SFS特征選擇維數(shù)與相應(yīng)BP網(wǎng)絡(luò)識別正
16、確率對比。 如圖2 所示是Matlab 程序生成的各類最終識別結(jié)果的混淆矩陣,測試樣本經(jīng)過BP網(wǎng)絡(luò)模型測試驗證得到詳細(xì)的各類別樣本的正確識別數(shù)據(jù)。數(shù)據(jù)主要分成3部分,分別記錄全部特征、原SFS特征選擇和改進SFS特征選擇BP算法的各類別樣本的正確識別率。原SFS和改進SFS特征選擇最終選擇的最優(yōu)特征子集的數(shù)量分別是40維和42維。各部分表格中加顏色的各區(qū)域是各類別樣本被正確識別的數(shù)量,最右側(cè)一列是各類別被正確識別比例,每個部分的右下角加紅的數(shù)據(jù)是記錄各部分算法的平均正確識別率,可以清楚對比地看出3種算法的各類別樣本的識別情況。實驗中分別記錄全部特征?BP算法、原SFS特征選擇?BP算法和改進S
17、FS特征選擇?BP算法的最終結(jié)果,將各算法數(shù)據(jù)結(jié)果分別在樣本特征選擇維數(shù)、迭代步數(shù)和正確識別率進行對比,對比結(jié)果見表1。 根據(jù)圖1 和圖2,改進SFS 特征選擇的最優(yōu)特征是42維,比全部特征90維少了38,但是比原SFS算法40維多了2維特征;在正確率的對比上,改進SFS特征選擇BP識別率比全部特征BP識別率略低一點,但是比原SFS識別率高。由圖2和表1可知,改進的SFS特征選擇BP算法的迭代步數(shù)是100次,比全部特征?BP網(wǎng)絡(luò)的迭代步數(shù)少20次,比原SFS?BP算法迭代步數(shù)120次少了20次;在正確率方面,改進的SFS特征選擇的BP算法正確識別率比全部特征?BP算法正確識別率少了0.613
18、2%,基本接近全部特征?BP算法識別率,比原SFS?BP算法的識別率高0.657 3%。綜上所述,改進SFS特征選擇成功縮減了樣本特征維數(shù),由全部特征的90維壓縮到了42維,過濾掉了大部分的噪聲和冗余特征,減小了BP神經(jīng)網(wǎng)絡(luò)的運算復(fù)雜度,并且基本接近全部特征的BP算法識別率,比原始全部特征BP 算法識別率僅少0.613 2%;改進SFS 算法選擇的特征比原SFS 選擇的特征多了2 維,但是改進SFS的BP識別率比原SFS?BP識別率提高了0.659 1%,迭代步數(shù)也少了20次。綜合衡量,不難看出,基于改進SFS特征選擇?BP識別算法比原SFS?BP算法和原始全部特征的BP算法更為科學(xué)、合理和可
19、行。4 結(jié)語本文通過設(shè)計加權(quán)判別函數(shù)和測試反饋停止準(zhǔn)則等方法改進SFS特征選擇算法,充分考慮到各類別樣本的類內(nèi)方差可能存在個別偏大的情況,采取判別函數(shù)系數(shù)加權(quán)的方法來調(diào)整類內(nèi)方差值,又提出了基于測試反饋的SFS算法停止準(zhǔn)則,克服了原來的預(yù)先設(shè)定閾值的缺陷。實驗證明,改進算法能有效壓縮樣本特征維數(shù),提高BP網(wǎng)絡(luò)收斂速度和正確識別率。作者簡介:朱旭東(1982),男,吉林雙遼人,碩士研究生。主要研究方向為信號處理。梁光明(1970),男,湖南漣源人,副教授,碩士生導(dǎo)師。主要研究方向為信號處理。馮雁(1984),男,廣西貴港人,碩士研究生。主要研究方向為信號處理。參考文獻1 MENEGATTI E,PRETTO A,PAGELLO E. Testing onmidirec? tional vision ? based Mont Carlo localization under occlusion C/ Proceeding of IEEE/RSJ 2004 International Conference on Intelligent Robots and Systems. S.l.:IEEE,2004,3:24
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度木材綜合利用技術(shù)研發(fā)合同樣本7篇
- 2025年加盟商店面維護協(xié)議
- 2025版巡游出租車特許經(jīng)營合同修訂版五3篇
- 2025版家居建材銷售合同終止與綠色環(huán)保認(rèn)證協(xié)議
- 2025年度船舶港口日常保潔與維護服務(wù)合同3篇
- 五氧化二釩項目評價分析報告
- 二零二五年度能源合同解除協(xié)議
- 二零二五年度出租車租賃合同司機休息區(qū)域與設(shè)施協(xié)議
- 二零二五年度海域使用權(quán)租賃及海洋資源綜合利用技術(shù)服務(wù)合同
- 二零二五年度股東變更后的董事會組成與授權(quán)協(xié)議
- 中國聯(lián)合網(wǎng)絡(luò)通信有限公司招聘筆試題庫2024
- 【社會工作介入精神障礙社區(qū)康復(fù)問題探究的文獻綜述5800字】
- 節(jié)前停工停產(chǎn)與節(jié)后復(fù)工復(fù)產(chǎn)安全注意事項課件
- 設(shè)備管理績效考核細(xì)則
- 中國人民銀行清算總中心直屬企業(yè)2023年招聘筆試上岸歷年典型考題與考點剖析附帶答案詳解
- (正式版)SJT 11449-2024 集中空調(diào)電子計費信息系統(tǒng)工程技術(shù)規(guī)范
- 人教版四年級上冊加減乘除四則混合運算300題及答案
- 合成生物學(xué)技術(shù)在生物制藥中的應(yīng)用
- 消化系統(tǒng)疾病的負(fù)性情緒與心理護理
- 高考語文文學(xué)類閱讀分類訓(xùn)練:戲劇類(含答案)
- 協(xié)會監(jiān)事會工作報告大全(12篇)
評論
0/150
提交評論