支持向量機(jī)分類器的樣本特征選擇和參數(shù)選擇的聯(lián)合優(yōu)化_第1頁(yè)
支持向量機(jī)分類器的樣本特征選擇和參數(shù)選擇的聯(lián)合優(yōu)化_第2頁(yè)
支持向量機(jī)分類器的樣本特征選擇和參數(shù)選擇的聯(lián)合優(yōu)化_第3頁(yè)
支持向量機(jī)分類器的樣本特征選擇和參數(shù)選擇的聯(lián)合優(yōu)化_第4頁(yè)
支持向量機(jī)分類器的樣本特征選擇和參數(shù)選擇的聯(lián)合優(yōu)化_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

支持向量機(jī)分類器的樣本特征選擇和參數(shù)選擇的聯(lián)合優(yōu)化

1svm分類方法的選擇主要考在管理和控制波長(zhǎng)通信基礎(chǔ)設(shè)施的情況下,特定的波長(zhǎng)通信控制器用于描述和控制波長(zhǎng)網(wǎng)絡(luò)。在這一設(shè)備中,每個(gè)模塊單元的pcb結(jié)構(gòu)復(fù)雜,耦合程度高,其誤差呈現(xiàn)出復(fù)雜的特點(diǎn)。研究此類設(shè)備的故障診斷,不僅可以提高此類設(shè)備的維修保障水平、節(jié)約維修時(shí)間,而且能夠提高整個(gè)短波通信網(wǎng)的工作穩(wěn)定性。近年來(lái),基于支持向量機(jī)(SupportVectorMachine,SVM)的診斷方法得到了廣泛的關(guān)注。SVM基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,可以在有限樣本的基礎(chǔ)上取得良好的分類效果。故障分類器的性能與SVM的核參數(shù)和誤差懲罰參數(shù)有很大關(guān)系?,F(xiàn)有很多優(yōu)化SVM參數(shù)的方法。文獻(xiàn)提出了一種采用改進(jìn)的人工魚(yú)群算法實(shí)現(xiàn)SVM參數(shù)的優(yōu)化。文獻(xiàn)提出了采用反三角函數(shù)Logistic映射產(chǎn)生優(yōu)化變量,對(duì)優(yōu)化變量進(jìn)行遺傳搜索,實(shí)現(xiàn)SVM參數(shù)的優(yōu)化。另外,樣本特征子集的選擇也很重要。原始樣本特征集中不可避免地存在著一些與故障診斷不相關(guān)的特征和與其他特征相冗余的特征,從而增加了故障診斷的計(jì)算量,降低故障診斷的精度。因此,對(duì)原始樣本特征集必須進(jìn)行優(yōu)化選擇。文獻(xiàn)利用高光譜數(shù)據(jù)集進(jìn)行一系列分類算法分析后,得出特征的增加對(duì)SVM分類置信度按顯著性水平5%減少。文獻(xiàn)利用遺傳算法和最小二乘支持向量機(jī)的Wrapper方法選擇最優(yōu)特征子集。上述方法大部分僅對(duì)特征子集選取或?qū)VM參數(shù)進(jìn)行優(yōu)化。實(shí)際上,特征選擇與參數(shù)選擇在提高SVM分類性能上相互影響,對(duì)于特征選擇或參數(shù)選擇的單一優(yōu)化均無(wú)法充分發(fā)揮SVM的分類潛能。目前關(guān)于聯(lián)合優(yōu)化的研究相對(duì)較少,文獻(xiàn)提出采用免疫多向二進(jìn)制粒子群算法實(shí)現(xiàn)特征子集選取和SVM參數(shù)的共同優(yōu)化,但其搜索區(qū)間固定不變,使得參數(shù)的搜索精度較低。針對(duì)上述情況,本文提出了將特征選擇和參數(shù)選擇進(jìn)行聯(lián)合優(yōu)化的方法,該方法基于變尺度的混沌遺傳算法,將混沌運(yùn)動(dòng)的遍歷性和遺傳算法的高效并行計(jì)算能力相結(jié)合,并隨著尋優(yōu)次數(shù)的增長(zhǎng)動(dòng)態(tài)縮減尋優(yōu)區(qū)間,克服了傳統(tǒng)尋優(yōu)方法存在早熟收斂、非全局收斂以及后期收斂速度慢的弱點(diǎn)。2采用可變規(guī)?;旌线z傳算法法進(jìn)行聯(lián)合優(yōu)化2.1基于一維logistic映射的遺傳算法混沌是自然界廣泛存在的一種非線性現(xiàn)象,具有隨機(jī)性、遍歷性和初始條件敏感性等特點(diǎn),在一定范圍內(nèi)能夠按其自身的規(guī)律不重復(fù)地遍歷所有狀態(tài)。經(jīng)常與其他進(jìn)化算法結(jié)合使用,用于遺傳算法中以設(shè)計(jì)和保持演化群體的多樣性。常用的一維logistic映射為:其中,0≤x1≤1;k是迭代次數(shù),k=1,2,…;μ是控制參量,當(dāng)μ=4時(shí)系統(tǒng)完全處于混沌狀態(tài),此時(shí)xk在的范圍內(nèi)變化。2.2特征對(duì)于參數(shù)位串的搜索精度染色體編碼是指將尋優(yōu)問(wèn)題的解空間轉(zhuǎn)換成尋優(yōu)方法所能處理的搜索空間。本文使用二進(jìn)制編碼形式。將故障樣本的特征子集選擇和SVM的參數(shù)編在同一個(gè)染色體中,設(shè)pt={α1t,α2t,…,αut,β1t,β2t,…βvt,σ1t,σ2t,…,σwt}為第t代的一個(gè)染色體,αit(i=1,2,…,u)為特征子集選擇位串,βit(i=1,2,…,v)為懲罰參數(shù)位串,σit(i=1,2,…w)為核參數(shù)位串,αit,βit,σit=0/1。特征子集選擇位串位數(shù)長(zhǎng)度u等于特征的個(gè)數(shù),每一位代表一個(gè)特征,每位上的1表示選中該特征,0則表示不選中。參數(shù)位串位數(shù)長(zhǎng)度v和w由參數(shù)搜索精度決定。以懲罰參數(shù)位串為例,設(shè)懲罰參數(shù)C的搜索范圍是[a1,b1],用v位二進(jìn)制編碼,則C的搜索精度為(b1-a1)/2v。本文中參數(shù)位串位數(shù)長(zhǎng)度v和w均取16位。染色體譯碼是指將尋優(yōu)后的二進(jìn)制位串轉(zhuǎn)換成具體解空間的值。特征子集選擇位串中數(shù)值為1的位置代表選中相應(yīng)特征作為故障診斷訓(xùn)練樣本。C和γ參數(shù)位串的解碼方式相同,以懲罰參數(shù)位串映射到解空間為例,表達(dá)式為:其中,C∈[a1,b1];dec(β)是二進(jìn)制位串β的十進(jìn)制數(shù)值;v是位串β的長(zhǎng)度。2.3函數(shù)自變量的計(jì)算適應(yīng)度函數(shù)作為尋優(yōu)過(guò)程中極為重要的部分,決定了是否能夠合理地協(xié)調(diào)好過(guò)早收斂和無(wú)法收斂這對(duì)矛盾。本文針對(duì)的是SVM的優(yōu)化問(wèn)題,所以考慮以分類正確率和未選擇的特征個(gè)數(shù)這2個(gè)參數(shù)作為函數(shù)的自變量。由此建立以下的適應(yīng)度函數(shù):其中,R為分類正確率;N為未選擇特征個(gè)數(shù);φ和Ω是調(diào)節(jié)系數(shù)。本文中φ和Ω分別取2和0.00006,由式(3)可知,分類正確率越高,未選的特征個(gè)數(shù)越多,染色體的適應(yīng)度就越大。將染色體映射到解空間的故障診斷訓(xùn)練樣本、懲罰參數(shù)C和核參數(shù)γ,代入到SVM中進(jìn)行測(cè)試,可求得自變量R。2.4交叉和突變2.4.1交叉方法的選擇交叉操作是遺傳算法的主要進(jìn)化手段,傳統(tǒng)遺傳算法采用固定的交叉概率、隨機(jī)配對(duì)的方式進(jìn)行配對(duì)后交叉,不利于優(yōu)秀基因段的保留和較差基因段的淘汰。本文采用文獻(xiàn)中提出的自適應(yīng)交叉概率和相關(guān)性配對(duì)交叉,并采用“與/或”交叉法和單交叉點(diǎn)法相結(jié)合的方式實(shí)現(xiàn)交叉操作。(1)自適應(yīng)交叉概率不同的個(gè)體采用不同的交叉概率,對(duì)于適應(yīng)度高于群體平均適應(yīng)度的個(gè)體,給予較低的交叉概率,使它的優(yōu)秀基因段得以保留;反之適應(yīng)度低于平均適應(yīng)度的個(gè)體,給予較高的交叉概率,使之被淘汰。自適應(yīng)交叉概率為:其中,pc1=0.7;pc2=0.3;fmax為群體中的最大適應(yīng)度值;favg為群體的平均適應(yīng)度值;f為進(jìn)入交叉配對(duì)個(gè)體的適應(yīng)度值。由式(4)得最優(yōu)個(gè)體交叉概率0.3。當(dāng)個(gè)體適應(yīng)度小于或等于平均值時(shí),其交叉概率為0.7。這樣,優(yōu)秀個(gè)體有較大概率保留到下一代,差的個(gè)體有較大概率進(jìn)行交叉操作。(2)基于個(gè)體相關(guān)性的交叉配對(duì)1)不相關(guān)性指數(shù)個(gè)體的相關(guān)性:個(gè)體的相關(guān)性反映2個(gè)個(gè)體之間的關(guān)聯(lián)相似程度。考慮二進(jìn)制編碼的情況,設(shè)2個(gè)個(gè)體A={a1,a2,…,an}和B={b1,b2,…,bn},其中,ai,bi∈{0,1},i=1,2,…,n。個(gè)體A、B之間不相關(guān)指數(shù)為:事實(shí)上,r(A,B)表示A和B之間不同基因的數(shù)目,r(A,B)愈大,表明A和B的相關(guān)性愈小,對(duì)A和B進(jìn)行交叉時(shí)出現(xiàn)無(wú)效操作的可能性就愈小。2)個(gè)體間配對(duì)概率為方便敘述,定義種群中沒(méi)有進(jìn)行交叉操作的個(gè)體群為待配對(duì)群。在實(shí)際操作中,先隨機(jī)從待配對(duì)群中選取一個(gè)個(gè)體A,要在待配對(duì)群中選取另一個(gè)個(gè)體Bi和A進(jìn)行交叉操作。為避免近親繁殖產(chǎn)生的無(wú)效交叉,采取非等概率配對(duì)策略,給待配對(duì)群中不相關(guān)性指數(shù)大的個(gè)體賦予較大的被選概率。待配對(duì)群中個(gè)體Bi被選擇與個(gè)體A交叉配對(duì)的概率定義為:其中,λ為常數(shù),0≤λ≤1;L為待配對(duì)群中除去個(gè)體A后的總個(gè)數(shù)。待配對(duì)群中所有與A個(gè)體配對(duì)的個(gè)體B的平均被選概率為1/L,總概率為1。當(dāng)r(A,Bi)>ravg時(shí),Bi的被選概率大于平均被選概率;當(dāng)r(A,Bi)<ravg時(shí),Bi的被選概率小于平均被選概率。(3)交叉方法的選擇本文中的染色體是由特征子集選擇、懲罰參數(shù)和核參數(shù)3個(gè)部分位串組成,在選擇交叉點(diǎn)時(shí),對(duì)此三部分位串都要生成相應(yīng)的交叉點(diǎn),這樣才可以保證交叉操作能作用到特征選擇、懲罰參數(shù)和核參數(shù)位串上。懲罰參數(shù)和核參數(shù)位串采用傳統(tǒng)的單交叉點(diǎn)法,即隨機(jī)選擇一個(gè)交叉點(diǎn),子代在交叉點(diǎn)前面的基因從一個(gè)父代基因那里得到,后面的部分從另一個(gè)父代基因那里得到。特征選擇位串每位均代表一個(gè)特征,前后沒(méi)有數(shù)量級(jí)的關(guān)系,不宜采用單交叉點(diǎn)法。采用“與或”交叉法,即對(duì)父代按位“與”邏輯運(yùn)算產(chǎn)生一子代X;按位“或”邏輯運(yùn)算產(chǎn)生另一子代Y,確保交叉操作的有效性。2.4.2變異操作變異采用傳統(tǒng)遺傳算法的變異操作算子,使得染色體的每一位都以相同的變異概率進(jìn)行位翻轉(zhuǎn)。2.5變尺度混沌搜索解空間的搜索區(qū)間愈大,優(yōu)化方法的搜索精度愈低,且失效可能性愈大,而且在相同區(qū)間內(nèi)盲目地重復(fù)搜索,會(huì)降低優(yōu)化效率。本文采用變尺度的混沌遺傳算法,以每次尋優(yōu)操作得到的本次操作最優(yōu)值為中心動(dòng)態(tài)地縮小區(qū)間,然后重復(fù)尋優(yōu)操作,直至找到全局最優(yōu)值。設(shè)當(dāng)前待尋優(yōu)參數(shù)C的搜索區(qū)間為[a1,b1],經(jīng)過(guò)一次尋優(yōu)操作后得到的本次操作最優(yōu)值為C*,按下式進(jìn)行變尺度操作:其中,η∈(0,0.5),η愈大,搜索區(qū)間縮減程度愈小;r是變尺度操作次數(shù)。為避免變量越界,作以下取值區(qū)間的限定:若a1r+1<a1r或a1r+1<0,責(zé)令a1r+1=a1r;b1r+1>b1r,責(zé)令b1r+1=b1r。尺度參數(shù)η的取值至關(guān)重要,變尺度混沌搜索的目的是讓算法在初期搜索范圍廣一些,以免過(guò)早陷入局部最優(yōu),同時(shí)讓算法在后期搜索范圍小一些,以提高搜索精度。根據(jù)這樣的要求,本文采用下式調(diào)整η的值:其中,r是當(dāng)前已經(jīng)進(jìn)行變尺度操作的次數(shù)。2.6特征變量選擇應(yīng)用變尺度混沌遺傳算法進(jìn)行聯(lián)合優(yōu)化的步驟如下:Step1以二進(jìn)制位串形式產(chǎn)生初始種群P(t)={p1t,p2t,…,pnt},其中,n是種群的規(guī)模;pit(i=1,2,…,n)為種群的第t代的一個(gè)個(gè)體。懲罰參數(shù)C和核參數(shù)γ的優(yōu)化區(qū)間分別為[a1,b1]、[a2,b2]。計(jì)算P(t)適應(yīng)值f(p0j)(j=1,2,…,n)。Step2將長(zhǎng)為m的位串pit按照特征選擇位串αit和參數(shù)位串βit、σit分成3段,按式(2)分別映射到區(qū)間中,代入式(1)中得到3個(gè)區(qū)間的新值,分別將其逆映射為長(zhǎng)度是o、p、q的位串,組合成長(zhǎng)度為m的新二進(jìn)制位串,產(chǎn)生一組新的種群。計(jì)算新種群適應(yīng)值f(p1j)(j=1,2,…,n)。Step3如果f(p1j)>f(p0j),則根據(jù)遺傳算法的復(fù)制運(yùn)算接受新個(gè)體。Step4根據(jù)本文中改進(jìn)的交叉運(yùn)算,對(duì)種群進(jìn)行交叉運(yùn)算。Step5根據(jù)遺傳算法中傳統(tǒng)的變異運(yùn)算,按概率pm進(jìn)行變異運(yùn)算。Step6對(duì)經(jīng)過(guò)復(fù)制、交叉和變異后的新種群求取適應(yīng)值,對(duì)適應(yīng)值提高的個(gè)體進(jìn)行替換,標(biāo)記性能最好的個(gè)體。Step7跳到Step2,重復(fù)Step2~Step6,如果種群最優(yōu)值在一定步數(shù)T1內(nèi)保持不變,則將最優(yōu)個(gè)體記為p*。如果新的最優(yōu)個(gè)體的適應(yīng)值f(p*new)和當(dāng)前最優(yōu)個(gè)體的適應(yīng)值f(p*)滿足f(p*new)-f(p*)<ε?f(p*),ε為一較小正數(shù),即可認(rèn)為最優(yōu)值保持不變。Step8進(jìn)行變尺度操作(注意的是變尺度操作不包括特征選擇部分)。Step9在變尺度后的搜索范圍內(nèi)產(chǎn)生新種群,重復(fù)Step2~Step7的操作(注意的是特征選擇部分的混沌變換只適用在第一次變尺度操作前,之后的變尺度操作后特征選擇部分直接進(jìn)入交叉變異步驟),直到最優(yōu)個(gè)體p*在T2次內(nèi)保持不變,則停止變尺度操作,整個(gè)尋優(yōu)操作結(jié)束。在上述步驟中,迭代次數(shù)T1和T2的選取至關(guān)重要,若次數(shù)太少,方法易陷入早熟狀態(tài),反之將降低尋優(yōu)效率,本文中T1=15,T2=10。特征選擇部分尋優(yōu)目的是篩選最優(yōu)的訓(xùn)練樣本,且每一位代表一個(gè)特征,不需要進(jìn)行變尺度操作;同時(shí),不同的訓(xùn)練樣本對(duì)應(yīng)的SVM最優(yōu)參數(shù)存在較大差異,因此一旦SVM參數(shù)的搜索范圍縮減以后,訓(xùn)練樣本的變化不適合采用隨機(jī)變換的混沌方程,而應(yīng)直接跳到遺傳算法的交叉變異階段進(jìn)行聯(lián)合優(yōu)化。3變異概率pm法分析模型為驗(yàn)證此尋優(yōu)方法的有效性,對(duì)短波通信控制器主控電路板故障數(shù)據(jù)進(jìn)行了分析,該組數(shù)據(jù)通過(guò)邏輯電路故障仿真板卡的跳線開(kāi)關(guān)來(lái)設(shè)置故障測(cè)得。故障數(shù)據(jù)中共有7種故障以及正常共8種狀態(tài)。數(shù)據(jù)集中共有240個(gè)故障樣本,隨機(jī)選取100個(gè)樣本作為SVM訓(xùn)練集,余下的140個(gè)樣本作為SVM測(cè)試集。變異操作保證了種群的多樣性,有利于方法跳出局部最優(yōu)解,避免早熟。但若變異概率過(guò)大,不利于優(yōu)秀個(gè)體的保留,反之,若變異概率過(guò)小,變異操作的有效性將會(huì)削弱。本實(shí)驗(yàn)分別設(shè)置變異概率pm=0.05,0.1,0.2,0.5,求取不同變異概率下最優(yōu)適應(yīng)值,從圖1可以看到,當(dāng)pm=0.1時(shí)適應(yīng)值最大,最后確定變異概率pm取值為0.1。為驗(yàn)證本文方法的有效性,對(duì)4種方法進(jìn)行對(duì)比:方法1為本文提出的方法;方法2為使用改進(jìn)的遺傳算法進(jìn)行特征選擇;方法3為使用混沌遺傳算法進(jìn)行參數(shù)優(yōu)化;方法4為使用傳統(tǒng)遺傳算法進(jìn)行聯(lián)合優(yōu)化。本文方法的驗(yàn)證在Matlab2010平臺(tái)實(shí)現(xiàn),SVM的核函數(shù)采用徑向基函數(shù)(RBF),SVM程序段采用OSU_SVM3.0工具箱內(nèi)自帶函數(shù)。4種對(duì)比方法的程序段在Matlab下自行編寫。在本實(shí)驗(yàn)中:初始種群大小設(shè)為40,SVM參數(shù)采用16bit編碼,參數(shù)初始尋優(yōu)區(qū)間為,變異概率pm為0.1。方法1和方法2中自適應(yīng)交叉概率為Pmax=0.7,Pmin=0.3。方法3和方法4的交叉概率為0.3。對(duì)于方法1和方法3,2.6節(jié)中提到的迭代次數(shù)T1=15,T2=10。方法2和方法4中的遺傳代數(shù)為250。圖2顯示了4種方法隨進(jìn)化代數(shù)的增加搜索到的最優(yōu)適應(yīng)值變化情況。實(shí)驗(yàn)結(jié)果如表1所示。由圖2可以看出,本文提出方法搜索到的適應(yīng)值最大,而方法4過(guò)早進(jìn)入了早熟狀態(tài),其他2種方法的搜索結(jié)果也不是很理想。從表1可以看出,由式(3)得出的適應(yīng)值將分類性能的優(yōu)劣差距加以放大,使得優(yōu)劣的差異更加明顯,這樣更加有利于優(yōu)秀個(gè)體的保留。與僅優(yōu)化特征子集選取的方法相比較,本文提出的方法在選取大致相同數(shù)目的特征子集條件下,通過(guò)優(yōu)化SVM參數(shù),能明顯提高分類正確率;與僅優(yōu)化SVM參數(shù)的方法相比較,本文提出的方法不但在減少特征數(shù)方面有較大的優(yōu)勢(shì),而且其分類正確率更高;與利用傳統(tǒng)遺傳算法進(jìn)行聯(lián)合優(yōu)化的方法相比較,本文提出的方法在分類正確率上有明顯提高,這是因?yàn)楸疚姆椒ǜ鶕?jù)各優(yōu)化對(duì)象不同的特點(diǎn),采用不同的混沌映射方法和交叉策略,減少了尋優(yōu)操作的早熟和交叉操作失效的可能性,使得分類性能

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論