版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、基于模擬退火方法的支持向量機參數(shù)確定及特征選擇Shih-Wei Lin a,b,*, Zne-Jung Leeb, Shih-Chieh Chen c, Tsung-Yuan Tseng ba Department of Information Management, Chang Gung University, No. 259 Wen-Hwa 1st Road, Kwei-Shan Tao-Yuan 333, Taiwan, ROCb Department of Information Management, Huafan University, No. 1 Huafan Road, Tai
2、pei, Taiwan, ROCc Department of Industrial Management, National Taiwan University of Science and Technology, No. 43 Keelung Road, Sec. 4, Taipei, Taiwan, ROCReceived 31 January 2007; received in revised form 6 October 2007; accepted 21 October 2007Available online 26 October 2007摘要支持向量機是一種新穎的分類法方法,它
3、在許多應(yīng)用中都極具價值。在支持向量機的訓(xùn)練過程中,核參數(shù)設(shè)置及特征選擇對分類準(zhǔn)確率具有顯著的影響。該研究的目的是找到最優(yōu)參數(shù)值,同時尋找一個不會降低支持向量機分類準(zhǔn)確率的特征子集。本研究提出了一種用于支持向量機中確定參數(shù)和特征選擇的模擬退火方法,命名為SA-SVM。為了衡量所提的SA SVM方法,從UCI機器學(xué)習(xí)庫中選用了一些數(shù)據(jù)集,用于計算分類準(zhǔn)確率。將所提方法與用于參數(shù)設(shè)置的傳統(tǒng)格搜索方法及其他多種方法進(jìn)行了比較。實驗結(jié)果表明,所提方法的分類準(zhǔn)確率超過了格搜索方法和其他方法。因此,SA-SVM在支持向量機的參數(shù)測定和特征選擇中很有用。關(guān)鍵詞:支持向量機; 模擬退火; 參數(shù)測定; 特征選擇1
4、 引言對分類問題已經(jīng)有了廣泛研究。對于一個給定的模型參數(shù)值的選擇,像數(shù)據(jù)不完整等眾多因素可能會影響分類的成果。以前的分類問題通常是用統(tǒng)計方法,如物流,回歸或判別分析等來處理。技術(shù)進(jìn)步導(dǎo)致了解決分類問題的新技術(shù), 包括決策樹,BP神經(jīng)網(wǎng)絡(luò),粗糙集理論和支持向量機(SVM)的產(chǎn)生。支持向量機是首先被Vapnik1開發(fā)的一個新興的數(shù)據(jù)分類技術(shù),并已在最近的分類問題2-9廣泛的應(yīng)用于各個領(lǐng)域。在支持向量機中,采用抽樣成本在訓(xùn)練階段產(chǎn)生分類模式。然后,分類是基于訓(xùn)練模式的基礎(chǔ)上完成的。在建立支持向量機模型中最大的困難是選擇核函數(shù)及其參數(shù)值。如果參數(shù)值設(shè)置的不合適,那么分類的結(jié)果將不是最優(yōu)的10。利用分化
5、與整合,低收入和高通過率和數(shù)據(jù)庫的光譜數(shù)據(jù),對原始數(shù)據(jù)及預(yù)處理的數(shù)據(jù)進(jìn)行分類,得到軸承條件。在復(fù)雜的分類領(lǐng)域,某些功能可能含有虛假相關(guān)性,它們阻礙數(shù)據(jù)的處理。此外,一些功能可能是多余的,因為他們補充的信息包含在其他功能里。冗余功能會延長計算時間,影響分類精度。因此,在分類過程中必須用最少的功能且快速,準(zhǔn)確,這時通過使用特征選擇實現(xiàn)目標(biāo)。特征選擇已用于提高分類性能,并減少數(shù)據(jù)噪聲11-13。如果沒有特征選擇而采用支持向量機,那么輸入的空間維數(shù)大,且數(shù)據(jù)不干凈,就會降低支持向量機的功能。因此,需要一個支持向量機擁有高效,穩(wěn)定的特征選擇方法,它忽略嘈雜的,不相關(guān)和冗余數(shù)據(jù),同時仍保留判別數(shù)據(jù)的權(quán)力。
6、特征提取采用原始數(shù)據(jù),以在支持向量機分類器中輸入。本研究整合了模擬退火(SA)為基礎(chǔ)支持向量機的方式來確定最優(yōu)的分類結(jié)果,被稱為模擬退火-支持向量機(SA-SVM),以上提出的的SA-SVM方法不僅僅可以得到更好的SVM參數(shù)值,也找到了特定問題的功能子集,從而最大限度地提高了SVM分類準(zhǔn)確率。這使兩個分離的最優(yōu)超平面既可采用線性,又可采用非線性分類。本文的其余部分組織如下:第二部分回顧關(guān)于支持向量機和特征選擇的相關(guān)文獻(xiàn),第三部分對以上提出的模擬退火-支持向量機(SA-SVM)進(jìn)行介紹,旨在改進(jìn)有或者無特征選擇的支持向量機參數(shù)。第四部分是對該實驗方法與現(xiàn)存的其他方法的結(jié)果進(jìn)行的比較。最后在第五部
7、分得出結(jié)論,以及給出未來研究的建議。2 文獻(xiàn)綜述2.1 支持向量機支持向量機可簡述如下14-16。設(shè)表示的訓(xùn)練數(shù)據(jù)集,其中X表示從該模式設(shè)置一些非空變量,表示目標(biāo)變量。支持向量機視圖在一個多維空間找出一個超平面,這個超平面的功能是作為數(shù)據(jù)分類的一個分離平面。考慮到超平面在某些點產(chǎn)生的空間H下,參數(shù)w和b被描述如下:,where (1)如果一個超平面滿足等式(1),那么就可以得到線性分離。這種情況下w和b就滿足以下條件: (2) 讓點到超平面的距離是。在分離超平面中包括一個最優(yōu)分類超平面(OSH,在兩邊的支持向量點中它擁有最大的距離。因為兩個支持向量點的距離為,而距離以上超平面的最小距離可以從等
8、式(2)中求得。超平面的邊距可以理解為這個超平面的推廣功能,這個超平面擁有在所有分離的超平面中最大的邊距。可以通過等式(2)和拉格朗日多項式得到其最小值。我們記,結(jié)合拉格朗日多項式和等式(2)得到以下最大化的等式: (3)其中且對于所有的都成立,并有 (4)二次規(guī)劃可用來解決這個最大化問題。給定一個方程滿足最大化方程(3),則超平面中可以寫成以下形式:其中支持向量點必須滿足等式(2)和。當(dāng)考慮到在約束等式(4)中的擴張,超平面的函數(shù)式可以寫成如下: (6)大部分情況下,數(shù)據(jù)是不可線性分離的,因此被映射到更高維的特征空間中。這就意味著如果數(shù)據(jù)不能在現(xiàn)有的維數(shù)空間中被嚴(yán)格的分離,那么支持向量機就要
9、把數(shù)據(jù)映射到更高維的空間中進(jìn)行分離。通過繪制一條非線性曲線,將輸入數(shù)據(jù)映射到高維空間。然后在特征空間中建立這個超平面。特征空間向量是建立在核K評價輸入模式的,其中。核函數(shù)之所以可以被應(yīng)用是因為所有的特征向量僅僅產(chǎn)生于點產(chǎn)品中。權(quán)重向量,成為功能空間的一個擴展,因此不再單獨對應(yīng)一個輸入空間向量。這個決定函數(shù)描述如下: (7)這個二次規(guī)劃方程為: (8)其中且對于所有的都成立,并有 (9)在尋找最優(yōu)方法中,幾個核函數(shù)幫助了支持向量。最常用的函數(shù)是多項式核,徑向基核和基礎(chǔ)放射核(RBF 1719。一般情況下,RBF最常用,因此它可以分類多維數(shù)據(jù),而不像線性核函數(shù)那樣。此外,RBF比多項式核有更少的參
10、數(shù)??傮w來說,RBF與其他核函數(shù)沒有明顯區(qū)別,因此,對于核函數(shù),RBF是一個很好的選擇。所以,本研究是在支持向量機中采用徑向基函數(shù)尋求最優(yōu)解。適應(yīng)于徑向基支持向量的兩個參數(shù)C和必須設(shè)置合理,參數(shù)C是懲罰因子,該參數(shù)C的值影響分類結(jié)果。如果C過大,則在訓(xùn)練階段的分類準(zhǔn)確率非常高,而在試驗階段的分類準(zhǔn)確率則很低;如果C過小,那么分類的準(zhǔn)確率很低,使得模型沒有用處。 相比參數(shù)C參數(shù)在分類結(jié)果上有更大的影響力,因為它的值影響在特征空間劃分結(jié)果。對于參數(shù)過多的值將會導(dǎo)致過度擬合,而不成比例的小值又會使得擬合結(jié)果偏小20。網(wǎng)絡(luò)搜索13,21是確定參數(shù)C和的最簡單方法。在搜索中通過對參數(shù)C和參數(shù)設(shè)置上限和下
11、限,或是跳躍間隔都可以使得搜索的準(zhǔn)確率達(dá)到很高。然而,這種搜索只是本地搜索,很有可能產(chǎn)生一個局部最優(yōu)。此外,如何設(shè)置搜索間隔也是一個問題。太大的搜索間隔會浪費計算能力,太小的搜索間隔可能得不到滿意的結(jié)果。為獲得最佳的方法,在支持向量機中的參數(shù)目前還在研究之中。除了普遍采用的網(wǎng)絡(luò)搜索技術(shù),其他的應(yīng)用在支持向量機中的用于選擇一個合適的參數(shù)的方法也在進(jìn)一步提高被改進(jìn)的可能性。這種F-評分方法采用型和型的誤差概念統(tǒng)計方法以及隨機森林(RF 22。Pai and Hong 23提出了一種結(jié)合遺傳算法(GA和支持向量機的方法,他們的模型模仿他們的染色體編碼遺傳算法產(chǎn)生的參數(shù)值設(shè)置為支持向量機。Pai an
12、d Hong 24,25還提出了一個遺傳算法用來得到支持向量機,并將其應(yīng)用到了實際的數(shù)據(jù)。然而他們的做法并不具有地址選擇功能,因此可能會排除最好的結(jié)果。2.2 特征選擇支持向量機的分類準(zhǔn)確率不僅僅由參數(shù)C和參數(shù)決定,其他的因素包括特征數(shù)據(jù)集的質(zhì)量也會有影響。例如,特征之間的相關(guān)性影響分類的結(jié)果;意外的重要特征的消除可能影響分類的準(zhǔn)確率。此外,一些數(shù)據(jù)集的某些特征可能一點影響也沒有,或者包含一個高級別的噪音。祛除這些功能可能提高搜索的準(zhǔn)確率。特征選擇方法可分為過濾器模型和包裝模型26,篩選模型26在調(diào)查其他間接表現(xiàn)的措施上利用統(tǒng)計技術(shù),如主成分分析(PCA,因子分析(FA,獨立成分分析(ICA和
13、判別分析(DA等,這些技術(shù)大部分是基于距離和信息的措施。Chen and Hsieh 27提出了潛在語義分析(LSA和網(wǎng)頁特征選擇(WPFA,這是與支持向量機技術(shù)相結(jié)合的屏幕特征。Gold et 28等人發(fā)明了貝葉斯支持向量分類器,它為了確定不相關(guān)功能的參數(shù)標(biāo)準(zhǔn)采用超參數(shù)值。Chapelle et 29等人研發(fā)了一種自動調(diào)整多個參數(shù),并應(yīng)用到主成分獲得支持向量機的功能。支持向量機是應(yīng)用在癌癥基因選擇分類中的一種特征選擇方法,這是被Guyon et 30等人稱作的支持向量機特征消除(SVM-RFE。因此,他們提出了應(yīng)用相關(guān)的方法來消除多余的功能,以提高支持向量機的特征消除RFE。擬議的方法不僅減
14、少了分類的數(shù)量,還保持了分類的精度。盡管過濾模型的分類速度很快,但它可能不會產(chǎn)生最優(yōu)特征子集26。特征選擇的最簡單形式是包裝模型,它按照表現(xiàn)的準(zhǔn)確率進(jìn)行分類。一些研究者認(rèn)為,如果最高的預(yù)測精度得到了最大限度的減少錯誤率和分類均衡的所有功能,包裝模型最合適不過了。分類器的最大目的是最大化的提高分類的準(zhǔn)確性。通過分類的特征應(yīng)用選擇最優(yōu)的特征。該包裝模型通常使用元啟發(fā)式辦法幫助尋找最優(yōu)特征子集。雖然元啟發(fā)式的方法是緩慢的,但是它能夠找到附近最優(yōu)的特征子集。Neumaan33等人觀察到特征選擇是監(jiān)督模式分類問題上的一個顯著的組合優(yōu)化問題。并在不同的凸函數(shù)基礎(chǔ)上提出了額外的正規(guī)化和嵌入式非線性選擇方法,
15、這是對于非凸不斷優(yōu)化問題的一個框架。Jack and Nandi 34 and Shon 35在篩選數(shù)據(jù)集的特征中應(yīng)用了遺傳算法,這個選擇數(shù)據(jù)集的特征被應(yīng)用到了支持向量機中的分類測試。Zhang 16等人提出了一種基于遺傳算法的方法來獲得一個在支持向量機監(jiān)測狀態(tài)的有利子集。然而,他們的方法沒有解決支持向量機的參數(shù)設(shè)置問題,因此可能會排除最優(yōu)的結(jié)果。Samanta36等人研發(fā)了一種遺傳算法用來改變支持向量機特征選擇中的徑向?qū)挾然鶇?shù),不過,由于他們的方法只搜索支持向量機的徑向基寬度,它也可能排除最佳參數(shù)的設(shè)定。據(jù)我們所知,很少有人能夠同時考慮到支持向量機中特征選擇和最佳參數(shù)的設(shè)定。3 支持向量機
16、-模擬退火方法模擬退火算法(SA是一個全局搜索算法,它首先是被Metropolis 37等人提出的,稍后又被Kirkpatrick 38等人推廣。模擬退火算法借助于最基本的冶金技術(shù)。隨著溫度的逐漸減少,分子慢慢結(jié)晶成低能量狀態(tài)。只要金屬能夠加熱到足夠高的初始溫度,而且它的冷卻速度足夠的慢,所有的晶粒就能夠達(dá)到最低的溫度。由Metropolis 37等人提出的模擬退火算法不僅能改善搜索的結(jié)果,而且能避免得到局部最優(yōu)結(jié)果。類似于金屬的冷卻,它的冷卻過程使得模擬退火銜接搜索結(jié)果,進(jìn)而達(dá)到最優(yōu)解。本研究提出的“隱藏和尋求-模擬退火”算法,首先是被Romeijn 39,40等人研發(fā)的,主要用于搜尋支持向
17、量機的參數(shù)值,并確定相應(yīng)的功能子集。“隱藏和尋求-模擬退火”算法,可以處理連續(xù)變量,使其能在可行界的范圍內(nèi)和收斂范圍內(nèi)找到最優(yōu)的解決方案?!半[藏和尋求-模擬退火”算法比傳統(tǒng)的模擬退火算法使用更少的參數(shù)。這些約束和目標(biāo)函數(shù)可以是不可微的,且可行域可以是凸的,甚至可以是斷開的。該算法是目前唯一的一個解決算法。通過一個隨機向量,它選擇一個可行域內(nèi)的點作為搜索過程的下一個迭代點,“隱藏和尋求-模擬退火”算法不同于傳統(tǒng)的模擬退火迭代算法,因為它產(chǎn)生的下一個迭代數(shù)據(jù)是在所有的解決方案地區(qū)之中,而傳統(tǒng)的迭代方法產(chǎn)生的下一個迭代數(shù)據(jù)是在臨區(qū)域?!半[藏和尋求-模擬退火”算法要求Metropolis為下一解決方案
18、選擇驗收規(guī)則和一個合適的模擬退火過程。不管如何使溫度迅速下降到零,當(dāng)前的解決方案總是可能得到一個最近的全局最優(yōu)解?!半[藏和尋求-模擬退火”算法與傳統(tǒng)的模擬退火算法最大的不同在于每當(dāng)找到一個解決方案時,前者總是立即執(zhí)行模擬退火,而不必等待電流退火周期的結(jié)束。但是在傳統(tǒng)的模擬退火算法中,它會減少跳躍退火的次數(shù),而是在每一個退火周期中會隨著溫度慢慢降低,通過逐漸減少跳躍周期,慢慢收斂到全局最優(yōu)解。因此“隱藏和尋求-模擬退火”算法比傳統(tǒng)的模擬退火算法能夠更迅速的得到全局最優(yōu)解。圖1展示了“隱藏和尋求-模擬退火”算法。圖1 “隱藏和尋求-模擬退火”算法。本研究提出了一種基于模擬退火的算法來尋找支持向量機
19、中的待定參數(shù)和特征選擇。稱為支持向量-模擬退火。為了尋找支持向量機中的最佳參數(shù),支持向量機-模擬退火算法的目標(biāo)函數(shù)是為了最大化的提高對檢測數(shù)據(jù)集的搜索精確率。這相當(dāng)于尋求一個最大解決方案的優(yōu)化問題。在解決最大化的問題時,如果下一個解決方案提高了目標(biāo)函數(shù)的值,那么它就可接受作為當(dāng)前可行的解決方案,并作為下一個解決方案是搜索出發(fā)點。如果下一個解決方案比當(dāng)前的解決方案的分類精確率低,那么就應(yīng)用Metropolis規(guī)則來決定是否采用下一個解決方案。在沒有特征選擇的情況下,兩個基本的決策變量C和是必要的。對于特征選擇,如果要決定n個特征,那么要建立 2 + n 個決策變量。每個參數(shù)的值賦為0或是1.如果
20、一個參數(shù)的值為0,那么相當(dāng)于它的功能沒有被選擇,相反,如果一個參數(shù)的值為1,則相當(dāng)于選擇了它的功能。圖2描述了此解決方案。如圖3所示,支持向量機-模擬退火算法的程序可簡述如下。首先,將當(dāng)前的溫度T設(shè)為,這是一個很大的數(shù)。最初的解決方案中,X是隨即產(chǎn)生的。在每次迭代中,以X為出發(fā)點,產(chǎn)生一個隨機向量作為下一個可行方案Y。讓目標(biāo)X作為X的目標(biāo)函數(shù)的值(例如,可以采用支持向量分類準(zhǔn)確率的值給定X),代表目標(biāo)X和目標(biāo)Y之間的差值,即。如果,X是當(dāng)前的解決方案,Y是下一個解決方案,那么用Y代替X的概率取決于。這個概率的獲得是通過生成一個隨機數(shù),如果就用Y代替X;如果則用Y代替X的概率為1;如果目標(biāo),就讓
21、,之后溫度立即下降。支持向量模擬退火的終止迭代次數(shù)就達(dá)到了。對于支持向量的最優(yōu)參數(shù)和最有益的功能子集,就由決定。圖3 支持向量-模擬退火的過程支持向量-模擬退火需要一個初始可行的解決方案。如果初始的解決方案產(chǎn)生于一個隨機方式,那么以后的迭代方案要進(jìn)一步完善,因為初始的解決方案并不是很好。為了避免這種問題,我們的研究采用了貪婪方法的概念。參數(shù)C和的值區(qū)域分為六個區(qū)域。區(qū)域的邊界作為初始方案的可能解決方案,產(chǎn)生的49個可能方案的測試如圖4所示。在這49個解決方案總最好的作為支持向量模擬退火的初始解決方案。如果不同的解決方案有相同的分類準(zhǔn)確率,那么選擇參數(shù)值C最小的,作為初始解決方案,如果C的值再相
22、同,那么就選擇的值最小的。圖4 貪婪算法4 實驗結(jié)果以上提出的支持向量模擬退火算法實在具有IV 3.0 GHz CPU, 512 MB RAM,和XP操作系統(tǒng)的英特爾奔騰筆記本上,通過VC+6.0軟件實現(xiàn)的。下面的數(shù)據(jù)集,是取自于UCI機器學(xué)習(xí)庫,被用來評估以上提出的支持向量模擬退火算法的表現(xiàn)。具體因素有Bupa live,Cleveland heart, Pima, Ionosphere,,Breast cancer, Boston housing,,Australian,Sonar,,Vowel,Vehicle and Glass 41,圖表1描述了這些數(shù)據(jù)集的特征??s放功能是用來阻止在小
23、的數(shù)據(jù)范圍內(nèi)產(chǎn)生大的數(shù)據(jù)變化,以及避免計算過程中的困難。實驗結(jié)果表明,縮放后的特征值提高了支持向量的準(zhǔn)確性。每個特征值的范圍可以通過公式(10)擴展到線性范圍或者是,其中V表示原始值,表示換算值,代表了特征值的上界,代表了特征值的下界。本研究規(guī)模特征值的范圍是。 (10)由Salzberg提出的K倍方法被用在此實驗中,其中K=1042,43。圖5說明了系統(tǒng)構(gòu)架。因為以上提出的支持向量-模擬退火算法是不確定的,該解決方案可能不等同于獲得了相同的數(shù)據(jù),因此,擬議的支持向量-模擬退火算法要對每個數(shù)據(jù)集執(zhí)行五次來計算平均分類準(zhǔn)確率。在沒有特征選擇的原始實驗,擬議的支持向量-模擬退火算法的參數(shù)值設(shè)置如下
24、:Liter = 300;為一個足夠大的數(shù),C = 1,35 000, 0.0001,32。在有特征選擇時,被應(yīng)用的特征選擇的數(shù)量是通過支持向量-模擬退火算法得到的。盡管C和的值是不變的,但是由于選擇的特征不同,那么得到的準(zhǔn)確率也是不同的。因此貪婪算法不能被用來搜索初始解,初始解是通過隨機產(chǎn)生的。由于該解決方案的空間是由特征的數(shù)量決定的,因此它比無特征選擇時大很多,迭代次數(shù)也必須要增加用來尋找更多的解決方案。所以Liter要增加到1000。沒有特征選擇的擬議的支持向量-模擬退火算法所得到的結(jié)果與Fung和Mangasarian 44通過幾個數(shù)據(jù)集提出的結(jié)果進(jìn)行了比較。他們采用牛頓支持向量機,常
25、規(guī)的支持向量機,和沒有特征選擇的拉格朗日支持向量機測試數(shù)據(jù)集。表2對他們的結(jié)果進(jìn)行了比較。擬議的支持向量-模擬退火算法結(jié)果中的5個平均準(zhǔn)確率超過了Fung和Mangasarian提出的算法準(zhǔn)確率。該擬議的支持向量-模擬退火算法似乎得到了最相應(yīng)的C和的值,在不同的數(shù)據(jù)集中產(chǎn)生了最高的數(shù)據(jù)分類準(zhǔn)確率。圖5 基于模擬退火的算法來尋找支持向量機中的待定參數(shù)和特征選擇的系統(tǒng)構(gòu)架此外,沒有特征選擇的擬議的支持向量-模擬退火算法還與Liao 17等人提出的在支持向量機中應(yīng)用三個核函數(shù),一個高斯核函數(shù),一個多項式核函數(shù),一個乙狀結(jié)腸核函數(shù)來測試從UCI中得到的幾個數(shù)據(jù)集進(jìn)行了比較。表3對這些結(jié)果進(jìn)行了展示,揭
26、示擬議的支持向量-模擬退火算法得到的結(jié)果優(yōu)于Liao 17等人提出的算法得到的結(jié)果。沒有特征選擇的擬議的支持向量-模擬退火算法之后和來自UCI的11個數(shù)據(jù)集的表現(xiàn)進(jìn)行了比較,實驗結(jié)果與網(wǎng)格搜索13,21的結(jié)果相比如表4所示。沒有特征選擇的擬議的支持向量-模擬退火算法在所有情況的檢測中都優(yōu)于網(wǎng)格搜索。每個分類的數(shù)據(jù)準(zhǔn)確率在具有特征選擇后都有了明顯的改善。這個結(jié)果揭示了在具有較少的特征時,好的搜索結(jié)果也是可以得到的,這就意味著,有些特征在搜索中是多余的或微不足道的。顯然,在不降低分類精度的情況下,支持向量-模擬退火算法可以同時找到最優(yōu)參數(shù)和一個功能子集。為了驗證擬議的支持向量-模擬退火算法的有效性
27、,我們用一對測試數(shù)據(jù)t來比較擬議的支持向量-模擬退火算法(有特征選擇和沒有特征選擇)與網(wǎng)格搜索算法。如表4所示,只有一個數(shù)據(jù)集中,沒有特征選擇的擬議的支持向量-模擬退火算法的表現(xiàn)沒有明顯的好于網(wǎng)格搜索。而帶有特征選擇的擬議的支持向量-模擬退火算法在所有的數(shù)據(jù)集中的表現(xiàn)都明顯好于網(wǎng)格搜索,因為所有的數(shù)據(jù)集中的P值都小于0.05.表5比較了有特征選擇和沒有特征選擇的支持向量-模擬退火算法的準(zhǔn)確率。由于所有數(shù)據(jù)集中的顯著性差異得來的P值都小于0.05,顯然,有特征選擇的支持向量-模擬退火算法要優(yōu)于沒有特征選擇的支持向量-模擬退火算法。表5同時還展示了有特征選擇和沒有特征選擇的支持向量模擬退火算法的計
28、算時間。有特征選擇的支持向量-模擬退火算法的Liter的值大于沒有特征選擇的支持向量-模擬退火算法的,所以前者的計算時間要大于后者的。為了展示支持向量-模擬退火算法選擇了多少特征,以及哪些特征被選擇了,表6展示了為Bupa live and Vowel數(shù)據(jù)集所選擇的10個特征。在Bupa live and Vowel數(shù)據(jù)集中原始的特征的數(shù)量是6和10,分析結(jié)果表明,并非所有的特征在特征選擇后都被用到支持向量-模擬退火算法模型中。此外,就像表5所示,特征選擇提高了分類準(zhǔn)確率。5 結(jié)論和未來研究工作本研究提出了一種基于模擬退火方法,它可以對連續(xù)決策變量進(jìn)行搜索,以優(yōu)化支持向量機的參數(shù)值,并獲得有用
29、的特征子集。然后,該最優(yōu)特征子集被用于訓(xùn)練和測試,以取得分類的最優(yōu)輸出。所取得結(jié)果與其他方法所得結(jié)果對比表明,所提SA-SVM方法提高了分類準(zhǔn)確率。通過在實驗中應(yīng)用特征選擇,SA-SVM方法被用于剔除無用的或不顯著的特征,從而有效地尋找更好的參數(shù)值。反過來,該過程改善了分類的總體輸出效果。本研究的實驗結(jié)果是在徑向基核函數(shù)基礎(chǔ)上取得的。然而,其他核參數(shù)也可以通過同樣的方法加以優(yōu)化。實驗結(jié)果是在UCI數(shù)據(jù)集上得到的,其他的公共數(shù)據(jù)集和實際問題在將來也可以用于對該方法進(jìn)行驗證和推廣。致謝作者感謝中國國家科學(xué)臺灣委員會對本研究的支持,合同號是NSC96-2416-H-211-002。參考文獻(xiàn)1 V.N
30、. Vapnik, The Nature of Statistical Learning Theory, Springer, New York, 1995.2 3 J. Diederich, A. Al-Ajmi, P. Yellowlees, Ex-ray: data mining and mental health, Appl. Soft Comput. 7 (2007 923928.4 I. Ko´kai, A. LO¨ rincz, Fast adapting value estimation-based hybrid architecture for search
31、ing the world-wide web, Appl. Soft Comput. 2 (2002 1123.5 J.-Z. Liang, SVM multi-classifier and web document classification, in: Proceedings of the Third International Conference on Machine Learning and Cybernetics, vol. 3, 2004, pp. 13471351.6 V. Mitra, C.-J. Wang, S. Banerjee, Text classification:
32、 a least square support vector machine approach, Appl. Soft Comput. 7(2007 908914.7 J. Ng, S. Gong, Composite support vector machines for detection of faces across views and pose estimation, Image Vision Comput. 20 (2002359368.8 8 K.-S. Shin, T.-S. Lee, H.-J. Kim, An application of support vector ma
33、chines in bankruptcy prediction model, Expert Syst. Appl. 28(2005 127135.9 G. Valentini, Gene expression data analysis of human lymphoma using support vector machines and output coding ensembles, Artif. Intell. Med. 26 (2002 281304.10 S.S. Keerthi, C.-J. Lin, Asymptotic behaviors of support vector m
34、achines with Gaussian kernel, Neural Comput. 15 (2003 16671689.11 K. Lee, V. Estivill-Castro, Feature extraction and gating techniques for ultrasonic shaft signal classification, Appl. Soft Comput. 7 (2007 156165.12 G. Valentini, M. Muselli, F. Ruffino, Cancer recognition with bagged ensembles of su
35、pport vector machines, Neurocomputing 56 (2004 461466.13 J. Wang, X. Wu, C. Zhang, Support vector machines based on k-means clustering for real-time business intelligence systems, Int. J. Business Intell. Data Mining 1 (2005 5464.14 15 B. SchO¨ lkopf, A.J. Smola, Learning with Kernels, MIT, Lon
36、don, 2002.16 L. Zhang, L.B. Jack, A.K. Nandi, Fault detection using genetic programming, Mech. Syst. Signal Process. 19 (2005 271289.17 18 H.-T. Lin, C.-J. Lin, A study on sigmoid kernels for SVM and the training of non-PSD kernels by SMO-type methods, Technical Report, University of National Taiwan
37、, Department of Computer Science and Information Engineering, March 2003, pp. 132.19 K.R. Mu¨ller, S. Mike, G. Ra¨tsch, K. Tsuda, B. Scho¨lkopf, An introduction to kernel-based learning algorithms, IEEE Trans. Neural Netw. 12 (2001181201.20 M. Pardo, G. Sberveglieri, Classification of
38、 electronic nose data with support vector machines, Sens. Actuators B: Chem. 107 (2005 730737.21 C.-W. Hsu, C.-C. Chang, C.-J. Lin, A practical guide to support vector classification. Technical Report, University of National Taiwan, Department of Computer Science and Information Engineering, July 20
39、03, pp. 112.22 Y. Wei, C.-J. Lin, Feature Extraction, Foundations and Applications, Springer, 2005.23 P.-F. Pai, W.-C. Hong, Forecasting regional electricity load based on recurrent support vector machines with genetic algorithms, Electric Power Syst. Res. 74 (2005 417425.24 P.-F. Pai, W.-C. Hong, S
40、upport vector machines with simulated annealing algorithms in electricity load forecasting, Energy Conversion Manage. 46 (2005 26692688.25 P.-F. Pai, W.-C. Hong, Software reliability forecasting by support vector machines with simulated annealing algorithms, J. Syst. Softw. 79 (2006747755.26 H. Liu,
41、 H. Motoda, Feature Selection for Knowledge Discovery and Data Mining, Kluwer Academic, Boston, 1998.27 R.-C. Chen, C.-H. Hsieh, Web page classification based on a support vector machine using a weighed vote schema, Expert Syst. Appl. 31 (2006 427435.28 C. Gold, A. Holub, P. Sollich, Bayesian approa
42、ch to feature selection and parameter tuning for support vector machine classifiers, Neural Netw. 18(2005 693701.29 O. Chapelle, V. Vapnik, O. Bousquet, S. Mukherjee, Choosing multiple parameters for support vector machines, Mach. Learn. 46 (2002 131159.30 I. Guyon, J. Weston, S. Barnhill, V. Vapnik
43、, Gene selection for cancer classification using support vector machines, Mach. Learn. 46 (2002 389422.31 Z.-X. Xie, Q.-H. Hu, D.-R. Yu, Improved feature selection algorithm based on SVM and correlation, Lecture Notes Comput. Sci. 3971 (2006 13731380.32 R. Kohavi, G.H. John, Wrappers for feature sub
44、set selection, Artif. Intell. 97 (1997 273324.33 J. Neumann, C. Schnorr, G. Steidl, Combined SVM-based feature selection and classification, Mach. Learn. 61 (2005 129150.34 L.B. Jack, A.K. Nandi, Fault detection using support vector machines and artificial neural networks, augmented by genetic algorithms, Mech. Syst. Signal Process. 16 (2002 373390.35 T. Shon, Y. Kim, C. Lee, J. Moon, A machine learning framework for network anomaly detection
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年浙科版七年級歷史下冊階段測試試卷
- 2025年湘師大新版九年級地理上冊月考試卷含答案
- 年產(chǎn)1000萬把扳手技改項目可行性研究報告寫作模板-申批備案
- 2025年冀教版九年級歷史下冊階段測試試卷
- 2025年統(tǒng)編版九年級地理下冊階段測試試卷含答案
- 二零二五年度農(nóng)家樂生態(tài)農(nóng)業(yè)科技示范園合作開發(fā)合同范本4篇
- 二零二五版美甲店顧客滿意度調(diào)查與分析合同模板3篇
- 二零二五寧波教育培訓(xùn)機構(gòu)教師勞動合同4篇
- 2025年度水上交通船舶駕駛員派遣合同范本4篇
- 二零二五年度住宅小區(qū)智能化改造合同4篇
- 《向心力》 教學(xué)課件
- 結(jié)構(gòu)力學(xué)數(shù)值方法:邊界元法(BEM):邊界元法的基本原理與步驟
- 2024年山東省泰安市高考語文一模試卷
- 工程建設(shè)行業(yè)標(biāo)準(zhǔn)內(nèi)置保溫現(xiàn)澆混凝土復(fù)合剪力墻技術(shù)規(guī)程
- 北師大版物理九年級全一冊課件
- 2024年第三師圖木舒克市市場監(jiān)督管理局招錄2人《行政職業(yè)能力測驗》高頻考點、難點(含詳細(xì)答案)
- RFJ 006-2021 RFP型人防過濾吸收器制造與驗收規(guī)范(暫行)
- 盆腔炎教學(xué)查房課件
- 新概念英語課件NCE3-lesson15(共34張)
- GB/T 3683-2023橡膠軟管及軟管組合件油基或水基流體適用的鋼絲編織增強液壓型規(guī)范
- 電視劇《瑯琊榜》特色分析
評論
0/150
提交評論