版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于MATLAB的SVR回歸模型的設(shè)計(jì)與實(shí)現(xiàn)The Design and Implementation of SVR Regression Model Based on MATLAB學(xué)生姓名:王新蕾學(xué)生學(xué)號(hào):10780232專(zhuān)業(yè)名稱(chēng):電子信息科學(xué)與技術(shù)指導(dǎo)教師:張艷(講師)計(jì)算機(jī)與信息工程學(xué)院2014年6月10日1 / 40獨(dú)創(chuàng)性聲明本人聲明所呈交的畢業(yè)論文是本人在指導(dǎo)教師指導(dǎo)下進(jìn)行的研究工作和取得的研究成果,除了文中特別加以引用標(biāo)注之處外,論文中不包含其他人已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果,沒(méi)有偽造數(shù)據(jù)的行為。畢業(yè)論文作者簽名: 簽字日期: 畢業(yè)論文版權(quán)使用授權(quán)書(shū)本畢業(yè)論文作者完全了解學(xué)校有關(guān)保留
2、、使用論文的規(guī)定。同意學(xué)校保留并向有關(guān)管理部門(mén)或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)天津城建大學(xué)可以將本論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本論文。(保密的畢業(yè)論文在解密后適用本授權(quán)說(shuō)明)畢業(yè)論文作者簽名: 指導(dǎo)教師簽名:簽字日期: 簽字日期: 摘 要 支持向量機(jī)是根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種新的學(xué)習(xí)方法,近年來(lái)受到了國(guó)內(nèi)外學(xué)術(shù)界的廣泛重視,并已在模式識(shí)別和函數(shù)估計(jì)中得到廣泛應(yīng)用。支持向量機(jī)理論的最大特點(diǎn)是由有限的訓(xùn)練集樣本得到的小的誤差保證對(duì)獨(dú)立的測(cè)試集仍保持小的誤差。從而通過(guò)支持向量機(jī)(SVM)理論,可以建立支持向量回
3、歸(SVR)預(yù)測(cè)模型,以解決各種實(shí)際問(wèn)題。SVR算法是模式識(shí)別中應(yīng)用比較廣泛的算法模型之一,它是支持向量機(jī)在函數(shù)逼近和回歸估計(jì)中的應(yīng)用。在SVR回歸分析中,使用支持向量機(jī)可以使回歸函數(shù)盡量平滑,其泛化能力強(qiáng)。本文論述了支持向量回歸的基本原理和思想,介紹了支持向量回歸算法以及所用到的幾種常見(jiàn)的核函數(shù)(即線性?xún)?nèi)核、多項(xiàng)式內(nèi)核、徑向基函數(shù)內(nèi)核、高斯內(nèi)核)。本設(shè)計(jì)主要實(shí)現(xiàn)的功能有:數(shù)據(jù)集的創(chuàng)建、內(nèi)核函數(shù)的選取、參數(shù)的設(shè)置、訓(xùn)練集的回歸、數(shù)據(jù)集的保存與打開(kāi)。通過(guò)不同核函數(shù)的選取以及相應(yīng)參數(shù)的設(shè)置對(duì)輸入數(shù)據(jù)集進(jìn)行回歸。此模型主要解決非線性回歸模型的預(yù)測(cè)。通過(guò)實(shí)驗(yàn)改變各個(gè)參數(shù)的不同取值對(duì)訓(xùn)練集進(jìn)行回歸,并分
4、別統(tǒng)計(jì)出支持向量的個(gè)數(shù),回歸性能,程序運(yùn)行時(shí)間。最后對(duì)回歸的結(jié)果進(jìn)行分析,得出各參數(shù)對(duì)回歸性能的影響。關(guān)鍵詞:支持向量回歸; 訓(xùn)練算法; 核函數(shù); 線性判別ABSTRACTSupport vector machine (SVM) is a new method of study based on statistical learning theory which has attracted extensive attentions by academic circles both at home and abroad in recent years. It has been widely us
5、ed in pattern recognition and function estimation. The biggest characteristic of support vector machine (SVM) theory is that a small error limited by the training set of sample can ensure the independent test sets small error. Thus a support vector regression (SVR) forecasting model can be built by
6、support vector machine (SVM) theory and it can solve various practical problems.SVR algorithm model is one of pattern recognition algorithm, which is more widely used in approximation of function and the application of the regression estimate. In the SVR regression analysis, using support vector mac
7、hine (SVM) can smooth regression function as far as possible. Its generalization ability is strong.This paper discusses the basic principle of support vector regression and introduces support vector regression algorithm and several common kernel functions (the linear kernel, polynomial kernel and ra
8、dial basis function (RBF) kernel, the Gaussian kernel etc.). This essay successfully makes these functions work: the creation of data sets, the selection of kernel function, parameter settings, return of the training set, the preservation and open of the data set. We accomplish the return of input o
9、f data set through the selection of different kernel functions and the setting of corresponding parameter. This model is mainly to solve the nonlinear regression model prediction. Then, the same issue is done through the experiment to change the values of different parameters, and the statistics, th
10、e number of support vector regression, performance of program running time are accounted. Finally, we have analysis the results of regression and gained the influence of various parameters on the return performance.Key words: Support Vector Regression; Training Algorithms; Kernel Function; Linear Di
11、scrimination Analysis目 錄第1章 緒論11.1 課題研究背景11.2 國(guó)內(nèi)外研究現(xiàn)狀11.3 課題研究目的21.4 課題研究使用的開(kāi)發(fā)工具31.5論文組織結(jié)構(gòu)3第2章 支持向量機(jī)回歸原理52.1 支持向量機(jī)52.2 支持向量回歸52.2.1 回歸初步形式52.2.2 線性支持向量回歸62.2.3 非線性支持向量回歸62.3支持向量回歸核函數(shù)72.4 支持向量回歸算法82.4.1 支持向量回歸的算法的基礎(chǔ)82.4.2 回歸算法102.4.3 關(guān)于算法的幾點(diǎn)說(shuō)明11第3章 基于Matlab實(shí)現(xiàn)SVR的總體設(shè)計(jì)133.1 總體設(shè)計(jì)思想133.2 功能模塊的劃分及相關(guān)流程圖133
12、.2.1 主要功能模塊的劃分133.2.2 實(shí)現(xiàn)程序的主要框架圖133.2.3 支持向量回歸模型的流程圖14第4章 基于支持向量回歸模型的實(shí)現(xiàn)164.1模型的功能描述164.2 運(yùn)行結(jié)果174.2.1 主界面174.2.2 功能描述界面174.2.3運(yùn)行過(guò)程及結(jié)果184.2.4 命令窗口的顯示結(jié)果244. 3系統(tǒng)的性能分析及結(jié)論24第5章 總結(jié)27致 謝28參考文獻(xiàn)29第1章 緒論支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上提出的一種新的學(xué)習(xí)方法。支持向量機(jī)( SVM )是一種比較好的實(shí)現(xiàn)了結(jié)構(gòu)風(fēng)險(xiǎn)最小化思想的方法。它的優(yōu)點(diǎn)是理論完備、訓(xùn)練時(shí)間短、全局優(yōu)化強(qiáng)、適應(yīng)性好、泛化性能好等。SVM已經(jīng)成
13、為目前國(guó)內(nèi)外研究的熱點(diǎn)。本課題研究的SVR是支持向量機(jī)在函數(shù)回歸中的應(yīng)用。1.1 課題研究背景基于支持向量的學(xué)習(xí)是現(xiàn)代智能技術(shù)中的重要方面,研究從觀測(cè)數(shù)據(jù)(樣本)出發(fā)尋找規(guī)律,利用這些規(guī)律對(duì)未來(lái)數(shù)據(jù)或無(wú)法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè).包括模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等在內(nèi),現(xiàn)有支持向量機(jī)器學(xué)習(xí)方法共同的重要理論基礎(chǔ)之一是統(tǒng)計(jì)學(xué).傳統(tǒng)統(tǒng)計(jì)學(xué)研究的是樣本數(shù)目趨于無(wú)窮大時(shí)的漸近理論,現(xiàn)有學(xué)習(xí)方法也多是基于此假設(shè).但在實(shí)際問(wèn)題中,樣本數(shù)往往是有限的,因此一些理論上很優(yōu)秀的學(xué)習(xí)方法實(shí)際中表現(xiàn)卻可能不盡人意。與傳統(tǒng)統(tǒng)計(jì)學(xué)相比,統(tǒng)計(jì)學(xué)習(xí)理論(Statistical Learning Theory或SLT)是一種專(zhuān)門(mén)研究小樣本情
14、況下機(jī)器學(xué)習(xí)規(guī)律的理論.V. Vapnik等人從六、七十年代開(kāi)始致力于此方面研究,到九十年代中期,隨著其理論的不斷發(fā)展和成熟,也由于神經(jīng)網(wǎng)絡(luò)等學(xué)習(xí)方法在理論上缺乏實(shí)質(zhì)性進(jìn)展,統(tǒng)計(jì)學(xué)習(xí)理論開(kāi)始受到越來(lái)越廣泛的重視。統(tǒng)計(jì)學(xué)習(xí)理論是建立在一套較堅(jiān)實(shí)的理論基礎(chǔ)之上的,為解決有限樣本學(xué)習(xí)問(wèn)題提供了一個(gè)統(tǒng)一的框架.它能將很多現(xiàn)有方法納入其中,有望幫助解決許多原來(lái)難以解決的問(wèn)題(比如神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇問(wèn)題、局部極小點(diǎn)問(wèn)題等);同時(shí),在這一理論基礎(chǔ)上發(fā)展了一種新的通用學(xué)習(xí)方法支持向量機(jī)(Support Vector Machine或SVM),它已初步表現(xiàn)出很多優(yōu)于已有方法的性能。通過(guò)結(jié)果風(fēng)險(xiǎn)最小化準(zhǔn)則和核函數(shù)方
15、法,較好地解決了模式分類(lèi)器復(fù)雜性核推廣性之間的矛盾,引起了模式識(shí)別領(lǐng)域?qū)W者的極大關(guān)注。從此迅速的發(fā)展起來(lái),現(xiàn)在已經(jīng)在許多領(lǐng)域(生物信息學(xué),文本分類(lèi)、手寫(xiě)體識(shí)別、人臉檢測(cè)等) 都取得了成功的應(yīng)用,并且在研究過(guò)程中,取得了與傳統(tǒng)方法可比或更好的結(jié)果,還豐富了自身的內(nèi)容(如快速訓(xùn)練算法等),從而更加推動(dòng)了它在其他模式識(shí)別領(lǐng)域的應(yīng)用。由于其出色的學(xué)習(xí)性能,該技術(shù)已成為當(dāng)前國(guó)際機(jī)器學(xué)習(xí)界的研究熱點(diǎn),在模式識(shí)別、回歸估計(jì)、函數(shù)逼近等領(lǐng)域有了廣泛的應(yīng)用。本課題就是研究它在回歸估計(jì)中的應(yīng)用。1.2 國(guó)內(nèi)外研究現(xiàn)狀支持向量機(jī)一經(jīng)提出,就得到國(guó)內(nèi)外學(xué)者的高度關(guān)注。雖然支持向量機(jī)發(fā)展時(shí)間很短,但是由于它的產(chǎn)生是基于
16、統(tǒng)計(jì)學(xué)習(xí)理論的,因此具有堅(jiān)實(shí)的理論基礎(chǔ)。近幾年涌現(xiàn)出的大量令人矚目的理論研究成果,更為其應(yīng)用研究奠定了堅(jiān)實(shí)基礎(chǔ)。如Anthony et al.(1999)等人給出了關(guān)于硬鄰域支持向量機(jī)學(xué)習(xí)誤差的嚴(yán)格理論界限,Shawe-Taylor(2000)和Cristianini (2000)也給出了類(lèi)似的關(guān)于軟鄰域支持向量機(jī)和回歸情況下的誤差界限;Weston et al.(1998)和Vapnik(1995,1998)等研究了支持向量機(jī)的泛化性能及其在多值分類(lèi)和回歸問(wèn)題的擴(kuò)展問(wèn)題;Smola(1998)和Schoelkopf(1999)提出了支持向量機(jī)一般意義下的損失函數(shù)數(shù)學(xué)描述;脊回歸是由Tikho
17、nov 提出的一種具有特殊形式的正則化網(wǎng)絡(luò),Girosi(1990)、Poggio(1975)等將其應(yīng)用到正則化網(wǎng)絡(luò)的學(xué)習(xí)中, Smola et al.(1999)研究了狀態(tài)空間中脊回歸的應(yīng)用,Girosi(1990)、Smola(1998)、Schoelkopf(1999)等討論了正則化網(wǎng)絡(luò)和支持向量機(jī)的關(guān)系。隨著支持向量機(jī)理論上深入研究,出現(xiàn)了許多變種支持向量機(jī),如Smolaetal.(1999)提出的用于分類(lèi)和回歸支持向量機(jī)。另外,一些學(xué)者還擴(kuò)展了支持向量機(jī)概念,如Mangasarian(1997)等人的通用支持向量機(jī)(GeneralisedSVMs)。雖然SVM 方法在理論上具有很突出
18、的優(yōu)勢(shì), 但與其理論研究相比,應(yīng)用研究尚相對(duì)比較滯后, 到目前,SVM已用于數(shù)據(jù)分類(lèi)、回歸估計(jì)、函數(shù)逼近等領(lǐng)域.應(yīng)用最為廣泛的當(dāng)屬模式識(shí)別領(lǐng)域,在模式識(shí)別方面最突出的應(yīng)用研究是貝爾實(shí)驗(yàn)室對(duì)美國(guó)郵政手寫(xiě)數(shù)字庫(kù)進(jìn)行的實(shí)驗(yàn),這是一個(gè)可識(shí)別性較差的數(shù)據(jù)庫(kù), 人工識(shí)別平均錯(cuò)誤率是2.5% , 用決策樹(shù)方法識(shí)別錯(cuò)誤率是16.2% , 兩層神經(jīng)網(wǎng)絡(luò)中錯(cuò)誤率最小的是5.9% , 專(zhuān)門(mén)針對(duì)該特定問(wèn)題設(shè)計(jì)的五層神經(jīng)網(wǎng)絡(luò)錯(cuò)誤率為5.0% (其中利用了大量先驗(yàn)知識(shí)) , 而用三種SVM 方法得到的錯(cuò)誤率分別為4.0%、4.1% 和4.2% , 且其中直接采用了1616的字符點(diǎn)陣作為SVM 的輸入, 并沒(méi)有進(jìn)行專(zhuān)門(mén)的特
19、征提取。說(shuō)明了SVM方法較傳統(tǒng)方法有明顯的優(yōu)勢(shì), 同時(shí)也得到了不同的SVM 方法可以得到性能相近的結(jié)果。實(shí)驗(yàn)還觀察到,三種SVM求出的支持向量中有80%以上是重合的,它們都只是總樣本中很少的一部分,說(shuō)明支持向量本身對(duì)不同方法具有一定的不敏感性(遺憾的是這些結(jié)論僅僅是有限的實(shí)驗(yàn)中觀察到的現(xiàn)象,如果能得到證明,將會(huì)使SVM的理論和應(yīng)用有更大的突破)。圍繞這一字符識(shí)別實(shí)驗(yàn),還提出了一些對(duì)SVM的改進(jìn),比如引入關(guān)于不變性的知識(shí)、識(shí)別和去除樣本集中的野值、通過(guò)樣本集預(yù)處理提高識(shí)別速度等,相關(guān)的應(yīng)用還包括SVM與神經(jīng)網(wǎng)絡(luò)相結(jié)合對(duì)筆跡進(jìn)行在線適應(yīng).除此之外,MIT用SVM進(jìn)行的人臉檢測(cè)實(shí)驗(yàn)也取得了較好的效果
20、,可以較好地學(xué)會(huì)在圖像中找出可能的人臉位置.其它有報(bào)道的實(shí)驗(yàn)領(lǐng)域還包括文本識(shí)別、人臉識(shí)別、三維物體識(shí)別、遙感圖像分析等,在函數(shù)回歸估計(jì)方面主要用于非線性系統(tǒng)識(shí)別問(wèn)題、時(shí)間序列預(yù)測(cè)、機(jī)場(chǎng)游客吞吐量的預(yù)測(cè)問(wèn)題及多維自由曲面的重建問(wèn)題等。1.3 課題研究目的此課題的設(shè)計(jì)目的在于訓(xùn)練及提高自己能綜合運(yùn)用所學(xué)專(zhuān)業(yè)知識(shí)分析、解決實(shí)際問(wèn)題的能力;掌握文獻(xiàn)檢索、資料查詢(xún)的基本方法以及獲取新知識(shí)的能力;系統(tǒng)的利用支持向量回歸相關(guān)理論知識(shí)和編程技能,利用MATLAB開(kāi)發(fā)平臺(tái)和相關(guān)的統(tǒng)計(jì)學(xué)工具箱及支持向量回歸算法,設(shè)計(jì)改進(jìn)并實(shí)現(xiàn)基于MATLAB的SVR回歸模型的實(shí)驗(yàn)系統(tǒng),通過(guò)運(yùn)用M文件編寫(xiě)回歸算法、GUI組件編寫(xiě)主
21、界面、編寫(xiě)程序和裝載數(shù)據(jù)文件完成實(shí)驗(yàn)界面的各個(gè)功能。從而熟悉了MATLAB編程、GUI組件編寫(xiě)用戶(hù)界面以及回歸算法的程序?qū)崿F(xiàn),同時(shí)也了解了支持向量回歸算法在實(shí)際問(wèn)題預(yù)測(cè)模型中的應(yīng)用。1.4 課題研究使用的開(kāi)發(fā)工具此課題主要運(yùn)用MATLAB開(kāi)發(fā)平臺(tái),MATLAB既是一種直觀、高效的計(jì)算機(jī)語(yǔ)言,同時(shí)又是一個(gè)科學(xué)計(jì)算平臺(tái)。它為數(shù)據(jù)分析和數(shù)據(jù)可視化、算法和應(yīng)用程序開(kāi)發(fā)提供了最核心的數(shù)學(xué)和高級(jí)圖形工具。根據(jù)它提供的500多個(gè)數(shù)學(xué)和工程函數(shù),工程技術(shù)人員和科學(xué)工作者可以在它的集成環(huán)境中交互或編程以完成各自的計(jì)算。本課題研究用MATLAB程序編寫(xiě)回歸算法和GUI組件編寫(xiě)用戶(hù)界面來(lái)實(shí)現(xiàn)支持向量回歸模型的設(shè)計(jì)。
22、開(kāi)發(fā)工具的優(yōu)點(diǎn):1編程效率高:Matlab是一種面向科學(xué)與工程計(jì)算的高級(jí)語(yǔ)言,允許用數(shù)學(xué)形式的語(yǔ)言來(lái)編寫(xiě)程序,這樣就更接近我們書(shū)寫(xiě)計(jì)算算法公式的思維方式。Matlab語(yǔ)言是一種解釋執(zhí)行的語(yǔ)言,與其他語(yǔ)言相比,它把編輯,編譯,連接和執(zhí)行融為一體,提高了程序的運(yùn)行速度,同時(shí)也便于修改和調(diào)試。2高效方便的矩陣和數(shù)組運(yùn)算:在回歸過(guò)程中,輸入的數(shù)據(jù)集,運(yùn)算的變量以及很多參數(shù)都是以數(shù)組,向量形式出現(xiàn)的,運(yùn)算這些數(shù)據(jù)復(fù)雜,易出錯(cuò)而且費(fèi)時(shí),所以方便高效的數(shù)組向量運(yùn)算就顯得尤為重要,而Matlab恰好具有這樣便利的功能。并且Matlab語(yǔ)言還像其他語(yǔ)言一樣規(guī)定了矩陣的算術(shù)運(yùn)算符,關(guān)系運(yùn)算符,邏輯運(yùn)算符,條件運(yùn)算
23、符及賦值運(yùn)算符。這給編寫(xiě)程序帶來(lái)很大方便。在支持向量回歸算法中包含了大量的數(shù)學(xué)模型和復(fù)雜的運(yùn)算公式,所以用Matlab語(yǔ)言進(jìn)行代碼編寫(xiě)比較簡(jiǎn)單,編程效率比較高。3方便的繪圖功能:本課題借助于Matlab的繪圖功能,能較為方便的建立支持向量回歸過(guò)程中的演示圖形。Matlab有一系列繪圖函數(shù)命令,功能強(qiáng)大,使用方便。在執(zhí)行繪圖函數(shù)時(shí)是通過(guò)使用不同的圖形對(duì)象來(lái)實(shí)現(xiàn)圖形創(chuàng)建功能的這些圖形對(duì)象包括直線、文本、曲面等等。Matlab創(chuàng)建一個(gè)圖形對(duì)象時(shí)總會(huì)給該對(duì)象制定一個(gè)獨(dú)一無(wú)二的標(biāo)識(shí)符,這個(gè)標(biāo)識(shí)符就稱(chēng)為句柄。通過(guò)使用句柄,用戶(hù)可以方便地訪問(wèn)句柄所指定的對(duì)象,通過(guò)修改對(duì)象的屬性使圖形完全符合用戶(hù)的要求。1.
24、5論文組織結(jié)構(gòu)本論文主要針對(duì)回歸型SVM在算法性能和推廣能力兩方面進(jìn)行一些探討,全文共分5章,安排如下:第1章主要研究SVM研究背景和國(guó)內(nèi)外研究現(xiàn)狀,介紹了課題研究背景以及可以研究所用的開(kāi)發(fā)工具。第2章詳細(xì)推導(dǎo)了線性情況下回歸機(jī)算法,然后引入了核函數(shù)將線性算法推廣到非線性算法。還介紹了VC維數(shù)、結(jié)構(gòu)風(fēng)險(xiǎn)最小化。第3章此章介紹了本課題的總體設(shè)計(jì)思路和功能模塊的劃分及相關(guān)流程圖。第4章介紹支持向量回歸模型的實(shí)現(xiàn),及結(jié)果分析。第5章對(duì)支持向量回歸進(jìn)行了分析與總結(jié)。第2章 支持向量機(jī)回歸原理回歸預(yù)測(cè)研究從觀測(cè)數(shù)據(jù)出發(fā)尋找規(guī)律,利用這些規(guī)律對(duì)未來(lái)數(shù)據(jù)或無(wú)法觀測(cè)的數(shù)據(jù)進(jìn)行回歸預(yù)測(cè)。回歸預(yù)測(cè)的目的是根據(jù)給定
25、的訓(xùn)練樣本集 來(lái)估計(jì)某系統(tǒng)輸入和輸出之間的依賴(lài)關(guān)系,即尋找最優(yōu)函數(shù) ,使它能夠反映訓(xùn)練集的數(shù)據(jù)走向趨勢(shì),從而實(shí)現(xiàn)對(duì)未知輸出做盡可能準(zhǔn)確的預(yù)測(cè)。2.1 支持向量機(jī)支持向量機(jī)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識(shí)別中有許多特有的優(yōu)勢(shì),并能推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的推廣能力。VC維數(shù):模式識(shí)別方法中VC維的直觀定義是:對(duì)一個(gè)指示函數(shù)集,如果存在h個(gè)樣本能夠被函數(shù)集中的函數(shù)按所有可能的2h種形式分開(kāi),則稱(chēng)函數(shù)集能
26、夠把h個(gè)樣本打散;函數(shù)集的VC維就是它能打散的最大樣本數(shù)目h。若對(duì)任意數(shù)目的樣本都有函數(shù)能將它們打散,則函數(shù)集的VC維是無(wú)窮大。有界實(shí)函數(shù)的VC維可以通過(guò)用一定的閾值將它轉(zhuǎn)化成指示函數(shù)來(lái)定義。VC維反映了函數(shù)集的學(xué)習(xí)能力,VC維越大則學(xué)習(xí)機(jī)器越復(fù)雜(容量越大),目前尚沒(méi)有通用的關(guān)于任意函數(shù)集VC維計(jì)算的理論,只對(duì)一些特殊的函數(shù)集知道其VC維。Vapnik和Chervonenkis在1968年又發(fā)現(xiàn)了下面的規(guī)律:VC維對(duì)于一個(gè)指示函數(shù)集,如果其生長(zhǎng)函數(shù)是線形的,則它的VC維為無(wú)窮大;而如果生長(zhǎng)函數(shù)以參數(shù)為h的對(duì)數(shù)函數(shù)為界,則函數(shù)集的VC維是有限的且等于h。VC就是取Vapnik和Chervone
27、nkis名字的首字而成。所以,學(xué)習(xí)機(jī)器所實(shí)現(xiàn)的指示函數(shù)集的VC維有限就是ERM方法一致性的一個(gè)充分必要條件,這一條件不依賴(lài)于概率測(cè)度。而且,一個(gè)有限的VC維意味著快的收斂速度。2.2 支持向量回歸在引入支持向量回歸之前,首先要對(duì)回歸問(wèn)題進(jìn)行形式化,并因此抽象出學(xué)習(xí)機(jī)的形式化概念。線形情形,支持向量回歸問(wèn)題可形象的理解為在誤差帶內(nèi)尋求一個(gè)最為平坦的直線,此直線回歸訓(xùn)練,并具有最小的損失。對(duì)于非線形情形,同支持向量機(jī)識(shí)別,通過(guò)向高維空間映射,將問(wèn)題轉(zhuǎn)化為高維空間(Hilbert空間)的線形回歸問(wèn)題,并且使用核函數(shù)來(lái)求得最優(yōu)解。2.2.1 回歸初步形式回歸問(wèn)題是個(gè)古老的數(shù)學(xué)問(wèn)題,在工程上也有大量的應(yīng)
28、用背景。在傳統(tǒng)經(jīng)典的回歸中,盡管存在著多種估計(jì)的方法,但研究的大部分集中在最小二乘法。這種分析方法稱(chēng)為綜合分析,其主要目的是將數(shù)據(jù)聚集在一起,并綜合出數(shù)據(jù)的一個(gè)擬合模型。接著同樣重要的一個(gè)階段是案例分析。這里數(shù)據(jù)被用于檢驗(yàn)擬合模型對(duì)被研究的關(guān)系是否合適、有用。其結(jié)果可能導(dǎo)致對(duì)原先指定的擬合模型的修改,此后,回復(fù)至綜合分析。在具體實(shí)施中,則大量的借助統(tǒng)計(jì)學(xué)的理論和技術(shù)。如參數(shù)估計(jì)與假設(shè)檢驗(yàn)等一些知識(shí)。而本設(shè)計(jì)主要討論的回歸方法則側(cè)重于Vapnik的統(tǒng)計(jì)學(xué)習(xí)理論,從問(wèn)題的模型確立到問(wèn)題解決途徑上可能和經(jīng)典的回歸不大一樣,但本質(zhì)是一致的?;貧w問(wèn)題可形式化為:給定一個(gè)訓(xùn)練集合,其元素有某個(gè)未知的分布觀
29、測(cè)得到(此處的觀測(cè)可能夾雜某種噪聲):with 和一個(gè)函數(shù)族 基本回歸問(wèn)題是要找到一個(gè)函數(shù),此函數(shù)風(fēng)險(xiǎn)最小化表達(dá)式: 其中,C是損失函數(shù),它指出和之間的差錯(cuò)將如何被懲罰,因?yàn)槲粗?,不能直接?duì)進(jìn)行估值,而是要通過(guò)計(jì)算如下的經(jīng)驗(yàn)風(fēng)險(xiǎn): 并通過(guò)對(duì)R進(jìn)行限界。其中為所謂的泛化錯(cuò)誤上界,根據(jù)Vapnik的理論,它依賴(lài)于用來(lái)進(jìn)行回歸的函數(shù)族。 2.2.2 線性支持向量回歸支持向量回歸建立在統(tǒng)計(jì)學(xué)學(xué)習(xí)理論的基礎(chǔ)之上,并維持以上提出的學(xué)習(xí)機(jī)的模型但采取完全不同的策略。在這里取為維超平面:損失函數(shù)一般有多種形式,根據(jù)實(shí)際問(wèn)題的不同可選用不同的損失函數(shù)。此處給一般情形:含有誤差帶的損失函數(shù),這樣的函數(shù)滿(mǎn)足以下形式
30、:并且對(duì)非0時(shí)的損失函數(shù)要求具備凸性。學(xué)習(xí)的結(jié)果使得在的周?chē)纬梢粋€(gè)精度為的誤差帶。其線性支持向量回歸機(jī)的結(jié)果是線形的。2.2.3 非線性支持向量回歸對(duì)于非線性回歸,保持以上的策略不變,但首先對(duì)輸入數(shù)據(jù)進(jìn)行非線性預(yù)處理。使用非線性映射把數(shù)據(jù)從原空間映射到一個(gè)高維特征空間,再在高維特征空間進(jìn)行線性回歸。同理,在非線性空間中也只考慮高維特征空間的點(diǎn)積運(yùn)算:,而不必明確知道是什么。其關(guān)鍵問(wèn)題是核函數(shù)的采用。此時(shí),非線性支持向量機(jī)回歸具有以下模型:取為:損失函數(shù)和能力控制策略同線性支持向量回歸,其求解結(jié)果具有如下形式: 因此,支持向量機(jī)回歸通過(guò)將最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)和能力控制規(guī)約在一個(gè)目標(biāo)中,一并將其轉(zhuǎn)化為
31、一個(gè)凸二次優(yōu)化問(wèn)題的求解途徑不僅實(shí)現(xiàn)了結(jié)構(gòu)風(fēng)險(xiǎn)最小化的原則,而且由于嚴(yán)格的凸性要求使問(wèn)題求解在可行域中總能搜索到最優(yōu)解,而不會(huì)陷入局部最小。在非線性情形,使用核函數(shù)技巧,通過(guò)只計(jì)算輸入空間的數(shù)量積避免了維數(shù)災(zāi)難問(wèn)題。從求解結(jié)果我們可以看出,最終的解,決定于輸入模式的數(shù)量積,而與輸入模式的維數(shù)無(wú)關(guān),其計(jì)算規(guī)模正比于輸入模式中支持向量的個(gè)數(shù)。因而可有效地處理高維空間的問(wèn)題,而不受到維數(shù)的限制。2.3支持向量回歸核函數(shù)支持向量機(jī)的一個(gè)引人注目的特點(diǎn)是用核函數(shù)代替向量間的內(nèi)積運(yùn)算來(lái)實(shí)現(xiàn)非線性變換,而不需要非線性的具體形式。研究人員根據(jù)這一思想改造經(jīng)典的線性算法并構(gòu)造出對(duì)應(yīng)的基于核函數(shù)的非線性形式。支持
32、向量回歸模型最重要的一個(gè)參數(shù)就是核函數(shù)。選擇什么樣的核函數(shù),就意味著將訓(xùn)練樣本映射到什么樣的空間去進(jìn)行線性劃分。支持向量機(jī)回歸算法的技巧在于不直接計(jì)算復(fù)雜的非線性變換,而是計(jì)算非線性變換的點(diǎn)積,即核函數(shù),從而大大簡(jiǎn)化了計(jì)算。通過(guò)把核函數(shù)引入到一些學(xué)習(xí)算法,可以方便地把線性算法轉(zhuǎn)換為非線性算法,我們將其與支持向量機(jī)一起稱(chēng)為基于核函數(shù)的方法。在高維特征空間實(shí)際上只需要進(jìn)行點(diǎn)積運(yùn)算,可以用原空間中的函數(shù)實(shí)現(xiàn)的,甚至沒(méi)有必要知道變換的形式。根據(jù)泛函的有關(guān)理論,只要一種核函數(shù)滿(mǎn)足Mercer條件,它就對(duì)應(yīng)某一變換空間中的點(diǎn)積。因此,在最優(yōu)分類(lèi)面中采用適當(dāng)?shù)狞c(diǎn)積函數(shù)就可以實(shí)現(xiàn)某一非線性變換后的線性分類(lèi),而
33、計(jì)算復(fù)雜度卻沒(méi)有增加。張鈴證明了核函數(shù)存在性定理,并提出了尋找核函數(shù)的算法。核函數(shù)存在性定理表明:給定一個(gè)訓(xùn)練樣本集,就一定存在一個(gè)相應(yīng)的函數(shù),訓(xùn)練樣本通過(guò)該函數(shù)映射到高維特征空間的相是線性可分的。進(jìn)一步研究了支持矢量機(jī)的支持向量集與核函數(shù)的關(guān)系,研究表明對(duì)非線性可分情況,對(duì)一個(gè)特定的核函數(shù),給定的樣本集中的任意一個(gè)樣本都可能成為一個(gè)支持向量。這意味這在一個(gè)支持向量機(jī)下觀察到的特征在其它支持向量機(jī)下(其它核函數(shù))并不能保持。因此,對(duì)解決具體問(wèn)題來(lái)說(shuō),選擇合適的核函數(shù)使很重要的。SVM 由訓(xùn)練樣本集和核函數(shù)完全描述,因此采用不同的核函數(shù)就可以構(gòu)造實(shí)現(xiàn)輸入空間中不同類(lèi)型的非線性決策面的學(xué)習(xí)機(jī),導(dǎo)致
34、不同的支持向量算法。本課題研究的幾種核函數(shù)如下:線性?xún)?nèi)核 多項(xiàng)式內(nèi)核 徑向基函數(shù)內(nèi)核 Bsplines內(nèi)核 2.4 支持向量回歸算法2.4.1 支持向量回歸的算法的基礎(chǔ)1. 尋求方向約束最優(yōu)化的一種方法是在可行空間按一定的方向逐步搜索,逼真最優(yōu)點(diǎn),這就涉及到尋求最優(yōu)方向的問(wèn)題。對(duì)給定問(wèn)題的可行域S中點(diǎn)x,對(duì)于某個(gè)非零n維向量存在,當(dāng)時(shí)使得:的方向被稱(chēng)為x處的尋優(yōu)方向,而對(duì)于正定的歸整約束,理論上可保證在一定的迭代次數(shù)后收斂。2. 對(duì)偶差另一種約束最優(yōu)化的方法是從對(duì)偶理論入手,利用對(duì)偶差和KKT條件來(lái)尋找最優(yōu)點(diǎn)。對(duì)于可行的主變量和對(duì)偶變量,凸最小化問(wèn)題的主目標(biāo)函數(shù)的解常常比(凸最大化的)對(duì)偶目標(biāo)
35、函數(shù)的解要大。當(dāng)且僅當(dāng)在最優(yōu)化解處這兩個(gè)解才相等。因此對(duì)偶差常被作為衡量目標(biāo)函數(shù)變量的當(dāng)前解和最優(yōu)解距離的一種度量,此理論來(lái)自Lagrange函數(shù)的鞍點(diǎn)特性。以此為基礎(chǔ)的算法則通過(guò)逐步加強(qiáng)KKT條件,并通過(guò)對(duì)偶差來(lái)進(jìn)行評(píng)估,來(lái)逼真最優(yōu)點(diǎn)。3. 不敏感損失函數(shù) 支持向量機(jī)方法是從解決模式識(shí)別問(wèn)題發(fā)展起來(lái)的,在支持向量分類(lèi)機(jī)中,一般來(lái)說(shuō),可以用少量的支持向量來(lái)表示決策函數(shù),即具有稀疏性。當(dāng)把該方法推廣到回歸問(wèn)題時(shí),很重要的一點(diǎn)就是希望找到合適的支持向量回歸(SVR)算法,仍然保持這個(gè)性質(zhì)。從上述回歸問(wèn)題的數(shù)學(xué)提法可以看出,為建立算法,需要選擇適當(dāng)?shù)膿p失函數(shù)。現(xiàn)介紹回歸估計(jì)中最常見(jiàn)的一種損失函數(shù),它
36、可以保持稀疏性。不敏感損失函數(shù)其中 ,這里是事先取定的一個(gè)正數(shù),不敏感損失函數(shù)的含義是,當(dāng)x點(diǎn)的觀測(cè)值y與預(yù)測(cè)值之差不超過(guò)給定的時(shí),則認(rèn)為在該點(diǎn)的預(yù)測(cè)值是無(wú)損失的,盡管預(yù)測(cè)值和觀測(cè)值y可能并不完全相等,如下面損失函數(shù)圖像2-1所示。圖2-1損失函數(shù)圖象如果為單變量線性函數(shù) ,當(dāng)樣本點(diǎn)位于兩條虛線之間的帶子里時(shí),則認(rèn)為在該點(diǎn)沒(méi)有損失,我們稱(chēng)兩條虛線構(gòu)成的帶子為帶。只有當(dāng)樣本點(diǎn)位于帶之外時(shí),才有損失出現(xiàn),例如,下圖2-2中處的損失為圖2-2不敏感損失帶容易看出,不敏感損失函數(shù)有一個(gè)特點(diǎn):對(duì)樣本點(diǎn)來(lái)說(shuō),存在著一個(gè)不為目標(biāo)函數(shù)提供任何損失值的區(qū)域,即帶。這個(gè)特點(diǎn)是其他許多損失函數(shù)并不具備的。我們可以期
37、望,在帶內(nèi)的樣本點(diǎn),不會(huì)出現(xiàn)在決策函數(shù)中。2.4.2 回歸算法利用核函數(shù)將輸入數(shù)據(jù)映射到高維特征空間 ( 通常是無(wú)限維),在特征空間實(shí)現(xiàn)線性回歸,估計(jì)函數(shù)具有如下形式:這里,映射到特征空間,表示特征空間中的內(nèi)積,且為從訓(xùn)練數(shù)據(jù)集D估計(jì)函數(shù),典型的支持向量回歸最小化正則化風(fēng)險(xiǎn)泛函: 這里正則化參數(shù)為正數(shù),損失函數(shù)選擇為不敏感損失函數(shù),形式如下:可以通過(guò)解二次規(guī)劃的優(yōu)化問(wèn)題來(lái)最小化正則化風(fēng)險(xiǎn)泛函。解可以表達(dá)為在特征空間與函數(shù)的線性組合有關(guān)的形式:這里系數(shù)通過(guò)解二次規(guī)劃問(wèn)題確定,對(duì)于的點(diǎn)稱(chēng)為支持向量。核函數(shù)對(duì)應(yīng)映射到特征空間的數(shù)據(jù)的內(nèi)積,即:核函數(shù)可以是任意滿(mǎn)足Mercer條件的對(duì)稱(chēng)函數(shù),因此,估計(jì)
38、函數(shù)也可以具有如下形式:因此支持向量的拓?fù)浣Y(jié)構(gòu)如下圖2-3所示:圖2-3支持向量回歸拓?fù)鋱D對(duì)于,試圖求解如下有約束的二次規(guī)劃問(wèn)題:這里C是待確定的常數(shù),是松弛變量,同時(shí)首先要先設(shè)定的值。2.4.3 關(guān)于算法的幾點(diǎn)說(shuō)明1. 算法的收斂性說(shuō)明根據(jù)Osuna的理論,在實(shí)現(xiàn)算法中每一步迭代都將減少目標(biāo)函數(shù)的值,進(jìn)而保證了算法的收斂性。并且在算法中利用了許多策略和一些啟發(fā)式規(guī)則來(lái)進(jìn)行聯(lián)合優(yōu)化,進(jìn)一步充分保證了算法的收斂速度。2. 算法元素掃描啟發(fā)式規(guī)則對(duì)于非敏感損失函數(shù),KKT條件為:和由此進(jìn)一步推出關(guān)于取值的三種情形: 數(shù)據(jù)位于誤差帶外 數(shù)據(jù)位于誤差帶上 數(shù)據(jù)位于誤差帶內(nèi)3. 算法中的關(guān)于KKT條件的
39、判斷便是依據(jù)上面三式外循環(huán)首先在整個(gè)數(shù)據(jù)集合上掃描違反KKT條件的元素,當(dāng)在整個(gè)數(shù)據(jù)集合上掃描一遍之后,外循環(huán)開(kāi)始在非邊界元素(Lagrange乘子不為0和C)集合上掃描違反KKT條件的元素,直至所有非邊界元素都以的精度滿(mǎn)足KKT條件。然后外循環(huán)重新在整個(gè)數(shù)據(jù)集合上掃描。外循環(huán)如此交替在整個(gè)數(shù)據(jù)集合上進(jìn)行一次掃描和在非邊界元素集合上進(jìn)行多遍掃描,直至算法終止。4. 算法的效率在算法運(yùn)行過(guò)程中,CPU的時(shí)間集中在最有可能違反KKT條件的元素集合,邊界元素可能停留在邊界,而非邊界元素將會(huì)在其它元素被優(yōu)化的同時(shí)向邊界移動(dòng)。若算法在非邊界元素集合上迭代直至此集合自相容,然后再在整個(gè)集合上掃描尋找在非邊
40、界元素優(yōu)化的同時(shí)變?yōu)檫`反KKT條件的邊界元素。這樣可保證算法的效率。第3章 基于Matlab實(shí)現(xiàn)SVR的總體設(shè)計(jì)3.1 總體設(shè)計(jì)思想支持向量回歸的最終就是尋求一目標(biāo)函數(shù),并使得其損失函數(shù)的數(shù)學(xué)期望最小,這樣才能得到最準(zhǔn)確的回歸曲線以反映訓(xùn)練集的數(shù)據(jù)走向趨勢(shì)。該回歸算法主要解決非線形回歸預(yù)測(cè)問(wèn)題,對(duì)訓(xùn)練集采用線性、非線性核函數(shù)進(jìn)行回歸。通過(guò)對(duì)各種參數(shù)的設(shè)置得到不同性能的回歸曲線,以便于熟悉其中參數(shù)對(duì)回歸算法的影響。3.2 功能模塊的劃分及相關(guān)流程圖3.2.1 主要功能模塊的劃分從總體上說(shuō),按照需求分析,可以把要實(shí)現(xiàn)的功能劃分為三個(gè)主要的功能模塊:1 GUI圖形用戶(hù)界面模塊,即系統(tǒng)的主界面。2實(shí)驗(yàn)
41、簡(jiǎn)介模塊,簡(jiǎn)單說(shuō)明各個(gè)函數(shù)的功能。3支持向量回歸模型設(shè)計(jì)的實(shí)驗(yàn)?zāi)K,實(shí)現(xiàn)支持向量回歸的各種功能(手動(dòng)創(chuàng)建數(shù)據(jù)集、裝載現(xiàn)有的數(shù)據(jù)集、設(shè)置各種相應(yīng)的參數(shù)、保存數(shù)據(jù)集、進(jìn)行回歸演示)。3.2.2 實(shí)現(xiàn)程序的主要框架圖下圖3-1中說(shuō)明了程序設(shè)計(jì)的總體框圖,并沒(méi)有把所有的函數(shù)列出來(lái),只是列出了主要的程序。SVR.m:實(shí)現(xiàn)用戶(hù)圖形界面模塊(主界面)。about.m:查看系統(tǒng)的各實(shí)現(xiàn)功能的簡(jiǎn)單說(shuō)明。uiregress.m:實(shí)現(xiàn)了支持向量回歸的演示實(shí)驗(yàn)?zāi)K。svr.m:支持向量回歸的計(jì)算。svrplot.m:一維空間回歸作圖問(wèn)題。svroutput.m:輸出與輸入之間的轉(zhuǎn)化計(jì)算 。svrerror.m:輸入,
42、輸出異常 。svkernel.m:內(nèi)核函數(shù)。圖 3-1 程序框圖3.2.3 支持向量回歸模型的流程圖 支持向量回歸模型的總流程圖如圖3-2所示。圖3-2 支持向量回歸模型總的流程圖第4章 基于支持向量回歸模型的實(shí)現(xiàn)4.1模型的功能描述本課題是基于支持向量回歸模型的設(shè)計(jì)與實(shí)現(xiàn),已經(jīng)按照需求實(shí)現(xiàn)了各種功能。具體實(shí)現(xiàn)的功能如下:1) 創(chuàng)建一個(gè)GUI圖形用戶(hù)界面即主界面,主界面按鈕及菜單功能描述如下:按鈕功能介紹設(shè)置路徑:在matlab中,運(yùn)行任何的文件都必須位于當(dāng)前路徑或搜索路徑內(nèi)。此按鈕將當(dāng)前目錄下的子目錄添加為搜索路徑,使得子目錄中的文件可以被當(dāng)前目錄中的文件調(diào)用運(yùn)行。否則,系統(tǒng)將不能正常工作。
43、由于本實(shí)驗(yàn)的各個(gè)函數(shù)在包含在一個(gè)文件夾中因而也可以不設(shè)置路徑。進(jìn)入實(shí)驗(yàn)簡(jiǎn)介:簡(jiǎn)單了解SVR,查看各個(gè)函數(shù)要實(shí)現(xiàn)的基本功能。進(jìn)入支持向量回歸模型演示實(shí)驗(yàn):進(jìn)行回歸模型演示(具體的各個(gè)功能塊見(jiàn)下(2)中有詳細(xì)介紹)。 退出實(shí)驗(yàn):退出系統(tǒng)。該主界面點(diǎn)擊實(shí)驗(yàn)簡(jiǎn)介或演示實(shí)驗(yàn)都將出現(xiàn)動(dòng)態(tài)的等待進(jìn)度條,此功能沒(méi)有實(shí)際用途但可以使設(shè)計(jì)美觀。2) 通過(guò)編寫(xiě)M文件uiregress.m文件,實(shí)現(xiàn)顯示支持矢量機(jī)機(jī)器學(xué)習(xí)模型的功能。 (1)下拉式菜單核函數(shù)的選?。河脩?hù)通過(guò)此菜單選擇一個(gè)核函數(shù),然后進(jìn)行回歸實(shí)驗(yàn)。 (2)編輯框輸入?yún)?shù)值懲罰系數(shù)C,其初始值設(shè)定為20,設(shè)置值一般大于0.1,對(duì)于該參數(shù)對(duì)回歸性能的影響在后
44、面說(shuō)明。不敏感系數(shù),其初始值設(shè)為0.01,參數(shù)對(duì)回歸性能的影響也在后面介紹。 (3)編輯框顯示信息顯示統(tǒng)計(jì)支持向量的個(gè)數(shù),回歸性能。 (4)按鈕裝載數(shù)據(jù):進(jìn)行已存在數(shù)據(jù)文件的裝載。數(shù)據(jù)輸入:用戶(hù)手動(dòng)創(chuàng)建數(shù)據(jù),用鼠標(biāo)點(diǎn)擊將在坐標(biāo)軸上產(chǎn)生點(diǎn)集。清除數(shù)據(jù):用戶(hù)想清除當(dāng)前數(shù)據(jù)時(shí)點(diǎn)擊該按鈕,以便重新創(chuàng)建數(shù)據(jù)集。保存數(shù)據(jù):對(duì)創(chuàng)建的數(shù)據(jù)保存,以便下一次直接裝載調(diào)用?;貧w:對(duì)創(chuàng)建的數(shù)據(jù)集或裝載的數(shù)據(jù)集進(jìn)行回歸,得到回歸曲線。3) Matlab命令窗口 在命令窗口我們將會(huì)獲得算法運(yùn)行時(shí)間,支持向量的個(gè)數(shù),回歸性能。4.2 運(yùn)行結(jié)果4.2.1 主界面 運(yùn)行結(jié)果如下圖4-1所示。圖4-1主界面模塊運(yùn)行結(jié)果4.2.2
45、功能描述界面運(yùn)行結(jié)果如下圖4-2所示。圖4-2實(shí)驗(yàn)簡(jiǎn)介運(yùn)行界面4.2.3運(yùn)行過(guò)程及結(jié)果1 支持向量回歸模型實(shí)驗(yàn)運(yùn)行界面如圖4-3所示。圖4-3 支持向量機(jī)回歸模型實(shí)驗(yàn)界面2 手動(dòng)輸入數(shù)據(jù),并保存,如下圖4-4所示。圖4-4手動(dòng)輸入數(shù)據(jù)3 裝載上面保存的數(shù)據(jù),如下圖4-5所示。圖4-5裝載數(shù)據(jù)裝載aa數(shù)據(jù)文件后的數(shù)據(jù)顯示,如下圖4-6所示。圖4-6裝載數(shù)據(jù)后的顯示結(jié)果3 使用不同的核函數(shù)的回歸結(jié)果(1)線性核函數(shù)線性核函數(shù)的懲罰系數(shù)設(shè)為10,不敏感系數(shù)0.01為,此時(shí)支持向量數(shù)24,回歸性能92.3%,如下圖4-7所示。圖4-7回歸結(jié)果圖改變不敏感系數(shù)增大為0.02,此時(shí)支持向量個(gè)數(shù)為22,回歸
46、性能84.6%,如下圖4-8所示。支持向量數(shù)減少,回歸性能下降。圖4-8改變參數(shù)取值后的回歸圖(2)多項(xiàng)式核函數(shù)多項(xiàng)式核函數(shù),設(shè)置此時(shí)多項(xiàng)式次數(shù)為3,如下圖4-9所示。由回歸結(jié)果看出次數(shù)偏低,性能不是很好。圖4-9選擇多項(xiàng)式核函數(shù)的回歸圖形增大多項(xiàng)式次數(shù)Degree為5,并減少不敏感系數(shù)至0.01,回歸性能提高到88.5%,如下圖4-10所示。圖4-10改變參數(shù)取值后的回歸圖形(3)高斯徑向基核函數(shù) 高斯徑向基核函數(shù)Sigma(RBF寬度)為0.2懲罰系數(shù)10,不敏感參數(shù)為0.01,此時(shí)支持向量的個(gè)數(shù)為14,回歸性能53.8%,如下圖4-11所示。圖4-11選擇高斯核函數(shù)的回歸圖形 現(xiàn)增大懲罰
47、系數(shù)C至40,其它參數(shù)不變,支持向量數(shù)增多到15,回歸性能提高到57.7%,如下圖4-12所示。圖4-12改變參數(shù)取值后的回歸圖形降低不敏感系數(shù)至0.001,回歸性能提高到96.2%,如下圖4-13所示。圖4-13改變參數(shù)后的回歸圖形增大不敏感系數(shù)為0.06,回歸性能明顯下降,為38.5%,如下圖4-14所示。圖4-14改變參數(shù)取值后的回歸圖形(4)結(jié)論 本實(shí)驗(yàn)選取了線性核函數(shù)、多項(xiàng)式核函數(shù)和高斯徑向基核函數(shù),這三個(gè)核函數(shù)進(jìn)行實(shí)驗(yàn),改變其參數(shù)(懲罰系數(shù)、不敏感系數(shù)、RBF寬度以及多項(xiàng)式次數(shù)),對(duì)回歸帶來(lái)了明顯的影響。通過(guò)此實(shí)驗(yàn)充分的顯示了,不同的核函數(shù)其回歸性能差別,以及其參數(shù)對(duì)回歸的影響。4
48、.2.4 命令窗口的顯示結(jié)果 以線性核函數(shù)為例,命令窗口顯示如下圖4-15所示。 圖4-15命令窗口顯示結(jié)果 算法運(yùn)行時(shí)間0.1s,支持向量數(shù)24,性能92.3%。由于手動(dòng)輸入的訓(xùn)練集數(shù)量相對(duì)較少,同時(shí)算法的運(yùn)行效率比較高,所以算法運(yùn)行時(shí)間一般很短。 4. 3系統(tǒng)的性能分析及結(jié)論 支持向量回歸方法性能的好壞往往依賴(lài)于核函數(shù)及其寬度系數(shù),懲罰因子C以及不敏感系數(shù)等參數(shù)的選擇。不敏感系數(shù)原則上反映了SVM對(duì)數(shù)據(jù)中躁聲幅度的容許界限.為選定適當(dāng)?shù)闹?應(yīng)考慮采集樣本時(shí)可能帶有的躁聲分布的狀況.若躁聲服從正態(tài)分布,當(dāng)密度函數(shù)分布較寬(即方差較大)時(shí),宜采用較大的,而當(dāng)分布較窄時(shí),應(yīng)選用較小的。應(yīng)用SVM
49、訓(xùn)練時(shí),不敏感系數(shù)的大小控制支持向量個(gè)數(shù)的多少,當(dāng)較小時(shí),參與回歸的支持向量將增多,同時(shí)訓(xùn)練時(shí)間也有所增加。在不敏感系數(shù)過(guò)小時(shí),可能導(dǎo)致過(guò)擬合;而過(guò)大時(shí)則可能造成欠擬合。此外,不敏感系數(shù)還控制模型的泛化推廣能力。在實(shí)際求解中,的取值過(guò)小,支持向量的數(shù)目變化不大,但模型的求解時(shí)間將增加。取值過(guò)大,其精度降低,推廣性能差。因此,不敏感系數(shù)的取值一般在0.001到0.1之間。懲罰系數(shù)C的選擇也將影響回歸函數(shù)的擬合精度與預(yù)報(bào)能力,通常擬合誤差隨C的增大而下降,但下降的速度也越來(lái)越小,當(dāng)C增至一定值后,其下降將漸平緩,幾乎不再隨C的增大而減小。因是SVM只要求擬合誤差超過(guò)允許精度的部分降至最小所致。同時(shí)
50、,預(yù)測(cè)誤差也將隨懲罰系數(shù)C的增大而下降,但并非單調(diào),當(dāng)C增大到一定值后,預(yù)測(cè)誤差也可能有所上升,這也是過(guò)擬合所致。另外訓(xùn)練時(shí)間也將隨C的增加而上升。通過(guò)將映射函數(shù)內(nèi)積運(yùn)算替換為核函數(shù),使輸入數(shù)據(jù)映射到高維空間中進(jìn)行線性擬合來(lái)得到非線性回歸函數(shù)。因此,對(duì)于非線性問(wèn)題還存在核函數(shù)及其參數(shù)的影響。下面對(duì)使用幾種常見(jiàn)的核函數(shù)的參數(shù)對(duì)回歸性能的影響比較:表4-1線性核函數(shù)懲罰系數(shù)C不敏感系數(shù)輸入向量個(gè)數(shù)支持向量個(gè)數(shù)回歸性能 10001262492.3%100005262596.2%10005262596.2%0.500052626100%結(jié)論:隨著不敏感系數(shù)的減少(在一定的范圍內(nèi))支持向量的個(gè)數(shù)增多,回
51、歸性能下降。懲罰系數(shù)C從0.5增至1,其支持向量個(gè)數(shù)減少,性能下降。表4-2多項(xiàng)式核函數(shù)多項(xiàng)式次數(shù)懲罰系數(shù)C不敏感系數(shù)輸入向量個(gè)數(shù)支持向量個(gè)數(shù)回歸性能 3100.0012626100%310001262388.5%410001262492.3%510001262388.5%結(jié)論:從表中可以看出不敏感系數(shù)的增大,支持向量個(gè)數(shù)減少,對(duì)應(yīng)回歸性能下降。多項(xiàng)式次數(shù)的選擇要看數(shù)據(jù)的分布,并不是次數(shù)越高,回歸性能越好。表4-3高斯徑向基核函數(shù) 徑向基寬度懲罰系數(shù)C不敏感系數(shù)輸入向量個(gè)數(shù)支持向量個(gè)數(shù)回歸性能 0110001262076.9%0310001261765.4%0510001262284.6%11
52、0001262492.3%1210001262284.6%12100005262492.3%結(jié)論:由圖可以看出徑向基寬度對(duì)性能的影響并不是簡(jiǎn)單的單調(diào)遞增或是遞減。徑向基寬度從0.1到0.3再到0.5,其支持向量的個(gè)數(shù)先減少再增加。其不敏感系數(shù)從0.01減小到0.005,支持向量個(gè)數(shù)增加,回歸性有所提高。第5章 總結(jié)基于支持向量機(jī)方法的回歸估計(jì)以可控制的精度逼近任一非線性函數(shù),同時(shí)具有全局最優(yōu)、良好的泛化能力等優(yōu)越性能,因此支持向量機(jī)的應(yīng)用非常廣泛。目前支持向量機(jī)主要應(yīng)用在金融時(shí)間序列預(yù)測(cè)(如股票預(yù)測(cè)、期貨預(yù)測(cè)等)和非線性系統(tǒng)參數(shù)辨識(shí)、建模與控制等一些方面。本文針對(duì)回歸問(wèn)題,描述了支持向量機(jī)的基本方法、理論、回歸算法及當(dāng)前國(guó)內(nèi)外對(duì)于支持向量回歸的研究?jī)?nèi)容、方向??偨Y(jié)了設(shè)計(jì)支持向量回歸機(jī)的模型選擇方面的進(jìn)展。模型選擇包括核函數(shù)的選擇、模型正則化參數(shù)C、不敏感參數(shù)等方面內(nèi)容。核函數(shù)的選擇是支持向量機(jī)理論研究的一個(gè)核心問(wèn)題。在實(shí)際應(yīng)用中, RBF核函數(shù)是目前在支持向量機(jī)中被應(yīng)用得最廣泛的一種核函數(shù)。對(duì)于初學(xué)者來(lái)說(shuō), RBF 核無(wú)疑是優(yōu)先考慮的核函數(shù)之一。當(dāng)然, 在實(shí)際應(yīng)用中也可以采用多種核函數(shù)進(jìn)行比較研究, 通過(guò)模型的性能指標(biāo), 選出推廣性能最優(yōu)的一種核函數(shù)。在固定的核函數(shù)情況下, 模型參數(shù)的調(diào)整與確定又成為支持向
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024美團(tuán)商家入駐平臺(tái)合作協(xié)議及客戶(hù)服務(wù)承諾3篇
- 2024熟石灰采購(gòu)合同范本
- 二零二五版高端個(gè)性化二婚離婚補(bǔ)償協(xié)議定制合同
- 2025年度金融科技產(chǎn)品服務(wù)水平協(xié)議2篇
- 2024年項(xiàng)目性勞動(dòng)合同
- 2025版公立醫(yī)療機(jī)構(gòu)與學(xué)校醫(yī)務(wù)室共建項(xiàng)目合同3篇
- 二零二五版民品典當(dāng)借款合同法律適用說(shuō)明4篇
- 租賃合同(2025年度):魚(yú)池場(chǎng)地租賃、養(yǎng)殖技術(shù)指導(dǎo)及分成3篇
- 長(zhǎng)白山職業(yè)技術(shù)學(xué)院《漢字及其教學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 小學(xué)生體育活動(dòng)中的團(tuán)隊(duì)協(xié)作能力培養(yǎng)
- 海外資管機(jī)構(gòu)赴上海投資指南(2024版)
- 山東省青島市2023-2024學(xué)年七年級(jí)上學(xué)期期末考試數(shù)學(xué)試題(含答案)
- 墓地銷(xiāo)售計(jì)劃及方案設(shè)計(jì)書(shū)
- 從偏差行為到卓越一生3.0版
- 優(yōu)佳學(xué)案七年級(jí)上冊(cè)歷史
- 鋁箔行業(yè)海外分析
- 紀(jì)委辦案安全培訓(xùn)課件
- 超市連鎖行業(yè)招商策劃
- 城市道路智慧路燈項(xiàng)目 投標(biāo)方案(技術(shù)標(biāo))
- 【公司利潤(rùn)質(zhì)量研究國(guó)內(nèi)外文獻(xiàn)綜述3400字】
- 工行全國(guó)地區(qū)碼
評(píng)論
0/150
提交評(píng)論