




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上1. IntroductionAbaloneAge.data數(shù)據(jù)有4177個(gè)樣本,7個(gè)特征,其中rings作為預(yù)測(cè)標(biāo)簽,也就是年齡。對(duì)樣本的一些統(tǒng)計(jì)數(shù)據(jù)如下表所示。NameData TypeMeas.DescriptionLengthcontinuousmmLongest shell measurementDiametercontinuousmmperpendicular to lengthHeightcontinuousmmwith meat in shellWhole weightcontinuousgramswhole abaloneShucked weight
2、continuousgramsweight of meatViscera weightcontinuousgramsgut weight (after bleeding)Shell weightcontinuousgramsafter being driedRingsintegerStatistics for numeric domains:LengthDiamHeightWholeShuckeVisceraShellRingsMin0.0750.0550.0000.0020.0010.0010.0021Max0.8150.6501.1302.8261.4880.7601.00529Mean0
3、.5240.4080.1400.8290.3590.1810.2399.934SD0.1200.0990.0420.4900.2220.1100.1393.224Correl0.5570.5750.5570.5400.4210.5040.6281.02. Algorithm Description考慮到數(shù)據(jù)的可分性,對(duì)年齡的預(yù)測(cè)是一個(gè)回歸問(wèn)題,所以采用支持向量機(jī)對(duì)數(shù)據(jù)進(jìn)行回歸分析。一、支持向量機(jī)的基本原理支持向量機(jī)(SVM)是Corinna和Vapnik于二十世紀(jì)末首先提出的。支持向量機(jī)方法Vapnik-Chervonenkis理論與構(gòu)造風(fēng)險(xiǎn)最小理論為根底,使離超立體最接近的元素到超平面的間隔
4、最大。通常超平面不止一個(gè),也就是說(shuō)支持向量機(jī)的目標(biāo)就是最大化超平面之間的間隔,也就是建立最好的分類(lèi)超平面,從而來(lái)提高學(xué)習(xí)分類(lèi)機(jī)器的的泛化處理能力。該方法在解決高維小樣本數(shù)據(jù)、數(shù)據(jù)的非線性以及解的局部極小點(diǎn)等多個(gè)問(wèn)題中均展示出了很多獨(dú)有的優(yōu)點(diǎn),并進(jìn)而將其推行使用到了其余相聯(lián)系的機(jī)器學(xué)習(xí)問(wèn)題中。支持向量機(jī)方法早已被廣泛的應(yīng)用到了腫瘤數(shù)據(jù)分類(lèi)等領(lǐng)域的問(wèn)題研究中。支持向量機(jī)的具體求解過(guò)程如下:(1) 設(shè)已知樣本訓(xùn)練集:其中,為特征向量。(2) 選擇適當(dāng)核函數(shù)以及參數(shù),解決優(yōu)化問(wèn)題:得最優(yōu)解:。(3) 選取的正分量,計(jì)算樣本分類(lèi)閾值:。(4) 構(gòu)造最優(yōu)判別函數(shù):。支持向量機(jī)內(nèi)積核核函數(shù)K的主要種類(lèi)有:
5、線性內(nèi)核函數(shù) 多項(xiàng)式核函數(shù) 高斯徑向基核函數(shù) (RBF) 雙曲正切核函數(shù) (Sigmoid核函數(shù)) 一般地,用SVM做分類(lèi)預(yù)測(cè)時(shí)必須調(diào)整相關(guān)參數(shù)(特別是懲罰參數(shù)和核函數(shù)參數(shù)),這樣才可以獲得比較滿意的預(yù)測(cè)分類(lèi)精度,采用Cross Validation的思想可以獲取最優(yōu)的參數(shù),并且有效防止過(guò)學(xué)習(xí)和欠學(xué)習(xí)狀態(tài)的產(chǎn)生,從而能夠?qū)τ跍y(cè)試集合的預(yù)測(cè)得到較佳的精度。根據(jù)輸入數(shù)據(jù)的線性可分性(線性可分或近似線性可分和線性不可分),可以將支持向量機(jī)分為兩大類(lèi):非線性支持向量機(jī)、線性支持向量機(jī)。(1)線性支持向量機(jī)若要介紹線性支持向量機(jī),首先需要介紹下一個(gè)定義:線性分類(lèi)器。A、B是兩個(gè)不同的類(lèi)別,需要在其中間加
6、一個(gè)分類(lèi)函數(shù),這樣就能夠?qū)、B樣本區(qū)分開(kāi),那么則說(shuō)這個(gè)數(shù)據(jù)集是線性可分,其所對(duì)應(yīng)的分類(lèi)器便是線性分類(lèi)器。對(duì)于二維空間,顯然,分類(lèi)函數(shù)可以看成是一條直線。同理,三維空間里分類(lèi)函數(shù)就是一個(gè)平面,忽略空間的維數(shù),分類(lèi)函數(shù)就可以統(tǒng)稱為超平面。(2)非線性支持向量機(jī)從前一小節(jié)可以看出來(lái),線性支持向量機(jī)是二類(lèi)分類(lèi)器。但是,在現(xiàn)實(shí)環(huán)境和問(wèn)題中,往往要解決多類(lèi)別的分類(lèi)的問(wèn)題。那么,怎么從二類(lèi)分類(lèi)器擴(kuò)充到多類(lèi)別分類(lèi)器呢?就是一個(gè)值得思考探尋的方向。從二類(lèi)分類(lèi)器獲取多類(lèi)分類(lèi)器的方法有很多,但在實(shí)際應(yīng)用中,采用的較多的措施是通過(guò)尋找一個(gè)合適的非線性轉(zhuǎn)換函數(shù),進(jìn)而能夠使數(shù)據(jù)從原始的特征空間中映射到新的特征空間中,使
7、得數(shù)據(jù)在新的特征空間中是線性可分的。但是,尋找這樣的非線性轉(zhuǎn)換函數(shù)很難,并且即使能找到,要實(shí)現(xiàn)這種非線性的轉(zhuǎn)換也很麻煩。因此,引入了核函數(shù),它使得甚至可以不必知道變換函數(shù),只要一種核函數(shù)滿足Mereer定理,它就對(duì)應(yīng)某一變換空間中的內(nèi)積,然而內(nèi)積的計(jì)算卻容易的多。常用的核函數(shù)主要分為四類(lèi):核函數(shù)、核函數(shù)、核函數(shù)和核函數(shù),不同的核函數(shù)對(duì)應(yīng)不同的非線性變換函數(shù),最后會(huì)形成不同的算法。這就使得相應(yīng)的優(yōu)化問(wèn)題變成了凸二次規(guī)劃問(wèn)題,不會(huì)出現(xiàn)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)陷入局部極值的問(wèn)題,這是SVM自提出后得到快速發(fā)展的重要原因之一。SVM的優(yōu)勢(shì):(1)處理解決了樣本數(shù)據(jù)較少的機(jī)器學(xué)習(xí)問(wèn)題;(2)提高了學(xué)習(xí)機(jī)的泛化性能;
8、(3) 少數(shù)支持向量決定了最后的決策函數(shù),因此,某種程度上對(duì)高維問(wèn)題有很好的輔助解決作用,提高了方法的魯棒性;(4)完善改進(jìn)了對(duì)于非線性數(shù)據(jù)分類(lèi)研究的問(wèn)題;(5)規(guī)避了神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)抉擇問(wèn)題和局部極小值問(wèn)題。SVM的劣勢(shì):(1)缺乏對(duì)數(shù)據(jù)缺失的判斷能力;(2)解決非線性數(shù)據(jù)還沒(méi)有完善的方案和措施,只能靠慎重的選擇核函數(shù)來(lái)解決。另一方面,所有傳統(tǒng)分類(lèi)方法中,SVM的分類(lèi)性能是最好的,所以在本文的對(duì)比實(shí)驗(yàn)中,從傳統(tǒng)分類(lèi)方法中選擇了具有代表性的SVM分類(lèi)器來(lái)進(jìn)行對(duì)比實(shí)驗(yàn)。二、SVM回歸的實(shí)驗(yàn)步驟導(dǎo)入數(shù)據(jù),記作X,分別將數(shù)據(jù)的特征和標(biāo)簽賦值給矩陣matrix和rings,如圖所示。利用隨機(jī)數(shù),隨機(jī)選擇
9、70%的樣本作為訓(xùn)練集,余下的30%的樣本作為測(cè)試集,評(píng)價(jià)模型的好壞應(yīng)該從訓(xùn)練集和測(cè)試集兩個(gè)方面考慮,使用matlab自帶fitrsvm程序,對(duì)樣本歸一化后,訓(xùn)練集進(jìn)行訓(xùn)練,得到模型Mdl。利用訓(xùn)練得到的模型,分別對(duì)訓(xùn)練集和測(cè)試集進(jìn)行預(yù)測(cè),并計(jì)算其與真實(shí)值之間的差距,評(píng)價(jià)指標(biāo)選擇的是均方根誤差和平均絕對(duì)誤差。其中result_1記錄了訓(xùn)練集真實(shí)和預(yù)測(cè)值,result_2記錄了測(cè)試集真實(shí)和預(yù)測(cè)值,abe1、mse1分別表示訓(xùn)練集平均絕對(duì)誤差和均方根誤差??梢暬瘻y(cè)試集預(yù)測(cè)與真實(shí)年齡的差距。3. Conclution支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的模式識(shí)別方法。在模式識(shí)別等領(lǐng)域獲得了廣泛的應(yīng)用。少
10、數(shù)支持向量決定了最后的決策函數(shù),因此,某種程度上對(duì)高維問(wèn)題有很好的輔助解決作用,提高了方法的魯棒性。隨機(jī)選擇70%的樣本作為訓(xùn)練集,30%的樣本作為測(cè)試集,平均絕對(duì)誤差和均方根誤差作為模型的評(píng)價(jià)指標(biāo),訓(xùn)練集預(yù)測(cè)結(jié)果與原始數(shù)據(jù)標(biāo)簽的的平均絕對(duì)誤差(abe)為1.5723,均方根誤差(mse)為2.2745,測(cè)試集平均絕對(duì)誤差(abe)1.5671,均方根誤差(mse)為2.3279,說(shuō)明支持向量機(jī)對(duì)數(shù)據(jù)年齡的預(yù)測(cè)具有較好的結(jié)果。AppendixCode:% 清空環(huán)境變量clearclc% 導(dǎo)入數(shù)據(jù)X=load(AbaloneAge.txt);matrix=X(:,1:6);rings=X(:,e
11、nd);% 1. 隨機(jī)產(chǎn)生訓(xùn)練集和測(cè)試集n = randperm(size(matrix,1);% 2. 訓(xùn)練集70%的樣本n1=floor(size(X,1)*0.7);p_train = matrix(n(1:n1),:);t_train = rings(n(1:n1),:);% 3. 測(cè)試集30%的個(gè)樣本p_test = matrix(n(n1+1:end),:);t_test = rings(n(n1+1:end),:);% 數(shù)據(jù)歸一化% 1. 訓(xùn)練集pn_train,inputps = mapminmax(p_train);pn_train = pn_train;pn_test =
12、mapminmax(apply,p_test,inputps);pn_test = pn_test;% 2. 測(cè)試集tn_train,outputps = mapminmax(t_train);tn_train = tn_train;tn_test = mapminmax(apply,t_test,outputps);tn_test = tn_test;Mdl = fitrsvm(pn_train,tn_train);% yfit = predict(Mdl,pn_test);% SVM仿真預(yù)測(cè)Predict_1 = predict(Mdl,pn_train);Predict_2 = pred
13、ict(Mdl,pn_test);% 1. 反歸一化predict_1 = mapminmax(reverse,Predict_1,outputps);predict_2 = mapminmax(reverse,Predict_2,outputps);% 2. 結(jié)果對(duì)比result_1 = t_train predict_1;result_2 = t_test predict_2;re1= result_1(:,1)-result_1(:,2);abe1 = sum(abs(re1)/size(p_train,1)mse1 = sqrt(sum(re1.2)/size(p_train,1)re2= result_2(:,1)-resul
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年輔警招聘考試綜合提升試卷附答案詳解(培優(yōu))
- (2025)輔警招聘考試試題庫(kù)含答案詳解(模擬題)
- 2022年2月韶關(guān)市直遴選面試真題帶詳解
- 2022年2月錦州市直機(jī)關(guān)遴選公務(wù)員面試真題附帶題目詳解
- 2022年11月三明市直遴選面試真題附解析
- 2025年行政執(zhí)法基礎(chǔ)知識(shí)綜合練習(xí)題含答案詳解(突破訓(xùn)練)
- 2014計(jì)算機(jī)b級(jí)考試試題及答案
- 2025年皖北煤電集團(tuán)總醫(yī)院招聘24人筆試備考題庫(kù)含答案詳解(預(yù)熱題)
- 臨滄云南臨滄市交通運(yùn)輸綜合行政執(zhí)法支隊(duì)招聘交通運(yùn)輸綜合行政執(zhí)法輔助人員筆試歷年參考題庫(kù)附答案詳解(奪分金卷)
- 英語(yǔ)培訓(xùn)行業(yè)發(fā)展趨勢(shì)
- 石油鉆井動(dòng)火作業(yè)的風(fēng)險(xiǎn)識(shí)別及安全措施
- 環(huán)網(wǎng)柜維修施工方案
- INS+2024指南更新要點(diǎn)解讀
- 2025年-四川省安全員《A證》考試題庫(kù)及答案
- HSE管理體系文件
- 鎖骨骨折臨床路徑管理
- 運(yùn)維管理培訓(xùn)
- 2024年四川樂(lè)山中考滿分作文《有一束光照亮了我》
- 工程大學(xué)生創(chuàng)業(yè)規(guī)劃書(shū)
- 2025年廣東省佛山市南海區(qū)中考一模英語(yǔ)試題(原卷版+解析版)
- 部編2024版歷史七年級(jí)下冊(cè)期末(全冊(cè))復(fù)習(xí)卷
評(píng)論
0/150
提交評(píng)論