版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、有問題到淘寶找“大數(shù)據(jù)部落”就可以了data= read.csv (air.csv , skip = 1)head (data)# label X1 X2 X3 X4 X5 X6 X7 Y1 Y2 X8 X9X10# 1 北京 14 50 102 81 46965 3.6 203 186 124 23014.60 16410.54 2170.50# 2 天津 29 42 117 70 94867 3.1 142 216 104 16538.19 11946.88 1547.00# 3 石家莊 47 51 147 89 88167 4.3 148 180 123 5440.60 15848.00
2、 1028.84# 4 太原 71 38 114 62 79456 3.1 131 230 94 2735.34 6999.00 367.39# 5 呼和浩特 34 39 103 43 55970 3.2 145 276 87 3090.52 17224.00 238.58# 6 沈陽 66 48 115 72 98871 2.2 155 207 107 7280.49 12948.00 730.41#X11 X12 X13 X14 X15# 1 561.90 342.40 0.26 4542.64 0.20# 2 273.62 229.03 0.18 7704.22 0.47# 3 219.
3、53 138.52 0.21 2452.40 0.45# 4 113.30 161.88 0.31 1020.18 0.37# 5 85.39 49.58 0.36 867.08 0.28# 6 181.70 140.33 0.25 3474.18 0.48分析分為兩個部分第一部分:#數(shù)據(jù)導(dǎo)入與處理#data$Y1 365*0.8 ,空氣好,空氣差,)#構(gòu)建因變量data$Y1- as.factor (data$Y1) #將因變量格式轉(zhuǎn)為因子型#構(gòu)建訓(xùn)練集、測試集#分層抽樣,70%作為訓(xùn)練集,30%作為測試集#library(sampling)trainindex= sample (1: nr
4、ow(data), nrow (data)* 0.7 )train-datatrainindex, # test-data-trainindex, #去除price變量的訓(xùn)練集 去除price變量的測試集有問題到淘寶找“大數(shù)據(jù)部落”就可以了根據(jù)空氣的指標(biāo)(x1x7 )將30個城市分成兩類,y1用來檢驗分類的效果(可以將y1 的指標(biāo)轉(zhuǎn)化成0,1來表示該城市空氣好或壞);初步打算使用決策樹方法和SVM方法;編程的步驟盡可能完善,從初始的數(shù)據(jù)預(yù)處理,數(shù)據(jù)可視化,到建模,檢驗,優(yōu)化都不能缺少;如果編程需要訓(xùn)練數(shù)據(jù)集和預(yù)測數(shù)據(jù)集,而個數(shù)太少,我可以提供前幾年的數(shù)據(jù)作為訓(xùn) 練(這個不知你需不需要)。#訓(xùn)I
5、練svm模型#install.packages(e1071) #安裝軟件包library (e1071) # 加載軟件包一、使用線性核函數(shù)去擬合SVM模型1)模型擬合svmfit1- svm(Y1., data= train, kernel= linear ,cost= 10, scale= F)#kernel=linear #選擇線性核函數(shù)scale=F #對數(shù)據(jù)不進行標(biāo)準(zhǔn)化處理,支持向量機的的損失函數(shù)為凸函數(shù),是否標(biāo)準(zhǔn)化不影響最優(yōu)解,但標(biāo)準(zhǔn)化之后可以使求解速度變快cost=10 #參數(shù)代表犯錯的成本,越大模型對誤差的懲罰越大,生成的分類邊界越復(fù)雜summary ( svmfit1 )# C
6、all:# svm(formula = Y1 .,data = train, kernel = linear, cost = 10,# scale = F)# Parameters:# SVM-Type: C-classification# SVM-Kernel: linear# cost: 10# gamma: 0.02173913# Number of Support Vectors: 8# ( 3 5 )# Number of Classes: 2有問題到淘寶找“大數(shù)據(jù)部落”就可以了# Levels:# 空氣差空氣好2)對svmfitl模型進行改進,選擇最優(yōu)的cost值set.seed
7、( 1) #設(shè)置種子,保證每次運行結(jié)果一致tune.out- tune (svm,Y1., data= train, kernel = linear ,ranges = list ( cost= c( 0.001 , 0.01 , 0.1 , 1, 5, 10, 100) summary (tune.out )# Parameter tuning of svm:# - sampling method: 10-fold cross validation# - best parameters:# cost# 0.1# - best performance: 0.05# - Detailed per
8、formance results:# cost error dispersion# 1 1e-03 0.30 0.2581989# 2 1e-02 0.30 0.2581989# 3 1e-01 0.05 0.1581139# 4 1e+00 0.05 0.1581139# 5 5e+00 0.05 0.1581139# 6 1e+01 0.05 0.1581139# 7 1e+02 0.05 0.1581139best.mode1-tune.out$best.model #得到最優(yōu)模型summary ( best.mode1 )# Call:# best.tune(method = svm,
9、 train.x = Y1 .,data = train, ranges = lis t(cost = c(0.001,#0.01,0.1, 1,5, 10, 100), kernel = linear)# Parameters:# SVM-Type: C-classification# SVM-Kernel: linear# cost: 0.1# gamma: 0.02173913# Number of Support Vectors: 11有問題到淘寶找“大數(shù)據(jù)部落”就可以了# ( 5 6 )# Number of Classes: 2# Levels:# 空氣差空氣好3)模型評估ypre
10、d- predict(best.mode1,test)table (predict=ypred, ture= test$Y1)#ture# predict#空氣差#空氣好空氣差空氣好6102# 訓(xùn)I練 decision tree模型# library (rpart)grow tree fit - rpart (Y1 .-label-Y1, method= class , data= data) printcp (fit) # display the results# Classification tree:# rpart(formula = Y1 . - label - Y1, data =
11、data, method = class)# Variables actually used in tree construction:# 1 X4# Root node error: 9/30 = 0.3# n= 30# 1 0.88889# 2 0.01000plotcp (fit)# CP nsplit rel error xerror xstd0 1.00000 1.00000 0.278891 0.11111 0.22222 0.15181# visualize cross-validation results有問題到淘寶找“大數(shù)據(jù)部落”就可以了size of treeInf0 09
12、4summary (fit) # detailed summary of splits# Call:# rpart(formula = Y1 .-label - Y1, data = data, method = class)# n= 30# CP nsplit rel error xerror xstd# 1 0.88888890 1.0000000 1.0000000 0.2788867# 2 0.01000001 0.1111111 0.2222222 0.1518067# Variable importance# X4 X6 X3 Y2 X2 X8# 23 18 16 16 14 14
13、# Node number 1: 30 observations, complexity param=0.8888889# predicted class= 空氣差 expected loss=0.3 P(node) =1# class counts: 219# probabilities: 0.700 0.300# left son=2 (20 obs) right son=3 (10 obs)# Primary splits:# X4 50 to the right, improve=10.800000, (0 missing)#X6 1.45to the right,improve=10.690910, (0 missing)#Y2 74.5to the ri
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年二年級數(shù)學(xué)教師工作總結(jié)模版(3篇)
- 2025年個人居間協(xié)議(4篇)
- 2025年中外貨物買賣合同標(biāo)準(zhǔn)樣本(2篇)
- 化妝品儲存運輸服務(wù)合同
- 農(nóng)產(chǎn)品城鄉(xiāng)配送合同范本
- 醫(yī)療設(shè)備緊急運輸合同
- 咨詢公司裝修居間協(xié)議范本
- 服裝物流配送標(biāo)準(zhǔn)合同樣本
- 醫(yī)院窗簾改造工程施工方案
- 萊州花紋藝術(shù)漆施工方案
- 農(nóng)產(chǎn)品貯運與加工考試題(附答案)
- 學(xué)校財務(wù)年終工作總結(jié)4
- 2025年人民教育出版社有限公司招聘筆試參考題庫含答案解析
- 康復(fù)醫(yī)學(xué)治療技術(shù)(士)復(fù)習(xí)題及答案
- 鋼鐵是怎樣煉成的鋼鐵讀書筆記
- 《血管性血友病》課件
- 2025年汽車加氣站作業(yè)人員安全全國考試題庫(含答案)
- 2024年司法考試完整真題及答案
- 高三日語一輪復(fù)習(xí)日語助詞「に」和「を」的全部用法課件
- 2024年山東省高考政治試卷真題(含答案逐題解析)
- 煙葉復(fù)烤能源管理
評論
0/150
提交評論