數(shù)據(jù)挖掘與數(shù)據(jù)分析 第三章課后習(xí)題及答案_第1頁
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第三章課后習(xí)題及答案_第2頁
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第三章課后習(xí)題及答案_第3頁
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第三章課后習(xí)題及答案_第4頁
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第三章課后習(xí)題及答案_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第三章課后習(xí)題答案詳解1.現(xiàn)有一關(guān)于葡萄酒品質(zhì)的數(shù)據(jù)集“winequality-red”(該數(shù)據(jù)集下載網(wǎng)址/datasets/uciml/red-wine-quality-cortez-et-al-2009),包含了12個(gè)項(xiàng)目(1-固定酸度,2-揮發(fā)性酸度,3-檸檬酸,4-殘余糖,5-氯化物,6-自由二氧化硫量,7-二氧化硫總量,8-密度,9-pH值,10-硫酸鹽,11-酒精濃度,和12-品質(zhì)(0-10分),以R語言為分析工具,構(gòu)建葡萄酒品質(zhì)的預(yù)測模型。答:該數(shù)據(jù)集共有1599條數(shù)據(jù),記錄了不同品牌葡萄酒的數(shù)據(jù),數(shù)據(jù)集中各個(gè)參數(shù)的含義如下表1所示:表1winequality-red數(shù)據(jù)集參數(shù)說明符號符號說明fixed.acidity固定酸度volatile.acidity揮發(fā)性酸度citric.acid檸檬酸residual.sugar殘余糖chlorides氯化物free.sulfur.dioxide自由二氧化硫量total.sulfur.dioxide二氧化硫總量density密度pHpH值sulphates硫酸鹽alcohol酒精濃度quality品質(zhì)(0-10分)回歸模型的建立及檢驗(yàn)過程:讀取數(shù)據(jù):#讀取數(shù)據(jù)WQR<-read.csv("C:\\Users\\HP\\Desktop\\winequality-red.CSV")head(WQR)輸出:fixed.acidityvolatile.aciditycitric.acidresidual.sugarchloridesfree.sulfur.dioxide17.40.700.001.90.0761127.80.880.002.60.0982537.80.760.042.30.09215411.20.280.561.90.0751757.40.700.001.90.0761167.40.660.001.80.07513total.sulfur.dioxidedensitypHsulphatesalcoholquality1340.99783.510.569.452670.99683.200.689.853540.99703.260.659.854600.99803.160.589.865340.99783.510.569.456400.99783.510.569.45繪制散點(diǎn)圖,初步確定變量之間的相關(guān)性:par(mfrow=c(3,4),mai=c(.6,.6,.3,.3))plot(quality~fixed.acidity,data=WQR)plot(quality~volatile.acidity,data=WQR)plot(quality~citric.acid,data=WQR)plot(quality~residual.sugar,data=WQR)plot(quality~chlorides,data=WQR)plot(quality~free.sulfur.dioxide,data=WQR)plot(quality~total.sulfur.dioxide,data=WQR)plot(quality~density,data=WQR)plot(quality~pH,data=WQR)plot(quality~sulphates,data=WQR)plot(quality~alcohol,data=WQR)結(jié)果如下圖1-1所示:圖1-1數(shù)據(jù)集“winequality-red”中各變量與quality之間的散點(diǎn)圖由各個(gè)變量與quality的散點(diǎn)圖可以看出,quality與各個(gè)變量之間無明顯的線性關(guān)系。使用lm函數(shù)建立線性回歸模型:m1=lm(quality~.,data=WQR)m1輸出:得到的回歸模型為:quality=21.97+0.02fixed.acidity?1.08volatile.acidity?0.18citric.acid+0.02residual.sugar?1.87chlorides?17.88density?0.41pH+0.92sulphates+0.28alcohol對模型進(jìn)行F檢驗(yàn)與t檢驗(yàn):R中summary函數(shù)可以完成F統(tǒng)計(jì)量與t統(tǒng)計(jì)量的計(jì)算:summary(m1)輸出:#參考F統(tǒng)計(jì)量值qf(0.95,11,1587)輸出:1.794671#參考t統(tǒng)計(jì)量值qt(0.975,1587)輸出:[1]1.96146結(jié)果中第三列數(shù)字為t統(tǒng)計(jì)量的值,在該樣本上對應(yīng)的t統(tǒng)計(jì)量理論參考值為1.96,volatile.acidity、chlorides、free.sulfur.dioxide、total.sulfur.dioxide、pH、sulphates、alcohol的t大于該樣本下的理論值,即檢驗(yàn)表明quality與volatile.acidity、chlorides、free.sulfur.dioxide、total.sulfur.dioxide、pH、sulphates、alcohol之間有著較為顯著的相關(guān)關(guān)系,最后一行指出了F檢驗(yàn)的值,大于該樣本下的理論參考值(1.79),表明回歸模型總體上是顯著的。可以發(fā)現(xiàn),t檢驗(yàn)的結(jié)果與之前由散點(diǎn)圖得出的初步結(jié)論并不完全一致。判斷各個(gè)自變量之間的相關(guān)關(guān)系:cor(WQR)輸出:由以上結(jié)果可以發(fā)現(xiàn),模型不存在多重共線問題。為了保證刪除一些自變量后模型仍然具有較好的擬合效果,進(jìn)行全子集回歸:library(leaps)x<-WQR[,1:11]y<-WQR[,12]out<-summary(regsubsets(x,y,nbset=2,nvmax=ncol(x)))tab<-cbind(out$which,out$rsq,out$adjr2,out$cp)tab輸出:基于以上結(jié)果,可以使用volatile.acidity、chlorides、pH、sulphates、alcohol作為最終的自變量構(gòu)建線性回歸模型:m2=lm(quality~volatile.acidity+chlorides+pH+sulphates+alcohol,data=WQR)summary(m2)輸出:顯然,F(xiàn)統(tǒng)計(jì)量與t統(tǒng)計(jì)量的值比最初建立的模型m1更大,表明新模型m2的總體顯著性與回歸系數(shù)顯著性均較高,此時(shí)的回歸方程為:quality=4.01?1.07volatile.acidity?1.93c?lorides?0.42pH+0.85sulp?ates+0.31alco?ol為了確定模型的回歸效果是否顯著,現(xiàn)進(jìn)行交叉驗(yàn)證回歸。n<-length(WQR$quality)diff<-dim(n)percdiff<-dim(n)for(kin1:n){train1<-c(1:n)train<-train1[train1!=k]m3<-lm(quality~volatile.acidity+chlorides+pH+sulphates+alcohol,data=WQR[train,])pred<-predict(m3,newdat=WQR[-train,])obs<-WQR$quality[-train]diff[k]<-obs-predpercdiff[k]<-abs(diff[k])/obs}me<-mean(diff)rmse<-sqrt(mean(diff**2))mape<-100*mean(percdiff)mermsemape輸出:-0.00033484830.654919.383173使用R中caret包的trainControl()函數(shù)實(shí)現(xiàn)此過程:library(caret)train.control<-trainControl(method="LOOCV")model<-train(quality~volatile.acidity+chlorides+pH+sulphates+alcohol,data=WQR,method="lm",trControl=train.control)print(model)輸出:經(jīng)過交叉驗(yàn)證回歸,得出的平均誤差為-0.0003,均方根誤差(RMSE)為0.65,平均絕對百分比誤差為9.38%,樣本決定系數(shù)(R22.根據(jù)某所中學(xué)數(shù)學(xué)和葡萄牙語課程學(xué)生的家庭,生活,學(xué)習(xí),成績信息數(shù)據(jù)集“student-mat”及“student-por”(該數(shù)據(jù)集的下載網(wǎng)址為/code/mohaiminul101/student-grade-prediction-and-eda/data),以R語言為分析工具,分析學(xué)生成績分布的特點(diǎn),找出影響學(xué)生成績的主要因素,構(gòu)建學(xué)生成績的預(yù)測模型。答:該數(shù)據(jù)集為兩所葡萄牙學(xué)校的中學(xué)學(xué)生的學(xué)習(xí)成績。數(shù)據(jù)屬性包括:學(xué)生成績、人口統(tǒng)計(jì)學(xué)、社會(huì)和與學(xué)校相關(guān)的特征,并通過使用學(xué)校報(bào)告和調(diào)查表進(jìn)行收集。提供了兩個(gè)關(guān)于兩個(gè)不同學(xué)科表現(xiàn)的數(shù)據(jù)集:數(shù)學(xué)(mat)和葡萄牙語(por)。兩個(gè)數(shù)據(jù)集均有33個(gè)相同屬性,各個(gè)參數(shù)的含義如下表2所示:表2數(shù)據(jù)集參數(shù)說明符號符號說明school學(xué)校(二分類變量:GP-GabrielPereira或MS-MousinhodaSilveira)sex性別-學(xué)生的性別(二分類變量:F-女性或M-男性)age年齡-學(xué)生的年齡(數(shù)字:15至22)address地址-學(xué)生的家庭住址類型(二分類變量:U-城市或R-農(nóng)村)famsize家庭成員數(shù)量(二分類變量:LE3-小于或等于3或GT3-大于3)Pstatus父母的同居狀態(tài)(二分類變量:T-同居或A-分開)Medu母親的教育程度(數(shù)字:0-無,1-初等教育,2-5至9年級,3-中等教育或4-高等教育)Fedu父親的教育(數(shù)字:0-無,1-初等教育,2-5至9年級,3-中等教育或4-高等教育)Mjob母親的工作(教師、與健康有關(guān)的、民事服務(wù)(例如行政或警察)、在家或其他)Fjob父親的工作(教師、與健康有關(guān)的、民事服務(wù)(例如行政或警察)、在家或其他)reason理由-選擇這所學(xué)校的理由(名義:接近家,學(xué)校聲譽(yù),課程偏好或其他)guardian監(jiān)護(hù)人-學(xué)生的監(jiān)護(hù)人(字符:母親,父親或其他)traveltime學(xué)校到學(xué)校的旅行時(shí)間(數(shù)字:1-小于15分鐘,2-15至30分鐘,3-30分鐘至1小時(shí),4-大于1小時(shí))studytime學(xué)習(xí)時(shí)間-每周學(xué)習(xí)時(shí)間(數(shù)字:1-小于2小時(shí)2-2至5小時(shí),3-5至10小時(shí)或4-大于10小時(shí))failures失敗-過去失敗的次數(shù)schholsup額外的教育支持(二分類變量:是或否)paid家庭教育支持(二分類變量:是或否)activities課外活動(dòng)(二分類變量:是或否)nursery托兒所-上托兒所(二分類變量:是或否)higher是否想要接受高等教育(二分類變量:是或否)internet在家上網(wǎng)(二分類變量:是或否)romantic是否戀愛(二分類變量:是或否)famrel家庭關(guān)系(數(shù)字:從1-非常差到5-極好)freetime放學(xué)后的空閑時(shí)間(數(shù)字:從1-非常低到5-非常高)goout與朋友外出(數(shù)字:從1-非常低到5-非堂高)Dalc工作日酒精消耗(數(shù)字:從1-非常低到5-非常高)Walc周末酒精消耗(數(shù)字:從1-非常低至5-非常高)health當(dāng)前的健康狀況(數(shù)字:從1-非常差到5-非常好)absences缺勤數(shù)(數(shù)字:0到93)G1第一期成績(數(shù)字:0至20)G2第二學(xué)期成績(數(shù)字:0至20)G3最終成績(數(shù)字:0到20,輸出目標(biāo))2.1student-mat數(shù)據(jù)集讀取數(shù)據(jù):mat<-read.csv("C:\\Users\\HP\\Desktop\\student-mat.csv")head(mat)輸出:數(shù)據(jù)預(yù)處理:#導(dǎo)入相應(yīng)的數(shù)據(jù)包library(mice)library(VIM)md.pattern(mat)輸出:#無缺失值#僅保留數(shù)值型變量library(dplyr)library(psych)dataend<-select(mat,c("school","sex","address","famsize","Pstatus","Mjob","Fjob","reason","guardian","schoolsup","famsup","paid","activities","nursery","higher","internet","romantic"))#數(shù)據(jù)分析describe(mat)輸出:summary(mat)輸出:分析屬性:#利用圖表分析屬性hist(mat$G3,breaks=15,col="red",xlab="期末成績",ylab="人數(shù)統(tǒng)計(jì)",main="成績分布圖")rug(jitter(dataend$G3))輸出:可以看出得10分和11分的學(xué)生數(shù)量很多,雖然這只是一個(gè)中等成績,大部分學(xué)生的成績分布在8-15分之間。更值得注意的是,有接近40個(gè)人得了0分。#數(shù)據(jù)轉(zhuǎn)化mat[,c("school","sex","address","famsize","Pstatus","Mjob","Fjob","reason","guardian","schoolsup","famsup","paid","activities","nursery","higher","internet","romantic")]<-lapply(mat[,c("school","sex","address","famsize","Pstatus","Mjob","Fjob","reason","guardian","schoolsup","famsup","paid","activities","nursery","higher","internet","romantic")],factor)str(mat)輸出:判斷變量之間的相關(guān)性:#初步確定變量之間的相關(guān)性library(corrgram)corrgram(mat,order=TRUE,lower.panel=panel.shade,upper.panel=panel.pie,text.panel=panel.txt,main="Corrgramofstudent_mathintercorrelations")輸出:剔除G1、G2的影響:#剔除G1&G2的影響mat_1<-mat[,-(31:32)]corrgram(mat_1,order=TRUE,lower.panel=panel.shade,upper.panel=panel.pie,text.panel=panel.txt,main="Corrgramofstudent_mathintercorrelations")輸出:可以看出age&failures和G3的相關(guān)度較明顯,且變量之間也有明顯相關(guān)關(guān)系如Dalc和Walc,Medu和Fedu。建立線性回歸模型:#使用lm函數(shù)建立線性回歸模型model<-lm(mat_1$G3~.,data=mat_1)summary(model)輸出:#使用lm函數(shù)建立線性回歸模型model<-lm(mat_1$G3~.,data=mat_1)summary(model)輸出:#參考F統(tǒng)計(jì)量值qf(0.95,39,355)#參考t統(tǒng)計(jì)量值qt(0.975,355)輸出:1.433681.966669由分析結(jié)果可知sex,failures,schoolsup,romantic,freetime與G3顯著相關(guān),檢驗(yàn)的結(jié)果與之前得出的初步結(jié)論并不完全一致。多重共線性檢驗(yàn):library(car)vif(model)輸出:自變量對應(yīng)的VIF值均小于10,現(xiàn)有模型不存在多重共線性?;谝陨喜僮?,構(gòu)建線性回歸模型為model2<-lm(G3~sex+failures+schoolsup+romantic+freetime+goout,data=mat_1)summary(model2)輸出:得到最終回歸方程模型G3=11.8876-2.13failures+0.8755sexM+-0.9015romanticyes-0.4642goout交叉驗(yàn)證:#交叉驗(yàn)證回歸library(ggplot2)library(lattice)library(caret)train.control<-trainControl(method="LOOCV")model<-train(G3~sex+failures+schoolsup+romantic+freetime+goout,data=mat_1,method="lm",trControl=train.control)print(model)輸出:

2.2數(shù)據(jù)集student-por#數(shù)據(jù)讀取por<-read.csv("D:/DataAnalysisModelingDecisions/student-por.csv")por[1:5,]輸出:數(shù)據(jù)總體分析:library(psych)describe(por)head(por)summary(por)利用圖表分析屬性:hist(por$G3,breaks=10,col="red",xlab="期末成績",ylab="人數(shù)統(tǒng)計(jì)",main="成績分布圖")輸出:可以看出得11分左右的學(xué)生數(shù)量很多,雖然這只是一個(gè)中等成績,大部分學(xué)生的成績分布在8-16分之間。更值得注意的是,有接近20個(gè)人得了0分。批量轉(zhuǎn)化為因子型:por[,c("school","sex","address","famsize","Pstatus","Mjob","Fjob","reason","guardian","schoolsup","famsup","paid","activities","nursery","higher","internet","romantic")]<-lapply(por[,c("school","sex","address","famsize","Pstatus","Mjob","Fjob","reason","guardian","schoolsup","famsup","paid","activities","nursery","higher","internet","romantic")],factor)str(por)輸出:繪制散點(diǎn)圖,初步確定變量之間的相關(guān)性:par(mfrow=c(3,2),mai=c(.6,.6,.3,.3))plot(G3~age,data=por)plot(G3~sex,data=por)plot(G3~school,data=por)plot(G3~address,data=por)plot(G3~famsize,data=por)plot(G3~Pstatus,data=por)plot(G3~Medu,data=por)plot(G3~Fedu,data=por)plot(G3~Mjob,data=por)plot(G3~Fjob,data=por)plot(G3~reason,data=por)plot(G3~guardian,data=por)plot(G3~traveltime,data=por)plot(G3~studytime,data=por)plot(G3~failures,data=por)plot(G3~schoolsup,data=por)plot(G3~famsup,data=por)plot(G3~paid,data=por)plot(G3~activities,data=por)plot(G3~nursery,data=por)plot(G3~higher,data=por)plot(G3~internet,data=por)plot(G3~romantic,data=por)plot(G3~famrel,data=por)plot(G3~freetime,data=por)plot(G3~goout,data=por)plot(G3~Dalc,data=por)plot(G3~Walc,data=por)plot(G3~health,data=por)plot(G3~absences,data=por)部分結(jié)果如下圖2-1所示:圖2-1部分結(jié)果圖由上圖2-1可以看出G3與school和higher之間存在線性關(guān)系。使用lm函數(shù)建立線性回歸模型,分析成績G3與哪些因素有關(guān):m2=lm(por$G3~.,data=por[,-(31:33)])summary(m2)m2輸出:對模型進(jìn)行F檢驗(yàn)與t檢驗(yàn):R中summary函數(shù)可以完成F統(tǒng)計(jì)量與t統(tǒng)計(jì)量的計(jì)算:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論