




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
DataMiningandDataAnalysiswithR數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語(yǔ)言第三章線性回歸線性回歸模型的基本概念與構(gòu)建01線性回歸模型的檢驗(yàn)02線性回歸的R語(yǔ)言實(shí)現(xiàn)03章節(jié)內(nèi)容3.1線性回歸模型的一般形式
3.2線性回歸模型參數(shù)的估計(jì)
3.3自變量為分類變量的處理分類變量(也稱為因子或定性變量)是將觀察指標(biāo)分類的變量。它們具有數(shù)量有限的不同值,稱為水平。回歸分析中需要用數(shù)值變量,因此通常需要將分類變量進(jìn)行重新編碼,使其成為一系列二進(jìn)制的變量,這個(gè)新的編碼,被稱為“啞變量”。R在進(jìn)行回歸分析時(shí)會(huì)自動(dòng)創(chuàng)建啞變量,也可手動(dòng)將分類變量重新編碼當(dāng)分類變量具有大量水平時(shí),將某些水平組合在一起,可以減少啞變量數(shù);某些分類變量的水平是有序的,它們可以被轉(zhuǎn)換為數(shù)值(0,1,2,3…)并按連續(xù)性變量處理。3.4線性回歸模型的顯著性檢驗(yàn)
F檢驗(yàn)
t檢驗(yàn)
3.5線性回歸中的多重共線問(wèn)題R中“car”包的vif()函數(shù)可以用于多重共線性檢驗(yàn),舉例如下:vif取值范圍變量之間存在多重共線情況的程度0-10不存在多重共線性10-100存在較強(qiáng)的多重共線性大于100存在嚴(yán)重的多重共線性library(car)vif(m_multicolline)輸出:X1X2X3X4X538.537421.682814.75369.68245.3267Vif取值范圍對(duì)應(yīng)多重共線情況的程度
3.5
線性回歸中的多重共線問(wèn)題library(leaps)x<-data[,2:7]y<-data[,1]out<-summary(regsubsets(x,y,nbset=2,nvmax=ncol(x)))tab<-cbind(out$which,out$rsq,out$adjr2,out$cp)Tab輸出:
(Intercept)X1X2X3X4X5X6111000000.85796970.854024437.674750211100000.89269520.886563522.150747310011010.91457360.907036013.109930410011110.93134420.92302236.646728511111010.93377020.92342187.422476611111110.93857060.92668107.000000
3.5
線性回歸中的多重共線問(wèn)題亦可使用逐步回歸方法解決多重共線問(wèn)題其基本思想是逐個(gè)引入自變量,每次引入對(duì)因變量影響最顯著的自變量,并對(duì)方程中的老變量逐個(gè)進(jìn)行檢驗(yàn),把變化不顯著的變量逐個(gè)從方程中剔除,最終的回歸方程既不漏掉對(duì)因變量影響顯著的變量,又不包含對(duì)因變量影響不顯著的變量。R語(yǔ)言中的step()函數(shù)可以在已有模型的基礎(chǔ)上實(shí)現(xiàn)逐步回歸,其原理是將原模型中的變量逐個(gè)剔除,重新進(jìn)行回歸,依據(jù)赤池信息量準(zhǔn)則(AIC,Akaikeinformationcriterion)確定最終的模型。赤池信息量準(zhǔn)則是評(píng)估統(tǒng)計(jì)模型的復(fù)雜度和衡量統(tǒng)計(jì)模型擬合效果的一種標(biāo)準(zhǔn),可以幫助尋找能夠最好地解釋數(shù)據(jù)但包含最少自由參數(shù)的模型。赤池信息量越小,表明模型的擬合效果越好且出現(xiàn)過(guò)度擬合的可能性越小。3.5
線性回歸中的多重共線問(wèn)題tstep<-step(m_stepreg)summary(tstep)輸出:Start:AIC=28.76Y~x1+x2+x3+x4DfSumofSqRSSAIC-x310.109147.97324.021-x410.247048.11125.011-x212.972550.83625.728<none>47.86428.764-x1125.950973.81530.576
Step:AIC=24.02Y~x1+x2+x4
DfSumofSqRSSAIC<none>47.9724.021-x419.9357.9025.420-x2126.7974.7628.742-x11820.91868.8860.629逐步回歸方法舉例:選擇最低赤池信息量對(duì)應(yīng)的模型后重復(fù)進(jìn)行變量的剔除操作,當(dāng)赤池信息量的值不再變小時(shí),終止逐步回歸,輸出逐步回歸結(jié)果,舉例如下:3.6線性回歸模型的擬合優(yōu)度
3.6線性回歸模型的擬合優(yōu)度
3.7
回歸診斷回歸模型構(gòu)建之后,需要確定模型是否符合回歸分析的前提假設(shè),包括:樣本中是否存在異常點(diǎn)因變量和每個(gè)自變量都是線性關(guān)系殘差值應(yīng)該是一個(gè)均值為0的正態(tài)分布(殘差的正態(tài)性)本節(jié)將針對(duì)以上前提假設(shè)分別介紹相關(guān)診斷方法。注:使用R自帶函數(shù)(par(mfrow=c(2,2),plot(model))繪制殘差與杠桿圖、QQ圖等時(shí),默認(rèn)顯示當(dāng)前樣本最極端的前三個(gè)數(shù)據(jù)點(diǎn),如圖3-1中的點(diǎn)49、30、10。異常點(diǎn)識(shí)別圖3-1殘差與杠桿圖中的異常點(diǎn)可以利用庫(kù)克距離判斷某個(gè)樣本點(diǎn)是否為異常點(diǎn)某個(gè)點(diǎn)的庫(kù)克距離越大,表示剔除該點(diǎn)數(shù)據(jù)后,回歸方程參數(shù)的變化越大。一般認(rèn)為,如果庫(kù)克距離超過(guò)1,則表示該點(diǎn)為對(duì)回歸模型影響比較大的高影響點(diǎn)。殘差與杠桿圖可以顯示異常點(diǎn),該圖的橫軸表示點(diǎn)的杠桿值,縱軸表示點(diǎn)的標(biāo)準(zhǔn)化殘差,紅色實(shí)線為二者的趨勢(shì)線,紅色虛線表示庫(kù)克距離的等高線。橫坐標(biāo)過(guò)大的點(diǎn)為高杠桿點(diǎn),縱坐標(biāo)過(guò)大的點(diǎn)為離群點(diǎn),紅色虛線外的點(diǎn)為強(qiáng)影響點(diǎn),這三類點(diǎn)均為異常點(diǎn),一般異常點(diǎn)出現(xiàn)在圖的右上角或右下角.如圖,點(diǎn)49的庫(kù)克距離大于1,且橫縱坐標(biāo)都較大,為異常點(diǎn)。線性關(guān)系檢驗(yàn)圖3-2因變量和每個(gè)自變量都是線性關(guān)系的殘差與擬合因變量和每個(gè)自變量之間的線性關(guān)系可以使用“殘差vs擬合圖”進(jìn)行檢驗(yàn)。該圖中橫坐標(biāo)為模型在點(diǎn)上的擬合值,縱坐標(biāo)為對(duì)應(yīng)的殘差。紅色線條表示二者關(guān)系的平滑曲線。這條平滑曲線是通過(guò)對(duì)殘差進(jìn)行局部平均或局部回歸得到的,它有助于直觀地觀察殘差是否隨著擬合值的增加而呈現(xiàn)出某種趨勢(shì)。若滿足線性假設(shè),殘差應(yīng)該在y=0附近均勻分布,二者應(yīng)該不存在任何趨勢(shì)性的關(guān)系,即紅色線條應(yīng)該與y=0基本重合(如右圖示例),則可認(rèn)為因變量與自變量之間都是線性關(guān)系。殘差的正態(tài)性檢驗(yàn)圖3-3a)QQ圖圖3-3b)核密度圖殘差的正態(tài)性檢驗(yàn)可以通過(guò)QQ圖與核密度圖實(shí)現(xiàn)。QQ圖是散點(diǎn)圖,橫坐標(biāo)為對(duì)應(yīng)分布(此處為正態(tài)分布)的概率分位數(shù),縱坐標(biāo)為數(shù)據(jù)序列的分位數(shù)。若點(diǎn)在QQ圖上趨近于落在y=x直線上,表明觀測(cè)數(shù)據(jù)的分位數(shù)與正態(tài)分布的分位數(shù)之間存在近似線性的關(guān)系,從而說(shuō)明樣本數(shù)據(jù)服從正態(tài)分布。核密度圖的橫坐標(biāo)為學(xué)生化殘差,縱坐標(biāo)為密度。二者都可以用來(lái)鑒別樣本數(shù)據(jù)是否近似于正態(tài)分布。若核密度圖曲線與標(biāo)準(zhǔn)正態(tài)分布曲線近似重合,這表示模型的殘差在整體上近似地符合正態(tài)分布。3.8線性回歸的R語(yǔ)言實(shí)現(xiàn)本節(jié)以一個(gè)汽車燃油效率數(shù)據(jù)集“FuelEfficiency”為例進(jìn)行線性回歸的R語(yǔ)言示例,擬構(gòu)建GPM與WT、DIS、NC、HP、ACC、ET之間的線性回歸模型。該數(shù)據(jù)集共有38條數(shù)據(jù),記錄了不同品牌型號(hào)汽車的以下數(shù)據(jù):“每加侖英里數(shù)(MPG,milespergallon)”“每百英里加侖數(shù)(GPM,gallonsper100miles)”“汽車的重量(WT,theweightofthecar,單位:千鎊)”“發(fā)動(dòng)機(jī)氣缸的總?cè)莘e(DIS,cubicdisplacement,單位:立方英尺)”“氣缸數(shù)(NC,numberofcylinders)”“馬力(HP,horsepower)”“加速度(ACC,acceleration,速度從0-60英里/h所需時(shí)間:秒)”“發(fā)動(dòng)機(jī)類型(ET,enginetype,1為直型,0為V型,直型發(fā)動(dòng)機(jī)的效率往往低于V型發(fā)動(dòng)機(jī),故可將該變量看作連續(xù)性變量)”3.8線性回歸的R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)讀取:FuelEff<-read.csv("./FuelEfficiency.csv")FuelEff[1:5,]輸出:3.8線性回歸的R語(yǔ)言實(shí)現(xiàn)par(mfrow=c(3,2),mai=c(.6,.6,.3,.3))plot(GPM~WT,data=FuelEff)plot(GPM~DIS,data=FuelEff)plot(GPM~NC,data=FuelEff)plot(GPM~HP,data=FuelEff)plot(GPM~ACC,data=FuelEff)plot(GPM~ET,data=FuelEff)輸出:圖3-4數(shù)據(jù)集“FuelEfficiency”中各變量與GPM之間的散點(diǎn)圖由各個(gè)變量與GPM的散點(diǎn)圖可以看出,GPM與WT、DIS、HP之間有著較為明顯的線性關(guān)系。畫散點(diǎn)圖,初步確定變量之間的相關(guān)性:3.8線性回歸的R語(yǔ)言實(shí)現(xiàn)使用lm函數(shù)建立線性回歸模型:
FuelEff<-FuelEff[-1]m1=lm(GPM~.,data=FuelEff)m1輸出:3.8線性回歸的R語(yǔ)言實(shí)現(xiàn)對(duì)模型F檢驗(yàn)與t檢驗(yàn):R中summary()函數(shù)可以完成F統(tǒng)計(jì)量與t統(tǒng)計(jì)量的計(jì)算:summary(m1)輸出:3.8線性回歸的R語(yǔ)言實(shí)現(xiàn)#參考F統(tǒng)計(jì)量值(其中0.95為置信水平,6和31為自由度)qf(0.95,6,31)輸出:[1]2.409432
#參考t統(tǒng)計(jì)量值qt(0.975,31)輸出:[1]2.039513
3.8線性回歸的R語(yǔ)言實(shí)現(xiàn)判斷各個(gè)自變量之間的相關(guān)關(guān)系:由以下結(jié)果可以發(fā)現(xiàn)汽車重量WT與汽車氣缸容積DIS,氣缸數(shù)NC,馬力HP有著較強(qiáng)的相關(guān)關(guān)系,表明模型可能存在多重共線問(wèn)題cor(FuelEff)輸出:3.8線性回歸的R語(yǔ)言實(shí)現(xiàn)對(duì)模型多重共線性檢驗(yàn):由以下結(jié)果可以看出自變量WT、DIS、NC、HP對(duì)應(yīng)的VIF值大于10,現(xiàn)有模型存在多重共線性。library(car)vif(m1)輸出:3.8線性回歸的R語(yǔ)言實(shí)現(xiàn)全子集回歸:這里使用刪除相關(guān)變量的方法解決多重共線性問(wèn)題,為了保證刪除一些自變量后模型仍然具有較好的擬合效果,進(jìn)行全子集回歸:基于如下的結(jié)果,可以使用NC、HP、ACC、ET作為最終的自變量構(gòu)建線性回歸模型。library(leaps)x<-FuelEff[,2:7]y<-FuelEff[,1]out<-summary(regsubsets(x,y,nbset=2,nvmax=ncol(x)))tab<-cbind(out$which,out$rsq,out$adjr2,out$cp)tab輸出:3.8線性回歸的R語(yǔ)言實(shí)現(xiàn)使用NC、HP、ACC、ET作為最終的自變量構(gòu)建線性回歸模型。m2=lm(GPM~NC+HP+ACC+ET,data=FuelEff)summary(m2)輸出:顯然,F(xiàn)統(tǒng)計(jì)量與t統(tǒng)計(jì)量的值比最初建立的模型m1更大,表明新模型m2的總體顯著性與回歸系數(shù)顯著性均較高,此時(shí)的回歸方程為:GPM=-2.64+0.46NC+0.03HP+0.11ACC-1.22ET3.8線性回歸的R語(yǔ)言實(shí)現(xiàn)vif(m2)輸出:對(duì)新模型進(jìn)行多重共線性檢驗(yàn),表明已經(jīng)不存在明顯的多重共線性:3.8線性回歸的R語(yǔ)言實(shí)現(xiàn)確定模型的回歸效果是否顯著:為了確定模型的回歸效果是否顯著,可進(jìn)行交叉驗(yàn)證回歸,常見的方法有單個(gè)剔除交叉驗(yàn)證、數(shù)據(jù)集拆分驗(yàn)證(將數(shù)據(jù)集的80%作為訓(xùn)練集,20%作為測(cè)試集)、K倍交叉驗(yàn)證,重復(fù)K倍交叉驗(yàn)證方法等。使用單個(gè)剔除交叉驗(yàn)證進(jìn)行回歸的驗(yàn)證,步驟如下:a.剔除一個(gè)數(shù)據(jù)樣本,并在其余數(shù)據(jù)集上建立模型;b.針對(duì)在步驟a中剔除的單個(gè)數(shù)據(jù)樣本進(jìn)行模型測(cè)試,并記錄下與預(yù)測(cè)相關(guān)的預(yù)測(cè)誤差;c.對(duì)所有樣本重復(fù)該過(guò)程;d.通過(guò)取在步驟b中記錄的所有這些測(cè)試誤差估計(jì)的平均值,計(jì)算總體預(yù)測(cè)誤差3.8線性回歸的R語(yǔ)言實(shí)現(xiàn)n<-length(FuelEff$GPM)diff<-dim(n)percdiff<-dim(n)for(kin1:n){train1<-c(1:n)train<-train1[trai
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 商演模特合作合同范本
- 企業(yè)派遣勞務(wù)合同范本
- 商標(biāo)噴漆加工合同范本
- 些合同屬于正式合同范本
- 合伙造林合同范本
- 商品銷品合同范本
- 化工制造采購(gòu)合同范本
- 合伙經(jīng)營(yíng)糧食收購(gòu)合同范本
- 借用大眾員工購(gòu)車合同范例
- 合同范本肯德基加盟合同書
- 2025年全國(guó)國(guó)家版圖知識(shí)競(jìng)賽題庫(kù)及答案(中小學(xué)組)
- 《紅巖》中考試題(截至2024年)
- 2025年合肥職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)完整版
- 2025年黑龍江旅游職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)匯編
- 2025年湖南城建職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)新版
- 國(guó)家基本藥物臨床應(yīng)用指南
- 2025春-新版一年級(jí)語(yǔ)文下冊(cè)生字表(200個(gè))
- 2025年全國(guó)幼兒園教師資格證考試教育理論知識(shí)押題試題庫(kù)及答案(共九套)
- 人教版(2024)六年級(jí)全一冊(cè) 第16課 智能種植初探秘
- 新能源發(fā)電技術(shù) 課件 第一章-新能源發(fā)電概述
- 中醫(yī)醫(yī)療技術(shù)手冊(cè)2013普及版
評(píng)論
0/150
提交評(píng)論