R語言實戰(zhàn)-topic6回歸分析_第1頁
R語言實戰(zhàn)-topic6回歸分析_第2頁
R語言實戰(zhàn)-topic6回歸分析_第3頁
R語言實戰(zhàn)-topic6回歸分析_第4頁
R語言實戰(zhàn)-topic6回歸分析_第5頁
免費預覽已結束,剩余8頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、 Topic6 回歸 什么是回歸 回歸其實是一個廣義的概念,通指那些用一個或多個預測變量(也稱自變量或解釋變 量)來預測響應變量(也稱因變量、效標變量或結果變量)的方法。通常,回歸分析 可以用來挑選與響應變量相關的解釋變量,可以描述兩者的關系,也可以生成一個等式,通過解釋變量來預測響應變量。 表8-1回歸分析的各種變體 回歸類型 用途 簡單線性 當項式 多層 用一個量化的解釋變量預測一個量化的響應變量 用一個樂化的解群變展偵測一個星化的響應變晶.模型的關系是月階軍項式 用擁有等級結構的數(shù)據(jù)預測一個響應變量I例如學校中教室里的學生L也被稱為分層模型.被套模型或混合模型 名元線件簍變后Logist

2、ic泊松 Cox比例風險 時間序列非線性非搴數(shù)穩(wěn)健 用兩個或方個量化的解擇變量預測一個量化的響應變量 用一個或多個解釋變景預測多個響應變量 用一個成名個解釋變量前測一個類別型響應變后 用一個或多個解釋變量預測一個代表頻數(shù)的響應變量 用一個或多個解釋變后預測一個事件(死亡、失敗或用病夏發(fā))發(fā)電的時間 對溟差項相關的時間序列數(shù)據(jù)建模 用一個或2個最化的解釋變成預測一個量化的響應變盤,不過模型地等線性的 用一個或多個最化的解樣變最預測一個量化的響應變型.模型的形式源H數(shù)據(jù)形式,不事先設定用個或多個量化的解釋變量預測一個量化的響應堊量,能抵御強影響點的干擾 我們的重點是普通最小二乘(OLS)回歸法,包

3、括簡單線性回歸、多項式回歸和多元線性回歸。 OLS回歸是現(xiàn)今最常見的統(tǒng)計分析方法,其他回歸模型(Logistic回歸和泊松回歸)將在第13章介紹 OLS回歸的適用情境 OLS回歸是通過預測變量的加權和來預測量化的因變量,其中權重是通過數(shù)據(jù)估計而 得的參數(shù) 示例 一名工程師想找出跟橋梁退化有關的最重要的因素,比如使用年限、交通流量、橋梁 設計、建造材料和建造方法、建造質(zhì)量以及天氣情況,并確定它們之間的數(shù)學關系。 他從一個有代表性的橋梁樣本中收集了這些變量的相關數(shù)據(jù),然后使用OLS回歸對數(shù) 據(jù)進行建模。解決以下幾個方面的問題: 在眾多變量中判斷哪些對預測橋梁退化是有用的,得到它們的相對重要性,從而

4、關 注重要的變量。 根據(jù)回歸所得的等式預測新的橋梁的退化情況 (預測變量的值已知, 但是橋梁退化程度未知) ,找出那些可能會有麻煩的橋梁。 利用對異常橋梁的分析,獲得一些意外的信息。比如他發(fā)現(xiàn)某些橋梁的退化速度比預測的更快或更慢,那么研究這些“離群點”可能會有重大的發(fā)現(xiàn),能夠幫助理解橋梁退化的機制。 OLS回歸模型的形式: 彳=A+力西+自乙,=1打 n為觀測的數(shù)目,k為預測變量的數(shù)目,Y?第i次觀測對應的因變量的預測值,X/第i次觀測對應的第j個預測變量值,用截距項,片預測變量j的回歸系數(shù) 目標是使殘差平方和最?。?-寓”匹十十A*J謫 用lm()擬合回歸模型 myfit-lm(formul

5、a,data) 表達式(formula)形式如下: Y。XI+X2+Xk 表8-3對擬合線性模型非常有用的其他函數(shù) 函數(shù)用途 surranary( 展示擬臺模型的詳細結果 coefficients() 列出擬合模型的模型零數(shù)(截環(huán)項和斜率) contint() 提供模型參數(shù)的置信區(qū)間(默認95%) fitted() 列出擬合模型的捌漫值 rfisidviaLs) 列出擬合模鱉的殘差值 anova) 生成一個擬合校地的疔差分析表,或者比較兩個或更多擬合模型的方差分析去 vcov() 列出模型參數(shù)的辦力差矩陣 AICO 輸出赤池信息統(tǒng)訂量 plot() 生成評價擬合模型的診斯圖 prodiCT(

6、用擬合模型對新的數(shù)據(jù)柒頊測響應變量值 當回歸模型包含一個因變量和一個自變量時,我們稱為簡單線性回歸。當只有一個預測變量,但同時包含變量的哥(比如,X,X2,X3)時,我們稱為多項式回歸。當有不止一個預測變量時,則稱為多元線性回歸 簡單線性回歸 通過身高來預測體重(women數(shù)據(jù)集) fit|t|) (Intercept)-87.516675.93694-14.741.71e-09* height3.450000.0911437.851.09e-14* Signif.codes:0*0.001*0.01*0.05.0.11 Residualstandarderror:1.525on13degre

7、esoffreedomMultipleR-squared:0.991,AdjustedR-squared:0.9903 F-statistic:1433on1and13DF,p-value:1.091e-14 women$weight 1115117120123126129132135139142146150154159164 fitted(fit) 12345678 112.5833116.0333119.4833122.9333126.3833129.8333133.2833136.7333 9101112131415 140.1833143.6333147.0833150.5333153

8、.9833157.4333160.8833 residuals(fit) 123456 2.416666670.966666670.516666670.06666667-0.38333333-0.83333333 789101112 -1.28333333-1.73333333-1.18333333-1.63333333-1.08333333-0.53333333 131415 0.016666671.566666673.11666667 plot(women$height,women$weight, main=WomenAge30-39, xlab=Height(ininches),ylab

9、=Weight(inpounds)abline(fit) womenAge30-39 Migrilininch?l 通過輸出結果,可以得到預測等式: 而福二-87.52+3都川例亞 多項式回歸 通 過 添 加 一 個 二 次 項 ( 即X2)來 提 高 回 歸 的 預 測 精 度fit2|t|) (Intercept)261.8781825.1967710.3932.36e-07* height-7.348320.77769-9.4496.58e-07* I(heightA2)0.083060.0059813.8919.32e-09* Signif.codes:0*0.001*0.01*0.0

10、5.0.11 Residualstandarderror:0.3841on12degreesoffreedom MultipleR-squared:0.9995,AdjustedR-squared:0.9994 F-statistic:1.139e+04on2and12DF,p-value:2.2e-16 plot(women$height,women$weight, main=WomenAge30-39, xlab=Height(ininches),ylab=Weight(inlbs)lines(women$height,fitted(fit2) 新的預測等式為: Weight=26L8-7

11、35,Height+0.083丈Hei鮑線性模型與非線性模型 多項式等式仍可認為是線性回歸模型,因為等式仍是預測變量的加權和形式(本例中是身高和身高的平方)。即使這樣的模型: =A*iog%+乂疝羽 仍可認為是線性模型(參數(shù)項是線性的),能用這樣的表達式進行擬合: YJlog(XJ+sin(XJ 相反,下面的例子才能算是真正的非線性模型: 這種非線性模型可用nls()函數(shù)進行擬合 一般來說,n次多項式生成一個nT個彎曲的曲線。擬合三次多項式,可用: fit3-Lm(weigliCheight+I(heightA2)+1(helghtA3),data=women)雖然更高次的多項式也可用,但我發(fā)

12、現(xiàn)使用比三次更高的項幾乎沒有必要。 用scatterplot繪制二元關系圖 library(car) scatterplot(weightheight,data=women, spread=FALSE,smoother.args=list(lty=2),pch=19, main=WomenAge30-39”,xlab=Height(inches),ylab=Weight(lbs.) WorrtanAge304S 多元線性回歸 當預測變量不止一個時,簡單線性回歸就變成了多元線性回歸 多元回歸分析中,第一步最好檢查一下變量間的相關性。cor()函數(shù)提供了二變量之間 的相關系數(shù),car包中scatt

13、erplotMatrix()函數(shù)則會生成散點圖矩陣 states-as.data.frame(state.x77,c(Murder,Population, Illiteracy,Income,Frost)cor(states) MurderPopulationIlliteracyIncomeFrost Murder1.00000000.34364280.7029752-0.2300776-0.5388834 Population0.34364281.00000000.10762240.2082276-0.3321525 Illiteracy0.70297520.10762241.0000000

14、-0.4370752-0.6719470 Income-0.23007760.2082276-0.43707521.00000000.2262822 Frost-0.5388834-0.3321525-0.67194700.22628221.0000000 library(car) scatterplotMatrix(states,spread=FALSE,smoother.args=list(lty=2),main=ScatterPlotMatrix) ScatterPlotMaINx wa15aMi scatterplotMatrix()函數(shù)默認在非對角線區(qū)域繪制變量間的散點圖,并添加平滑

15、和線性擬合曲線。對角線區(qū)域繪制每個變量的密度圖和軸須圖。 使用lm()函數(shù)擬合多元線性回歸模型 states-as.data.frame(state.x771c(Murder,Population, Illiteracy,Income,Frost)fit|t|)(Intercept)1.235e+003.866e+000.3190.7510Population2.237e-049.052e-052.4710.0173* Illiteracy4.143e+008.744e-014.7382.19e-05* Income6.442e-056.837e-040.0940.9253 Frost5.81

16、3e-041.005e-020.0580.9541 Signif.codes:0*0.001*0.01*0.05.0.11 Residualstandarderror:2.535on45degreesoffreedom MultipleR-squared:0.567,AdjustedR-squared:0.5285 F-statistic:14.73on4and45DF,p-value:9.133e-08 有交互項的多元線性回歸 以mtcars數(shù)據(jù)框中的汽車數(shù)據(jù)為例,若你 對汽車重量和馬力感興趣,可以把它們作為預測變量,并包含交互項來擬合回歸模型 fit|t|)(Intercept)49.80

17、8423.6051613.8165.01e-14*hp-0.120100.02470-4.8634.04e-05* wt-8.216621.26971-6.4715.20e-07* hp:wt0.027850.007423.7530.000811* Signif.codes:0*0.001*0.01*0.05.0.11 Residualstandarderror:2.153on28degreesoffreedom MultipleR-squared:0.8848,AdjustedR-squared:0.8724 F-statistic:71.66on3and28DF,p-value:2.981

18、e-13 通過effects包中的effect()函數(shù),你可以用圖形展示交互項的結果。格式為:library(effects) plot(effect(hp:wt,fit,list(wt=c(2.2,3.2,4.2),multiline=TRUE) nWcrplcK 勇MlSW酎211 從圖中可以很清晰地看出, 隨著車重的增加, 馬力與每加侖汽油行駛英里數(shù)的關系減弱了。 當wt=4.2時,直線幾乎是水平的,表明隨著hp的增加,mpg不會發(fā)生改變。 回歸診斷 通過confint()函數(shù)的輸出來看看8.2.4節(jié)中states多元回歸的問題 states-as.data.frame(state.x7

19、7,c(Murder,Population, Illiteracy,Income,Frost) fit-lm(MurderPopulation+Illiteracy+Income+Frost,data=states)confint(fit) 2.5%97.5% (Intercept)-6.552191e+009.0213182149 Population4.136397e-050.0004059867 Illiteracy2.381799e+005.9038743192 Income-1.312611e-030.0014414600 Frost-1.966781e-020.0208304170

20、 結果表明,文盲率改變1%,謀殺率就在95%的置信區(qū)間2.38,5.90中變化。另外,因為Frost。的置信區(qū)間包含0,所以可以得出結論:當其他變量不變時,溫度的改變與謀殺率無關。 檢驗回歸分析中統(tǒng)計假設的方法簡單線性回歸 fit-lm(weightheight,data=women)par(mfrow=c(2,2) plot(fit) 二次擬合診斷圖 newfit-lm(weightheight+I(heightA2),data=women)par(opar) par(mfrow=c(2,2) plot(newfit)FittedvaivRS 1201341MMQ網(wǎng) ResiduatevsF

21、led EEIrn苜y PiBEiylQuartiles rJir1.J, 5CAteLocafi rl一/npr9FU7nBFUrn.v-J 000(ILOE0.10DJSQ3):期 R檄mzisvsleversje HCMIY刖fgLev*w 最后,我們再應用這個基本的方法,來看看states的多元回歸問題。 opar-par(no.readonly=TRUE) states-as.data.frame(state.x77,c(Murder,Population, Illiteracy,Income,Frost)fit-lm(MurderPopulation+Illiteracy+Inco

22、me+Frost,data=states)par(mfrow=c(2,2)plot(fit)par(opar) 線性模型假設的綜合驗證 gvlma能對線性模型假設進行綜合驗證,同時還能做偏斜度、峰度和異方差性的評價library(gvlma) gvmodel2#problem? PopulationIlliteracyIncomeFrost1.2452822.1658481.3458222.082547 sqrt(vif(fit)2#problem? PopulationIlliteracyIncomeFrostFALSEFALSEFALSEFALSE 離群點檢測 outlierTest(fi

23、t) rstudentunadjustedp-valueBonferonnip Nevada3.5429290.000950880.047544 高杠桿值點 高杠桿值觀測點,即與其他預測變量有關的離群點。它們是由許多異常的預測變量值組合起來的,與響應變量值沒有關系。 高杠桿值的觀測點可通過帽子統(tǒng)計量(hatstatistic)判斷。對于一個給定的數(shù)據(jù)集,帽子均值為p/n,其中p是模型估計的參數(shù)數(shù)目(包含截距項),n是樣本量。一般來說,若觀測點的帽子值大于帽子均值的2或3倍,就可以認定為高杠桿值點 hat.plot-function(fit) p-length(coefficients(fit)

24、 n-length(fitted(fit) plot(hatvalues(fit),main=IndexPlotofHatValues) abline(h=c(2,3)*p/n,col=red,lty=2) identify(1:n,hatvalues(fit),names(hatvalues(fit) ) hat.plot(fit) 強影響點 強影響點,即對模型參數(shù)估計值影響有些比例失衡的點。例如,若移除模型的一個觀測點時模型會發(fā)生巨大的改變。 有兩種方法可以檢測強影響點:Cook距離,或稱D統(tǒng)計量,以及變量添加圖(added variableplot)o一般來說,CookSD值大于4/(n

25、*T),則表明它是強影響點,其中n為樣本量大小,k是預測變量數(shù)目。 cutoff.)11h,i,.11.I.llIII iirir VW3CJM 口(HEE 卬 EFAwderlitFaqr*lnE_ane-*PiCBl| 利用car包中的influencePlot()函數(shù),還可以將離群點、杠桿值和強影響點的信息整合到一幅圖形中: influencePlot(fit,id.method=identify,main=InfluencePlot, sub=CirclesizeisproportialtoCooksDistance) inniufrnceRui Ciltss3曲片,幅pEHioCgM

26、OslRrte 改進措施 “如果通過回歸診斷發(fā)現(xiàn)了問題,那么能做些什么呢?”有四種方法可以處理違背回歸假設的問題: 1 .刪除觀測點 2 .變量變換 3 .增刪變量 4 .使用其他回歸方法 選擇“最佳”的回歸模型 模型比較 用基礎安裝中的anova()函數(shù)可以比較兩個嵌套模型的擬合優(yōu)度。所謂嵌套模型,即它 的一些項完全包含在另一個模型中。在states的多元回歸模型中,我們發(fā)現(xiàn)Income和 Frost的回歸系數(shù)不顯著, 此時你可以檢驗不含這兩個變量的模型與包含這兩項的模型預測效果是否一樣好。 用anova()函數(shù)比較 states-as.data.frame(state.x77,c(Murder,Population, Illiteracy,Income,Frost) fit2-lm(MurderPopulation+Illiteracy,data=states) fit1F) 47289.25 45289.1720.0785050.00610.9939 用AIC來比較模型 fitl-lm(MurderPopulation+Illiteracy+Income+Frost,data=states) fit2-lm(MurderPopulation+Illiteracy,data=states) AIC(fit1,fit2) dfAIC

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論