SAS學(xué)習(xí)系列22.-一元線性回歸_第1頁
SAS學(xué)習(xí)系列22.-一元線性回歸_第2頁
SAS學(xué)習(xí)系列22.-一元線性回歸_第3頁
SAS學(xué)習(xí)系列22.-一元線性回歸_第4頁
SAS學(xué)習(xí)系列22.-一元線性回歸_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

22.一元線性回歸回歸分析是研究一個(gè)或多個(gè)變量(因變量)與另一些變量(自變量)之間關(guān)系的統(tǒng)計(jì)方法。主要思想是用最小二乘法原理擬合因變量與自變量間的最佳回歸模型(得到確定的表達(dá)式關(guān)系)。其作用是對因變量做解釋、控制、或預(yù)測。回歸與擬合的區(qū)別:擬合側(cè)重于調(diào)整曲線的參數(shù),使得與數(shù)據(jù)相符;而回歸重在研究兩個(gè)變量或多個(gè)變量之間的關(guān)系。它可以用擬合的手法來研究兩個(gè)變量的關(guān)系,以及出現(xiàn)的誤差?;貧w分析的步驟:(1)獲取自變量和因變量的觀測值;(2)繪制散點(diǎn)圖,并對異常數(shù)據(jù)做修正;(3)寫出帶未知參數(shù)的回歸方程;(4)確定回歸方程中參數(shù)值;(5)假設(shè)檢驗(yàn),判斷回歸方程的擬合優(yōu)度;(6)進(jìn)行解釋、控制、或預(yù)測。一、一元線性回歸模型為Y=??0+??1X+ε其中X是自變量,Y是因變量,??0,??1是待求的未知參數(shù),??0也稱為截距;ε是隨機(jī)誤差項(xiàng),也稱為殘差,通常要求ε滿足:①ε的均值為0;②ε的方差為??2;③協(xié)方差COV(εi,εj)=0,當(dāng)i≠j時(shí)。即對所有的i≠j,εi與εj互不相關(guān)。二、用最小二乘法原理,得到最佳擬合效果的值:,三、假設(shè)檢驗(yàn)1.擬合優(yōu)度檢驗(yàn)總偏差平方和及其自由度:回歸平方和及其自由度:殘差平方和及其自由度:TSS=RSS+ESS通??梢哉J(rèn)為當(dāng)R2大于0.9時(shí),所得到的回歸直線擬合得較好,而當(dāng)R2小于0.5時(shí),所得到的回歸直線很難說明變量之間的依賴關(guān)系。2.回歸方程參數(shù)的檢驗(yàn)回歸方程反應(yīng)了因變量Y隨自變量X變化而變化的規(guī)律,若??1=0,則Y不隨X變化,此時(shí)回歸方程無意義。所以,要做如下假設(shè)檢驗(yàn):H0:??1=0,H1:??1≠0;(1)F檢驗(yàn)若??1=0為真,則回歸平方和RSS與殘差平方和ESS/(N-2)都是??2的無偏估計(jì),因而采用F統(tǒng)計(jì)量:來檢驗(yàn)原假設(shè)β=0是否為真。(2)T檢驗(yàn)對H0:??1=0的T檢驗(yàn)與F檢驗(yàn)是等價(jià)的(t2=F)。對H0:??0=0的T檢驗(yàn),若??0=0為真,t統(tǒng)計(jì)量為:3.用回歸方程做預(yù)測得到回歸方程后,預(yù)測X=x0處的Y值.的預(yù)測區(qū)間為:其中tα/2的自由度為N-2.SAS中是用model語句中的clm選項(xiàng)來計(jì)算預(yù)測區(qū)間的。4.回歸診斷(1)殘差圖分析殘差圖就是以殘差為縱坐標(biāo),某一個(gè)合適的自變量為橫坐標(biāo)的散點(diǎn)圖?;貧w模型中總是假定誤差項(xiàng)是獨(dú)立的正態(tài)分布隨機(jī)變量,且均值為零和方差相等為??2.如果模型適合于觀察到的數(shù)據(jù),那么殘差作為誤差的無偏估計(jì),應(yīng)基本反映誤差的假設(shè)特征。即殘差圖應(yīng)該在零點(diǎn)附近對稱地密布,越遠(yuǎn)離零點(diǎn)的地方就疏散(在形象上似有正態(tài)趨勢),則認(rèn)為模型與數(shù)據(jù)擬合得很好。若殘差圖呈現(xiàn)如圖(a)所示的形式,則認(rèn)為建立的回歸模型正確,更進(jìn)一步再診斷“學(xué)生化殘差”是否具有正態(tài)性:圖(b)表明數(shù)據(jù)有異常點(diǎn),應(yīng)處理掉它重新做回歸分析(在SAS的REG回歸過程步中用來度量異常點(diǎn)影響大小的統(tǒng)計(jì)量是COOKD統(tǒng)計(jì)量);圖(c)殘差隨x的增大而增大,圖(d)殘差隨x的增大而先增后減,都屬于異方差。此時(shí)應(yīng)該考慮在回歸之前對數(shù)據(jù)y或x進(jìn)行變換,實(shí)現(xiàn)方差穩(wěn)定后再擬合回歸模型。原則上,當(dāng)誤差方差變化不太快時(shí)取變換;當(dāng)誤差方差變化較快時(shí)取變換logy或lny;當(dāng)誤差方差變化很快時(shí)取變換1/y;還有其他變換,如著名的Box-Cox冪變換.圖(e)(f)表示選用回歸模型是錯(cuò)誤的。(2)共線性回歸分析中很容易發(fā)生模型中兩個(gè)或兩個(gè)以上的自變量高度相關(guān),從而引起最小二乘估計(jì)可能很不精確(稱為共線性問題)。在實(shí)際中最常見的問題是一些重要的自變量很可能由于在假設(shè)檢驗(yàn)中t值不顯著而被不恰當(dāng)?shù)靥蕹?。共線性診斷問題就是要找出哪些變量間存在共線性關(guān)系。SAS的REG過程步提供了特征值法、條件指數(shù)collin和方差膨脹因子vif.(3)誤差的獨(dú)立性回歸分析之前,要檢驗(yàn)誤差的獨(dú)立性。若誤差項(xiàng)不獨(dú)立,那么回歸模型的許多處理,包括誤差項(xiàng)估計(jì)、假設(shè)檢驗(yàn)等都將沒有推導(dǎo)依據(jù)。由于殘差是誤差的合理估計(jì),因此檢驗(yàn)統(tǒng)計(jì)量通常是建立在殘差的基礎(chǔ)上。檢驗(yàn)誤差獨(dú)立性的最常用方法,是對殘差的一階自相關(guān)性進(jìn)行Durbin-Watson檢驗(yàn)。H0:誤差項(xiàng)是相互獨(dú)立的;H1:誤差項(xiàng)是相關(guān)的檢驗(yàn)統(tǒng)計(jì)量:DW接近于0,表示殘差中存在正自相關(guān);如果DW接近于4,表示殘差中存在負(fù)自相關(guān);如果DW接近于2,表示殘差獨(dú)立性。在給定顯著水平α下,我們可以查Durbin-Watson表得到不能拒絕獨(dú)立性原假設(shè)的區(qū)間。四、PROCREG過程步1.基本語法前面三種回歸分析都可以用PROCREG過程步實(shí)現(xiàn)。基本語法:PROCREGdata=數(shù)據(jù)集;MODEL因變量=自變量列表</可選項(xiàng)>;說明:MODEL語句用來指定因變量和自變量;常用的輸出可選項(xiàng):STB——輸出標(biāo)準(zhǔn)化偏回歸系數(shù)矩陣CORRB——輸出參數(shù)估計(jì)矩陣COLLINOINT——對自變量進(jìn)行共線性分析P——輸出個(gè)體觀測值、預(yù)測值及殘差(R/CLM/CLI包含P)R——輸出每個(gè)個(gè)體觀測值、殘差及標(biāo)準(zhǔn)誤差CLM——輸出因變量均值95%的置信界限的上下限CLI——對各預(yù)測值輸出95%的置信界限的上下限MSE——要求輸出隨機(jī)擾動(dòng)項(xiàng)方差??2的估計(jì)與殘差分析有關(guān)的可選項(xiàng)VIF——輸出變量間相關(guān)性的方差膨脹系數(shù),VIF越大,說明由于共線性存在,使方差變大;COLLIN——輸出條件數(shù),它表示最大的特征值與每個(gè)自變量特征值之比的平方根。一般情況下,條件數(shù)越大越可能存在共線性;TOL——表示共線性水平的容許值,TOL越小說明其可用別的自變量解釋的部分多,自然可能與別的自變量存在共線性關(guān)系;DW——輸出Durbin-Watson統(tǒng)計(jì)量;influence——對異常點(diǎn)進(jìn)行診斷,對每一觀測點(diǎn)輸出統(tǒng)計(jì)量(Cook’sD>50%,defits/debetas>2說明該點(diǎn)影響較大)。2.繪制回歸分析的圖形在PROCREG過程步加入繪圖選項(xiàng)語句即可?;菊Z法:PROCREGdata=數(shù)據(jù)集PLOTS=(圖形類型);可選的繪圖類型:FITPLOT——帶回歸線、置信預(yù)測帶的散點(diǎn)圖;RESIDUALS——自變量的殘差圖;DIAGNOSTICS——診斷圖(包括下面各圖);COOKSD——Cook'sD統(tǒng)計(jì)量圖;OBSERVEDBYPREDICTED——根據(jù)預(yù)測值的因變量圖;QQPLOT——檢驗(yàn)殘差正態(tài)性的QQ圖;RESIDUALBYPREDICTED——根據(jù)預(yù)測值的殘差圖;RESIDUALHISTOGRAM——?dú)埐畹闹狈綀D;RFPLOT——?dú)埐顢M合圖;RSTUDENTBYLEVERAGE——杠桿比率的學(xué)生化殘差圖;RSTUDENTBYPREDICTED——預(yù)測值的學(xué)生化殘差圖;注:殘差圖(RESIDUALS)和診斷圖(DIAGNOSTICS)是自動(dòng)生成的,根據(jù)模型也有其它默認(rèn)的圖形輸出;若只繪制指定的圖形需要加上ONLY:PROCREGdata=數(shù)據(jù)集PLOTS(ONLY)=(圖形類型);例1(線性回歸)30名兒童棒球選手的數(shù)據(jù)(C:\MyRawData\Baseball.dat),變量包括擊球高度、球飛出的距離:讀入數(shù)據(jù),以球飛出的距離為因變量,擊球高度為自變量做線性回歸分析。代碼:datahits;infile'c:\MyRawData\Baseball.dat';inputHeightDistance@@;run;procregdata=hitsPLOTS(ONLY)=(DIAGNOSTICSFITPLOT);modelDistance=Height/rclmclidw;title'ResultsofRegressionAnalysis';run;運(yùn)行結(jié)果:結(jié)果說明:(1)只有一個(gè)自變量的,故其自由度為DF=1,因變量的自由度為N-1=29;誤差的自由度為N-1-1=28;(2)離差平方和(TSS)=回歸平方和(RSS)+殘差平方和(ESS),即3633.86667=1365.50831+2268.35836離差平方和平均值為MSR=RSS/df=1365.50831/1=1365.5083,誤差項(xiàng)的離差平方和平均值為MSE=ESS/df=2268.35836/28=81.01280;(3)假設(shè)檢驗(yàn)H0:回歸系數(shù)β=0.F(1,28)=MSR/MSE=1365.5083/81.01280=16.86P值=0.0003<α=0.05,說明斜率β不為0(與后面的t檢驗(yàn)結(jié)果相同);(4)均方根誤差:RootMSE=MSE開根號(hào)=9.00071;變異系數(shù)(或稱方差系數(shù)):CoeffVar=均方根誤差/因變量均值×100=6.88479;(5)擬合優(yōu)度R2=0.3758,校正的R2=0.3535;說明線性回歸關(guān)系并不強(qiáng),球飛出的距離可能還和選手的年齡、經(jīng)驗(yàn)有關(guān);(6)參數(shù)估計(jì)表給出了截距和斜率的估計(jì)值,得到回歸方程:Di

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論