SAS學(xué)習(xí)系列23.多元線性回歸_第1頁(yè)
SAS學(xué)習(xí)系列23.多元線性回歸_第2頁(yè)
SAS學(xué)習(xí)系列23.多元線性回歸_第3頁(yè)
SAS學(xué)習(xí)系列23.多元線性回歸_第4頁(yè)
SAS學(xué)習(xí)系列23.多元線性回歸_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

文案大全文案大全23.多元線性回歸一、多元線性回歸1.模型為Y=o+iXi+…+nXn+£其中X],XN是自變量,Y是因變量,0,]???,N是待求的未知參數(shù),s是隨機(jī)誤差項(xiàng)(殘差),若記多元線性回歸模型可寫(xiě)為矩陣形式:Y=Xp+s通常要求:矩陣X的秩為k+1(保證不出現(xiàn)共線性),且k<N;s為正態(tài)分布,E(s)=0和E(ss')=21錯(cuò)誤!未定義書(shū)簽。其中I為NXN單位矩陣。用最小二乘法原理,令殘差平方和郎=(F—妙)(『—妙)最小,得到為卩的最佳線性無(wú)偏估計(jì)量(高斯一馬爾可夫定理)。

2?2的估計(jì)和T檢驗(yàn)選取2的估計(jì)量:2s~=N-k-1則假如t值的絕對(duì)值相當(dāng)大,就可以在適當(dāng)選定的置信水平上否定原假設(shè),參數(shù)的1-a置信區(qū)間可由下式得出:其中t/2為與a%顯著水平有關(guān)的t分布臨界值。/23.R2和F檢驗(yàn)若因變量不具有0平均值,則必須對(duì)R2做如下改進(jìn):隨著模型中增添新的變量,R2的值必定會(huì)增大,為了去掉這種增大的

干擾,還需要對(duì)R2進(jìn)行修正(校正擬合優(yōu)度對(duì)自由度的依賴關(guān)系):R2=1-ETSS^=1-呂(1-R2)做假設(shè)檢驗(yàn):H0:1NH0:1N=°;斗:J.,“至少有一個(gè)工0使用F統(tǒng)計(jì)量做檢驗(yàn),若F值較大,則否定原假設(shè)。二、PROCREG過(guò)程步基本語(yǔ)法:PROCREGdata=數(shù)據(jù)集;MODEL因變量=自變量列表</可選項(xiàng)>;<restrict自變量的等式約束;>說(shuō)明:MODEL語(yǔ)句用來(lái)指定因變量和自變量;restrict語(yǔ)句示例:restricta1+a2=1;常用的輸出可選項(xiàng):STB——輸出標(biāo)準(zhǔn)化偏回歸系數(shù)矩陣CORRB——輸出參數(shù)估計(jì)矩陣COLLINOINT——對(duì)自變量進(jìn)行共線性分析P——輸出個(gè)體觀測(cè)值、預(yù)測(cè)值及殘差(R/CLM/CLI包含P)R――輸出每個(gè)個(gè)體觀測(cè)值、殘差及標(biāo)準(zhǔn)誤差CLM――輸出因變量均值95%的置信界限的上下限CLI——對(duì)各預(yù)測(cè)值輸出95%的置信界限的上下限MSE——要求輸出隨機(jī)擾動(dòng)項(xiàng)方差2的估計(jì)?2與殘差分析有關(guān)的可選項(xiàng)VIF——輸出變量間相關(guān)性的方差膨脹系數(shù),VIF越大,說(shuō)明由于共線性存在,使方差變大;——輸出條件數(shù),它表示最大的特征值與每個(gè)自變量COLLIN特征值之比的平方根。一般情況下,條件數(shù)越大越可能存在共線性;——表示共線性水平的容許值,TOL越小說(shuō)明其可用別的TOL自變量解釋的部分多,自然可能與別的自變量存在共線性關(guān)系;輸出Durbin-Watson統(tǒng)計(jì)量;DWinfluence對(duì)異常點(diǎn)進(jìn)行診斷,對(duì)每一觀測(cè)點(diǎn)輸出統(tǒng)計(jì)量(Cook'sD>50%,defits/debetas>2說(shuō)明該點(diǎn)影響較大)。交互式語(yǔ)句add——向模型中增加變量;delete——?jiǎng)h除原擬合模型中的有關(guān)變量;refit重新擬合模型;print輸出有關(guān)模型的相關(guān)信息。繪制回歸分析的圖形在PROCREG過(guò)程步加入繪圖選項(xiàng)語(yǔ)句即可?;菊Z(yǔ)法:PROCREGdata=數(shù)據(jù)集PLOTS=(圖形類型);可選的繪圖類型:FITPLOT——帶回歸線、置信預(yù)測(cè)帶的散點(diǎn)圖;RESIDUALS——自變量的殘差圖;DIAGNOSTICS——診斷圖(包括下面各圖);COOKSD——Cook'sD統(tǒng)計(jì)量圖;OBSERVEDBYPREDICTED——根據(jù)預(yù)測(cè)值的因變量圖;QQPLOT——檢驗(yàn)殘差正態(tài)性的QQ圖;RESIDUALBYPREDICTED——根據(jù)預(yù)測(cè)值的殘差圖;RESIDUALHISTOGRAM——?dú)埐畹闹狈綀D;RFPLOT——?dú)埐顢M合圖;RSTUDENTBYLEVERAGE——杠桿比率的學(xué)生化殘差圖;RSTUDENTBYPREDICTED——預(yù)測(cè)值的學(xué)生化殘差圖;注:殘差圖(RESIDUALS)和診斷圖(DIAGNOSTICS)是自動(dòng)生成的,根據(jù)模型也有其它默認(rèn)的圖形輸出;若只繪制指定的圖形需要加上ONLY:PROCREGdata=數(shù)據(jù)集PLOTS(ONLY)=(圖形類型);例1用多元線性回歸模型,來(lái)研究耗氧量的是如何依賴其它變量的。

31位成年人心肺功能的調(diào)查數(shù)據(jù)(見(jiàn)下表),由于回歸是相關(guān)的,所以理論上還應(yīng)該做共線性診斷。ageweightOxygen耗氧量runtime跑15英哩的時(shí)間(分)rstpulse休息時(shí)每分鐘心跳次數(shù)runpulse跑步時(shí)每分鐘心跳次數(shù)Maxpulse每分鐘心跳次數(shù)最大值4489.4744.60911.37621781824075.0745.31310.07621851854485.8454.2978.65451561684268.1559.5718.17401661723889.0249.8749.22551781804777.4544.81111.63581761764075.9845.68111.95701761804381.1949.09110.85641621704481.4239.44213.08631741763881.8760.0558.63481701864473.0350.54110.13451681684587.6637.38814.03561861924566.4544.75411.12511761764779.1547.27310.60471621645483.1251.85510.33501661704981.4249.1568.95441801855169.6340.83610.95571681725177.9146.67210.00481621684891.6346.77410.25481621644973.3750.38810.08761681685773.3739.40712.63581741765479.3846.08011.17621561655276.3245.4419.6348164166

5070.8754.6258.92481461555167.2545.11811.08481721725491.6339.20312.88441681725173.7145.79010.47591861885759.0850.5459.93491481554976.3248.6739.40561861884861.2447.92011.50521701765282.7847.46710.5053170172代碼:datafitness;inputageweightoxygenruntimerstpulserunpulsemaxpulse;datalines;4489.4744.60911.37621781824075.0745.31310.07621851854485.8454.2978.65451561684268.1559.5718.17401661723889.0249.8749.22551781804777.4544.81111.63581761764075.9845.68111.95701761804381.1949.09110.85641621704481.4239.44213.08631741763881.8760.0558.63481701864473.0350.54110.13451681684587.6637.38814.03561861924566.4544.75411.12511761764779.1547.27310.60471621645483.1251.85510.33501661704981.4249.1568.95441801855169.6340.83610.95571681725177.9146.67210.00481621684891.6346.77410.25481621644973.3750.38810.08761681685773.3739.40712.63581741765479.3846.08011.17621561655276.3245.4419.63481641665070.8754.6258.9248146155

5167.2545.11811.08481721725491.6339.20312.88441681725173.7145.79010.47591861885759.0850.5459.93491481554976.3248.6739.40561861884861.2447.92011.50521701765282.7847.46710.5053170172run;proccorrdata=fitnessPLOT=MATRIX(HISTOGRAMnvar=all);labeloxygenageweightruntimerstpulserunpulsemaxpulsevaroxygenageweightruntimerstpulserunpulsemaxpulse;='Oxygenconsumption'labeloxygenageweightruntimerstpulserunpulsemaxpulse'Ageinyears''weightinkg'='Min.torun1.5miles'='Heartratewhileresting'='Heartratewhilerunning'='Maximumheartrate';run;fitnessPLOTS(ONLY)=(DIAGNOSTICSprocregdata=fitnessPLOTS(ONLY)=(DIAGNOSTICSFITPLOT);modeloxygen=agemaxpulserstpulserunpulseruntimeweight/ss1ss2;/*ss1為第I類型平方和,ss2為第II類型平方和*/run;deleterstpulse;print;run;procregdata=fitness;modeloxygen=agemaxpulserunpulseruntimeweight;pulse:testmaxpulse+runpulse=0;run;procregdata=fitness;modeloxygen=agemaxpulserunpulseruntimeweight/ss2;/*帶restrict約束條件的回歸,ss1不可用*/restrictmaxpulse+runpulse=0;run;datafitness2;setfitness;maxrun=maxpulse-runpulse;run;procregdata=fitness2;

modeloxygen=agemaxrunruntimeweight/ss1ss2;run;運(yùn)行結(jié)果及說(shuō)明:(1)相關(guān)性分析徽點(diǎn)圏矩陳ojf^eenng己weightruntimerstpuIserunpulsema^puIse散點(diǎn)圖矩陣中第一行的6個(gè)散點(diǎn)圖分別表示oxygen變量作為y軸,其他六個(gè)變量作為x軸的散點(diǎn)圖,第一列的6個(gè)散點(diǎn)圖分別表示oxygen變量作為x軸,其他六個(gè)變量作為y軸的散點(diǎn)圖;對(duì)角線是該變量數(shù)值變化的直方圖。繪制散點(diǎn)圖矩陣圖是為了觀察變量間的相關(guān)性。從圖中可以看出變量runpulse與maxpulse之間存在有較強(qiáng)的共線性,如果在回歸模型中增加方差膨脹系數(shù)(vif),共線性水平的容許值(tol),條件數(shù)

(collin)選項(xiàng)對(duì)回歸進(jìn)行共線性診斷,也會(huì)得到相同的結(jié)論。另外,我們從圖中還發(fā)現(xiàn)耗氧量oxygen與變量runtime有較強(qiáng)的負(fù)相關(guān),從下面的相關(guān)系數(shù)也能得到相同的結(jié)論。CUFiH過(guò)程7變量:C'xvj'rriH.qc?wcij>h1mnlimrikTpiiIkcriinpiiIscmrjxfiuIsc簡(jiǎn)單統(tǒng)計(jì)星啻昌N均值標(biāo)準(zhǔn)差總和量小值雖大值標(biāo)簽oxygen47,37581!).32723140937.3880060.05500r'KMWcnCDiisumpIionage3147.67?42b.21I4111H!38.00000bAAgeinfearsweight3177..1-14528.32857240159.0300091.63000weightinkgruntimt?10.58013328.17000El7QM)14.03000Miri.fi)iuri1.bmilesraLpu1se31b:J./ll^l8294451郵40.0000076.00000Heartratewhile:restingrunpu1sb31169.64516IO.2519952西1-16.00000186.00000Ifeartratewhirunningmaxpu1sc:111/:!.//+1519.11541(15387uib.oonon1512.00000MhximumhrniIrnfrPearsonProb>Ir相關(guān)系數(shù),N-311underHO;Rho=Doxygenageweightruntimarstpulserunpj1semaxpulseoxygenEOOOOO-0.30459-tt16275-0.80219-a34S41-0.39797-a23B74Oscy^encorsumption0.09570.3817<.mm0.05C330?l:6C.1997age-630輛9i.3ncon-n.肚陽(yáng)40.18875n.14157-0.33787n.-^9?inyears0.09570.2061■丄3092U.4475006300.0150weight-0.16276-U.^3b-l1.JUCUU0.143NU.O22/J0.13162U.2193baeifhtinkg0.38170.20C1J.441?0.SO35a3?p40.17C1runtime-A.8C219n.i臨e0,14351I.ooooo0,4A0540.313650,2251olMin.tonunL5miles<.UC010.30S2U.141^U.02560O05SC.22IUrstpuIse-U.$4641-U.Illb/U.022700.lCOb-11.ODUUJ0.317970.257501Heartratewhilereeting0.05630.44750.90353.02553加口C.162Drunpu1se-0,39797-n.也間0,1?15i20.313G50,317971.tx)ooo0,92975Heartratewtiilerunning0.02660.06300.3284■J.06S&U.0&13<.UUU-maxpu1se-U.23874-U.心圧吃U.249380.22ti1U0.257500.929751.oooooMl自輩imuiMiheartrate□.19970.01500.17010.16?^<CXH2)回歸分析

讀取的觀測(cè)數(shù)31使用的觀測(cè)數(shù)方差分析源自由度平方和均方卜值Pr>1-模型6721.97421120.3290422.32<.UUU1誤差24129.407331.39UL校正合計(jì)30951.3B154均方抿誤差2.32206R方0.8-180因變量均值47.37581調(diào)整R方0.SI00變異系數(shù)4.90137參數(shù)怙計(jì)值變量自由度參數(shù)估計(jì)值標(biāo)準(zhǔn)誤差t值Pr>|t|1型SS11SSS1ntercept1102.2383412.453050.21<.000169578363.432661-U.219320.09959-2.210.037073.9882326.29149maxpu1se10.304730.137222.220.0361142.3554326.59054rstpu1se1-0.000844210.05863-o.tno.9886o.U0112runpu1se1-n.373160.12068-a.nso.nobo36-10751.55541runtime1680520.El能-7.IS<.0001310.368B9275.67144woigh11-0.0.-13?0.IflfiOD449949一44994得到回歸方程:oxygen=102.238339-0.219916age+0.304735maxpulse-0.000844rstpuls

-0.373164runpulse-2.680516runtime-0.072380weight多元線性回歸模型的一個(gè)重要問(wèn)題是,如何正確地縮減自變量到達(dá)最優(yōu)的簡(jiǎn)化模型。判斷回歸模型是否還能縮減自變量,可以通過(guò)這第I類平方和(I型SS)和第II類平方和(II型SS),構(gòu)造F檢驗(yàn)(等同于這個(gè)自變量的參數(shù)t檢驗(yàn),因?yàn)镕=t2)來(lái)比較確定。runtime自變量的兩類平方和都是最大的且占的比例很大,說(shuō)明是回歸模型中第一重要的自變量。而rstpulse自變量在第一類平方和中有比較大的數(shù)值卻在第I類平方和中是最小的,這是rstpulse自變量(休息時(shí)每分鐘心跳次數(shù))應(yīng)該被考慮第一個(gè)刪除的主要原因。(3)剔除不顯著的回歸變量,繼續(xù)回歸分析自變量rstpulse和weight的回歸系數(shù)的t檢驗(yàn)的P值分別為0.9886和0.1980,都大于a=0.05,故不拒絕“系數(shù)=0”的原假設(shè)。這里要小心地看待這些檢驗(yàn),因?yàn)樗鼈兌际窃谄渌宰兞慷技尤牖貧w的前提下進(jìn)行顯著性檢驗(yàn)的,完全可能因?yàn)樽宰兞块g存在較強(qiáng)的相關(guān)而掩蓋他們對(duì)回歸的貢獻(xiàn)。所以,在剔除不顯著的回歸變量時(shí)必須逐個(gè)進(jìn)行。另外,從自變量rstpulse的回歸系數(shù)更接近于0,也提示我們應(yīng)先考慮刪除自變量rstpulse.deleterstpulse;print;run;

方差介析源自由度平方和均方r值Pr>r模型b721.97309144.3曲曲2/.yu<.DDU1誤差129.408455.17634校正合計(jì)30951.38154均方根誤差2.27516R方0.8430因變量均值47.37581調(diào)整R方0.8176孌異系數(shù)4.80236參數(shù)怙計(jì)值彎量自由度參數(shù)估計(jì)值準(zhǔn)差標(biāo)誤t值Pr>|t|1型SS11型SSIntercept1102.2042811.97929<.DUU109578376.78935age1-0.刃拠0.09550-?.300.D30179.9SS2327.37429maxpuIse10.304910.133942.2Bo.031e142.3554326.82640runpuIse1-0.373400.11714-3.Ifl□.OOG8139.1721852.59624runtime1-2.682520.340S9-7.87<.0001352.93570320.35968weight1-0.072300.05331-1.3d0.18/19.521579.52157得到新的回歸方程:oxygen=102.204275-0.219621age+0.304908maxpulse-0.373401runpulse-2.682523runtime-0.072302weight比較剔除rstpulse前后的輸出可看出,R2的變化在4位小數(shù)之后。進(jìn)入回歸的變量的回歸系數(shù)在剔除rstpulse后的變化都小于1%。說(shuō)明剔除自變量rstpulse后,對(duì)回歸模型沒(méi)有實(shí)質(zhì)性的影響,這個(gè)自變量的剔除是恰當(dāng)?shù)摹#?)系數(shù)的線性組合檢驗(yàn)使用test語(yǔ)句,還可以對(duì)回歸系數(shù)的線性組合進(jìn)行F檢驗(yàn)。例

如,我們看到參數(shù)估計(jì)表中,maxpulse變量的系數(shù)與runpulse變量的系數(shù)之和非常接近于0(回顧前文:這兩個(gè)自變量有很強(qiáng)的共線性),想要檢驗(yàn)一下這樣的系數(shù)線性組合是否有很大的可能性,如果是那樣則可以簡(jiǎn)化回歸模型。REG過(guò)程模型:MODEL1因變章oxygen的檢騎^pulsoJ,結(jié)果源自由度均方I值Pr>1分子18.257201.600.2182分母255.17634在test語(yǔ)句中的線性方程組只有1個(gè),所以自由度為1,線性方程組的平方和為8.2572。F檢驗(yàn)的分子為均方和8.2572/1=8.2572,F檢驗(yàn)的分母為均方誤差MSE=5.176338,自由度為25。因此,F(xiàn)(1,25)=8.2572/5.176338=1.5952,P值=0.2182>0.05,即不能拒絕回歸系數(shù)線性組合的原假設(shè)。(5)有約束條件的回歸模型若回歸模型中的回歸系數(shù)有線性組合的約束條件,則可以使用restrict語(yǔ)句在此約束條件下重新擬合回歸模型。procregdata=fitness;modeloxygen=agemaxpulserunpulseruntimeweight/ss2;/*帶restrict約束條件的回歸,ss1不可用*/restrictmaxpulse+runpulse=0;run;

方差分析源自由度平方和均方卜值Pr>h模型n斗713.71590178.4289733./U<.DDD1誤寸26137.665655.29483校正合計(jì)30851.38154均方根誤差2.30105R方0.8383因豐暈均值47,37561調(diào)整R方0,9134變異系數(shù)4.E5702參數(shù)怙計(jì)值啻最自由度參數(shù)怙計(jì)值al值Pr>|t|11ass1ntercept189.437426.5641713.63<.0001984.04B07age1-0.16297008527-1.S10.007119,33940maxpu1se10.388260.117883290.002957.44495runpu1se1-0.38826011788-3290.002957.44495runtimo1-2.805550.33049-8.斗9<.0001381.55672weight1-0.080630.05350-1.5I0.113812.02679RESTRIOI-1-120.5553496.53753-1.2b0.2182*8.25720*使用beta分布計(jì)算的槪率得到新的回歸方程:oxygen=89.487420-0.162973age+0.388260(maxpulse-runpulse)-2.805552runtime-0.080635weight注意到maxpulse變量的系數(shù)為0.388260,runpulse變量的系數(shù)為-0.388260

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論