數(shù)學實驗 回歸分析_第1頁
數(shù)學實驗 回歸分析_第2頁
數(shù)學實驗 回歸分析_第3頁
數(shù)學實驗 回歸分析_第4頁
數(shù)學實驗 回歸分析_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、實驗 12:回歸分析習題7:在有氧鍛煉中人的耗氧能力y(ml/(min·kg)是衡量身體狀況的重要指標,它可能與以下因素有關:年齡x1,體重x2(kg),1500m跑的時間x3(min),靜止時心跳速度x4(次/min),跑步后心速x5(次/min).對24名40至57歲的志愿者進行了測試,結果如下表(節(jié)選),試建立耗氧能力y與諸因素的之間的回歸模型。序號123421222324Y44.645.354.359.639.446.145.454.7X14440444257545250X289.575.185.868.273.479.476.370.9X36.826.045.194.97.

2、586.75.785.35X46262454058624848X5178185156166174156164146(1)若x1x5中只許選擇1個變量,最好的模型是什么?(2)若x1x5中只許選擇2個變量,最好的模型是什么?(3)若不限制變量的個數(shù),最好的模型是什么?(4)對最終模型觀察殘查,有無異常點,若有,剔除后如何?1 模型建立本題不同小問需要建立不同模型,由于專業(yè)知識所限,并且提供的數(shù)據(jù)較少,難以做出精確符合現(xiàn)實情況的模型,因此這里采用最簡單的線性回歸法進行擬和,模型基本形式如下:事實上,中的項(高次項和交互項)對于本題目來講意義不大,因為所給定的5個自變量和因變量之間關系比較模糊,幾個

3、變量彼此之間的聯(lián)系也很難說清,因此用自變量的一次線性擬和就足以適應本題的要求。但作為練習,還是將每種回歸方法都使用到了,可以用于參考。具體采用的各個模型將在下面單獨說明,這里不再重復。2 程序設計由于本題需要建立多組模型,并且要在不斷的調試中發(fā)現(xiàn)最合理的,很多命令都要在這個過程中不斷使用,這里僅僅給出使用的最基本的命令。u 數(shù)據(jù)clearA=;%數(shù)據(jù)矩陣,略n=24;y=A(2,:);%提取各個數(shù)據(jù)x1=A(3,:);x2=A(4,:);x3=A(5,:);x4=A(6,:);x5=A(7,:);u 繪制散點圖(大致判斷影響情況)for i=1:5 subplot(2,3,i),plot(A(

4、i+2,:),y,'+'),grid pause endpauseu 單參數(shù)回歸(第一問)X=ones(n,1),x4'%這里檢驗的是自變量x4,實際操作時要分別檢驗x1x5b,bint,r,rint,s=regress(y',X);%回歸分析程序(=0.05)b,bint,s,%輸出回歸系數(shù)估計值、置信區(qū)間、以及統(tǒng)計量rcoplot(r,rint)%殘差圖Polytool(x3',y',2)%檢驗一元多項式回歸的結果,輸出交互式畫面u 雙參數(shù)回歸(第二問):用逐步回歸法找出最合理的兩個變量X5=x1',x2',x3',x

5、4',x5'stepwise(X5,y');%利用輸出的交互式畫面,可以選出最佳的兩個變量XX=x3',x1'%當?shù)玫搅俗罴训膬蓚€變量后(這里假設是x3x1)rstool(XX,y','linear')%檢驗二元情況下的交互項和高次項u 全部參數(shù)回歸(第三問):X5=x1',x2',x3',x4',x5'%仍然用逐步回歸法找出最合理的組合方式stepwise(X5,y')第五問要求對殘差進行分析,并且剔除異常點,可以在該問得到最終模型后,采用regress得到的殘差值和置信區(qū)間并根據(jù)

6、其繪制殘差圖,然后再進行剔除操作重新檢驗。3 運行結果及分析u 散點圖散點圖從左上到右下的順序為x1x5.可以由點的分布大致看出,除了x3自變量呈現(xiàn)比較明顯的負相關趨勢以外,對于其他的各個自變量都難以直接觀測出其對于因變量的影響。根據(jù)這種結果,可以假設自變量x3(1500m跑后心速)最直接的與鍛煉耗氧能力相關,下面通過對各個自變量的單參數(shù)回歸進行檢驗。u 單參數(shù)回歸被檢對象011置信區(qū)間 R2Fps2X164.3812-0.3599-0.8309 0.11110.10252.51150.127331.2484X252.7432-0.0644-0.4334 0.30460.00590.13100

7、.730934.6097X383.4438-5.6682-7.1252 -4.21120.747465.095908.7943X467.1094-0.3599-0.6262 -0.09360.26317.85600.010425.6547X594.0024-0.2739-0.5095 -0.03840.20915.81690.024727.5352由單參數(shù)回歸的結果可以證明X3(1500m跑后心速)可以最好的反映出y(鍛煉耗氧能力)的情況。由1置信區(qū)間可以看出,x1、x2包含0在內,即y可能與該參數(shù)無關,所以不選擇,并且兩者的p值已經(jīng)明顯的大于=0.05,則不考慮x1、x2。比較x3x5后發(fā)現(xiàn)

8、,x3的-決定系數(shù)明顯的大于x4、x5的,決定系數(shù)反映的是在因變量的總變化中自變量引起的那部分的比例,大說明x3自變量對因變量起的決定作用最大。并且x3的p和s2值也都比較小,所以最終確定x3可以最好的反映出y的情況。用Polytool檢驗含x3高次(2次)項的情況,參量Export如下表:012回歸系數(shù)估計值122.7242-17.90720.9356置信區(qū)間下限67.1878-35.0387-0.3695 置信區(qū)間上限178.2605-0.7757 2.2408 可以同之前的僅含一次項的結果進行比較,發(fā)現(xiàn)各個參量的置信區(qū)間都很寬,且2的置信區(qū)間過0??梢哉J為二次項的引入是不重要的。因此采用

9、如下單參數(shù)模型描述y是最準確地: 其中:u 雙參數(shù)回歸:用stepwise作逐步回歸,部分過程和最終結果如下圖:只取x3自變量的回歸結果取x3和x5自變量的回歸結果取x3和x1自變量的回歸結果根據(jù)題目要求,最終得到取雙參量時的最佳結果(RMSE參量最?。┦侨3 (1500m跑后心速)和x1(年齡)自變量。但事實上,實際的逐步回歸過程在此時并沒有結束,最終的最優(yōu)結果是只取x3參量。這說明取x3、x1參量同只取x3相比優(yōu)勢并不明顯。通過rstool命令檢驗二元情況下的交互項和高次項情況,下圖是linear情況下固定單參數(shù)進行預測的結果:項對應的系數(shù)常數(shù)項X3X1X32X12X3*X1RMSELi

10、near90.8529-5.4671-0.1872.8704Purequadratic142.8835-14.7911-1.17180.71110.01092.9028Interaction120.1929-10.1096-0.83640.10252.9033Quadratic144.4666 -16.4515-1.01990.0450 0.6818 0.00622.9786可以看到高次項和相關項的系數(shù)都非常小,說明其對于y的影響不大。根據(jù)rmse的結果進行比較,仍然選擇linear回歸方式,即只用二元自變量的一次項。 其中: u 全參數(shù)回歸根據(jù)以上的分析可以驗證模型建立時的猜想,本題中5個字

11、變量和y的關系都不是很直接的,除x3外其他變量的影響很小,所以在最終完整模型中,不再考慮高次項和交互項的影響,一方面簡化模型,一方面大大節(jié)省的篩選的時間。所以采用stepwise命令,僅對五元變量x1x5的一次項進行回歸分析,結果如下:Export參數(shù)結果:置信區(qū)間Coeff.set-statp-valX1-0.3254-0.594-0.0568-0.32540.1288-2.52740.02X200 0 -0.01310.0851-0.15390.8793X3-4.5694-6.1842-2.9546-4.56940.7741-5.90260X400 0-0.03840.0915-0.419

12、30.6797X5-0.1561-0.31260.0004-0.15610.075-2.08090.0505R2=0.814315F=29.2364RMSE=2.66669P=1.64368*e-7最終取以下三個參數(shù)得到最佳回歸結果:x3 (1500m跑后心速)、x1(年齡)以及x5(跑步后心速)。但仍需要進行一般回歸分析(regress)確定常數(shù)項并觀察殘差,結果如下: 殘差圖(全部點)可以看到10和15號數(shù)據(jù)異常,剔除,再次觀察殘差,結果如下殘差圖(剔除10,15號點)可以看到4號數(shù)據(jù)變?yōu)楫惓?,再次剔除,結果仍然有異常點。過程從略,最終經(jīng)過4次剔除,去掉5個點(4,10,15,17,23)

13、以后,得到?jīng)]有異常點的模型:去掉所有異常點之后的結果最終得到的結果整體上優(yōu)越于剔除異常點之前的結果(不再粘貼結果)。但是事實上,由于數(shù)據(jù)點經(jīng)過剔除不斷的結果,模型最終的形式和實際統(tǒng)計到的24組數(shù)據(jù)的整體情況偏離越來越大,也就是說:剔除異常點雖然能夠一應程度上降低其對于整體情況的干擾作用,而剔除的過程也放大了其他原本正常數(shù)據(jù)點的異常性,所以異常點可能會不斷產(chǎn)生,但是剔除的數(shù)量增加即采樣數(shù)據(jù)的減少也會削弱模型反省整體性能的能力。是一對矛盾,在數(shù)據(jù)點較少的時候尤其明顯。比較科學的做法是:只進行1次或少次剔除,保證整體性,又去掉了最主要的異常點。這里的最終結果采用剔除最初兩個異常點(10,15號)后的

14、結果,在此也附上完整數(shù)據(jù)(剔除之前)的結果,作為第3問的答案:完整數(shù)據(jù)(第三題結果):回歸參數(shù)取值置信區(qū)間118.0135 88.1010 147.92601-0.3254 -0.5940 -0.05683-4.5694 -6.1842 -2.95465-0.1561 -0.3126 0.0004R2Fps20.814329.23640.00007.1112 其中: 一次剔除(最終結果): 回歸參數(shù)取值置信區(qū)間119.4955 94.6827 144.30841-0.3623 -0.5991 -0.12553-4.0411 -5.3617 -2.72055-0.1774 -0.3030 -0.

15、0518R2Fps20.862537.62690.00004.4400 其中:1500m跑后心速、年齡以及跑步后心速三個參數(shù)最能夠反映鍛煉耗氧量這個重要的身體狀態(tài)指標。三種心跳速度越快,說明耗氧量越大;速度越慢,即時間越長,說明耗氧量越小。 習題11:一個醫(yī)藥公司的新藥研究部門為了掌握一種新型止痛劑的療效,設計了一個藥物試驗,給24名患有同種痛病的病人使用這種新止痛劑的以下4個劑量中的某一:2、5、7、10,(g),并記錄每個病人病痛明顯減輕的時間(min).為了了解新藥的療效與病人性別和血壓有什么關系,試驗過程中研究人員把柄熱男性別集血壓的低中高3檔平均分配來進行測試。通過比較每個病人血壓的

16、歷史數(shù)據(jù),從低到高分成3組,分別記作0.25,0.0,0.75。實驗結束后,公司的記錄結果見表格(略).請為公司建立一個模型,根據(jù)病人用藥的計量、性別和血壓組別,預測出服藥后病痛明顯減輕的時間。病人序號病痛減輕時間用藥劑量性別血壓組別135200.25243200.50355200.75447210.252131000.2522271010.2523261010.502451010.751. 模型建立本題共提供了三種不同的自變量,設為性別-x1,血壓-x2和用藥計量-x3。建立回歸模型時,應該充分考慮各個自變量對于因變量的多種影響方式,這里可能涉及到高次項和交互項。因此應該在實驗過程中將所有可

17、能的因素列于其中,分別檢驗,最終得到最佳的回歸模型?;竟饺缦? 2. 程序設計u 數(shù)據(jù)clc,clearx1=0 0 0 1 1 1 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0 1 1 1;x2=0.25 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75;x3=2 2 2 2 2 2 5 5 5 5 5 5 7 7 7 7 7 7 10 10 10 10 10 10; y=35 43 55 47 43 57 26

18、 27 28 29 22 29 19 11 14 23 20 22 13 8 3 27 26 5; u 用逐步回歸法檢驗所有的一次、二次和交互項XX=x1',x2',x3',x2'.2,x3'.2,(x1.*x2)',(x2.*x3)',(x3.*x1)'%注意,由于性別x1是0-1變量,所以齊高次項沒有任何意義,才此舍去stepwise(XX,y');u 根據(jù)逐步回歸得到的最優(yōu)模型,進行regress回歸檢驗,并繪制殘差圖XF=ones(24,1),x2',x3',x2'.2,x3'.2,

19、(x2.*x3)',(x3.*x1)'b1,bint1,r1,rint1,s1=regress(y',XF);b1,bint1,s1,rcoplot(r1,rint1);3. 運行結果及分析上圖是逐步回歸得到的最優(yōu)結果,其參數(shù)輸出結果如下betabetaciCoeff.t-statp-valx10003.8597-0.08640.9322x200030.02170.38890.7022x3-7.0608-10.2134-3.90831.5006-4.70550.0002x2242.528224.194660.86188.72654.87350.0001x320.5111

20、0.28140.74080.10934.67560.0002x1*x20005.4975-0.86760.3977x2*x3-7.3746-10.1514-4.59781.3217-5.57960x3*x10.95510.43861.47150.24583.88540.0011interceptrmsersqadjrsqfstatpval52.8084.01650.940510.9206856.9172.12E-10得到模型:其中:由多項指標可以確定以上模型的合理性:rmse最小,R2統(tǒng)計量接近于1,beta(回歸系數(shù))置信區(qū)間全部部包含0點,pval<<=0.05,這些都可以說明上模型在數(shù)學上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論