




已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)學實驗 實驗十三 回歸分析化21 張騰2012011864 2014-5-30大學數(shù)學實驗 實驗報告回歸分析一、 實驗目的1、了解回歸分析的基本原理,掌握MATLAB實現(xiàn)的方法;2、練習用回歸分析解決實際問題。二、 實驗內(nèi)容項目一:社會學家認為犯罪與收入低、失業(yè)及人口規(guī)模有關,對20個城市的犯罪率y(每10萬人中犯罪的人數(shù))與年收入低于5000美元家庭的百分比x1、失業(yè)率x2和人口總數(shù)x3(千人)進行了調(diào)查,結果如表序號yx1x2x3序號yx1x2x3111.216.56.25871114.518.16.07895213.420.56.46431226.923.17.4762340.726.39.36351315.719.15.8279345.316.55.36921436.224.78.6741524.819.27.312481518.118.66.5625612.716.55.96431628.924.98.3854720.920.26.419641714.917.96.7716835.721.37.615311825.822.48.692198.717.24.97131921.720.28.4595109.614.36.47492025.716.96.73353(1)若x1x3中至多只許選擇2個變量,最好的模型是什么?(2)包含3個自變量的模型比上面的模型好嗎?確定最終模型。(3)對最終模型觀察殘差,有無異常點,若有,剔除后如何。問題分析及模型建立:該問題含有三個影響因子,我們需要找出犯罪率與這三個影響因子的影響關系,為此,可以先建立適當?shù)哪P瓦M行回歸分析,找到最優(yōu)化的模型。在不考慮交互影響和二次項的影響的情況下,可以先逐個分析單個變量,再分析兩個變量,最后三個變量結合在一起進行分析,找到回歸效果最好的一個模型。解決方案:利用MATLAB的統(tǒng)計工具箱很容易就可以完成上述的回歸分析,首先對每個變量做散點圖進行直觀的觀察:從散點圖中可以明顯的看出人口總數(shù)與犯罪率之間沒有很好的線性關系,收入水平和失業(yè)率和犯罪率之間有著比較明顯的線性關系。再進行具體的回歸分析來分析兩個變量和三個變量的影響情況,結果整理成表格如下:影響因子:x1 x2回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間0-34.0725-48.2643,-19.880811.22390.0251,2.422724.39891.1790,7.6189R2=0.8020 F=34.4278 p0.0001 s2=21.6048影響因子:x1 x3回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間0-31.2152-48.7280,-13.702512.59551.7447,3.446430.0004-0.0012,0.0020R2=0.7103 F=20.8433 p0.0001 s2=31.6120影響因子:x2 x3回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間0-31.5998-46.8352,-16.364327.35195.2732,9.430530.0008-0.0006,0.0023R2=0.7672 F=28.0054 p0.0001 s2=25.4100影響因子:x1 x2 x3回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間0-36.7649-51.6274,-21.902411.19220.0015.2.382824.71981.4754,7.964330.0008-0.0006,0.0021R2=0.8183 F=24.0220 p0.0001 s2=21.0661根據(jù)表中的數(shù)據(jù)及殘插圖,我們可以解答題目中的三個問題。(1)無論從散點圖還是線性回歸的結果看來,x1和x2都對y有著顯著的影響。經(jīng)過回歸分析,當只考慮兩個因素時, x1和x2對y的回歸是最優(yōu)的,表現(xiàn)在數(shù)據(jù)上就是R2值和F值最大,s2的值最小。(2)當考慮三個變量時,可以發(fā)現(xiàn)雖然在數(shù)據(jù)上就是R2值和F值變大了,s2的值變小,但都不明顯,可是與此同時,通過殘插圖我們可以發(fā)現(xiàn),異常點的個數(shù)卻增多了,所以說增加到三個因素時的回歸效果不一定比兩個因素回歸的效果好,所以最終確定的模型應是僅考慮x1和x2的影響進行回歸得到的模型:y=-34.0725+1.2239x1+4.3989x2(3)通過殘插圖發(fā)現(xiàn)第八個點和第二十個點是異常點,剔除這兩個點之后在進行線性回歸得到的結果如下:影響因子:x1 x2回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間0-35.7095-45.2633,-26.155711.60230.7776,2.427023.39261.2166,5.5686R2=0.9127 F=78.3937 p0.0001 s2=9.1809去除異常點后的數(shù)據(jù)要比之前好很多,R2值和F值都有明顯的增加, s2值則明顯的減小了,殘插圖也都表現(xiàn)正常。故最終確定的模型為:y=-35.7095+1.6023x1+3.3926x2附MATLAB主程序如下:clear all;y=11.2 13.4 40.7 5.3 24.8 12.7 20.9 35.7 8.7 9.6 14.5 26.9 15.7 36.2 18.1 28.9 14.9 25.8 21.7 25.7; x1=16.5 20.5 26.3 16.5 19.2 16.5 20.2 21.3 17.2 14.3 18.1 23.1 19.1 24.7 18.6 24.9 17.9 22.4 20.2 16.9; x2=6.2 6.4 9.3 5.3 7.3 5.9 6.4 7.6 4.9 6.4 6 7.4 5.8 8.6 6.5 8.3 6.7 8.6 8.4 6.7;x3=587 643 635 692 1248 643 1964 1531 713 749 7895 762 2793 741 625 854 716 921 595 3353 ;n=20;subplot(1,3,1),plot(x1,y,+),title();subplot(1,3,2),plot(x2,y,+),title();subplot(1,3,3),plot(x3,y,+),title();pause;X1=ones(n,1),x1,x2;X2=ones(n,1),x2,x3;X3=ones(n,1),x1,x3;XX=ones(n,1),x1,x2,x3;B1,BINT1,R1,RINT1,STATS1 = regress(y,X1);B2,BINT2,R2,RINT2,STATS2 = regress(y,X2);B3,BINT3,R3,RINT3,STATS3 = regress(y,X3);BX,BINTX,RX,RINTX,STATSX = regress(y,XX);rcoplot(R1,RINT1);pause;rcoplot(R2,RINT2);pause;rcoplot(R3,RINT3);pause;rcoplot(RX,RINTX);pause;項目二:下表列出了某城市18位35歲 44歲經(jīng)理的年平均收入x1(千元),風險偏好度x2和人壽保險額y(千元)的數(shù)據(jù),其中風險偏好度是根據(jù)發(fā)給每個經(jīng)理的問卷調(diào)查表綜合評估得到的,它的數(shù)值越大,就越偏愛高風險。研究人員想研究此年齡段中的經(jīng)理所投保的人壽保險額與年均收入及風險偏好度之間的關系。研究者預計,經(jīng)理的年均收入和人壽保險額之間存在著二次關系,并有把握地認為風險偏好度對人壽保險額有線性效應,但對于風險偏好度對人壽保險額是否有二次效應以及兩個自變量是否對人壽保險額有交互效應,心中沒底。通過表中的數(shù)據(jù)來建立一個合適的回歸模型,驗證上面的看法,并給出進一步的分析。序號yx1x2序號yx1x2119666.2907104937.408526340.96451110554.3762325272.99610129846.186748445.0106137746.1304512657.2044141430.366361426.8525155639.060574938.12241624579.380184935.84061713352.7668926675.79691813355.9166問題分析及模型建立:此題中主要確定了經(jīng)理的年均收入x1和人壽保險額y之間存在著二次關系,風險偏好度x2對人壽保險額y有線性效應,但是主要需要我們確定是否存在交互項x1x2以及二次項x12,x22,從而確定最佳的多元多項式回歸模型。這里我們只需要利用Matlab中的stepwise函數(shù),并把交互項和二次項作為參數(shù)進行建模即可,并且以剩余標準差s(RMSE)最小作為標準,使用交互窗口的“next step”逐步確定最佳模型。解決方案:利用MATLAB編寫程序如下:clear all;y=196 63 252 84 126 14 49 49 266 49 105 98 77 14 56 245 133 133;x1=66.290 40.964 72.996 45.010 57.204 26.852 38.122 35.840 75.796 37.408 54.376 46.186 46.130 30.366 39.060 79.380 52.766 55.916;x2=7 5 10 6 4 5 4 6 9 5 2 7 4 3 5 1 8 6;xx1=x1.2;xx2=x2.2;x12=x1.*x2;XX=x1,x2,xx1,xx2,x12;stepwise(XX,y);逐步回歸得到結果如下:可以發(fā)現(xiàn),當所有因素都納入模型中的時候,剩余標準差最小,也就是理論上最優(yōu)的模型了。在此基礎上對其進行線性回歸得到結果如下:回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間0-65.3856-78.7266, -52.044711.01720.5202, 1.514125.21712.2785, 8.155830.03580.0310, 0.040640.1662-0.0956,0.42795-0.0196-0.0501,0.0109R2=0.9997 F=7110 p0.0001 s2=3.0381不斷進行回歸分析并剔除所有異常點后得到最終回歸模型如下(剔除了3,5,7組數(shù)據(jù)):回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間0-64.7763-72.7255,-56.827011.10750.8382,1.376823.87221.7991,5.945430.03470.0321,0.037440.29170.0962,0.48715-0.0160-0.0332,0.0011R2=0.9999 F=20637 p0.0001 s2=0.8105由此確定出最終的模型為:y=-64.7763+1.1075x1+3.8722x2+0.0347x12+0.2917x22-0.0160x1x2項目三:一個醫(yī)藥公司的新藥研究部門為了掌握一種新止痛劑的療效,設計了一個藥物實驗,給24名患有同種病痛的病人使用這種新止痛劑的以下4個劑量中的某一個:2,5,7和10(克),并記錄每個病人病痛明顯減輕的時間(以分鐘計)。為了解新藥的療效與病人性別和血壓有什么關系,試驗過程中研究人員把病人按性別及血壓的低、中、高三檔平均分配來進行測試。通過比較每個病人血壓的歷史數(shù)據(jù),從低到高分成3組,分別記作0.25,0.50和0.75。實驗結束后,公司的記錄結果見下表(性別以0表示女,1表示男)。請你為公司建立一個模型,根據(jù)病人用藥的劑量、性別和血壓組別,預測出服藥后病痛明顯減輕的時間。病人序號病痛減輕時間(分鐘)用藥劑量(克)性別血壓組別135200.25243200.50355200.75447210.25543210.50657210.75726500.25827500.50928500.751029510.251122510.501229510.751319700.251411700.501514700.751623710.251720710.501822710.7519131000.252081000.502131000.7522271010.2523261010.502451010.75問題分析及模型建立該問題有三個可能的影響因素,但并不清楚這三個因素是怎樣控制因變量的,所以只能先對每一個變量進行直觀的判斷,然后在綜合可能的因素進行回歸分析。解決方案:首先作出y關于三個參量的散點圖如下:從散點圖上可以發(fā)現(xiàn)三個參量與因變量之間沒有直接的明顯的關系,故下面用逐步回歸的方法引入二次項和交互項進行分析建立一個適當?shù)哪P?。最后得到最小剩余標準差的結果如下:該結果表明,當將三個變量的二次項和交互項均引入時得到的結果剩余標準差最小。在這種情況下進行回歸分析得到結果如下表:回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間041.040826.7633,55.31841-7.0059-10.4173,-3.5945200.0000,0.0000348.676526.3735,70.979440.51110.2680,0.754254.6667-7.5556,16.888961.0000-0.2507,2.25077-10.0000-27.8634,7.86348-7.5294-10.5930,-4.4659R2=0.9418 F=36.9973 p0.0001 s2=17.7515去掉異常點后在進行回歸分析直到所有點均表現(xiàn)正常,得到回歸結果如下:(依次去掉第23、4、11、14組數(shù)據(jù))回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間032.581722.7636,42.39971-4.1278-6.5752,-1.680420.00000.0000,0.0000355.617240.6799,70.554440.32440.1570,0.491851.5603-7.4758,10.596460.8466-0.0395,1.73277-5.0837-16.8549,6.68758-8.6862-10.8078,-6.5646R2=0.9816 F=91.5674 p0.0001 s2=6.6324最終確定的模型為: y=32.5817-4.1278x1+55.6172x3+0.3244x12+1.5603x32+0.8466x1x2-5.0837x2x3-8.6862x1x3附MATLAB主程序如下:clear all;y=35,43,55,47,43,57,26,27,28,29,22,29,19,11,14,23,20,22,13,8,3,27,26,5;x1=2,2,2,2,2,2,5,5,5,5,5,5,7,7,7,7,7,7,10,10,10,10,10,10;x2=0,0,0,1,1,1,0,0,0,1,1,1,0,0,0,1,1,1,0,0,0,1,1,1;x3=0.25,0.50,0.75,0.25,0.50,0.75,0.25,0.50,0.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 街道消防安全事件的應急預案
- 表設備采購招標文件
- 江蘇省南通市海安高級中學2024-2025學年高一下學期6月階段檢測地理試卷(含答案)
- 河北省石家莊市第四十中學2024-2025學年七年級下學期期中生物試題(含答案)
- 財務會計子系統(tǒng)的解決方案(一)
- 2025年廣東省深圳市育才二中中考英語三模試卷(含答案)
- 幼兒心理學教案得力文庫
- 2024-2025學年下學期高二生物人教版期末必刷??碱}之種群及其動態(tài)
- 2024-2025學年下學期高一生物滬科版期末必刷??碱}之基因重組造成變異的多樣性
- 建筑施工特種作業(yè)-建筑起重機械安裝拆卸工(施工升降機)真題庫-4
- 三維網(wǎng)客土噴播植草護坡方案
- 白酒經(jīng)銷商與酒店合作協(xié)議書模板
- 天棚簾施工方案
- 《積極心理學(第3版)》 課件 第4章 樂觀
- 戶外廣告牌施工方案
- 國家開放大學本科《商務英語4》一平臺機考真題及答案(第三套)
- 傳統(tǒng)文化與生態(tài)文明建設智慧樹知到期末考試答案章節(jié)答案2024年云南大學
- YYT 0698.5-2009 最終滅菌醫(yī)療器械包裝材料 第5部分:透氣材料與塑料膜組成的可密封組合袋和卷材 要求和試驗方法
- 廣東省佛山市南海區(qū)2021-2022學年八年級下學期期末數(shù)學試題
- 糖尿病家庭醫(yī)生:簽約講座計劃
- 呼吸衰竭診療規(guī)范
評論
0/150
提交評論