數(shù)學建模多元線性回歸分析ppt課件_第1頁
數(shù)學建模多元線性回歸分析ppt課件_第2頁
數(shù)學建模多元線性回歸分析ppt課件_第3頁
數(shù)學建模多元線性回歸分析ppt課件_第4頁
數(shù)學建模多元線性回歸分析ppt課件_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第十五章第十五章 多元線性回歸分析多元線性回歸分析(Multiple Linear Regression)1;.Multiple linear regression Choice of independent variable Application2;. 講述內(nèi)容講述內(nèi)容第一節(jié)第一節(jié) 多元線性回歸多元線性回歸第二節(jié)第二節(jié) 自變量選擇方法自變量選擇方法第三節(jié)第三節(jié) 多元線性回歸的應用多元線性回歸的應用 及其注意事項及其注意事項3;.目的:作出以多個自變量估計因變量的多元線性回歸方程。資料:因變量為定量指標;自變量全部或大部分為定量指標,若有少量定性或等級指標需作轉(zhuǎn)換。用途:解釋和預報。意義:由

2、于事物間的聯(lián)系常常是多方面的,一個應變量的變化可能受到其它多個自變量的影響,如糖尿病人的血糖變化可能受胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂等多種生化指標的影響。4;.第一節(jié)第一節(jié) 多元線性回歸多元線性回歸5;.變量:應變量變量:應變量1個,自變量個,自變量m 個,共個,共m+1個。個。樣本含量:樣本含量:n數(shù)據(jù)格式見表數(shù)據(jù)格式見表15-1回歸模型一般形式:回歸模型一般形式:eXXXYmm22110上式表示數(shù)據(jù)中應變量 Y 可以近似地表示為自變量mXXX,21的線性函數(shù)。 0為常數(shù)項,m,21為偏回歸系數(shù),表示在其它自變量保持不變時,jX增加或減少一個單位時 Y 的平均變化量, e是去除

3、m個自變量對Y影響后的隨機誤差 (殘差) 。 一、多元線性回歸模型一、多元線性回歸模型6;.例號 X1 X2 Xm Y 1 X11 X12 X1m Y1 2 X21 X22 X2m Y2 n Xn1 Xn2 Xnm Yn 表15-1 多元回歸分析數(shù)據(jù)格式 條件條件(1)Y與mXXX,21之間具有線性關系。 (2)各例觀測值), 2 , 1(niYi相互獨立。 (3)殘差 e 服從均數(shù)為 0、 方差為2的正態(tài)分布, 它等價于對任意一組自變量mXXX,21值,應變量 Y 具有相同方差,并且服從正態(tài)分布。 7;.一般步驟一般步驟(1)求偏回歸系數(shù)mbbbb,210 mmXbXbXbbY22110建立

4、回歸方程(2)檢驗并評價回歸方程檢驗并評價回歸方程及各自變量的作用大小及各自變量的作用大小8;. 二、多元線性回歸方程的建立 例15-1 27名糖尿病人的血清總膽固醇、甘油三脂、空腹胰島素、糖化血紅蛋白、空腹血糖的測量值列于表15-2中,試建立血糖與其它幾項指標關系的多元線性回歸方程。9;.總膽固醇 甘油三脂 胰島素 糖化血 血糖 (mmol/L) (mmol/L) (U/ml) 紅蛋白(%) (mmol/L) 序號 i X1 X2 X3 X4 Y 1 5.68 1.90 4.53 8.2 11.2 2 3.79 1.64 7.32 6.9 8.8 3 6.02 3.56 6.95 10.8

5、12.3 4 4.85 1.07 5.88 8.3 11.6 5 4.60 2.32 4.05 7.5 13.4 6 6.05 0.64 1.42 13.6 18.3 7 4.90 8.50 12.60 8.5 11.1 8 7.08 3.00 6.75 11.5 12.1 9 3.85 2.11 16.28 7.9 9.6 10 4.65 0.63 6.59 7.1 8.4 11 4.59 1.97 3.61 8.7 9.3 12 4.29 1.97 6.61 7.8 10.6 13 7.97 1.93 7.57 9.9 8.4 14 6.19 1.18 1.42 6.9 9.6 15 6.

6、13 2.06 10.35 10.5 10.9 16 5.71 1.78 8.53 8.0 10.1 17 6.40 2.40 4.53 10.3 14.8 18 6.06 3.67 12.79 7.1 9.1 19 5.09 1.03 2.53 8.9 10.8 20 6.13 1.71 5.28 9.9 10.2 21 5.78 3.36 2.96 8.0 13.6 22 5.43 1.13 4.31 11.3 14.9 23 6.50 6.21 3.47 12.3 16.0 24 7.98 7.92 3.37 9.8 13.2 25 11.54 10.89 1.20 10.5 20.0

7、26 5.84 0.92 8.61 6.4 13.3 27 3.84 1.20 6.45 9.6 10.4 表15-2 27名糖尿病人的血糖及有關變量的測量結(jié)果 10;.2221102)()(mmXbXbXbbYYYQmYmmmmmYmmYmmlblblbllblblbllblblbl22112222212111212111)(22110mmXbXbXbYb求偏導數(shù)()() , , j=1,2,m()(), 1,2,ijijiijjijjjYjjjXXlXXXXX XinXYlXXYYX Yjmn43216382027060351501424094335X.X.X.X.Y原 理最小二乘法11;

8、.三、假設檢驗及其評價 012:0mH, 1:jH各 (j=1,2, ,m)不全為 0, 0.05 1.方差分析法:方差分析法:殘回總SSSSSS殘回殘回(MSMSmnSSmSSF) 1/(一)對回歸方程) 1(mn ,mFF12;.變異來源 自由度 SS MS F P 總變異 n-1 SS總 回 歸 m SS回 SS回 /m MS回/MS殘 殘 差 n-m-1 SS殘 SS殘 /(n-m-1) 表15-4 例15-1的方差分析表 變異來源 自由度 SS MS F P 總變異 26 222.5519 回 歸 4 133.7107 33.4277 8.28 0.01 殘 差 22 88.8412

9、 4.0382 表15-3 多元線性回歸方差分析表查 F 界值表得31. 4)22,4(01. 0F,31. 4F,01. 0P, 在05. 0水平上拒絕 H0,接受 H1認為所建回歸方程具有統(tǒng)計學意義。 (0.05)(0.05)13;.102 R,說明自變量mXXX,21能夠解釋Y變化的百分比,其值愈接近于 1,說明模型對數(shù)據(jù)的擬合程度愈好。本例 6008. 05519.2227107.1332R 表明血糖含量變異的 60%可由總膽固醇、 甘油三脂、胰島素和糖化血紅蛋白的變化來解釋。 21SSSSRSSSS回殘總總2.決定系數(shù)決定系數(shù)R 2:14;.3.復相關系數(shù)復相關系數(shù) 可用來度量應變量

10、 Y 與多個自變量間的線性相關程度,亦即觀察值 Y與估計值Y之間的相關程度。 計算公式:2RR ,本例7751060080.R 若 m=1 自變量,則有| r |R ,r 為簡單相關系數(shù)。 15;.(二)對各自變量 指明方程中的每一個自變量對Y的影響(即方差分析和決定系數(shù)檢驗整體)。含義 回歸方程中某一自變量jX的偏回歸平方和表示模型中含有其它 m-1 個自變量的條件下該自變量對 Y的回歸貢獻, 相當于從回歸方程中剔除jX后所引起的回歸平方和的減少量, 或在 m-1個自變量的基礎上新增加jX引起的回歸平方和的增加量。 1. 偏回歸平方和 16;.)(jXSS回表示偏回歸平方和,其值愈大說明相應

11、的自變量愈重要。 ()/1/(1)jjSSXFSSnm回殘一般情況下,m-1 個自變量對 Y 的回歸平方和由重新建立的新方程得到,而不是簡單地把jjXb從有 m 個自變量的方程中剔出后算得。 12 1, 1nm17;.平方和(變異) 回歸方程中 包含的自變量 SS回 SS殘 4321X,X,X,X 133.7107 88.8412 432X,X,X 133.0978 89.4540 431XX,X 121.7480 100.8038 421XX,X 113.6472 108.9047 321XX,X 105.9168 116.6351 表表15-5對例對例15-1數(shù)據(jù)作回歸分析的部分中間結(jié)果數(shù)

12、據(jù)作回歸分析的部分中間結(jié)果 各自變量的偏回歸平方和可以通過擬合包含不同自變量的回歸方程各自變量的偏回歸平方和可以通過擬合包含不同自變量的回歸方程計算得到,表計算得到,表15-515-5給出了例給出了例15-115-1數(shù)據(jù)分析的部分中間結(jié)果。數(shù)據(jù)分析的部分中間結(jié)果。18;. 11234234()(,)(,) 133.7107-133.0978=0.6129SSXSSXXXXSSX XX回回回 21234134()(,)(,) 133.7107-121.748011.9627SSXSSXXXXSSX XX回回回 31234124()(,)(,) 133.7107-113.647220.0635SS

13、XSSXXXXSSX XX回回回 41234123()(,)(,) 133.7107-105.916827.7939SSXSSXXXXSSX XX回回回 152. 0) 1427( /8412.881 /6129. 01F, 962. 2) 1427/(8412.881 /9627.112F 968. 4) 1427/(8412.881 /0635.203F , 883. 6) 1427/(8412.881 /7939.274F 結(jié)結(jié)果果19;.2. t 檢驗法 是一種與偏回歸平方和檢驗完全等價的一種方法。計算公式為jbjjSbt檢驗假設: H0:0j,jt服從自由度為1mn的 t 分布。如果

14、12mn ,/jt|t |,則在(0.05)水平上拒絕 H0,接受 H1,說明jX與Y有線性回歸關系。 jb為偏回歸系數(shù)的估計值,jbS是jb的標準誤。 20;.390036560142401.t 721120420351502.t 229212140270603.t 623224330638204.t 結(jié)結(jié) 果果結(jié)結(jié) 論論0742222050.t,/.,074.2|34 tt,P值均小于 0.05,說明3b和4b有統(tǒng)計學意義,而1b和2b則沒有統(tǒng)計學意義。 21;.3標準化回歸系數(shù) 變量標準化是將原始數(shù)據(jù)減去相應變量的均數(shù),然后再除以該變量的標準差。()jjjjXXXS 計算得到的回歸方程稱

15、作標準化回歸方程,相應的回歸系數(shù)即為標準化回歸系數(shù)。 YjjYYjjjjSSbllbb標準化回歸系數(shù)沒有單位,可以用來比較各個自變量jX對Y的影響強度,通常在有統(tǒng)計學意義的前提下,標準化回歸系數(shù)的絕對值愈大說明相應自變量對 Y 的作用愈大。 22;.注意:注意: 一般回歸系數(shù)有單位,用來解釋各自變量對應變量的影響,表示在其它自一般回歸系數(shù)有單位,用來解釋各自變量對應變量的影響,表示在其它自變量保持不變時,變量保持不變時, 增加或減少一個單位時增加或減少一個單位時Y Y的平均變化量的平均變化量 。不能用各。不能用各 來來比較各比較各 對對 的影響大小。的影響大小。 標準化回歸系數(shù)無單位,用來比較

16、各自變量對應變量的影響大小,標準化回歸系數(shù)無單位,用來比較各自變量對應變量的影響大小, 越大,越大, 對對 的影響越大。的影響越大。jXjbjXYjbjXY23;.11.5934S ,22.5748S ,33.6706S ,41.8234S ,2.9257YS 0776. 09257. 25934. 11424. 01b 309309257257482351502.b 339509257267063270603.b 397709257282341638204.b 結(jié)結(jié)論論結(jié)果顯示, 對血糖影響大小的順序依次為糖化血紅蛋白)(4X、 胰島素)(3X、 甘油三脂)(2X和總膽固醇)(1X。 24;

17、.第二節(jié) 自變量選擇方法 目的目的:使得預報和(或)解釋效果好25;.一、全局擇優(yōu)法目的:預報效果好意義:對自變量各種不同的組合所建立 的回歸方程進行比較 擇優(yōu)。選擇方法:1 校正決定系數(shù)2cR選擇法 2pC選擇法 26;.1校正決定系數(shù)2cR選擇法,其計算公式為 總殘MSMSpnnRRc111)1 (122 n 為樣本含量,2R為包含)(mpp個自變量的回歸方程的決定系數(shù)。2cR的變化規(guī)律是:當2R相同時,自變量個數(shù)越多2cR越小。所謂“最優(yōu)”回歸方程是指2cR最大者。 27;.2. pC選擇法 )1(2)()(pnMSSSCmpp殘殘 pSS )(殘是由)(mpp個自變量作回歸 的誤差平方

18、和,mMS)(殘是從全部 m 個自 變量的回歸模型中得到的殘差均方。 當由 p 個自變量擬合的方程理論上為最優(yōu)時,pC的期望值是 p+1,因此應選擇pC最接近 p+1 的回歸方程為最優(yōu)方程。 如果全部自變量中沒有包含對 Y有主要作用的變量,則不宜用pC方法選擇自變量。 28;.例15-2 用全局擇優(yōu)法對例15-1數(shù)據(jù)的自變量進行選擇。 方程中的 自變量 2cR pC 方程中的 自變量 2cR pC X2,X3,X4 0.546 3.15 X2,X3 0.408 9.14 X1,X2,X3,X4 0.528 5.00 X1,X3 0.375 10.78 X1,X3,X4 0.488 5.96 X

19、4 0.347 11.63 X1,X2,X4 0.447 7.97 X1 0.284 14.92 X1,X4 0.441 7.42 X1,X2 0.275 15.89 X2,X4 0.440 7.51 X3 0.231 17.77 X3,X4 0.435 7.72 X2 0.179 20.53 X1,X2,X3 0.408 9.88 m=4, 故回歸方程擬合數(shù)為4212115m 。 最優(yōu)組合均為X2,X3,X4,即由甘油三脂、胰島素和糖化血紅蛋白與血糖建立的回歸方程最優(yōu)。 29;.二、逐步選擇法1. 1.前進法,回歸方程中的自變量從無到有、從少到多逐個引入回歸方程。此法已基本淘汰。 2. 后退

20、法,先將全部自變量選入方程,然后逐步剔除無統(tǒng)計學意義的自變量。 剔除自變量的方法是在方程中選一個偏回歸平方和最小的變量,作F檢驗決定它是否剔除,若無統(tǒng)計學意義則將其剔除,然后對剩余的自變量建立新的回歸方程。重復這一過程,直至方程中所有的自變量都不能剔除為止。理論上最好,建議使用采用此法。 3.逐步回歸法,逐步回歸法是在前述兩種方法的基礎上,進行雙向篩選的一種方法。該方法本質(zhì)上是前進法。 30;.檢驗水準檢驗水準的設置:小樣本定為的設置:小樣本定為 0.10 或或 0.15,大樣本定大樣本定為為 0.05。值定得越小表示選取自變量的標準越嚴,被選入的自值定得越小表示選取自變量的標準越嚴,被選入的

21、自變量個數(shù)相對也較少;反之,變量個數(shù)相對也較少;反之,值定得越大表示選取自變量值定得越大表示選取自變量的標準越寬,被選入的自變量個數(shù)也就相對較多。的標準越寬,被選入的自變量個數(shù)也就相對較多。注意: 選入自變量的檢驗水準注意: 選入自變量的檢驗水準入要小于或等于剔除自變要小于或等于剔除自變量的檢驗水準量的檢驗水準出。31;.例 15-3 試用逐步回歸方法分析例 15-1 數(shù)據(jù)(100.入,15. 0出) 。 步驟 (l) 引入 變量 剔除 變量 變量 個數(shù) p 2R ( )()lSSXj回 ( ) lSS殘 F 值 P 值 1 X4 1 0.372 82.714 139.837 14.788 0

22、.0007 2 X1 2 0.484 25.076 114.762 5.244 0.0311 3 X3 3 0.547 13.958 100.804 3.185 0.0875 4 X2 4 0.601 11.963 88.841 2.962 0.0993 5 X1 3 0.598 0.613 88.841 0.152 0.7006 表15-7 逐步回歸過程 32;.變異來源 自由度 SS MS F P 總變異 26 222.5519 回 歸 3 133.098 44.366 11.41 0.0001 殘 差 23 89.454 3.889 表15-8 例15-3方差分析表 “最優(yōu)”回歸方程為4

23、326632. 02871. 04023. 04996. 6XXXY 結(jié)果表明:血糖的變化與甘油三脂、胰島素和糖化血紅蛋白有線性回歸關系,其中與胰島素負相關。由標準化回歸系數(shù)看出,糖化血紅蛋白對空腹血糖的影響最大。 33;.表15-9 例15-3的回歸系數(shù)的估計及檢驗結(jié)果 變 量 回歸 系數(shù) b 標準誤 bS 標準回 歸系數(shù)b t 值 P 值 常數(shù)項 6.4996 2.3962 0 2.713 0.0124 X2 0.4023 0.1540 0.3541 2.612 0.0156 X3 0.2870 0.1117 0.3601 2.570 0.0171 X4 0.6632 0.2303 0.4

24、133 2.880 0.0084 34;.第三節(jié) 多元線性回歸的應用及注意事項35;. 一、多元線性回歸的應用36;.1. 影響因素分析 例如影響高血壓的因素可能有年齡、飲食習慣、吸煙狀況、工作緊張度和例如影響高血壓的因素可能有年齡、飲食習慣、吸煙狀況、工作緊張度和家族史等,在影響高血壓的眾多可疑因素中,需要研究哪些因素有影響,哪家族史等,在影響高血壓的眾多可疑因素中,需要研究哪些因素有影響,哪些因素影響較大。些因素影響較大。37;. 在臨床試驗中,則可能由于種種原因難以保證各組的指標基線相同,如在年在臨床試驗中,則可能由于種種原因難以保證各組的指標基線相同,如在年齡、病情等指標不一致出現(xiàn)混雜

25、的情況下,如何對不同的治療方法進行比較齡、病情等指標不一致出現(xiàn)混雜的情況下,如何對不同的治療方法進行比較等。等。 這些問題都可以利用回歸分析來處理??刂苹祀s因素這些問題都可以利用回歸分析來處理??刂苹祀s因素( (confoundingfactor) )的一個簡單辦法就是將其引入回歸方程中,與其他主要變量一起進行分析的一個簡單辦法就是將其引入回歸方程中,與其他主要變量一起進行分析 38;.2. 估計與預測 如由兒童的心臟橫徑、心臟縱徑和心臟寬徑估計心臟的表面積;由胎兒的孕如由兒童的心臟橫徑、心臟縱徑和心臟寬徑估計心臟的表面積;由胎兒的孕齡、頭頸、胸徑和腹徑預測出生兒體重等。齡、頭頸、胸徑和腹徑預

26、測出生兒體重等。 39;.3. 統(tǒng)計控制 逆估計。 例如采用射頻治療儀治療腦腫瘤,腦皮質(zhì)的毀損半徑與射頻溫度及照射例如采用射頻治療儀治療腦腫瘤,腦皮質(zhì)的毀損半徑與射頻溫度及照射時間有線性回歸關系,建立回歸方程后可以按預先給定的腦皮質(zhì)毀損半徑,時間有線性回歸關系,建立回歸方程后可以按預先給定的腦皮質(zhì)毀損半徑,確定最佳控制射頻溫度和照射時間。確定最佳控制射頻溫度和照射時間。 40;.二、多元線性回歸應用的注意事項二、多元線性回歸應用的注意事項(1)定量,非線性 線性 (2)定性,轉(zhuǎn)為定量: (0,1)變量,啞變量,偽變量,指示變量。 1指標的數(shù)量化指標的數(shù)量化 分2類,可用一個(0,1)變量。如性

27、別0 1 X男女 分k類,k-1個(0,1)變量,如血型。 血型 X1 X2 X3 O 0 0 0 A 1 0 0 B 0 1 0 AB 0 0 1 41;.編號 X1 X2 X3 Y 1 1 0 0 2 0 0 0 3 0 1 0 n 0 0 1 數(shù)據(jù)格式回歸方程 建立回歸方程建立回歸方程 0112233Ybb Xb Xb Xb1 :相當相當A型相對于型相對于O型的差別型的差別b2 :相當:相當B型相對于型相對于O型的差別型的差別b3 :相當:相當AB型相對于型相對于O型的差別型的差別42;. (3)等級 定量。 一般是將等級從弱到強轉(zhuǎn)換為 (或 )如文化程度分為小學、中學、大學、大學以上四個等級。Y為經(jīng)濟收入。1 1 2 3 X小學中學大學 4 大學以上 011Ybb X解釋:b(b1)反映X(X1) 增加1個單位, 增加b個單位(如:500元)。 表示中學文化較小學收入多500, 大學較中學多500,余類推。, 3 , 2 , 1X, 2 , 1 , 0XY43;.啞變量 X1 X2 X3 小學 0 0 0 中學 1 0 0 大學 0 1 0 大學以上 0 0 1 b1,b2,b3分別反映中學、大學、大學以上相對于小學文化程度者經(jīng)濟收入差別的分別反映中學、大學、大學以上相對于小學文化程度者經(jīng)濟收入

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論