高級管理統(tǒng)計章回歸分析_第1頁
高級管理統(tǒng)計章回歸分析_第2頁
高級管理統(tǒng)計章回歸分析_第3頁
高級管理統(tǒng)計章回歸分析_第4頁
高級管理統(tǒng)計章回歸分析_第5頁
已閱讀5頁,還剩105頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2024/1/19高級管理統(tǒng)計1第5章回歸分析5.1一元線性回歸模型5.2多元線性回歸模型5.3多元逐步回歸分析5.4多重線性回歸分析2024/1/19高級管理統(tǒng)計2第六章回歸分析5.1一元線性回歸模型

背景從定量的角度來看,變量之間的關(guān)系可以分為兩類:一類變量之間的關(guān)系是完全確定的,可以用函數(shù)的形式表達另一類變量之間有關(guān)系,但不能用函數(shù)形式表達,例如人的體重與身高有關(guān),一般而言,較高的人體重也重,但同樣身高的人體重卻不完全相同,這樣的變量間關(guān)系在統(tǒng)計上稱為相關(guān)關(guān)系?;貧w分析是研究變量之間相關(guān)關(guān)系的一種統(tǒng)計方法。2024/1/19高級管理統(tǒng)計3模型的基本形式設(shè)是的未知線性函數(shù):。今對在點上進行試驗,測得函數(shù)的試驗值為

由于受隨機誤差因素的影響,試驗結(jié)果為此處為未知參數(shù)。2024/1/19高級管理統(tǒng)計4

隨機誤差項滿足條件(1)獨立性:相互獨立,因而也相互獨立。(2)無偏性:,因而2024/1/19高級管理統(tǒng)計5

(3)等方差性:,因而(4)正態(tài)性:,因而上述四個條件可簡化為:獨立同分布2024/1/19高級管理統(tǒng)計6回歸直線的確定

參數(shù)與的估計應(yīng)使殘差平方和達到最小,即令2024/1/19高級管理統(tǒng)計72024/1/19高級管理統(tǒng)計8

此為正規(guī)方程組2024/1/19高級管理統(tǒng)計9

參數(shù)的最小二乘估計其中2024/1/19高級管理統(tǒng)計10

為簡單起見,令2024/1/19高級管理統(tǒng)計11

于是

因此,回歸直線

2024/1/19高級管理統(tǒng)計12回歸方程的統(tǒng)計性質(zhì)

定理在一元線性回歸模型假設(shè)下,回歸系數(shù)具有以下性質(zhì)

(1)(2)(3)2024/1/19高級管理統(tǒng)計13

證明根據(jù)線性模型的假定,為相互獨立的正態(tài)變量,且

另一方面,均是的線性函數(shù),即故均為正態(tài)變量。2024/1/19高級管理統(tǒng)計14

求的數(shù)學期望2024/1/19高級管理統(tǒng)計152024/1/19高級管理統(tǒng)計16求的方差2024/1/19高級管理統(tǒng)計172024/1/19高級管理統(tǒng)計18

求與的相關(guān)矩2024/1/19高級管理統(tǒng)計19結(jié)論

2024/1/19高級管理統(tǒng)計20

定理在線性模型的假定條件下,(1);(2)相互獨立。其中2024/1/19高級管理統(tǒng)計21證明2024/1/19高級管理統(tǒng)計222024/1/19高級管理統(tǒng)計23對作如下線性變換2024/1/19高級管理統(tǒng)計24此處滿足條件顯然2024/1/19高級管理統(tǒng)計25

從而

由于相互獨立,都服從正態(tài)分布,所以均服從正態(tài)分布,且2024/1/19高級管理統(tǒng)計26

以上表明相互獨立同分布,從而

所以并且根據(jù)的獨立性,知三者相互獨立。2024/1/19高級管理統(tǒng)計27

回歸方程的顯著性檢驗在實際工作中,我們不能斷定因變量與自變量間確有線性關(guān)系,線性模型只是一種假設(shè),盡管這種假設(shè)不是沒有根據(jù)的,但還是需要對這種線性回歸方程同實際觀察或試驗數(shù)據(jù)擬合的效果進行檢驗。2024/1/19高級管理統(tǒng)計28T檢驗檢驗問題檢驗統(tǒng)計量

其中2024/1/19高級管理統(tǒng)計29因為相互獨立,并且所以2024/1/19高級管理統(tǒng)計30也就是說,所以拒絕域根據(jù)分布與分布之間的關(guān)系,有因而拒絕域也可以寫為。2024/1/19高級管理統(tǒng)計31相關(guān)系數(shù)檢驗二維樣本的相關(guān)系數(shù)定義為2024/1/19高級管理統(tǒng)計32

當成立時,應(yīng)該比較小,從而值較小;因此,當較大時,應(yīng)拒絕。拒絕域其中滿足條件2024/1/19高級管理統(tǒng)計33

利用回歸方程作預測當線性系數(shù)經(jīng)過檢驗確認不等于零,即回歸直線效果是顯著的,此時,便可以利用所得的回歸直線,給定自變量的值來預報因變量的值:給定和置信水平,預報隨機變量的取值范圍。2024/1/19高級管理統(tǒng)計34當時,的估計值2024/1/19高級管理統(tǒng)計352024/1/19高級管理統(tǒng)計36而所以,的置信水平為的置信區(qū)間為2024/1/19高級管理統(tǒng)計37

國家

國民經(jīng)濟增長率x(%)

失業(yè)率y(%)

美國3.25.8

日本5.62.1

法國3.56.1

西德4.53.0

意大利4.93.9

英國1.45.7

以下是六個工業(yè)發(fā)達國家在1979年的失業(yè)率與國民經(jīng)濟增長率的數(shù)據(jù)2024/1/19高級管理統(tǒng)計38

(1)研究與之間的關(guān)系;

(2)建立關(guān)于的一元線性回歸方程;

(3)對所求得的回歸方程作顯著性檢驗,在作檢驗時做了什么假定?(取)(4)若一個工業(yè)發(fā)達國家的國民經(jīng)濟增長率為,求其失業(yè)率的預測值。2024/1/19高級管理統(tǒng)計392024/1/19高級管理統(tǒng)計402024/1/19高級管理統(tǒng)計41R計算程序與計算結(jié)果x=c(3.2,5.6,3.5,4.5,4.9,1.4)y=c(5.8,2.1,6.1,3.0,3.9,5.7)fit=lm(y~1+x)summary(fit)yhat=predict(fit)yhatplot(y,type="l",lwd=1,xlab="x",ylab="y");text(3.6,5.8,expression(觀察值))lines(yhat,lwd=2.5,col="blue");text(5.3,6,expression(估計值))2024/1/19高級管理統(tǒng)計42R計算程序與計算結(jié)果Call:lm(formula=y~1+x)Residuals:1234560.7742-0.73811.3476-0.84080.4238-0.9666Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)7.94281.33805.9360.00404**x-0.91150.3276-2.7820.04971*---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:1.093on4degreesoffreedomMultipleR-squared:0.6593,AdjustedR-squared:0.5741F-statistic:7.74on1and4DF,p-value:0.049712024/1/19高級管理統(tǒng)計432024/1/19高級管理統(tǒng)計442024/1/19高級管理統(tǒng)計452024/1/19高級管理統(tǒng)計46

可化為一元線性回歸的曲線回歸(1)雙曲線令,則。(2)冪函數(shù)令,則。2024/1/19高級管理統(tǒng)計47(3)指數(shù)函數(shù)若,則令,于是若,則令,同樣有2024/1/19高級管理統(tǒng)計48(4)對數(shù)函數(shù)令,則有。(5)S曲線令,則有。2024/1/19高級管理統(tǒng)計493.2多元線性回歸模型

multivariateregression●多元的含義:多個解釋變量?多個因變量(被解釋變量)?例如,血壓與年齡、體重之間的關(guān)系消費支出與收入、價格之間的關(guān)系其他………?●線性的含義:變量的線性組合

2024/1/19高級管理統(tǒng)計50●

建模目的①分析變量之間的結(jié)構(gòu)關(guān)系②預測分析:給定自變量的取值,預測因變量Y將來取值的大小2024/1/19高級管理統(tǒng)計51●模型結(jié)構(gòu)分析

設(shè)是個變量的線性函數(shù)現(xiàn)對多元變量

在個點上進行試驗,結(jié)果如下2024/1/19高級管理統(tǒng)計52

此處為隨機誤差項,它滿足條件(1)獨立性:相互獨立,因而也相互獨立。(2)無偏性:,因而2024/1/19高級管理統(tǒng)計53(3)等方差性:,因而(4)正態(tài)性:,因而

上述四個條件等價于:2024/1/19高級管理統(tǒng)計54●

模型參數(shù)估計

模型系數(shù)估計:設(shè)所求回歸方程為其中為參數(shù)的估計,稱為回歸系數(shù),它使殘差平方和取最小值2024/1/19高級管理統(tǒng)計55

根據(jù)多元函數(shù)求極值的必要條件,應(yīng)滿足下列線性方程組

2024/1/19高級管理統(tǒng)計562024/1/19高級管理統(tǒng)計57寫成矩陣形式2024/1/19高級管理統(tǒng)計58記2024/1/19高級管理統(tǒng)計59則2024/1/19高級管理統(tǒng)計602024/1/19高級管理統(tǒng)計61因此,正規(guī)方程組從而,未知參數(shù)向量的最小二乘估計量

2024/1/19高級管理統(tǒng)計62●方差的無偏估計量

并且此處2024/1/19高級管理統(tǒng)計63其中,殘差序列為2024/1/19高級管理統(tǒng)計64●回歸方程優(yōu)劣的評價模型的擬合程度:

回歸系數(shù)是否顯著不等于零2024/1/19高級管理統(tǒng)計65●回歸方程的顯著性檢驗檢驗問題檢驗統(tǒng)計量2024/1/19高級管理統(tǒng)計66

●模型系數(shù)的顯著性檢驗若考慮變量是否對因變量有顯著影響,則檢驗問題

檢驗統(tǒng)計量

2024/1/19高級管理統(tǒng)計67

拒絕域判斷:對于給定的顯著水平,若,則拒絕原假設(shè),即認為;若則接受,認為2024/1/19高級管理統(tǒng)計68

例題考慮我國31個省市自治區(qū)的城鎮(zhèn)居民人均食品消費支出與其人均收入,糧食價格的依賴關(guān)系回歸模型:

人均消費支出(Y)=β0+β1糧食價格(X1)+β2人均收入2024/1/19高級管理統(tǒng)計69多元回歸分析的建模數(shù)據(jù)2024/1/19高級管理統(tǒng)計70變量之間的相關(guān)系數(shù)分析食品支出與糧價相關(guān)系數(shù)=0.730

食品支出與收入相關(guān)系數(shù)=0.9212024/1/19高級管理統(tǒng)計71參數(shù)估計β0=-87.386,β1=213.423,β2=0.3522024/1/19高級管理統(tǒng)計72回歸方程的表達式:2024/1/19高級管理統(tǒng)計73

常數(shù)項的經(jīng)濟涵義不清晰,原因:可能有重要的解釋變量未引入方程中;因此,需再尋找其他解釋變量

2024/1/19高級管理統(tǒng)計74●

解釋變量確定的方法:逐步回歸基本思路:先列出所有可能的解釋變量,然后逐一增加或刪除變量,將其引入方程或者將其從方程中剔出2024/1/19高級管理統(tǒng)計75

模型擬合檢驗:F檢驗,分析數(shù)據(jù)的擬合程度,它是對模型的整體檢驗F值=106.1642024/1/19高級管理統(tǒng)計76殘差分布圖2024/1/19高級管理統(tǒng)計77F檢驗的解釋在回歸分析中,觀測數(shù)據(jù)的總波動,用每個觀測值與總平均的差異平方和表示,即2024/1/19高級管理統(tǒng)計78

是觀測值與回歸值的離差平方和,反映了誤差的大小,稱為誤差平方和;其取值越小越好;它的自由度=31-3=28

是回歸值與總平均離差平方和,它表示x與y的線性關(guān)系引起y的變化;稱為回歸平方和,它的自由度=3-1=22024/1/19高級管理統(tǒng)計79模型的經(jīng)濟涵義

①在保持收入水平不變的條件下,糧價上漲1元,則人均食品消費支出將增加213.423元②在糧價保持不變的情況下,收入每增加1元,將有其中的0.352元用于食品消費支出2024/1/19高級管理統(tǒng)計80

例題根據(jù)經(jīng)驗,在人的身高相等的情況下,血壓的收縮壓Y與體重X1(kg)、年齡X2(歲數(shù))有關(guān)?,F(xiàn)在收集了13個男子的數(shù)據(jù),試建立Y關(guān)于X1,X2的回歸方程2024/1/19高級管理統(tǒng)計81序號X1X2Y176.050120291.520141385.520124482.530126579.030117680.550125774.560123879.050125985.0401321076.5551231182.0401321295.0401551392.5201472024/1/19高級管理統(tǒng)計82R軟件運行程序blood<-data.frame(X1=c(76.0,91.5,85.5,82.5,79.0,80.5,74.5,79.0,85.0,76.5,82.0,95.0,92.5),X2=c(50,20,20,30,30,50,60,50,40,55,40,40,20),Y=c(120,141,124,126,117,125,123,125,132,123,132,155,147))lm.sol<-lm(Y~X1+X2,data=blood)summary(lm.sol)2024/1/19高級管理統(tǒng)計83結(jié)果Call:lm(formula=Y~X1+X2,data=blood)Residuals:Min1QMedian3QMax-4.0404-1.01830.46400.69084.3274Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)-62.9633616.99976-3.7040.004083**X12.136560.1753412.1852.53e-07***X20.400220.083214.8100.000713***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:2.854on10degreesoffreedomF-statistic:87.84on2and10DF,p-value:4.531e-072024/1/19高級管理統(tǒng)計84模型表達式

Y=-62.96+2.136X1+0.4002X2

(-3.704)(12.185)(4.810)2024/1/19高級管理統(tǒng)計852024/1/19高級管理統(tǒng)計86參數(shù)的區(qū)間估計source(".R")(lm.sol)EstimateLeftRight(Intercept)-62.9633591-100.8411862-25.0855320X12.13655811.74587092.5272454X20.40021620.21480770.58562462024/1/19高級管理統(tǒng)計873.3多元逐步回歸

在實際問題中,人們總是希望從對因變量有影響的諸多變量中選擇一些變量作為自變量,應(yīng)用多元回歸分析的方法建立“最優(yōu)”回歸方程,以便對因變量進行預報或控制2024/1/19高級管理統(tǒng)計88●所謂“最優(yōu)”回歸方程,主要是指在回歸方程中包含所有對因變量影響顯著的自變量而不包含對影響不顯著的自變量的回歸方程●逐步回歸分析的主要思路是在所考慮的全部自變量中按其對的作用大小,顯著程度大小,或者說貢獻大小,由大到小地逐個引入回歸方程,而對那些對作用不顯著的變量可能始終不被引人回歸方程2024/1/19高級管理統(tǒng)計89●另外,己被引人回歸方程的變量在引入新變量后也可能失去重要性,而需要從回歸方程中剔除出去。引入一個變量或者從回歸方程中剔除一個變量都稱為逐步回歸的一步,每一步都要進行檢驗,以保證在引人新變量前回歸方程中只含有對影響顯著的變量,而不顯著的變量已被剔除2024/1/19高級管理統(tǒng)計90

例題某種水泥在凝固時放出的熱能Y與水泥的四種化學成分X1,X2,X3,X4有關(guān),現(xiàn)測得13組數(shù)據(jù),希望從中選出主要的變量,建立Y關(guān)于它們的線性回歸方程2024/1/19高級管理統(tǒng)計91序號X1X2X3X4Y172666078.52129155274.331156820104.34113184787.6575263395.961155922109.27371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.42024/1/19高級管理統(tǒng)計92cement<-data.frame(X1=c(7,1,11,11,7,11,3,1,2,21,1,11,10),X2=c(26,29,56,31,52,55,71,31,54,47,40,66,68),X3=c(6,15,8,8,6,9,17,22,18,4,23,9,8),X4=c(60,52,20,47,33,22,6,44,22,26,34,12,12),Y=c(78.5,74.3,104.3,87.6,95.9,109.2,102.7,72.5,93.1,115.9,83.8,113.3,109.4))lm.sol<-lm(Y~X1+X2+X3+X4,data=cement)summary(lm.sol)2024/1/19高級管理統(tǒng)計93主要結(jié)果Call:lm(formula=Y~X1+X2+X3+X4,data=cement)Residuals:Min1QMedian3QMax-3.1750-1.67090.25081.37833.9254Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)62.405470.07100.8910.3991X11.55110.74482.0830.0708.X20.51020.72380.7050.5009X30.10190.75470.1350.8959X4-0.14410.7091-0.2030.8441---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:2.446on8degreesoffreedomF-statistic:111.5on4and8DF,p-value:4.756e-07

2024/1/19高級管理統(tǒng)計94從上述計算中可以看出,如果選擇全部變量作回歸方程,效果不好,因為回歸方程的系數(shù)沒有一項通過檢驗,下面用函數(shù)step()作逐步回歸2024/1/19高級管理統(tǒng)計95lm.step<-step(lm.sol)Start:AIC=26.94Y~X1+X2+X3+X4DfSumofSqRSSAIC-X310.10947.97324.974-X410.24748.11125.011-X212.97250.83625.728<none>47.86426.944-X1125.95173.81530.576Step:AIC=24.974Y~X1+X2+X4DfSumofSqRSSAIC<none>47.9724.97-X419.9357.9025.42-X2126.7974.7628.74-X11820.91868.8860.632024/1/19高級管理統(tǒng)計96名詞解釋●

AIC準則:赤池信息量準則(Akaikeinformationcriterion,簡稱AIC)是衡量統(tǒng)計模型擬合優(yōu)良性的一種標準,是由日本統(tǒng)計學家赤池弘次創(chuàng)立和發(fā)展的;赤池信息量準則建立在熵的概念基礎(chǔ)上,可以權(quán)衡所估計模型的復雜度和此模型擬合數(shù)據(jù)的優(yōu)良性

AIC=2k-log(L)其中:k是參數(shù)的數(shù)量,L是似然函數(shù)2024/1/19高級管理統(tǒng)計97●從程序運行結(jié)果來看,用全部變量作回歸方程時,AIC的值為26.94,接下來的數(shù)據(jù)表明:如果去掉X3,得到回歸方程AIC的值為24.974,如果去掉X4,AIC的值為25.011,依次類推;由于去掉X3可以使AIC達到最小,因此去掉X3進入下一輪計算。●在下一輪計算中,無論去掉那一個變量,AIC的值均會升高,因此中止逐步回歸,進入回歸建模。2024/1/19高級管理統(tǒng)計98summary(lm.step)Call:lm(formula=Y~X1+X2+X4,data=cement)Residuals:Min1QMedian3QMax-3.0919-1.80160.25621.28183.8982Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)71.648314.14245.0660.000675***X11.45190.117012.4105.78e-07***X20.41610.18562.2420.051687.X4-0.23650.1733-1.3650.205395---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:2.309on9degreesoffreedomF-statistic:166.8on3and9DF,p-value:3.323e-082024/1/19高級管理統(tǒng)計99

殘差分布圖

lm.sol<-lm(Y~X1+X2+X4,data=cement)

res<-residuals(lm.sol)

plot(res)2024/1/19高級管理統(tǒng)計1003.4多重線性回歸分析

主要討論多個因變量與多個自變量之間的線性函數(shù)關(guān)系,當然多個因變量之間具有相關(guān)性;否則,就是多個多元線性回歸模型問題2024/1/19高級管理統(tǒng)計101多對多的問題①發(fā)電量、工業(yè)總產(chǎn)值與鋼材產(chǎn)量、水泥產(chǎn)量和機械工業(yè)總產(chǎn)值之間的關(guān)系②麥當勞、肯德基消費與居民收入、價格等因素之間的關(guān)系③?????2024/1/19高級管理統(tǒng)計102模型結(jié)構(gòu)因變量:y1,y2,…,ym解釋變量:x1,x2,…,xk函數(shù)關(guān)系2024/1/19高級管理統(tǒng)計103矩陣形式2024/1/19高級管理統(tǒng)計104n組觀察值其表達式為2024/1/19高級管理統(tǒng)計1052024/1/19高級管理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論