淺談回歸分析_第1頁(yè)
淺談回歸分析_第2頁(yè)
淺談回歸分析_第3頁(yè)
淺談回歸分析_第4頁(yè)
淺談回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩74頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

淺談回歸分析第1頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/20231實(shí)驗(yàn)?zāi)康膶?shí)驗(yàn)內(nèi)容2、掌握用數(shù)學(xué)軟件求解回歸分析問題。1、直觀了解回歸分析基本內(nèi)容。1、回歸分析的基本理論。3、實(shí)驗(yàn)作業(yè)。2、用數(shù)學(xué)軟件求解回歸分析問題。第2頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/20232一元線性回歸多元線性回歸回歸分析數(shù)學(xué)模型及定義*模型參數(shù)估計(jì)*檢驗(yàn)、預(yù)測(cè)與控制可線性化的一元非線性回歸(曲線回歸)數(shù)學(xué)模型及定義*模型參數(shù)估計(jì)*多元線性回歸中的檢驗(yàn)與預(yù)測(cè)逐步回歸分析第3頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/20233一、數(shù)學(xué)模型例1測(cè)16名成年女子的身高與腿長(zhǎng)所得數(shù)據(jù)如下:以身高x為橫坐標(biāo),以腿長(zhǎng)y為縱坐標(biāo)將這些數(shù)據(jù)點(diǎn)(xI,yi)在平面直角坐標(biāo)系上標(biāo)出.散點(diǎn)圖解答第4頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/20234一元線性回歸分析的主要任務(wù)是:返回第5頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/20235二、模型參數(shù)估計(jì)1、回歸系數(shù)的最小二乘估計(jì)第6頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/20236返回第7頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/20237三、檢驗(yàn)、預(yù)測(cè)與控制1、回歸方程的顯著性檢驗(yàn)第8頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/20238(Ⅰ)F檢驗(yàn)法

(Ⅱ)t檢驗(yàn)法第9頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/20239(Ⅲ)r檢驗(yàn)法第10頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/2023102、回歸系數(shù)的置信區(qū)間第11頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/2023113、預(yù)測(cè)與控制(1)預(yù)測(cè)第12頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202312(2)控制返回第13頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202313四、可線性化的一元非線性回歸(曲線回歸)例2出鋼時(shí)所用的盛鋼水的鋼包,由于鋼水對(duì)耐火材料的侵蝕,容積不斷增大.我們希望知道使用次數(shù)與增大的容積之間的關(guān)系.對(duì)一鋼包作試驗(yàn),測(cè)得的數(shù)據(jù)列于下表:解答第14頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202314散點(diǎn)圖此即非線性回歸或曲線回歸

問題(需要配曲線)配曲線的一般方法是:第15頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202315通常選擇的六類曲線如下:返回第16頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202316一、數(shù)學(xué)模型及定義返回第17頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202317二、模型參數(shù)估計(jì)第18頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202318返回第19頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202319三、多元線性回歸中的檢驗(yàn)與預(yù)測(cè)

(Ⅰ)F檢驗(yàn)法(Ⅱ)r檢驗(yàn)法(殘差平方和)第20頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/2023202、預(yù)測(cè)(1)點(diǎn)預(yù)測(cè)(2)區(qū)間預(yù)測(cè)返回第21頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202321四、逐步回歸分析(4)“有進(jìn)有出”的逐步回歸分析。(1)從所有可能的因子(變量)組合的回歸方程中選擇最優(yōu)者;(2)從包含全部變量的回歸方程中逐次剔除不顯著因子;(3)從一個(gè)變量開始,把變量逐個(gè)引入方程;選擇“最優(yōu)”的回歸方程有以下幾種方法:

“最優(yōu)”的回歸方程就是包含所有對(duì)Y有影響的變量,而不包含對(duì)Y影響不顯著的變量回歸方程。以第四種方法,即逐步回歸分析法在篩選變量方面較為理想.第22頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202322這個(gè)過程反復(fù)進(jìn)行,直至既無不顯著的變量從回歸方程中剔除,又無顯著變量可引入回歸方程時(shí)為止。逐步回歸分析法的思想:從一個(gè)自變量開始,視自變量Y作用的顯著程度,從大到地依次逐個(gè)引入回歸方程。當(dāng)引入的自變量由于后面變量的引入而變得不顯著時(shí),要將其剔除掉。引入一個(gè)自變量或從回歸方程中剔除一個(gè)自變量,為逐步回歸的一步。對(duì)于每一步都要進(jìn)行Y值檢驗(yàn),以確保每次引入新的顯著性變量前回歸方程中只包含對(duì)Y作用顯著的變量。返回第23頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202323統(tǒng)計(jì)工具箱中的回歸分析命令1、多元線性回歸2、多項(xiàng)式回歸3、非線性回歸4、逐步回歸返回第24頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202324多元線性回歸

b=regress(Y,X)1、確定回歸系數(shù)的點(diǎn)估計(jì)值:第25頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/2023253、畫出殘差及其置信區(qū)間:rcoplot(r,rint)2、求回歸系數(shù)的點(diǎn)估計(jì)和區(qū)間估計(jì)、并檢驗(yàn)回歸模型:

[b,bint,r,rint,stats]=regress(Y,X,alpha)回歸系數(shù)的區(qū)間估計(jì)殘差用于檢驗(yàn)回歸模型的統(tǒng)計(jì)量,有三個(gè)數(shù)值:相關(guān)系數(shù)r2、F值、與F對(duì)應(yīng)的概率p置信區(qū)間顯著性水平(缺省時(shí)為0.05)第26頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202326例1解:1、輸入數(shù)據(jù):x=[143145146147149150153154155156157158159160162164]';X=[ones(16,1)x];Y=[8885889192939395969897969899100102]';2、回歸分析及檢驗(yàn):[b,bint,r,rint,stats]=regress(Y,X)b,bint,statsToMATLAB(liti11)題目第27頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/2023273、殘差分析,作殘差圖:rcoplot(r,rint)從殘差圖可以看出,除第二個(gè)數(shù)據(jù)外,其余數(shù)據(jù)的殘差離零點(diǎn)均較近,且殘差的置信區(qū)間均包含零點(diǎn),這說明回歸模型y=-16.073+0.7194x能較好的符合原始數(shù)據(jù),而第二個(gè)數(shù)據(jù)可視為異常點(diǎn).4、預(yù)測(cè)及作圖:z=b(1)+b(2)*xplot(x,Y,'k+',x,z,'r')返回ToMATLAB(liti12)第28頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202328多項(xiàng)式回歸(一)一元多項(xiàng)式回歸

(1)確定多項(xiàng)式系數(shù)的命令:[p,S]=polyfit(x,y,m)(2)一元多項(xiàng)式回歸命令:polytool(x,y,m)1、回歸:y=a1xm+a2xm-1+…+amx+am+12、預(yù)測(cè)和預(yù)測(cè)誤差估計(jì):(1)Y=polyval(p,x)求polyfit所得的回歸多項(xiàng)式在x處的預(yù)測(cè)值Y;(2)[Y,DELTA]=polyconf(p,x,S,alpha)求polyfit所得的回歸多項(xiàng)式在x處的預(yù)測(cè)值Y及預(yù)測(cè)值的顯著性為1-alpha的置信區(qū)間YDELTA;alpha缺省時(shí)為0.5.第29頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202329法一直接作二次多項(xiàng)式回歸:t=1/30:1/30:14/30;s=[11.8615.6720.6026.6933.7141.9351.1361.4972.9085.4499.08113.77129.54146.48];

[p,S]=polyfit(t,s,2)ToMATLAB(liti21)得回歸模型為:第30頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202330法二化為多元線性回歸:t=1/30:1/30:14/30;s=[11.8615.6720.6026.6933.7141.9351.1361.4972.9085.4499.08113.77129.54146.48];T=[ones(14,1)t'(t.^2)'];[b,bint,r,rint,stats]=regress(s',T);b,statsToMATLAB(liti22)得回歸模型為:Y=polyconf(p,t,S)plot(t,s,'k+',t,Y,'r')預(yù)測(cè)及作圖ToMATLAB(liti23)第31頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202331(二)多元二項(xiàng)式回歸命令:rstool(x,y,’model’,alpha)nm矩陣顯著性水平(缺省時(shí)為0.05)n維列向量第32頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202332例3設(shè)某商品的需求量與消費(fèi)者的平均收入、商品價(jià)格的統(tǒng)計(jì)數(shù)據(jù)如下,建立回歸模型,預(yù)測(cè)平均收入為1000、價(jià)格為6時(shí)的商品需求量.法一直接用多元二項(xiàng)式回歸:x1=[10006001200500300400130011001300300];x2=[5766875439];y=[10075807050659010011060]';x=[x1'x2'];rstool(x,y,'purequadratic')第33頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202333在畫面左下方的下拉式菜單中選”all”,則beta、rmse和residuals都傳送到Matlab工作區(qū)中.在左邊圖形下方的方框中輸入1000,右邊圖形下方的方框中輸入6。則畫面左邊的“PredictedY”下方的數(shù)據(jù)變?yōu)?8.47981,即預(yù)測(cè)出平均收入為1000、價(jià)格為6時(shí)的商品需求量為88.4791.第34頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202334在Matlab工作區(qū)中輸入命令:beta,rmseToMATLAB(liti31)為剩余標(biāo)準(zhǔn)差,表示應(yīng)變量Y值對(duì)于回歸直線的離散程度。第35頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202335結(jié)果為:b=110.53130.1464-26.5709-0.00011.8475stats=0.970240.66560.0005法二ToMATLAB(liti32)返回將化為多元線性回歸:第36頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202336非線性回歸(1)確定回歸系數(shù)的命令:

[beta,r,J]=nlinfit(x,y,’model’,beta0)(2)非線性回歸命令:nlintool(x,y,’model’,beta0,alpha)1、回歸:殘差Jacobian矩陣回歸系數(shù)的初值是事先用m-文件定義的非線性函數(shù)估計(jì)出的回歸系數(shù)輸入數(shù)據(jù)x、y分別為矩陣和n維列向量,對(duì)一元非線性回歸,x為n維列向量。2、預(yù)測(cè)和預(yù)測(cè)誤差估計(jì):[Y,DELTA]=nlpredci(’model’,x,beta,r,J)求nlinfit或nlintool所得的回歸函數(shù)在x處的預(yù)測(cè)值Y及預(yù)測(cè)值的顯著性為1-alpha的置信區(qū)間YDELTA.第37頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202337例4對(duì)第一節(jié)例2,求解如下:2、輸入數(shù)據(jù):x=2:16;y=[6.428.209.589.59.7109.939.9910.4910.5910.6010.8010.6010.9010.76];beta0=[82]';3、求回歸系數(shù):[beta,r,J]=nlinfit(x',y','volum',beta0);beta得結(jié)果:beta=11.6036-1.0641即得回歸模型為:ToMATLAB(liti41)題目第38頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/2023384、預(yù)測(cè)及作圖:[YY,delta]=nlpredci('volum',x',beta,r,J);plot(x,y,'k+',x,YY,'r')ToMATLAB(liti42)第39頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202339例5財(cái)政收入預(yù)測(cè)問題:財(cái)政收入與國(guó)民收入、工業(yè)總產(chǎn)值、農(nóng)業(yè)總產(chǎn)值、總?cè)丝凇⒕蜆I(yè)人口、固定資產(chǎn)投資等因素有關(guān)。下表列出了1952-1981年的原始數(shù)據(jù),試構(gòu)造預(yù)測(cè)模型。

解設(shè)國(guó)民收入、工業(yè)總產(chǎn)值、農(nóng)業(yè)總產(chǎn)值、總?cè)丝?、就業(yè)人口、固定資產(chǎn)投資分別為x1、x2、x3、x4、x5、x6,財(cái)政收入為y,設(shè)變量之間的關(guān)系為:y=ax1+bx2+cx3+dx4+ex5+fx6使用非線性回歸方法求解。第40頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/2023401.

對(duì)回歸模型建立M文件model.m如下:functionyy=model(beta0,X)a=beta0(1);b=beta0(2);c=beta0(3);d=beta0(4);e=beta0(5);f=beta0(6);x1=X(:,1);x2=X(:,2);x3=X(:,3);x4=X(:,4);x5=X(:,5);x6=X(:,6);yy=a*x1+b*x2+c*x3+d*x4+e*x5+f*x6;

第41頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/2023412.

主程序liti6.m如下:X=[598.00349.00461.0057482.0020729.0044.00…………..2927.006862.001273.00100072.043280.00496.00];y=[184.00216.00248.00254.00268.00286.00357.00444.00506.00...271.00230.00266.00323.00393.00466.00352.00303.00447.00...564.00638.00658.00691.00655.00692.00657.00723.00922.00...890.00826.00810.0]';beta0=[0.50-0.03-0.600.01-0.020.35];betafit=nlinfit(X,y,'model',beta0)ToMATLAB(liti6)第42頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202342betafit=0.5243-0.0294-0.63040.0112-0.02300.3658即y=0.5243x1-0.0294x2-0.6304x3+0.0112x4-0.0230x5+0.3658x6結(jié)果為:返回第43頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202343逐步回歸逐步回歸的命令是:stepwise(x,y,inmodel,alpha)運(yùn)行stepwise命令時(shí)產(chǎn)生三個(gè)圖形窗口:StepwisePlot,StepwiseTable,StepwiseHistory.在StepwisePlot窗口,顯示出各項(xiàng)的回歸系數(shù)及其置信區(qū)間.StepwiseTable窗口中列出了一個(gè)統(tǒng)計(jì)表,包括回歸系數(shù)及其置信區(qū)間,以及模型的統(tǒng)計(jì)量剩余標(biāo)準(zhǔn)差(RMSE)、相關(guān)系數(shù)(R-square)、F值、與F對(duì)應(yīng)的概率P.矩陣的列數(shù)的指標(biāo),給出初始模型中包括的子集(缺省時(shí)設(shè)定為全部自變量)顯著性水平(缺省時(shí)為0.5)自變量數(shù)據(jù),階矩陣因變量數(shù)據(jù),階矩陣第44頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202344例6水泥凝固時(shí)放出的熱量y與水泥中4種化學(xué)成分x1、x2、x3、x4

有關(guān),今測(cè)得一組數(shù)據(jù)如下,試用逐步回歸法確定一個(gè)線性模型.1、數(shù)據(jù)輸入:x1=[7111117113122111110]';x2=[26295631525571315447406668]';x3=[615886917221842398]';x4=[6052204733226442226341212]';y=[78.574.3104.387.695.9109.2102.772.593.1115.983.8113.3109.4]';x=[x1x2x3x4];第45頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/2023452、逐步回歸:(1)先在初始模型中取全部自變量:stepwise(x,y)得圖StepwisePlot和表StepwiseTable圖StepwisePlot中四條直線都是虛線,說明模型的顯著性不好從表StepwiseTable中看出變量x3和x4的顯著性最差.第46頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202346(2)在圖StepwisePlot中點(diǎn)擊直線3和直線4,移去變量x3和x4移去變量x3和x4后模型具有顯著性.

雖然剩余標(biāo)準(zhǔn)差(RMSE)沒有太大的變化,但是統(tǒng)計(jì)量F的值明顯增大,因此新的回歸模型更好.ToMATLAB(liti51)第47頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202347(3)對(duì)變量y和x1、x2作線性回歸:X=[ones(13,1)x1x2];b=regress(y,X)得結(jié)果:b=52.57731.46830.6623故最終模型為:y=52.5773+1.4683x1+0.6623x2ToMATLAB(liti52)返回第48頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202348作業(yè)1、考察溫度x對(duì)產(chǎn)量y的影響,測(cè)得下列10組數(shù)據(jù):求y關(guān)于x的線性回歸方程,檢驗(yàn)回歸效果是否顯著,并預(yù)測(cè)x=42℃時(shí)產(chǎn)量的估值及預(yù)測(cè)區(qū)間(置信度95%).2、某零件上有一段曲線,為了在程序控制機(jī)床上加工這一零件,需要求這段曲線的解析表達(dá)式,在曲線橫坐標(biāo)xi處測(cè)得縱坐標(biāo)yi共11對(duì)數(shù)據(jù)如下:求這段曲線的縱坐標(biāo)y關(guān)于橫坐標(biāo)x的二次多項(xiàng)式回歸方程.第49頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202349第50頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/2023504、混凝土的抗壓強(qiáng)度隨養(yǎng)護(hù)時(shí)間的延長(zhǎng)而增加,現(xiàn)將一批混凝土作成12個(gè)試塊,記錄了養(yǎng)護(hù)日期x(日)及抗壓強(qiáng)度y(kg/cm2)的數(shù)據(jù):第51頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202351謝謝大家第52頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202352四軟件開發(fā)人員的薪金問題:一家高技術(shù)公司人事部門為研究軟件開發(fā)人員的薪金與他們的資歷、管理責(zé)任、教育程度等因素之間的關(guān)系,要建立一個(gè)數(shù)學(xué)模型,以便分析公司人士策略的合理性,并作為新聘用人員工資的參考。他們認(rèn)為目前公司人員的薪金總體上是合理的,可以作為建模的依據(jù),于是調(diào)查了46名開發(fā)人員的檔案資料,如表。其中資歷一列指從事專業(yè)工作的年數(shù),管理一列中1表示管理人員,0表示非管理人員,教育一列中1表示中學(xué)程度,2表示大學(xué)程度,3表示更高程度(研究生)第53頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202353編號(hào)薪金資歷管理教育編號(hào)薪金資歷管理教育011387611113198003130211608103141141740103187011131520263413041128310216132314030511767103171284440206208722121813245502071177220219136775030810535201201596551109121952032112366601101231330222213526131114975311231383960212213713122422884612第54頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202354編號(hào)薪金資歷管理教育編號(hào)薪金資歷管理教育251697871136168821202261480380237241701213271740481138159901301282218481339263301312291354880140179491402301446710014125685151331159421002422783716123223174101343188381602332378010124417483160134254101112451920717023514861110146193462001開發(fā)人員的薪金與他們的資歷、管理責(zé)任、教育程度第55頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202355分析與假設(shè):按照常識(shí),薪金自然按照資歷(年)的增長(zhǎng)而增加,管理人員的薪金高于非管理人員,教育程度越高薪金越高。薪金記作,資歷(年)記作,為了表示是否為管理人員定義1,管理人員0,非管理人員為了表示三種教育程度,定義1,中學(xué)0,其它1,大學(xué)0,其它這樣,中學(xué)用表示,大學(xué)用表示,研究生則用表示。第56頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202356為了簡(jiǎn)單起見,我們假定資歷(年)對(duì)薪金的作用是線性的,即資歷每加一年,薪金的增長(zhǎng)是常數(shù);管理責(zé)任、教育程度、資歷諸因素之間沒有交互作用,建立線性回歸模型?;灸P停盒浇鹋c資歷,管理責(zé)任,教育程度之間的多元線性回歸模型為其中,是待估計(jì)的回歸系數(shù),是隨機(jī)誤差。利用MATLAB的系統(tǒng)工具箱可以得到回歸系數(shù)及其置信區(qū)間(置信水平)、檢驗(yàn)統(tǒng)計(jì)量的結(jié)果,見表。第57頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202357參數(shù)參數(shù)估計(jì)值置信區(qū)間11032[1025811807]546[484608]6883[62487517]-2994[-3826-2162]148[-636931]第58頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202358結(jié)果分析:從表中,,即因變量(薪金)的95.7%可由模型確定,值超過檢驗(yàn)的臨界值,遠(yuǎn)小于,因而模型從整體來看是可用的。比如,利用模型可以估計(jì)(或估計(jì))一個(gè)大學(xué)畢業(yè)、有2年資歷、管理人員的薪金為模型中各個(gè)回歸系數(shù)的含義可初步解釋如下:的系數(shù)為546,說明資歷每增加一年,薪金增長(zhǎng)546;的系數(shù)為6883,說明管理人員的薪金比非管理人員多6883;的系數(shù)為-2994,說明中學(xué)程度的薪金比研究生少2994;的系數(shù)為148,說明大學(xué)程度的薪金比研究生多148,但是應(yīng)該注意到的置信區(qū)間包含零點(diǎn),所以這個(gè)系數(shù)的解釋是不可靠的。注意:上述解釋是就平均值來說的,并且,一個(gè)因素改變引起的因變量的變化量,都是在其它因素不變的條件下才成立的。第59頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202359進(jìn)一步討論:的置信區(qū)間包含零點(diǎn),說明上述基本模型存在缺點(diǎn)。為了尋找改進(jìn)的方向,常用殘差分析法(殘差指薪金的實(shí)際值與模型估計(jì)的薪金之差,是基本模型中隨機(jī)誤差的估計(jì)值,這里用同一個(gè)符號(hào))。我們將影響因素分成資歷與管理—教育組合兩類,管理--教育組合定義如表。組合123456管理010101教育112233管理—教育組合第60頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202360為了對(duì)殘差進(jìn)行分析,下圖給出與資歷的關(guān)系,及與管理--教育組合間的關(guān)系。與資歷的關(guān)系與組合的關(guān)系從左圖看,殘差大概分成3個(gè)水平,這是由于6種管理—教育組合混在一起,在模型中未被正確反映的結(jié)果;從右圖看,對(duì)于前4個(gè)管理—教育組合,殘差或者全為正,或者全為負(fù),也表明管理--教育組合在模型中處理不當(dāng)。在模型中,管理責(zé)任和教育程度是分別起作用的,事實(shí)上,二者可能起著交互作用,如大學(xué)程度的管理人員的薪金會(huì)比二者分別的薪金之和高一點(diǎn)。第61頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202361以上分析提示我們,應(yīng)在基本模型中增加管理更好的模型:與教育的交互項(xiàng),建立新的回歸模型。增加與的交互項(xiàng)后,模型記作利用MATLAB的統(tǒng)計(jì)工具箱得到的結(jié)果如表:第62頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202362參數(shù)參數(shù)估計(jì)值置信區(qū)間11204[1104411363]497[486508]7048[68417255]-1727[-1939-1514]-348[-545-152]-3071[-3372-2769]1836[15712101]第63頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202363由上表可知,這個(gè)模型的做該模型的兩個(gè)殘差分析圖,可以看出,已經(jīng)消除了不正?,F(xiàn)象,這也說明了模型的適用性。和值都比上一個(gè)模型有所改進(jìn),并且所有回歸系數(shù)的置信區(qū)間都不含零點(diǎn),表明這個(gè)模型完全可用。與的關(guān)系與組合的關(guān)系第64頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202364從上圖,還可以發(fā)現(xiàn)一個(gè)異常點(diǎn):具有10年資歷、大學(xué)程度的管理人員(編號(hào)33)的實(shí)際薪金明顯低于模型的估計(jì)值,也明顯低于與他有類似經(jīng)歷的其他人的薪金。這可能是由我們未知的原因造成的。為了使個(gè)別數(shù)據(jù)不致影響整個(gè)模型,應(yīng)該將這個(gè)異常數(shù)據(jù)去掉,對(duì)模型重新估計(jì)回歸系數(shù),得到的結(jié)果如表。殘差分析見圖??梢钥吹?,去掉異常數(shù)據(jù)后結(jié)果又有改善。第65頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202365參數(shù)參數(shù)估計(jì)值置信區(qū)間11200[1113911261]498[494503]7041[69627120]-1737[-1818-1656]-356[-431-281]-3056[-3171-2942]1997[18942100]第66頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202366與的關(guān)系與組合的關(guān)系模型的應(yīng)用:對(duì)于第二個(gè)模型,用去掉異常數(shù)據(jù)(33號(hào))后估計(jì)出的系數(shù)得到的結(jié)果是滿意的。模型的應(yīng)用之一,可以用來“制訂”6種管理—教育組合人員的“基礎(chǔ)”薪金(即資歷為零的薪金),這是平均意義上的。利用第二個(gè)模型和去掉異常數(shù)據(jù)后得到的回歸系數(shù),可以得到如下結(jié)果:第67頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202367組合管理教育系數(shù)“基礎(chǔ)”薪金10194632111344830210844412198825031120061318241第68頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202368可以看出,大學(xué)程度的管理人員薪金比研究生程度管理人員

薪金高,而大學(xué)程度的非管理人員薪金比研究生程度非管理

人員薪金略低。當(dāng)然,這是根據(jù)這家公司實(shí)際數(shù)據(jù)建立的模

型得到的結(jié)果,并不具普遍性。評(píng)注:從建立回歸模型的角度,通過這個(gè)問題的求解我們學(xué)習(xí)了:1)對(duì)于影響因變量的定性因素(管理、教育),可以引入0—1變量來處理,0—1變量的個(gè)數(shù)比定性因素的水平少1(如教育程度有3個(gè)水平,引入2個(gè)0—1變量)。2)用殘差分析法可以發(fā)現(xiàn)模型的缺陷,引入交互作用項(xiàng)常常可以得到改善。3)若發(fā)現(xiàn)異常值應(yīng)剔除,有助于結(jié)果的合理性。思考:在這里我們由簡(jiǎn)到繁,先分別引進(jìn)管理和教育因素,再引入交互項(xiàng)。試直接對(duì)6種管理-教育組合引入5個(gè)0—1變量,建立模型,看結(jié)果如何。第69頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202369五教學(xué)評(píng)估為了考評(píng)教師的教學(xué)質(zhì)量,教學(xué)研究部門設(shè)計(jì)了一個(gè)教學(xué)評(píng)估表,對(duì)學(xué)生進(jìn)行一次問卷調(diào)查,要求學(xué)生對(duì)12位教師的15門課程(其中3為教師有兩門課程)按以下7項(xiàng)內(nèi)容打分,分值為1—5分(5分最好,1分最差):?jiǎn)栴}:~課程內(nèi)容組織的合理性;~主要問題展開的邏輯性;~回答學(xué)生問題的有效性;~課下交流的有助性;~教科書的幫助性;~考試評(píng)分的公正性;~對(duì)教師的總體評(píng)價(jià)。第70頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202370收回問卷調(diào)查表后,得到了學(xué)生對(duì)12為教師、15門課程各項(xiàng)評(píng)分的平均值,見表。

教師編號(hào)課程編號(hào)12014.464.424.234.104.564.374.1122244.113.823.293.603.993.823.3833013.583.313.243.764.393.753.1743014.424.374.344.403.634.274.3953014.624.474.534.674.634.574.69第71頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202371教師編號(hào)課程編號(hào)63093.183.823.923.623.504.143.2573112.472.793.583.502.843.842.8483114.293.924.053.762.764.113.9593124.414.364.274.754.594.114.18103124.594.344.244.392.644.384.44113334.554.454.434.574.454.404.47124244.674.644.524.393.484.214.6133513.713.413.394.184.064.063.1744114.284.454.104.073.764.434.1594244.244.384.354.484.154.504.33第72頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202372不一定每項(xiàng)都對(duì)教師總體評(píng)價(jià)有顯著影響,并且各項(xiàng)內(nèi)容之間也可能存在很強(qiáng)的相關(guān)性,他們希望得到一個(gè)總體評(píng)價(jià)與各項(xiàng)具體內(nèi)容之間的模型,模型應(yīng)盡量簡(jiǎn)單和有效,并且由此能給教師一些合理的建議,以提高總體評(píng)價(jià)。準(zhǔn)備知識(shí):逐步回歸這個(gè)問題給出了6個(gè)自變量,但我們希望從中選出對(duì)因變量影響顯著的那些來建立回歸模型。變量選擇的標(biāo)準(zhǔn)應(yīng)該是將所有對(duì)因變量影響顯著的自變量都選入模型,而影響不顯著的自變量都不選入模型,從便于應(yīng)用的角度,應(yīng)使模型中的自變量個(gè)數(shù)盡量少。逐步回歸就是一種從眾多自變量中有效的選擇重要變量的方法。教學(xué)研究部門認(rèn)為,所列各項(xiàng)具體內(nèi)容第73頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202373逐步回歸的基本思路是,先確定一個(gè)包含若干自變量的初始集合,然后每次從集合外的變量中引入一個(gè)對(duì)因變量影響最大的,再對(duì)集合中的變量進(jìn)行檢驗(yàn),從變得不顯著的變量中移出一個(gè)影響最小的,依次進(jìn)行,直到不能引入和移出為止。引入和移出都以給定的顯著性水平為標(biāo)準(zhǔn)。利用MATLAB系統(tǒng)工具箱中的逐步回歸命令stepwise可以實(shí)現(xiàn)逐步回歸。Stepwise提供人機(jī)交互式畫面,可以在畫面上自由引入和移出變量,進(jìn)行統(tǒng)計(jì)分析。具體用法參見MATLAB叢書回歸模型的建立與求解:我們利用MATLAB命令得到各個(gè)變量的回歸系數(shù),置信區(qū)間,及剩余標(biāo)準(zhǔn)差(RMSE),決定系數(shù)(R-square),值,值。見表。第74頁(yè),課件共79頁(yè),創(chuàng)作于2023年2月8/25/202374參數(shù)參數(shù)估計(jì)值置信區(qū)間10.5162[0.01

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論