回歸分析的基本思想及其初步應(yīng)用上課用PPT學(xué)習(xí)教案_第1頁
回歸分析的基本思想及其初步應(yīng)用上課用PPT學(xué)習(xí)教案_第2頁
回歸分析的基本思想及其初步應(yīng)用上課用PPT學(xué)習(xí)教案_第3頁
回歸分析的基本思想及其初步應(yīng)用上課用PPT學(xué)習(xí)教案_第4頁
回歸分析的基本思想及其初步應(yīng)用上課用PPT學(xué)習(xí)教案_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、會計學(xué)1回歸分析的基本思想及其初步應(yīng)用上課回歸分析的基本思想及其初步應(yīng)用上課用用例例1 1、某大學(xué)中隨機選取某大學(xué)中隨機選取8 8名女大學(xué)生,其身高名女大學(xué)生,其身高和體重數(shù)據(jù)如下表所示和體重數(shù)據(jù)如下表所示. .編號編號1 12 23 34 45 56 67 78 8身高身高/cm/cm165165165165157157170170175175165165155155170170體重體重/kg/kg48485757505054546464616143435959(1)畫出散點圖)畫出散點圖(2)根據(jù)女大學(xué)生的身高預(yù)報體重的回歸方程,)根據(jù)女大學(xué)生的身高預(yù)報體重的回歸方程,(3)預(yù)報一名身高為

2、)預(yù)報一名身高為172cm的女大學(xué)生的體重的女大學(xué)生的體重.第1頁/共29頁解:解:1、選取身高為自變量、選取身高為自變量x,體重為因變量,體重為因變量y,作散點圖:,作散點圖:2、由散點圖知道身高和體重有比較好的線性相關(guān)關(guān)、由散點圖知道身高和體重有比較好的線性相關(guān)關(guān)系,因此可以用線性回歸方程刻畫它們之間的關(guān)系。系,因此可以用線性回歸方程刻畫它們之間的關(guān)系。第2頁/共29頁根據(jù)最小二乘法估計根據(jù)最小二乘法估計 和和 就是未知參數(shù)就是未知參數(shù)a和和b的最好估計,的最好估計,ab于是有所以回歸方程是所以回歸方程是0.84985.712yx所以,對于身高為所以,對于身高為172cm的女大學(xué)生,由回歸

3、方程可以預(yù)報其體重為的女大學(xué)生,由回歸方程可以預(yù)報其體重為 0.849 17285.71260.316()ykg (x,y) (x,y)稱稱為為樣樣本本點點的的中中心心身高為身高為172cm的女大學(xué)生的體重一定是的女大學(xué)生的體重一定是60.316kg嗎?嗎?如果不是,你能解析一下原因嗎?如果不是,你能解析一下原因嗎? 樣本點呈條狀分布,身高和體重有較好的線性相關(guān)關(guān)樣本點呈條狀分布,身高和體重有較好的線性相關(guān)關(guān)系,因此可以用回歸方程來近似的刻畫它們之間的關(guān)系系,因此可以用回歸方程來近似的刻畫它們之間的關(guān)系. .nnnniiiiiiiii=1i=1i=1i=1nnnn2 22222iiiii=1i

4、=1i=1i=1(x -x)(y -y)x y -nxy(x -x)(y -y)x y -nxyb = 0.849,b = 0.849,(x -x)x-nx(x -x)x-nxa = y-bx = -85.712a = y-bx = -85.712第3頁/共29頁解:散點圖:解:散點圖:3、從散點圖還看到,樣本點散布在某一條直線的附、從散點圖還看到,樣本點散布在某一條直線的附近,而不是在一條直線上,所以不能用一次函數(shù)近,而不是在一條直線上,所以不能用一次函數(shù)y=bx+a簡單描述它們關(guān)系。簡單描述它們關(guān)系。 我們可以用下面的我們可以用下面的線性回歸模型線性回歸模型來表示:來表示:y=bx+a+e

5、y=bx+a+e,其中,其中a a和和b b為模型的未知參數(shù),為模型的未知參數(shù),e e稱為隨機誤差稱為隨機誤差。思考思考P3產(chǎn)生隨機誤差項產(chǎn)生隨機誤差項e的原因是什么?的原因是什么?第4頁/共29頁思考:思考:產(chǎn)生隨機誤差項產(chǎn)生隨機誤差項e的原因是什么?的原因是什么?隨機誤差隨機誤差e e的來源的來源( (可以推廣到一般):可以推廣到一般):1、其它因素的影響:影響體重、其它因素的影響:影響體重 y 的因素不只是身的因素不只是身高高 x,可能還包括遺傳基因、飲食習(xí)慣、生長環(huán),可能還包括遺傳基因、飲食習(xí)慣、生長環(huán)境等因素;境等因素;2、身高、身高 x的觀測誤差。的觀測誤差。第5頁/共29頁 線性

6、回歸模型線性回歸模型y=bx+a+ey=bx+a+e增加了隨機誤差項增加了隨機誤差項e e,因,因變量變量y y的值由自變量的值由自變量x x和隨機誤差項和隨機誤差項e e共同確定,即共同確定,即自自變量變量x x只能解析部分只能解析部分y y的變化的變化。 在統(tǒng)計中,我們也把自變量在統(tǒng)計中,我們也把自變量x x稱為稱為解析變量解析變量,因,因變量變量y y為為預(yù)報變量預(yù)報變量。第6頁/共29頁殘差殘差數(shù)據(jù)點和它在回歸直線上相應(yīng)位置的差異數(shù)據(jù)點和它在回歸直線上相應(yīng)位置的差異 稱為相應(yīng)于點(稱為相應(yīng)于點(x xi i,y yi i ) 的的殘差殘差。iiieyy=例:編號為例:編號為6 6的女大

7、學(xué)生,計算隨機誤差的效應(yīng)(殘差)的女大學(xué)生,計算隨機誤差的效應(yīng)(殘差)61(0.849 16585.712)6.627殘差平方和殘差平方和 把每一個殘差所得的值平方后加起來,用數(shù)學(xué)符號表把每一個殘差所得的值平方后加起來,用數(shù)學(xué)符號表示為:示為:21()niiiyy稱為稱為殘差平方和殘差平方和在例在例1 1中,殘差平方和約為中,殘差平方和約為128.361128.361。第7頁/共29頁表表1-4列出了女大學(xué)生身高和體重的原始數(shù)據(jù)以列出了女大學(xué)生身高和體重的原始數(shù)據(jù)以及相應(yīng)的殘差數(shù)據(jù)。及相應(yīng)的殘差數(shù)據(jù)。殘差分析與殘差圖的定義:殘差分析與殘差圖的定義: 我們可以通過殘差我們可以通過殘差 來判斷模型

8、擬合的效果,判斷原始來判斷模型擬合的效果,判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù),數(shù)據(jù)中是否存在可疑數(shù)據(jù),這方面的分析工作稱為殘差分析這方面的分析工作稱為殘差分析。12,ne ee 編號編號12345678身高身高165165157170175165155170體重體重/kg4857505464614359殘差殘差-6.3732.6272.419-4.6181.1376.627-2.8830.382我們可以利用圖形來分析殘差特性,作圖時縱坐我們可以利用圖形來分析殘差特性,作圖時縱坐標(biāo)為殘差,橫坐標(biāo)可以選為樣本編號,或身高數(shù)標(biāo)為殘差,橫坐標(biāo)可以選為樣本編號,或身高數(shù)據(jù),或體重估計值等,這樣作出的圖形稱為

9、據(jù),或體重估計值等,這樣作出的圖形稱為殘差殘差圖圖。第8頁/共29頁殘差圖的制作及作用。殘差圖的制作及作用。坐標(biāo)縱軸為殘差變量,橫軸可以有不同的選擇;坐標(biāo)縱軸為殘差變量,橫軸可以有不同的選擇;若模型選擇的正確,殘差圖中的點應(yīng)該分布在若模型選擇的正確,殘差圖中的點應(yīng)該分布在以橫軸為心的帶形區(qū)域以橫軸為心的帶形區(qū)域;對于遠(yuǎn)離橫軸的點,要特別注意對于遠(yuǎn)離橫軸的點,要特別注意。身高與體重殘差圖異常點 錯誤數(shù)據(jù) 模型問題 幾點說明:幾點說明: 第一個樣本點和第第一個樣本點和第6個樣本點的殘差比較大,需要確認(rèn)在采集過程中是否有人為的錯誤。如果數(shù)據(jù)采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數(shù)據(jù);

10、如果數(shù)據(jù)采集沒有錯誤,則需要尋找其他的原因。個樣本點的殘差比較大,需要確認(rèn)在采集過程中是否有人為的錯誤。如果數(shù)據(jù)采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數(shù)據(jù);如果數(shù)據(jù)采集沒有錯誤,則需要尋找其他的原因。 另外,殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型計較合適,這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預(yù)報精度越高。另外,殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型計較合適,這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預(yù)報精度越高。第9頁/共29頁我們可以用我們可以用相關(guān)指數(shù)相關(guān)指數(shù)R2來刻畫回歸的效果,其計算公式是來刻畫回歸的效果

11、,其計算公式是n n2 2i ii i2 2i=1i=1n n2 2i ii=1i=1(y -y )(y -y )R =1-R =1-(y -y)(y -y)顯然,顯然,R2的值越大,說明殘差平方和越小,也就是說模型擬合的值越大,說明殘差平方和越小,也就是說模型擬合效果越好。效果越好。R2越接近越接近1,表示回歸的效果越好(因為,表示回歸的效果越好(因為R2越接近越接近1,表示解析,表示解析變量和預(yù)報變量的線性相關(guān)性越強)。變量和預(yù)報變量的線性相關(guān)性越強)。 如果某組數(shù)據(jù)可能采取幾種不同回歸方程進行回歸分析,如果某組數(shù)據(jù)可能采取幾種不同回歸方程進行回歸分析,則可以通過比較則可以通過比較R R2

12、 2的值來做出選擇,即的值來做出選擇,即選取選取R R2 2較大的模型作為較大的模型作為這組數(shù)據(jù)的模型這組數(shù)據(jù)的模型。總的來說:總的來說:相關(guān)指數(shù)相關(guān)指數(shù)R2是度量模型擬合效果的一種指標(biāo)。是度量模型擬合效果的一種指標(biāo)。在線性模型中,它在線性模型中,它代表自變量刻畫預(yù)報變量的能力代表自變量刻畫預(yù)報變量的能力。第10頁/共29頁用身高預(yù)報體重時,需要注意下列問題:用身高預(yù)報體重時,需要注意下列問題:1、回歸方程只適用于我們所研究的樣本的總體;、回歸方程只適用于我們所研究的樣本的總體;2、我們所建立的回歸方程一般都有時間性;、我們所建立的回歸方程一般都有時間性;3、樣本采集的范圍會影響回歸方程的適用

13、范圍;、樣本采集的范圍會影響回歸方程的適用范圍;4、不能期望回歸方程得到的預(yù)報值就是預(yù)報變量的、不能期望回歸方程得到的預(yù)報值就是預(yù)報變量的精確值。事實上,它是預(yù)報變量的可能取值的平均值。精確值。事實上,它是預(yù)報變量的可能取值的平均值。第11頁/共29頁練習(xí) 假設(shè)關(guān)于某設(shè)備的使用年限x和所支出的維修費用 y(萬元),有如下的統(tǒng)計資料。使用年限使用年限x 23456維修費用維修費用y 2.23.85.56.57.0若由資料知,y對x呈線性相關(guān)關(guān)系。試求:(1)線性回歸方程 的回歸系數(shù) ;(2)求殘差平方和;(3)求相關(guān)系數(shù) ;(4)估計使用年限為10年時,維修費用是多少?ybxa ab、2R第12

14、頁/共29頁解: (1)由已知數(shù)據(jù)制成表格。12345合計合計23456202.23.85.56.57.0254.411.422.032.542.0112.34916253690ixiyiix y2ix4;5;xy5521190;112.3.iiiiixx yi1.23,0.08.ba1.230.08.yx所以有第13頁/共29頁案例2 一只紅鈴蟲的產(chǎn)卵數(shù)y和溫度x有關(guān)。現(xiàn)收集了7組觀測數(shù)據(jù)列于表中:(1)試建立產(chǎn)卵數(shù)y與溫度x之間的回歸方程;并預(yù)測溫度為28oC時產(chǎn)卵數(shù)目。(2)你所建立的模型中溫度在多大程度上解釋了產(chǎn)卵數(shù)的變化? 溫度xoC21232527293235產(chǎn)卵數(shù)y/個71121

15、2466115325非線性回歸問題第14頁/共29頁假設(shè)線性回歸方程為 :=bx+a選 模 型由計算器得:線性回歸方程為y=19.87x-463.73 相關(guān)指數(shù)R2=r20.8642=0.7464估計參數(shù) 解:選取氣溫為解釋變量x,產(chǎn)卵數(shù) 為預(yù)報變量y。選變量所以,二次函數(shù)模型中溫度解釋了74.64%的產(chǎn)卵數(shù)變化。探索新知畫散點圖050100150200250300350036912151821242730333639方案1分析和預(yù)測當(dāng)x=28時,y =19.8728-463.73 93一元線性模型第15頁/共29頁9366 ?模型好不好?第16頁/共29頁 y=bx2+a 變換 y=bt+a

16、非線性關(guān)系 線性關(guān)系方案2選用y=bx2+a ,還是y=bx2+cx+a ?-200-1000100200300400-40-30-20-10010203040 產(chǎn)卵數(shù)氣溫如何求a、b ? t=x2二次函數(shù)模型第17頁/共29頁方案2解答平方變換:令t=x2,產(chǎn)卵數(shù)y和溫度x之間二次函數(shù)模型y=bx2+a就轉(zhuǎn)化為產(chǎn)卵數(shù)y和溫度的平方t之間線性回歸模型y=bt+a溫度21232527293235溫度的平方t44152962572984110241225產(chǎn)卵數(shù)y/個711212466115325作散點圖,并由計算器得:y和t之間的線性回歸方程為y=0.367t-202.543,相關(guān)指數(shù)R2=0.8

17、02將t=x2代入線性回歸方程得: y=0.367x2 -202.543當(dāng)x=28時,y=0.367282-202.5485,且R2=0.802,所以,二次函數(shù)模型中溫度解釋了80.2%的產(chǎn)卵數(shù)變化。產(chǎn)卵數(shù)y/個0501001502002503003500150300450600750900 1050 1200 1350t第18頁/共29頁 變換 y=bx+a非線性關(guān)系 線性關(guān)系21c xyce-50050100150200250300350400450-10-50510152025303540產(chǎn)卵數(shù)氣溫指數(shù)函數(shù)模型方案3第19頁/共29頁方案3解答溫度xoC21232527293235z=l

18、ny1.9462.3983.0453.1784.1904.7455.784產(chǎn)卵數(shù)y/個71121246611532500.40.81.21.622.42.8036912 15 18 21 24 27 30 33 36 39xz當(dāng)x=28oC 時,y 44 ,指數(shù)回歸模型中溫度解釋了98.5%的產(chǎn)卵數(shù)的變化由計算器得:z關(guān)于x的線性回歸方程為0.272x-3.849 .ye22111221lnln()lnlnlnlnlnc xc xycececc xec xc 對數(shù)變換:在 中兩邊取常用對數(shù)得21c xyc e令 ,則 就轉(zhuǎn)換為z=bx+a.12ln ,ln,zy ac bc21c xyc e

19、z=0.272x-3.849 ,相關(guān)指數(shù)R2=0.98第20頁/共29頁最好的模型是哪個?-200-1000100200300400-40-30-20-10010203040 產(chǎn)卵數(shù)氣溫-50050100150200250300350400450-10-50510152025303540產(chǎn)卵數(shù)氣溫線性模型二次函數(shù)模型指數(shù)函數(shù)模型第21頁/共29頁比一比函數(shù)模型函數(shù)模型相關(guān)指數(shù)相關(guān)指數(shù)R2線性回歸模型線性回歸模型0.7464二次函數(shù)模型二次函數(shù)模型0.80指數(shù)函數(shù)模型指數(shù)函數(shù)模型0.98最好的模型是哪個?第22頁/共29頁回歸分析(二)(1)0.2723.849(2)2y,y0.367202.5

20、43.xex則回歸方程的殘差計算公式分別為:由計算可得:(1)(1)0.2723.849(2)(2)2,1,2,.,7;0.367202.543,1,2,.,7.xiiiiiiiieyyyeieyyyxix21232527293235y7112124661153250.557-0.1011.875-8.9509.230-13.38134.67547.69619.400-5.832-41.000-40.104-58.26577.968(1) e(2) e(1)(2)1550.538,15448.431.QQ因此模型(1)的擬合效果遠(yuǎn)遠(yuǎn)優(yōu)于模型(2)。第23頁/共29頁總 結(jié)1122( ,),(,

21、),.,(,),nnx yxyxy 對于給定的樣本點兩個含有未知參數(shù)的模型:(1)(2)( , )( , ),yf x ayg x b和其中a和b都是未知參數(shù)。擬合效果比較的步驟為:(1)分別建立對應(yīng)于兩個模型的回歸方程與 其中 和 分別是參數(shù)a和b的估計值;(2)分別計算兩個回歸方程的殘差平方和與(3)若 則 的效果比 的好;反之, 的效果不如 的好。(1)( , )yf x a(2)( , ),yg x b ab(1)(1)21()niiiQyy(2)(2)21() ;niiiQyy(1)(2),QQ(1)( , )yf x a(2)( , )yg x b(2)( , )yg x b(1)

22、( , )yf x a第24頁/共29頁練習(xí):為了研究某種細(xì)菌隨時間x變化,繁殖的個數(shù),收集數(shù)據(jù)如下:天數(shù)x/天 1 2 34 56繁殖個數(shù)y/個 6 12 25 49 95190 (1)用天數(shù)作解釋變量,繁殖個數(shù)作預(yù)報變量,作出這些 數(shù)據(jù)的散點圖; (2) 描述解釋變量與預(yù)報變量 之間的關(guān)系; (3) 計算殘差、相關(guān)指數(shù)R2.天數(shù)繁殖個數(shù)解:(1)散點圖如右所示第25頁/共29頁 (2)由散點圖看出樣本點分布在一條指數(shù)函數(shù)y= 的周圍,于是令Z=lny,則2C x1eCx123456Z1.792.483.223.894.555.25由計數(shù)器算得 則有Z=0.69X 1.1120.69x 1.112 y=e y6.0612.0924.0948.0495.77190.9y612254995190n22ii=11e()3.1643,niiiyyn222i1i=1()yny25553.3.niiyy(3)即解釋變量天數(shù)對預(yù)報變量繁殖細(xì)菌得個數(shù)解釋了99.99%.23.164310.9999.25553.3R 第26頁/共29頁作業(yè):作業(yè): 在在7塊并排的、形狀大小相同的實驗田上進行施塊并排的、形狀大小相同的實驗田上進行施肥量對水稻產(chǎn)量影響的試驗,得到如下一組表所示肥量對水稻產(chǎn)量影響的試驗,得到如下一組表所示的數(shù)據(jù)(單位:的數(shù)據(jù)(單位:kg)施化肥

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論