第八講非線性回歸_第1頁
第八講非線性回歸_第2頁
第八講非線性回歸_第3頁
第八講非線性回歸_第4頁
第八講非線性回歸_第5頁
已閱讀5頁,還剩78頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、非線性回歸函數(shù)非線性回歸函數(shù)線性回歸的最大特點是:總體回歸函數(shù)線性回歸的最大特點是:總體回歸函數(shù)的斜率為常數(shù)。故的斜率為常數(shù)。故X變化一個單位對變化一個單位對Y的的效應不依賴于效應不依賴于X本身的取值。本身的取值。我們今天研究的非線性回歸中,總體回我們今天研究的非線性回歸中,總體回歸函數(shù)的斜率不再是常數(shù),歸函數(shù)的斜率不再是常數(shù),X的變化對的變化對Y的效應依賴于一個或多個自變量的取值。的效應依賴于一個或多個自變量的取值。非線性回歸函數(shù)的一般建模方法非線性回歸函數(shù)的一般建模方法我們考慮測試成績和地區(qū)收入的關(guān)系我們考慮測試成績和地區(qū)收入的關(guān)系二次回歸模型二次回歸模型在在stata中需要用中需要用ge

2、n命令產(chǎn)生一個新的變命令產(chǎn)生一個新的變量表示:量表示:Income2。gen income2=income2reg TestScore income income2,r通過通過t檢驗我們發(fā)現(xiàn),檢驗我們發(fā)現(xiàn), Income2顯著,所以,可顯著,所以,可以得出結(jié)論,二次模型優(yōu)于線性模型。以得出結(jié)論,二次模型優(yōu)于線性模型。如何決定是用線性還是非線性?如何決定是用線性還是非線性?最簡單的辦法是利用最簡單的辦法是利用t檢驗考察二次方的顯檢驗考察二次方的顯著性:著性:對于方程對于方程我們需要檢驗我們需要檢驗income2前的系數(shù)前的系數(shù)2是否顯是否顯著。著。非線性設(shè)定形式中非線性設(shè)定形式中X變化對變化對Y

3、的效應的效應想知道在固定其他自變量想知道在固定其他自變量X2、X3Xk的情形下,當自變量的情形下,當自變量X1變化變化X時,預期時,預期因變量因變量Y如何變化。當總體回歸函數(shù)為線如何變化。當總體回歸函數(shù)為線性時,很容易計算這個效應,性時,很容易計算這個效應, Y=11X1但當回歸函數(shù)為非線性時,由于但當回歸函數(shù)為非線性時,由于Y的預期的預期變化依賴于自變量的取值,因此其計算變化依賴于自變量的取值,因此其計算較復雜。較復雜。我們假定非線性總體回歸的一般公式為我們假定非線性總體回歸的一般公式為書中的兩個例子書中的兩個例子1。地區(qū)收入從。地區(qū)收入從10-11(單位是千美(單位是千美元)元)2。地區(qū)收

4、入從。地區(qū)收入從40-4122(607.33.85 11 0.0423 11 )(607.33.85 100.0423 10 )2.96Y22(607.33.85 41 0.0423 41 )(607.33.85 400.0423 40 )0.42Y可以看出,可以看出,income對對testscore的彈性的彈性逐漸變小。逐漸變小。效應估計的標準誤差效應估計的標準誤差在上例中在上例中利用多元回歸建立非線性模型的利用多元回歸建立非線性模型的一般方法一般方法 (1)確定一種可能的非線性關(guān)系。最佳做法確定一種可能的非線性關(guān)系。最佳做法是利用經(jīng)濟理論和你對實際應用的了解提出是利用經(jīng)濟理論和你對實際應

5、用的了解提出一種可能的非線性關(guān)系。在看數(shù)據(jù)之前,問一種可能的非線性關(guān)系。在看數(shù)據(jù)之前,問自己聯(lián)系自己聯(lián)系Y和和X的回歸函數(shù)斜率是否依賴于的回歸函數(shù)斜率是否依賴于X或其他自變量的取值?;蚱渌宰兞康娜≈?。 (2)確定一個非線性函數(shù)并用確定一個非線性函數(shù)并用OLS估計其參估計其參數(shù)。后續(xù)章節(jié)將會學習多種非線性函數(shù)形式。數(shù)。后續(xù)章節(jié)將會學習多種非線性函數(shù)形式。 (3)確定非線性模型是否改進了線性模型。大確定非線性模型是否改進了線性模型。大多數(shù)情況下可以利用多數(shù)情況下可以利用t統(tǒng)計量和統(tǒng)計量和F統(tǒng)計量來檢驗統(tǒng)計量來檢驗總體回歸函數(shù)是線性的原假設(shè)和非線性的備擇總體回歸函數(shù)是線性的原假設(shè)和非線性的備擇假設(shè)

6、。假設(shè)。 (4)畫出非線性回歸函數(shù)估計圖。(線性擬合畫出非線性回歸函數(shù)估計圖。(線性擬合圖)。圖)。 (5)利用前面講的公式估計利用前面講的公式估計X變化對變化對Y的效應。的效應。非線性函數(shù)的形式非線性函數(shù)的形式一。多項式函數(shù)一。多項式函數(shù)常用的多項式函數(shù):常用的多項式函數(shù):r=2 二次回歸模型二次回歸模型r=3 立方回歸模型立方回歸模型2012iiiYXXu230123iiiiYXXXu是否需要多項式函數(shù)是否需要多項式函數(shù)然后利用然后利用F統(tǒng)計量進行檢驗統(tǒng)計量進行檢驗1。最直觀的辦法是畫散點圖。最直觀的辦法是畫散點圖。2。很多涉及經(jīng)濟數(shù)據(jù)的應用中,非線性。很多涉及經(jīng)濟數(shù)據(jù)的應用中,非線性函數(shù)

7、都是光滑的,也就是不存在急劇的函數(shù)都是光滑的,也就是不存在急劇的跳躍或跳躍或“尖峰尖峰”。則選擇較小的多項式。則選擇較小的多項式最高階數(shù),如最高階數(shù),如2, 3或或4較合適。較合適。02004006008001000 x102000004000006000008000001000000y202004006008001000 x102.00e+084.00e+086.00e+088.00e+081.00e+09y302004006008001000 x102.00e+114.00e+116.00e+118.00e+111.00e+12y4二次方、三次方二次方、三次方和四次方曲線和四次方曲線230

8、123riiiriiYXXXXu選取好最高階數(shù)后,按照下列步驟進行:選取好最高階數(shù)后,按照下列步驟進行:(1)選定最大的選定最大的r值并估計值并估計r階多項式回歸。階多項式回歸。(2)利用利用t統(tǒng)計量檢驗統(tǒng)計量檢驗Xr的系數(shù)的系數(shù)r為零的假設(shè)。為零的假設(shè)。如果拒絕原假設(shè),則如果拒絕原假設(shè),則Xr應包含在回歸中,應包含在回歸中,故使用故使用r階多項式。階多項式。 (3)如果在步驟如果在步驟(2)中不能拒絕中不能拒絕rr =0,則從,則從回歸中剔除回歸中剔除Xr并估計并估計r-1階多項式回歸。接著階多項式回歸。接著檢驗檢驗Xr-1的系數(shù)是否為零。如果拒絕則使用的系數(shù)是否為零。如果拒絕則使用r-1階

9、多項式。階多項式。 (4)如果在步驟如果在步驟(3)中不能拒絕中不能拒絕r-1r-1 =0 ,重復這一步直到回歸中最高次方的系數(shù)統(tǒng)計顯重復這一步直到回歸中最高次方的系數(shù)統(tǒng)計顯著為止。著為止。例一例一例二例二在工資方程中,建立在工資方程中,建立ln(wage)與與exper的多項式關(guān)系。的多項式關(guān)系。對數(shù)形式對數(shù)形式對數(shù)形式經(jīng)常用于表示變量的百分率變對數(shù)形式經(jīng)常用于表示變量的百分率變化。例如:化。例如:在消費者需求的經(jīng)濟分析中,通常假定在消費者需求的經(jīng)濟分析中,通常假定價格上漲價格上漲1%導致需求量下降一定的導致需求量下降一定的 百百分率。稱價格上漲分率。稱價格上漲1%引起的需求下降引起的需求下

10、降百分率為價格彈性百分率為價格彈性(elasticity)。對數(shù)形式是經(jīng)濟學中最常用的形式,廣泛地應用在對數(shù)形式是經(jīng)濟學中最常用的形式,廣泛地應用在各個領(lǐng)域中:各個領(lǐng)域中:例如:在宏觀經(jīng)濟學中,我們?nèi)绻胙芯坷纾涸诤暧^經(jīng)濟學中,我們?nèi)绻胙芯客顿Y投資的的增增長率長率,通常用,通常用 表示,其中表示,其中一般可以表達為:一般可以表達為:( )( )I tI t( )( ) /I tdI tdt( )1ln( )( )( )( )I tdI tI tI tI tdt拉格朗日中值定理拉格朗日中值定理三種對數(shù)回歸模型三種對數(shù)回歸模型關(guān)鍵問題是理解關(guān)鍵問題是理解1的含義的含義因為該模型中因為該模型中Y

11、不是對數(shù)形式而不是對數(shù)形式而X是是,所以有時稱它為所以有時稱它為線性對數(shù)模型線性對數(shù)模型。在線性對數(shù)模型中,在線性對數(shù)模型中, 1 表示表示X變變化化1%引起引起Y的變化為的變化為0.01 1 。推導:我們考察自變量推導:我們考察自變量X變化變化X的過程。的過程。此時:此時:010111()()ln() ln()ln()ln()()f XXf XXXXXXXXX即即X變化變化1%時,時, 為為0.01。XX例子例子收入每增加收入每增加1%時,成績會增加時,成績會增加0.01*36.42=0.3642分。分。結(jié)論:線形對數(shù)形式一般用來表示結(jié)論:線形對數(shù)形式一般用來表示當自變量變化當自變量變化1%

12、時,因變量變化的時,因變量變化的具體數(shù)值。具體數(shù)值。書中的兩個例子書中的兩個例子1。地區(qū)收入從。地區(qū)收入從10-11(單位是千美(單位是千美元)元)2。地區(qū)收入從。地區(qū)收入從40-41例一:例一:Y=557.8+36.42ln(11) - 557.8+36.42ln(10) =36.42*ln(11)-ln(10)=3.47Y=557.8+36.42ln(41) - 557.8+36.42ln(40) =36.42*ln(14)-ln(40)=0.90線性對數(shù)回歸函數(shù)線性對數(shù)回歸函數(shù)如何理解如何理解1的含義的含義因為該模型中因為該模型中Y是對數(shù)形式而是對數(shù)形式而X不是不是,所以有時稱它為所以有

13、時稱它為對數(shù)線性模型對數(shù)線性模型。在線性對數(shù)模型中,在線性對數(shù)模型中, 1 表示表示X變化變化1個個單位引起單位引起Y的變化為的變化為(100*1)%。推導:我們考察自變量推導:我們考察自變量X變化變化X的過程。的過程。此時:此時:01011()()ln()ln( )()() ()f XXf XYYYYYXXXX1YXY 我們考慮一個大學畢業(yè)生年齡和收入關(guān)系的例子。我們考慮一個大學畢業(yè)生年齡和收入關(guān)系的例子。很多雇傭合同都指出職工多工作一年,則他或她很多雇傭合同都指出職工多工作一年,則他或她的收入就增加一定的百分率。的收入就增加一定的百分率。由該回歸知年齡每增加由該回歸知年齡每增加1歲,預計收

14、入增加歲,預計收入增加(100*0.0086)*=0.86%再考慮工資方程中,教育年限每增加再考慮工資方程中,教育年限每增加1年工資年工資增加的百分率。增加的百分率。注意:因為自變量不包含任何對數(shù)形式,注意:因為自變量不包含任何對數(shù)形式,所以所以對數(shù)線性模型對數(shù)線性模型的擬合圖是的擬合圖是一條直線。一條直線。6.46.456.56.556.60204060incomelntestscrFitted values如何理解如何理解1的含義的含義因為該模型中因為該模型中Y是對數(shù)形式是對數(shù)形式X也是也是,所,所以有時稱它為以有時稱它為雙對數(shù)模型雙對數(shù)模型。在線性對數(shù)模型中,在線性對數(shù)模型中, 1 表示

15、表示X變化變化1%個單位引起個單位引起Y的變化為的變化為1%。雙對數(shù)函數(shù)最典型的例子是生產(chǎn)函數(shù)雙對數(shù)函數(shù)最典型的例子是生產(chǎn)函數(shù)production。012012=lnA = = YAK LlnYlnAlnKlnLlnYlnKlnL原則原則1:在解釋變量均顯著的前提下,當被:在解釋變量均顯著的前提下,當被解釋變量解釋變量Y的函數(shù)形式相同時,可以通過的函數(shù)形式相同時,可以通過adj R2比較模型的優(yōu)劣。比較模型的優(yōu)劣。但如果被解釋變量但如果被解釋變量Y的函數(shù)形式不同,例如的函數(shù)形式不同,例如一個是一個是ln(Y),而另一個是,而另一個是Y,則通過,則通過adj R2比較模型的優(yōu)劣沒有意義。比較模型

16、的優(yōu)劣沒有意義。 原則二:根據(jù)經(jīng)濟理論和對問題的實踐認知原則二:根據(jù)經(jīng)濟理論和對問題的實踐認知確定用確定用Y的對數(shù)形式是否有意義。的對數(shù)形式是否有意義。經(jīng)常使用對數(shù)形式表示增長率的經(jīng)濟指標:經(jīng)常使用對數(shù)形式表示增長率的經(jīng)濟指標:GDP 投資投資 消費消費 工資工資 成績成績 等等。等等。測試成績和地區(qū)收入的多項式和測試成績和地區(qū)收入的多項式和對數(shù)模型對數(shù)模型挑選一種最好的函數(shù)形式:挑選一種最好的函數(shù)形式:到底選擇多項式還是對數(shù)?到底選擇多項式還是對數(shù)?在多項式和對數(shù)中哪種形式最好?在多項式和對數(shù)中哪種形式最好?多項式和對數(shù)的組合效果如何?多項式和對數(shù)的組合效果如何?1。多項式形式。多項式形式結(jié)

17、論,立方形式改進了方程,并且結(jié)論,立方形式改進了方程,并且income3前的系數(shù)顯著,因此采用立方形式。前的系數(shù)顯著,因此采用立方形式。我們嘗試使用對數(shù)的高次方形式我們嘗試使用對數(shù)的高次方形式立方和線性對數(shù)形式的比較立方和線性對數(shù)形式的比較因為是線性對數(shù),所以可以比較因為是線性對數(shù),所以可以比較adj R2。由于本題線性對數(shù)較高,所以采用線性由于本題線性對數(shù)較高,所以采用線性對數(shù)形式。對數(shù)形式。自變量的交互作用(交乘項)自變量的交互作用(交乘項)解釋變量之間往往不是相互獨立的,當解釋變量之間往往不是相互獨立的,當兩個解釋變量之間相互影響,對被解釋兩個解釋變量之間相互影響,對被解釋變量具有交互作

18、用時,往往引入交乘項。變量具有交互作用時,往往引入交乘項。即即某個自變量變化對某個自變量變化對Y的效應依賴于另一的效應依賴于另一個自變量取值。個自變量取值。我們將分三種情況考慮:我們將分三種情況考慮:1。兩個自變量都是。兩個自變量都是虛擬變量虛擬變量;2。一個自變量是。一個自變量是虛擬變量虛擬變量而另一個是而另一個是連連續(xù)變量續(xù)變量;3。兩個變量都是。兩個變量都是連續(xù)變量連續(xù)變量。兩個虛擬變量的交互作用兩個虛擬變量的交互作用其中其中Y是工資的對數(shù),是工資的對數(shù),D1表示性別(表示性別(1為女性),為女性),D2表示是否擁有大學學位(表示是否擁有大學學位(1為有)。為有)。按照上式,固定性別時,

19、無論男性女性,擁有按照上式,固定性別時,無論男性女性,擁有大學學位的效應是一樣的。但現(xiàn)實情況是,在大學學位的效應是一樣的。但現(xiàn)實情況是,在勞動市場中文憑的價值對男性和女性而言是不勞動市場中文憑的價值對男性和女性而言是不同的。同的。 顯然,上述形式?jīng)]有考慮到性別和獲得大學顯然,上述形式?jīng)]有考慮到性別和獲得大學學位的交互作用,因此我們引入一個交乘項學位的交互作用,因此我們引入一個交乘項D1*D2進行修正。進行修正。分析:分析:1。給定給定D1的取值的取值d1,D2=0 和和D2=1的數(shù)學期望為:的數(shù)學期望為:E(Y|D1=d1,D2=0)=0+1d1E(Y|D1=d1,D2=1)=0+1d1+ 2

20、+3d1第二項減去第一項,得第二項減去第一項,得2+3d1這是大學畢業(yè)生和非大學畢業(yè)生對這是大學畢業(yè)生和非大學畢業(yè)生對Y的影響效的影響效應之差。但我們發(fā)現(xiàn),這種效應依賴于應之差。但我們發(fā)現(xiàn),這種效應依賴于d1。當當d1=0(男性男性) 對對Y的效應為的效應為2當當d1=1(女性女性) 對對Y的效應為的效應為2+33即是女性和男性獲得大學學位的效即是女性和男性獲得大學學位的效應之差。應之差??梢?,是否大學畢業(yè)可見,是否大學畢業(yè)(D2)對工資對數(shù)的對工資對數(shù)的影響效果不僅取決于它本身,而且取決影響效果不僅取決于它本身,而且取決于性別于性別(D1)。在固定英語學習者百分率在固定英語學習者百分率HiE

21、L時的情況下,從低學生時的情況下,從低學生/教師比學區(qū)變到高學生教師比學區(qū)變到高學生/教師比學區(qū)的效應預測值為教師比學區(qū)的效應預測值為2+3*d1,在本題中為,在本題中為-1.9-3.5HiEL。在本題中我們還可以求以下數(shù)據(jù):在本題中我們還可以求以下數(shù)據(jù):1。低學生。低學生/教師比和低英語學習者百分率學教師比和低英語學習者百分率學區(qū)的樣本平均側(cè)試成績。區(qū)的樣本平均側(cè)試成績。2。低學生。低學生/教師比和高英語學習者百分率學教師比和高英語學習者百分率學區(qū)的樣本平均側(cè)試成績。區(qū)的樣本平均側(cè)試成績。3。高學生。高學生/教師比和低英語學習者百分率學教師比和低英語學習者百分率學區(qū)的樣本平均側(cè)試成績。區(qū)的樣

22、本平均側(cè)試成績。4。高學生。高學生/教師比和高英語學習者百分率學教師比和高英語學習者百分率學區(qū)的樣本平均側(cè)試成績。區(qū)的樣本平均側(cè)試成績。連續(xù)變量和二元變量的交互作用連續(xù)變量和二元變量的交互作用 其中其中Yi為工資的對數(shù),為工資的對數(shù),Xi是連續(xù)變量,表是連續(xù)變量,表示工作經(jīng)驗;示工作經(jīng)驗;Di為虛擬變量,表示是否擁為虛擬變量,表示是否擁有大學學位。有大學學位。1。僅截距不同。僅截距不同2。僅斜率不同。僅斜率不同3。截距、斜率均不同。截距、斜率均不同除了畫圖法,還可以通過除了畫圖法,還可以通過F檢驗和檢驗和t檢驗確定構(gòu)造檢驗確定構(gòu)造交乘項的必要性。交乘項的必要性。教育收益和性別差異教育收益和性別

23、差異 教育除了能讓你感受到獲取知識的愉悅外,教育除了能讓你感受到獲取知識的愉悅外,還能帶給你經(jīng)濟上的回報。學歷較高的職工還能帶給你經(jīng)濟上的回報。學歷較高的職工往往比學歷較低的同等職工賺得更多。但至往往比學歷較低的同等職工賺得更多。但至少有三個原因表明當時的分析并不完全。少有三個原因表明當時的分析并不完全。其其一一,它沒有控制其他可能與教育成就相關(guān)的,它沒有控制其他可能與教育成就相關(guān)的決定收入的因素,因此教育系數(shù)的決定收入的因素,因此教育系數(shù)的OLS估計估計量可能存在著遺漏變重偏差;量可能存在著遺漏變重偏差;其二其二,教育與,教育與收入的關(guān)系一定是線性的嗎?收入的關(guān)系一定是線性的嗎?其三其三,忽

24、略了,忽略了收入的性別差距。收入的性別差距。解決方法:解決方法:1。加入表示性別差異的變量。加入表示性別差異的變量Female2。加入性別與教育年限的交乘項。加入性別與教育年限的交乘項。3。加入遺漏變量潛在經(jīng)驗及其平方項。加入遺漏變量潛在經(jīng)驗及其平方項。4。加入地區(qū)虛擬變量。加入地區(qū)虛擬變量。結(jié)果分析(一)結(jié)果分析(一) 第一,在第一,在回歸回歸(1)中省略性別并沒有造成相當大的遺漏變中省略性別并沒有造成相當大的遺漏變量偏差,即使量偏差,即使回歸回歸(2)中性別的變量系數(shù)值較大并且是顯著中性別的變量系數(shù)值較大并且是顯著的,但是性別和受教育年數(shù)不相關(guān),也就是說男性和女性平的,但是性別和受教育年數(shù)

25、不相關(guān),也就是說男性和女性平均受教育水平差不多。均受教育水平差不多。 第二,對男性和女性而言,教育的收益在經(jīng)濟上和統(tǒng)計第二,對男性和女性而言,教育的收益在經(jīng)濟上和統(tǒng)計上都顯著不同:即上都顯著不同:即回歸回歸(3)中檢驗它們相同的中檢驗它們相同的t統(tǒng)計量為統(tǒng)計量為11. 25。 第三,第三,回歸回歸(4)控制了個人居住的地區(qū),從而解決了由地控制了個人居住的地區(qū),從而解決了由地區(qū)受教育年數(shù)的系統(tǒng)差異引起的潛在遺漏變量偏差,相對于區(qū)受教育年數(shù)的系統(tǒng)差異引起的潛在遺漏變量偏差,相對于回歸回歸(3)中的結(jié)果,控制地區(qū)之后教育項的系數(shù)佑計值變化中的結(jié)果,控制地區(qū)之后教育項的系數(shù)佑計值變化不大。不大。 第四,回歸第四,回歸(4)中控制了畢業(yè)后用年數(shù)衡量的潛在工作經(jīng)中控制了畢業(yè)后用年數(shù)衡量的潛在工作經(jīng)驗估計得到的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論