版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第
15章
工具變量估計與兩階段最小二乘法在本章中,我們進一步研究多元回歸模型中的 內(nèi)生解釋變量 (endogenousexplanatoryvariable)問題。在第3章中,我們推導出,遺漏一個重要變量時 OLS估計量的偏誤;在第 5章中,我們說明了在 遺漏變量(omittedvariable)的情況下,OLS通常是非一致性的。第 9章則證明了,對未觀測到的解釋變量給出適宜的代理變量,能消除(或至少減輕)遺漏變量偏誤。不幸的是,我們不是總能得到適宜的代理變量。在前兩章中,我們解釋了存在不隨時間變化的遺漏變量的情況下,對綜列數(shù)據(jù)如何用固定效應估計或一階差分來估計隨時間變化的自變量的影響。盡管這些方法非常有用,可我們不是總能獲得綜列數(shù)據(jù)的。即使能獲得,如果我們的興趣在于變量的影響,而該變量不隨時間變化,它對于我們也幾無用處:一階差分或固定效應估計排除了不隨時間變化的變量。此外,迄今為止我們已研究出的綜列數(shù)據(jù)法還不能解決與解釋變量相關的隨時間而變化的遺漏變量的問題。在本章中,我們對內(nèi)生性問題采用了一個不同的方法。你將看到如何用工具變量法( IV)來解決一個或多個解釋變量的內(nèi)生性問題。就應用計量經(jīng)濟學中線性方程的估計而言,兩階段最小二乘法( 2SLS或TSLS)是第二受人歡迎的,僅次于普通最小二乘。我們一開始先說明,在存在遺漏變量的情況下,如何用 IV法來獲得一致性估計量。此外, IV能用于解決含誤差變量(errors-in-variable)的問題,至少是在某些假定下。下一章將證明運用 IV法如何估計聯(lián)立方程模型。我們對工具變量估計的論述嚴格遵照我們在第 1篇中對普通最小二乘的推導,其中假定我們有一個來自基本總體的隨機樣本。這個起點很合人意,因為除了簡化符號之外,它還強調(diào)了應根據(jù)基本總體來表述對IV估計所做的重要的假定(正如用 OLS時一樣)。如我們在第 2篇中所示,OLS可以應用于時間序列數(shù)據(jù),而工具變量法也一樣可以。 第15.7節(jié)討論IV法應用于時間序列數(shù)據(jù)時出現(xiàn)的一些特殊問題。 在第15.8節(jié)中,我們將論述在混合橫截面和綜列數(shù)據(jù)上的應用。15.1動機:簡單回歸模型中的遺漏變量面對可能發(fā)生的遺漏變量偏誤(或未觀測到的異質(zhì)性) ,迄今為止我們已討論了三種選擇: (1)我們可以忽略此問題,承受有偏、非一致性估計量的后果; (2)我們可以試圖為未觀測到的變量尋找并使用一個適宜的代理變量;(3)我們可以假定遺漏變量不隨時間變化,運用第 `13與14章中的固定效應或一階差分方法。若能把估計值與關鍵參數(shù)的偏誤方向一同給出,則第一個回答是令人滿意的。例如,如果我們能說一個正參數(shù)(譬如職業(yè)培訓對往后工資的影響)的估計量有朝零偏誤 ,并且我們找到了一個統(tǒng)計上顯著的正的估計值,那么我們還是學到了一些東西:職業(yè)培訓對工資有正的影響,而我們很可能低估了該影響。不幸的是,相反的情況經(jīng)常發(fā)生,我們的估計值可能在數(shù)值上太大了,以致我們要得出任何有用的結論都非常困難。第9.2節(jié)中討論的代理變量解也能獲得令人滿意的結果,但并不是總可以找到一個好的代理。該方法試圖通過用代理變量取代不可觀測的變量,來解決遺漏變量的問題。另一種方法是將未觀測到的變量留在誤差項中,但不是用 OLS估計模型,而是運用一種承認存在遺漏變量的估計方法。這便是工具變量法所要做的。舉例來說,考慮成年勞動者的工資方程中存在未觀測到的能力的問題。一個簡單的模型為:log(wage) 0 1educ 2abil e,其中
e是誤差項。在第
9章中,我們說明了在某些假定下,
如何用諸如
IQ
的代理變量代替能力,
從而通過以下回歸可得到一致性估計量log(wage)對educ,IQ回歸然而,假定不能得到適當?shù)拇碜兞浚ɑ蛩痪邆渥阋垣@取一致性估計量所需的性質(zhì)) 。這樣一來,我們將abil放入誤差項中,留下來的就是簡單的回歸模型:log(wage)01educu,(15.1)其中u包含了abil。當然,如果用OLS估計方程(15.1),若是educ與abil相關,得到的結果將是1的有偏、非一致性估計量。最后證明是,假如我們能為educ找到一個工具變量,我們?nèi)钥梢愿鶕?jù)方程(15.1)來進行估計。為描述該方法,將簡單回歸模型寫成:y01xu,(15.2)其中我們認為x與u相關:Cov(x,u)0.(15.3)工具變量法無論x與u相關與否都行得通,但是,如果x與u不相關,我們應該使用OLS,其原因我們將在后面看到。為了獲得x與u相關時0和1的一致性估計量,我們還需要一些另外的信息。這些信息由一個滿足某些性質(zhì)的新變量給出。假定我們有一個可觀測到的變量zz與u不相關,即,,它滿足兩個假定:(1)Cov(z,u)0.(15.4)(2)z與x相關,即,Cov(z,x)0.(15.5)我們則稱z是x的工具變量(instrumentalvariable)。有時候,人們把所需條件(15.4)概括為“z在方程(15.2)中是外生的”。從遺漏變量的角度看,這意味著z應當對y無偏效應,也不應當與其它影響y的因素相關。方程(15.5)意味著z必然與內(nèi)生解釋變量x有著正的或負的關系。15.4)是z與不可觀測的誤差u的協(xié)方差,對工具變量的兩個要求之間有一個非常重要的差別。因為(我們無法對它進行驗證或哪怕是檢驗:我們必須求助于經(jīng)濟行為或內(nèi)心感受來維持這一假定。相比之下,給定一個來自總體的隨機樣本,z與x相關(在總體中)的條件則可加以檢驗。做到這一點最容易的方法是估計一個x與z之間的簡單回歸。在總體中,我們有x01zv.(15.6)從而,由于1Cov(z,x)Var(z),(15.5)中的假定當且僅當10時成立。因而我們就能夠以充分小(習慣說充分高——譯者)的顯著水平(5%或1%)拒絕虛擬假設H0:10(15.7)并接受雙側對立假設 H0: 1 0。如果真是這樣,我們能相當有把握肯定( 15.5)是成立的。對于(15.1)中的log(wage)方程,educ的工具變量z必須:(1)與能力(以及其它影響工資的不可觀測的因素)不相關,(2)與教育相關。諸如一個人的社會福利登記號的最后一位數(shù)字之類的變量,幾乎一定滿足第一個必需條件: 與能力不相關,因為它是隨機決定的。 然而,該變量與教育不相關, 因而是educ的一個低劣的工具變量。我們所謂的用于遺漏變量的代理變量因相應的原因成為低劣的IV。例如,在遺漏能力的log(wage)例子中,abil的代理變量應該盡可能地與abil高度相關。而工具變量必須與abil不相關。因此,盡管IQ是abil的一個好的代理變量候選者,它卻不是educ的好的工具變量。對其它可能的工具變量候選者,這些必需條件更加不確定。勞動經(jīng)濟學家已在工資方程中使用家庭背景變量作為教育的IV。例如,母親的教育(motheduc)與孩子的教育是正相關的,這一點通過收集勞動者數(shù)據(jù)樣本并做educ對motheduc的簡單回歸便可以看出來。因此,motheduc滿足方程(15.5)。問題是,母親的教育也可能與孩子的能力相關(通過母親的能力和可能通過孩子幼年所受的教養(yǎng)的質(zhì)量)。(15.1)中educ的另一個IV選擇是成長過程中兄弟姊妹的數(shù)目(sibs)。一般地說,較多的兄弟姊妹與較低的平均教育水平相聯(lián)系。這樣,如果兄弟姊妹的數(shù)目與能力不相關,它可以充當educ的工具變量。再舉一個例子,考慮估計逃課對期末考試成績的因果影響的問題。在一個簡單的回歸框架中,我們有score01skippedu,(15.8)其中score是期末考試成績,skipped是該學期逃課的總數(shù)目。當然,我們可能擔心skipped與u中其它因素相關:較好的學生可能逃課較少。因而score對skipped的簡單回歸可能不會給我們一個對逃課的因果影響的好的估計。什么可能是skipped的好的IV?我們所需要的是對score無直接效應,且與學生能力不相關的IV。同時,該IV必須與skipped相關。一個選擇是利用住宿區(qū)與學校之間的距離。一所大規(guī)模的大學中將有部分學生乘車去學校,這也許會增加逃課的可能性(由于惡劣的天氣、睡過頭等等)。因而,skipped可能與distance正相關;這一點可通過skipped對distance的回歸并作一個t檢驗得以驗證,正如前面所描述的。distance是否與u不相關?在簡單回歸模型(15.8)中,u中的一些因素可能與distance相關。例如,低收入家庭的學生可能不住在學校;如果收入影響到學生的行為,可能會導致distance與u相關。第15.2節(jié)說明如何在多元回歸的情況下使用IV,以便其他影響scoredistance的因素能直接地包含在模型中。那么,也許是skipped的一個好的IV。如果學生能力有一個好的代理,例如以往學期的累積GPA,IV法可能根本就不需要。現(xiàn)在我們來證明可得到的工具變量能夠用于進行方程 (15.2)中的一致性參數(shù)估計。特別地,我們將說明(15.4)與(15.5)[等價地,(15.4)與(15.7)]中的假定足以識別參數(shù)1。在這一點上,參數(shù)的識別(identification)意味著我們可以根據(jù)總體矩寫出1,總體矩可用樣本數(shù)據(jù)來估計。為了根據(jù)總體協(xié)方差寫出1,我們利用方程(15.2):z與y之間的協(xié)方差為Cov(z,y)1Cov(z,x)Cov(z,u).現(xiàn)在,在(15.4)中Cov(z,u)0與(15.5)中Cov(z,x)0的假定下,我們可以解出1為:1Cov(z,y).(15.9)Cov(z,x)[注意到如果z與x不相關,即Cov(z,x)0,該簡單代數(shù)式不成立。]方程(15.9)表明1是z、y之間的總體協(xié)方差除以、x之間的總體協(xié)方差的商,這說明了1被識別。給定一個隨機樣本,我們用對應樣z本量來估計總體的量。在分子和分母中約去樣本容量后,我們得到1的工具變量(IV)估計量(instrumentalvariables(IV)estimator):n?(ziz)(yiy)i1.(15.10)1n(ziz)(xix)i1給定x、y和z的樣本數(shù)據(jù),很容易獲得(15.10)中的IV估計量。0的IV估計量就為:?y?01x,除了其中的斜率估計量?1現(xiàn)在為IV估計量,它看起來就像OLS中的截距估計量。當zx時,我們獲得1的OLS估計量決不是偶然的。換句話說,當x是外生的時,它可用作自身的IV,IV估計量等同于OLS估計量。大數(shù)定律的一個簡單應用表明,如果滿足(15.4)和(15.5)中的假定,1的IV估計量具有一致性:plim(?1)1。如果任一個假定不成立,IV估計量都將是非一致性的(這一點后面將進一步地研究)。IV估計量的一個特點是:當事實上x與u相關——以致確實需要工具變量來估計——它實質(zhì)上絕不是無偏的。在小樣本中,這意味著 IV估計量可能有相當大的偏誤,這就是為什么希望有大樣本的一個原因。用IV估計量做統(tǒng)計推斷已知IV和OLS具有類似的結構,我們無需驚訝在大樣本容量的情況下IV估計量近似服從正態(tài)分布。為了對1進行推斷,我們需要一個可用于計算t統(tǒng)計量和置信區(qū)間的標準誤,通常的方法是增加一個同方差性的假定,這和在OLS的情況下一樣。不過現(xiàn)在,同方差性的假定是以工具變量z,而不是以內(nèi)生解釋變量x為條件來表述的。除了前面關于ux和z的假定之外,我們增加、E(u2z)2Var(u).(15.11)可以表明,在(15.4)、(15.5)和(15.11)中的假定下,?1的漸近方差為:222,(15.12)nxx,z其中x2是x的總體方差,2是u的總體方差,2x與z之間的總體相關系數(shù)的平方,它告訴我們在x,z是總體中x與z是怎樣的高度相關。如同運用OLS估計量一樣,IV估計量的漸近方差以1的速度降為0,這里n是樣本容量。n方程(15.12)引起人們興趣的原因有兩點。第一,它提供了一種獲得IV估計量的標準誤的方法。(15.12)中的所有的量均可以在給定一個隨機樣本的情況下進行一致性的估計。為估計x2,我們簡單地計算出xi的樣本方差;為估計x2,z,我們可以做xi對zi的回歸來獲得R2,即Rx2,z。最后,為估計2,我們可以運用IV殘差,???,yi01xii1,2,...,n.ui其中?0與?1是IV估計量。2的一致性估計量看起來就像從簡單OLS回歸中得出的2估計量:?21n?2,n2i1ui其中用自由度進行糾正是標準的做法(即使隨著樣本容量的增加,這樣做幾乎不起什么作用) 。?1的(漸近的)標準誤是所估計的漸近方差的平方根。這個漸近的方差由下式給出:?22,(15.13)SSTxRx,z其中,SSTx是xi的總平方和?;貞泋i的樣本方差是SSTxn,因而約去樣本容量我們得到(15.13)。所得到的標準誤可用于構造t統(tǒng)計量,以檢驗關于1的假設,或者是1的置信區(qū)間。?0也有一個標準誤,我們在此不提。任何現(xiàn)代計量經(jīng)濟學的軟件包都會計算出任一IV估計后的標準誤。在我們給出例子之前,比較IV和OLS估計量(當x與u不相關時)的漸近方差是有用處的。在高斯-馬爾科夫假定下,OLS估計量的方差為2SSTx,而IV估計量類似的計算式為2SSTxRx2,z;兩者的區(qū)別僅在于IV的方差的分母中出現(xiàn)了Rx2,z。由于R2總是小于1,這個2SLS的方差總是大于OLS的方差(當OLS有效時)。如果Rx2,z很小,IV的方差會比OLS的方差大得多。記住,Rx2,z衡量的是樣本中x與z之間的線性關系的大小。如果x與z只是輕度相關,Rx2,z會很小,而這將轉(zhuǎn)化為IV估計量的一個非常大的抽樣方差。z越是與x高度相關,Rx2,z越是接近于1,IV估計量的方差就越小。在zx的情況下,Rx2,z1,我們得到OLS的方差,這正是所預期的。前面的討論突出了當x與u不相關時進行IV估計的一個重要代價:IV估計量的漸近方差總是大于——有時大得很多—— OLS估計量的漸近方差。例15.1 對已婚女性進行教育的回報估計我們用MROZ.RAW 中關于已婚職業(yè)女性的數(shù)據(jù)來估計以下簡單回歸模型的教育回報,log(wage) 0 1educ u. (15.14)為了比較,我們首先得到 OLS估計值:log(wa?ge) .185 .109educ(.185)(.014) (15.15)21的估計值表明,再受一年的教育可得到約 11%的回報。接下來,我們用父親的教育(fatheduc)作為educ的工具變量。我們必須認為fatheduc與u不相關。第二個必需條件是educ與fatheduc相關。做一個educ對fatheduc的簡單回歸(樣本中只有職業(yè)女性),我們可以非常容易地驗證這一點:?10.24.269fatheduceduc(0.28)(.029)(15.16)n428,R2.173.fatheduc的t統(tǒng)計量為9.28,說明educ與fatheduc之間存在統(tǒng)計上顯著的正相關。(實際上,fatheduc解釋了樣本中educ的變異中約17%的部分。)用fatheduc作為educ的IV,得:?.059educlog(wage).441(.446)(.035)(15.17)n428,R2.093.教育回報的IV估計值為5.9%,大約是OLS估計值的12。這表明OLS估計值過高,且與遺漏的能力變量的偏誤相一致。但我們應該記住,這些都是僅從一個樣本中得出的估計值:我們根本不知道0.109是否高于真正的教育回報,或者0.059更接近真正的教育回報。其次,IV估計量的標準誤是OLS標準誤的21倍。2(這是我們預期到的,原因已在前面表明)。運用OLS得出1的95%置信區(qū)間比運用IV要狹窄得多;事實上,IV的置信區(qū)間確實包含了OLS估計值。因此,盡管實踐中(15.15)與(15.17)之間的差異很大,我們不能說該差異在統(tǒng)計上顯著。第15.5節(jié)中我們將說明如何對此進行檢驗。在前面的例子中,運用IV估計出的教育回報小于運用OLS的估計結果,這符合我們的預期。以下的例子將表明這個結果不是必然的。例15.2 估計對男性進行教育的回報現(xiàn)在我們再用 WAGE2.RAW來對男性估計教育的回報。我們用 sibs(兄弟姊妹的數(shù)目)作為 educ的工具變量。它們是負相關的,對此我們可以從以下簡單回歸中來證實:?educ 14.14 .228sibs(0.11) (.030)n 935,R2 .057.該方程意味著,每多一個兄弟姊妹,相關聯(lián)的是一年內(nèi)所受的教育平均比原來減少約 0.23。如果我們假定sibs與(15.14)中的誤差項不相關,那么IV估計量就具有一致性。用sibs作為educ的工具變量估計方程(15.14),得:?5.13.122educlog(wage)(0.36)(.026)n935.(R2計算出為負數(shù),因而我們沒有予以報告。后面將從IV估計的角度對R2進行討論。)相比之下,1的OLS估計值是.059,標準誤是.006。與前面的例子不同,現(xiàn)在IV估計值比OLS估計值大得多。盡管我們不知道該差異是否在統(tǒng)計上顯著,但它不會與OLS中遺漏的能力變量所造成的偏誤相混淆(meshwith)。有可能
sibs也與能力相關:較多的兄弟姊妹意味著平均起來受父母的照料較少,這可能導致較低的能力。另一個解釋是,由于 educ中的測量誤差,OLS必滿足經(jīng)典的含誤差變量模型,這一點我們已在第
估計量有朝零偏誤。該解釋不能完全令人信服,因為9.3節(jié)中討論過。
educ未在前面的例子中,內(nèi)生解釋變量( educ)與工具變量( fatheduc,sibs)均有數(shù)量含義。然而,這兩類都可以是二值變量。 Angrist和Krueger(1991)在他們最簡單的分析中,利用美國的男性人口調(diào)查數(shù)據(jù),提出了educ的一個巧妙的二值工具變量。如果該男性是在第一季度出生的,令 frstqrt等于1,否則為0。(15.14)中的誤差項——特別是能力——似乎應該與出生季度不相關。但是, frstqrt還要與educ相關。事實表明,在基于出生季度的總體中,教育年數(shù) 確實有系統(tǒng)性差異。 Angrist和Krueger認為是緣于在各州實行的義務就學法,這很有說服力。簡單地說,年初出生的學生往往入學較晚。因此,他們在達到義務教育年齡時(大部分州定為 16歲),所受的教育略少于入學較早的學生。 Angrist和Krueger證實了,對于已完成高中學業(yè)的學生來說,受教育年數(shù)與出生季度并無關系。因為教育年數(shù)在各出生季度之間的變化僅僅是微乎其微的——這意味著(
15.13)中的
Rx2,z非常小——Angrist和Krueger需要很大的樣本容量來得到一個合理而準確的 IV估計值。利用1920至1929年之間出生的247,199位男性的數(shù)據(jù),得出教育回報的OLS估計值為.0801(標準誤為.0004),IV估計值為.0715(.0219);見于Angrist和Krueger的論文中的表 III。注意到OLS估計值的 t統(tǒng)計量那么大(約為 200),然而IV估計值的t統(tǒng)計量僅為3.26。因而IV估計值在統(tǒng)計上不為0,但其置信區(qū)間比基于OLS估計值的置信區(qū)間寬得多。Angrist和Krueger有一個有趣的發(fā)現(xiàn):IV估計值與OLS估計值相差并不多。實際上,利用下一個十年中出生的男性的數(shù)據(jù),得出IV估計值稍微高于OLS估計值。對此可以這樣解釋:說明在用OLS估計工資方程時不存在遺漏能力的偏誤。可是,Angrist和Krueger的論文在計量經(jīng)濟學界受到了非難。如同Bound,Jaeger和Baker(1995)討論的那樣,它不能明顯地判斷出生季節(jié)與影響工資的諸因素不相關,縱然這些因素沒有被人觀測到。我們在下一小節(jié)中將解釋,即使z與u之間有少量的相關,也會導致IV估計量存在嚴重的問題。對于政策分析,內(nèi)生解釋變量往往是二值變量。例如,Angrist(1990)研究了,參加越南戰(zhàn)爭的老兵,其終身收入因參加越戰(zhàn)而受到的影響。一個簡單模型為:log(earns)01veteranu,(15.18)其中veteran是二值變量。疑問在于,用OLS估計該方程時,可能存在一個自我選擇(self-selection)的問題,這一點我們在第7章中提到過:也許人們因為能從軍隊中得到最多的收入而選擇參軍,或者參軍的決策與其他對收入有影響的特征相關。這些問題將導致veteran與u相關。Angrist指出,越南戰(zhàn)爭的征兵抽簽提供了一個自然試驗(naturalexperiment)(亦參見第13章),從而產(chǎn)生了veteran的一個工具變量。年輕人被分給的征兵抽簽號決定了他們是否會被征召去服役于越南戰(zhàn)爭。因為所分給的號碼(畢竟)是隨機分配的,征兵抽簽號與誤差項u不相關似乎是可信的。而得到號碼足夠小(指號碼小于某個數(shù)——譯者)的人必須服役于越南戰(zhàn)爭,使得成為老兵的概率與抽簽號相關。如果以上兩點都是正確的,征兵抽簽號是veteran的一個好的IV候選者。問題15.1如果某些被分給小的征兵抽簽號的人,獲得了更多的學校教育以減少了被征兵的概率,抽簽號仍是(15.18)中veteran的好的工具變量嗎?還有可能遇到一個二值的內(nèi)生解釋變量與一個二值的工具變量的情況。作為一個例子,參見習題15.1。低劣的工具變量條件下IV的性質(zhì)我們已經(jīng)看到,盡管當z與u不相關,而z與x存在著正的或負的相關時,IV是一致性的,但當z與x只是弱相關時IV估計值可能有大的標準誤。z與x之間的弱相關可能產(chǎn)生甚至是更加嚴重的后果:即使z與u只是適度相關,IV估計量也會有大的漸近偏誤。當z與u可能相關時,通過對IV估計量的概率極限的分析,就可以看到這一點。利用總體相關和標準差,可以推出:plim?11Corr(z,u)u.(15.19)Corr(z,x)x其中u和x分別代表總體中u和x的標準差。該方程中引起人們興趣的是包含相關項的部分。它表明,即使Corr(z,x)很小,如果Corr(z,u)也很小,IV估計量的非一致性會非常大。因此,即使我們只考慮一致性,如果z與u之間的相關小于x與u之間的相關,使用IV不一定比OLS更好。由于Corr(x,u)Cov(x,u)/(xu),連同方程(5.3)一起,我們可以將OLS估計量的plim——稱之為~1——寫為plim~11Corr(x,u)u.(15.20)x比較兩式,說明當Corr(z,u)/Corr(z,x)Corr(x,u)時,IV就漸近偏誤而言比OLS更可取。在前面提到的Angrist和Krueger(1991)的例子中,x是學校教育的年數(shù),z是一個指示出生季度的二值變量,z與x之間的相關非常小。Bound,Jaeger和Baker(1995)討論了出生季度與u可能有些相關的原因。從方程(15.19)中,我們看到這將會導致IV估計量有相當大的偏誤。當z與x完全不相關時,無論z是否與u不相關,事情尤其糟糕。接下來的例子說明了為什么我們應當時常檢查內(nèi)生解釋變量是否與備選的IV相關。例15.3 估計吸煙對出生體重的影響在第6章中,我們估計了吸煙對嬰兒出生體重的影響。沒有其他的解釋變量,模型為:log(bwght)
0
1packs
u,
(15.21)其中
packs是母親每天吸煙的包數(shù)。我們會擔心
packs與其它健康因素或者獲得良好的產(chǎn)前護理的可能性相關,以致 packs與u可能相關。packs的一個可能的工具變量是所居住州的香煙價格 cigprice。我們將假定cigprice與u不相關(即使州政府對健康護理的支持可能與香煙稅相關) 。如果香煙是典型的消費品,基本的經(jīng)濟理論表明packs與cigprice負相關,所以cigprice可用作packs的IV。為驗證這一點,我們利用BWGHT.RAW中的數(shù)據(jù),做packs對cigprice的回歸:pa?ck .067 .0003cigprice(.103)(.0008)n 1,388,R2 .0000,R2 .0006.這說明懷孕期間吸煙與香煙價格之間沒有關系??紤]到吸煙有使人上癮的特性,該結論可能不會太令人驚訝。因為packs與cigprice不相關,我們不應該在(15.21)中用cigprice作為packs的IV,但如果我們用了會怎么樣?IV的結果將為:?4.452.99packslog(bwght)(0.91)(8.70)n1,388.(所報告的R2為負數(shù))。packs的系數(shù)極大,而且有一個意想不到的符號。標準誤也非常大,因此packs不是顯著的。可是估計值是沒有意義的,因為cigprice不滿足我們總可以檢驗的IV的一個必需條件,即(15.5)中的假定。IV估計后計算R2大多數(shù)回歸軟件包運用標準公式R21SSRSST計算IV估計之后的R2,其中SSR是IV殘差的平方和,SST是y的總平方和。與OLS中的情況不同,由于IV的SSR實際上可能大于SST。IV估計中R2的可能為負數(shù),盡管報告IV估計的R2不會有什么害處,但也不很有用。當x與u相關時,我們不能將y的方差分解成2Var()Var(u)2沒有合理的解釋。另外,正如我們將在第15.3節(jié)中討論的,1x,因此對R這些R2不能以通常的方法用于計算聯(lián)合約束的F檢驗值。如果我們的目標是要得出最大的R2,我們將總是用OLS。IV法是打算當x與u相關時,為x在其余條件不變情況下對y的影響提供更好的估計值;擬合優(yōu)度不是考慮的因素。如果我們不能對1進行一致性估計,從OLS中得出高的R2也不會讓人感到欣慰。15.2多元回歸模型的 IV估計簡單回歸模型的IV估計量容易延伸至多元回歸的情形。我們從僅有一個解釋變量與誤差相關的情形開始。實際上,考慮兩個解釋變量條件下的標準線性模型:y101y22z1u1.(15.22)我們稱之為結構方程(structuralequation),以強調(diào)我們的興趣在于
,這僅僅意味著此方程應該測量一個因果關系。在此我們用一個新的符號來區(qū)分內(nèi)生變量與 外生變量(exogenousvariables)。因變量 y1顯然是內(nèi)生的,它與u1相關。變量y2和z1是解釋變量,u1是誤差。通常,我們假定u1的期望值為 0:E(u1) 0。我們用z1表示該變量在(15.22)中是外生的( z1與u1不相關)。我們用y2表示該變量被懷疑與 u1相關。我們沒有詳細地說明為什么 y2與u1相關,但現(xiàn)在最好認為 u1包含一個與 y2相關的遺漏變量。方程( 15.22)中的符號源自于聯(lián)立方程模型(我們將在第16章中討論),但我們把它更廣泛地用于多元回歸模型中,目的是容易區(qū)分外生變量和內(nèi)生變量。(15.22)的一個例子是:log(wage)01educ2experu1,(15.23)其中y1log(wage),y2educ,z1exper。換句話說,我們假定exper在(15.23)中是外生的,但我們允許educ——由于通常的原因——與 u1相關。我們知道,如果用 OLS估計(15.22),所有的估計量將是有偏而非一致性的。這樣,我們采用前一節(jié)中建議的策略,尋找y2的工具變量。因為假定了 z1與u1不相關,我們能否假定 y2與z1相關而將z1用作y2的工具呢?答案是不能。既然 z1自身作為解釋變量出現(xiàn)在( 15.22)中,它就不能用作 y2的工具變量。我們需要另外一個外生變量——稱之為 z2——它不出現(xiàn)在( 15.22)中。因此,關鍵的假定是 z1、z2與u1不相關;我們還假定 u1具有零均值,當方程包含截距時,這并不失普遍性。E(u1) 0,Cov(z1,u1) 0,和Cov(z2,u1) 0.給定零均值的假定,后兩個假定等價于 E(z1u1) E(z2u1) 0,因而按照矩法的意思是求解(應樣本方程來獲得?0、?1和?2:n???(yi101yi22zi1)0i1n???zi1(yi1yi2012zi1)0i1n
15.24)15.24)的對15.25)zi2(yi1???01yi22zi1)0.i1這是關于三個未知量?0、?1和?2的三線性方程組,給定y1、y2、z1和z2的數(shù)據(jù),它很易于求解。這些估計量叫做工具變量估計量。如果我們認為y2是外生的,并選擇z2y2,方程(15.25)恰恰是OLS估計量的一階條件;參見方程(3.13)。我們?nèi)孕枰ぞ咦兞縵2與y2相關,可是這兩個變量必須相關的含義因(15.22)中存在z1而變得復雜。我們現(xiàn)在需要從偏相關的角度來表述這一假定。表述該條件最容易的方法是將內(nèi)生解釋變量寫成關于外生變量和誤差項的一個線性函數(shù):y201z12z2v2,(15.26)其中,定義E(v2)0,Cov(z1,v2)0,Cov(z2,v2)0,j是未知參數(shù)。關鍵的識別條件[除了(15.24)之外]是20.(15.27)換句話說,排除了z1的影響后,y2與z2仍然相關。該相關可正可負,但不為0。檢驗(15.27)是容易的:我們通過OLS估計(15.26),并運用t檢驗(也許要把它變換成即使出現(xiàn)異方差也能適用的、所謂對異方差性強健的t檢驗)。我們應當時常檢驗這一假定。不幸的是,我們不能檢驗z1和z2與u1不相關;這一點必須不加懷疑地接受。問題15.2假定我們想要估計吸食大麻對大學平均積分點的影響。 對于大學四年級學生構成的總體,令daysused表示過去的一個月中一個學生吸食大麻的天數(shù),考慮結構方程colGPA 0 1daysused 2SAT u.i)令perHS表示該學生的高中的同屆畢業(yè)班中被報道定期吸食大麻的人數(shù)百分比。如果這是daysused的一個IV備選變量,寫出daysused的誘導型。你認為(15.27)可能是正確的嗎?ii)你認為結構方程中的perHS真的是外生的嗎?這里可能存在什么問題?方程(15.26)是誘導型方程(reducedformequation)的一個例子,它意味著我們是用外生變量來表述內(nèi)生變量的。這個名稱源自于聯(lián)立方程模型——我們將在下一章中進行研究——但是每逢我們有內(nèi)生解釋變量,它都是一個有用的概念,幫助我們把它和結構方程( 15.22)區(qū)分開來。在模型中增添更多的 外生解釋變量 (exogenousexplanatoryvariables)是簡單易行的。將結構模型寫成y101y22z1...kzk1u1,(15.28)其中y2被認為與u1相關。令zk也是一個外生變量,但它不在(15.28)中。因此,我們假定E(u2)0,Cov(zj,u1)0,j1,...,k.(15.29)y2的誘導型是y201z1...k1zk1kzkv2,(15.30)我們需要zk與y2之間存在某些偏相關:k
0.
(15.31)在(15.29)和(15.31)中的假定下,
zk是
y2的一個有效的
IV。(我們不關心其余的
j;它們可能部分或全部為
0。)考慮
z1
,...,zk1可用作它們自身的
IV
是合理的;因此,外生變量系列常常叫做工具變量系列。一個次要的補充假定是,外生變量之間不存在完全線性關系;這類似于 OLS情況下的非完全共線性假定。對于標準的統(tǒng)計推斷,我們需要假定 u1具有同方差性。第 15.3節(jié)中我們將在更一般的環(huán)境下仔細地表述這些假定。例15.4 用鄰近大學作為教育的 IVCard(1995)利用1976年的工資和教育的一個男性樣本數(shù)據(jù)來估計教育回報。他運用這樣一個虛擬變量作為教育的工具變量,即是否在一所四年制大學的附近長大(nearc4)。在一個log(wage)方程中,還引進了其它的標準控制變量:經(jīng)驗、黑人的虛擬變量、居住在大城市及其郊區(qū)(SMSA)和居住在南方的虛擬變量,一整套地域性的虛擬變量以及1966年在何處居住的SMSA虛擬變量。為了nearc4成為一個有效的工具,它必須與工資方程中的誤差項不相關——我們假定如此——且必須與educ偏相關。為驗證后一個所需條件,我們將educ對nearc4及方程中出現(xiàn)的所有外生變量做回歸。(那就是說,我們估計educ的誘導型。)利用CARD.RAW中的數(shù)據(jù),以縮寫形式我們獲得:?16.64.320nearc4.413exper...educ(0.24)(.088)(.034)(15.32)n3,010,R2.477.表15.1因變量:log(wage)解釋變量OLSIVeduc.075.132(.003)(.055)exper.085.108(.007)(.024)exper2-.0023-.0023(.0003)(.0003)black-.199-.147(.018)(.054)smsa.136.112(.020)(.032)south-.148-.145(.026)(.027)觀測數(shù)3,0103,010R2.300.238其它控制變量:,,,reg669smsa66reg662我們的興趣在于 nearc4的系數(shù)及其 t統(tǒng)計量。其系數(shù)意味著,在其他因素(經(jīng)歷、種族、地域等)固定的情況下,曾于1966年住在大學附近的人1976年所受的教育比不在大學附近長大的人平均多出約nearc41,3的t統(tǒng)計量是3.64,其對應的p值在小數(shù)點后的前三位數(shù)字均為0。因此,如果nearc4與誤差項中未觀測到的因素不相關,我們就可以用nearc4作為educ的IV。OLS和IV估計值由表15.1給出。有趣的是,教育回報的IV估計值將近是OLS估計值的兩倍,而IV估計值的標準誤卻比OLS的標準誤大18倍還多。IV估計值的95%置信區(qū)間是從.024到.239,這是一個很寬的范圍。當我們認為educ是內(nèi)生的時,我們要得到教育回報的一致性估計量所必須付出的代價將是更大的置信區(qū)間。正如前面討論的,我們會認為在IV估計中,較小的R2并不奇怪:按照定義,由于OLS使殘差平方和最小化,OLS的R2將總是大一些。15.3兩階段最小二乘在前一節(jié)中,我們假定有單一的內(nèi)生解釋變量(
y2),和
y2的一個工具變量??赏覀冇胁恢灰粋€的外生變量,它們被排斥在結構模型之外,且可能與
y2相關,這意味著它們是
y2的有效的
IV。在本節(jié)中,我們討論如何運用復工具變量。單一內(nèi)生解釋變量重新考慮結構模型(15.22),它有一個內(nèi)生和一個外生解釋變量。
假定現(xiàn)在我們有 兩個被排斥在(15.22)之外的外生變量: z2和z3。z2和z3不出現(xiàn)在(15.22)中,且與誤差項 u1不相關的諸假定稱為 排斥性約束(exclusionrestrictions
)。如果
z2和
z3都與
y2相關,我們就可僅用任一個變量作為
IV,如同前一節(jié)那樣。但這樣一來,我們將有兩個
IV
估計量,而一般地說沒有一個會是有效的。由于
z1、z2和z3各自與
u1不相關,它們的任何線性組合也與
u1不相關,因此,外生變量的任何線性組合都是有效的
IV。為尋找最好的
IV,我們選擇與
y2最高度相關的線性組合。這正是由
y2的誘導型方程所給出的。寫y2
0
1z1
2z2
3z3
v2.
(15.33)其中E(v2)
0,Cov(z1,v2)
0,Cov(z2
,v2)
0,Cov(z3
,v2)
0.那么,
y2最好的
IV(在本章附錄中給出的假定下)是(
15.33)中
zj
的線性組合,我們稱之為
y2:y2
0
1z1
2z2
3z3.
(15.34)為了使該IV與z1不是完全相關,我們需要2或3之中至少一個不為0:20或30.(15.35)一旦我們假定zj全部都是外生的,這便是關鍵的識別假定。(1的值是不相干的。)如果20且30,結構方程(15.22)將不被識別。我們可以運用F統(tǒng)計量,檢驗H0:20與30,其對立假設為(15.35)。以一個有用的方式來考慮(15.33),將y2分成兩部分。第一部分是y2,這是y2中與誤差項u1不相關的部分。第二部分是v2,它可能與u1相關——這是為什么y2可能內(nèi)生的原因。已知zj的數(shù)據(jù),假如我們知道總體參數(shù)j,我們可對每次觀測計算y2。在實踐中這根本不真實。然而,正如我們在前一節(jié)中所看到的,我們總是可以用OLS估計誘導型。這樣,利用樣本,我們將y2對z1、z2和z3回歸,獲得擬合值:?????(15.36)y201z12z23z3.(就是說,對每個i,我們有yi2)。現(xiàn)在,我們將證實在(15.33)中z2與z3以一個相當小的顯著水平(不?大于5%)聯(lián)合顯著。如果z2與z3在(15.33)中不是聯(lián)合顯著的,做IV估計是在浪費時間。一旦我們有了?,我們便可以用它作為y2的IV。用于估計0、1和2的三個方程是()中y215.25的前兩個方程,和代替第三個方程的n????(15.37)(yi101yi22zi1)0.yi2i1求解關于三個未知量的三個方程,我們得到IV估計量。在復工具條件下,IV估計量也叫做兩階段最小二乘(2SLS)估計量(twostageleastsquares(2SLS)estimator)。原因很簡單。運用OLS代數(shù),可以說明當我們用?作為y2的IV時,IV估計值?、?和?y2012等同于從?和z1(15.38)y1對y2的回歸中得出的OLS估計值。換句話說,我們可以通過兩階段來獲得2SLS。第一階段是做(15.36)中的回歸,我們得到擬合值?。第二階段是做()中的OLS回歸。因為我們用?代替了y2,2SLS估計y215.38y2值與OLS估計值有實質(zhì)上的差異。一些經(jīng)濟學家喜歡這樣來解釋(15.38)中的回歸:擬合值?是y2的估計形式,y2與u1不相關。因此,y22SLS在做(15.38)的OLS回歸之前先“清除”y2中與u1的相關。這一說法,可通過將y2y2v2代入(15.22)中,發(fā)現(xiàn)其正確性:y101y22z1u11v2.(15.39)現(xiàn)在合成誤差u11v2有零均值,且與y2和z1不相關,這就是OLS估計有效的原因。大多數(shù)計量經(jīng)濟學的軟件包對 2SLS有專門的指令,所以無需明確地分兩階段進行。實際上,在大多數(shù)情況下,你應當避免用手工來做第二階段的工作,因為以這樣的方法獲得的標準誤和檢驗統(tǒng)計量是 不正確的。[原因是(15.39)中的誤差項包括v2,但標準誤只包括u1的方差。]任何支持2SLS的回歸軟件要求有因變量、解釋變量(內(nèi)生和外生)和整個工具變量的表列(即所有的外生變量)。其結果典型地說十分類似于OLS的結果。在y2有單一IV的模型(15.28)中,第15.2節(jié)得出的IV估計量等同于2SLS估計量。因此,當我們對每個內(nèi)生解釋變量有一個IV時,我們可稱估計方法為IV或2SLS。增添更多外生變量,方法上也沒有什么變化。例如,假定工資方程為log(wage)01educ2exper3exper2u1,(15.40)其中u1與exper和exper2均不相關。假定我們還認為母親和父親的教育與u1不相關。那么我們可以將它們都用作educ的IV。educ的誘導型方程為educ識別的要求是30或
0 1exper 2exper2 3motheduc 4fatheduc v2, (15.41)0(或兩個都非零)。例15.5職業(yè)女性的教育回報用MROZ.RAW中的數(shù)據(jù)估計方程(15.40)。首先,我們在(15.41)中用F檢驗來檢驗H0:30,0。結果是F=55.40,p值=.0000。正如所預期的,educ與父母的教育(偏)相關。當我們用2SLS估計(15.40)時,我們獲得的方程形式為:?.061educ.044exper2log(wage).048.0009exper(.400)(.031)(.013)(.0004)n428,R2.136.所估計的教育回報約為6.1%,相比OLS估計值約為10.8%。由于它相對大的標準誤,在對應著雙側對立假設的5%的顯著水平上,2SLS估計值幾乎不顯著。本章附錄中給出了2SLS需要的假定,它們使得2SLS具備所希望的大樣本性質(zhì)。但在此進行簡要的概述是有用的。如果我們寫出如(15.28)中的結構方程y1 0 1y2 2z1 ... kzk1 u1, (15.42)然后我們假定每個zj與u1不相關。另外我們至少需要一個與y2偏相關的外生變量不在(15.42)之中。這保證了一致性。為了使通常的2SLS標準誤和t統(tǒng)計量漸近有效,我們還需要一個同方差性的假定:結構誤差u1的方差不會與任何外生變量有關。對于時間序列上的應用,我們需要更多的假定,這將在第15.7節(jié)中看到。多重共線性與2SLS在第3章中,我們介紹了多重共線性的問題,并說明回歸元之間的相關如何導致OLS估計值具有大的標準誤。多重共線性在2SLS條件下甚至會更嚴重。要知道為什么,可以把1的2SLS估計量的(漸近)方差近似地寫為:2SST2(1R22),(15.43)其中Var(u1),SST2是y2R2y2對其他所有出現(xiàn)在結構方程中的外生變量做回歸2?中的總變異,2是將?得出的R2。2SLS的方差大于OLS的方差的原因有兩點。第一,?從結構上看,其變異比y2小。(記住,y2總平方和=解釋平方和+殘差平方和;y2中的變異構成總平方和,而y2?中的變異構成解釋平方和。)第二,?與(15.42)中外生變量之間的相關往往比y2與這些變量之間的相關大得多。這在本質(zhì)上解釋了2SLSy2中的多重共線性問題。作為一個實例來考慮例15.4。當educ對表15.1中的外生變量做回歸時,R2.475;這是中等程度的多重共線性,但重要的是??educ的OLS標準誤差相當小。當我們獲得第一階段的擬合值educ,并將它們2?對表15.1中外生變量做回歸時,R.995,這表明educ與表中其余的外生變量之間有很高程度的多重共線性。(這個高的R2?nearc4的一個函數(shù)。)educ是關于表15.1中所有外生變量和并不太令人吃驚,因為方程(15.43)表明,接近1的R22可導致2SLS估計值有非常大的標準誤。然而如在OLS條件下一樣,大樣本容量可幫助抵消大的R22。多個內(nèi)生解釋變量兩階段最小二乘也可以用于不只一個內(nèi)生解釋變量情形下的模型中。例如,考慮模型y1
0
1y2
2y3
3z1
4z2
5z3
u1,
(15.44)其中
E(u
1)
0,u1與
z1、z2和
z3不相關。變量
y2
和
y3是內(nèi)生解釋變量:每個都可能與
u1相關。為了用
2SLS
估計(
15.44),我們需要至少兩個外生變量,它們不出現(xiàn)在(
15.44)中,但與
y2和
y3相關。假定我們有兩個被排斥的外生變量,即
z4和
z5。然后,根據(jù)我們對單一內(nèi)生解釋變量的分析,我們需要z4或者
z5出現(xiàn)在
y2和
y3的誘導型中。(與前面一樣,我們可以用
F統(tǒng)計量來檢驗。)盡管這對于識別是必要的,但不幸的是,它不是充分的。假定 z4出現(xiàn)在每個誘導型中,而 z5在兩個中都沒有出現(xiàn)。那么,我們并不是真正的有兩個外生變量與
y2和
y3偏相關。兩階段最小二乘不會獲取
j的一致性估計量。一般的說,當我們在回歸模型中有不只一個的內(nèi)生解釋變量時, 在若干復雜的情況下仍可能不能識別。但是,我們可以容易地表述識別的一個必要條件,叫做 階條件(ordercondition)。方程識別的階條件 :我們需要被排斥的外生變量至少與結構方程中包括的內(nèi)生解釋變量一樣多。驗證階條件是簡單的, 因為它只須數(shù)一數(shù)內(nèi)生和外生變量的個數(shù)。 識別的充分條件稱為 秩條件(rankcondition)。我們在前面已見到不少秩條件的特例——例如,圍繞方程( 15.35)的討論。對秩條件的一般表述需要矩陣代數(shù),超出了本書的范圍。 [參見Wooldridge(1999,第五章)。]問題15.3以下模型用一個是否存在槍支管理法的二值變量及其他控制變量,以解釋城市的暴力犯罪率:violent
0
1guncontrol
2unem
3popul4percblck
5age18_21
....一些研究者估計了類似的方程,他們運用諸如國家步槍協(xié)會中城市會員的數(shù)目、槍支雜志訂閱者的數(shù)目等變量作為
guncontrol的工具變量。
[例如,參見
Kleck
和Patterson(1993)]。它們是令人信服的工具嗎?2SLS估計后對多個假設的檢驗在一個用 2SLS來估計的模型中,檢驗多個假設時我們必須小心。正如我們在第
4章中
OLS
條件下所學過的,運用殘差平方和或
F
統(tǒng)計量的
R2
形式是很吸引人的,。然而,
2SLS
中的
R2
可能為負數(shù)的事實表明,通常計算
F
統(tǒng)計量的方法可能不適合;現(xiàn)在就遇到了這個問題。實際上,如果我們用
2SLS
殘差去計算受約束和無約束模型的
SSR,不能保證
SSRr
SSRur
;如果反之成立,
F估計量將為負數(shù)。有可能將第二階段回歸
[例如(
15.38)]
得出的殘差平方和與
SSRur
結合起來,以獲得一個在大樣本下近似服從F分布的統(tǒng)計量。因為許多計量經(jīng)濟學軟件包中有使用簡單的檢驗指令, 它們可用于檢驗 2SLS估計后的多個假設,這里不作詳細介紹。 Davidson與Mackinnon(1993)和Wooldridge(1999,第五章)含有如何計算
2SLS的
F型統(tǒng)計量的討論。15.4含誤差的變量問題的 IV解在前一節(jié)中,我們提出用工具變量作為解決遺漏變量問題的方法,然而它們也能用于處理測量誤差的問題。為了說明,考慮模型y01x12x2u.(15.45)其中y和x2是可觀測到的,而x1則觀測不到。令x1是x1的一個可觀測到的度量:x1x1e1,其中e1是測量誤差。在第9章中,我們說明了x1與e1之間的相關導致了OLS的有偏和非一致性,這里用x1代替了x1。寫出下式,就可以看到這一點y01x12x2(u1e1).(15.46)如果經(jīng)典的含誤差變量(CEV)的假定成立,1的OLS估計量有朝零偏誤。沒有進一步的假定,我們對此毫無辦法。在一些情況下,我們可以用IV方法來解決測量誤差問題。在(15.46)中,我們假定u與x1、x1和x2不相關;在CEV的情況下,我們假定e1與x1和x2不相關。這些意味著x2在(15.46)中是外生的,可是x1與e1相關。我們所需的是x1的IV。這樣的IV必須與x1相關,與u不相關——從而它必須被排斥在(15.45)之外——并且與測量誤差e1不相關。一種可能是獲取x1的第二個度量,即z1。既然影響y的是x1,假定z1與u不相關是自然不過的了。如果我們寫成z1x1a1,其中a1是z1的測量誤差,那么我們必須假定a1與e1不相關。換句話說,x1和z1都錯誤地測量了x1,但它們的測量誤差不相關。當然,x1和z1通過對x1的相依而相關,因而我們可以用z1作為x1的IV。什么時候我們可以得到一個變量的兩個度量呢?有時,當一群工人被問及他們的年薪時,他們的雇主可以提供第二個度量。對于夫妻倆,每一方都可以獨立地報告儲蓄或家庭收入的水平。第14.3節(jié)所引用的Ashenfelter和Krueger(1994)的研究中,每個雙胞胎被問及他的兄弟或她的姊妹所受教育的年數(shù);這給出了第二個度量,它可以在工資方程中用作自我報告的教育的IV。(Ashenfelter和Krueger還結合差分和IV來解釋遺漏變量問題;對此第15.8節(jié)中有更多的討論。)然而一般地說,一個解釋變量有兩個度量是罕見的。另一個選擇是運用其他外生變量,將它們作為潛在的誤測變量的IV。例如,我們在例15.5中用motheduc和fatheduc作為educ的IV,可以達到該目的。如果我們認為educeduce1,若motheduc和fatheduc與測量誤差e1不相關,那么例15.5中的IV估計值不會受測量誤差的影響。比起假定motheduc和fatheduc與能力不相關,而能力卻包含在(15.45)的u中,這可能更加合理。當運用像測驗成績等去控制未觀測到的特征時,也可以用IV方法。在第9.2節(jié)中,我們說明了,在某些假定下,代理變量可用于解決遺漏變量問題。例9.3中,我們用IQ作為未觀測到的能力的代理變量。這僅僅需要在模型中添加IQ并作一個OLS回歸。但是當IQ不完全滿足代理變量的假定時,存在另一種行之有效的選擇。舉例說明,將工資方程寫成log(wage)01educ2exper3exper2abilu,(15.47)這里我們又一次看到遺漏變量的問題??墒俏覀冇袃煞N測驗成績作為 能力的指標。我們假定成績可寫為test11abile1和test21abile2,其中10,10。既然影響工資的是能力,我們就可以假定test1和test2與u不相關。如果我們根據(jù)第一種測驗成績寫出abil,并將之代入(15.47),我們得到log(wage)01educ2exper3exper2(15.48)1test1(u1e1),其中111?,F(xiàn)在,如果我們假定e1與(15.47)中包括abil在內(nèi)的所有解釋變量不相關,那么e1與test1必須相關。[注意到educ在(15.47)中不是內(nèi)生的;而test1是。]這意味著用 OLS估計(15.48)將得到 j(和1)的非一致性估計量。在我們所做的假定下,test1不滿足代理變量的假定。如果我們假定e2也與(15.47)中的所有解釋變量不相關,并且e1與e2不相關,那么e1與第二種測驗成績test2不相關。因此,test2可用作test1的IV。例15.6用兩種測驗成績作為能力的指標我們利用WAGE2.RAW中的數(shù)據(jù)實施前面的程序,其中IQ起著第一種測驗成績的作用,KWW(工作領域中的知識)是第二種測驗成績。解釋變量與例9.3中的一樣:educexpertenuremarriedsouth、、、、、urban和black。我們不是像表9.2第(2)列中那樣添加IQ做OLS,而是添加IQ,并用KWW作為它的工具。educ的系數(shù)是.025(se=.017)。這是個低的估計值,且在統(tǒng)計上無異于零。該發(fā)現(xiàn)是令人費解的,它表明我們的諸假定之一不成立的;也許e1與e2相關。15.5內(nèi)生性檢驗與檢驗過度識別約束在本節(jié)中,我們根據(jù)工具變量估計來描述兩個重要的檢驗。內(nèi)生性檢驗當解釋變量是外生的時, 2SLS估計量不如 OLS有效;正如我們已看到的, 2SLS估計值會有非常大的標準誤。因此,檢驗一個解釋變量的內(nèi)生性是有用的,它說明了 2SLS甚至是否必要。獲取這樣的檢驗相當簡單。舉例說明,假定我們有單一的被懷疑的內(nèi)生變量,y1
0
1y2
2z1
3z2
u1,
(15.49)其中
z1和
z2是外生的。我們有另外兩個外生變量,
z3和
z4,它們不出現(xiàn)在(
15.49)中。如果
y2與u1不相關,我們該用OLS估計(15.49)。對此我們?nèi)绾螜z驗呢?Hausman(1978)建議直接比較OLS和計值,判斷其差異是否在統(tǒng)計上顯著。畢竟,如果所有變量外生,OLS和2SLS都是一致性的。如果
2SLS估2SLS與
OLS
的差異顯著,我們斷定
y2必定是內(nèi)生的(
zj
保持外生性)。計算OLS和2SLS,看估計值是否實際上有差異,這是個好主意。為了判斷差異是否在統(tǒng)計上顯著,用回歸來檢驗更容易。這是以估計 y2的誘導型為基礎的,此時誘導型為y201z12z23z34z4v2.(15.50)現(xiàn)在,因為各個zj與u1不相關,所以y2與u1不相關當且僅當v2與u1不相關;這是我們希望檢驗的。寫成u11v2e1,其中e1與v2不相關,且有零均值。那么,u1與v2不相關當且僅當10。檢驗這一點最容易的方法是將v2作為添加的回歸元包括在(15.49)中,做t檢驗。這么做唯一的問題是:v2不能被觀測到,因為它是(15.50)中的誤差項??墒且驗槲覀兡苡肙LS估計y2的誘導型,我們可以獲取誘導型殘差?。v2因此,我們用OLS估計y101y22z13z2?(15.51)1v2error并用t統(tǒng)計量檢驗H0:10。如果我們以一個小的顯著水平拒絕H0,我們因v2與u1相關推斷出y2是內(nèi)生的。例15.7(職業(yè)女性的教育回報)通過僅利用職業(yè)女性的數(shù)據(jù)估計誘導型(15.41),從中獲得殘差?,并將它們包括在(15.40)中,我v2們可以檢驗(15.40)中educ的內(nèi)生性。當我們這么做時,v2的系數(shù)?.058,且t1.67。它是u1與v2?之間適度正相關的證據(jù)。同時報告兩個估計值也許是個好主意,因為教育回報的2SLS估計值(6.1%)遠低于OLS估計值(10.8%)。單一解釋變量的內(nèi)生性檢驗(i)通過將y2對所有的外生變量(包括那些在結構方程中和另外的IV)做回歸估計它的誘導型。獲得殘差?。v2(ii)把),用回歸檢驗?的顯著性。如果?的系數(shù)在統(tǒng)計上y2OLSv2v2v2異于零,我們推斷出y2確實是內(nèi)生的。我們也許要用對異方差性強健的t檢驗。第(ii)部分中的回歸有一個有趣的特點,所有變量(除了?)的估計值等同于2SLS估計值。例如,v2用OLS估計(15.51)所給出的?j等同于方程(15.49)中的2SLS估計值。這是一個簡單的檢查方法,得以看出你是否在內(nèi)生性檢驗中做了正確的回歸。它還對2SLS給出了另一個解釋:在(15.51)的OLS回歸中把的內(nèi)生性(指把的內(nèi)生部分清理了出來——譯者)。y2y2v2我們還可以檢驗復解釋變量的內(nèi)生性。對于每個被懷疑的內(nèi)生變量,我們?nèi)绲冢?i)部分那樣獲得誘導型殘差。然后,我們用F檢驗在結構方程中檢驗這些殘差的聯(lián)合顯著性。聯(lián)合顯著性表明至少有一個被懷疑的解釋變量是內(nèi)生的。被檢驗的排斥性約束的數(shù)目就是被懷疑的內(nèi)生解釋變量的數(shù)目。檢驗過度識別約束當我們在第15.1節(jié)中介紹簡單的工具變量估計量時,我們強調(diào)IV必須滿足兩個必需條件:它必須與誤差不相關,與內(nèi)生解釋變量相關。我們在相當復雜的模型中已看到,如何判斷在誘導型回歸中是否能用一個t或F檢驗來檢驗第二個必需條件。 我們聲稱第一個必需條件不能被檢驗, 因為它涉及到 IV與未觀測到的誤差之間的相關。然而,如果我們有不只一個的工具變量,我們就能有效地檢驗它們中的一部分是否與結構誤差不相關。作為一個例子,在有另外兩個工具變量 z3和z4的條件下,重新考慮方程( 15.49)。我們知道僅用 z3作為的IV,就能估計(15.49)。給定IV估計值,我們就能計算殘差??????。y201y22z13z2u1y1因為z4在估計中根本沒用到,我們可以驗證z4u1z4不是y2的有效與?在樣本中是否相關。如果它們相關,IV。當然,這并沒有告訴我們z3與u1是否相關;實際上,因為它是個有用的檢驗,我們必須假定z3與u1不相關。然而,如果z3和z4是用相同的邏輯來選擇的——例如母親的教育和父親的教育——發(fā)現(xiàn)z4與u1相關將使人對用z3作為IV產(chǎn)生懷疑。因為z3和z4的角色可以交換,若是假定z4與u1不相關,我們也可以檢驗z3與u1是否相關。我們該用哪個檢驗呢?結果是,我們對檢驗的選擇是無關緊要的。我們必須假定至少有一個IV是外生的。然后,我們可以對 2SLS中所用的過度識別約束(overidentifyingrestrictions)進行檢驗。根據(jù)我們的用意,過度識別約束的數(shù)目簡單地就是額外的工具變量的數(shù)目。假定我們只有一個內(nèi)生解釋變量。如果我們只有y2的單一個IV,而沒有過度識別約束,也就沒什么可檢驗的。如果我們有y2的兩個IV,如同前面的例子中那樣,則我們有一個過度識別約束。如果我們有三個IV,則有兩個過度識別約束,等等。檢驗過度識別約束是相當簡單的。我們必須獲得2SLS殘差,然后做一個輔助回歸。檢驗(任意多個)過度識別約束(i)用2SLS估計結構方程,獲得2SLS殘差?。u1(ii)將u?1對所有外生變量回歸,獲得R2,即R12。a2(iii)在所有IV都與u1不相關的虛擬假設下,2nR1~q,其中q是模型之外的工具變量的數(shù)目減去nR12超過了2內(nèi)生解釋變量的總數(shù)目。如果q分布中的(例如)5%臨界值,我們拒絕H0,并推斷出至少部分的IV不是外生的。例15.8職業(yè)女性的教育回報當我們在(15.40)中用用motheduc和fatheduc作為educ的IV,我們有一個的過度識別約束。將2SLS殘差u1對exper、exper2、motheduc和fatheduc做回歸,得出R12.0009。因此,nR12428(.0009).3852,這在12分布中是一個非常小的值(p值=.535)。因此,父母親的教育變量通過了過度識別檢驗。當我們將丈夫的教育增添到IV表中,我們得到兩個過度識別約束,nR121.11(p值=.574)。因此,將huseduc2SLS估計值的標準誤:運用educ增添到IV表中似乎是合理的,因為它減少了所有三個工具,得出的的2SLS估計值為.080(se=.022),這使得educ比不用huseduc時作為IVeduc=.061,se=.031)顯著得多。在前面的例子中,我們提到了關于 2SLS的一個普遍事實:在標準的 2SLS假定下,在表中增添變量提高了2SLS的漸近有效性??墒且笕魏涡碌墓ぞ邔嶋H上是外生的——否則, 2SLS將甚至不是一致性的——而且這只是個漸近的結果。在具備有典型樣本容量可供使用的條件下,增添過多的工具——即增加過度識別約束的數(shù)目——會導致 2SLS中的嚴重偏誤。詳細的討論將使我們大大偏離正題。 Bound、Jaeger和Baker(1995)給出了一個好的例子, 他們認為Angrist和Krueger(1991)用許多工具變量獲得的教育回報的 2SLS估計值,很可能是嚴重有偏的(即使有成百上千的觀測值! )。無論何時我們有多于所需的工具,都可以用過度識別檢驗。如果我們有恰好足夠的工具,該模型稱為是恰好識別的,第(ii)部分中的 R2將恒等于零。正如我們前面提到的,在恰好識別情況下我們不能檢驗工具的外生性。可以使檢驗成為對任意形式的異方差性強健的 t檢驗。關于細節(jié),參見 Wooldridge(1999,第五章)。15.6異方差性條件下的2SLS2SLS中的異方差性提出了本質(zhì)上與OLS情況下相同的問題。最重要的是有可能對任意和未知形式的異方差性獲得(漸近)強健的的標準誤和檢驗統(tǒng)計量。一些軟件包按常規(guī)做此檢驗。u我們也能用類似布勞殊—培干檢驗的方法來檢驗異方差性,對此我們在第8章中討論過了。令?表示2SLS殘差,并且令z1,z2,,zm表示所有的解釋變量(包括那些用作內(nèi)生解釋變量的IV)。那么,在合理的假定下,[例如,在Wooldridge(1999,第5章)中已有詳細的說明],一個漸進有效的統(tǒng)計量是在2?對uz1,z2,,zm的回歸中用于檢驗聯(lián)合顯著性的通常的F統(tǒng)計量。如果諸zj是聯(lián)合顯著的,同方差性的虛擬假設就被拒絕。如果我們將它應用于例15.8中,用motheducfatheduc和huseduceduc的工具,我們得到F5,422、作為=2.53,p值=.029。這是在 5%水平上異方差性的證據(jù)。我們也許想要算出這個對異方差性強健的標準誤來說明這一點。如果我們知道誤差的方差是如何依賴于外生變量的,我們就可以用加權的2SLS方法,它本質(zhì)上與第8.4節(jié)中是一樣的。在估計出Var(uz1,z2,...,zm)的一個模型之后,我們將第
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 創(chuàng)新思維與綠色產(chǎn)品設計
- 企業(yè)員工對個人防護裝備的認知度調(diào)查與分析
- 信息化時代下的小學教育變革
- 《Review A Music Show》(教學實錄)-2024-2025學年教科版(2024)英語三年級上冊
- 臨床醫(yī)學中的雙保險尿液與血液的聯(lián)合分析
- 利用科技進行科學的膳食管理和指導-家庭營養(yǎng)餐應用分析
- 創(chuàng)新創(chuàng)業(yè)教育背景下的學校綜合考評研究
- 健康飲食在健康教育課程中的價值探討
- 以人為本的小學數(shù)學課程多媒體應用分析
- 突發(fā)身體不適應急處理措施
- 中國地質(zhì)大學(武漢)《自然語言處理》2022-2023學年第一學期期末試卷
- 【物理】2024-2025學年人教版物理八年級上冊 期末復習計算題
- 2024-2025學年語文二年級上冊 統(tǒng)編版期末測試卷(含答案)
- 2024年秋季學期建筑力學#補修課期末綜合試卷-國開(XJ)-參考資料
- 逆風飛翔向陽而生抗逆力主題班會
- 古希臘文明智慧樹知到期末考試答案章節(jié)答案2024年復旦大學
- 小升初個人簡歷模板下載
- GB/T 15605-2008粉塵爆炸泄壓指南
- 公寓de全人物攻略本為個人愛好而制成如需轉(zhuǎn)載注明信息
- 基于單片機的無刷直流風扇轉(zhuǎn)速測量與調(diào)節(jié)
評論
0/150
提交評論