版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1.ttest 二個(gè)樣本獨(dú)立T檢驗(yàn)use /stat/stata/webbooks/reg/elemapi2ttest api00, by(yr_rnd)Two-sample t test with equal variances2.檢查回歸模型殘差的正態(tài)性一般的觀點(diǎn)是多元回歸要求殘差為正態(tài)分布。實(shí)際情況是,進(jìn)行回歸的有效性檢驗(yàn)如t檢驗(yàn)的P值、F檢驗(yàn)的p值的情況下要求殘差是正態(tài)性分布的,但回歸系數(shù)估計(jì)的無(wú)偏性并不要求殘差的正態(tài)性。OLS只要求殘差項(xiàng)(誤差項(xiàng))獨(dú)立同分布。此外,對(duì)X變量的正態(tài)分布假設(shè)也不是必要的,例如對(duì)虛擬變量的回歸。當(dāng)我們進(jìn)行回歸分析
2、時(shí),通常用 predict 命令提取回歸的殘差項(xiàng),并用kdensity, qnorm, pnorm等命令檢驗(yàn)殘差是否為正態(tài)分布。use /stat/stata/webbooks/reg/elemapi2 /api00:學(xué)術(shù)績(jī)效;ell:英語(yǔ)學(xué)習(xí)人數(shù);emer:擁有證書的教師比例;regress api00 meals ell emerpredict r, resid /用predict命令求得殘差kdensity r, normal /用kdensity命令進(jìn)行核心密度估計(jì)并生成核密度圖,其中normal選項(xiàng)要求正態(tài)密度和計(jì)算的核密度疊加。核密度圖可
3、以相像成是一系列無(wú)限小的柱狀圖組合而成。pnorm r / pnorm命令畫出標(biāo)準(zhǔn)正態(tài)概率圖(P-P)。pnorm對(duì)數(shù)據(jù)中段的非正態(tài)性非常敏感。qnorm r / qnorm命令畫出變量的分位數(shù)(與分位數(shù)的正態(tài)分布相反)。qnorm對(duì)數(shù)據(jù)兩端的非正態(tài)性比較敏感。從上面兩張圖可以看到,殘差分布稍微偏離正態(tài)分布,接受殘差分布為正態(tài)分布的假設(shè)。除圖形檢驗(yàn)外,還可以用數(shù)值方法檢驗(yàn)分布的正態(tài)性。其中一個(gè)檢驗(yàn)程序是由Lawrence C. Hamilton編寫的,可以通過(guò)findit iqr命令將其從網(wǎng)絡(luò)中搜尋并安裝,或者在Stata中的幫助里查找iqr,找到后擊相對(duì)應(yīng)的程序再點(diǎn)擊、install。iqr
4、 r另一個(gè)可用的檢驗(yàn)是swilk命令,是Shapiro-Wilk W正態(tài)性檢驗(yàn),零假設(shè)為正態(tài)分布。swilk r從檢驗(yàn)結(jié)果來(lái)看,p值非常大(p=0.51),表明不能拒絕零假設(shè)。3.檢查殘差的同方差(Checking Homoscedasticity of Residuals)OLS的一個(gè)主要假設(shè)是殘差方差是齊次的,即同方差。如果模型擬合較好,殘差圖和擬合值應(yīng)該是一致的。如果殘差的方差不是常數(shù),意味著殘差方差為“異方差”(heteroscedastic)??梢杂脠D形法,或者非圖形法檢測(cè)異方差。較常用的圖形法是畫出殘差與擬合值,即rvfplot命令。rvfplot , yline(0) / yli
5、ne(0)選項(xiàng)指使用y=0作為參考線。從圖上可以看到數(shù)據(jù)點(diǎn)分布基本均勻,只是右端有點(diǎn)窄,這時(shí)可認(rèn)為是同方差。還有兩個(gè)命令可以檢驗(yàn)同方差,estat imtest和estat hettest。 第一個(gè)是White's test,第二個(gè)是Breusch-Pagan test。二者的零假設(shè)均為方差殘差是同方差。因此,如果p值非常小,我們拒絕零假設(shè),接受備擇假設(shè),即存在異方差。estat imtestestat hettest從上面的結(jié)果來(lái)看,拒絕了同方差的零假設(shè)。這兩個(gè)檢驗(yàn)對(duì)模型假設(shè)非常敏感,因此需要和圖形診斷結(jié)合起來(lái)檢驗(yàn)異方差,以及決定是否需要修正異方差。從前面的例子來(lái)看,圖形分析結(jié)果不是
6、很明確。如何修正異方差,則需要用GLS(廣義最小二乘法)、FGLS(可行廣義最小二乘法)、WLS(加權(quán)最小二乘法)估計(jì)來(lái)解決,或者使用穩(wěn)健標(biāo)準(zhǔn)差進(jìn)行回歸(Stata的命令是在回歸時(shí)加上robust參數(shù))。使用“OLS+穩(wěn)健標(biāo)準(zhǔn)差”時(shí)對(duì)回歸系數(shù)和標(biāo)準(zhǔn)差的估計(jì)都是一致的,并不需要知道條件方差函數(shù)的形式,在Stata中的操作也十分簡(jiǎn)單,在回歸命令reg后加上選擇項(xiàng)“robust”即可。從理論上來(lái)講,GLS是BLUE,但FGLS即非線性估計(jì),也不是無(wú)偏估計(jì),因此它不是BLUE。FGLS必須先用用樣本數(shù)據(jù)來(lái)一致地估計(jì)擾動(dòng)項(xiàng)的協(xié)方差矩陣V(X),然后再使用GLS,因此也被稱為可行加權(quán)最小二乘法(FWLS)
7、,有,其中V是V的一致估計(jì),此時(shí)V是數(shù)據(jù)集(y, x)的非線性函數(shù),因此FGLS是y的非線性函數(shù),一般來(lái)說(shuō)是有偏的。FWLS一般用于大樣本理論中。FWLS的另一個(gè)缺點(diǎn)是必段估計(jì)條件方差函數(shù)Vari|xi,而通常情況下并不知道條件方差的具體形式,如果該函數(shù)的設(shè)定不正確,則根據(jù)FWLS計(jì)算的標(biāo)準(zhǔn)差可能失效從而導(dǎo)致不正確的推斷??傊癘LS+穩(wěn)健標(biāo)準(zhǔn)差”適用于更一般的情形,而FWLS更為有效,因此我們必須在穩(wěn)健性和有效性之間作出選擇。具體來(lái)說(shuō),如果對(duì)V的估計(jì)不準(zhǔn)確,F(xiàn)WLS估計(jì)效果不如“OLS+穩(wěn)健標(biāo)準(zhǔn)差”。Stock and Waston(2004)建議大多數(shù)情況下應(yīng)該使用后者。下面是一個(gè)完整診斷
8、異方差和處理異方差的例子。use nerlve.dta, clearreg lntc lnq lnpl lnpk lnpfrvfplot /畫殘差與擬合值的散點(diǎn)圖rvpplot lnq /畫殘差與解釋變量的散點(diǎn)圖從上面兩個(gè)圖均可以看到殘差和擬合值、解釋變量均存在較大的波動(dòng),很可能存在異方差。Estat imtest, white /懷特檢驗(yàn)estat hettest, iid /默認(rèn)設(shè)置為使用擬合值y檢驗(yàn),同時(shí)假定擾動(dòng)項(xiàng)i獨(dú)立同分布estat hettest, rhs iid /使用方程右邊的解釋變量進(jìn)行檢驗(yàn)estat hottest lnq, iid /各種BP檢驗(yàn)結(jié)果的p值都拒絕同方差的原
9、假設(shè)在stata中實(shí)現(xiàn)WLS的方法如下:reg (被解釋變量) (解釋變量1) (解釋變量2) aweight=變量名其中,aweight后面的變量就是權(quán)重,是我們?cè)O(shè)定的函數(shù)。一種經(jīng)常的設(shè)定是假設(shè)擾動(dòng)項(xiàng)的條件方差是所有解釋變量的某個(gè)線性組合的指數(shù)函數(shù)。在stata中也可以方便地實(shí)現(xiàn):首先做標(biāo)準(zhǔn)的OLS回歸,并得到殘差項(xiàng);reg (被解釋變量) (解釋變量1) (解釋變量2)predict r, resid生成新變量logusq,并用它對(duì)所有解釋變量做回歸,得到這個(gè)回歸的擬合值,再對(duì)這個(gè)擬合值求指數(shù)函數(shù);gen logusq=ln(r2)reg logusq (解釋變量1) (解釋變量2)pre
10、dict g, xbgen h=exp(g)最后以h作為權(quán)重做WLS回歸;reg (被解釋變量) (解釋變量1) (解釋變量2) aweight=h如果我們確切地知道擾動(dòng)項(xiàng)的協(xié)方差矩陣的形式,那么GLS估計(jì)是最小方差線性無(wú)偏估計(jì),是所有線性估計(jì)中最好的。顯然它比OLS更有效率。雖然GLS有很多好處,但有一個(gè)致命弱點(diǎn):就是一般而言我們不知道擾動(dòng)項(xiàng)的協(xié)方差矩陣,因而無(wú)法保證結(jié)果的有效性。到現(xiàn)在我們已經(jīng)有了兩種處理異方差的方法:一是使用對(duì)異方差穩(wěn)健的標(biāo)準(zhǔn)誤調(diào)整t統(tǒng)計(jì)量,并以此作推斷;另一種是設(shè)定異方差的形式,使用可行的GLS得到有效估計(jì)。下面總結(jié)一下標(biāo)準(zhǔn)的OLS估計(jì)同上述兩種方法的優(yōu)劣,并結(jié)合檢驗(yàn)異
11、方差的方法,給出處理異方差的一般步驟。4.檢查多重共線性(Checking for Multicollinearity)多重共線性指兩個(gè)以上解釋變量有較強(qiáng)的關(guān)聯(lián)性,這意味著它們之間是可以相互替代的。我們主要關(guān)心多重共線性的程度有多少?因?yàn)閺腛LS估計(jì)的假設(shè)來(lái)看,多重共線性會(huì)導(dǎo)致回歸系數(shù)標(biāo)準(zhǔn)誤大幅增加,使得估計(jì)的回歸系數(shù)不穩(wěn)定??梢允褂胿if命令在回歸完成后檢驗(yàn)多重共線性。vif可以替代方差波動(dòng)指標(biāo),如果VIF值大于10,說(shuō)明存在多重共線性。一般來(lái)說(shuō)VIF值在0.1-10之間是可以接受的,即因變量可以看成是其它自變量的線性組合。regress api00 meals ell emervif /共
12、線性檢驗(yàn)結(jié)果可以接受regress api00 acs_k3 avg_ed grad_sch col_grad some_col /又一個(gè)例子vif /共線性檢驗(yàn)結(jié)果可以接受從上面VIF和1/VIF(容忍度)的結(jié)果來(lái)看,avg_ed,grad_sch和col_grad變量的結(jié)果比較糟糕,所有這些衡量父母受教育程度的變量有較高的VIF值,這說(shuō)明部分變量是過(guò)度加入的。例如,當(dāng)?shù)弥猺ad_sch和col_grad的值時(shí),能夠求出avg_ed的值。因?yàn)樵谀P椭蟹湃肓?個(gè)同樣說(shuō)明父母教育程度的變量,多重共線性情況就非常嚴(yán)重。去掉一個(gè)解釋父母受教育平均程度的解釋變量avg_ed,可以看到VIF值變得比較理
13、想。同樣,也可以看到變量grad_sch和col_grad的回歸標(biāo)準(zhǔn)誤較之前面一個(gè)回歸模型大幅減小,因?yàn)槎嘀毓簿€性會(huì)導(dǎo)致回歸標(biāo)準(zhǔn)誤大幅增加。當(dāng)多重共線性情況消除后,變量grad_sch從不顯著變變得顯著了。regress api00 acs_k3 grad_sch col_grad some_colvif另一個(gè)檢測(cè)多重共線性的命令為collin,它提供了幾種不同的測(cè)量方法。我們可以檢驗(yàn)上面兩個(gè)回歸模型中變量之間的共線性問(wèn)題,可以看到,不像vif命令,collin命令不需要在回歸之后進(jìn)行,因此只有解釋變量(predictor)可以進(jìn)行共線性檢驗(yàn)。Collin命令是第三方開發(fā)的,需要用前面說(shuō)過(guò)的方
14、法(findit)安裝。命令為findit collin,然后在彈出來(lái)的幫助窗口找到如下內(nèi)容,點(diǎn)擊后安裝即可。collin acs_k3 avg_ed grad_sch col_grad some_col把VIF值最大的變量avg_ed刪除再檢驗(yàn)一次,結(jié)果顯示良好。collin acs_k3 grad_sch col_grad some_col注:collin的幫助文件:-help for collin-Collinearity Diagnostics-collin varlist if exp in range , corr rinvDescriptioncollin computes se
15、veral collinearity diagnostic measures including VIF, tolerance, eigenvalues, condition index, and R-squared. It will compute the eigenvalues and condition index on either the raw SSCP with an intercept (default) or the deviation SSCP without an intercept.Optioncorr Eigenvalues and condition index c
16、omputed from correlation matrix without a constant. By default the eigenvalues and condition index are computed on the scaled raw score SSCP matrix with an intercept.rinv display inverse of correlation matrix.Examplescollin read write mathcollin read write math, corr rinvcollin read write math if ge
17、nder=1collin read write math if e(sample)5.線性檢驗(yàn)(Checking Linearity)進(jìn)行線性回歸時(shí),假設(shè)自變量和因變量都是線性的,這就是線性假設(shè)。如果該假設(shè)無(wú)效,回歸估計(jì)將試圖將自變量與因變量的關(guān)系擬合成一條直線而不是遵循線性關(guān)系。因?yàn)橹挥幸粋€(gè)因變量,因此檢驗(yàn)線性關(guān)系較為簡(jiǎn)單,只要看自變量和因變量的散點(diǎn)圖是否存在線性關(guān)系即可。use /stat/stata/webbooks/reg/elemapi2regress api00 enrolltwoway (scatter api00 enroll) (l
18、fit api00 enroll) (lowess api00 enroll)用scatter命令看api00的擬合情況,lfit命令是顯示線性擬合,lowess則是經(jīng)過(guò)平滑修飾的擬合線,可以看到二者存在一定程度的非線性關(guān)系。對(duì)于多元回歸而言,線性假設(shè)檢驗(yàn)更復(fù)雜一些。較為直接的方法是回歸之后將殘差與每個(gè)自變量描繪在圖上。如果能看到?jīng)]有明顯的線性關(guān)系,即存在非線性。此外還可以從散點(diǎn)圖上看是否是隨機(jī)分布的。仍然用elemapi2數(shù)據(jù),用其它一些變量回歸:regress api00 meals some_colpredict r, residscatter r mealsscatter r some
19、_col上面兩個(gè)殘差與解釋變量的散點(diǎn)圖說(shuō)明殘差與二個(gè)變量之間存在一定的線性關(guān)系,初步可以接受線性假設(shè)。命令acprplot是另一種檢驗(yàn)非線性關(guān)系的方法。acprplot描繪出擴(kuò)展的解釋變量+殘差圖,可用于診斷數(shù)據(jù)的非線性關(guān)系。acprplot meals, lowess lsopts(bwidth(1) / lowess lsopts(bwidth(1)參數(shù)分別指使用平滑曲線表示擬合,lsopts(bwidth(1)指帶寬平滑度設(shè)置為1.下面是幫助文件中具體的解釋。幫助文件打開的是Postestimation tools for regress的相關(guān)內(nèi)容,具體解釋需要自己找一下。bwidth(
20、#) specifies the bandwidth. Centered subsets of bwidth()*N observations are used for calculating smoothed values for each point in the data except for end points, where smaller, uncentered subsets are used. The greater the bwidth(), the greater the smoothing. The default is 0.8.acprplot some_col, lo
21、wess lsopts(bwidth(1)第一張圖中擬合的平滑曲線比較接近原始的回歸線,說(shuō)明是線性的。第二張圖在擬合線的右側(cè)存在非線性的問(wèn)題,這也許是某個(gè)數(shù)據(jù)所造成的??傊€(gè)變量都不存在明顯的非線性問(wèn)題。另外一個(gè)例子來(lái)自"Statistics with Stata 5" by Lawrence C. Hamilton (Duxbery Press, 1997)。use /stat/stata/examples/sws5/nations, cleardescriberegress birth gnpcap urban / birt
22、h指出生率,gnpcap指人均國(guó)民生產(chǎn)總值,urban指城市人口數(shù)量。acprplot gnpcap, lowessacprplot urban, lowess結(jié)果很明顯。graph matrix birth gnpcap urban, half可以看到出生率和人均GDP,城市人口與人均GDP都存在明顯的非線性關(guān)系,這時(shí)需要把人均GDP這一變量做些處理。首先看一下變量gnpcap的分布情況,用kdensity命令:kdensity gnpcap, normal /單變量核密度估計(jì)可以看到gnpcap的分布有較大左傾,這意味著需要對(duì)變量進(jìn)行處理。通常的辦法是取對(duì)數(shù)。generate lggnp=
23、log(gnpcap) /生成新變量lggnp,值為gnpcap的以10為底的對(duì)數(shù);label variable lggnp "log-10 of gnpcap" /給新變量加上標(biāo)簽,這會(huì)顯示在變量欄里; kdensity lggnp, normal經(jīng)過(guò)取對(duì)數(shù)轉(zhuǎn)換后好多了。用新的變量lggnp加入回歸。regress birth lggnp urbanacprplot lggnp, lowess可以看到,盡管仍然存在非線性問(wèn)題,但較之以前情況有了很大改善。6 模型設(shè)定檢驗(yàn)(Model Specification)當(dāng)模型忽略了重要變量,或者無(wú)關(guān)變量加入回歸方程都會(huì)導(dǎo)致模型設(shè)定錯(cuò)誤。前者會(huì)導(dǎo)致將有效變量的共同方差歸到現(xiàn)有的變量當(dāng)中,且誤差項(xiàng)的方差包含了重要變量,因此會(huì)變得較大。后者則會(huì)導(dǎo)致正確變量的方差錯(cuò)誤地歸結(jié)無(wú)關(guān)變量上。模型設(shè)定錯(cuò)誤會(huì)顯著影響系數(shù)估計(jì)。下面的模型要驗(yàn)證班級(jí)規(guī)模對(duì)成績(jī)有正向影響,即班級(jí)規(guī)模越大,成績(jī)會(huì)越高??匆坏侥P驮O(shè)定。use /stat/stata/webbooks/reg/elemapi2, clearregress api00 acs_k3有兩種辦法檢驗(yàn)?zāi)P驮O(shè)定。 linktest命令可以對(duì)單方程的模型設(shè)定進(jìn)行檢驗(yàn),它的基本思想是如果模型設(shè)定正確,其它變量很少有
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 光伏產(chǎn)品購(gòu)銷合同范本
- 2025年度煤礦礦產(chǎn)資源補(bǔ)償費(fèi)轉(zhuǎn)讓合同范本4篇
- 2025教職工雇傭合同范文
- 2025年教育機(jī)構(gòu)校田地承包與農(nóng)業(yè)科技創(chuàng)新協(xié)議3篇
- 二零二五年度食品添加劑銷售合作協(xié)議3篇
- 2025年度二零二五毛竹山生態(tài)旅游項(xiàng)目承包合同范本4篇
- 2025-2030年中國(guó)齒輪泵行業(yè)發(fā)展?fàn)顩r及投資前景規(guī)劃研究報(bào)告
- 2025-2030年中國(guó)風(fēng)扇電機(jī)制造產(chǎn)業(yè)規(guī)模分析及投資前景規(guī)劃研究報(bào)告
- 2025-2030年中國(guó)零售百貨行業(yè)發(fā)展?fàn)顩r及營(yíng)銷戰(zhàn)略研究報(bào)告
- 2025-2030年中國(guó)隱形眼鏡行業(yè)市場(chǎng)發(fā)展?jié)摿εc投資策略建議報(bào)告
- 白熊效應(yīng)(修訂版)
- 小學(xué)數(shù)學(xué)知識(shí)結(jié)構(gòu)化教學(xué)
- 視頻監(jiān)控維保項(xiàng)目投標(biāo)方案(技術(shù)標(biāo))
- 社會(huì)組織能力建設(shè)培訓(xùn)
- 立項(xiàng)報(bào)告蓋章要求
- 2022年睪丸腫瘤診斷治療指南
- 被執(zhí)行人給法院執(zhí)行局寫申請(qǐng)范本
- 主變壓器試驗(yàn)報(bào)告模板
- 安全防護(hù)通道施工方案
- 視覺元素對(duì)心理感知的影響
- 柴油供貨運(yùn)輸服務(wù)方案
評(píng)論
0/150
提交評(píng)論