




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、1.ttest 二個樣本獨(dú)立T檢驗use /stat/stata/webbooks/reg/elemapi2ttest api00, by(yr_rnd)Two-sample t test with equal variances2.檢查回歸模型殘差的正態(tài)性一般的觀點(diǎn)是多元回歸要求殘差為正態(tài)分布。實(shí)際情況是,進(jìn)行回歸的有效性檢驗如t檢驗的P值、F檢驗的p值的情況下要求殘差是正態(tài)性分布的,但回歸系數(shù)估計的無偏性并不要求殘差的正態(tài)性。OLS只要求殘差項(誤差項)獨(dú)立同分布。此外,對X變量的正態(tài)分布假設(shè)也不是必要的,例如對虛擬變量的回歸。當(dāng)我們進(jìn)行回歸分析
2、時,通常用 predict 命令提取回歸的殘差項,并用kdensity, qnorm, pnorm等命令檢驗殘差是否為正態(tài)分布。use /stat/stata/webbooks/reg/elemapi2 /api00:學(xué)術(shù)績效;ell:英語學(xué)習(xí)人數(shù);emer:擁有證書的教師比例;regress api00 meals ell emerpredict r, resid /用predict命令求得殘差kdensity r, normal /用kdensity命令進(jìn)行核心密度估計并生成核密度圖,其中normal選項要求正態(tài)密度和計算的核密度疊加。核密度圖可
3、以相像成是一系列無限小的柱狀圖組合而成。pnorm r / pnorm命令畫出標(biāo)準(zhǔn)正態(tài)概率圖(P-P)。pnorm對數(shù)據(jù)中段的非正態(tài)性非常敏感。qnorm r / qnorm命令畫出變量的分位數(shù)(與分位數(shù)的正態(tài)分布相反)。qnorm對數(shù)據(jù)兩端的非正態(tài)性比較敏感。從上面兩張圖可以看到,殘差分布稍微偏離正態(tài)分布,接受殘差分布為正態(tài)分布的假設(shè)。除圖形檢驗外,還可以用數(shù)值方法檢驗分布的正態(tài)性。其中一個檢驗程序是由Lawrence C. Hamilton編寫的,可以通過findit iqr命令將其從網(wǎng)絡(luò)中搜尋并安裝,或者在Stata中的幫助里查找iqr,找到后擊相對應(yīng)的程序再點(diǎn)擊、install。iqr
4、 r另一個可用的檢驗是swilk命令,是Shapiro-Wilk W正態(tài)性檢驗,零假設(shè)為正態(tài)分布。swilk r從檢驗結(jié)果來看,p值非常大(p=0.51),表明不能拒絕零假設(shè)。3.檢查殘差的同方差(Checking Homoscedasticity of Residuals)OLS的一個主要假設(shè)是殘差方差是齊次的,即同方差。如果模型擬合較好,殘差圖和擬合值應(yīng)該是一致的。如果殘差的方差不是常數(shù),意味著殘差方差為“異方差”(heteroscedastic)??梢杂脠D形法,或者非圖形法檢測異方差。較常用的圖形法是畫出殘差與擬合值,即rvfplot命令。rvfplot , yline(0) / yli
5、ne(0)選項指使用y=0作為參考線。從圖上可以看到數(shù)據(jù)點(diǎn)分布基本均勻,只是右端有點(diǎn)窄,這時可認(rèn)為是同方差。還有兩個命令可以檢驗同方差,estat imtest和estat hettest。 第一個是White's test,第二個是Breusch-Pagan test。二者的零假設(shè)均為方差殘差是同方差。因此,如果p值非常小,我們拒絕零假設(shè),接受備擇假設(shè),即存在異方差。estat imtestestat hettest從上面的結(jié)果來看,拒絕了同方差的零假設(shè)。這兩個檢驗對模型假設(shè)非常敏感,因此需要和圖形診斷結(jié)合起來檢驗異方差,以及決定是否需要修正異方差。從前面的例子來看,圖形分析結(jié)果不是
6、很明確。如何修正異方差,則需要用GLS(廣義最小二乘法)、FGLS(可行廣義最小二乘法)、WLS(加權(quán)最小二乘法)估計來解決,或者使用穩(wěn)健標(biāo)準(zhǔn)差進(jìn)行回歸(Stata的命令是在回歸時加上robust參數(shù))。使用“OLS+穩(wěn)健標(biāo)準(zhǔn)差”時對回歸系數(shù)和標(biāo)準(zhǔn)差的估計都是一致的,并不需要知道條件方差函數(shù)的形式,在Stata中的操作也十分簡單,在回歸命令reg后加上選擇項“robust”即可。從理論上來講,GLS是BLUE,但FGLS即非線性估計,也不是無偏估計,因此它不是BLUE。FGLS必須先用用樣本數(shù)據(jù)來一致地估計擾動項的協(xié)方差矩陣V(X),然后再使用GLS,因此也被稱為可行加權(quán)最小二乘法(FWLS)
7、,有,其中V是V的一致估計,此時V是數(shù)據(jù)集(y, x)的非線性函數(shù),因此FGLS是y的非線性函數(shù),一般來說是有偏的。FWLS一般用于大樣本理論中。FWLS的另一個缺點(diǎn)是必段估計條件方差函數(shù)Vari|xi,而通常情況下并不知道條件方差的具體形式,如果該函數(shù)的設(shè)定不正確,則根據(jù)FWLS計算的標(biāo)準(zhǔn)差可能失效從而導(dǎo)致不正確的推斷。總之“OLS+穩(wěn)健標(biāo)準(zhǔn)差”適用于更一般的情形,而FWLS更為有效,因此我們必須在穩(wěn)健性和有效性之間作出選擇。具體來說,如果對V的估計不準(zhǔn)確,F(xiàn)WLS估計效果不如“OLS+穩(wěn)健標(biāo)準(zhǔn)差”。Stock and Waston(2004)建議大多數(shù)情況下應(yīng)該使用后者。下面是一個完整診斷
8、異方差和處理異方差的例子。use nerlve.dta, clearreg lntc lnq lnpl lnpk lnpfrvfplot /畫殘差與擬合值的散點(diǎn)圖rvpplot lnq /畫殘差與解釋變量的散點(diǎn)圖從上面兩個圖均可以看到殘差和擬合值、解釋變量均存在較大的波動,很可能存在異方差。Estat imtest, white /懷特檢驗estat hettest, iid /默認(rèn)設(shè)置為使用擬合值y檢驗,同時假定擾動項i獨(dú)立同分布estat hettest, rhs iid /使用方程右邊的解釋變量進(jìn)行檢驗estat hottest lnq, iid /各種BP檢驗結(jié)果的p值都拒絕同方差的原
9、假設(shè)在stata中實(shí)現(xiàn)WLS的方法如下:reg (被解釋變量) (解釋變量1) (解釋變量2) aweight=變量名其中,aweight后面的變量就是權(quán)重,是我們設(shè)定的函數(shù)。一種經(jīng)常的設(shè)定是假設(shè)擾動項的條件方差是所有解釋變量的某個線性組合的指數(shù)函數(shù)。在stata中也可以方便地實(shí)現(xiàn):首先做標(biāo)準(zhǔn)的OLS回歸,并得到殘差項;reg (被解釋變量) (解釋變量1) (解釋變量2)predict r, resid生成新變量logusq,并用它對所有解釋變量做回歸,得到這個回歸的擬合值,再對這個擬合值求指數(shù)函數(shù);gen logusq=ln(r2)reg logusq (解釋變量1) (解釋變量2)pre
10、dict g, xbgen h=exp(g)最后以h作為權(quán)重做WLS回歸;reg (被解釋變量) (解釋變量1) (解釋變量2) aweight=h如果我們確切地知道擾動項的協(xié)方差矩陣的形式,那么GLS估計是最小方差線性無偏估計,是所有線性估計中最好的。顯然它比OLS更有效率。雖然GLS有很多好處,但有一個致命弱點(diǎn):就是一般而言我們不知道擾動項的協(xié)方差矩陣,因而無法保證結(jié)果的有效性。到現(xiàn)在我們已經(jīng)有了兩種處理異方差的方法:一是使用對異方差穩(wěn)健的標(biāo)準(zhǔn)誤調(diào)整t統(tǒng)計量,并以此作推斷;另一種是設(shè)定異方差的形式,使用可行的GLS得到有效估計。下面總結(jié)一下標(biāo)準(zhǔn)的OLS估計同上述兩種方法的優(yōu)劣,并結(jié)合檢驗異
11、方差的方法,給出處理異方差的一般步驟。4.檢查多重共線性(Checking for Multicollinearity)多重共線性指兩個以上解釋變量有較強(qiáng)的關(guān)聯(lián)性,這意味著它們之間是可以相互替代的。我們主要關(guān)心多重共線性的程度有多少?因為從OLS估計的假設(shè)來看,多重共線性會導(dǎo)致回歸系數(shù)標(biāo)準(zhǔn)誤大幅增加,使得估計的回歸系數(shù)不穩(wěn)定。可以使用vif命令在回歸完成后檢驗多重共線性。vif可以替代方差波動指標(biāo),如果VIF值大于10,說明存在多重共線性。一般來說VIF值在0.1-10之間是可以接受的,即因變量可以看成是其它自變量的線性組合。regress api00 meals ell emervif /共
12、線性檢驗結(jié)果可以接受regress api00 acs_k3 avg_ed grad_sch col_grad some_col /又一個例子vif /共線性檢驗結(jié)果可以接受從上面VIF和1/VIF(容忍度)的結(jié)果來看,avg_ed,grad_sch和col_grad變量的結(jié)果比較糟糕,所有這些衡量父母受教育程度的變量有較高的VIF值,這說明部分變量是過度加入的。例如,當(dāng)?shù)弥猺ad_sch和col_grad的值時,能夠求出avg_ed的值。因為在模型中放入了3個同樣說明父母教育程度的變量,多重共線性情況就非常嚴(yán)重。去掉一個解釋父母受教育平均程度的解釋變量avg_ed,可以看到VIF值變得比較理
13、想。同樣,也可以看到變量grad_sch和col_grad的回歸標(biāo)準(zhǔn)誤較之前面一個回歸模型大幅減小,因為多重共線性會導(dǎo)致回歸標(biāo)準(zhǔn)誤大幅增加。當(dāng)多重共線性情況消除后,變量grad_sch從不顯著變變得顯著了。regress api00 acs_k3 grad_sch col_grad some_colvif另一個檢測多重共線性的命令為collin,它提供了幾種不同的測量方法。我們可以檢驗上面兩個回歸模型中變量之間的共線性問題,可以看到,不像vif命令,collin命令不需要在回歸之后進(jìn)行,因此只有解釋變量(predictor)可以進(jìn)行共線性檢驗。Collin命令是第三方開發(fā)的,需要用前面說過的方
14、法(findit)安裝。命令為findit collin,然后在彈出來的幫助窗口找到如下內(nèi)容,點(diǎn)擊后安裝即可。collin acs_k3 avg_ed grad_sch col_grad some_col把VIF值最大的變量avg_ed刪除再檢驗一次,結(jié)果顯示良好。collin acs_k3 grad_sch col_grad some_col注:collin的幫助文件:-help for collin-Collinearity Diagnostics-collin varlist if exp in range , corr rinvDescriptioncollin computes se
15、veral collinearity diagnostic measures including VIF, tolerance, eigenvalues, condition index, and R-squared. It will compute the eigenvalues and condition index on either the raw SSCP with an intercept (default) or the deviation SSCP without an intercept.Optioncorr Eigenvalues and condition index c
16、omputed from correlation matrix without a constant. By default the eigenvalues and condition index are computed on the scaled raw score SSCP matrix with an intercept.rinv display inverse of correlation matrix.Examplescollin read write mathcollin read write math, corr rinvcollin read write math if ge
17、nder=1collin read write math if e(sample)5.線性檢驗(Checking Linearity)進(jìn)行線性回歸時,假設(shè)自變量和因變量都是線性的,這就是線性假設(shè)。如果該假設(shè)無效,回歸估計將試圖將自變量與因變量的關(guān)系擬合成一條直線而不是遵循線性關(guān)系。因為只有一個因變量,因此檢驗線性關(guān)系較為簡單,只要看自變量和因變量的散點(diǎn)圖是否存在線性關(guān)系即可。use /stat/stata/webbooks/reg/elemapi2regress api00 enrolltwoway (scatter api00 enroll) (l
18、fit api00 enroll) (lowess api00 enroll)用scatter命令看api00的擬合情況,lfit命令是顯示線性擬合,lowess則是經(jīng)過平滑修飾的擬合線,可以看到二者存在一定程度的非線性關(guān)系。對于多元回歸而言,線性假設(shè)檢驗更復(fù)雜一些。較為直接的方法是回歸之后將殘差與每個自變量描繪在圖上。如果能看到?jīng)]有明顯的線性關(guān)系,即存在非線性。此外還可以從散點(diǎn)圖上看是否是隨機(jī)分布的。仍然用elemapi2數(shù)據(jù),用其它一些變量回歸:regress api00 meals some_colpredict r, residscatter r mealsscatter r some
19、_col上面兩個殘差與解釋變量的散點(diǎn)圖說明殘差與二個變量之間存在一定的線性關(guān)系,初步可以接受線性假設(shè)。命令acprplot是另一種檢驗非線性關(guān)系的方法。acprplot描繪出擴(kuò)展的解釋變量+殘差圖,可用于診斷數(shù)據(jù)的非線性關(guān)系。acprplot meals, lowess lsopts(bwidth(1) / lowess lsopts(bwidth(1)參數(shù)分別指使用平滑曲線表示擬合,lsopts(bwidth(1)指帶寬平滑度設(shè)置為1.下面是幫助文件中具體的解釋。幫助文件打開的是Postestimation tools for regress的相關(guān)內(nèi)容,具體解釋需要自己找一下。bwidth(
20、#) specifies the bandwidth. Centered subsets of bwidth()*N observations are used for calculating smoothed values for each point in the data except for end points, where smaller, uncentered subsets are used. The greater the bwidth(), the greater the smoothing. The default is 0.8.acprplot some_col, lo
21、wess lsopts(bwidth(1)第一張圖中擬合的平滑曲線比較接近原始的回歸線,說明是線性的。第二張圖在擬合線的右側(cè)存在非線性的問題,這也許是某個數(shù)據(jù)所造成的。總之二個變量都不存在明顯的非線性問題。另外一個例子來自"Statistics with Stata 5" by Lawrence C. Hamilton (Duxbery Press, 1997)。use /stat/stata/examples/sws5/nations, cleardescriberegress birth gnpcap urban / birt
22、h指出生率,gnpcap指人均國民生產(chǎn)總值,urban指城市人口數(shù)量。acprplot gnpcap, lowessacprplot urban, lowess結(jié)果很明顯。graph matrix birth gnpcap urban, half可以看到出生率和人均GDP,城市人口與人均GDP都存在明顯的非線性關(guān)系,這時需要把人均GDP這一變量做些處理。首先看一下變量gnpcap的分布情況,用kdensity命令:kdensity gnpcap, normal /單變量核密度估計可以看到gnpcap的分布有較大左傾,這意味著需要對變量進(jìn)行處理。通常的辦法是取對數(shù)。generate lggnp=
23、log(gnpcap) /生成新變量lggnp,值為gnpcap的以10為底的對數(shù);label variable lggnp "log-10 of gnpcap" /給新變量加上標(biāo)簽,這會顯示在變量欄里; kdensity lggnp, normal經(jīng)過取對數(shù)轉(zhuǎn)換后好多了。用新的變量lggnp加入回歸。regress birth lggnp urbanacprplot lggnp, lowess可以看到,盡管仍然存在非線性問題,但較之以前情況有了很大改善。6 模型設(shè)定檢驗(Model Specification)當(dāng)模型忽略了重要變量,或者無關(guān)變量加入回歸方程都會導(dǎo)致模型設(shè)定錯誤。前者會導(dǎo)致將有效變量的共同方差歸到現(xiàn)有的變量當(dāng)中,且誤差項的方差包含了重要變量,因此會變得較大。后者則會導(dǎo)致正確變量的方差錯誤地歸結(jié)無關(guān)變量上。模型設(shè)定錯誤會顯著影響系數(shù)估計。下面的模型要驗證班級規(guī)模對成績有正向影響,即班級規(guī)模越大,成績會越高??匆坏侥P驮O(shè)定。use /stat/stata/webbooks/reg/elemapi2, clearregress api00 acs_k3有兩種辦法檢驗?zāi)P驮O(shè)定。 linktest命令可以對單方程的模型設(shè)定進(jìn)行檢驗,它的基本思想是如果模型設(shè)定正確,其它變量很少有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 山東協(xié)和學(xué)院教師招聘真題2024
- 吉林吉林市中心醫(yī)院招聘真題2024
- 貝爾安親崗前培訓(xùn)心得
- 腹部CTA在臨床中的應(yīng)用
- 構(gòu)建社區(qū)夢想家園
- 2025至2030年中國男駱駝鞍棉鞋數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國機(jī)械木包裝箱數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國掃描式熱金屬檢測器市場分析及競爭策略研究報告
- 金審工作培訓(xùn)
- 2025-2035年全球及中國無花果小吃行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 【MOOC】社會調(diào)查與研究方法-北京大學(xué) 中國大學(xué)慕課MOOC答案
- 自身免疫性腦炎護(hù)理常規(guī)
- 2025年慢性阻塞性肺疾病全球創(chuàng)議GOLD指南修訂解讀課件
- 幼兒園小班健康公開課《笑一笑》課件
- 小學(xué)五年級家長會-主題班會
- DB11T 211-2017 園林綠化用植物材料 木本苗
- 《PLC應(yīng)用技術(shù)(西門子S7-1200)第二版》全套教學(xué)課件
- 16S524塑料排水檢查井-井筒直徑Φ700~Φ1000
- 2024年上半年教師資格證《高中物理》真題及答案
- 咽喉科內(nèi)鏡診療技術(shù)培訓(xùn)大綱
- GB 8903-2024電梯用鋼絲繩
評論
0/150
提交評論