違背基本假設(shè)情況_第1頁
違背基本假設(shè)情況_第2頁
違背基本假設(shè)情況_第3頁
違背基本假設(shè)情況_第4頁
違背基本假設(shè)情況_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

違背基本假設(shè)的情況一、 異方差產(chǎn)生的原因在建立實際問題的回歸分析模型時,經(jīng)常會出現(xiàn)某一因素或一些因素隨著解釋變量觀測值的變化而對被解釋變量產(chǎn)生不同的影響,導致隨機誤差項產(chǎn)生不同的方差。即:var(e.)。var(e.),當i。,時。利用平均數(shù)作為樣本數(shù)據(jù),也容易出現(xiàn)異方差性。因為正態(tài)分布的普遍性,許多經(jīng)濟變量之間的關(guān)系遵從正態(tài)分布。例如不同收入水平組的人數(shù)隨收入增加呈正態(tài)分布。如果在以不同收入組的人平均數(shù)據(jù)作為樣本時,由于每組中人數(shù)不同,觀察誤差也不同。一般來說,人數(shù)多的收入組的人均數(shù)據(jù)較人數(shù)少的收入組人均數(shù)據(jù)具有較高的準確性。這不同的觀察誤差也會引起異方差性,且var(ei)隨收入的增加呈先降后升的趨勢。樣本數(shù)據(jù)為截面數(shù)據(jù)時容易出現(xiàn)異方差性。二、 異方差性帶來的問題當存在異方差性時,最小二乘估計量不在具有最小方差的優(yōu)良性,參數(shù)向量B的方差大于在同方差條件下的方差,如果用普通最小二乘法估計參數(shù),將出現(xiàn)低估B的真實方差的情況。將導致回歸系數(shù)的t檢驗值高估,可能造成本來不顯著的某些回歸系數(shù)變成顯著。當存在異方差時,普通最小二乘法估計存在以下問題:1、 參數(shù)估計值雖然是無偏的,但不是最小方差線性無偏估計。2、 參數(shù)的顯著性檢驗失效。3、 回歸方程的應(yīng)用效果極不理想。三、 異方差性的檢驗1、殘差圖分析法殘差圖分析法是一種只管、方便的分析方法。它以殘差匕為縱坐標,以其他適宜的變量為橫坐標畫散點圖。常用的橫坐標有三種選擇:(1)以擬合值寧為橫坐標;(2)以七(i=1,2,,p)為橫坐標;(3)以觀測時間或序號為橫坐標。5.6兒種常格的錢分布不盤圖(a)線性關(guān)系成立;(b)x加入二次方項;(c)存在異方差,需要改變x形式(d)殘差與時間t有關(guān)??赡苓z漏變量或者存在序列相關(guān),需要引入變量。2、等級相關(guān)系數(shù)法等級相關(guān)系數(shù)又稱斯皮爾曼(Spearman)檢驗,是一種應(yīng)用較廣泛的方法。這種檢驗方法既可用于大樣本,也可以用于小樣本。進行等級相關(guān)系數(shù)檢驗通常有三個步驟:第一步,做y關(guān)于x的普通最小二乘回歸,求出e,的估計值,即匕的值第二步,取e的絕對值,即|e|,把x和|e|按遞增或遞減的次序排列后分成等i i ii級,按下式計算出等級相關(guān)系數(shù):氣=1—:_咒d;,其中,n為樣本容量,i=1d為對應(yīng)于x和|e|的等級的差數(shù)。i ii第三步,做等級相關(guān)系數(shù)的顯著性檢驗。在n>8的情況下,用下式對樣本等級相關(guān)系數(shù)^進行t檢驗,檢驗統(tǒng)計量為:t=也登,如果t<危-2)可以認為Y1-[2異方差性問題不存在,如果t>t(n-2),說明x與|e|之間存在系統(tǒng)關(guān)系,異a2 ii方差性問題存在。(在這個檢驗中,原假設(shè)為:不存在異方差性)3、實例1分析用普通最小二乘法建立儲蓄與居民收入的回歸方差,并畫出殘差散點圖;診斷該問題是否存在異方差性。數(shù)據(jù)如下所示:儲蓄y居民收入乂七等級殘差ei|匕|殘差|匕|等級did226487771169.0169.016-1522510592102-26.626.63-119099543-104.6104.67-416131105084-110.5110.58-416122109795-159.4159.415-10100107119126-253.4253.423-17289406127477-25.125.125255031349988.28.21749431142699-129.0129.09005881552210-78.078.046368981673011129.7129.710119501766312102.7102.766367791857513-145.5145.514-118191963514-195.3195.319-5251222211631578.478.451010017022288016413.0413.028-1214415782412717183.4183.418-1116542560418134.4134.41174914002650019-195.5195.520-1118292767020134.4134.412864

22002830021452.1452.129-86420172743022342.8342.827-52521052956023250.4250.4221116002815024-135.2135.2131112122503210025180.4180.41786424203250026316.5316.5251125703525027233.7233.72163617203350028-468.2468.230-2419003600029-499.8499.831-2421003620030-316.7316.72641623003820031-286.1286.124749用SPSS軟件建立y對x的普通最小二乘回歸,決定系數(shù)r2=0.192,回歸標準差預=247.62,回歸方程為y=-648.124+0.0847尤,相關(guān)輸出表如下:ModelSummarybModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.955a.912.909247.623Predictors:(Constant),xDependentVariable:yANOVAbModelSumofSquaresdfMeanSquareFSig.1 Regression1.844E711.844E7300.732.000aResidual1778202.7352961317.336Total2.022E730Predictors:(Constant),xDependentVariable:yCoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1 (Constant)x-648.124.085118.163.005.955-5.48517.342.000.000a.DependentVariable:y

計算等級相關(guān)系數(shù),根據(jù)所給的數(shù)據(jù)表,可以通過等級相關(guān)系數(shù)步驟判斷誤差項是否存在異方差。實際操作當中,可以用SPSS實現(xiàn),輸出結(jié)果如下所示:CorrelationsxabseSpearman'srhox CorrelationCoefficient1.000.685**Sig.(2-tailed)..000N3131abseCorrelationCoefficient.685**1.000Sig.(2-tailed).000.N3131**.Correlationissignificantatthe0.01level(2-tailed).可以看出等級相關(guān)系數(shù)r=0.685,p值=0.000,認為殘差絕對值|e|與自變量x顯s i i著相關(guān),存在異方差。計算殘差絕對值|e.|與自變量x的相關(guān)性時采用Spearman等級相關(guān)系數(shù),而不采用Pearson簡單相關(guān)系數(shù),這是由于等級相關(guān)系數(shù)可以反映非線性相關(guān)的情況,而簡單相關(guān)系數(shù)不能如實反映非線性相關(guān)的情況。等級相關(guān)系數(shù)可以如實反映單調(diào)遞增或單調(diào)遞減趨勢的變量間的相關(guān)性,而簡單相關(guān)系數(shù)值適宜衡量直線趨勢變量間的向關(guān)系。四、一元加權(quán)最小二乘估計當研究的問題存在異方差性時,就不能用普通最小二乘法進行參數(shù)估計了。消除異方差性的方法通常有加權(quán)最小二乘法、Box-Cox變換法、方差穩(wěn)定變換法。對于一元線性回歸方程來說,普通最小二乘法的離差平方和為:Q(P,P)=工(y-E(y))2=X(y-P-Px)2,其中每個觀測值的權(quán)數(shù)相同。0 1 i i i0 1ii=1 i=1在等方差的條件下,平方和的每一項的地位是相同的。然而,在異方差的條件下,平方和中的每一項的地位是不同的,誤差項方差七2大的項,在平方和式子中的作用就偏大,因而普通最小二乘估計的回歸線就被拉向方差大的項,而方差小的項的擬合程度就差。加權(quán)最小二乘估計的方法是在平方和中加入一個適當?shù)臋?quán)數(shù).,以調(diào)整各項在平方和中的作用。一元線性回歸的加權(quán)最小二乘的離差平方和為:Q(P,P)=^^w(y一E(y))2=Xw(y-P-Px)2,其中w為0 1 ii i ii0 1i ii=1 i=1給定的權(quán)數(shù)。使用加權(quán)最小二乘法時,為了消除異方差性的影響,為了使各項的地位相同,觀測值的權(quán)數(shù)應(yīng)該是觀測值誤差項方差的倒數(shù),即w,=-1-。誤差項i方差較大的觀測值接受較小的權(quán)數(shù),誤差項方差較小的觀測值接受較大的權(quán)數(shù)。在社會、經(jīng)濟研究中,經(jīng)常會遇到這種特色的權(quán)數(shù),即誤差項方差與x的幕函數(shù)xm成比例,其中,m為待定的未知參數(shù)。此時權(quán)函數(shù)為:w=上。IXmi利用一元加權(quán)最小二乘估計對實例1進行改進,SPSS輸出結(jié)果如下:ModelSummaryMultipleR.967RSquare.936AdjustedRSquare.934Std.ErroroftheEstimate.125Log-likelihoodFunctionValue-209.316ANOVASumofSquaresdfMeanSquareFSig.Regression6.65516.655423.741.000Residual.45529.016Total7.11030改進后的模型可決系數(shù),F(xiàn)值都較之前的有所提高。加權(quán)最小二乘估計照顧小殘差項是以犧牲大殘差項為代價的,當回歸模型存在異方差時,加權(quán)最小二乘估計只是對普通最小二乘法估計的改進,這種改進有可能是細微的,不能理解為加權(quán)最小二乘估計一定會得到與普通最小二乘估計截然不同的回歸方程,或者一定有大幅度的改進。另外,加權(quán)最小二乘以犧牲大方差項的擬合效果為代價改善了小方差項的擬合效果,這也并不總是研究者所需要的。在社會經(jīng)濟現(xiàn)象中,通常變量取值大時方差也大,在以經(jīng)濟總量為研究目標時,更關(guān)心的是變量取值大的項,而普通最小二乘恰好能滿足這個要求。所以在這樣的一些特定場合下,即使數(shù)據(jù)存在異方差,也仍然可以選擇使用普通最小二乘估計。五、 多元加權(quán)最小二乘估計多元線性回歸有多個自變量,通常取權(quán)數(shù)w為某個自變量七(j=1,2,.../)的幕函數(shù),即W=Xm,在X,X,…,X這?個自變量中,應(yīng)該選取哪一個自變量,j 1 2P這只需計算每個自變量X與普通殘差的等級相關(guān)系數(shù),選取等級相關(guān)系數(shù)最大j的自變量構(gòu)造權(quán)函數(shù)。六、 自相關(guān)性如果一個回歸模型不滿足cov(6[,七)豐0,則稱為隨機誤差項之間存在自相關(guān)現(xiàn)象。這里的自相關(guān)現(xiàn)象不是指兩個或者兩個以上的變量之間的相關(guān)關(guān)系,而指的是一個變量前后期數(shù)值之間存在的相關(guān)關(guān)系。七、 自相關(guān)產(chǎn)生的背景和原因產(chǎn)生序列自相關(guān)的背景及原因通常有以下幾個方面。1、 遺漏關(guān)鍵變量時會產(chǎn)生序列的自相關(guān)性。2、 經(jīng)濟變量的滯后性會給序列帶來自相關(guān)性。3、 采用錯誤的回歸函數(shù)形式也可能引起自相關(guān)性。例如,假定某實際問題的正確回歸函數(shù)應(yīng)由指數(shù)形式y(tǒng)=P0exp(P1x+8)來表示,但無用了線性回歸模型y=P0+P1x+8,表示,這時,誤差項"也會表現(xiàn)為自相關(guān)性。4、 蛛網(wǎng)現(xiàn)象可能帶來序列的自相關(guān)性。(經(jīng)濟學中的蛛網(wǎng)模型)5、 因?qū)?shù)據(jù)加工整理而導致誤差項之間產(chǎn)生自相關(guān)性。八、 自相關(guān)性帶來的問題當一個線性回歸模型的隨機誤差項存在序列相關(guān)時,就違背了線性回歸方程的基本假設(shè),仍直接用普通最小二乘法估計未知參數(shù),序列相關(guān)性會帶來下列問題:1、 參數(shù)估計值不再具有最小方差線性無偏性2、 均方誤差MSE可能嚴重低估誤差項的方差。3、 容易導致對t值評價過高,常用的F檢驗和t檢驗失效。4、 當存在序列相關(guān)性時,B仍然是p的無偏估計量,但在任一特定的樣本中,B可能嚴重歪曲p的真實情況,即最小二乘估計量對抽樣波動變得非常敏感。5、如果不加處理地運用普通最小二乘法估計模型參數(shù),用此模型進行預測和進行結(jié)構(gòu)分析將會帶來較大的方差甚至錯誤的解釋。九、自相關(guān)性的診斷1、圖示法圖示法是一種直觀的診斷方法,它是把給定的回歸模型直接用普通最小二乘法估計參數(shù),求出殘差項e,e作為隨機項s的真實值的估計值,在描繪e的散點圖,tt t t根據(jù)et的相關(guān)性來判斷隨機項七的序列相關(guān)性。(1)繪制e,,eti的散點圖。圖文3圖a表明隨機擾動項存在正的序列相關(guān),圖b表明隨機擾動項存在負相關(guān)。(2)按照時間順序繪制回歸殘差項et的圖形,如果et隨著t的變化逐次有規(guī)律地變化,呈現(xiàn)鋸齒形或循環(huán)形狀的變化,可斷言et存在相關(guān),表明s,存在著序列相關(guān)。如果e隨著t的變化逐次變化并不斷地改變符號,如下圖d所示,那么隨機擾t動項st存在負的序列相關(guān),這種現(xiàn)象稱為蛛網(wǎng)現(xiàn)象;如果et隨著t的變化逐次變化并不頻繁地改變符號,而是幾個正的e后面跟著幾個負的,則表明隨著擾動項tst存在正的序列相關(guān),如下圖c所示。2、自相關(guān)函數(shù)法2、自相關(guān)函數(shù)法Eee自相關(guān)函數(shù)的估計值為d=tt—自相關(guān)函數(shù)的估計值為d=tt—1,。作為自相關(guān)系數(shù)p的估計值與樣本量有關(guān),需要做統(tǒng)計顯著性檢驗才能確定自相關(guān)性的存在,通常采用DW檢驗代替對p的檢驗。3、DW檢驗DW檢驗是適用于小樣本的一種檢驗方法,而且DW檢驗只能用于檢驗隨機擾動項具有一階自回歸形式的序列相關(guān)問題。DW=2(1-p),計算出DW值后,根據(jù)樣本容量n和解釋變量的數(shù)目k(包括常數(shù)項)查DW分布表,得出臨界值有和氣。0<D.W<氣,誤差項£,£,???點間存在正相關(guān);1 2 n人<D.W<叮不能判定是否有自相關(guān);d^<D.W<4-d疽誤差項8,8,…,£間無自相關(guān);1 2 n4-du<D.W<4-dL,不能判定是否有自相關(guān);4-dL<D.W<4,誤差項8,8,…,8間存在負相關(guān)。1 2 n需要注意的是,DW檢驗盡管有著廣泛的應(yīng)用,但也有明顯的缺點和局限性:(1) DW檢驗有兩個不能確定的區(qū)域,一旦DW值落在這兩個區(qū)域,就無法判斷。這時只有增大樣本容量或選取其他方法;(2) DW統(tǒng)計量的上、下界表要求n>15,這是因為樣本如果再小,利用殘差就很難對自相關(guān)的存在性做出比較正確的診斷;(3) DW檢驗不適應(yīng)隨機項具有高階序列相關(guān)的檢驗(只能判斷一階)。

十、自相關(guān)問題的處理方法1、迭代法設(shè)一元線性回歸模型的誤差項存在一階自相關(guān)TOC\o"1-5"\h\z\o"CurrentDocument"y=。+Px+8 (1)t0 1t t\o"CurrentDocument"8=p8+四 (2)E(四)=0,t=1,2,…,n< 'L2,t=s…cov(目,目)=( (t,s=1,2,…,n)ts[0,t豐st本假設(shè)。所以回歸模型(1)有:y=Pt本假設(shè)。所以回歸模型(1)有:y=P+Px+8 (3)t-1 0 1t-1 t-1將(3)式兩端乘以p,在用(1)式減去乘以p的(3)式,則有(y-py)=(p-pp)+p(x-px)+(8-8) (4)t t-1 0 0 1t t-1 t t-1在(4)式中,令y'=y-py,x'=x-px,P'=P(1-p),P'=Pttt-1t tt-10 0 1 1于是(4)可以變?yōu)閥'=P'+px+四 (5)t0 1tt模型(5)式有獨立隨機誤差項,滿足線性回歸模型的基本假設(shè),用普通最小二乘法估計的參數(shù)估計量具有通常的優(yōu)良性。由于自相關(guān)系數(shù)p是未知的,需要對p作估計。p-1-1DW,計算出p的估計值后,帶入計算變換因變量y'和變換2 t自變量x,,然后用(5)式做普通最小二乘回歸。一階自相關(guān)模型,通過上述變t換,已經(jīng)消除自相關(guān),迭代法到此結(jié)束。如果檢驗表明誤差項日不存在自相關(guān),t迭代法結(jié)束,如果檢驗表明誤差項日存在自相關(guān),那么對回歸模型(5)式重復t用迭代法,這個過程可能要重復幾次,直至最終消除誤差項自相關(guān)。2、差分法差分法就是用增量數(shù)據(jù)代替原來的樣本數(shù)據(jù),將原來的回歸模型變?yōu)椴罘中问降哪P?。一階差分法通常適用于原模型存在較高程度的一階自相關(guān)情況。(y—y)=(p-p)+p(x—x)+(8—8)用增量表示為:Ay=pAx+日tt-1 00 1tt-1 tt-1 t1tt以差分數(shù)據(jù)Ayt和Axt為樣本的回歸方程。差分之后的模型,通常不帶有常數(shù)項,它是回歸直線過原點的回歸方程。一階差分的應(yīng)用條件是自相關(guān)系數(shù)P=1,在實際應(yīng)用中,P接近1時,就可以采用差分法而不用迭代法。有兩個原因:第一,迭代法需要用樣本估計自相關(guān)系數(shù)P,對P的估計誤差會影響迭代法的使用效率;第二,差分法比迭代法簡單,在建立時序數(shù)據(jù)的回歸方程時,更習慣于用差分法。3、 科克倫-澳特克(Cochrane-Orcutt)迭代法方法一中的迭代法近似取d-1--DW,可以使用其他迭代法給出P的更精確的2估計,最常用的是科克倫-澳特克迭代法。以一元線性回歸為例,用方法一計算出的P和回歸系數(shù),由(1)式的回歸方程重新計算殘差,得到心得殘差序列后就可以計算出新的DW值,新的P值和回歸系數(shù),如果新的P與前一次迭代的P相差很小,低于給定的界限,就停止迭代,否則繼續(xù)下一步迭代。需要說明的是,迭代的起始步驟認為是從第0步開始的,就是用(1)式做普通最小二乘回歸,想讓于認為P=0。這樣方法一中的迭代實際上包括第0步和第1步共兩步迭代過程,也稱為科克倫-澳特克兩步法。4、 普萊斯-溫斯登(Prais-Winsten)迭代法當樣本量較小時每一個樣本值都是寶貴的,為此可以使用普萊斯-溫斯登變換,對t=1,令y'=<T-T?y,x'=.,.‘?'巨誨x,經(jīng)過普萊斯-溫斯登變換的迭代法就1 11、 1稱為普萊斯-溫斯登變換迭代法。十一、異常值與強影響點異常值分為兩種情況,一種是關(guān)于因變量y異常,另一種是關(guān)于自變量x異常。1、關(guān)于因變量y的異常值在殘差分析中,認為超過土3£的殘差為異常值。標準化殘差:ZRE==,1b學生化殘差:SRE=日〒。標準化殘差使殘差具有可比性,|ZRE.|>3的相V ::II應(yīng)觀測值即判定為異常值,這簡化了判斷工作,但是沒有解決方差不等的問題。學生化殘差則進一步解決了方差不等的問題,比標準化殘差又有所改進。但是當觀測數(shù)據(jù)中存在關(guān)于y的異常觀測值時,普通殘差、標準化殘差、學生化殘差這三種殘差都不再適用,這是由于異常值把回歸線拉向自身,使異常值本身的殘差減少,而其余觀測值的殘差增大,這時回歸標準差預也會增大,因而用鱷準則不能正確分辨出異常值。解決這個問題的方法是改用刪除誤差。刪除誤差的構(gòu)造思想是:在計算第i個觀測值的殘差時,用刪除掉這個第i個觀測值的其余n-1個觀測值擬合回歸方程,計算出第i個觀測值的刪除擬合值y(,),這個刪除擬合值與第i個值無關(guān),不受第i個值是否為異常值的影響,定義第i個觀測值的刪除殘差為:e=y-y,刪除殘差e較普通殘差更能如實反映第1(i) i(i) (i)個觀測值的異常性。可以證明,%.)=匚、,進一步可以給出第i個觀測值的刪ii除學生化殘差,記為SRE=SRE(―—)2,在實際應(yīng)用當中,可以(I) (i)n—p—1一SRE2i直接使用軟件計算出刪除學生化殘差SRE(,)的數(shù)值,|SRE(,)|>3的觀測值即判定為異常值。2、關(guān)于自變量x的異常值有D(e,)=(1—七力2,其中杠桿值七表示自變量的第i次觀測值與自變量平均值之間的遠近。較大的杠桿值的殘差偏小,這是因為大杠桿值的觀測點遠離樣本中心,能夠把回歸方程拉向自身,因而把杠桿值大的樣本點稱為強影響點。強影響點并不一定是y值的異常值點,因而強影響點并不總會對回歸方程造成不良影響。但是強影響點對回歸效果通常有較強的影響,這是由于一下兩個原因:第一,在實際問題中,因變量與自變量的線性關(guān)系只是在一定的范圍內(nèi)成立,強影響點原來樣本中心,因變量與自變量之間可能已不再是線性函數(shù)關(guān)系,因而在選擇回歸函數(shù)的形式時,需側(cè)重于強影響點;第二,即使線性回歸形式成立,但是強影響點遠離樣本中心,能夠把回歸方程拉向自身,使回歸方程產(chǎn)生偏移。由于強影響點并不總是y的異常值點,所以不能單純根據(jù)杠桿值的大小判斷強影響點是否異常,為此,引入庫克距離,用來判斷強影響點是否為y的異常值點。庫克距離的計算公式為:D)=32?(1-£)2,庫克距離反映了杠桿ii值h與殘差e.大小的一個綜合效應(yīng)。杠桿值h的平均值為h=-乎h=P^1,ii I ii niin一個杠桿值大于2倍或者3倍的h就認為是大的。中心化的杠桿值叫=h"n,

因此有中心化杠桿值chii的平均值是Ch=上chn iii=1-p ,n對于庫克聚類大小標準的初略判斷是:D<0.5時,認為不是異常值點;i當Di>1時,認為是異常值點。十二、異常值實例分析序號x1x2yeiSREie(i)SRE(i)chHDi1253547.79553.96-832-2.340-1490-3.0380.3751.445220896.34208.55750.167840.1600.0430.00136750.323.1-34-0.075-38-0.0720.0540.000410012087.052815.41270.3762530.3630.4320.04755251639.311052.12-458-1.034-529-1.0370.0680.05568253357.734275021.3057681.3480.2800.3027120808.47442.821470.3261640.3130.0360.004828520.2770.12960.2181120.2090.0700.00397671.13122.241210.2711380.2610.0600.004105322863.321400-697-1.606-837-1.7350.1000.17211751160464950.2091040.2010.0210.0011240862.757.5-151-0.336-169-0.3230.0400.00513187672.99224.18-145-0.324-164-0.3120.0520.00514122901.76538.941950.4312160.4160.0290.00715743546.182442.799582.61316133.8100.3391.555x,y是原始數(shù)據(jù),其他的列可以通過SPSS得到。從表中可以金0,絕對值最大的刪除學生化殘差為SRE〈I/.810,因而根據(jù)學生化殘差診斷認為第15個數(shù)據(jù)為異常值。其中心化杠桿值叫〔=0.339位于第三大,庫克距離D=1.555位于第一大。由于Ch=己=—=0.13333,第15個數(shù)據(jù)ch=0.339>2Ch,因而從杠桿值看第15個n15數(shù)據(jù)是自變量的異常值,同時庫克距離大于1,這樣第15個數(shù)據(jù)為異常值的原因是由自變量異常與因變量異常兩個原因共同引起的。(刪除學生化殘差診斷了由于因變量異常引起的異常值,杠桿值和庫克距離診斷了由于自變量異常引起的異常值)診斷出異常值后,進一步判斷引起異常值的原因,通常由以下幾種。異常值原因異常值消除方法1.數(shù)據(jù)登記誤差,存在抄寫或錄入的錯誤重新核實數(shù)據(jù)2.數(shù)據(jù)測量誤差重新測量數(shù)據(jù)3.數(shù)據(jù)隨機誤差刪除或重新觀測異常值數(shù)據(jù)4.缺少重要自變量增加必要的自變量5.缺少觀測數(shù)據(jù)增加觀測數(shù)據(jù),適當擴大自變量取值范圍6.存在異方差采用加權(quán)線性回歸7.模型選用錯誤,線性模型不適用改用非線性回歸模型對引起異常值的不同原因,需要采取不同的處理方法。對本例數(shù)據(jù)通過核實認為不存在登記誤差和測量誤差。刪除第15組數(shù)據(jù),用其余14組數(shù)據(jù)擬合回歸方程,發(fā)現(xiàn)第6組數(shù)據(jù)的三處學生化殘差增加為4.418,仍然存在異常值現(xiàn)象,因而認為異常值的原因不是由于數(shù)據(jù)的隨機誤差。本例數(shù)據(jù)存在的是異方差,應(yīng)該采用加權(quán)最小二乘回歸。用SPSS計算出加權(quán)最小二乘回歸的有關(guān)變量值如下所示。序號X1X2yeiSREie(i)SRE(i)chiiDi1253547.79553.96-890-1.149-1165-1.16580.23410.1360220896.34208.55200.135230.12930.06040.000936750.323.1-93-0.795-110-0.78240.05010.0385410012087.052815.44031.1757161.19630.42940.358155251639.311052.12-343-1.135-429-1.14980.18640.108168253357.734277150.9378410.93200.14710.05157120808.47442.821260.9491390.94480.00930.0318828520.2770.12450.717740.70150.13390.111597671.13122.24620.617760.60080.04630.0287105322863.321400-582-0.926-677-0.91990.13660.046611751160464580.281650.27020.07480.00331240862.757.5-199-1.391-223-1.45440.03240.076413187672.99224.18-143-1.611-224-1.74240.22720.495114122901.76538.941751.1371891.15280.01120.036015743546.182442.799161.17311791.19390.22090.1317采用最小二乘回歸后,刪除學生化殘差的絕對值最大者為1.7424,庫克距離都小于0.5,說明數(shù)據(jù)沒有異常值。說明用加權(quán)最小二乘法處理異方差性問題的有效性。十三、異方差問題檢驗異方差的方法盡管不同,但都有一個共同的思路。各種檢驗是設(shè)法檢驗七的方差與解釋變量七的相關(guān)性,一般是通過七的估計量匕來實現(xiàn)這些檢驗。如果七.與某一七之間存在相關(guān)性,則模型存在異方差。需要注意的是,加權(quán)最小二乘估計并不能消除異方差,只是能夠消除異方差的不良影響。當存在異方差時,普通最小二乘估計不再具有最小方差線性無偏估計等好的性質(zhì),而加權(quán)最小二乘估計則可以改進估計的性質(zhì)。加權(quán)最小二乘估計對誤差項方差小的項加一個大的權(quán)數(shù),對誤差項方差大的項加一個小的權(quán)數(shù),因此加強了小方差項的地位,使離差平方和中各項的作用相同。如果把誤差項加權(quán),那么加權(quán)的誤差項是等方差的。從殘差圖來看,普通最小二乘估計只II能照顧到殘差大的項,而小殘差項往往有整體的正偏或負偏。加權(quán)最小二乘估計的殘差圖,對大殘差和小殘差擬合得都好,大殘差和小殘差都沒有整體的正偏或負偏。當模型存在異方差性時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論