第七講多元線性回歸_第1頁
第七講多元線性回歸_第2頁
第七講多元線性回歸_第3頁
第七講多元線性回歸_第4頁
第七講多元線性回歸_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第七講多元線性回歸分析一、線性回歸分析的基本概念與步驟研究者面對龐大的原始數(shù)據(jù),需要以多種方式提煉信息。數(shù)據(jù)信息的提取方法包括頻數(shù)表、均值與方差分析等。回歸方法也是濃縮數(shù)據(jù)的一種統(tǒng)計技術(shù)。回歸分析是將觀察值分成兩部分建立模型:Observed=Structural+Stochastic

其中,觀察值(observed)代表因變量的實際值,結(jié)構(gòu)部分(Structural)代表因變量和自變量之間的關系,隨機部分(Stochastic)是不能被結(jié)構(gòu)部分所解釋的隨機成分。隨機部分又可以劃分為三部分內(nèi)容:1)省略的結(jié)構(gòu)因子;2)測量誤差;3)“噪聲”。在社會科學研究中,由于我們不可能掌握所有影響因變量的因素,省略一些結(jié)構(gòu)因子是不可避免的。測量誤差是指數(shù)據(jù)在調(diào)查、記錄或測量中的不精確。噪聲反映了抽樣隨機誤差。如何解釋回歸模型呢?有二種不同的概念體系。(1)Observed=TrueMechanism+Disturbance

(2)

Observed=Summary+Residual第一種解釋與傳統(tǒng)計量經(jīng)濟學的觀點一致,研究者的目標就是去找一個能夠更好擬合數(shù)據(jù)的模型,據(jù)以揭示數(shù)據(jù)的關系。第二種解釋與當代計量經(jīng)濟學和統(tǒng)計學的觀點一致,即如果兩個模型同樣能夠反映被觀察的事實,我們應該選擇較簡單的模型。該原則強調(diào)模型要能夠總結(jié)出數(shù)據(jù)的本質(zhì)特征。第二種解釋不同于第一種解釋的核心是該解釋更加關注模型是否揭示事實或反映理論。

線性回歸分析的基本步驟:(1)從理論出發(fā)確定回歸方程中的自變量與因變量。(2)從樣本數(shù)據(jù)出發(fā)確定自變量和因變量之間的數(shù)學關系式,即建立回歸方程。(3)對回歸方程進行各種統(tǒng)計檢驗。(4)利用回歸方程進行解釋或預測現(xiàn)象。在進行回歸分析時,這四個基本步驟的第一步是由研究者自己確定的,第二步和第三步可由統(tǒng)計軟件自動完成,第四步需要研究者結(jié)合理論進行解釋與分析。二、線性回歸模型的構(gòu)造回歸模型由三類變量組成:因變量,一組自變量,隨機誤差。假定自變量與因變量之間關系特征是線性的,需要估計未知參數(shù)和系數(shù)。線性模型用符號表示為:例如:職業(yè)聲望=+1Education+2ParentsEducation+三、線性回歸模型的基本假定(1)線性性:yi與xi通過參數(shù)i建立線性關系。(2)獨立性:變量xi之間是相互獨立的。(3)誤差項的條件均值為0,即該假定可以進一步引申為:(4)同方差性:對于任意給定的xi,誤差項有相同的方差:(5)誤差的獨立性:誤差項與自變量不相關;誤差項之間不相關,即對于兩個觀察值i和j,其誤差項的協(xié)方差為0。(6)正態(tài)性:誤差項被看作是許多不被觀察因素的聯(lián)合效果,因此可以認為誤差項是在x條件下的正態(tài)分布。四、線性回歸模型的估計最小二乘法回歸分析的主要任務就是要建立能夠近似反映真實總體特征的樣本回歸函數(shù)。在根據(jù)樣本資料確定回歸方程時,總是希望Y的估計值盡可能地接近實際觀察值,即殘差項的總量越小越好。由于殘差項有正有負,簡單的代數(shù)加減會相互抵消,因此,為了數(shù)學上便于處理,通常采用殘差平方和作為衡量總偏差的尺度。所謂最小二乘法就是根據(jù)這一思路,通過使殘差平方和為最小來估計回歸系數(shù)的一種方法。根據(jù)微積分中求極小值的原理,可知Q存在極小值,欲使Q達到最小,Q對1和2的偏導數(shù)等于零例1、以食品支出與收入關系為例,說明一元線性回歸系數(shù)估計值的具體計算過程。編號XYXY11020270275400104040072900296026024960092160067600397025024250094090062500410202802856001040400784005910270245700828100729006158036056880024964001296007540190102600291600361008830260215800688900676009123031038130015129009610010106031032860011236009610011129034043860016641001156001213803805244001904400144400138102702187006561007290014920280257600846400784001564020012800040960040000合計1516042304463200163654001231100解得:

=4230÷15-0.1802×15160÷15=100.08元樣本回歸方程為:上式中:0.1802表示收入每增加1元,食品支出會增加0.1802元;100.08表示即使在收入為0的情況下,食品支出也需要100元。五、回歸系數(shù)的解釋

回歸系數(shù)具有“偏”或“邊際”的意義這里的“偏”或“邊際”是指在其他變量保持不變的情形下,y對x線性關系的斜率。由于模型是線性的,偏回歸系數(shù)是一常數(shù)。六、線性回歸方程的統(tǒng)計檢驗1、決定系數(shù)R方——擬合優(yōu)度檢驗用于檢驗一個解釋性或者預測性的方程效果如何,所得到的回歸方程在多大程度上解釋了因變量的變化,或者說方程對觀察值的擬合程度如何。如何理解擬合優(yōu)度檢驗呢?如果沒有回歸方程,對y的估計只能采用其平均值進行估計。例如,15個人的月食品支出的均值=(1/15)ΣYi=280,用它估計第10個人的食品支出,誤差為:

=310-280=30

如果應用收入信息并借助回歸方程估計食品支出,第10個人的收入為1060元,由回歸方程式,有:

=100.08+0.1802×1060=291.3于是用估計第10人y的誤差為:

=310-291.3=18.7

解釋y均值的部分為

=291.3-280=11.3增加了解釋變量后,減少了對y的預測誤差。上面三式可寫為:

可以證明:對n個觀察值而言,TSS=為總平方和RSS=為回歸平方和ESS=為殘差平方和總平方和可以分解為兩部分:第一部分殘差平方和ESS,它是由觀察值沒有落在回歸面而引起的,是除了x1,x2…Xk

對y影響之外的一切因素對y總平方和的作用,我們希望殘差平方和越小越好。

第二部分是回歸平方和RSS,它是由x的變化而引起的,反映了由于x與y的線性關系而產(chǎn)生的y的變化,是回歸方程所能解釋的部分,我們希望回歸平方和越大越好。用一個指標來表示回歸平方和占總平方和的比例,即決定系數(shù)。

復相關系數(shù)等于決定系數(shù)的平方根。所以復相關系數(shù)和偏相關系數(shù)也可配合決定系數(shù)來進行檢驗。復相關系數(shù)R反映因變量與自變量之間的相關程度,而決定系數(shù)反映自變量對因變量的解釋程度。復相關系數(shù)和決定系數(shù)從兩個角度來刻畫y與x的關系程度。偏相關系數(shù)可以檢驗在控制了其他變量后,某一變量xi與y是否確有相關關系及關系的強弱,是研究與判斷變量是否重要的尺度。2、總體回歸方程的顯著性檢驗檢驗回歸方程就是檢驗樣本y與x1,x2,…,xk的線性關系是否顯著,即判斷能否肯定總體回歸系數(shù)中至少有一個不等于0。原假設H0:B1=B2=……=Bk=0

備擇假設為H1:至少有一個Bj≠0(j=1,2,…,k)

通過樣本統(tǒng)計量的檢驗,如果H0被接受,則認為Y與X1,…,Xk的線性關系不顯著;反之,則拒絕H0,接受H1,即認為Y與方程中的變量存在顯著的線性關系,稱方程是顯著的。檢驗統(tǒng)計量是F檢驗,F(xiàn)檢驗的計算需借助回歸方差分析表?;貧w方差分析表來源自由度DF平方和SUMOFSQUARES均方和MEANSQUAREF值顯著性水平SIGNIFF回歸REGRESSIONkRSSRSS/kF的概率α余差RESIDUALn-k-1ESSESS/(n-k-1)總n-1TSS3、回歸方程的系數(shù)檢驗

(1)t檢驗當回歸方程檢驗顯著時,便可認為回歸方程中至少有一個回歸系數(shù)是顯著的,但是并不一定所有的回歸系數(shù)都是顯著的,我們希望在方程中保留最重要的變量,刪除不顯著的變量,為此必須對每個變量的回歸系數(shù)進行t檢驗。假設:H0:Bj=0;H1:Bj≠0

當統(tǒng)計性不顯著,便接受H0,認為總體中變量Xj與Y的線性關系不顯著,進而從回歸方程中刪除Xj。反之,便拒絕H0,即認為總體回歸系數(shù)Bj與0有顯著差別。在回歸分析的假設條件下,檢驗公式為:其中s為b的標準誤,服從t分布。將計算的P值與事先確定的顯著水平α比較,便可決策取舍H0。當P<α時拒絕H0,認為回歸系數(shù)在α水平上統(tǒng)計顯著;否則接受H0。(2)回歸系數(shù)不顯著的原因

a、樣本量太小,或者變量個數(shù)較多,使n-k變小,從而使Sj增大,t值變小。

b、xj與方程中的其他變量線性相關。當自變量之間的相關系數(shù)增大時,也使Sj變大。

C、y與xj雖然關聯(lián),但卻是非線性關系。

d、y與xj確實不存在顯著的線性關系,至少在樣本xj的變化范圍內(nèi)如此。因此,增加樣本量、擴大Xj的變化范圍以及在方程中減少與xj高度相關的變量,就有可能改善xj與y的線性關系的顯著程度。4、標準化回歸系數(shù)在多元回歸分析中,一個經(jīng)常遇到的問題是如何判別在所考察的因素中,哪些是影響y的主要因素,哪些是次要因素。為了分清k個自變量對y的影響的主次關系,一個自然的想法是比較各個因素的回歸系數(shù)b1,b2,…bk絕對值的大小。但是將這些回歸系數(shù)直接進行比較是不行的,因為它們的值分別與各個變量所取的單位有關。在測量單位不一致時,便不存在可比性。如果先將所有自變量Xj和因變量Yj進行標準化,取得標準化變量:如果先將所有自變量Xj和因變量Yj進行標準化,取得標準化變量:再進行回歸便可以得到標準化回歸方程:因為z變量是無量綱變量,所以它們的回歸系數(shù)βj稱為標準化回歸系數(shù),表示當其它變量不變時,xj變化一個標準差單位,y的標準差的平均變化。由于標準化消除了原來自變量不同的測量單位,于是βj之間可以互相比較,它們的絕對值的大小就代表了各自對y作用的大小。5、多重共線性檢驗在多元回歸模型參數(shù)b的求解過程中,要求自變量x1,x2,…,xk線性無關,才可求出各個參數(shù)的唯一解。如果在回歸方程:當x1、x2完全線性相關,方程就會有許多解,從而無法用最小二乘法求出唯一b的估計值。在大多數(shù)社會經(jīng)濟變量中,總是或多或少有部分相關。當自變量之間高度相關時,回歸方程中的自變量就會互相削弱各自對y的邊際影響,使本身的回歸系數(shù)的數(shù)值下降而其標準誤擴大,于是就會出現(xiàn)回歸方程整體顯著,但各個自變量都不顯著的現(xiàn)象,這種現(xiàn)象稱為多重共線性。當多重共線性發(fā)生時,方程的回歸系數(shù)是不可靠的。如何判斷和檢驗方程中存在多重共線性?A.方程中因變量與自變量的相關系數(shù)很高,但自變量的回歸系數(shù)均不顯著;B.自變量之間的相關系數(shù)很高;C.分別構(gòu)造不含某一自變量的k-1回歸模型,將它們與包括所有自變量的回歸模型進行比較,若兩個模型的相關系數(shù)很接近,就表明該變量對與解釋y是多余的。多重共線性可以通過自變量的容忍度(tolerance)、方差膨脹因子(VIF)等指標來衡量。容忍度是指如果某個自變量與其他自變量有較小的復相關系數(shù),那么其有較大的容忍度。容忍度的倒數(shù)稱為方差膨脹因子。

七、非線性回歸模型的變量轉(zhuǎn)換

其中G是Y的函數(shù),G=G(Y);U1,U2,…Uk是X1,X2…,Xk的一般函數(shù),一個模型寫成上式,就可以用前述方法求解出參數(shù)估計b0,b1,b2……bk。下面是幾個變量變換的例子。1、乘法模型:兩邊取自然對數(shù),得到:ln(Y)=ln(B0)+B1ln(X1)+B2ln(X2)+…Bkln(Xk)+ln(ε)2、多項式模型3、指數(shù)模型1:

兩邊取自然對數(shù),有:4、指數(shù)模型2:

例2、已知統(tǒng)計資料如表所示,試根據(jù)表中資料,以每個居民的月平均收入(百元)和A商品的價格(10元)為自變量,擬合乘法模型形式的A商品需求函數(shù)。并利用以上建立的樣本回歸方程,預測居民人均收入為2200元、商品單價為0.50元時的A商品需求量。年次12345678910銷售量Y(百件)10101513142018241923居民人均收入X2(百元)578991010121315單價X3(10元)2325434354解:(1)需求函數(shù)的乘法模型如下:利用雙對數(shù)變換法,同時加入隨機誤差項,可得以下線性回歸函數(shù):其中1=ln(a),2=b2,3=b3

對上表給出的銷售量Y、居民人均收入X2和

商品價格X3,求自然對數(shù)可得:年次Yt*X2t*X3t*12.30261.60490.693122.30261.94591.098632.70812.07940.693142.56492.19721.609452.63912.19721.386362.99572.30261.098672.89042.30261.098683.17812.48491.098692.94442.56491.6094103.13552.70811.38632.487.70-2.80F=33.60

=0.89由上式可知:居民收入的需求彈性約為1.16,而價格的需求彈性約為-0.4。在其他情況不變得條件下,居民人均收入每增加1%會使A商品的需求增加1.16%,價格每提高1%,會使A商品需求減少0.4%。(2)預測。將前面給出的居民收入(2200元)和價格(0.5元)代入該式,可得:(百件)八、自變量為定類變量的回歸模型在社會科學研究中,有許多定類變量,比如地區(qū)、職業(yè)、性別、民族和居住地等,我們也可以應用它們的信息進行線性回歸,用以解釋y的變化。但是必須先將定類變量轉(zhuǎn)換為虛擬變量,然后再將它們引入回歸方程,所得到的回歸結(jié)果才有明確的解釋意義。1、虛擬變量的建立設X是有k分類的名義變量,在數(shù)據(jù)處理時以不同的編碼值代表案例所屬的類型。因為定類變量的各類根本沒有定量關系,不能像定距變量的那樣,分析x變化一個單位,y的平均變化。因此,必須以類為單位,分析各類變化對y的影響。用取值為0和1的變量代表不同類別的屬性,這在統(tǒng)計學上被稱為虛擬變量(dummyvariable)。當案例屬于虛擬變量所代表的一個類別時,這個虛擬變量就賦值為1,否則便賦值為0。例如,我們要分析婦女的年齡(AGE)、文化程度(EDU)及居住地(AREA)的狀況對其曾生子女數(shù)(CEB)的影響。這里的年齡是定距變量,文化程度和居住地是定類變量。其中文化程度共有5類,原變量用編碼數(shù)字1至5代表,分為文盲或半文盲(1)、小學(2)、初中(3)、高中(4)和大學(5),需要設置四個虛擬變量加以表示。居住地只分為城市(1)和農(nóng)村(2)兩類,因此只需設一個虛擬變量。在受教育程度中取文盲或半文盲為參照類,用DE2、DE3、DE4、DE5分別表示小學、初中、高中和大學;在居住地中取農(nóng)村為參照類,DU表示居住在城市。根據(jù)原變量的編碼形成相應虛擬變量時的賦值操作規(guī)則如下:原變量編碼值虛擬變量賦值操作EDU=1(文盲)所有DEi=0EDU=2(小學)DE2=1,其他DEi=0EDU=3(初中)DE3=1,其他DEi=0EDU=4(高中)DE4=1,其他DEi=0EDU=5(大學)DE5=1,其他DEi=0AREA=1(城市)DU=1AREA=2(農(nóng)村)DU=0例如:不同年齡、受教育程度和居住地婦女曾生子女數(shù)的樣本數(shù)據(jù)原變量值設立的虛擬變量值CEBAGEEDUAREADE2DE3DE4DE5DU12031010011224200100224320100012551000111285100011230420010023251000112345200010根據(jù)原變量值建立虛擬變量的工作可以應用SPSS數(shù)據(jù)轉(zhuǎn)換功能RECORD來完成。利用上表數(shù)據(jù)建立回歸方程:回歸結(jié)果如下(回歸系數(shù)下括號內(nèi)為t檢驗的概率值)(0.00)(0.01)(0.01)(0.01)(0.01)(0.02)

方程的R方為0.96,各變量的回歸系數(shù)均在0.05顯著。回歸結(jié)果顯示,參照類婦女曾生子女數(shù)對年齡的回歸直線的截矩為1.41,年齡每上升1歲,參照類婦女的平均曾生子女數(shù)上升0.068個;城市婦女比農(nóng)村婦女的平均曾生子女數(shù)少0.49個;小學、初中、高中和大學文化程度婦女的曾生子女數(shù)分別比文盲、半文盲婦女平均少1.13、1.31、1.58和1.57個。2、虛擬變量回歸系數(shù)的意義1)、在兩個定類變量都屬于參照類時,即本例當受教育程度為文盲或半文盲、居住地為農(nóng)村時,所有虛擬變量都取值0,回歸方程可以簡化為:上式為參照類婦女的曾生子女數(shù)對年齡的回歸直線,bo為直線的截矩,b1為直線的斜率,表示所有參照類婦女年齡每上升1歲,她們曾生子女數(shù)的平均變化。

2)、當受教育程度為小學,居住地為農(nóng)村時,方程為:

(DE2=1,DE3=DE4=DE5=0,DU=0)

本式較上式,截矩項增加了b2,因此b2為小學文化程度婦女比文盲、半文盲婦女曾生子女數(shù)高的部分(對于相同的年齡和居住地而言)。

3、回歸方程中只含一個虛擬變量

在只有一個虛擬變量的回歸方程中,由于沒有其他變量,各回歸系數(shù)表現(xiàn)得十分單純,回歸常數(shù)項b0就是參照類各案例的平均值。比如,只納入代表教育程度的四個虛擬變量DE2、DE3、DE4、DE5的回歸模型的回歸結(jié)果為:(.03)(.00)(.00)(.00)R=0.786,F(xiàn)=10.079,P=0.0011

本例中b0=4.5即為兩個文盲、半文盲案例的CEB值4和5的平均值?;貧w常數(shù)項為4.5,說明樣本中文盲、半文盲婦女平均曾生子女數(shù)很多。其他教育水平類的平均值則通過參照類平均值加上相應系數(shù)值來表示,比如小學水平的婦女平均生育3個孩子,大學水平的婦女生育1.5個孩子。實際上,這一方程可以再現(xiàn)樣本按教育程度分類的類平均值。

4、回歸方程中含有兩個虛擬變量

如果一個回歸分析中含有兩個因素形成的虛擬變量,如將代表教育程度和城鄉(xiāng)的所有虛擬變量納入回歸分析,這一回歸分析不僅要考慮兩個變量各自對CES的影響,而且要考慮二者交互作用的影響。交互作用以兩個因素的各項虛擬變量相乘得到。如:DEiDU=DEi×DU,其中i代表EDU形成的虛擬變量的序號。我們可以在SPSS數(shù)據(jù)窗口的Transform菜單中用Compute命令建立這些交互作用虛擬變量。得到的回歸方程為:R=0.826,F(xiàn)=9.463,P=0.00155、采用虛擬變量的回歸分析檢驗在回歸分析中采用虛擬變量,無論是對整個模型的檢驗(F檢驗)還是對各回歸系數(shù)的檢驗(t檢驗),與一般回歸分析完全沒有區(qū)別。在有虛擬變量的回歸分析中,整體模型檢驗的假設為:

H0:B1=B2=…Bk=0H1:B1,B2,…,Bk中至少有一個不等于0

這與一般回歸整體檢驗的形式和意義完全一樣。在有虛擬變量的回歸分析中,單個回歸系數(shù)檢驗的假設為:

H0:Bj=0H1:Bj≠0

對于定距變量,這一假設以Bj是否為0來體現(xiàn)作用是否顯著。對于虛擬變量,由于取值只能是0和1,所以檢驗的只是取值1的類別的平均值是否與參照類(所有虛擬變量取值0)的平均值有顯著差異。比如在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論