第九講定類或定序因變量回歸分析_第1頁
第九講定類或定序因變量回歸分析_第2頁
第九講定類或定序因變量回歸分析_第3頁
第九講定類或定序因變量回歸分析_第4頁
第九講定類或定序因變量回歸分析_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第九講定類或定序因變量回歸分析第一頁,共三十四頁,2022年,8月28日

線性回歸模型在定量分析中廣為流行,然而當因變量是一個定類變量而不是一個連續(xù)變量時,很難應(yīng)用線性回歸模型。如政治學中研究是否選舉某候選人,經(jīng)濟學研究中涉及的是否銷售或購買某種商品,如在社會學和人口學研究中所涉及的如犯罪、逃學、遷移、結(jié)婚、離婚、生育、患病等等都可以按照二分類變量或多分類來測量。又如在研究態(tài)度與偏好等心理現(xiàn)象時也經(jīng)常按幾個類型進行測量的,如“強烈反對”、“反對”、“中立”、“支持”、和“強烈支持”。另外,有時對一些連續(xù)變量也要轉(zhuǎn)換成類型變量,如在分析升學考試的影響因素時,將考生分為錄取線以上和錄取線以下,只要選定一個分界點,連續(xù)變量便可以被轉(zhuǎn)換成定類變量。

一、問題的提出第二頁,共三十四頁,2022年,8月28日

從統(tǒng)計理論上看,在進行最小二乘法的參數(shù)估計時,我們僅僅關(guān)注殘差項ε的分布,很少對因變量Y所服從的分布予以關(guān)注,實際上,我們擁有Y的信息要遠遠大于擁有殘差項ε的信息。因變量Y服從正態(tài)分布的推斷來源于殘差項服從正態(tài)分布,因為Y是殘差項的線性函數(shù)。事實上,社會經(jīng)濟現(xiàn)象往往有不同于正態(tài)分布的其他分布,例如:(1)二項分布(binomialdistribution)(2)泊松分布(Poisson)第三頁,共三十四頁,2022年,8月28日

二、線性概率模型1、模型建立以最小二乘法為基礎(chǔ)的線性回歸方程是估測因變量的平均值,而二分變量的均值有一個特定的意義,即概率。用普通線性回歸方程估測概率,就是所謂的線性概率回歸。用公式表示為:P=a+∑βiXi+ε

對二項分布線性概率模型的結(jié)果解釋:在其他變量不變的情形下,x每增加一個單位,事件發(fā)生概率的期望將變動β個單位。例如,林楠和謝文(1988)曾用線性概率模型估測入黨(政治資本)的概率,模型為:P=-0.39+0.01A+0.04E+0.03U

其中:P—黨員概率,A—年齡,E—受教育年限,U—單位身份

第四頁,共三十四頁,2022年,8月28日2、線性概率模型存在的問題1)異方差性普通最小二乘法假設(shè)殘差項的方差是相同的,但二項分布的方差為p(1-p),這意味著方差是中間大,兩邊小,所以方程中殘差項的方差不可能恒定。2)非正態(tài)性在給定自變量x條件下,是y的預測值與實際值的離差。由于y僅僅有0和1兩個值,誤差項要么等于,或者很明顯,該誤差項不是正態(tài)分布。3)無意義的解釋從解釋力上看,由于概率的值是有邊界的,在0與1之間。但林楠方程很有可能要超過該限制,因變量的估計值可能是負數(shù),也可能大于1,因此模型的結(jié)果是無意義的。例如,運用林楠方程,我們發(fā)現(xiàn)如果年齡為100歲,受教育程度超過10年,則入黨的概率約等于1。4)非線性關(guān)系第五頁,共三十四頁,2022年,8月28日

三、簡單對數(shù)比率回歸

1、模型建立既然用線性概率回歸存在以上兩個方面的局限性,我們能否用比率做因變量呢?比如用男女比率作因變量,用成功與不成功之比做因變量。用比率做因變量可以建立估計方程,但存在的問題是,比率是非對稱的.

一個簡單的解決辦法就是取對數(shù),結(jié)果就是所謂對數(shù)比率(logit)。若用P代表某事件的概率,則對數(shù)比率函數(shù)的定義為g(P)=log(P/1-P)以對數(shù)比率為因變量對自變量X1,X2,X3……做回歸稱為對數(shù)比率回歸(logisticregression),其方程式為:

第六頁,共三十四頁,2022年,8月28日表1概率、比率和對數(shù)比率概率0.010.100.200.300.400.500.600.700.800.900.99比率0.010.110.250.430.671.001.502.334.009.0099對數(shù)比率-4.60-2.20-1.39-0.85-0.410.000.410.851.392.204.60第七頁,共三十四頁,2022年,8月28日

該模型即為logit回歸模型。logit回歸模型實際上是普通多元線性回歸模型的推廣,但它的誤差項服從二項分布而非正態(tài)分布,因此,需要采用極大似然估計方法進行參數(shù)估計,參數(shù)稱為logit回歸系數(shù),表示當其他自變量取值保持不變時,該自變量取值增加一個單位引起的發(fā)生比自然對數(shù)值的變化量。第八頁,共三十四頁,2022年,8月28日2、發(fā)生比

發(fā)生比是事件的發(fā)生頻數(shù)與不發(fā)生頻數(shù)之間的比,即:Odds=(事件發(fā)生頻數(shù))/(事件不發(fā)生頻數(shù))

當比值大于1時,表明事件更有可能發(fā)生。比如一個事件發(fā)生的概率為0.6,事件不發(fā)生的概率為0.4,發(fā)生比等于0.6/0.4=1.5。事件發(fā)生的可能性是不發(fā)生的1.5倍。第九頁,共三十四頁,2022年,8月28日四、極大似然估計的基本思想1)概率問題例1、假定我們要估計一樣本中男性的發(fā)生概率。以s表示樣本中男性的數(shù)量;N是樣本規(guī)模;π是總體中男性的概率(=0.5

)。根據(jù)貝努利公式:其中k!=k(k-1)…2.110個樣本中有3個男性的概率為:

如果我們已知樣本中s、N及其概率分布的信息,需要估計總體特征,則需要借助極大似然估計法來完成。極大似然估計ML就是估計這樣一個參數(shù)值,由于該參數(shù)的存在可以使得被觀察的事件最有可能發(fā)生。第十頁,共三十四頁,2022年,8月28日2)似然函數(shù)當已知N和,求s發(fā)生的可能性有多大,所建立的函數(shù),稱為概率函數(shù)。而當已知N和s,求發(fā)生的可能性有多大,所建立的函數(shù),稱為似然函數(shù)。二者的差異:第一、前者是在參數(shù)已知下的數(shù)據(jù)的函數(shù),后者是在數(shù)據(jù)已知條件下的參數(shù)的函數(shù)。第二、參數(shù)值是由可能性最高的值決定,我們稱該值為極大似然估計。

L(π/s=3,N=10)=

由于極大似然估計就是估計參數(shù)值,使得樣本發(fā)生的可能性最大,故求最大化的前提是對上式求偏導:第十一頁,共三十四頁,2022年,8月28日解得上式可以得到的估計值為0.3第十二頁,共三十四頁,2022年,8月28日例2,運用極大似然估計法估計泊松分布中參數(shù)概率密度函數(shù)為:似然函數(shù)為:Li(/yi)

假定觀察值是獨立的,樣本的似然函數(shù)就是個體似然函數(shù)的乘積。Li(/yi)=L1*L2*…Ln=

Li第十三頁,共三十四頁,2022年,8月28日LnL=-N+yiln()-ln(yi!)?lnL/?=-N+yi/=yi/N第十四頁,共三十四頁,2022年,8月28日例3、運用極大似然估計法估計正態(tài)分布中的參數(shù)

設(shè)變量X為具有平均數(shù)μ,方差σ的正態(tài)變量,這里μ和σ為未知參數(shù)。試由樣本觀察值X1,X2……Xn估計平均值μ和方差σ。解:由最大似然法得下述似然函數(shù):

第十五頁,共三十四頁,2022年,8月28日例3、估計logistic回歸模型中的參數(shù)由于logistic模型是二項分布,其似然函數(shù)為:

L=第十六頁,共三十四頁,2022年,8月28日

通過三個例子的比較,我們可以看出在線性回歸中,似然函數(shù)是通過對似然方程求偏導數(shù)得到的,對于未知參數(shù)是線性的,容易求解,但是對于logistic回歸,似然函數(shù)是α和β的非線性函數(shù),求解比較困難,需要借助于計算機,通過迭代計算完成。最大似然估計與OLS估計的統(tǒng)計性質(zhì)幾乎完全相同,即具有一致性、漸進有效性和漸進正態(tài)性。一致性是指當樣本規(guī)模增大時,模型參數(shù)估計逐漸向真值收斂,即估計將近似于無偏。所謂漸進有效性是指當樣本規(guī)模增大時,參數(shù)估計的標準誤相應(yīng)縮小。所謂漸進正態(tài)性是指隨著樣本規(guī)模增大,最大似然估計值的分布漸進于正態(tài)分布。第十七頁,共三十四頁,2022年,8月28日五、logistic回歸模型及參數(shù)估計的評價1、Logistic回歸模型估計的假設(shè)條件第一、數(shù)據(jù)來自于隨機樣本。第二、因變量Yi被假設(shè)為K個自變量Xk(k=1,2,…,K)的函數(shù)。第三、正如OLS回歸,logistic回歸也對多重共線性有所限制,自變量之間存在多重共線性會導致標準誤的膨脹。

Logistic回歸模型還有一些與OLS回歸不同的假設(shè)。第一,因變量是二分變量;第二,因變量和各自變量之間的關(guān)系是非線性的。第十八頁,共三十四頁,2022年,8月28日2、擬合優(yōu)度檢驗

模型參數(shù)估計完成以后,需要評價模型是否能夠有效地描述了觀測數(shù)據(jù)。如果模型的預測值能夠與對應(yīng)的觀測值有較高的一致性,就認為這一模型能夠擬合數(shù)據(jù)。否則將不能接受這一模型,而需要對模型重新設(shè)置。因此,模型的擬合優(yōu)度是指預測值與觀測值的匹配程度。檢驗擬合優(yōu)度的指標有皮爾遜卡方檢驗、對數(shù)似然比卡方檢驗等。1)皮爾遜卡方檢驗皮爾遜卡方檢驗主要用于檢驗殘差項的大小。計算公式:其中yi是觀察值(0或1),pi是估算值的概率,i=1,2…n,分母是估算值的標準差,自由度為n-J-1,其中J為自變量數(shù)目。第十九頁,共三十四頁,2022年,8月28日2)、Hosmer-Lemeshow擬合優(yōu)度檢驗該方法通常適用于自變量很多,或自變量為連續(xù)變量的情形。HL方法根據(jù)預測概率的大小將所有觀察單位十等分,然后根據(jù)每一組中因變量的實際值與理論值計算Peason卡方,其統(tǒng)計量為:其中G代表分組數(shù),且G10;ng為第g組中的觀測值數(shù);yg第g組事件的觀測數(shù)量;pg為第g組的預測事件概率;ngpg為事件的預測值,實際上它等于第g組的觀測概率和。第二十頁,共三十四頁,2022年,8月28日3)對數(shù)似然比卡方檢驗對數(shù)似然比是用較復雜模型的似然與基本模型的似然進行比較。因為是非常小的數(shù),通常將似然取對數(shù)并乘以-2,即-2logL,簡稱對數(shù)似然。通?;灸P鸵元毩⒛P捅硎荆?/p>

用L0表示獨立模型的似然,L1表示非獨立模型的似然,那么對數(shù)似然比定義為:遵循卡方分布,其自由度為非獨立模型的自變量數(shù)目,可用于檢驗復雜模型中自變量對似然率的增加是否顯著,越大越好。第二十一頁,共三十四頁,2022年,8月28日3、logit模型回歸系數(shù)的假設(shè)檢驗設(shè)原假設(shè)H0為:βk=0,表示自變量對事件發(fā)生的可能性無影響;如果原假設(shè)被拒絕,說明自變量對事件發(fā)生的可能性有影響。Wald檢驗在logit模型中,對回歸系數(shù)進行顯著性檢驗,通常使用Wald檢驗,其計算公式為:

Wald統(tǒng)計量實際上就是正態(tài)分布Z統(tǒng)計量的平方。在零假設(shè)條件下,每一個回歸系數(shù)都等于0。Wald統(tǒng)計量服從卡方分布,其自由度為n-k-1。第二十二頁,共三十四頁,2022年,8月28日六、模型解釋

由于logit模型是非線性的,因此不能以傳統(tǒng)回歸模型中自變量與因變量之間的關(guān)系解釋之。通常以發(fā)生比率來解釋logit回歸系數(shù)

截矩項通常被作為基準發(fā)生比的對數(shù),表明當回歸模型中沒有任何自變量時所產(chǎn)生的發(fā)生比?;蛘哒f,是在所有自變量都取0值時所產(chǎn)生的發(fā)生比。第二十三頁,共三十四頁,2022年,8月28日預測概率

將系數(shù)估計和自變量值代入logistic函數(shù),便可得到預測概率的公式:第二十四頁,共三十四頁,2022年,8月28日練習:二分變量logit回歸模型的實證分析——英國國會權(quán)力下放后的國民身份認同感分析1、題目內(nèi)容:本文分析的數(shù)據(jù)來自1999和2001兩年分別在英格蘭、威爾士和蘇格蘭三地的跨地區(qū)對比調(diào)查,包括5298個觀測值。2000年英國國會將權(quán)力下放給新成立的威爾士議會和蘇格蘭國會,此研究通過對比權(quán)力下放前和下放后國民身份認同感的變化,反映權(quán)力下放帶來的影響。2、變量包括:性別、年齡、權(quán)力下放前后(Year)、居住國家、宗教信仰(RELIG)、教育程度、社會階級、地區(qū)認同感(Minorid)。3、解題思路:我們所關(guān)心的最重要的問題是:權(quán)力下放后,人們的地區(qū)認同感是否降低?本節(jié)是以地區(qū)認同感(Minorid)作為因變量,來看其他變量對其影響。第二十五頁,共三十四頁,2022年,8月28日七、多項對數(shù)比率回歸

我們研究的現(xiàn)象常是多分類的,如職業(yè)的選擇等,這時需要用多項對數(shù)比率回歸處理。多項對數(shù)比率回歸是簡單對數(shù)比率回歸的擴展,由一組對數(shù)比率方程組成。常用的做法是基準類比法,即先選出基準類,然后將它的概率與其它各類的概率進行對比。假如要研究一個或一組自變量X如何影響人們對J類職業(yè)選擇,用P1,P2……Pj表示各類職業(yè)的概率,那么多項對數(shù)比率回歸就可表示為:第二十六頁,共三十四頁,2022年,8月28日

需要注意的是:1)就系數(shù)解釋和檢驗而言,多項對數(shù)比率回歸和簡單對數(shù)比率回歸相同。2)方程組在統(tǒng)計上不獨立,必須同時估算,不可一一求解。第二十七頁,共三十四頁,2022年,8月28日SPSS上的應(yīng)用:1)Analyze—Regression—MultinomialLogistic2)Dependent——用于選入無序多分類的因變量3)Factor——用于選入分類自變量,可以是有序或無序多分類,系統(tǒng)會自動生成啞變量。4)Covariates——用于選入連續(xù)型的自變量。選擇系統(tǒng)默認值,點擊OK鈕,運行所選命令5)結(jié)果解釋數(shù)據(jù)匯總與模型的似然比檢驗。擬合優(yōu)度檢驗(Pearson,Deviance檢驗)。參數(shù)估計結(jié)果。第二十八頁,共三十四頁,2022年,8月28日八、定序變量對數(shù)比率

當因變量是定序變量,變量值之間具有高低之分時,在設(shè)計logit模型時,就應(yīng)考慮到其中所包含的信息。通常有三種處理方法:鄰類比、升級比和累進比。1、鄰類比鄰類比是將所有相鄰兩類的概率兩兩相比,如果變量含有J個有序類別,就可得到J-1個不重復對數(shù)比率方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論