SPSS16實(shí)用教程邏輯回歸總體分析_第1頁(yè)
SPSS16實(shí)用教程邏輯回歸總體分析_第2頁(yè)
SPSS16實(shí)用教程邏輯回歸總體分析_第3頁(yè)
SPSS16實(shí)用教程邏輯回歸總體分析_第4頁(yè)
SPSS16實(shí)用教程邏輯回歸總體分析_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、SPSS 16實(shí)用教程邏輯回歸總體分析SPSS16實(shí)用教程邏輯回歸總體分析在前面學(xué)到的回歸模型中,我們處理的因變量都是數(shù)值型區(qū)間變量,建立的模型描述的是因變量的期望與自變量之間的線性關(guān)系。線性回歸模型:然而,在許多實(shí)際問(wèn)題中,我們需要研究的響應(yīng)變量不是區(qū)間變量而是順序變量或名義變量這樣的屬性變量。7.8 邏輯回歸分析7.8.1 統(tǒng)計(jì)學(xué)上的定義和計(jì)算公式比如在致癌因素的研究中,我們收集了若干人的健康記錄,包括年齡、性別、抽煙史、日常飲食以及家庭病史等變量的數(shù)據(jù)。響應(yīng)變量在這里是一個(gè)兩點(diǎn)(0-1)分布變量,Y=1(一個(gè)人得了癌癥),Y=0(沒(méi)得癌癥)。如果我們按照(1)建立一般線性模型:因?yàn)閅只能

2、取0或1,而 的取值是連續(xù)的。顯然不能用 來(lái)預(yù)測(cè)因變量 Y 。我們注意到,對(duì)于0-1型變量, E(Y)=P(Y=1)=p因而,我們似乎可以用 來(lái)預(yù)測(cè)Y=1的概率,即:?jiǎn)栴}1. Y=1的概率與自變量之間的關(guān)系到底是不是線性的?(答案是否定的)例如:我們分析一個(gè)人是否買(mǎi)車(chē)與其年收入的關(guān)系。對(duì)于年薪5000元、5萬(wàn)元、50萬(wàn)元三個(gè)人,讓他們的年薪分別增加5000元對(duì)于其買(mǎi)車(chē)的可能性影響是不一樣的。概率與自變量之間的關(guān)系圖形往往是一個(gè)S型曲線概率與自變量之間的關(guān)系曲線問(wèn)題2. 概率的取值應(yīng)該在01之間。但是(2)式的概率線性模型并不能滿足這一點(diǎn)。我們可以通過(guò)對(duì)P進(jìn)行一種變換(logit變換) logi

3、t(p)= ln(p/(1-p)使得logit(p)與自變量之間存在線性相關(guān)的關(guān)系。模型的建立與解釋同時(shí),經(jīng)過(guò)變換得到的模型也解決了(2)中,概率的預(yù)測(cè)值可能是0,1之外的數(shù)的缺陷。(3)式建立的模型,我們稱(chēng)為logistic模型(邏輯回歸模型)。我們?cè)趯W(xué)習(xí)交叉列聯(lián)表的相關(guān)知識(shí)的時(shí)候,提到過(guò)優(yōu)勢(shì)或發(fā)生比(odds )和優(yōu)勢(shì)比或發(fā)生比率(odds ratio)的概念 是事件發(fā)生于不發(fā)生的概率之比 那么邏輯模型就可以寫(xiě)成 那么Xi增加一個(gè)單位ln(odds|xi+1)=ln(odds|xi)+i于是上式我們叫做優(yōu)勢(shì)比(odds ratio)近似可看成是在Xi+1與Xi兩種情況下,事件發(fā)生的概率之比

4、。則,PY=1|Xi+1PY=1|Xiexpi最終,我們可能關(guān)心的是根據(jù)自變量的值來(lái)對(duì)Y的取值0或1進(jìn)行預(yù)測(cè)。而我們的邏輯回歸模型得到的只是關(guān)于PY=1|x的預(yù)測(cè)。但是,我們可以根據(jù)模型給出的Y=1的概率(可能性)的大小來(lái)判斷預(yù)測(cè)Y的取值。一般,以為界限,預(yù)測(cè)p大于時(shí),我們判斷此時(shí)Y更可能為1,否則認(rèn)為Y=0。對(duì)于邏輯模型模型系數(shù)的估計(jì)不能適用最小二乘估計(jì)(OLS)。這里,我可以運(yùn)用最大似然估計(jì)(MLE)的方法。OLS通過(guò)使得樣本觀測(cè)數(shù)據(jù)的殘差平方和最小來(lái)選擇參數(shù),而MLE通過(guò)最大化對(duì)數(shù)似然值來(lái)估計(jì)參數(shù)。模型系數(shù)的確定設(shè)y是0-1型變量, 是與y相關(guān)的自變量,n組觀測(cè)數(shù)據(jù)為 。于是y1,y2,

5、yn的似然函數(shù)為對(duì)數(shù)似然函數(shù)為最大似然估計(jì)就是選取 的估計(jì)值 使得log似然函數(shù)最大化。 模型檢驗(yàn)以下是關(guān)于模型擬合優(yōu)度的度量以及模型參數(shù)檢驗(yàn)的分析 與任何概率一樣,似然的取值范圍在0,1之間。2LL的計(jì)算公式為其報(bào)告值越小說(shuō)明似然函數(shù)值越大從而模型擬合程度越好兩個(gè)模型之間顯著性似然比檢驗(yàn)統(tǒng)計(jì)量的形式為 -2log(L0/L1)=-2LL0-(-2LL1)(自由度為參數(shù)個(gè)數(shù)之差的卡方分布)L1是更大參數(shù)空間上的模型的似然函數(shù)。1-2對(duì)數(shù)似然值(-2 log likelihood,-2LL) Logistic回歸的擬合優(yōu)度統(tǒng)計(jì)量計(jì)算公式為Pearson 殘差平方和,在原假設(shè)(所建立的模型與飽和模

6、型沒(méi)有顯著性差異)下也服從自由度為兩個(gè)模型參數(shù)之差的卡方分布 2擬合優(yōu)度(Goodness of Fit)統(tǒng)計(jì)量Predicted(預(yù)測(cè)值)01Percent Correct (正確分類(lèi)比例)Observed(觀測(cè)值)0n00n01f01n10n11f1Overall(總計(jì))ffClassification Table for Y在實(shí)際問(wèn)題中,通常采用如下分類(lèi)表(Classification Table)反映擬合效果。3Cox和Snell的R 2(Cox&Snells R-Square)4Nagelkerke的R 2(Nagelkerkes R-Square)5偽R 2(Psedo-R-squ

7、are) 偽R2與線性回歸模型的R2相對(duì)應(yīng),其意義相似,但它小于1。6Hosmer和Lemeshow的擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量 與一般擬合優(yōu)度檢驗(yàn)不同,Hosmer和Lemeshow的擬合優(yōu)度檢驗(yàn)通常把樣本數(shù)據(jù)根據(jù)預(yù)測(cè)概率分為10組,然后根據(jù)觀測(cè)頻數(shù)和期望頻數(shù)構(gòu)造卡方統(tǒng)計(jì)量(即Hosmer和Lemeshow的擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量,簡(jiǎn)稱(chēng)H-L擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量),最后根據(jù)自由度為8的卡方分布計(jì)算其值并對(duì)Logistic模型進(jìn)行檢驗(yàn)。 如果該p值小于給定的顯著性水平(如),則拒絕因變量的觀測(cè)值與模型預(yù)測(cè)值不存在差異的零假設(shè),表明模型的預(yù)測(cè)值與觀測(cè)值存在顯著差異。如果值大于,我們沒(méi)有充分的理由拒絕零假設(shè),表

8、明在可接受的水平上模型的估計(jì)擬合了數(shù)據(jù)。 7Wald統(tǒng)計(jì)量(回歸系數(shù)的非零檢驗(yàn)) Wald統(tǒng)計(jì)量用于判斷一個(gè)變量是否應(yīng)該包含在模型中,其檢驗(yàn)步驟如下。 (1)提出假設(shè)。 (2)構(gòu)造Wald統(tǒng)計(jì)量。 (3)作出統(tǒng)計(jì)判斷。 研究問(wèn)題 在一次關(guān)于某城鎮(zhèn)居民上下班使用交通工具的社會(huì)調(diào)查中,因變量y =1表示居民主要乘坐公共汽車(chē)上下班;y=0表示主要騎自行車(chē)上下班;自變量x1表示被調(diào)查者的年齡;x2表示被調(diào)查者的月收入;x3表示被調(diào)查者的性別(x3=1為男性,x3=0為女性)x3在這里是一個(gè)虛擬變量。試建立y與自變量間的Logistic回歸,數(shù)據(jù)如表7-7所示。7.8.2 SPSS中實(shí)現(xiàn)過(guò)程表7-7使用

9、交通工具上下班情況序號(hào)x1(年齡)x2(月收入:元)x3(性別)y118850002211200003238500142395001528120001631850007361500018421000019469500110481200001155180001125621000113581800011418850101520100010162512001017271300101828150010193095011203210001021331800102233100010233812001024411500102545180011264810001027521500112856180011 實(shí)現(xiàn)

10、步驟圖7-24 “Logistic Regression”對(duì)話框?qū)⒁蜃兞糠湃雂ependent欄,自變量放入covariates欄中制定變量引入模型的方法和線性回歸一樣,我們可以通過(guò)next按鈕把自變量分成不同的組塊,使不同的組塊按順序以不同的方式分步進(jìn)入模型這里,我們可以把幾個(gè)變量的乘積作為自變量引入模型作為交互影響項(xiàng)如果自變量中有分類(lèi)變量,在這里可以設(shè)置相應(yīng)的虛擬變量圖7-25 “Logistic Regression:Options”對(duì)話框Classification plots:制作分類(lèi)圖,通過(guò)比較因變量的觀測(cè)值與預(yù)測(cè)值的關(guān)系,反映回歸模型的擬合效果。Hosmer-Lemeshow g

11、oodness-of-fit: H-L檢驗(yàn)。Casewise listing of residuals:顯示個(gè)案的殘差值(顯示標(biāo)準(zhǔn)化殘差超過(guò)兩倍標(biāo)準(zhǔn)方差的個(gè)案或顯示所有個(gè)案)Correlations of estimates:輸出模型中各參數(shù)估計(jì)的相關(guān)矩陣。Iteration history:輸出最大似然估計(jì)迭代過(guò)程中的系數(shù)以及l(fā)og似然值。CI for exp(B):輸出exp(beta)的置信區(qū)間,默認(rèn)置信度為95%根據(jù)概率對(duì)數(shù)據(jù)進(jìn)行分類(lèi)時(shí)的概率界限值,默認(rèn)值為參數(shù)估計(jì)時(shí),似然函數(shù)值收斂到最大值前的最大迭代次數(shù)。選擇輸出結(jié)果的方式。顯示每一步的計(jì)算結(jié)果或是只顯示最后的結(jié)果設(shè)定自變量進(jìn)入模型

12、方程或被剔除出方程的標(biāo)準(zhǔn)。在save選項(xiàng)中,我們可以選擇需要保存的數(shù)據(jù)文件中的統(tǒng)計(jì)量。包括殘差值、個(gè)案影響度統(tǒng)計(jì)量、預(yù)測(cè)概率值等等 (1)第一部分輸出結(jié)果有兩個(gè)表格,第一個(gè)表格說(shuō)明所有個(gè)案(28個(gè))都被選入作為回歸分析的個(gè)案。 7.8.3 結(jié)果和討論 第二個(gè)表格說(shuō)明初始的因變量值(0,1)已經(jīng)轉(zhuǎn)換為邏輯回歸分析中常用的0、1數(shù)值。 (2)第二部分(Block 0)輸出結(jié)果有4個(gè)表格。(組塊0里只有常數(shù)項(xiàng),沒(méi)有自變量)分類(lèi)表 (3)Omnibus Tests of Model Coefficients表格列出了模型系數(shù)的Omnibus Tests結(jié)果。 (4)Model Summary表給出了-

13、2 對(duì)數(shù)似然值、Cox和Snell的R2以及Nagelkerke的R2檢驗(yàn)統(tǒng)計(jì)結(jié)果。 (5)Hosmer and Lemeshow TestP值大于,說(shuō)明模型有一定的解釋能力 (6)Classification Table分類(lèi)表說(shuō)明第一次迭代結(jié)果的擬合效果,從該表格可以看出對(duì)于y=0,有86.7%的準(zhǔn)確性;對(duì)于y=1,有76.9%準(zhǔn)確性,因此對(duì)于所有個(gè)案總共有82.1%的準(zhǔn)確性。 (7)Variables in the Equation表格列出了Step 1中各個(gè)變量對(duì)應(yīng)的系數(shù),以及該變量對(duì)應(yīng)的Wald 統(tǒng)計(jì)量值和它對(duì)應(yīng)的相伴概率。從該表格中可以看出x3相伴概率最小,Wald統(tǒng)計(jì)量最大,可見(jiàn)該

14、變量在模型中很重要?;貧w系數(shù)的估計(jì)值系數(shù)的wald檢驗(yàn)Exp(beta)的估計(jì)值以及區(qū)間估計(jì) (8)Correlation Matrix表格列出了常數(shù)Constant、系數(shù)之間的相關(guān)矩陣。常數(shù)與x2之間的相關(guān)性最大,x1和x3之間的相關(guān)性最小。 (9)圖7-26所示是觀測(cè)值和預(yù)測(cè)概率分布圖。該圖以0和1為符號(hào),每四個(gè)符號(hào)代表一個(gè)個(gè)案。橫坐標(biāo)是個(gè)案屬于1的錄屬度,這里稱(chēng)為預(yù)測(cè)概率(Predicted Probability)??v坐標(biāo)是個(gè)案分布頻數(shù),反映個(gè)案的分布。 (10)邏輯回歸的最后一個(gè)輸出表格是Casewise List,列出了殘差大于2的個(gè)案。1.根據(jù)三個(gè)財(cái)務(wù)比率估計(jì)公司破產(chǎn)概率。(數(shù)據(jù)

15、見(jiàn)ftp 財(cái)務(wù)比率與破產(chǎn)預(yù)測(cè).sav)Y=0,若兩年后破產(chǎn)Y=1, 若兩年后仍有償付能力X1=未分配利潤(rùn)/總資產(chǎn)X2=支付利息稅金前的利潤(rùn)/總資產(chǎn)X3=銷(xiāo)售額/總資產(chǎn)按照習(xí)題模式,列出最終計(jì)算結(jié)果,并做出必要解釋。(Logistic 模型最終表達(dá)式模型檢驗(yàn)、擬合優(yōu)度Wald 檢驗(yàn)最終分類(lèi)表、觀測(cè)與預(yù)測(cè)分布圖系數(shù)相關(guān)矩陣)作業(yè)(共兩題)2.對(duì)于1986年挑戰(zhàn)者號(hào)航天飛機(jī)災(zāi)難之前的23次航天飛行,數(shù)據(jù) 航天飛機(jī)熱遇險(xiǎn).sav給出了飛行時(shí)溫度和是否至少有一個(gè)主要O型圈遭受熱遇險(xiǎn)。(數(shù)據(jù)見(jiàn)ftp)a)利用logistic回歸建立溫度對(duì)熱遇險(xiǎn)概率的模型,并對(duì)效應(yīng)進(jìn)行解釋。b)估計(jì)挑戰(zhàn)者號(hào)飛行時(shí)溫度為華氏31度時(shí)的熱遇險(xiǎn)概率。c)溫度為多少時(shí),概率等于?在該溫度下,給出溫度每增加一度導(dǎo)致的概率估計(jì)值的線性近似變化。d)利用wald檢驗(yàn),檢驗(yàn)不存在溫度效應(yīng)的假設(shè)小 結(jié) 回歸分析是研究變量與變量之間聯(lián)系的最為廣泛的模型。在實(shí)際中,根據(jù)變量的個(gè)數(shù)、類(lèi)型,以及變量之間的相關(guān)關(guān)系,回歸分析通

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論