調(diào)查數(shù)據(jù)分析二元回歸演示_第1頁(yè)
調(diào)查數(shù)據(jù)分析二元回歸演示_第2頁(yè)
調(diào)查數(shù)據(jù)分析二元回歸演示_第3頁(yè)
調(diào)查數(shù)據(jù)分析二元回歸演示_第4頁(yè)
調(diào)查數(shù)據(jù)分析二元回歸演示_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

調(diào)查數(shù)據(jù)分析二元回歸ppt課件本文檔共58頁(yè);當(dāng)前第1頁(yè);編輯于星期六\17點(diǎn)16分分類變量分析通常采用對(duì)數(shù)線性模型(Log-linearmodel),而因變量為二分變量時(shí),對(duì)數(shù)線性模型就變成Logistic回歸模型.logistic回歸是一個(gè)概率型模型,因此可以利用它預(yù)測(cè)某事件發(fā)生的概率。例如在可以根據(jù)消費(fèi)者的一些特征,判斷購(gòu)買某項(xiàng)產(chǎn)品概率有多大。本文檔共58頁(yè);當(dāng)前第2頁(yè);編輯于星期六\17點(diǎn)16分目的:作出以多個(gè)自變量估計(jì)因變量的logistic回歸方程。屬于概率型非線性回歸。資料:1.因變量為反映某現(xiàn)象發(fā)生與不發(fā)生的二值變量;2.自變量宜全部或大部分為分類變量,可有少數(shù)數(shù)值變量。分類變量要數(shù)量化。用途:研究哪些變量影響因變量,影響程度方向、大小等。本文檔共58頁(yè);當(dāng)前第3頁(yè);編輯于星期六\17點(diǎn)16分4Logistic回歸模型一.模型的引進(jìn)二.Logistic回歸模型估計(jì)三.Logistic回歸模型的評(píng)價(jià)四.Logistic回歸系數(shù)的統(tǒng)計(jì)推斷五.Logistic回歸診斷本文檔共58頁(yè);當(dāng)前第4頁(yè);編輯于星期六\17點(diǎn)16分回歸建?!狶ogistic回歸模型當(dāng)虛擬變量作為因變量,虛擬變量有兩個(gè)取值,可使用二元Logistic回歸。

例:在一次有關(guān)公共交通的調(diào)查中,一個(gè)調(diào)查項(xiàng)目為“是乘坐公交車上下班,還是騎自行車上下班”。因變量有兩個(gè)取值,當(dāng)取值為1,乘坐公交車上下班;取值為0,騎自行車上下班。本文檔共58頁(yè);當(dāng)前第5頁(yè);編輯于星期六\17點(diǎn)16分回歸建?!狶ogistic回歸模型

本文檔共58頁(yè);當(dāng)前第6頁(yè);編輯于星期六\17點(diǎn)16分回歸建?!狶ogistic回歸模型自變量(解釋變量):X1:年齡,取值從18到58;X2:月收入(元),取值850、950、1000、1200、1300、1500、1800、2100;X3:性別,取值為1,表示男性;取值為0,表示女性。

本文檔共58頁(yè);當(dāng)前第7頁(yè);編輯于星期六\17點(diǎn)16分8回歸建?!狶ogistic回歸模型研究目的:X1,X2,X3等因素對(duì)因變量(使用什么交通方式)有無(wú)影響?建立Y與X的多元線性回歸模型?(取值0和1)本文檔共58頁(yè);當(dāng)前第8頁(yè);編輯于星期六\17點(diǎn)16分9回歸建?!狶ogistic回歸模型建立p(Y=1|X)與X的多元線性回歸模型?(取值范圍0~1)本文檔共58頁(yè);當(dāng)前第9頁(yè);編輯于星期六\17點(diǎn)16分線性回歸模型的基本假定:(1)隨機(jī)誤差項(xiàng)具有0均值:(2)隨機(jī)誤差項(xiàng)具有同方差:(3)隨機(jī)誤差項(xiàng)在不同樣本點(diǎn)之間是獨(dú)立的,不存在序列相關(guān):(4)隨機(jī)誤差項(xiàng)與解釋變量(自變量)之間不相關(guān):(5)隨機(jī)誤差項(xiàng)服從0均值、同方差的正態(tài)分布

本文檔共58頁(yè);當(dāng)前第10頁(yè);編輯于星期六\17點(diǎn)16分回歸建?!狶ogistic回歸模型1、發(fā)生概率p的大小取值范圍[0,1],p與自變量的關(guān)系難以用多元線性模型來(lái)描述。2、當(dāng)p接近0或者1時(shí),p值的微小變化用普通的方法難以發(fā)現(xiàn)和處理好。總:能不能找到一個(gè)p的嚴(yán)格單調(diào)函數(shù)Q,就會(huì)比較方便;同時(shí)要求Q對(duì)在p=0或p=1的附近的微小變化很敏感。本文檔共58頁(yè);當(dāng)前第11頁(yè);編輯于星期六\17點(diǎn)16分回歸建模——二元Logistic回歸模型本文檔共58頁(yè);當(dāng)前第12頁(yè);編輯于星期六\17點(diǎn)16分13回歸建模——二元Logistic回歸模型Logit(P)P本文檔共58頁(yè);當(dāng)前第13頁(yè);編輯于星期六\17點(diǎn)16分14回歸建模——二元Logistic回歸模型建立logit(p)與X的多元線性回歸模型:

(取值范圍-∞~+∞)優(yōu)勢(shì)比(odds)機(jī)會(huì)比(odds)本文檔共58頁(yè);當(dāng)前第14頁(yè);編輯于星期六\17點(diǎn)16分15logistic回歸模型Logistic回歸模型:本文檔共58頁(yè);當(dāng)前第15頁(yè);編輯于星期六\17點(diǎn)16分16Logistic回歸模型估計(jì):極大似然估計(jì)Logistic回歸模型估計(jì)的假設(shè)條件與OLS的不同(1)logistic回歸的因變量是二分類變量(2)logistic回歸的因變量與自變量之間的關(guān)系是非線性的(3)logistic回歸中無(wú)相同分布的假設(shè)(4)logistic回歸沒(méi)有關(guān)于自變量“分布”的假設(shè)(離散,連續(xù),虛擬)本文檔共58頁(yè);當(dāng)前第16頁(yè);編輯于星期六\17點(diǎn)16分Logistic回歸模型估計(jì):極大似然估計(jì)多元回歸采用最小二乘估計(jì),使因變量的真實(shí)值和預(yù)測(cè)值差異值的平方和最小化;Logistic變換的非線性特征使得在估計(jì)模型的時(shí)候采用極大似然估計(jì)的迭代方法,找到系數(shù)的“最可能”的估計(jì),在計(jì)算整個(gè)模型擬合度時(shí),采用似然值。本文檔共58頁(yè);當(dāng)前第17頁(yè);編輯于星期六\17點(diǎn)16分18Logistic回歸模型估計(jì):極大似然估計(jì)最小二乘估計(jì)(OLS):根據(jù)線性回歸模型,選擇參數(shù)估計(jì)值,使得模型的估計(jì)值與真值的離差平方和最小。極大似然估計(jì)(MLE

):選擇使得似然函數(shù)最大的參數(shù)估計(jì)值。本文檔共58頁(yè);當(dāng)前第18頁(yè);編輯于星期六\17點(diǎn)16分19由于各項(xiàng)觀測(cè)相互獨(dú)立,其聯(lián)合分布為:Logistic回歸模型估計(jì):極大似然估計(jì)本文檔共58頁(yè);當(dāng)前第19頁(yè);編輯于星期六\17點(diǎn)16分20求似然函數(shù)的極大值Logistic回歸模型估計(jì):極大似然估計(jì)本文檔共58頁(yè);當(dāng)前第20頁(yè);編輯于星期六\17點(diǎn)16分21分別對(duì)參數(shù)求偏導(dǎo),然后令它等于0:求得的估計(jì)值,從而得到(pi的極大似然估計(jì)),這個(gè)值是在給定xi的條件下yi=1的條件概率的估計(jì),它代表了Logistic回歸模型的擬合值。Logistic回歸模型估計(jì):極大似然估計(jì)本文檔共58頁(yè);當(dāng)前第21頁(yè);編輯于星期六\17點(diǎn)16分22Logistic回歸系數(shù)的解釋因此每個(gè)代表當(dāng)保持其他變量不變時(shí),每單位量的增加對(duì)對(duì)數(shù)發(fā)生比的影響發(fā)生比率若發(fā)生比率>1,則說(shuō)明該變量增大時(shí),則Y=1事件發(fā)生的比例也就越高。本文檔共58頁(yè);當(dāng)前第22頁(yè);編輯于星期六\17點(diǎn)16分Logistic回歸模型估計(jì):極大似然估計(jì)本文檔共58頁(yè);當(dāng)前第23頁(yè);編輯于星期六\17點(diǎn)16分24Logistic回歸模型的評(píng)價(jià)

1擬合優(yōu)度檢驗(yàn)(Goodnessoffit)1.1皮爾遜檢驗(yàn)1.2Hosmer-Lemeshow檢驗(yàn)

2Logistic回歸模型的預(yù)測(cè)準(zhǔn)確性Cox&SnellRSquare指標(biāo)和NagelkerkeRSquare指標(biāo)本文檔共58頁(yè);當(dāng)前第24頁(yè);編輯于星期六\17點(diǎn)16分?jǐn)M合優(yōu)度檢驗(yàn)Logistic回歸模型的擬合優(yōu)度檢驗(yàn)是通過(guò)比較模型預(yù)測(cè)的與實(shí)際觀測(cè)的事件發(fā)生與不發(fā)生的頻數(shù)有無(wú)差別來(lái)進(jìn)行檢驗(yàn)。如果預(yù)測(cè)的值與實(shí)際觀測(cè)的值越接近,說(shuō)明模型的擬合效果越好。模型的擬合優(yōu)度檢驗(yàn)方法有偏差檢驗(yàn)(Deviance)、皮爾遜(pearson)檢驗(yàn)、統(tǒng)計(jì)量(Homser-Lemeshow),分別計(jì)算統(tǒng)計(jì)量X2D、X2

P、X2HL值。統(tǒng)計(jì)量值越小,對(duì)應(yīng)的概率越大。原假設(shè)H0:模型的擬合效果好。模型擬合優(yōu)度信息指標(biāo)有:-2lnL、AIC、SC。這3個(gè)指標(biāo)越小表示模型擬合的越好。本文檔共58頁(yè);當(dāng)前第25頁(yè);編輯于星期六\17點(diǎn)16分類R2是預(yù)測(cè)準(zhǔn)確性的粗略近似,在自變量與因變量完全無(wú)關(guān)時(shí),類R2值趨近于0;當(dāng)和模型能夠完美預(yù)測(cè)時(shí),類R2趨近于1.262.1Logistic回歸模型的預(yù)測(cè)準(zhǔn)確性本文檔共58頁(yè);當(dāng)前第26頁(yè);編輯于星期六\17點(diǎn)16分272Logistic回歸模型的預(yù)測(cè)準(zhǔn)確性Cox&SnellRSquare指標(biāo)

其中與表示零假設(shè)模型與所設(shè)模型各自的似然值,n為樣本容量。本文檔共58頁(yè);當(dāng)前第27頁(yè);編輯于星期六\17點(diǎn)16分282.1Logistic回歸模型的預(yù)測(cè)準(zhǔn)確性然而對(duì)于logistic回歸,上面定義的R最大值卻小于1Nagelkerke提出一種logistic回歸的調(diào)整確定系數(shù)本文檔共58頁(yè);當(dāng)前第28頁(yè);編輯于星期六\17點(diǎn)16分本文檔共58頁(yè);當(dāng)前第29頁(yè);編輯于星期六\17點(diǎn)16分30Logistic回歸模型的統(tǒng)計(jì)推斷Logistic回歸方程的檢驗(yàn)(對(duì)模型回歸系數(shù)整體檢驗(yàn)):似然比檢驗(yàn)(likehoodratiotest)、比分檢驗(yàn)(scoretest)和Wald檢驗(yàn)(waldtest)Logistic回歸系數(shù)的顯著性檢驗(yàn):Wald檢驗(yàn)Logistic回歸參數(shù)的的置信區(qū)間

Logistic回歸系數(shù)的置信區(qū)間發(fā)生比率的置信區(qū)間本文檔共58頁(yè);當(dāng)前第30頁(yè);編輯于星期六\17點(diǎn)16分311Logistic回歸方程的顯著性檢驗(yàn)檢驗(yàn)?zāi)P椭兴凶宰兞空w來(lái)看是否與所研究事件的對(duì)數(shù)優(yōu)勢(shì)比存在線性關(guān)系,也即方程是否成立。檢驗(yàn)的方法有似然比檢驗(yàn)(likehoodratiotest)、比分檢驗(yàn)(scoretest)和Wald檢驗(yàn)(waldtest)。三種方法中,似然比檢驗(yàn)最可靠,比分檢驗(yàn)一般與它相一致,但兩者均要求較大的計(jì)算量;而Wald檢驗(yàn)未考慮各因素間的綜合作用,在因素間有共線性時(shí)結(jié)果不如其它兩者可靠。

本文檔共58頁(yè);當(dāng)前第31頁(yè);編輯于星期六\17點(diǎn)16分似然比檢驗(yàn)(likehoodratiotest)通過(guò)比較包含與不包含某一個(gè)或幾個(gè)待檢驗(yàn)觀察因素的兩個(gè)模型的對(duì)數(shù)似然函數(shù)變化來(lái)進(jìn)行,其統(tǒng)計(jì)量為G(又稱Deviance)。

G=-2(lnLp-lnLk)

樣本量較大時(shí),G近似服從自由度為待檢驗(yàn)因素個(gè)數(shù)的2分布。本文檔共58頁(yè);當(dāng)前第32頁(yè);編輯于星期六\17點(diǎn)16分似然比檢驗(yàn)當(dāng)G大于臨界值時(shí),接受H1,拒絕無(wú)效假設(shè),認(rèn)為從整體上看適合作Logistic回歸分析,回歸方程成立。本文檔共58頁(yè);當(dāng)前第33頁(yè);編輯于星期六\17點(diǎn)16分Logistic回歸系數(shù)的顯著性檢驗(yàn)為了確定哪些自變量能進(jìn)入方程,還需要對(duì)每個(gè)自變量的回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn),判斷其對(duì)模型是否有貢獻(xiàn)。檢驗(yàn)方法常用WaldX2檢驗(yàn)。本文檔共58頁(yè);當(dāng)前第34頁(yè);編輯于星期六\17點(diǎn)16分35Logistic回歸系數(shù)的顯著性檢驗(yàn)Wald檢驗(yàn)該檢驗(yàn)是基于在大樣本情況下β值服從正態(tài)分布的性質(zhì)。其中為的標(biāo)準(zhǔn)誤。原假設(shè):

該自變量下的回歸系數(shù)=0本文檔共58頁(yè);當(dāng)前第35頁(yè);編輯于星期六\17點(diǎn)16分36Logistic回歸參數(shù)的的置信區(qū)間Logistic回歸系數(shù)的置信區(qū)間為:發(fā)生比率的置信區(qū)間本文檔共58頁(yè);當(dāng)前第36頁(yè);編輯于星期六\17點(diǎn)16分37二分類Logistic回歸method中文名稱剔除依據(jù)Enter全部進(jìn)入Forward:conditional向前逐步條件參數(shù)估計(jì)似然比Forward:LR向前逐步最大偏似然估計(jì)似然比Forward:Wald向前逐步Wald統(tǒng)計(jì)量Backward:conditional向后逐步條件參數(shù)估計(jì)似然比Backward:LR向后逐步最大偏似然估計(jì)似然比Backward:Wald向后逐步Wald統(tǒng)計(jì)量本文檔共58頁(yè);當(dāng)前第37頁(yè);編輯于星期六\17點(diǎn)16分本文檔共58頁(yè);當(dāng)前第38頁(yè);編輯于星期六\17點(diǎn)16分本文檔共58頁(yè);當(dāng)前第39頁(yè);編輯于星期六\17點(diǎn)16分本文檔共58頁(yè);當(dāng)前第40頁(yè);編輯于星期六\17點(diǎn)16分本文檔共58頁(yè);當(dāng)前第41頁(yè);編輯于星期六\17點(diǎn)16分回歸建?!狶ogistic回歸模型Logistic回歸可直接預(yù)測(cè)事件發(fā)生的概率,若預(yù)測(cè)概率大于0.5,則預(yù)測(cè)發(fā)生(Y=1);若預(yù)測(cè)概率小于0.5,則不發(fā)生(Y=0)。本文檔共58頁(yè);當(dāng)前第42頁(yè);編輯于星期六\17點(diǎn)16分43Logistic回歸模型的診斷多重共線性的診斷異常值的診斷本文檔共58頁(yè);當(dāng)前第43頁(yè);編輯于星期六\17點(diǎn)16分44多重共線性的診斷相關(guān)系數(shù)矩陣容忍度方差膨脹因子由于只關(guān)心自變量之間的關(guān)系,所以可以通過(guò)線性回歸得到容忍度指標(biāo)。本文檔共58頁(yè);當(dāng)前第44頁(yè);編輯于星期六\17點(diǎn)16分45異常值的診斷(一)標(biāo)準(zhǔn)化殘差(Pearson殘差)yj為第j個(gè)協(xié)變量組合的陽(yáng)性(取值為1)觀察值個(gè)數(shù)nj為第j個(gè)協(xié)變量組合的觀察單位數(shù)Pj為第j個(gè)協(xié)變量組合的概率估計(jì)值一般認(rèn)為殘差值超過(guò)2則可能為異常點(diǎn)本文檔共58頁(yè);當(dāng)前第45頁(yè);編輯于星期六\17點(diǎn)16分46異常值的診斷(二)Deviance殘差其中sgn表示此式的正負(fù)號(hào)與(yj-njpj)的相同一般認(rèn)為殘差值超過(guò)2則可能為異常點(diǎn)本文檔共58頁(yè);當(dāng)前第46頁(yè);編輯于星期六\17點(diǎn)16分47例題:高中畢業(yè)生繼續(xù)進(jìn)入大學(xué)學(xué)習(xí)的可能性的影響因素如果一個(gè)高中畢業(yè)生升入了大學(xué),則y=1;如果沒(méi)有升入大學(xué),則y=0。P為高中畢業(yè)后升入大學(xué)的概率。自變量為性別Gender(1為男性,0為女性),高中類型Keysch(1為重點(diǎn)中學(xué)、0為普通中學(xué)),高中成績(jī)Meangr。前兩個(gè)為虛擬變量,Meangr為連續(xù)變量。Logistic回歸模型為:本文檔共58頁(yè);當(dāng)前第47頁(yè);編輯于星期六\17點(diǎn)16分48數(shù)據(jù)本文檔共58頁(yè);當(dāng)前第48頁(yè);編輯于星期六\17點(diǎn)16分49最后的回歸結(jié)果為:本文檔共58頁(yè);當(dāng)前第49頁(yè);編輯于星期六\17點(diǎn)16分分組數(shù)據(jù)的二元Logistic回歸模型例:在一次住房展銷會(huì)上,與房地產(chǎn)商簽訂初步購(gòu)房意向書的共有n=313名顧客。在隨后的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論