




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
調(diào)查數(shù)據(jù)分析二元回歸ppt課件目前一頁\總數(shù)五十八頁\編于十八點分類變量分析通常采用對數(shù)線性模型(Log-linearmodel),而因變量為二分變量時,對數(shù)線性模型就變成Logistic回歸模型.logistic回歸是一個概率型模型,因此可以利用它預(yù)測某事件發(fā)生的概率。例如在可以根據(jù)消費者的一些特征,判斷購買某項產(chǎn)品概率有多大。目前二頁\總數(shù)五十八頁\編于十八點目的:作出以多個自變量估計因變量的logistic回歸方程。屬于概率型非線性回歸。資料:1.因變量為反映某現(xiàn)象發(fā)生與不發(fā)生的二值變量;2.自變量宜全部或大部分為分類變量,可有少數(shù)數(shù)值變量。分類變量要數(shù)量化。用途:研究哪些變量影響因變量,影響程度方向、大小等。目前三頁\總數(shù)五十八頁\編于十八點4Logistic回歸模型一.模型的引進二.Logistic回歸模型估計三.Logistic回歸模型的評價四.Logistic回歸系數(shù)的統(tǒng)計推斷五.Logistic回歸診斷目前四頁\總數(shù)五十八頁\編于十八點回歸建?!狶ogistic回歸模型當(dāng)虛擬變量作為因變量,虛擬變量有兩個取值,可使用二元Logistic回歸。
例:在一次有關(guān)公共交通的調(diào)查中,一個調(diào)查項目為“是乘坐公交車上下班,還是騎自行車上下班”。因變量有兩個取值,當(dāng)取值為1,乘坐公交車上下班;取值為0,騎自行車上下班。目前五頁\總數(shù)五十八頁\編于十八點回歸建?!狶ogistic回歸模型
目前六頁\總數(shù)五十八頁\編于十八點回歸建?!狶ogistic回歸模型自變量(解釋變量):X1:年齡,取值從18到58;X2:月收入(元),取值850、950、1000、1200、1300、1500、1800、2100;X3:性別,取值為1,表示男性;取值為0,表示女性。
目前七頁\總數(shù)五十八頁\編于十八點8回歸建模——二元Logistic回歸模型研究目的:X1,X2,X3等因素對因變量(使用什么交通方式)有無影響?建立Y與X的多元線性回歸模型?(取值0和1)目前八頁\總數(shù)五十八頁\編于十八點9回歸建?!狶ogistic回歸模型建立p(Y=1|X)與X的多元線性回歸模型?(取值范圍0~1)目前九頁\總數(shù)五十八頁\編于十八點線性回歸模型的基本假定:(1)隨機誤差項具有0均值:(2)隨機誤差項具有同方差:(3)隨機誤差項在不同樣本點之間是獨立的,不存在序列相關(guān):(4)隨機誤差項與解釋變量(自變量)之間不相關(guān):(5)隨機誤差項服從0均值、同方差的正態(tài)分布
目前十頁\總數(shù)五十八頁\編于十八點回歸建模——二元Logistic回歸模型1、發(fā)生概率p的大小取值范圍[0,1],p與自變量的關(guān)系難以用多元線性模型來描述。2、當(dāng)p接近0或者1時,p值的微小變化用普通的方法難以發(fā)現(xiàn)和處理好??偅耗懿荒苷业揭粋€p的嚴格單調(diào)函數(shù)Q,就會比較方便;同時要求Q對在p=0或p=1的附近的微小變化很敏感。目前十一頁\總數(shù)五十八頁\編于十八點回歸建模——二元Logistic回歸模型目前十二頁\總數(shù)五十八頁\編于十八點13回歸建?!狶ogistic回歸模型Logit(P)P目前十三頁\總數(shù)五十八頁\編于十八點14回歸建模——二元Logistic回歸模型建立logit(p)與X的多元線性回歸模型:
(取值范圍-∞~+∞)優(yōu)勢比(odds)機會比(odds)目前十四頁\總數(shù)五十八頁\編于十八點15logistic回歸模型Logistic回歸模型:目前十五頁\總數(shù)五十八頁\編于十八點16Logistic回歸模型估計:極大似然估計Logistic回歸模型估計的假設(shè)條件與OLS的不同(1)logistic回歸的因變量是二分類變量(2)logistic回歸的因變量與自變量之間的關(guān)系是非線性的(3)logistic回歸中無相同分布的假設(shè)(4)logistic回歸沒有關(guān)于自變量“分布”的假設(shè)(離散,連續(xù),虛擬)目前十六頁\總數(shù)五十八頁\編于十八點Logistic回歸模型估計:極大似然估計多元回歸采用最小二乘估計,使因變量的真實值和預(yù)測值差異值的平方和最小化;Logistic變換的非線性特征使得在估計模型的時候采用極大似然估計的迭代方法,找到系數(shù)的“最可能”的估計,在計算整個模型擬合度時,采用似然值。目前十七頁\總數(shù)五十八頁\編于十八點18Logistic回歸模型估計:極大似然估計最小二乘估計(OLS):根據(jù)線性回歸模型,選擇參數(shù)估計值,使得模型的估計值與真值的離差平方和最小。極大似然估計(MLE
):選擇使得似然函數(shù)最大的參數(shù)估計值。目前十八頁\總數(shù)五十八頁\編于十八點19由于各項觀測相互獨立,其聯(lián)合分布為:Logistic回歸模型估計:極大似然估計目前十九頁\總數(shù)五十八頁\編于十八點20求似然函數(shù)的極大值Logistic回歸模型估計:極大似然估計目前二十頁\總數(shù)五十八頁\編于十八點21分別對參數(shù)求偏導(dǎo),然后令它等于0:求得的估計值,從而得到(pi的極大似然估計),這個值是在給定xi的條件下yi=1的條件概率的估計,它代表了Logistic回歸模型的擬合值。Logistic回歸模型估計:極大似然估計目前二十一頁\總數(shù)五十八頁\編于十八點22Logistic回歸系數(shù)的解釋因此每個代表當(dāng)保持其他變量不變時,每單位量的增加對對數(shù)發(fā)生比的影響發(fā)生比率若發(fā)生比率>1,則說明該變量增大時,則Y=1事件發(fā)生的比例也就越高。目前二十二頁\總數(shù)五十八頁\編于十八點Logistic回歸模型估計:極大似然估計目前二十三頁\總數(shù)五十八頁\編于十八點24Logistic回歸模型的評價
1擬合優(yōu)度檢驗(Goodnessoffit)1.1皮爾遜檢驗1.2Hosmer-Lemeshow檢驗
2Logistic回歸模型的預(yù)測準確性Cox&SnellRSquare指標(biāo)和NagelkerkeRSquare指標(biāo)目前二十四頁\總數(shù)五十八頁\編于十八點擬合優(yōu)度檢驗Logistic回歸模型的擬合優(yōu)度檢驗是通過比較模型預(yù)測的與實際觀測的事件發(fā)生與不發(fā)生的頻數(shù)有無差別來進行檢驗。如果預(yù)測的值與實際觀測的值越接近,說明模型的擬合效果越好。模型的擬合優(yōu)度檢驗方法有偏差檢驗(Deviance)、皮爾遜(pearson)檢驗、統(tǒng)計量(Homser-Lemeshow),分別計算統(tǒng)計量X2D、X2
P、X2HL值。統(tǒng)計量值越小,對應(yīng)的概率越大。原假設(shè)H0:模型的擬合效果好。模型擬合優(yōu)度信息指標(biāo)有:-2lnL、AIC、SC。這3個指標(biāo)越小表示模型擬合的越好。目前二十五頁\總數(shù)五十八頁\編于十八點類R2是預(yù)測準確性的粗略近似,在自變量與因變量完全無關(guān)時,類R2值趨近于0;當(dāng)和模型能夠完美預(yù)測時,類R2趨近于1.262.1Logistic回歸模型的預(yù)測準確性目前二十六頁\總數(shù)五十八頁\編于十八點272Logistic回歸模型的預(yù)測準確性Cox&SnellRSquare指標(biāo)
其中與表示零假設(shè)模型與所設(shè)模型各自的似然值,n為樣本容量。目前二十七頁\總數(shù)五十八頁\編于十八點282.1Logistic回歸模型的預(yù)測準確性然而對于logistic回歸,上面定義的R最大值卻小于1Nagelkerke提出一種logistic回歸的調(diào)整確定系數(shù)目前二十八頁\總數(shù)五十八頁\編于十八點目前二十九頁\總數(shù)五十八頁\編于十八點30Logistic回歸模型的統(tǒng)計推斷Logistic回歸方程的檢驗(對模型回歸系數(shù)整體檢驗):似然比檢驗(likehoodratiotest)、比分檢驗(scoretest)和Wald檢驗(waldtest)Logistic回歸系數(shù)的顯著性檢驗:Wald檢驗Logistic回歸參數(shù)的的置信區(qū)間
Logistic回歸系數(shù)的置信區(qū)間發(fā)生比率的置信區(qū)間目前三十頁\總數(shù)五十八頁\編于十八點311Logistic回歸方程的顯著性檢驗檢驗?zāi)P椭兴凶宰兞空w來看是否與所研究事件的對數(shù)優(yōu)勢比存在線性關(guān)系,也即方程是否成立。檢驗的方法有似然比檢驗(likehoodratiotest)、比分檢驗(scoretest)和Wald檢驗(waldtest)。三種方法中,似然比檢驗最可靠,比分檢驗一般與它相一致,但兩者均要求較大的計算量;而Wald檢驗未考慮各因素間的綜合作用,在因素間有共線性時結(jié)果不如其它兩者可靠。
目前三十一頁\總數(shù)五十八頁\編于十八點似然比檢驗(likehoodratiotest)通過比較包含與不包含某一個或幾個待檢驗觀察因素的兩個模型的對數(shù)似然函數(shù)變化來進行,其統(tǒng)計量為G(又稱Deviance)。
G=-2(lnLp-lnLk)
樣本量較大時,G近似服從自由度為待檢驗因素個數(shù)的2分布。目前三十二頁\總數(shù)五十八頁\編于十八點似然比檢驗當(dāng)G大于臨界值時,接受H1,拒絕無效假設(shè),認為從整體上看適合作Logistic回歸分析,回歸方程成立。目前三十三頁\總數(shù)五十八頁\編于十八點Logistic回歸系數(shù)的顯著性檢驗為了確定哪些自變量能進入方程,還需要對每個自變量的回歸系數(shù)進行假設(shè)檢驗,判斷其對模型是否有貢獻。檢驗方法常用WaldX2檢驗。目前三十四頁\總數(shù)五十八頁\編于十八點35Logistic回歸系數(shù)的顯著性檢驗Wald檢驗該檢驗是基于在大樣本情況下β值服從正態(tài)分布的性質(zhì)。其中為的標(biāo)準誤。原假設(shè):
該自變量下的回歸系數(shù)=0目前三十五頁\總數(shù)五十八頁\編于十八點36Logistic回歸參數(shù)的的置信區(qū)間Logistic回歸系數(shù)的置信區(qū)間為:發(fā)生比率的置信區(qū)間目前三十六頁\總數(shù)五十八頁\編于十八點37二分類Logistic回歸method中文名稱剔除依據(jù)Enter全部進入Forward:conditional向前逐步條件參數(shù)估計似然比Forward:LR向前逐步最大偏似然估計似然比Forward:Wald向前逐步Wald統(tǒng)計量Backward:conditional向后逐步條件參數(shù)估計似然比Backward:LR向后逐步最大偏似然估計似然比Backward:Wald向后逐步Wald統(tǒng)計量目前三十七頁\總數(shù)五十八頁\編于十八點目前三十八頁\總數(shù)五十八頁\編于十八點目前三十九頁\總數(shù)五十八頁\編于十八點目前四十頁\總數(shù)五十八頁\編于十八點目前四十一頁\總數(shù)五十八頁\編于十八點回歸建?!狶ogistic回歸模型Logistic回歸可直接預(yù)測事件發(fā)生的概率,若預(yù)測概率大于0.5,則預(yù)測發(fā)生(Y=1);若預(yù)測概率小于0.5,則不發(fā)生(Y=0)。目前四十二頁\總數(shù)五十八頁\編于十八點43Logistic回歸模型的診斷多重共線性的診斷異常值的診斷目前四十三頁\總數(shù)五十八頁\編于十八點44多重共線性的診斷相關(guān)系數(shù)矩陣容忍度方差膨脹因子由于只關(guān)心自變量之間的關(guān)系,所以可以通過線性回歸得到容忍度指標(biāo)。目前四十四頁\總數(shù)五十八頁\編于十八點45異常值的診斷(一)標(biāo)準化殘差(Pearson殘差)yj為第j個協(xié)變量組合的陽性(取值為1)觀察值個數(shù)nj為第j個協(xié)變量組合的觀察單位數(shù)Pj為第j個協(xié)變量組合的概率估計值一般認為殘差值超過2則可能為異常點目前四十五頁\總數(shù)五十八頁\編于十八點46異常值的診斷(二)Deviance殘差其中sgn表示此式的正負號與(yj-njpj)的相同一般認為殘差值超過2則可能為異常點目前四十六頁\總數(shù)五十八頁\編于十八點47例題:高中畢業(yè)生繼續(xù)進入大學(xué)學(xué)習(xí)的可能性的影響因素如果一個高中畢業(yè)生升入了大學(xué),則y=1;如果沒有升入大學(xué),則y=0。P為高中畢業(yè)后升入大學(xué)的概率。自變量為性別Gender(1為男性,0為女性),高中類型Keysch(1為重點中學(xué)、0為普通中學(xué)),高中成績Meangr。前兩個為虛擬變量,Meangr為連續(xù)變量。Logistic回歸模型為:目前四十七頁\總數(shù)五十八頁\編于十八點48數(shù)據(jù)目前四十八頁\總數(shù)五十八頁\編于十八點49最后的回歸結(jié)果為:目前四十九頁\總數(shù)五十八頁\編于十八點分組數(shù)據(jù)的二元Logistic回歸模型例:在一次住房展銷會上,與房地產(chǎn)商簽
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 抖音賬號IP人設(shè)深度定制與內(nèi)容制作合作協(xié)議
- 春季傳染病的預(yù)防
- 酒店管理實習(xí)協(xié)議書
- 食品經(jīng)營誠信協(xié)議書
- 魚池定制訂購協(xié)議書
- 裝修公共損壞協(xié)議書
- 認繳公司設(shè)立協(xié)議書
- 銀行取消代扣協(xié)議書
- 購銷合同三方協(xié)議書
- 雕塑維護保養(yǎng)協(xié)議書
- 故都的秋課文原文
- 中國普通食物營養(yǎng)成分表(修正版)
- 陜西省西安市新城區(qū)2024-2025學(xué)年一年級上學(xué)期期中語文試卷
- 短暫性腦缺血發(fā)作
- 對話大國工匠 致敬勞動模范學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 【上市公司應(yīng)收賬款審計失敗原因及應(yīng)對措施探究:以立信所審計風(fēng)華高科公司為例(論文)10000字】
- 安全生產(chǎn)月啟動儀式活動方案
- 《長征勝利萬歲》教學(xué)設(shè)計 2024-2025學(xué)年統(tǒng)編版高中語文選擇性必修上冊
- 為什么你的學(xué)生不思考?主題班會分享
- 2024至2030年成都市酒店市場前景及發(fā)展戰(zhàn)略研究報告
- 2024年上海高考數(shù)學(xué)真題試題(原卷版+含解析)
評論
0/150
提交評論