多元統(tǒng)計分析邏輯回歸

上傳人：1*** IP屬地：廣東上傳時間：2023-03-14 格式：PPT 頁數(shù)：41 大?。?.69MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩36頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

概述現(xiàn)實生活中，有很多諸如需要確定客戶買或不買某種商品、銀行客戶信用好或不好等情況這時，某個事件以多大概率出現(xiàn)和哪些影響量決定該概率的問題尤為重要如果用狀態(tài)1（購買）和0（不買）的因變量（Y）表示事件，則事件發(fā)生的概率P有如下關(guān)系：P(y=0)+P(y=1)=1當(dāng)前1頁，總共41頁。由于這類問題的因變量是類別變量，無法應(yīng)用回歸方程來解決邏輯回歸是通過回歸方程，確定概率的期望值一種通過分析影響因素，來得到某種結(jié)果的概率分為二項邏輯回歸和多項邏輯回歸當(dāng)前2頁，總共41頁。當(dāng)前3頁，總共41頁。當(dāng)前4頁，總共41頁。建立邏輯回歸方程例子：超市的銷售主管想知道，顧客收入水平是否對購買新的高級黃油產(chǎn)品有影響。為此，他選擇了12位顧客，調(diào)查他們的月凈收入(x)及是否購買了該類黃油產(chǎn)品購買記為{y=1}，未購買記為{y=0}調(diào)查結(jié)果如下：當(dāng)前5頁，總共41頁。購買黃油=-0.749+0.000336×收入當(dāng)前6頁，總共41頁。邏輯回歸不是要估計二元變量的觀察值，而是要明確這些觀察值的出現(xiàn)概率通常把狀態(tài){y=1}看作“事件y發(fā)生”，而狀態(tài){y=0}為“事件不發(fā)生”假設(shè)存在一個非經(jīng)驗觀察到的隱變量z，它能對應(yīng)自變量的狀態(tài)xj給出因變量y的二元水平當(dāng)前7頁，總共41頁。y通過隱變量與xj建立聯(lián)系：邏輯函數(shù)：(1)(2)(1)、(2)構(gòu)成邏輯回歸方程。z值稱為Logit當(dāng)前8頁，總共41頁。當(dāng)前9頁，總共41頁。分析過程邏輯回歸分析可分為五個步驟：（1）建模（2）估計邏輯回歸函數(shù)（3）解釋回歸系數(shù)（4）檢驗?zāi)Ｐ驼w（5）檢驗特征變量當(dāng)前10頁，總共41頁。（1）建模邏輯回歸分析的前提也是使用者首先根據(jù)實施邏輯思考確定，哪些事件應(yīng)作為可能的因變量類型，哪些影響量決定事件類型的概率，從而提出關(guān)于自變量和因變量可能關(guān)系的假設(shè)自變量和事件{y=1}的出現(xiàn)概率間的連帶關(guān)系假設(shè)當(dāng)前11頁，總共41頁。二元邏輯回歸：因變量是二元的，即只有0和1兩個水平；因變量多于兩類的，多元邏輯回歸分析自變量也稱為共變量，可以是基數(shù)測度和非基數(shù)測度，也可“混合”xj自變量線性組合z指數(shù)連接eZ邏輯連接P(y=1)聯(lián)合影響量Logit可能性比P(y=1)/P(y=0)出現(xiàn)概率當(dāng)前12頁，總共41頁。數(shù)據(jù)當(dāng)前13頁，總共41頁。（2）估計邏輯回歸函數(shù)通常用極大似然估計法估計模型的參數(shù)，目的是使觀察到的調(diào)查數(shù)據(jù)的概率最大，來確定反映自變量權(quán)重的邏輯回歸模型參數(shù)bj若對每個觀察個體k考慮如下關(guān)系式：當(dāng)前14頁，總共41頁。Newton-Raphson算法合成一個方程：似然函數(shù)：求解：判別準則：Pk>0.5，把個體分入{y=1}；否則分入{y=0}當(dāng)前15頁，總共41頁。確定zk值（Logit）的回歸方程：zk×可涂抹性k+1.119×保質(zhì)期k將原始數(shù)據(jù)代入回歸方程Y=1Y=0當(dāng)前16頁，總共41頁。（3）解釋回歸系數(shù)自變量xj與概率Pk(y=1)間不存在線性關(guān)系，導(dǎo)致回歸系數(shù)間不能相互比較，無法直接解釋回歸系數(shù)當(dāng)前17頁，總共41頁。常數(shù)項只影響邏輯函數(shù)的水平位置。為正時，邏輯函數(shù)左移；為負時，邏輯函數(shù)右移回歸系數(shù)影響邏輯函數(shù)的走向?；貧w系數(shù)較大時，概率值很快接近邏輯函數(shù)的邊緣負的回歸系數(shù)使事件{y=1}的概率隨x值增大而減小，而正回歸系數(shù)則使事件{y=1}的概率隨x值增大而增大當(dāng)前18頁，總共41頁。邏輯回歸的發(fā)生比：邏輯回歸的Logit：z=Logit=ln(發(fā)生比)當(dāng)前19頁，總共41頁?！翱赏磕ㄐ浴钡幕貧w系數(shù)為負，該變量降低了人造黃油的購買概率；“保質(zhì)期”的回歸系數(shù)為正，它對購買概率產(chǎn)生正向影響；若自變量增加1單位，則有利于事件{y=1}的可能性比（發(fā)生比）擴大ebj倍發(fā)生比說明了變量對出現(xiàn)概率的影響程度，發(fā)生比也稱為效應(yīng)系數(shù)當(dāng)前20頁，總共41頁。正、負回歸系數(shù)對事件{y=1}的出現(xiàn)概率的影響：當(dāng)前21頁，總共41頁。（4）檢驗?zāi)Ｐ驼w需要回答兩個問題：參數(shù)估計在整體中能多有效地描述定義的回歸模型?是否存在極端觀察個體，應(yīng)把它看作離群者剔除掉，還是由于其經(jīng)常出現(xiàn)而改變模型？回歸方程的評價指標：基于對數(shù)似然函數(shù)的評價；偽R2統(tǒng)計量；分類結(jié)果的評價；當(dāng)前22頁，總共41頁。似然比值檢驗(LikelihoodRatioTest)該方法將考慮所有解釋變量最大的LL值與所有自變量的回歸系數(shù)都為0且僅考慮常數(shù)項時所得出的LL值比較若兩偏差的絕對差較小，則自變量對區(qū)分y水平的貢獻小；若偏差絕對差較大，則認為自變量的解釋能力強；考慮所有解釋變量時LL最大值給定數(shù)據(jù)組的零模型的LL最大值LLvLL0當(dāng)前23頁，總共41頁。似然比值檢驗（LR檢驗）的假設(shè)：H0：所有回歸系數(shù)都等于0H1：所有回歸系數(shù)都不等于0零模型和完整模型的偏差作為檢驗統(tǒng)計量，它近似服從自由度為J（自變量個數(shù)）的卡方分布在本例中，LL0=30.498，LLv=15.818，卡方值為14.68；卡方表中值5.99（自由度2，α=0.05），故模型是顯著的當(dāng)前24頁，總共41頁。偽R2統(tǒng)計量偽R2統(tǒng)計量試圖量化回歸模型中已解釋“變化”比例；通常McF-R2值達到0.2或0.4以上就已認為模型擬合度良好；LR檢驗回答了模型顯著性以及結(jié)果能夠運用到總體的問題，McF-R使自變量的判別能力總和可用數(shù)值表示，并可在不同模型間相互比較當(dāng)前25頁，總共41頁。Cox&Snell-R2：L0：零模型的似然LV：完整模型的似然K：樣本容量當(dāng)前26頁，總共41頁。Nagelkerke-R2：該值大于0.5時認為模型解釋能力非常好當(dāng)前27頁，總共41頁。分類結(jié)果評價將由自變量水平0和1表示的實際觀察組屬性與由回歸方程算出的概率相比較通常使用概率0.5作為分類的判別值把出現(xiàn)概率Pk(y=1)>0.5的個體分入人造黃油的購買者(M)，其他分入未購買者(N)當(dāng)前28頁，總共41頁。分類矩陣(Confusion-Matrix)判對比例(hitratio)=判對數(shù)目/總數(shù)=20/24=0.833當(dāng)前29頁，總共41頁。如果樣本容量允許，把隨機樣本分成兩個子樣本：一個分析樣本和一個檢驗樣本(Holdout-sample)。分析樣本用于估計邏輯回歸函數(shù)，然后根據(jù)此函數(shù)將檢驗樣本中的元素分類，并計算判對比率；當(dāng)前30頁，總共41頁。PressQ檢驗該檢驗統(tǒng)計量服從自由度為1的卡方分布取α=0.05，查得臨界值為3.84，故該分類結(jié)果與隨機分類結(jié)果有顯著差別當(dāng)前31頁，總共41頁。重要模型擬合度評價指標總結(jié)當(dāng)前32頁，總共41頁。離群者診斷除了說明邏輯回歸方程的整體擬合度外，單個觀察個體對模型整體有效性有何作用也很重要邏輯估計的模型關(guān)系與調(diào)查數(shù)據(jù)擬合度不佳的基本原因有兩個：模型不合適；存在許多個體（觀察值），不具有模型所描述的關(guān)系，并由于其特殊的變量水平明顯偏離結(jié)果；當(dāng)前33頁，總共41頁。對于第二種情況，通過確定每個個體的單獨殘差可說明在觀察中是否存在“離群者”，對個體k殘差如下：通常認為殘差絕對值大于0.5（兩組情況下）為離群者，并導(dǎo)致分類錯誤為了更好地辨認出此類離群者，采用一種加權(quán)方法，標準化殘差：當(dāng)前34頁，總共41頁。當(dāng)前35頁，總共41頁。對第三位受訪者，他購買了人造黃油{y=1}，根據(jù)他的評價（可涂抹性=6，保質(zhì)期=5），用估計出來的邏輯方程計算出購買概率為0.073，其標準化殘差值為3.589，明顯將該受訪者分類錯誤必須深入分析離群者的情況，以解釋極端位置的原因，通?？紤]如下原因：（1）受訪者回答問題的方式反常，把該觀察值去除；（2）大的殘差值表明模型的解釋能力差，模型中未考慮重要影響量，需擴展或修正模型當(dāng)前36頁，總共41頁。（5）檢驗特征變量

似然比檢驗LR檢驗也可用于與簡約模型的比較。分別令一個回歸系數(shù)為0，構(gòu)建不同的簡約模型，再寫出完整模型（LLV）和一個簡約模型（LLR）的-2倍對數(shù)似然之差相應(yīng)的零假設(shè)為：H0:回歸系數(shù)bj的效應(yīng)為0；H1:回歸系數(shù)bj的效應(yīng)不為0當(dāng)前37頁，總共41頁。完整模型（LLV）和一個簡約模型（LLR）的-2倍對數(shù)似然之差所形成的檢驗統(tǒng)計量服從卡方分布，自由度為兩模型參數(shù)個數(shù)之差。若僅檢驗一個變量，則自由度等于1當(dāng)前38頁，總共41頁。Wald統(tǒng)計量分母是bj的標準差W基本服從自由度為1的卡方分布回歸系數(shù)標準誤差Walddf顯著水平可涂抹性保質(zhì)期常數(shù)項-1.9431.1193.5280.7980.5862.3385.9243.6452.2761110.0150.0560.131當(dāng)前39頁，總共41頁。多項邏輯回歸

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

多元統(tǒng)計分析邏輯回歸

文檔簡介

溫馨提示

最新文檔

評論

多元統(tǒng)計分析邏輯回歸

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔