版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2023/2/6ncutstat1第八章定性數(shù)據(jù)的建模分析
目錄上頁下頁返回結(jié)束
§8.1對數(shù)線性模型基本理論和方法§8.2對數(shù)線性模型分析的上機(jī)實(shí)驗(yàn)§8.3Logistic回歸基本理論和方法§8.4Logistic回歸的方法與步驟2023/2/6ncutstat2第八章定型數(shù)據(jù)的建模分析
目錄上頁下頁返回結(jié)束
第三章我們曾討論過定性數(shù)據(jù)的列聯(lián)表分析,對數(shù)線性模型是進(jìn)一步用于離散型數(shù)據(jù)或整理成列聯(lián)表格式的數(shù)據(jù)的統(tǒng)計(jì)分析工具。它可以把方差分析和線性模型的一些方法應(yīng)用到對交叉列聯(lián)表的分析中,從而對定性變量間的關(guān)系作更進(jìn)一步的描述和分析。2023/2/6ncutstat3列聯(lián)表分析無法系統(tǒng)地評價(jià)變量間的聯(lián)系,也無法估計(jì)變量間交互作用的大小,而對數(shù)線性模型是處理這些問題的最佳方法。當(dāng)被解釋變量是非度量變量時(shí),可以用判別分析。然而當(dāng)被解釋變量只有兩組時(shí),Logistic回歸由于多種原因更受歡迎。
首先,判別分析依賴于嚴(yán)格的多元正態(tài)性和相等協(xié)差陣的假設(shè),這在很多情況下是達(dá)不到的。Logistic回歸沒有類似的假設(shè),而且這些假設(shè)不滿足時(shí),結(jié)果非常穩(wěn)定。2023/2/6ncutstat5§8.1對數(shù)線性模型基本理論和方法
目錄上頁下頁返回結(jié)束
本節(jié)將利用2×2維的交叉列聯(lián)表來說明對數(shù)線性模型的基本理論和方法,同時(shí)利用SPSS軟件對真實(shí)的經(jīng)濟(jì)定性數(shù)據(jù)作分析。從2×2維的交叉列聯(lián)表的概率表,介紹對數(shù)線性模型的基本理論和方法。2023/2/6ncutstat6§8.1對數(shù)線性模型基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat7§8.1對數(shù)線性模型基本理論和方法
目錄上頁下頁返回結(jié)束
對上面三式各取其平均數(shù)為:
該式的結(jié)構(gòu)與有交互效應(yīng),且各水平均為二的雙因素方差分析模型的結(jié)構(gòu)相似,因此模仿方差分析,可以有如下關(guān)系式:
2023/2/6ncutstat9§8.1對數(shù)線性模型基本理論和方法
目錄上頁下頁返回結(jié)束
(8.2)
2023/2/6ncutstat10§8.1對數(shù)線性模型基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat11§8.1對數(shù)線性模型基本理論和方法
目錄上頁下頁返回結(jié)束
在實(shí)際分析中,概率表中各項(xiàng)值,以交叉列聯(lián)表計(jì)算得的頻率表的對應(yīng)項(xiàng)為無偏估計(jì)值。公式表示為:2023/2/6ncutstat13§8.2對數(shù)線性模型分析的上機(jī)實(shí)踐
目錄上頁下頁返回結(jié)束
可以使用SPSS軟件來實(shí)現(xiàn)對數(shù)線性模型分析。這里舉一個(gè)例子是3×2維的交叉列聯(lián)表的分析。我們用SPSS軟件中的Loglinear模塊實(shí)現(xiàn)分析?!纠?.1】某企業(yè)想了解顧客對其產(chǎn)品是否滿意,同時(shí)還想了解不同收入的人群對其產(chǎn)品的滿意程度是否相同。在隨機(jī)發(fā)放的1000份問卷中收回有效問卷792份,根據(jù)收入高低和滿意回答的交叉分組數(shù)據(jù)如表8-1:2023/2/6ncutstat14§8.2對數(shù)線性模型分析的上機(jī)實(shí)踐
目錄上頁下頁返回結(jié)束
表8.1.
滿意不滿意合計(jì)高533891中434108542低11148159合計(jì)5981947922023/2/6ncutstat15§8.2對數(shù)線性模型分析的上機(jī)實(shí)踐
目錄上頁下頁返回結(jié)束
首先要準(zhǔn)備數(shù)據(jù),上面的交叉列連表的數(shù)據(jù)要輸入到spss的表格里去,具體應(yīng)當(dāng)是入下:頻數(shù)收入情況滿意情況5311434211113138121082248322023/2/6ncutstat17§8.2對數(shù)線性模型分析的上機(jī)實(shí)踐
目錄上頁下頁返回結(jié)束
按上面的形勢輸入數(shù)據(jù)后,還不能馬上進(jìn)行對數(shù)線性模型分析,必須先激活頻數(shù),即讓頻數(shù)有效。具體步驟是:使用SPSS軟件,從主菜單中,以Data→WeightCases...順序,打開WeightCases對話框,選中Weightcasesby單選框,從變量列表中選出“頻數(shù)”變量,點(diǎn)擊鈕,使之進(jìn)入FrequencyVariable框,然后點(diǎn)擊OK鈕,回到數(shù)據(jù)表格,這時(shí)分析前的準(zhǔn)備工作就完成了。這一步很重要,如果頻數(shù)沒有被激活,對數(shù)線性模型的模塊仍會(huì)執(zhí)行命令,但是得出的結(jié)果是錯(cuò)誤的,所以使用時(shí)一定要小心。2023/2/6ncutstat18§8.2對數(shù)線性模型分析的上機(jī)實(shí)踐
目錄上頁下頁返回結(jié)束
數(shù)據(jù)準(zhǔn)備工作完成后,就可以進(jìn)行下一步的分析了。從主菜單中,按Analyze→Loglinear→ModelSelection...的流程可打開ModelSelectionLoglinearAnalysis對話框,從左側(cè)變量欄里選中“收入情況”,點(diǎn)擊鈕使之進(jìn)入Factor(s)框,這時(shí)該框下面的DefineRange...鈕就會(huì)從灰色變?yōu)楹谏c(diǎn)擊彈出LoglinearAnalysis:DefineRange對話框,可以定義變量的范圍,即該變量的水平范圍,本例中“收入情況”共有三種類型,代號分別是1、2、3,所以在Minimum處鍵入1,在Maximum處鍵入3,2023/2/6ncutstat19§8.2對數(shù)線性模型分析的上機(jī)實(shí)踐
目錄上頁下頁返回結(jié)束
點(diǎn)擊Continue鈕,返回ModelSelectionLoglinearAnalysis對話框;按同樣方法,把“滿意情況”變量選入,并定以其范圍為1、2;然后選中“頻數(shù)”變量,點(diǎn)擊鈕使之進(jìn)入CellWeight框;最后,點(diǎn)擊Options...鈕,進(jìn)入LoglinearAnalysis:Options對話框,選擇DisplayforSaturatedModel欄下的Parameterestimates項(xiàng),點(diǎn)擊Continue鈕返回ModelSelectionLoglinearAnalysis對話框,其他選項(xiàng)保持默認(rèn)值,最后點(diǎn)擊OK鈕即完成分析步驟。2023/2/6ncutstat21§8.2對數(shù)線性模型分析的上機(jī)實(shí)踐
目錄上頁下頁返回結(jié)束
首先顯示系統(tǒng)對792例資料進(jìn)行分析,這792例資料可分為6類(3×2)。模型中共有二個(gè)分類變量:其中“收入情況”變量為3水平,“滿意情況”情況變量為2水平;分析的效應(yīng)除了兩個(gè)分類變量,還有兩者的交互作用(收入情況*滿意情況)。系統(tǒng)經(jīng)1次疊代后,即達(dá)到相鄰二次估計(jì)之差不大于規(guī)定的0.001。2023/2/6ncutstat22§8.2對數(shù)線性模型分析的上機(jī)實(shí)踐
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat23§8.2對數(shù)線性模型分析的上機(jī)實(shí)踐
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat25§8.2對數(shù)線性模型分析的上機(jī)實(shí)踐
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat26§8.2對數(shù)線性模型分析的上機(jī)實(shí)踐
目錄上頁下頁返回結(jié)束
為了唯一地估計(jì)參數(shù),系統(tǒng)強(qiáng)行限定同一分類變量的各水平參數(shù)之和為0,故根據(jù)上表結(jié)果可推得各參數(shù)為:2023/2/6ncutstat29§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat30§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat31§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat32§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
Logistic回歸不同于一般回歸分析的地方在于它直接預(yù)測出了事件發(fā)生的概率。盡管這個(gè)概率值是個(gè)度量尺度,Logistic回歸與多元回歸還是有著很大的差異。概率值可以是0~1之間的任何值,但是預(yù)測值必須落入0~1的區(qū)間。這樣,Logistic回歸假定解釋變量與被解釋變量之間的關(guān)系類似于S形曲線。而且,不能從普通回歸的角度來分析Logistic回歸,因?yàn)檫@樣做會(huì)違反幾個(gè)假定。2023/2/6ncutstat33首先,離散變量的誤差形式服從貝努里分布,而不是正態(tài)分布,這樣使得基于正態(tài)性假設(shè)的統(tǒng)計(jì)檢驗(yàn)無效。其次,二值變量的方差不是常數(shù),會(huì)造成異方差性。Logistic回歸是專門處理這些問題的。它的解釋變量與被解釋變量之間獨(dú)特的關(guān)系使得在估計(jì)、評價(jià)擬合度和解釋系數(shù)方面有不同的方法。2023/2/6ncutstat34§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
估計(jì)Logistic回歸模型與估計(jì)多元回歸模型的方法是不同的。多元回歸采用最小二乘估計(jì),將解釋變量的真實(shí)值與預(yù)測值差異的平方和最小化。而Logistic變換的非線性特征使得在估計(jì)模型的時(shí)候采用極大似然估計(jì)的疊代方法,找到系數(shù)的“最可能”的估計(jì)。這樣在計(jì)算整個(gè)模型擬合度的時(shí)候,就采用似然值而不是離差平方和。2023/2/6ncutstat35§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat36§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
前面已提到Logistic回歸在估計(jì)系數(shù)時(shí),是用的極大似然估計(jì)法。就象多元回歸中的殘差平方和,Logistic回歸對模型擬合好壞通過似然值來測量。(實(shí)際上是用-2乘以似然值的自然對數(shù)即-2Log似然值,簡記為-2LL)。一個(gè)好的模型應(yīng)該有較小的-2LL。如果一個(gè)模型完全擬合,則似然值為1,這時(shí)-2LL達(dá)到最小,為0。Logistic回歸對于系數(shù)的檢驗(yàn)采用的是與多元回歸中t檢驗(yàn)不同的統(tǒng)計(jì)量,稱為Wald統(tǒng)計(jì)量。有關(guān)Logistic回歸的參數(shù)估計(jì)和假設(shè)檢驗(yàn)詳見參考文獻(xiàn)[8]。2023/2/6ncutstat37§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
一、分組數(shù)據(jù)的Logistic回歸模型針對0-1型因變量產(chǎn)生的問題,我們對回歸模型應(yīng)該做兩個(gè)方面的改進(jìn)。
第一,回歸函數(shù)應(yīng)該改用限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線,而不能再沿用直線回歸方程。限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線有很多,例如所有連續(xù)型隨機(jī)變量的分布函數(shù)都符合要求,我們常用的是Logistic函數(shù)與正態(tài)分布函數(shù)。Logistic函數(shù)的形式為(8.4)
Logistic函數(shù)的中文名稱是邏輯斯諦函數(shù),或簡稱邏輯函數(shù)。這里給出幾個(gè)Logistic函數(shù)的圖形。見圖8-1、圖8-2。2023/2/6ncutstat38§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
圖8-1的圖形
2023/2/6ncutstat39§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
圖8-2的圖形
2023/2/6ncutstat40§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat41§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
【例8.2】在一次住房展銷會(huì)上,與房地產(chǎn)商簽定初步購房意向書的共有n=325名顧客中,在隨后的3個(gè)月的時(shí)間內(nèi),只有一部分顧客確實(shí)購買了房屋。購買了房屋的顧客記為1,沒有購買房屋的顧客記為0。以顧客的年家庭收入(萬元)為自變量x,對如下的數(shù)據(jù),建立Logistic回歸模型2023/2/6ncutstat42§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
表8.2序號年家庭收入(萬元)x簽定意向書人數(shù)ni實(shí)際購房人數(shù)mi實(shí)際購房比例pi=mi/ni邏輯變換權(quán)重wi=nipi(1-pi)11.52580.320000-0.753775.44022.532130.406250-0.379497.71933.558260.448276-0.2076414.34544.552220.423077-0.3101512.69255.543200.465116-0.1397610.69866.539220.5641030.2578299.59077.528160.5714290.2876826.85788.521120.5714290.2876825.14399.515100.6666670.6931473.3332023/2/6ncutstat43§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat44§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat45§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat46§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat47§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
表8.32023/2/6ncutstat48§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat49§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
得年收入8萬元的家庭預(yù)計(jì)實(shí)際購房比例為58.5%,這個(gè)結(jié)果與未加權(quán)的結(jié)果很接近。以上的例子是只有一個(gè)自變量的情況,分組數(shù)據(jù)的Logistic回歸模型可以很方便的推廣到多個(gè)自變量的情況,在此就不舉例說明了。分組數(shù)據(jù)的Logistic回歸只適用于大樣本的分組數(shù)據(jù),對小樣本的未分組數(shù)據(jù)不適用。并且以組數(shù)c為回歸擬合的樣本量,使擬合的精度低。實(shí)際上,我們可以用極大似然估計(jì)直接擬合未分組數(shù)據(jù)的Logistic回歸模型,以下就介紹這個(gè)方法。二、未分組數(shù)據(jù)的Logistic回歸模型2023/2/6ncutstat50§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat51§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat52§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat53§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat54§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
表8.4:序號性別年齡月收入序號性別年齡月收入10188500151201000020211200016125120003023850117127130004023950118128150005028120011913095016031850020132100002023/2/6ncutstat55§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
表8.4(續(xù))703615001211331800080421000122133100009046950123138120001004812000241411500011055180012514518001120562100126148100001305818001271521500114118850028156180012023/2/6ncutstat56§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
依次點(diǎn)選SPSS軟件的Statistics-Regression-Logistic命令,進(jìn)入Logistic回歸對話框,選入變量,點(diǎn)選OK運(yùn)行,以下表8-5是部分運(yùn)行結(jié)果.表8.52023/2/6ncutstat57§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
表8.5中SEX(性別)、AGE(年齡)、X2(月收入)是3個(gè)自變量,Wald是回歸系數(shù)檢驗(yàn)的統(tǒng)計(jì)量值,(8.16)
Sig是Wald檢驗(yàn)的顯著性概率,R是偏相關(guān)系數(shù)??梢钥吹剑琗2(月收入)不顯著,決定將其剔除。用y對性別與年齡兩個(gè)自變量做回歸,輸出結(jié)果見8-6.2023/2/6ncutstat58§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
表8.6可以看到,SEX、AGE兩個(gè)自變量都是顯著的,因而最終的回歸方程為:2023/2/6ncutstat59§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
以上方程式表明,女性乘公共汽車的比例高于男性,年齡越高乘車的比例也越高。SPSS軟件沒有給出Logistic回歸的標(biāo)準(zhǔn)化回歸系數(shù),對于Logistic回歸,回歸系數(shù)也沒有普通線性回歸那樣的解釋,因而計(jì)算標(biāo)準(zhǔn)化回歸系數(shù)并不重要。如果要考慮每個(gè)自變量在回歸方程中的重要性,不妨直接比較Wald值(或Sig值),Wald值大者(或Sig值小者)顯著性高,也就更重要。當(dāng)然這里假定自變量間沒有強(qiáng)的復(fù)共線性,否則回歸系數(shù)的大小及其顯著性概率都沒有意義。2023/2/6ncutstat60§8.4Logistic回歸的方法與步驟
目錄上頁下頁返回結(jié)束
鑒于Logistic回歸與判別分析的相似性,我們可以對比兩種方法的相似性和不同點(diǎn)。Logistic回歸的自變量可以是定量變量或定性變量(需要編碼),這樣可以檢驗(yàn)自變量對于Logistic回歸模型的貢獻(xiàn)、自變量的顯著性以及Logistic模型的判別精度。Logistic回歸一般有以下幾個(gè)步驟。(1)選擇自變量和因變量。這里因變量為分組變量(限于篇幅,我們僅介紹因變量分兩組的情況),自變量可以是定量變量和定性變量。Logistic回歸對于資料數(shù)據(jù)有較強(qiáng)的穩(wěn)健性(robustness),無須各組自變量的協(xié)差陣相等的假定。2023/2/6ncutstat61§8.4Logistic回歸的方法與步驟
目錄上頁下頁返回結(jié)束
(2)將一部分樣品
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新形勢下Mini LED行業(yè)快速做大市場規(guī)模戰(zhàn)略制定與實(shí)施研究報(bào)告
- 2025-2030年中國超聲熱量表行業(yè)資本規(guī)劃與股權(quán)融資戰(zhàn)略制定與實(shí)施研究報(bào)告
- 新形勢下北斗衛(wèi)星應(yīng)用行業(yè)可持續(xù)發(fā)展戰(zhàn)略制定與實(shí)施研究報(bào)告
- 2025-2030年中國廚房料理小家電行業(yè)并購重組擴(kuò)張戰(zhàn)略制定與實(shí)施研究報(bào)告
- 市政道路竣工驗(yàn)收質(zhì)量評估報(bào)告-定稿
- 自動(dòng)變速器維修試題及答案2
- 微懸浮法糊樹脂新建項(xiàng)目可行性研究報(bào)告建議書申請格式范文
- 中國改善睡眠保健品行業(yè)全景評估及投資規(guī)劃建議報(bào)告
- 2024-2030年航空運(yùn)輸行業(yè)投資機(jī)會(huì)及風(fēng)險(xiǎn)投資運(yùn)作模式研究報(bào)告
- 四年級數(shù)學(xué)(四則混合運(yùn)算)計(jì)算題專項(xiàng)練習(xí)與答案匯編
- 高速服務(wù)區(qū)經(jīng)營分析報(bào)告
- 浙江省湖州市2022-2023學(xué)年四年級上學(xué)期數(shù)學(xué)期末試卷(含答案)
- 現(xiàn)場工藝紀(jì)律檢查表
- 建井施工方案
- YMO青少年數(shù)學(xué)思維28屆五年級全國總決賽試卷
- 烘干廠股東合作協(xié)議書
- 個(gè)人業(yè)績相關(guān)信息采集表
- 過敏性紫癜課件PPT
- 大學(xué)生暑期社會(huì)實(shí)踐證明模板(20篇)
- 自來水維修員年度工作總結(jié)
- ASTMB117-2023年鹽霧試驗(yàn)標(biāo)準(zhǔn)中文
評論
0/150
提交評論