應(yīng)用多元統(tǒng)計分析-第八章 列聯(lián)與對應(yīng)分析_第1頁
應(yīng)用多元統(tǒng)計分析-第八章 列聯(lián)與對應(yīng)分析_第2頁
應(yīng)用多元統(tǒng)計分析-第八章 列聯(lián)與對應(yīng)分析_第3頁
應(yīng)用多元統(tǒng)計分析-第八章 列聯(lián)與對應(yīng)分析_第4頁
應(yīng)用多元統(tǒng)計分析-第八章 列聯(lián)與對應(yīng)分析_第5頁
已閱讀5頁,還剩75頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、列聯(lián)分析與對應(yīng)分析 第八章列聯(lián)分析與列聯(lián)分析與對應(yīng)分析對應(yīng)分析列 聯(lián) 分析二維列聯(lián)表二維列聯(lián)表例例8.1關(guān)于某項政策調(diào)查所得結(jié)果關(guān)于某項政策調(diào)查所得結(jié)果:table7.sav觀點:不贊成觀點:贊成合計男女231835475865合計4182123表表8.1列聯(lián)表列聯(lián)表前面就是一個所謂的二維前面就是一個所謂的二維列聯(lián)表列聯(lián)表(contingency table).列聯(lián)表是由兩個或兩個以上的變量列聯(lián)表是由兩個或兩個以上的變量進行交叉分類的頻數(shù)分布表。進行交叉分類的頻數(shù)分布表。這些變量中這些變量中每個都有兩個或更多的每個都有兩個或更多的可能取值可能取值。這些取值也稱為這些取值也稱為水平水平;比如觀點

2、有兩個水平,性別有兩個比如觀點有兩個水平,性別有兩個水平等。水平等。列聯(lián)表列聯(lián)表一般將橫向變量的劃分類別視為一般將橫向變量的劃分類別視為R R,縱,縱向變量的劃分類別視為向變量的劃分類別視為C,C,則可以將列則可以將列聯(lián)表稱為聯(lián)表稱為R RC C列聯(lián)表。列聯(lián)表。上上表即為表即為2 22 2列聯(lián)表。列聯(lián)表。在在SPSSSPSS數(shù)據(jù)中,收入的數(shù)據(jù)中,收入的“低低”、“中中”、“高高”用代碼用代碼1 1、2 2、3 3代表;代表;性別的性別的“女女”、“男男”用代碼用代碼0 0、1 1代代表;觀點表;觀點“贊成贊成”和和“不贊成不贊成”用用1 1、0 0代表。代表。列聯(lián)表的分布列聯(lián)表的分布列聯(lián)表有兩

3、個分布:列聯(lián)表有兩個分布:一個是一個是觀察值的分布觀察值的分布;一個是一個是期望值的分布期望值的分布;sex * opinion Crosstabulationopinion不贊成不贊成贊成贊成sex女18476565% within sex27.6972.31 100.00%100.00%男 Count23355858% within sex39.6660.34 100.00%100.00%TotalCount4182123123% within sex33.3366.67 100.00%100.00%觀察值的分布觀察值的分布事實上,事實上,表表8.28.2就是一個最簡單的觀察值就是一個最簡

4、單的觀察值的分布。的分布。觀察值分布雖然反映了數(shù)據(jù)的分布,但觀察值分布雖然反映了數(shù)據(jù)的分布,但因為基數(shù)不同,因為基數(shù)不同,不適合于進行對比不適合于進行對比。為了能在此相統(tǒng)的基數(shù)上比較,使列聯(lián)為了能在此相統(tǒng)的基數(shù)上比較,使列聯(lián)表中的數(shù)據(jù)提供更多的信息,表中的數(shù)據(jù)提供更多的信息,可以計算可以計算相應(yīng)的百分比。相應(yīng)的百分比。期望值的分布期望值的分布如果我們想進一步了解不同性別的人對如果我們想進一步了解不同性別的人對這項政策的觀點是否存在著顯著的差異,這項政策的觀點是否存在著顯著的差異,就要進行檢驗。就要進行檢驗。從邏輯上講,如果男女性別的人對這項從邏輯上講,如果男女性別的人對這項政策的看法相同,那么

5、男性不贊同方案政策的看法相同,那么男性不贊同方案的人應(yīng)為:的人應(yīng)為:5833.3%=19人人,女性不贊同,女性不贊同方案的人應(yīng)為:方案的人應(yīng)為:6533.3%=22人。人。這這19人和人和22人就是本例中的期望值,由人就是本例中的期望值,由此可以計算出期望值的分布。此可以計算出期望值的分布。期望值的分布期望值的分布 表表8.3 8.3 期望值分布表期望值分布表觀點:不贊成觀點:贊成合計男女5833.3%=196533.3%=2258 66.7%=3965 66.7%=435865合計4182對比分布表對比分布表表表8.4 8.4 觀察值與期望值頻數(shù)對比分布表觀察值與期望值頻數(shù)對比分布表觀點:觀

6、點:不贊成不贊成觀點:觀點:贊成贊成男:男:觀察值觀察值 期望值期望值女:女:觀察值觀察值 期望值期望值2319182235394743期望值的分布期望值的分布如果男女性別對該性政策的觀點相同,如果男女性別對該性政策的觀點相同,就應(yīng)有:就應(yīng)有:那么表那么表8.4中,觀察值和期望值就應(yīng)當(dāng)非中,觀察值和期望值就應(yīng)當(dāng)非常接近。常接近。對于這個假設(shè)的檢驗,可以采用對于這個假設(shè)的檢驗,可以采用 分布分布進行進行 檢驗。檢驗。女男PPH:022 分布與分布與 檢驗檢驗22用用f f0 0表示觀察值頻數(shù),表示觀察值頻數(shù),f fe e表示期望值表示期望值的頻數(shù),則的頻數(shù),則 統(tǒng)計量為:統(tǒng)計量為:2 統(tǒng)計量統(tǒng)計

7、量2eefff202)(由于由于 值的大小與觀察值與期望值的配值的大小與觀察值與期望值的配對數(shù),即對數(shù),即R RC C有關(guān),所以,有關(guān),所以, 統(tǒng)計量的統(tǒng)計量的分布與自由度有關(guān)。自由度分布與自由度有關(guān)。自由度=(R-1)(C-1)=(R-1)(C-1)22分布分布202468100.00.10.20.30.40.52(2)2(3)2(5)檢驗檢驗 檢驗可在交叉匯總分析中進行:檢驗可在交叉匯總分析中進行:SPSS選項:選項: AnalyzeDescriptive Statistics Crosstabs然后選擇然后選擇statistics,再選,再選 檢驗即可。檢驗即可。222C Ch hi i

8、- -S Sq qu ua ar re e T Te es st ts s1.974b1.1601.4721.2251.9751.160.183.1131.9581.162123Pearson Chi-SquareContinuity CorrectionaLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid CasesValuedfAsymp. Sig.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)Computed only for a 2x2 table

9、a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 19.33.b. 檢驗結(jié)果檢驗結(jié)果2檢驗檢驗實際上有不止一個實際上有不止一個X X2 2檢驗統(tǒng)計量。包括檢驗統(tǒng)計量。包括Pearson XPearson X2 2統(tǒng)計量統(tǒng)計量和和似然比似然比(likelihood ratiolikelihood ratio)X X2 2統(tǒng)計量統(tǒng)計量;它們它們都有漸近的都有漸近的X X2 2分布。分布。根據(jù)計算可以得到(對于這兩個統(tǒng)計量根據(jù)計算可以得到(對于這兩個統(tǒng)計量均有)均有)p p- -值大于值大于

10、0.050.05。2此外還有精確的統(tǒng)計量此外還有精確的統(tǒng)計量FisherFisher精確檢精確檢驗驗;它不是;它不是X X2 2分布,而是分布,而是超幾何分布超幾何分布。對本問題對本問題, ,計算計算FisherFisher統(tǒng)計量得到的統(tǒng)計量得到的p p- -值也值也大于大于0.050.05。聰明的同學(xué)必然會問,既然有精確檢驗聰明的同學(xué)必然會問,既然有精確檢驗為為什么還要用近似的什么還要用近似的X X2 2檢驗?zāi)兀繖z驗?zāi)??這是因為當(dāng)數(shù)目很大時,超幾何分布計算這是因為當(dāng)數(shù)目很大時,超幾何分布計算相當(dāng)緩慢(比近似計算會差很多倍的時相當(dāng)緩慢(比近似計算會差很多倍的時間);而且在計算機速度不快時,根本

11、無間);而且在計算機速度不快時,根本無法計算。因此人們多用大樣本近似的法計算。因此人們多用大樣本近似的X X2 2統(tǒng)計統(tǒng)計量。量。我們以上介紹的是列聯(lián)表中一致性的檢驗,我們以上介紹的是列聯(lián)表中一致性的檢驗,但是列聯(lián)表分析中用的更多的是但是列聯(lián)表分析中用的更多的是檢驗變量檢驗變量之間是否存在相關(guān)關(guān)系,即獨立性檢驗。之間是否存在相關(guān)關(guān)系,即獨立性檢驗。我們?nèi)杂梦覀內(nèi)杂胻able7.sav的例子:的例子:觀觀 點點 * * 收收 入入 C Cr ro os ss st ta ab bu ul la at ti io on nCount715194145251282524031123不贊成贊成觀點To

12、tal123收入TotalC Ch hi i- -S Sq qu ua ar re e T Te es st ts s20.456a2.00021.1902.00020.2901.000123Pearson Chi-SquareLikelihood RatioLinear-by-LinearAssociationN of Valid CasesValuedfAsymp. Sig.(2-sided)0 cells (.0%) have expected count less than 5. Theminimum expected count is 10.33.a. 觀點與收入是否相關(guān)的檢驗觀點與

13、收入是否相關(guān)的檢驗H H0 0:觀點和收入這兩個變量不相關(guān)觀點和收入這兩個變量不相關(guān);H H1 1:這兩個變量相關(guān)。這兩個變量相關(guān)。列聯(lián)表中的相關(guān)測量列聯(lián)表中的相關(guān)測量利用檢驗對列聯(lián)表中變量之間的相互關(guān)利用檢驗對列聯(lián)表中變量之間的相互關(guān)系進行檢驗之后,系進行檢驗之后,如果認(rèn)為拒絕原假設(shè),如果認(rèn)為拒絕原假設(shè),變量之間存在聯(lián)系,變量之間存在聯(lián)系,那么,接下來的問題就是那么,接下來的問題就是它們之間的相它們之間的相關(guān)程度有多大?關(guān)程度有多大?列聯(lián)表中的相關(guān)測量列聯(lián)表中的相關(guān)測量SPSS中提供了多種相關(guān)檢驗的方法:中提供了多種相關(guān)檢驗的方法:定距變量與定距變量相關(guān)的檢驗定距變量與定距變量相關(guān)的檢驗名義

14、變量與名義變量相關(guān)的檢驗名義變量與名義變量相關(guān)的檢驗序次變量與序次變量相關(guān)的檢驗序次變量與序次變量相關(guān)的檢驗S Sy ym mm me et tr ri ic c M Me ea as su ur re es s.408.000.408.000.378.000-.641.101-4.935.000-.407.079-4.898.000c-.408.080-4.913.000c123PhiCramers VContingency CoefficientNominal byNominalGammaSpearman CorrelationOrdinal byOrdinalPearsons RInte

15、rval by IntervalN of Valid CasesValueAsymp.Std. ErroraApprox. TbApprox. Sig.Not assuming the null hypothesis.a. Using the asymptotic standard error assuming the null hypothesis.b. Based on normal approximation.c. X2分布的期望值準(zhǔn)則分布的期望值準(zhǔn)則利用利用X2分布進行檢驗時,要求樣本容量必須分布進行檢驗時,要求樣本容量必須足夠大,特別是每個單元中的期望頻數(shù)不足夠大,特別是每個單元中的

16、期望頻數(shù)不能過小,否則應(yīng)用能過小,否則應(yīng)用X2檢驗可能會得出錯誤的檢驗可能會得出錯誤的結(jié)論。結(jié)論。一項準(zhǔn)則是:如果只有兩個單元,每個單一項準(zhǔn)則是:如果只有兩個單元,每個單元的期望頻數(shù)必須是元的期望頻數(shù)必須是5或以上?;蛞陨稀A硪粶?zhǔn)則是:如果有兩個以上的單元,如另一準(zhǔn)則是:如果有兩個以上的單元,如果果20%的單元期望頻數(shù)小于的單元期望頻數(shù)小于5,則不能應(yīng)用,則不能應(yīng)用X2檢驗。檢驗。X2分布的期望值準(zhǔn)則分布的期望值準(zhǔn)則例如表例如表8.5中的數(shù)據(jù)可以計算,因為中的數(shù)據(jù)可以計算,因為6個單個單元中只有元中只有1個單元的期望頻數(shù)小于個單元的期望頻數(shù)小于5。類別f0feABCDEF28491869220

17、26472348825合計213213X2分布的期望值準(zhǔn)則分布的期望值準(zhǔn)則但是表但是表8.6中的數(shù)據(jù)不能應(yīng)用檢驗。中的數(shù)據(jù)不能應(yīng)用檢驗。類別f0feABCDEFG301108623554321138724241合計263263X2分布的期望值準(zhǔn)則分布的期望值準(zhǔn)則如果我們仔細(xì)觀察會發(fā)現(xiàn),表如果我們仔細(xì)觀察會發(fā)現(xiàn),表8.6中的中的f0與與fe非常接近,非常接近,最大的差別只是最大的差別只是3,應(yīng)當(dāng)說期望,應(yīng)當(dāng)說期望值與觀察值擬合得很好值與觀察值擬合得很好,它們之間,它們之間并無顯并無顯著差別。著差別。然而,用然而,用X2檢驗得到的結(jié)果檢驗得到的結(jié)果卻是拒絕原假設(shè),卻是拒絕原假設(shè),差異顯著。差異顯著

18、。解決的方法是:解決的方法是:將小單元合并,使得將小單元合并,使得fe大于大于5。對應(yīng)分析行和列變量的相關(guān)問題行和列變量的相關(guān)問題在因子分析中,或者對指標(biāo)(列中的變在因子分析中,或者對指標(biāo)(列中的變量)進行分析,或者對樣品(觀測值或量)進行分析,或者對樣品(觀測值或行中的變量)進行分析。行中的變量)進行分析。另外,在處理實際問題中,樣品的個數(shù)另外,在處理實際問題中,樣品的個數(shù)遠(yuǎn)遠(yuǎn)大于指標(biāo)個數(shù)。如有遠(yuǎn)遠(yuǎn)大于指標(biāo)個數(shù)。如有100個樣品,每個樣品,每個樣品測個樣品測10個指標(biāo),要做樣品的因子分個指標(biāo),要做樣品的因子分析,就要計算(析,就要計算(100100)階相似系數(shù)陣)階相似系數(shù)陣的特征根和特征向

19、量,這對于計算機來的特征根和特征向量,這對于計算機來說也是一想耗時費力的事情。說也是一想耗時費力的事情。行和列變量的相關(guān)問題行和列變量的相關(guān)問題然而,在很多情況下,所關(guān)心的不然而,在很多情況下,所關(guān)心的不僅僅是行或列本身變量之間的關(guān)系,僅僅是行或列本身變量之間的關(guān)系,而是行變量和列變量的相互關(guān)系;而是行變量和列變量的相互關(guān)系;這就是因子分析等方法所沒有說明這就是因子分析等方法所沒有說明的了。先看一個例子。的了。先看一個例子。例例7.1數(shù)據(jù)文件:數(shù)據(jù)文件:ChMath.sav在研究讀寫漢字能力與數(shù)學(xué)的關(guān)系的研在研究讀寫漢字能力與數(shù)學(xué)的關(guān)系的研究時,人們?nèi)〉昧司繒r,人們?nèi)〉昧?32232個美國亞裔

20、學(xué)生的個美國亞裔學(xué)生的數(shù)學(xué)成績和漢字讀寫能力的數(shù)據(jù)。數(shù)學(xué)成績和漢字讀寫能力的數(shù)據(jù)。關(guān)于漢字讀寫能力的變量有三個水平:關(guān)于漢字讀寫能力的變量有三個水平:“純漢字純漢字”可以完全自由使用純漢可以完全自由使用純漢字讀寫,字讀寫,“半漢字半漢字”讀寫中只有部分漢字讀寫中只有部分漢字(比如日文),(比如日文),“純英文純英文”只能夠讀寫英文而不會只能夠讀寫英文而不會漢字。漢字。而數(shù)學(xué)成績有而數(shù)學(xué)成績有4 4個水平(個水平(A A、B B、C C、D D)。)。 例例7.1數(shù)據(jù)文件:數(shù)據(jù)文件:ChMath.sav這項研究是為了考察漢字具有的抽這項研究是為了考察漢字具有的抽象圖形符號的特性能否會促進兒童象圖

21、形符號的特性能否會促進兒童空間和抽象思維能力??臻g和抽象思維能力。該數(shù)據(jù)以列聯(lián)表形式展示在表中:該數(shù)據(jù)以列聯(lián)表形式展示在表中:人們可以對這個列聯(lián)表進行前面所說的人們可以對這個列聯(lián)表進行前面所說的X X2 2檢驗來考檢驗來考察行變量和列變量是否獨立。結(jié)果在下面表察行變量和列變量是否獨立。結(jié)果在下面表(通過(通過Analyze-Descriptive Statistics-Crosstabs)對應(yīng)分析對應(yīng)分析由于所有的檢驗都很顯著,看來兩個變由于所有的檢驗都很顯著,看來兩個變量的確不獨立。量的確不獨立。但是如何用象因子分析的載荷圖那樣的但是如何用象因子分析的載荷圖那樣的直觀方法來展示這兩個變量各個

22、水平之直觀方法來展示這兩個變量各個水平之間的關(guān)系呢?這就是本章要介紹的對應(yīng)間的關(guān)系呢?這就是本章要介紹的對應(yīng)分析(分析(correspondence analysiscorrespondence analysis)方法。)方法。對應(yīng)分析是將指標(biāo)型的因子分析與樣品對應(yīng)分析是將指標(biāo)型的因子分析與樣品型的因子分析結(jié)合起來進行的統(tǒng)計分析。型的因子分析結(jié)合起來進行的統(tǒng)計分析。對應(yīng)分析對應(yīng)分析它是從指標(biāo)型因子分析出發(fā),而直接獲它是從指標(biāo)型因子分析出發(fā),而直接獲得樣品因子分析的結(jié)果。得樣品因子分析的結(jié)果。概括起來,因子分析可以提供三方面的概括起來,因子分析可以提供三方面的信息:信息:指標(biāo)之間的關(guān)系;指標(biāo)之間

23、的關(guān)系;樣品之間的關(guān)系;樣品之間的關(guān)系;指標(biāo)與樣品之間的關(guān)系。指標(biāo)與樣品之間的關(guān)系。對應(yīng)分析的基本思想對應(yīng)分析的基本思想由于指標(biāo)型的因子分析和樣品型的因子由于指標(biāo)型的因子分析和樣品型的因子分析都是反映一個整體的不同側(cè)面,以分析都是反映一個整體的不同側(cè)面,以它們之間一定存在內(nèi)在的聯(lián)系。它們之間一定存在內(nèi)在的聯(lián)系。對應(yīng)分析就是通過一個過渡矩陣對應(yīng)分析就是通過一個過渡矩陣Z將兩者將兩者有機的結(jié)合起來:有機的結(jié)合起來:即:首先給出指標(biāo)變量點的協(xié)差陣即:首先給出指標(biāo)變量點的協(xié)差陣A=ZZ和樣品點的協(xié)差陣和樣品點的協(xié)差陣B=ZZ,由于兩者有相,由于兩者有相同的非零特征根,記為:同的非零特征根,記為:12m

24、如何得到過渡矩陣Z?設(shè)有n個樣品,每個樣品有p個指標(biāo),原始資料陣為:npnnppxxxxxxxxxX212222111211假定矩陣X的元素都0如何得到過渡矩陣Z?.2 .1 .21. 222221. 111211xxxxxxxxxxxxxxxxpnnpnnpp1p :iij.jijxxp且令如何得到過渡矩陣Z?1.2 .1 .21. 222221. 111211pnnpnnppppppppppppppppp如果我們將n個樣品看成是p維空間的點,則其n個點的坐標(biāo)用下面的形式表示:表示nippppppiipiiii, 1,.2.1稱為n個樣品點如何得到過渡矩陣Z?如果要對樣品分類,就可以用樣品點

25、的距離遠(yuǎn)近來刻劃.若引入歐氏距離則任兩個樣品點K與L之間的歐氏距離為:2.2)(),(pjlljkkjppppLKD為了消除各變量的數(shù)量級不同,如第k各變量有較大的數(shù)量級,在計算距離時就會抬高這個變量的作用尺度差異的影響。如何得到過渡矩陣Z?所以再用系數(shù) 去乘距離公式就得到一個加權(quán)的距離公式。2.2.2)(/)(),(pjljljkjkjjpjlljkkjpppppppppppLKDjp./1如何得到過渡矩陣Z?也可以說上式是坐標(biāo)為nipppppppppipipiiii, 1,.2 .2.1 .1的n個樣品點群中兩個樣品點K與L之間的距離。如何得到過渡矩陣Z?類似,兩個變量i與j之間的加權(quán)距離

26、為:21.2)(),(nkjkkjikkippppppjiD通過計算兩兩樣品點或兩兩變量點之間的距離,可以對樣品點或變量點進行分類,但是這樣還不能用圖表示出來。為了能直觀地表現(xiàn)出變量點與樣品點之間的關(guān)系,必須計算出變量點的協(xié)差陣和樣品點的協(xié)差陣。如何得到過渡矩陣Z?為得到協(xié)差陣,必須先給出樣品點中第j個變量的均值:jjjniijjiniijijppppppppp.1.1.1因此,可以寫出樣品空間中變量點的協(xié)差陣,即第i個變量與第j個變量的協(xié)差陣為:)(ijaA 如何得到過渡矩陣Z?naajaiajajajnaaiaiaiajajajnaaiaiaiajajajnaiaiaiijzzpppppp

27、pppppppppppppppppppppppa1.1.1.1.其中令令Z=(zZ=(zijij),), 則有則有: : A=ZZA=ZZ即變量點的協(xié)差陣可以表示成即變量點的協(xié)差陣可以表示成ZZZZ的形式的形式類似類似, ,可以得到樣品點的協(xié)差陣可以得到樣品點的協(xié)差陣: : B=ZZB=ZZA A與與B B兩矩陣明顯的存在這簡單的對應(yīng)關(guān)系兩矩陣明顯的存在這簡單的對應(yīng)關(guān)系, ,而且將原始數(shù)據(jù)而且將原始數(shù)據(jù)變換成變換成z zijij后后, , z zijij對于對于i,ji,j是對等的是對等的, ,即即z zijij對變量和樣品具對變量和樣品具有對等性有對等性. .而且而且A A與與B B的非零特

28、征根相同的非零特征根相同. .如果如果A的特征根的特征根 對應(yīng)的特征向量為對應(yīng)的特征向量為則則B的特征根的特征根 對應(yīng)的特征向量就是對應(yīng)的特征向量就是ZU.根據(jù)這個結(jié)論,可以很方便的借助指標(biāo)根據(jù)這個結(jié)論,可以很方便的借助指標(biāo)型因子分析而得到樣品型因子分析的結(jié)型因子分析而得到樣品型因子分析的結(jié)論。論。iiUi.ZZZU(ZU)(ZU) ZZ:ZUZUZ:,ZZU的特征向量是則得兩邊左乘則有的特征向量是因為對應(yīng)分析的基本思想對應(yīng)分析的基本思想如果對每組變量選擇前兩列因子載荷,如果對每組變量選擇前兩列因子載荷,那么兩組變量就可以畫出兩個因子載荷那么兩組變量就可以畫出兩個因子載荷的散點圖。的散點圖。由

29、于這兩個圖所表示的載荷可以配對,由于這兩個圖所表示的載荷可以配對,于是就可以把這兩個因子載荷的兩個散于是就可以把這兩個因子載荷的兩個散點圖畫到同一張圖中,并以此來直觀地點圖畫到同一張圖中,并以此來直觀地顯示各行變量和各列變量之間的關(guān)系。顯示各行變量和各列變量之間的關(guān)系。下面通過對下面通過對ChMath.sav數(shù)據(jù)的計算和結(jié)數(shù)據(jù)的計算和結(jié)果分析來介紹對應(yīng)分析。果分析來介紹對應(yīng)分析。首先看對應(yīng)分析結(jié)果的一個主要首先看對應(yīng)分析結(jié)果的一個主要SPSSSPSS展示,然后展示,然后再解釋該圖的來源和解釋。再解釋該圖的來源和解釋。運用純漢字的點和最好的數(shù)學(xué)成績運用純漢字的點和最好的數(shù)學(xué)成績A最接近,而不會漢

30、字最接近,而不會漢字只會英文的點與最差的數(shù)學(xué)成績只會英文的點與最差的數(shù)學(xué)成績F(或者(或者D,雖然在縱坐,雖然在縱坐標(biāo)稍有差距)最接近,而用部分漢字的和數(shù)學(xué)成績標(biāo)稍有差距)最接近,而用部分漢字的和數(shù)學(xué)成績B接近。接近。S Su um mm ma ar ry y.552.305.939.939.047.174.141.020.0611.000.065.32575.312.000a1.0001.000Dimension12TotalSingularValueInertiaChiSquareSig.AccountedforCumulativeProportion ofInertiaStandardD

31、eviation2CorrelationConfidenceSingular Value6 degrees of freedoma. 對應(yīng)分析輸出對應(yīng)分析輸出各維匯總表各維匯總表表中的術(shù)語表中的術(shù)語Singular Value奇異值(是慣量的平奇異值(是慣量的平方根),反映了是行與列各水平在二方根),反映了是行與列各水平在二維圖中分量的相關(guān)程度,是對行與列維圖中分量的相關(guān)程度,是對行與列進行因子分析產(chǎn)生的新的綜合變量的進行因子分析產(chǎn)生的新的綜合變量的典型相關(guān)系數(shù)。典型相關(guān)系數(shù)。Inertia慣量慣量, 實際上就是常說的特征實際上就是常說的特征根,表示的是每個維度對變量各個類根,表示的是每個維度

32、對變量各個類別之間差異的解釋量。別之間差異的解釋量。表中的術(shù)語表中的術(shù)語Chi Square就是關(guān)于列聯(lián)表行列獨立性就是關(guān)于列聯(lián)表行列獨立性x2檢驗的檢驗的x2統(tǒng)計量的值,和前面表中的相同。統(tǒng)計量的值,和前面表中的相同。其后面的其后面的Sig為在行列獨立的零假設(shè)下的為在行列獨立的零假設(shè)下的p-值,注釋表明自由度為值,注釋表明自由度為(4-1)(3-1)=6,Sig.值很小說明列聯(lián)表的行與列之間有較強的值很小說明列聯(lián)表的行與列之間有較強的相關(guān)性。相關(guān)性。Proportion of Inertia慣量比例,是各維慣量比例,是各維度(公因子)分別解釋總慣量的比例及累度(公因子)分別解釋總慣量的比例及

33、累計百分比,類似于因子分析中公因子解釋計百分比,類似于因子分析中公因子解釋能力的說明。能力的說明。 輸出結(jié)果解釋輸出結(jié)果解釋從該表可以看出,由于第一維的慣量比例占了從該表可以看出,由于第一維的慣量比例占了總比例的總比例的93.9%93.9%,因此,其他維的重要性可以,因此,其他維的重要性可以忽略(雖然畫圖時需要兩維,但忽略(雖然畫圖時需要兩維,但主要看第一維主要看第一維橫坐標(biāo)橫坐標(biāo))。)。在對應(yīng)分析中,每個變量的類別差異是通過直在對應(yīng)分析中,每個變量的類別差異是通過直觀圖上的分值距離表現(xiàn)出來的,但這個距離并觀圖上的分值距離表現(xiàn)出來的,但這個距離并不是我們通常所說的距離,而是經(jīng)過加權(quán)的距不是我們

34、通常所說的距離,而是經(jīng)過加權(quán)的距離,在加權(quán)的過程中,以卡方值的差異表現(xiàn)。離,在加權(quán)的過程中,以卡方值的差異表現(xiàn)。行變量的有關(guān)內(nèi)容行變量的有關(guān)內(nèi)容O Ov ve er rv vi ie ew w R Ro ow w P Po oi in nt ts sa a.349-.897 -.240.158.509.142.982.0181.000.366.102.491.015.007.627.144.8561.000.284.970 -.338.152.485.231.970.0301.0001.00.3251.01.000漢字使用純漢字半漢字純英文Active TotalMass12Score inD

35、imensionInertia12Of Point toInertia ofDimension12TotalOf Dimension toInertia of PointContributionSymmetrical normalizationa. 行變量的有關(guān)內(nèi)容行變量的有關(guān)內(nèi)容第一部分是關(guān)于行變量每一類別在兩個維度第一部分是關(guān)于行變量每一類別在兩個維度上的分值情況,實際上就是每一類別在坐標(biāo)上的分值情況,實際上就是每一類別在坐標(biāo)途中的坐標(biāo),途中的坐標(biāo), MassMass為行與列的邊緣概率為行與列的邊緣概率 。第二部分(第二部分(Contribution of Point to Inertia

36、 of Dimention)是說明行變量各個類別對每)是說明行變量各個類別對每一維度特征值的影響,數(shù)值越大的類別,說一維度特征值的影響,數(shù)值越大的類別,說明它對類別間差異的影響越大。明它對類別間差異的影響越大。第三部分(第三部分(Contribution of Dimention to Inertia of Point)是說明每一維度對行變量)是說明每一維度對行變量各個類別特征值的影響。各個類別特征值的影響。 O Ov ve er rv vi ie ew w C Co ol lu um mn n P Po oi in nt ts sa a.341 -.693-.3.096.296.288 .9

37、40 .0601.000.319 -.340 .438.029.067.433 .703 .2971.000.207.928 .203.100.323.061 .988 .0121.000.134 1.140-.5.100.315.218 .957 .0431.0001.000.325 1.0001.000數(shù)學(xué)成績數(shù)學(xué)A數(shù)學(xué)B數(shù)學(xué)C數(shù)學(xué)FActive TotalMass12Score inDimensionInertia12Of Point toInertia ofDimension12TotalOf Dimension toInertia of PointContributionSymmet

38、rical normalizationa. 列變量的有關(guān)內(nèi)容列變量的有關(guān)內(nèi)容 Row Points for 漢字使用Symmetrical NormalizationDimension 11.0.50.0-.5-1.0Dimension 2.6.4.20.0-.2-.4純英文半漢字純漢字Column Points for 數(shù)學(xué)成績Symmetrical NormalizationDimension 11.51.0.50.0-.5-1.0Dimension 2.6.4.2-.0-.2-.4-.6數(shù)學(xué)F數(shù)學(xué)C數(shù)學(xué)B數(shù)學(xué)ARow and Column PointsSymmetrical Normal

39、izationDimension 11.51.0.50.0-.5-1.0Dimension 2.6.4.2-.0-.2-.4-.6數(shù)學(xué)成績漢字使用數(shù)學(xué)F數(shù)學(xué)C數(shù)學(xué)B數(shù)學(xué)A純英文半漢字純漢字對應(yīng)分析的對應(yīng)分析的SPSSSPSS實現(xiàn)實現(xiàn)首先對數(shù)據(jù)進行加權(quán)首先對數(shù)據(jù)進行加權(quán)SPSS選項:選項:AnalyzeData ReductionCorrespondence Analysis然后把然后把“漢字使用漢字使用”選入選入RowRow(行),再點擊(行),再點擊Define RangeDefine Range來定義其范圍為來定義其范圍為1(Minimum 1(Minimum value)value)到到

40、3(Maximum value)3(Maximum value),之后點擊,之后點擊UpdateUpdate。類似地,點擊類似地,點擊ContinueContinue之后,把之后,把“數(shù)學(xué)成績數(shù)學(xué)成績”選入選入Column (Column (列列) ),并以同樣方式定義其范圍,并以同樣方式定義其范圍為為1 1到到4 4。由于其他選項可以用默認(rèn)值,就可以直接點擊由于其他選項可以用默認(rèn)值,就可以直接點擊OKOK來運行了。這樣就得到上述表格和點圖。來運行了。這樣就得到上述表格和點圖。 例例7.2 7.2 數(shù)據(jù)文件:數(shù)據(jù)文件:收入等級與消費支出收入等級與消費支出.sav.sav 眾所周知,收入水平不同

41、,消費支出的眾所周知,收入水平不同,消費支出的結(jié)構(gòu)也會不同。結(jié)構(gòu)也會不同。現(xiàn)將收入等級分為:現(xiàn)將收入等級分為:困難戶、最低收入困難戶、最低收入戶、低收入戶、中等偏下戶、中等收入戶、低收入戶、中等偏下戶、中等收入戶、中等偏上戶、高收入戶、最高收入戶、中等偏上戶、高收入戶、最高收入戶。戶。將消費支出分為:食品、衣著、家庭設(shè)將消費支出分為:食品、衣著、家庭設(shè)備、醫(yī)療、交通通訊、文娛、居住、雜備、醫(yī)療、交通通訊、文娛、居住、雜項。項。SpssSpss對應(yīng)分析結(jié)果對應(yīng)分析結(jié)果S Su um mm ma ar ry y.170.029.962.962.005.086.031.001.031.993.005

42、.012.000.005.998.006.000.001.999.005.000.0011.000.003.000.0001.000.000.000.0001.000.0301241.0.000a1.0001.000Dimension1234567TotalSingularValueInertiaChiSquareSig.AccountedforCumulativeProportion ofInertiaStandardDeviation2CorrelationConfidenceSingular Value49 degrees of freedoma. 分析結(jié)果解釋分析結(jié)果解釋由匯總表中可知

43、,第一維慣量所占比例由匯總表中可知,第一維慣量所占比例達(dá)到達(dá)到96.2%96.2%,前兩維慣量的累積比例為,前兩維慣量的累積比例為99.3%99.3%,說明前兩維慣量能很充分地代表,說明前兩維慣量能很充分地代表數(shù)據(jù)的信息。數(shù)據(jù)的信息。而且由于第一維所占比例很高,所以第而且由于第一維所占比例很高,所以第一維的橫坐標(biāo)表現(xiàn)了絕大部分的差異,一維的橫坐標(biāo)表現(xiàn)了絕大部分的差異,而縱坐標(biāo)則可以忽略。而縱坐標(biāo)則可以忽略。 行變量的有關(guān)內(nèi)容行變量的有關(guān)內(nèi)容O Ov ve er rv vi ie ew w R Ro ow w P Po oi in nt ts sa a.376-.418.031.011.387.

44、012.998.001.999.099.241-.4.001.034.444.695.298.993.085.808.275.010.329.212.979.020.999.064.065-.1.000.002.006.607.079.686.086.409-.1.003.085.011.977.004.982.130.067-.2.000.003.099.370.350.721.105-.188.242.001.022.201.753.225.978.055.655.091.004.139.015.992.003.9951.00.0301.0001.000消費項目食品衣著家庭設(shè)備醫(yī)療交通通訊

45、文化娛樂居住雜項ActiveTotalMass12Score inDimensionInertia12Of Point toInertia ofDimension12TotalOf Dimension toInertia of PointContributionSymmetrical normalizationa. 行變量的有關(guān)內(nèi)容行變量的有關(guān)內(nèi)容由行變量有關(guān)內(nèi)容可知:在第一維度上由行變量有關(guān)內(nèi)容可知:在第一維度上食品、家庭設(shè)備和雜項的差異影響最大,食品、家庭設(shè)備和雜項的差異影響最大,而且從坐標(biāo)上的分值來看來,食品與家而且從坐標(biāo)上的分值來看來,食品與家庭設(shè)備和雜項處于兩個不同的方向。說庭設(shè)備和

46、雜項處于兩個不同的方向。說明在消費上食品與家庭設(shè)備和雜項的差明在消費上食品與家庭設(shè)備和雜項的差異最大。異最大。第一維度解釋了大部分的消費項目的差第一維度解釋了大部分的消費項目的差異,只有衣著、文化娛樂和居住的差異異,只有衣著、文化娛樂和居住的差異主要由第二維度解釋。主要由第二維度解釋。行變量的有關(guān)內(nèi)容行變量的有關(guān)內(nèi)容從表中的最后一列可知,這兩個維度對從表中的最后一列可知,這兩個維度對每項消費水平的解釋程度。每項消費水平的解釋程度。其中:食品、衣著、家庭設(shè)備、交通通其中:食品、衣著、家庭設(shè)備、交通通訊、雜項的差異解釋程度已高達(dá)訊、雜項的差異解釋程度已高達(dá)99%以以上;居住差異的解釋程度也達(dá)到了上;居住差異的解釋程度也達(dá)到了97.8%;而解釋程度較差的是醫(yī)療和文化娛樂,而解釋程度較差的是醫(yī)療和文化娛樂,只有只有70%左右,說明居民在這兩項消費左右,說明居民在這兩項消費的差異沒有完全體現(xiàn)的差異沒有完全體現(xiàn)。Row Points

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論