利用SPSS進(jìn)行主成分分析

上傳人：7*** IP屬地：湖北上傳時(shí)間：2022-01-22 格式：DOC 頁(yè)數(shù)：18 大?。?31KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩13頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、利用SPSS 進(jìn)行主成分分析【例子】以全國(guó)31個(gè)省市的8項(xiàng)經(jīng)濟(jì)指標(biāo)為例，進(jìn)行主成分分析。第一步：錄入或調(diào)入數(shù)據(jù)（圖1）。圖1 原始數(shù)據(jù)（未經(jīng)標(biāo)準(zhǔn)化）第二步：打開“因子分析”對(duì)話框。沿著主菜單的“Analyze Data ReductionFactor ”的路徑（圖2）打開因子分析選項(xiàng)框（圖3）。圖2 打開因子分析對(duì)話框的路徑圖3 因子分析選項(xiàng)框第三步：選項(xiàng)設(shè)置。首先，在源變量框中選中需要進(jìn)行分析的變量，點(diǎn)擊右邊的箭頭符號(hào)，將需要的變量調(diào)入變量（Variables ）欄中（圖3）。在本例中，全部8個(gè)變量都要用上，故全部調(diào)入（圖4）。因無特殊需要，故不必理會(huì)“Value ”欄。下面逐項(xiàng)設(shè)置。

2、圖4 將變量移到變量欄以后設(shè)置Descriptives 選項(xiàng)。單擊Descriptives 按鈕（圖4），彈出Descriptives 對(duì)話框（圖5）。圖5 描述選項(xiàng)框在Statistics 欄中選中Univariate descriptives復(fù)選項(xiàng)，則輸出結(jié)果中將會(huì)給出原始數(shù)據(jù)的抽樣均值、方差和樣本數(shù)目（這一欄結(jié)果可供檢驗(yàn)參考）；選中Initial solution復(fù)選項(xiàng)，則會(huì)給出主成分載荷的公因子方差（這一欄數(shù)據(jù)分析時(shí)有用）。在Correlation Matrix 欄中，選中Coefficients 復(fù)選項(xiàng)，則會(huì)給出原始變量的相關(guān)系數(shù)矩陣（分析時(shí)可參考）；選中Determinant

3、復(fù)選項(xiàng)，則會(huì)給出相關(guān)系數(shù)矩陣的行列式，如果希望在Excel 中對(duì)某些計(jì)算過程進(jìn)行了解，可選此項(xiàng)，否則用途不大。其它復(fù)選項(xiàng)一般不用，但在特殊情況下可以用到（本例不選）。設(shè)置完成以后，單擊Continue 按鈕完成設(shè)置（圖5）。設(shè)置Extraction 選項(xiàng)。打開Extraction 對(duì)話框（圖6）。因子提取方法主要有7種，在Method 欄中可以看到，系統(tǒng)默認(rèn)的提取方法是主成分（），因此對(duì)此欄不作變動(dòng)，就是認(rèn)可了主成分分析方法。在Analyze 欄中，選中Correlation matirx復(fù)選項(xiàng)，則因子分析基于數(shù)據(jù)的相關(guān)系數(shù)矩陣進(jìn)行分析；如果選中Covariance matrix復(fù)選項(xiàng)，

4、則因子分析基于數(shù)據(jù)的協(xié)方差矩陣進(jìn)行分析。對(duì)于主成分分析而言，由于數(shù)據(jù)標(biāo)準(zhǔn)化了，這兩個(gè)結(jié)果沒有分別，因此任選其一即可。在Display 欄中，選中Unrotated factor solution（非旋轉(zhuǎn)因子解）復(fù)選項(xiàng)，則在分析結(jié)果中給出未經(jīng)旋轉(zhuǎn)的因子提取結(jié)果。對(duì)于主成分分析而言，這一項(xiàng)選擇與否都一樣；對(duì)于旋轉(zhuǎn)因子分析，選擇此項(xiàng)，可將旋轉(zhuǎn)前后的結(jié)果同時(shí)給出，以便對(duì)比。選中Scree Plot（“山麓”圖），則在分析結(jié)果中給出特征根按大小分布的折線圖（形如山麓截面，故得名），以便我們直觀地判定因子的提取數(shù)量是否準(zhǔn)確。在Extract 欄中，有兩種方法可以決定提取主成分（因子）的數(shù)目。一是根據(jù)特征根

5、（Eigenvalues ）的數(shù)值，系統(tǒng)默認(rèn)的是c =1。我們知道，在主成分分析中，主成分得分的方差就是對(duì)應(yīng)的特征根數(shù)值。如果默認(rèn)c =1，則所有方差大于等于1的主成分將被保留，其余舍棄。如果覺得最后選取的主成分?jǐn)?shù)量不足，可以將c 值降低，例如取c =0. 9；如果認(rèn)為最后的提取的主成分?jǐn)?shù)量偏多，則可以提高c 值，例如取c =1. 1。主成分?jǐn)?shù)目是否合適，要在進(jìn)行一輪分析以后才能肯定。因此，特征根數(shù)值的設(shè)定，要在反復(fù)試驗(yàn)以后才能決定。一般而言，在初次分析時(shí)，最好降低特征根的臨界值（如取c =0. 8），這樣提取的主成分將會(huì)偏多，根據(jù)初次分析的結(jié)果，在第二輪分析過程中可以調(diào)整特征根的大小。第

6、二種方法是直接指定主成分的數(shù)目即因子數(shù)目，這要選中Number of factors復(fù)選項(xiàng)。主成分的數(shù)目選多少合適？開始我們并不十分清楚。因此，首次不妨將數(shù)值設(shè)大一些，但不能超過變量數(shù)目。本例有8個(gè)變量，因此，最大的主成分提取數(shù)目為8，不得超過此數(shù)。在我們第一輪分析中，采用系統(tǒng)默認(rèn)的方法提取主成分。圖6 提取對(duì)話框需要注意的是：主成分計(jì)算是利用迭代（Iterations ）方法，系統(tǒng)默認(rèn)的迭代次數(shù)是25次。但是，當(dāng)數(shù)據(jù)量較大時(shí)，25次迭代是不夠的，需要改為50次、100次乃至更多。對(duì)于本例而言，變量較少，25次迭代足夠，故無需改動(dòng)。設(shè)置完成以后，單擊Continue 按鈕完成設(shè)置（圖6）。

7、設(shè)置Scores 設(shè)置。選中Save as variables 欄，則分析結(jié)果中給出標(biāo)準(zhǔn)化的主成分得分（在數(shù)據(jù)表的后面）。至于方法復(fù)選項(xiàng)，對(duì)主成分分析而言，三種方法沒有分別，采用系統(tǒng)默認(rèn)的“回歸”（Regression ）法即可。圖7 因子得分對(duì)話框選中Display factor score coefficient matrix，則在分析結(jié)果中給出因子得分系數(shù)矩陣及其相關(guān)矩陣。設(shè)置完成以后，單擊Continue 按鈕完成設(shè)置（圖7）。其它。對(duì)于主成分分析而言，旋轉(zhuǎn)項(xiàng)（）可以不必設(shè)置；對(duì)于數(shù)據(jù)沒有缺失的情況下，Option 項(xiàng)可以不必理會(huì)。全部設(shè)置完成以后，點(diǎn)擊OK 確定，SPSS 很快給

8、出計(jì)算結(jié)果（圖8）。圖8 主成分分析的結(jié)果第四步，結(jié)果解讀。在因子分析結(jié)果（Output ）中，首先給出的Descriptive Statistics ，第一列Mean 對(duì)應(yīng)的變量的算術(shù)平均值，計(jì)算公式為1nj =x ij n i =1第二列Std. Deviation對(duì)應(yīng)的是樣本標(biāo)準(zhǔn)差，計(jì)算公式為1n j =(x ij -j 21/2 n -1i =1第三列Analysis N對(duì)應(yīng)是樣本數(shù)目。這一組數(shù)據(jù)在分析過程中可作參考。(I -R =0可知，det(I =det(R , 從而矩陣的行列式值，根據(jù)關(guān)系式d e tDeterminant=1.133E-0.4=1*2*3*4*5*6*7*8

9、。這一點(diǎn)在后面將會(huì)得到驗(yàn)證。在Communalities(公因子方差中，給出了因子載荷陣的初始公因子方差（Initial ）和提取公因子方差（Extraction ），后面將會(huì)看到它們的含義。在Total Variance Explained(全部解釋方差表的Initial Eigenvalues（初始特征根）中，給出了按順序排列的主成分得分的方差(Total，在數(shù)值上等于相關(guān)系數(shù)矩陣的各個(gè)特征根，因此可以直接根據(jù)特征根計(jì)算每一個(gè)主成分的方差百分比（% of Variance ）。由于全部特征根的總和等于變量數(shù)目，即有m =i =8，故第一個(gè)特征根的方差百分比為1/m =3.755/8

10、=46.939，第二個(gè)特征根的百分比為2/m =2.197/8= 27.459，其余依此類推。然后可以算出方差累計(jì)值（Cumulative %）。在Extraction Sums of Squared Loadings，給出了從左邊欄目中提取的三個(gè)主成分及有關(guān)參數(shù)，提取的原則是滿足>1，這一點(diǎn)我們?cè)趫D6所示的對(duì)話框中進(jìn)行了限定。 E i g e n v a l u e圖8 特征根數(shù)值衰減折線圖（山麓圖）主成分的數(shù)目可以根據(jù)相關(guān)系數(shù)矩陣的特征根來判定，如前所說，相關(guān)系數(shù)矩陣的特征根剛好等于主成分的方差，而方差是變量數(shù)據(jù)蘊(yùn)涵信息的重要判據(jù)之一。根據(jù)值決定主成分?jǐn)?shù)目的準(zhǔn)則有三：i 只取>

11、1的特征根對(duì)應(yīng)的主成分從Total Variance Explained表中可見，第一、第二和第三個(gè)主成分對(duì)應(yīng)的值都大于1，這意味著這三個(gè)主成分得分的方差都大于1。本例正是根據(jù)這條準(zhǔn)則提取主成分的。ii 累計(jì)百分比達(dá)到80%85%以上的值對(duì)應(yīng)的主成分在Total Variance Explained表可以看出，前三個(gè)主成分對(duì)應(yīng)的值累計(jì)百分比達(dá)到89.584%，這暗示只要選取三個(gè)主成分，信息量就夠了。iii 根據(jù)特征根變化的突變點(diǎn)決定主成分的數(shù)量從特征根分布的折線圖（Scree Plot）上可以看到，第4個(gè)值是一個(gè)明顯的折點(diǎn)，這暗示選取的主成分?jǐn)?shù)目應(yīng)有p 4（圖8）。那么，究竟是3個(gè)還是4個(gè)呢？

12、根據(jù)前面兩條準(zhǔn)則，選3個(gè)大致合適（但小有問題）。在Component Matrix （成分矩陣）中，給出了主成分載荷矩陣，每一列載荷值都顯示了各個(gè)變量與有關(guān)主成分的相關(guān)系數(shù)。以第一列為例，0.885實(shí)際上是國(guó)內(nèi)生產(chǎn)總值（GDP ）與第一個(gè)主成分的相關(guān)系數(shù)。將標(biāo)準(zhǔn)化的GDP 數(shù)據(jù)與第一主成分得分進(jìn)行回歸，2決定系數(shù)R =0.783（圖9），容易算出R =0.885，這正是GDP 在第一個(gè)主成分上的載荷。下面將主成分載荷矩陣拷貝到Excel 上面作進(jìn)一步的處理：計(jì)算公因子方差和方差貢獻(xiàn)。首先求行平方和，例如，第一行的平方和為這是公因子方差。然后求列平方和，例如，第一列的平方和為這便是方差貢獻(xiàn)（圖

13、10）。在Excel 中有一個(gè)計(jì)算平方和的命令sumsq ，可以方便地算出一組數(shù)據(jù)的平方和。顯然，列平方和即方差貢獻(xiàn)。事實(shí)上，有如下關(guān)系成立：至于行平方和，顯然與前面公因子方差（Communalities ）表中的Extraction 列對(duì)應(yīng)的數(shù)據(jù)一樣。如果我們將8個(gè)主成分全部提取，則主成分載荷的行平方和都等于1（圖11），即有h i =1，s j =j 。到此可以明白：在Communalities 中，Initial 對(duì)應(yīng)的是初始公因子方差，實(shí)際上是全部主成分的公因子方差；Extraction 對(duì)應(yīng)的是提取的主成分的公因子方差，我們提取了3個(gè)主成分，故計(jì)算公因子方差時(shí)只考慮3個(gè)主成分。第一主

14、成分國(guó)內(nèi)生產(chǎn)總值圖9 國(guó)內(nèi)生產(chǎn)總值（GDP ）的與第一主成分的相關(guān)關(guān)系（標(biāo)準(zhǔn)化數(shù)據(jù)）圖10 主成分方差與方差貢獻(xiàn) 圖11 全部主成分的公因子方差和方差貢獻(xiàn)提取主成分的原則上要求公因子方差的各個(gè)數(shù)值盡可能接近，亦即要求它們的方差極小，當(dāng)公因子方差完全相等時(shí)，它們的方差為0，這就達(dá)到完美狀態(tài)。實(shí)際應(yīng)用中，只要公因子方差數(shù)值彼此接近（不相差太遠(yuǎn)）就行了。從上面給出的結(jié)果可以看出：提取3個(gè)主成分的時(shí)候，居民消費(fèi)的公因子方差偏小，這暗示提取3個(gè)主成分，居民消費(fèi)方面的信息可能有較多的損失。至于方差貢獻(xiàn)，反映對(duì)應(yīng)主成分的重要程度，這一點(diǎn)從方差的統(tǒng)計(jì)學(xué)意義可以得到理解。在圖11中，將最后一行的特征根全部乘到

15、一起，得0.0001133，這正是相關(guān)系數(shù)矩陣的行列式數(shù)值（在Excel 中，求一組數(shù)據(jù)的乘積之和的命令是product ）。最后說明Component Score Coefficient Matrix （成分得分系數(shù)矩陣）和Component Score Covariance Matrix（成分得分協(xié)方差矩陣），前者是主成分得分系數(shù)，后者是主成分得分的協(xié)方差即相關(guān)系數(shù)。從Component Score Covariance Matrix可以看出，標(biāo)準(zhǔn)化主成分得分之間的協(xié)方差即相關(guān)系數(shù)為0（j k ）或1（j =k ），這意味著主成分之間彼此正交即垂直。初學(xué)者常將Component Score

16、 Coefficient Matrix表中的數(shù)據(jù)當(dāng)成主成分得分或因子得分，這是誤會(huì)。成分得分系數(shù)矩陣的數(shù)值是主成分載荷除以相應(yīng)的特征根得到的結(jié)果。在Component Matrix表中，將第一列數(shù)據(jù)分別除以1=3.755,第二列數(shù)值分別除以2=2.197,，立即得到Component Score Coefficient ；反過來，如果將Component Score Coefficient Matrix 表中的各列數(shù)據(jù)分別乘以1=3.755，2=2.197,，則可將其還原為主成分載荷即Component Matrix中的數(shù)據(jù)。 Component Score Covariance Matrix

17、 Component 1 2 3 1 1.000 .000 .000 2 .000 1.000 .000 3 .000 .000 1.000 Extraction Method: Principal Component Analysis. Component Scores. 實(shí)際上，主成分得分在原始數(shù)據(jù)所在的SPSS當(dāng)前數(shù)據(jù)欄中給出，不過給出的都是標(biāo) 準(zhǔn)化的主成分得分(圖12a；將各個(gè)主成分乘以相應(yīng)的即特征根的二次方根可以將其還原為未經(jīng)標(biāo)準(zhǔn)化的主成分得分。 a.標(biāo)準(zhǔn)化的主成分得分 b. 非標(biāo)準(zhǔn)化的主成分得分圖12 兩種主成分得分計(jì)算標(biāo)準(zhǔn)化主成分得分的協(xié)方差或相關(guān)系數(shù)，結(jié)果與Compone

18、nt Score Covariance 11 Matrix表中的給出的結(jié)果一致（見圖13）。第一因子第一因子第二因子第三因子 1 0.00000 0.00000 第二因子 1 0.00000 第三因子 1 主成分（得分）圖13 主成分（得分）之間的相關(guān)系數(shù)矩陣第五步，計(jì)算結(jié)果分析。從Component Matrix即主成分載荷表中可以看出，國(guó)內(nèi)生產(chǎn)總值、固定資產(chǎn)投資和工業(yè)產(chǎn)值在第一主成分上載荷較大，亦即與第一主成分的相關(guān)系數(shù)較高；職工工資和貨物周轉(zhuǎn)量在第二主成分上的載荷絕對(duì)值較大，即負(fù)相關(guān)程度較高；消費(fèi)價(jià)格指數(shù)在第三主成分上的載荷較大，即相關(guān)程度較高。因此可將主成分命名如下：第一主成分：投入產(chǎn)出主成分；投入第二主成分：工資物流主成分；工資第三主成分：消費(fèi)價(jià)格主成分。問題在于：一方面，居民消費(fèi)和商品零售價(jià)格指數(shù)的歸類比較含混；另一方面，主成分的命名結(jié)構(gòu)不清。因此，有必要作進(jìn)一步的因子分析。 Component Matrixa Component 2 .384 -.598 .161 -.722 -.722 .252 .594 .427 國(guó)內(nèi)生產(chǎn) 居民消費(fèi) 固定資產(chǎn) 職工工資貨物周轉(zhuǎn) 消費(fèi)價(jià)格商品零售工業(yè)產(chǎn)值 1 .885 .607 .912 .466 .486 -.509 -.620 .823 3 .121

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

利用SPSS進(jìn)行主成分分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

利用SPSS進(jìn)行主成分分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔