利用SPSS進行主成分分析_第1頁
利用SPSS進行主成分分析_第2頁
利用SPSS進行主成分分析_第3頁
利用SPSS進行主成分分析_第4頁
利用SPSS進行主成分分析_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、利用SPSS 進行主成分分析【例子】 以全國31個省市的8項經(jīng)濟指標(biāo)為例,進行主成分分析。第一步:錄入或調(diào)入數(shù)據(jù)(圖1)。 圖1 原始數(shù)據(jù)(未經(jīng)標(biāo)準(zhǔn)化)第二步:打開“因子分析”對話框。沿著主菜單的“Analyze Data ReductionFactor ”的路徑(圖2)打開因子分析選項框(圖3)。 圖2 打開因子分析對話框的路徑圖3 因子分析選項框第三步:選項設(shè)置。首先,在源變量框中選中需要進行分析的變量,點擊右邊的箭頭符號,將需要的變量調(diào)入變量(Variables )欄中(圖3)。在本例中,全部8個變量都要用上,故全部調(diào)入(圖4)。因無特殊需要,故不必理會“Value ”欄。下面逐項設(shè)置。

2、 圖4 將變量移到變量欄以后 設(shè)置Descriptives 選項。單擊Descriptives 按鈕(圖4),彈出Descriptives 對話框(圖5)。 圖5 描述選項框在Statistics 欄中選中Univariate descriptives復(fù)選項,則輸出結(jié)果中將會給出原始數(shù)據(jù)的抽樣均值、方差和樣本數(shù)目(這一欄結(jié)果可供檢驗參考);選中Initial solution復(fù)選項,則會給出主成分載荷的公因子方差(這一欄數(shù)據(jù)分析時有用)。在Correlation Matrix 欄中,選中Coefficients 復(fù)選項,則會給出原始變量的相關(guān)系數(shù)矩陣(分析時可參考);選中Determinant

3、 復(fù)選項,則會給出相關(guān)系數(shù)矩陣的行列式,如果希望在Excel 中對某些計算過程進行了解,可選此項,否則用途不大。其它復(fù)選項一般不用,但在特殊情況下可以用到(本例不選)。設(shè)置完成以后,單擊Continue 按鈕完成設(shè)置(圖5)。 設(shè)置Extraction 選項。打開Extraction 對話框(圖6)。因子提取方法主要有7種,在Method 欄中可以看到,系統(tǒng)默認(rèn)的提取方法是主成分( ),因此對此欄不作變動,就是認(rèn)可了主成分分析方法。在Analyze 欄中,選中Correlation matirx復(fù)選項,則因子分析基于數(shù)據(jù)的相關(guān)系數(shù)矩陣進行分析;如果選中Covariance matrix復(fù)選項,

4、則因子分析基于數(shù)據(jù)的協(xié)方差矩陣進行分析。對于主成分分析而言,由于數(shù)據(jù)標(biāo)準(zhǔn)化了,這兩個結(jié)果沒有分別,因此任選其一即可。在Display 欄中,選中Unrotated factor solution(非旋轉(zhuǎn)因子解)復(fù)選項,則在分析結(jié)果中給出未經(jīng)旋轉(zhuǎn)的因子提取結(jié)果。對于主成分分析而言,這一項選擇與否都一樣;對于旋轉(zhuǎn)因子分析,選擇此項,可將旋轉(zhuǎn)前后的結(jié)果同時給出,以便對比。選中Scree Plot(“山麓”圖),則在分析結(jié)果中給出特征根按大小分布的折線圖(形如山麓截面,故得名),以便我們直觀地判定因子的提取數(shù)量是否準(zhǔn)確。在Extract 欄中,有兩種方法可以決定提取主成分(因子)的數(shù)目。一是根據(jù)特征根

5、(Eigenvalues )的數(shù)值,系統(tǒng)默認(rèn)的是c =1。我們知道,在主成分分析中,主成分得分的方差就是對應(yīng)的特征根數(shù)值。如果默認(rèn)c =1,則所有方差大于等于1的主成分將被保留,其余舍棄。如果覺得最后選取的主成分?jǐn)?shù)量不足,可以將c 值降低,例如取c =0. 9;如果認(rèn)為最后的提取的主成分?jǐn)?shù)量偏多,則可以提高c 值,例如取c =1. 1。主成分?jǐn)?shù)目是否合適,要在進行一輪分析以后才能肯定。因此,特征根數(shù)值的設(shè)定,要在反復(fù)試驗以后才能決定。一般而言,在初次分析時,最好降低特征根的臨 界值(如取c =0. 8) ,這樣提取的主成分將會偏多,根據(jù)初次分析的結(jié)果,在第二輪分析過程中可以調(diào)整特征根的大小。第

6、二種方法是直接指定主成分的數(shù)目即因子數(shù)目,這要選中Number of factors復(fù)選項。主成分的數(shù)目選多少合適?開始我們并不十分清楚。因此,首次不妨將數(shù)值設(shè)大一些,但不能超過變量數(shù)目。本例有8個變量,因此,最大的主成分提取數(shù)目為8,不得超過此數(shù)。在我們第一輪分析中,采用系統(tǒng)默認(rèn)的方法提取主成分。 圖6 提取對話框需要注意的是:主成分計算是利用迭代(Iterations )方法,系統(tǒng)默認(rèn)的迭代次數(shù)是25次。但是,當(dāng)數(shù)據(jù)量較大時,25次迭代是不夠的,需要改為50次、100次乃至更多。對于本例而言,變量較少,25次迭代足夠,故無需改動。設(shè)置完成以后,單擊Continue 按鈕完成設(shè)置(圖6)。

7、設(shè)置Scores 設(shè)置。選中Save as variables 欄,則分析結(jié)果中給出標(biāo)準(zhǔn)化的主成分得分(在數(shù)據(jù)表的后面)。至于方法復(fù)選項,對主成分分析而言,三種方法沒有分別,采用系統(tǒng)默認(rèn)的“回歸”(Regression )法即可。 圖7 因子得分對話框選中Display factor score coefficient matrix,則在分析結(jié)果中給出因子得分系數(shù)矩陣及其相關(guān)矩陣。設(shè)置完成以后,單擊Continue 按鈕完成設(shè)置(圖7)。 其它。對于主成分分析而言,旋轉(zhuǎn)項()可以不必設(shè)置;對于數(shù)據(jù)沒有缺失的情況下,Option 項可以不必理會。全部設(shè)置完成以后,點擊OK 確定,SPSS 很快給

8、出計算結(jié)果(圖8)。 圖8 主成分分析的結(jié)果第四步,結(jié)果解讀。在因子分析結(jié)果(Output )中,首先給出的Descriptive Statistics ,第一列Mean 對應(yīng)的變量的算術(shù)平均值,計算公式為1nj =x ij n i =1第二列Std. Deviation對應(yīng)的是樣本標(biāo)準(zhǔn)差,計算公式為1n j =(x ij -j 21/2 n -1i =1第三列Analysis N對應(yīng)是樣本數(shù)目。這一組數(shù)據(jù)在分析過程中可作參考。(I -R =0可知,det(I =det(R , 從而矩陣的行列式值,根據(jù)關(guān)系式d e tDeterminant=1.133E-0.4=1*2*3*4*5*6*7*8

9、。這一點在后面將會得到驗證。 在Communalities(公因子方差 中,給出了因子載荷陣的初始公因子方差(Initial )和提取公因子方差(Extraction ),后面將會看到它們的含義。在Total Variance Explained(全部解釋方差 表的Initial Eigenvalues(初始特 征根)中,給出了按順序排列的主成分得分的方差(Total,在數(shù)值上等于相關(guān)系數(shù)矩陣的各個特征根,因此可以直接根據(jù)特征根計算每一個主成分的方差百分比(% of Variance )。由于全部特征根的總和等于變量數(shù)目,即有m =i =8,故第一個特征根的方差百分比為1/m =3.755/8

10、=46.939,第二個特征根的百分比為2/m =2.197/8= 27.459,其余依此類推。然后可以算出方差累計值(Cumulative %)。在Extraction Sums of Squared Loadings,給出了從左邊欄目中提取的三個主成分及有關(guān)參數(shù),提取的原則是滿足>1,這一點我們在圖6所示的對話框中進行了限定。 E i g e n v a l u e圖8 特征根數(shù)值衰減折線圖(山麓圖)主成分的數(shù)目可以根據(jù)相關(guān)系數(shù)矩陣的特征根來判定,如前所說,相關(guān)系數(shù)矩陣的特征根剛好等于主成分的方差,而方差是變量數(shù)據(jù)蘊涵信息的重要判據(jù)之一。根據(jù)值決定主成分?jǐn)?shù)目的準(zhǔn)則有三:i 只取>

11、1的特征根對應(yīng)的主成分從Total Variance Explained表中可見,第一、第二和第三個主成分對應(yīng)的值都大于1,這意味著這三個主成分得分的方差都大于1。本例正是根據(jù)這條準(zhǔn)則提取主成分的。ii 累計百分比達到80%85%以上的值對應(yīng)的主成分在Total Variance Explained表可以看出,前三個主成分對應(yīng)的值累計百分比達到89.584%,這暗示只要選取三個主成分,信息量就夠了。iii 根據(jù)特征根變化的突變點決定主成分的數(shù)量從特征根分布的折線圖(Scree Plot)上可以看到,第4個值是一個明顯的折點,這暗示選取的主成分?jǐn)?shù)目應(yīng)有p 4(圖8)。那么,究竟是3個還是4個呢?

12、根據(jù)前面兩條準(zhǔn)則,選3個大致合適(但小有問題)。在Component Matrix (成分矩陣)中,給出了主成分載荷矩陣,每一列載荷值都顯示了各個變量與有關(guān)主成分的相關(guān)系數(shù)。以第一列為例,0.885實際上是國內(nèi)生產(chǎn)總值(GDP )與第一個主成分的相關(guān)系數(shù)。將標(biāo)準(zhǔn)化的GDP 數(shù)據(jù)與第一主成分得分進行回歸,2決定系數(shù)R =0.783(圖9),容易算出R =0.885,這正是GDP 在第一個主成分上的載荷。 下面將主成分載荷矩陣拷貝到Excel 上面作進一步的處理:計算公因子方差和方差貢獻。首先求行平方和,例如,第一行的平方和為這是公因子方差。然后求列平方和,例如,第一列的平方和為這便是方差貢獻(圖

13、10)。在Excel 中有一個計算平方和的命令sumsq ,可以方便地算出一組數(shù)據(jù)的平方和。顯然,列平方和即方差貢獻。事實上,有如下關(guān)系成立:至于行平方和,顯然與前面公因子方差(Communalities )表中的Extraction 列對應(yīng)的數(shù)據(jù)一樣。如果我們將8個主成分全部提取,則主成分載荷的行平方和都等于1(圖11),即有h i =1,s j =j 。到此可以明白:在Communalities 中,Initial 對應(yīng)的是初始公因子方差,實際上是全部主成分的公因子方差;Extraction 對應(yīng)的是提取的主成分的公因子方差,我們提取了3個主成分,故計算公因子方差時只考慮3個主成分。第一主

14、成分 國內(nèi)生產(chǎn)總值圖9 國內(nèi)生產(chǎn)總值(GDP )的與第一主成分的相關(guān)關(guān)系(標(biāo)準(zhǔn)化數(shù)據(jù))圖10 主成分方差與方差貢獻 圖11 全部主成分的公因子方差和方差貢獻提取主成分的原則上要求公因子方差的各個數(shù)值盡可能接近,亦即要求它們的方差極小,當(dāng)公因子方差完全相等時,它們的方差為0,這就達到完美狀態(tài)。實際應(yīng)用中,只要公因子方差數(shù)值彼此接近(不相差太遠)就行了。從上面給出的結(jié)果可以看出:提取3個主成分的時候,居民消費的公因子方差偏小,這暗示提取3個主成分,居民消費方面的信息可能有較多的損失。至于方差貢獻,反映對應(yīng)主成分的重要程度,這一點從方差的統(tǒng)計學(xué)意義可以得到理解。在圖11中,將最后一行的特征根全部乘到

15、一起,得0.0001133,這正是相關(guān)系數(shù)矩陣的行列式數(shù)值(在Excel 中,求一組數(shù)據(jù)的乘積之和的命令是product )。最后說明Component Score Coefficient Matrix (成分得分系數(shù)矩陣)和Component Score Covariance Matrix(成分得分協(xié)方差矩陣),前者是主成分得分系數(shù),后者是主成分得分的協(xié)方差即相關(guān)系數(shù)。從Component Score Covariance Matrix可以看出,標(biāo)準(zhǔn)化主成分得分之間的協(xié)方差即相關(guān)系數(shù)為0(j k )或1(j =k ),這意味著主成分之間彼此正交即垂直。初學(xué)者常將Component Score

16、 Coefficient Matrix表中的數(shù)據(jù)當(dāng)成主成分得分或因子得分,這是誤會。成分得分系數(shù)矩陣的數(shù)值是主成分載荷除以相應(yīng)的特征根得到的結(jié)果。在Component Matrix表中,將第一列數(shù)據(jù)分別除以1=3.755,第二列數(shù)值分別除以2=2.197,,立即得到Component Score Coefficient ;反過來,如果將Component Score Coefficient Matrix 表中的各列數(shù)據(jù)分別乘以1=3.755,2=2.197,,則可將其還原為主成分載荷即Component Matrix中的數(shù)據(jù)。 Component Score Covariance Matrix

17、 Component 1 2 3 1 1.000 .000 .000 2 .000 1.000 .000 3 .000 .000 1.000 Extraction Method: Principal Component Analysis. Component Scores. 實際上,主成分得分在原始數(shù)據(jù)所在的SPSS當(dāng)前數(shù)據(jù)欄中給出,不過給出的都是標(biāo) 準(zhǔn)化的主成分得分(圖12a;將各個主成分乘以相應(yīng)的即特征根的二次方根可以將其 還原為未經(jīng)標(biāo)準(zhǔn)化的主成分得分。 a.標(biāo)準(zhǔn)化的主成分得分 b. 非標(biāo)準(zhǔn)化的主成分得分 圖12 兩種主成分得分 計算標(biāo)準(zhǔn)化主成分得分的協(xié)方差或相關(guān)系數(shù),結(jié)果與Compone

18、nt Score Covariance 11 Matrix表中的給出的結(jié)果一致(見圖13)。 第一因子 第一因子 第二因子 第三因子 1 0.00000 0.00000 第二因子 1 0.00000 第三因子 1 主成分(得分) 圖13 主成分(得分)之間的相關(guān)系數(shù)矩陣 第五步,計算結(jié)果分析。 從Component Matrix即主成分載荷表中可以看出,國內(nèi)生產(chǎn)總值、固定資產(chǎn)投資和 工業(yè)產(chǎn)值在第一主成分上載荷較大,亦即與第一主成分的相關(guān)系數(shù)較高;職工工資和貨 物周轉(zhuǎn)量在第二主成分上的載荷絕對值較大,即負相關(guān)程度較高;消費價格指數(shù)在第三 主成分上的載荷較大,即相關(guān)程度較高。 因此可將主成分命名如下: 第一主成分:投入產(chǎn)出主成分; 投入 第二主成分:工資物流主成分; 工資 第三主成分:消費價格主成分。 問題在于:一方面,居民消費和商品零售價格指數(shù)的歸類比較含混;另一方面,主 成分的命名結(jié)構(gòu)不清。因此,有必要作進一步的因子分析。 Component Matrixa Component 2 .384 -.598 .161 -.722 -.722 .252 .594 .427 國內(nèi)生產(chǎn) 居民消費 固定資產(chǎn) 職工工資 貨物周轉(zhuǎn) 消費價格 商品零售 工業(yè)產(chǎn)值 1 .885 .607 .912 .466 .486 -.509 -.620 .823 3 .121

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論