利用SPSS進行主成分分析_第1頁
利用SPSS進行主成分分析_第2頁
利用SPSS進行主成分分析_第3頁
利用SPSS進行主成分分析_第4頁
利用SPSS進行主成分分析_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、利用spss進行主成分分析【例子】 以全國31個省市8項經(jīng)濟指標為例,進行主成分分析。第一步:錄入或調(diào)入數(shù)據(jù)(圖1)。省份國內(nèi)生產(chǎn)居民消費固定資產(chǎn)職工工資|貨物冏轉(zhuǎn)常勞11格商品零售工業(yè)產(chǎn)值1北京1394.892505.00519.018144 03373.90117.30112.60843.432天津920.112720.00345.456501 03330115.20110.60532.513河北2849.521258.d0704.374839.032033.30115.20115.801234.854山西1092.481250.00230.904721 03717.30116.90115

2、.60o37.255內(nèi)袈832.881387.00湖.234134 0j781.70117.50116.80419.396遼寧2793.3?2397.00337.994glic01371.70116.10114.001840.557吉林1129.201872.00320.45443。co497.40115.20114.20762.478黑龍江2014.532334.00435734145.03824.80116.10114.301240.379上海2462.575343.00996.489279.oj207.40118.70113.001642.9510江蘇5156.261926.001434

3、.955943.oj1025.50115.80114.302026.6411浙江3524.792249.001oj6.396619.oj764.40116.60113.50916.6912安徽2003.681254.00474.0046o3.oj908.301148011270824.1413福建2160.522320.00s53.975857 03609.30115.20114.40433.6714江西1205.111182.d0衣 2.844211 w411.70116.90115.90571.8415山東5002.341527.001229.555145 m1196.60117.6011

4、4.202237.6916河南3002.741034.00670.354344 w1574.40116.50114.9017.9217湖北2391.421527.0057i.684685 w849.00120.00116.6012207218湖南2195.701408.d0422.6i4797.031011.80119.00115.50843.8319廣東5381.722599.001639.838250.03666.60114.00111.601336.3633廣西1606.161314.00332.5951o5w566.00118.40116.40554.9721海南36a.i 71814

5、.00198.355340 03232.10113.50111.3064.3322四川3534.001261.00822.544645 03902.30118.50117.001431.8123630.07942.00150.844475.co301.10121.40117.20324.72241206.681261.d0331.335149 03310./。121.30118.10716.652556.981110.d017877382 034.20117.30114癡5.57261000.031208.00310 ?7500.90119.00117.00030.9827553.351007

6、. do114815493 03507.00119.80116 50468.7928165 311446 0047.765753 0361.60118.00116 30105 802916g. 751書5in61sb耳73 mrd117 10115 30114 40r834 571469 do376 955 general linear model correlateregressionbcl時吐卜廠省份國內(nèi)生產(chǎn)r職工工資1北京1394.e18144.002天津920.166501.003河北2849.edata reductionfactor. i4山西1092.4scale尸nonpara

7、metric tests multiple responsei1yj5內(nèi)蒙832.e34134.006遼寧2793.3目4911.00圖2打開因子分析對話框路徑,factor analysisva riables:產(chǎn)費產(chǎn)資轉(zhuǎn)格售值 生捎資工同價零產(chǎn) 份內(nèi)民定工物費品業(yè) 省國居固職貨消前t 圓e4密selection variable:mbvalue.de scriptives. extraction.rotation.scores. options.圖3因子分析選項框第三步:選項設(shè)置。首先,在源變量框中選中需要進行分析變量,點擊右邊箭頭符號,將 需要變量調(diào)入變量(variables)欄中(圖3

8、)。在本例中,全部8個變量 都要用上,故全部調(diào)入(圖4)。因無特殊需要,故不必理會value” 欄。下面逐項設(shè)置。xj;factor analysisde scrip熔es |variables:生消資工周價零產(chǎn) 內(nèi)民定工物費品業(yè) 國居固職貨消商工產(chǎn)費產(chǎn)資轉(zhuǎn)格售值itiselection variable:value.extraction.rotation.scores. i options. i圖4將變量移到變量欄以后1 .設(shè)置 rescriptives 選項。單擊descriptives按鈕(圖4),彈出descriptives對話框(圖5)。圖5描述選項框在statistics欄中選中u

9、nivariate descriptives復選項,則輸出 結(jié)果中將會給出原始數(shù)據(jù)抽樣均值、方差和樣本數(shù)目(這一欄結(jié)果可供檢驗參考);選中initial solution復選項,則會給出主成分載荷公因子方 差(這一欄數(shù)據(jù)分析時有用)。在correlation matrix欄中,選中coefficients復選項,則會給出 原始變量相關(guān)系數(shù)矩陣(分析時可參考);選中determinant復選項,則 會給出相關(guān)系數(shù)矩陣行列式,如果希望在excel中對某些計算過程進行了 解,可選此項,否則用途不大。其它復選項一般不用,但在特殊情況下可 以用到(本例不選)。設(shè)置完成以后,單擊continue按鈕完成設(shè)

10、置(圖5)。2 .設(shè)置 extraction 選項。打開extraction對話框(圖6)。因子提取方法主要有7種,在method 欄中可以看到,系統(tǒng)默認提取方法是主成分 (),因此對此欄不作變動,就是認可了主成分分析方法。在analyze欄中,選中correlation matirx復選項,則因子分析基 于數(shù)據(jù)相關(guān)系數(shù)矩陣進行分析;如果選中covariance matrix復選項,則 因子分析基于數(shù)據(jù)協(xié)方差矩陣進行分析。對于主成分分析而言,由于數(shù)據(jù) 標準化了,這兩個結(jié)果沒有分別,因此任選其一即可。在display欄中,選中unrotated factor solution (非旋轉(zhuǎn)因子解)

11、復選項,則在分析結(jié)果中給出未經(jīng)旋轉(zhuǎn)因子提取結(jié)果。對于主成分分析而 言,這一項選擇及否都一樣;對于旋轉(zhuǎn)因子分析,選擇此項,可將旋轉(zhuǎn)前 后結(jié)果同時給出,以便對比。選中“ree plot (“山麓”圖),則在分析結(jié)果中給出特征根按大小分 布折線圖(形如山麓截面,故得名),以便我們直觀地判定因子提取數(shù)量 是否準確。在extract欄中,有兩種方法可以決定提取主成分(因子)數(shù)目。一 是根據(jù)特征根(eigenvalues)數(shù)值,系統(tǒng)默認是4=1。我們知道,在主 成分分析中,主晟分得分方差就是對應(yīng)特征根數(shù)值。如果默認4=1,則 所有方差大于等于1主成分將被保留,其余舍棄。如果覺得最后選取主成 分數(shù)量不足,可

12、以將心值降低,例如取4 =0.9;如果認為最后提取主成分 數(shù)量偏多,則可以提高人值,例如取=1.1。主成分數(shù)目是否合適,要在 進行一輪分析以后才能肯定。因此,特征根數(shù)值設(shè)定,要在反復試驗以后 才能決定。一般而言,在初次分析時,最好降低特征根臨界值(如取 4 = 0.8 ),這樣提取主成分將會偏多,根據(jù)初次分析結(jié)果,在第二輪分 析過程中可以調(diào)整特征根大小。第二種方法是直接指定主成分數(shù)目即因子數(shù)目,這要選中number of factors復選項。主成分數(shù)目選多少合適?開始我們并不十分清楚。因此, 首次不妨將數(shù)值設(shè)大一些,但不能超過變量數(shù)目。本例有8個變量,因此, 最大主成分提取數(shù)目為8,不得超過

13、此數(shù)。在我們第一輪分析中,采用系 統(tǒng)默認方法提取主成分。圖6提取對話框需要注意是:主成分計算是利用迭代(iterations)方法,系統(tǒng)默認 迭代次數(shù)是25次。但是,當數(shù)據(jù)量較大時,25次迭代是不夠,需要改為50次、100次乃至更多。對于本例而言,變量較少,25次迭代足夠,故無需改動。設(shè)置完成以后,單擊continue按鈕完成設(shè)置(圖6)。3 .設(shè)置scores設(shè)置。選中save as variables欄,則分析結(jié)果中給出標準化主成分得分(在 數(shù)據(jù)表后面)。至于方法復選項,對主成分分析而言,三種方法沒有分別, 采用系統(tǒng)默認“回歸(regression)法即可。factor analysis;

14、 factor scores歹 save as variables-method& begression廣且#rtlettanderson-rubinp display factor score coefficient matrix圖7因子得分對話框選中 display factor score coefficient matrix, 則在分析結(jié)果中給出因子得分系數(shù)矩陣及其相關(guān)矩陣。設(shè)置完成以后,單擊continue按鈕完成設(shè)置(圖7)。4.其它。對于主成分分析而言,旋轉(zhuǎn)項(rotation)可以不必設(shè)置;對于數(shù)據(jù) 沒有缺失情況下,option項可以不必理會。全部設(shè)置完成以后,點擊0k確定,s

15、pss很快給出計算結(jié)果(圖8)。factor analysis摩步std. ce/dticn防曬5 n國內(nèi)生產(chǎn)1921.093h74.9c603eo居民消費1745.929961.64193so固定資產(chǎn)511.5083402.96548eo職工工資5457.633l31o,21805eo貨物局特c6d.l4c04599e599eo省制格117.23672.02s31so商品零售114.867i.aceoseo工1k產(chǎn)迫862 .0584.58726eodescriptive statistics國力生產(chǎn)層民省宏固定資產(chǎn)職工工塔位物周桂消費價格商品零任工值ccrrehtbn 國內(nèi)生產(chǎn)1.000.

16、257.951.191.617-.273-264.874居民消若.2671.000.718-.151-.235-.593.363固定愉產(chǎn).951.4261.003.400.431-.280-.35?.792職工工資.191.718。81.000-.356-.135-.535.104貨枷周轉(zhuǎn).617151-.3561.000253.022.559消敵價格-.273-.235-.283-.135-.253i.mo.763-.12s商品季告-.264-.593理-.539.022.7631.003-.192工業(yè)產(chǎn)值.874w63.792.104.659-.125-.1921.0c0correlati

17、on matri爐a. det&fmhant = 1 133e-04i第四步,結(jié)果解讀。圖8主成分分析結(jié)果在因子分析結(jié)果(output)中,首先給出descriptive statistics第一列mean對應(yīng)變量算術(shù)平均值,計算公式為第二列std. deviation對應(yīng)是樣本標準差,計算公式為1=占2(再廠引2產(chǎn)一 1 m第三列analysis n對應(yīng)是樣本數(shù)目。這一組數(shù)據(jù)在分析過程中可作參考。descriptive statisticsmeanstd. deviationanalysis n國內(nèi)生產(chǎn)1921.0931474.8060330居民消費1745.933861.6419330固定

18、資產(chǎn)511.5083402.8854830職工工資5457.6331310.2180530貨物周轉(zhuǎn)666.1400459.9669930消費價格117.28672.0253130商品零售114.90671.8980830工業(yè)產(chǎn)值862.9980584.5872630接下來是correlation matrix(相關(guān)系數(shù)矩陣),一般而言,相關(guān)系數(shù) 高變量,大多會進入同一個主成分,但不盡然,除了相關(guān)系數(shù)外,決定變 量在主成分中分布地位因素還有數(shù)據(jù)結(jié)構(gòu)。相關(guān)系數(shù)矩陣對主成分分析具 有參考價值,畢竟主成分分析是從計算相關(guān)系數(shù)矩陣特征根開始。相關(guān)系 數(shù)陣下面determinant=1. 133e-0.

19、4是相關(guān)矩陣行列式值,根據(jù)關(guān)系式 det(r-r) = 0 可 知 ,det (4 7)=det (而, 從 而determinant=1. 133et). 4二八/九*九*九*久聲兒* ;*48。這一點在后面 將會得到驗證。correlation matrix國內(nèi) 生產(chǎn)居民消費固定 資產(chǎn)工資 職工貨物 周轉(zhuǎn)消費 價格品售 商零工業(yè) 產(chǎn)值國內(nèi)生產(chǎn)1.000.267.951.191.617-.273-.264.874居民消費.2671.000.426.718-151-.235-.593.363固定資產(chǎn).951.4261.000.400.431-.280-.359.792職工工資.191.718.

20、4001.000-356-.135-.539.104貨物周轉(zhuǎn).617-151.431-.3561.000-.253.022.659消費價格-.273-235-.280-.135-2531.000.763-.125商品零售-.264-.593-.359-.539.022.7631.000-.192工業(yè)產(chǎn)值.874.363.792.104.659-.125-.1921.000a. determinant = 1.133e-04在communalities (公因子方差)中,給出了因子載荷陣初始公因子方差(initial)和提取公因子方差(extraction),后面將會看到它們含 義。com mu

21、nalitiesinitialextraction國內(nèi)生產(chǎn)1.000.945居民消費1.000.800固定資產(chǎn)1.000.902職工工資1.000.875貨物周轉(zhuǎn)1.000.857消費價格1.000.957商品零售1.000.929工業(yè)產(chǎn)值1.000.903extraction method: principal component analysis.在 total variance explained (全部解釋方差)表 initial eigenvalues (初始特征根)中,給出了按順序排列主成分得分方差 (total),在數(shù)值上等于相關(guān)系數(shù)矩陣各個特征根入,因此可以直接根據(jù) 特征根計算

22、每一個主成分方差百分比(% of variance) o由于全部特征 根總和等于變量數(shù)目,即有爐x /i尸8,故第一個特征根方差百分比為 4/斤3. 755/8=46. 939 ,第二個特征根百分比為 九/zzf2. 197/8二 27.459,其余依此類推。然后可以算出方差累計值(cumulative %)。 在extraction sums of squared loadings給出/從左邊欄目中提取三 個主成分及有關(guān)參數(shù),提取原則是滿足41,這一點我們在圖6所示對話 框中進行了限定。total variance explainedcomponentinitial eigenvaluese

23、xtraction sums of squared loadingstotal% of variancecumulative %total% of variancecumulative %13.75546.93946.9393.75546.93946.93922.19727.45974.3982.19727.45974.39831.21515.18689.5841.21515.18689.5844.4025.03194.6155.2132.66097.2756.1381.72498.99976.5e-02.81899.81781.5e-02.183100.000extraction metho

24、d: principal corrponent analysis.iii根據(jù)特征根變化突變點決定主成分數(shù)量從特征根分布折線圖(scree plot)上可以看到,第4個久值是一個明顯折點,這暗示選取主成分數(shù)目應(yīng)有0w4 (圖8)。那么,究竟是3個還是 4個呢?根據(jù)前面兩條準則,選3個大致合適(但小有問題)。在component matrix (成分矩陣)中,給出了主成分載荷矩陣,每一 列載荷值都顯示了各個變量及有關(guān)主成分相關(guān)系數(shù)。以第一列為例,0. 885 實際上是國內(nèi)生產(chǎn)總值(gdp)及第一個主成分相關(guān)系數(shù)。將標準化gdp數(shù) 據(jù)及第一主成分得分進行回歸,決定系數(shù)始二0.783 (圖9),容易算

25、出 廬0.885,這正是gdp在第一個主成分上載荷。component matrb?component123國內(nèi)生產(chǎn).885.384.121居民消費.607-.598.271固定資產(chǎn).912.161.212職工工資.466-.722.368貨物周轉(zhuǎn).486.738-275消費價格-.509.252.797商品零售-.620.594.438工業(yè)產(chǎn)值.823.427.211extraction method: principal component analysis, a. 3 components extracted.下面將主成分載荷矩陣拷貝到excel上面作進一步處理:計算公因子方差和方差貢獻

26、。首先求行平方和,例如,第一行平方和為a2=0 . 88 492+0 . 38 362+0. 12092=0 . 94 49這是公因子方差。然后求列平方和,例如,第一列平方和為s;=0. 884夕+0. 6067:+-+0. 82273. 7551這便是方差貢獻(圖10)。在excel中有一個計算平方和命令sumsq,可以 方便地算出一組數(shù)據(jù)平方和。顯然,列平方和即方差貢獻。事實上,有如 下關(guān)系成立:相關(guān)系數(shù)矩陣特征根=方差貢獻=主成分得分方差至于行平方和,顯然及前面公因子方差(communalities )表中extraction 列對應(yīng)數(shù)據(jù)一樣。如果我們將8個主成分全部提取,則主成分載荷行

27、平方 和都等于1 (圖11),即有力尸l sj= a o到此可以明白:在communal it ies 中,initial對應(yīng)是初始公因子方差,實際上是全部主成分公因子方差; extraction對應(yīng)是提取主成分公因子方差,我們提取了3個主成分,故計 算公因子方差時只考慮3個主成分。圖9國內(nèi)生產(chǎn)總值(gdp)及第一主成分相關(guān)關(guān)系(標準化數(shù)據(jù))abcd1 e i5第,主成分第一主成分第二主成分公因子方差6國內(nèi)生產(chǎn)0. 8849000. 3836190.1208860. 9448247居民消費0. 606719-0. 5981770. 2713130. 7995348固定資產(chǎn)0. 9116870.

28、 1611060.2119970. 9020719職工工資0. 466222-0. 7224100.3679380. 8746171q貨物周轉(zhuǎn)0. 4858310. 738275-0.2752520. 85684511消費價格-0. 5085630. 2519090.7966330. 95671812商品零售-0. 6195890. 5943750.4375550. 92862713工業(yè)產(chǎn)值0. 8227290. 4267370. 2109700. 90349614方差貢獻3. 7551332.1967041.2148957.16673315特征根3. 7551332.1967041.2148

29、957.166733圖10主成分方差及方差貢獻component matri更component12345678國內(nèi)生產(chǎn).885.384.121-.203-6.87e-021.143e-022.420e-029.192e-02居民消費.607-.598.271.409-7.61e-02.1575.525e-021.317e-02固定資產(chǎn).912.161.212-.270-7.71e-028.271e-028.113e-02-7.36e-02職工工資.466-.722.368-.164.304-1.64e-02-7.62e-023.949e-03貨物周轉(zhuǎn).486.738-.275.212.305

30、2.254e-026.855e-02-6.02e-03消費價格-.509.252.797.0722.716e-02-.161.1072.435e-03商品零售-.620.594.438-.0273.531e-02.247-9.23e-021.634e-03工業(yè)產(chǎn)值.823.427.211.209-9.38e-02-.137-.157-2.30e-02extraction method: principal corrponent analysis.a. 8 components extracted.abcdefghij112345678公因子方差2國內(nèi)生產(chǎn)。. 88490. 38360. 120

31、9-0. z03z-0. 06870. 01140. 02420. 091913居民消贄0. 6067-0. 5980. 27130. 4085 -0. 07610.15680. 05520. 013214固定資產(chǎn)0. 91170.16110. 212-0. 2705 -0. 07710. 08270.0811一。.07415職工工資0. 4662-0. 7220. 3679-0. 1635 0. 30421-0. 016-0. 0760. 003916貨物周轉(zhuǎn)0. 48580. 7383-0. 275 0.21184 0. 305020. 02250. 0685-0. 00617消費價格-0

32、. 5090.25190. 7966 0.07176 0. 02716-0. 1610. 10710. 002418商品零售-0.620. 59440. 4376 -0. 0267 0. 03s310. 2468-0.0920. 001619工業(yè)產(chǎn)值0. 82270. 42670. 211 0. 20888 -0. 0938-0. 137-0.157-0. 023110方差貢獻3. 75512.19671.2149 0.402440. 21280.1320. 0654c.0f6811特征根3. 75512.19671.2149 0.402440. 21280.1380. 06540. 0146

33、u33e-04圖11全部主成分公因子方差和方差貢獻提取主成分原則上要求公因子方差各個數(shù)值盡可能接近,亦即要求它們方差極小,當公因子方差完全相等時,它們方差為0,這就達到完美狀態(tài)。實際應(yīng)用中,只要公因子方差數(shù)值彼此接近(不相差太遠)就行了。 從上面給出結(jié)果可以看出:提取3個主成分時候,居民消費公因子方差偏 小,這暗示提取3個主成分,居民消費方面信息可能有較多損失。至于方 差貢獻,反映對應(yīng)主成分重要程度,這一點從方差統(tǒng)計學意義可以得到理 解。在圖11中,將最后一行特征根全部乘到一起,得0.0001133,這正是 相關(guān)系數(shù)矩陣行列式數(shù)值(在excel中,求一組數(shù)據(jù)乘積之和命令是 product) o

34、最后說明component score coefficient matrix (成分得分系數(shù)矩陣) 和component score covariance matrix (成分得分協(xié)方差矩陣),前者 是主成分得分系數(shù),后者是主成分得分協(xié)方差即相關(guān)系數(shù)。從component score covariance matrix可以看出,標準化主成分得分之間協(xié)方差即相 關(guān)系數(shù)為0(jw外或1 (戶a),這意味著主成分之間彼此正交即垂直。初學者常將component score coefficient matrix表中數(shù)據(jù)當成主成 分得分或因子得分,這是誤會。成分得分系數(shù)矩陣數(shù)值是主成分載荷除以 相應(yīng)特征

35、根得到結(jié)果。在component matrix表中,將第一列數(shù)據(jù)分別除以1=3. 755,第二列數(shù)值分別除以42=2. 197,,立即得到component score coefficient;反過來,如果將component score coefficient matrix表 中各列數(shù)據(jù)分別乘以/l產(chǎn)3. 755,九二2. 197,,則可將其還原為主成分載component score coefficient matrixcomponent123國內(nèi)生產(chǎn).236.175.100居民消費.162-.272.223固定資產(chǎn).243.073.174職工工資.124-.329.303貨物周轉(zhuǎn).129

36、.336-.227消費價格-135.115.656商品零售-165.271.360工業(yè)產(chǎn)值.219.194.174extraction method: principal component analysts. component scores.component score covariance matrixcomponent12311.000.000.0002.0001.000.0003.000.0001.000extraction method: principal conponent analysis.component scores.實際上,主成分得分在原始數(shù)據(jù)所在spss當前數(shù)據(jù)欄

37、中給出,不過給 出都是標準化主成分得分(圖12a);將各個主成分乘以相應(yīng)j4即特征根 二次方根可以將其還原為未經(jīng)標準化主成分得分。得分得分1得分2得分3.42743-1.52320.49020.33935-178001-1.06264700551.58632-1.19211-.51028.26259-.61833-.83667.48824-.34594.85822.65619-.66565-.19958-.28604-1.09746.27330.22855-.642881.64990-2 211322.615631.84235.85093.34924.97196-.32761.20459.22

38、957,08007-1.68897.21602-.62016-.59561-71726.20176-.479531.548011.39467.49539.527421.44744-.86351-.14599,977271.03843-.21177.71673.231082.33062-.87418.08630-.59311.25733.33602-.29055-1.54444-2.18402,293711.33351.77269-1.44632.396411.10800-1.04217.487711.71494-1.04023-1.36153.01475-.91716.47657.41703-1.09189.11265,62990-1.21110-.72568.23914-1.11530-.67162-.44175-.88905-.02915.92508得分一 |得分二|得分三.84250-2.29500.54870.66940-2.68230-1.193101.381302.39050-1.33560-1.00600.39530-.58090-1.6495073500-.387301.69230.98940-.63430-.39310-.43140-1.23100.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論