第10章SPSS20.0主成分與因子_第1頁
第10章SPSS20.0主成分與因子_第2頁
第10章SPSS20.0主成分與因子_第3頁
第10章SPSS20.0主成分與因子_第4頁
第10章SPSS20.0主成分與因子_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第10章主成分分析與因子分析主成分分析的概念主成分分析的概念主成分分析的數(shù)學模型主成分分析的數(shù)學模型因子分析因子分析的概念的概念因子分析數(shù)學模型因子分析數(shù)學模型第10章主成分分析與因子分析 實際工作中,為了全面系統(tǒng)地反映問題,往往收集的變量實際工作中,為了全面系統(tǒng)地反映問題,往往收集的變量較多,但這樣就會經(jīng)常出現(xiàn)所收集的變量間存在較強相關較多,但這樣就會經(jīng)常出現(xiàn)所收集的變量間存在較強相關關系的情況。這些變量間存在著較多的信息重復,直接用關系的情況。這些變量間存在著較多的信息重復,直接用它們分析現(xiàn)實問題,不但模型復雜,還會因為變量間存在它們分析現(xiàn)實問題,不但模型復雜,還會因為變量間存在的多重共線

2、性而引起極大的誤差。的多重共線性而引起極大的誤差。 為了能夠充分而有效的利用數(shù)據(jù),通常希望用較少的新指為了能夠充分而有效的利用數(shù)據(jù),通常希望用較少的新指標代替原來較多的舊變量,同時要求這些新指標盡可能地標代替原來較多的舊變量,同時要求這些新指標盡可能地反映原變量的信息。主成分分析和因子分析正是解決此問反映原變量的信息。主成分分析和因子分析正是解決此問題最有效的多元統(tǒng)計方法,它們能夠提取信息,使變量簡題最有效的多元統(tǒng)計方法,它們能夠提取信息,使變量簡化降維,從而使問題更加簡單直觀,在經(jīng)濟、社會等領域化降維,從而使問題更加簡單直觀,在經(jīng)濟、社會等領域得到廣泛應用。得到廣泛應用。10.1 主成分分析

3、的概念 主成分分析是考察多個變量間相關性的一種多元統(tǒng)計方法主成分分析是考察多個變量間相關性的一種多元統(tǒng)計方法。它是研究如何通過少數(shù)幾個主分量來解釋多個變量間的。它是研究如何通過少數(shù)幾個主分量來解釋多個變量間的內(nèi)部結(jié)構(gòu)。內(nèi)部結(jié)構(gòu)。 也就是說,從原始變量中導出少數(shù)幾個主分量,使它們盡也就是說,從原始變量中導出少數(shù)幾個主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關。可能多地保留原始變量的信息,且彼此間互不相關。 主成分分析的應用目的可以被簡單歸結(jié)為兩句話:數(shù)據(jù)的主成分分析的應用目的可以被簡單歸結(jié)為兩句話:數(shù)據(jù)的壓縮、數(shù)據(jù)的解釋。它常被用來尋找判斷某種事物或現(xiàn)象壓縮、數(shù)據(jù)的解釋。它常被用

4、來尋找判斷某種事物或現(xiàn)象的綜合指標,并且給綜合指標所包含的信息以適當?shù)慕忉尩木C合指標,并且給綜合指標所包含的信息以適當?shù)慕忉?,從而更加深刻的揭示事物的?nèi)在規(guī)律。,從而更加深刻的揭示事物的內(nèi)在規(guī)律。10.2 主成分分析的數(shù)學模型通常數(shù)學上的處理是將原來的個指標作線性組合,作為通常數(shù)學上的處理是將原來的個指標作線性組合,作為新的綜合指標。新的綜合指標。如果將選取的第一個線性組合即第一個綜合指標記為,如果將選取的第一個線性組合即第一個綜合指標記為,一般自然希望中盡可能多地反映原來指標的信息,這里一般自然希望中盡可能多地反映原來指標的信息,這里的的“信息信息”用什么表示呢?用什么表示呢?最經(jīng)典的方法就

5、是用的方差來表達,即越大,則表示包最經(jīng)典的方法就是用的方差來表達,即越大,則表示包含的信息越多。含的信息越多。因此在所有的線性組合中所選取的第因此在所有的線性組合中所選取的第1 1主成分應該是方差主成分應該是方差最大的。最大的。如果第如果第1 1主成分不足以完全代表原來個指標的信息,再考主成分不足以完全代表原來個指標的信息,再考慮選第慮選第2 2個線性組合,即第個線性組合,即第2 2主成分,主成分, 依次類推可以造出第依次類推可以造出第3 3,第,第4 4, ,第個主成分。,第個主成分。這些主成分間互不相關,且方差遞減。這些主成分間互不相關,且方差遞減。 在實際應用中,通常只選前面幾個最大的主

6、成分,在實際應用中,通常只選前面幾個最大的主成分,雖然這樣損失了部分信息,但抓住了主要矛盾,雖然這樣損失了部分信息,但抓住了主要矛盾,并從原始變量中進一步提取了某些信息,從而既并從原始變量中進一步提取了某些信息,從而既減少了變量的數(shù)目又抓住了主要矛盾,有利于問減少了變量的數(shù)目又抓住了主要矛盾,有利于問題的分析和處理。題的分析和處理。10.2.1 主成分模型中各統(tǒng)計量的意義()特征根:它可以被看成是主成分影響力度的指標,代表引入該主成分后可以解釋平均多少原始變量的信息。如果特征根小于,說明該主成分的解釋力度還不如直接引入一個原變量的平均解釋力度大。因此一般可以用特征根大于作為納入標準。()主成分

7、的方差貢獻率:其計算公式為表明主成分的方差在全部方差中的比重。這個值越大,表明主成分綜合信息的能力越強。()累計貢獻率()累計貢獻率:前個主成分的累計貢獻率定義:前個主成分的累計貢獻率定義為,表示前面?zhèn)€主成分累計提取了多少的信息。為,表示前面?zhèn)€主成分累計提取了多少的信息。一般來說,如果前個主成分的貢獻率達到一般來說,如果前個主成分的貢獻率達到85,表明前個主成分基本包含了全部測量指標所具有表明前個主成分基本包含了全部測量指標所具有的信息,這樣既減少了變量的個數(shù)又便于對實際的信息,這樣既減少了變量的個數(shù)又便于對實際問題的分析和研究。問題的分析和研究。10.2.2 主成分分析的步驟主成分分析的步驟

8、 主成分分析常常通過以下步解決:主成分分析常常通過以下步解決:()對原來的個指標進行標準化,以消除變量在()對原來的個指標進行標準化,以消除變量在數(shù)量極或量綱上的影響。數(shù)量極或量綱上的影響。()根據(jù)標準化后的數(shù)據(jù)矩陣求出協(xié)方差或相關()根據(jù)標準化后的數(shù)據(jù)矩陣求出協(xié)方差或相關陣。陣。()求出協(xié)方差矩陣的特征根和特征向量。()求出協(xié)方差矩陣的特征根和特征向量。()確定主成分,結(jié)合專業(yè)知識給各主成分所蘊()確定主成分,結(jié)合專業(yè)知識給各主成分所蘊含的信息給予適當?shù)慕忉?。含的信息給予適當?shù)慕忉尅?SPSS中沒有把主成分分析作為一種獨立的分析方中沒有把主成分分析作為一種獨立的分析方法,而是和因子分析共用一

9、個過程,因此在法,而是和因子分析共用一個過程,因此在SPSS中進行主成分分析時會輸出許多因子分析中的結(jié)中進行主成分分析時會輸出許多因子分析中的結(jié)果,但是這并不影響分析結(jié)果的準確性,而且相果,但是這并不影響分析結(jié)果的準確性,而且相應的輸出都可以根據(jù)因子分析模型和主成分分析應的輸出都可以根據(jù)因子分析模型和主成分分析模型之間的關系進行轉(zhuǎn)換。模型之間的關系進行轉(zhuǎn)換。10.2.3 主成分分析的用途主成分分析的用途如前所述,主成分分析往往會在大型研究中成為一個中間如前所述,主成分分析往往會在大型研究中成為一個中間環(huán)節(jié),用于解決數(shù)據(jù)信息濃縮等問題,這就可能產(chǎn)生各種環(huán)節(jié),用于解決數(shù)據(jù)信息濃縮等問題,這就可能產(chǎn)

10、生各種各樣的組合方法。這里僅舉最為典型的兩種應用情況。各樣的組合方法。這里僅舉最為典型的兩種應用情況。()主成分評價()主成分評價 在進行多指標綜合評價時,由于要求評價結(jié)果客觀、全面在進行多指標綜合評價時,由于要求評價結(jié)果客觀、全面,就需要從各個方面用多個指標進行測量,但這樣就使得,就需要從各個方面用多個指標進行測量,但這樣就使得觀測指標間存在信息重疊,同時還會存在量綱、累加時如觀測指標間存在信息重疊,同時還會存在量綱、累加時如何確定權重系數(shù)等問題。為此就可以使用主成分分析方法何確定權重系數(shù)等問題。為此就可以使用主成分分析方法進行信息的濃縮,并解決權重的確定等問題。本章最后的進行信息的濃縮,并

11、解決權重的確定等問題。本章最后的綜合分析實例即為此類問題。綜合分析實例即為此類問題。()主成分回歸()主成分回歸 在線性回歸模型中,常用最小二乘法求回歸系數(shù)的估計。在線性回歸模型中,常用最小二乘法求回歸系數(shù)的估計。 但是當存在多重共線性時,最小二乘法的估計結(jié)果并不很但是當存在多重共線性時,最小二乘法的估計結(jié)果并不很理想,因為此時它的均方誤差大,使估計不穩(wěn)定。理想,因為此時它的均方誤差大,使估計不穩(wěn)定。 這時可考慮用主成分回歸求回歸系數(shù)的估計,所謂主成分這時可考慮用主成分回歸求回歸系數(shù)的估計,所謂主成分回歸是用原自變量的主成分代替原自變量作回歸分析。回歸是用原自變量的主成分代替原自變量作回歸分析

12、。 多重共線是由自變量之間關系復雜、相關性大引起的,而多重共線是由自變量之間關系復雜、相關性大引起的,而主成分既保留了原指標的絕大部分信息,又有主成分間互主成分既保留了原指標的絕大部分信息,又有主成分間互不相關的優(yōu)點,故用主成分替代原指標后,再用最小二乘不相關的優(yōu)點,故用主成分替代原指標后,再用最小二乘法建立主成分與目標變量間回歸方程所得的回歸系數(shù)估計法建立主成分與目標變量間回歸方程所得的回歸系數(shù)估計能克服能克服“估計不穩(wěn)定估計不穩(wěn)定”的缺點。但主成分估計不是無偏估的缺點。但主成分估計不是無偏估計。計。 10.2.4分析實例例10.1我們對100個學生的成績進行分析,具體的6項成績指標是數(shù)學、

13、物理、化學、語文、歷史、英語。的成績的數(shù)據(jù),數(shù)據(jù)文件student.sav。 這是一個綜合分析問題,八項指標較多,可以用主成分分析法進行綜合。打開文件后在SPSS中的操作如下:選擇菜單:【分析】【降維】【因子分析】于是出現(xiàn)如圖10.3所示的窗口。 選擇參與主成分分析的變量到【變量】框中,點擊【描述】于是出現(xiàn)如圖10.4所示的窗口 SPSS在調(diào)用因子分析過程進行分析時,首先會自動對原始變量進行標準化,因此以后的輸出結(jié)果中在通常情況下都是指標準化后的變量。在結(jié)果輸出中會涉及一些因子分析中的內(nèi)容,因此這里僅給出與主成分分析有關的部分如下:表表10.1 10.1 相關矩陣相關矩陣 表10.2給出的是各

14、成分的方差貢獻率和累計貢獻率,由表10.2可知,只有前2個特征根大于,因此SPSS只提取了前二個主成分。第一主成分的方差所占所有主成分方差的62.254%,前二個主成分的方差貢獻率達到81.142%,因此選前二個主成分已足夠描述學生成績的水平。 在表10.3中的輸出為主成分系數(shù)矩陣,可以說明各主成分在各變量上的載荷,從而得出各主成分的表達式,這里每一列代表一個主成分作為原來變量線性組合的系數(shù)(比例)。比如第一主成分為數(shù)學、物理、化學、語文、歷史、英語這六個變量的線性組合,系數(shù)(比例)為-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 10.3 因子分析

15、因子分析是由因子分析是由Charles Spearman在在1904年首次提出,并在年首次提出,并在其后半生一直致力于發(fā)展此理論,使之最終成為了現(xiàn)代統(tǒng)其后半生一直致力于發(fā)展此理論,使之最終成為了現(xiàn)代統(tǒng)計學的重要分支,因此它被公認為因子分析之父。計學的重要分支,因此它被公認為因子分析之父。 因子分析在某種程度上可以被看成是主成分分析的推廣和因子分析在某種程度上可以被看成是主成分分析的推廣和擴展,它對問題的研究更為深入,是將具有錯綜復雜關系擴展,它對問題的研究更為深入,是將具有錯綜復雜關系的變量(或樣品)綜合為數(shù)量較少的幾個因子,以再現(xiàn)原的變量(或樣品)綜合為數(shù)量較少的幾個因子,以再現(xiàn)原始變量與因

16、子之間的相互關系,探討多個能夠直接測量,始變量與因子之間的相互關系,探討多個能夠直接測量,并且具有一定相關性的實測指標是如何受少數(shù)幾個內(nèi)在的并且具有一定相關性的實測指標是如何受少數(shù)幾個內(nèi)在的獨立因子所支配的,同時根據(jù)不同因子還可以對變量進行獨立因子所支配的,同時根據(jù)不同因子還可以對變量進行分類,屬于多元分析中處理降維的一種統(tǒng)計方法。分類,屬于多元分析中處理降維的一種統(tǒng)計方法。10.4 因子分析數(shù)學模型 因子分析是通過研究多個變量間相關系數(shù)矩陣(因子分析是通過研究多個變量間相關系數(shù)矩陣(或協(xié)方差矩陣)的內(nèi)部依賴關系,找出能綜合所或協(xié)方差矩陣)的內(nèi)部依賴關系,找出能綜合所有變量的少數(shù)幾個隨機變量,

17、這幾個隨機變量是有變量的少數(shù)幾個隨機變量,這幾個隨機變量是不可測量的,通常稱為因子。然后根據(jù)相關性的不可測量的,通常稱為因子。然后根據(jù)相關性的大小把變量分組,使得同組內(nèi)的變量之間相關性大小把變量分組,使得同組內(nèi)的變量之間相關性較高,但不同組的變量相關性較低。較高,但不同組的變量相關性較低。 各個因子間互不相關,所有變量都可以表示成公各個因子間互不相關,所有變量都可以表示成公因子的線性組合。因子分析的目的就是減少變量因子的線性組合。因子分析的目的就是減少變量的數(shù)目,用少數(shù)因子代替所有變量去分析整個經(jīng)的數(shù)目,用少數(shù)因子代替所有變量去分析整個經(jīng)濟問題。濟問題。()樣本量不能太?。ǎ颖玖坎荒芴?。對

18、于因子分析而言,要求。對于因子分析而言,要求樣本量比較充足,否則結(jié)果可能不太可靠。一般樣本量比較充足,否則結(jié)果可能不太可靠。一般而言,要求樣本量至少是變量數(shù)的倍以上,如而言,要求樣本量至少是變量數(shù)的倍以上,如果要想得到比較理想的結(jié)果,則應該在倍以果要想得到比較理想的結(jié)果,則應該在倍以上。其次,除了比例關系外,樣本總量也不能太上。其次,除了比例關系外,樣本總量也不能太少,按理論要求應該在以上。不過在實際少,按理論要求應該在以上。不過在實際的經(jīng)濟和社會問題中,很多時候樣本量都達不到的經(jīng)濟和社會問題中,很多時候樣本量都達不到這個要求,這時也可以適當放寬要求,通過檢驗這個要求,這時也可以適當放寬要求,

19、通過檢驗來判斷結(jié)果的可靠性。來判斷結(jié)果的可靠性。()各變量間應該具有相關性()各變量間應該具有相關性。如果變量間彼此獨立,。如果變量間彼此獨立,則無法從中提取公因子,也就談不上因子分析法的應用則無法從中提取公因子,也就談不上因子分析法的應用。在。在SPSS中,可以通過中,可以通過Bartlett球形檢驗來判斷,如果相球形檢驗來判斷,如果相關陣是單位陣,則各變量獨立,因子分析法無效。關陣是單位陣,則各變量獨立,因子分析法無效。()()KMO檢驗檢驗。KMO檢驗用于檢查變量間的偏相關性,檢驗用于檢查變量間的偏相關性,取值在取值在01之間。之間。KMO統(tǒng)計量越接近于統(tǒng)計量越接近于1,變量間的偏,變量間的偏相關性越強,因子分析的效果越好。實際分析中,相關性越強,因子分析的效果越好。實際分析中,KMO統(tǒng)計量在統(tǒng)計量在0.7以上時,效果比較好;而當以上時,效

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論