因子分析與主成分分析.ppt_第1頁
因子分析與主成分分析.ppt_第2頁
因子分析與主成分分析.ppt_第3頁
因子分析與主成分分析.ppt_第4頁
因子分析與主成分分析.ppt_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第七章 因子分析與主成分分析,一、主成分分析概述,每個人都會遇到有很多變量的數(shù)據(jù)。 比如全國或各個地區(qū)的帶有許多經(jīng)濟(jì)和社會變量的數(shù)據(jù);各個學(xué)校的研究、教學(xué)等各種變量的數(shù)據(jù)等等。 這些數(shù)據(jù)的共同特點(diǎn)是變量很多,在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對它們進(jìn)行描述。,在多數(shù)實(shí)際問題中,不同指標(biāo)之間是有一定相關(guān)性。由于指標(biāo)較多及指標(biāo)間有一定的相關(guān)性,勢必增加分析問題的復(fù)雜性。 因子分析就是設(shè)法將原來指標(biāo)重新組合成一組新的互相無關(guān)的幾個綜合指標(biāo)來代替原來指標(biāo)。同時根據(jù)實(shí)際需要從中可取幾個較少的綜合指標(biāo)盡可能多地反映原來的指標(biāo)的信息。,因子分析是考察多個數(shù)值變量間相關(guān)性

2、的一種多元統(tǒng)計(jì)方法,它是研究如何通過少數(shù)幾個主成分來解釋多變量的方差協(xié)方差結(jié)構(gòu)。 導(dǎo)出幾個主成分,使它們盡可能多地保留原始變量的信息,且彼此間不相關(guān)。,本章就介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。實(shí)際上主成分分析可以說是因子分析的一個特例。,二、主成分分析降維原理,先假定只有二維,即只有兩個變量,它們由橫坐標(biāo)和縱坐標(biāo)所代表;因此每個觀測值都有相應(yīng)于這兩個坐標(biāo)軸的兩個坐標(biāo)值;如果這些數(shù)據(jù)形成一個橢圓形狀的點(diǎn)陣(這在變量的二維正態(tài)的假定下是可能的) 那么這個橢圓有一個長

3、軸和一個短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點(diǎn),那只有在長軸的方向才能夠解釋這些點(diǎn)的變化了;這樣,由二維到一維的降維就自然完成了。,當(dāng)坐標(biāo)軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。 但是,坐標(biāo)軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進(jìn)行變換,使得新變量和橢圓的長短軸平行。 如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。 橢圓(球)的長短軸相差得越大,降維也越有道理。,對于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看

4、見罷了。 首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。 注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principal component)。,正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。 選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻(xiàn)建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實(shí),這只是一個大體的說法;具體選幾個,要看實(shí)際情況而定。,三、主成分分析

5、的基本原理,假定有n個樣本,每個樣本共有p個變量,構(gòu)成一個np階的數(shù)據(jù)矩陣,當(dāng)p較大時,在p維空間中考察問題比較麻煩。為了克服這一困難,就需要進(jìn)行降維處理,即用較少的幾個綜合指標(biāo)代替原來較多的變量指標(biāo),而且使這些較少的綜合指標(biāo)既能盡量多地反映原來較多變量指標(biāo)所反映的信息,同時它們之間又是彼此獨(dú)立的。,定義:記x1,x2,xP為原變量指標(biāo),z1,z2,zm(mp)為新變量指標(biāo),系數(shù)lij的確定原則: zi與zj(ij;i,j=1,2,m)相互無關(guān);, z1是x1,x2,xP的一切線性組合中方差最大者,z2是與z1不相關(guān)的x1,x2,xP的所有線性組合中方差最大者; zm是與z1,z2,zm1都不

6、相關(guān)的x1,x2,xP, 的所有線性組合中方差最大者。 則新變量指標(biāo)z1,z2,zm分別稱為原變量指標(biāo)x1,x2,xP的第一,第二,第m主成分。,從以上的分析可以看出,主成分分析的實(shí)質(zhì)就是確定原來變量xj(j=1,2 , p)在諸主成分zi(i=1,2,m)上的荷載 lij( i=1,2,m; j=1,2 ,p)。 從數(shù)學(xué)上容易知道,從數(shù)學(xué)上可以證明,它們分別是的相關(guān)矩陣的m個較大的特征值所對應(yīng)的特征向量。,四、計(jì)算步驟,(一)計(jì)算相關(guān)系數(shù)矩陣 rij(i,j=1,2,p)為原變量xi與xj的相關(guān)系數(shù), rij=rji,其計(jì)算公式為:,(二)計(jì)算特征值與特征向量: 解特征方程,常用雅可比法(J

7、acobi)求出特征值,并使其按大小順序排列 ;, 分別求出對應(yīng)于特征值的特征向量 ,要求 =1,即,其中表示向量 的第j個分量。, 計(jì)算主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率 貢獻(xiàn)率:,累計(jì)貢獻(xiàn)率:,一般取累計(jì)貢獻(xiàn)率達(dá)8595%的特征值 所對應(yīng)的第一、第二、第m(mp)個主成分。, 計(jì)算主成分載荷 各主成分的得分:,五、SPSS分析過程,1、步驟 (1)數(shù)據(jù)適合性檢驗(yàn)與抽取因子數(shù)目的確定 數(shù)據(jù)適合性檢驗(yàn): KMO檢驗(yàn)和巴特立特球面檢驗(yàn) 確定抽取因子的數(shù)目:抽取方法與因子數(shù)目確定 (2)在明確因子數(shù)據(jù)的基礎(chǔ)上再做一次因子分析。這一步目的在于獲得清晰的因子結(jié)構(gòu)以及進(jìn)行項(xiàng)目刪除。 因子旋轉(zhuǎn):旋轉(zhuǎn)方法? 項(xiàng)目刪除

8、:原則? 因子命名 (3)刪除若干項(xiàng)目后,再做一次因素分析。這一步的目的在于看每個(或所有)因子解釋方差的%。,因子抽取(Extraction)的方法,主成分分析法(Principal Components):一般選這個方法就行。 普通最小二乘法, 廣義最小二乘法(generalized least squares), 最大似然法(Maximum likelihood), 主軸因子法(Principle Axis Factoring), 因子提取法(Alpha), 映像分析法(image),2、數(shù)據(jù)適合性檢驗(yàn),判斷數(shù)據(jù)是否適合作因素分析,有下列三種方法: 如果矩陣中的相關(guān)系數(shù)大部分都小于0.3

9、,則不適合作因素分析。 還可采用KMO檢驗(yàn)和巴特立特球面檢驗(yàn)。KMO值一般接近1,若比較小則表示不適合作因素分析。標(biāo)準(zhǔn):0.9以上,非常好;0.8以上,好;0.7,一般,0.6差;0.5,很差;0.5以下,不能接受。 巴特立特球面檢(Bartletts test of Sphericity)是一種顯著性檢驗(yàn),達(dá)到顯著性水平就比較好。,3、確定抽取因子的數(shù)目,兩個標(biāo)準(zhǔn): 特征值(Eigenvalalue)準(zhǔn)則,特征值大于1有多少個因子。 碎石圖(Scree test)準(zhǔn)則,取曲線開始轉(zhuǎn)折前的因子個數(shù)。 補(bǔ)充原則: 有些情況下,分析人員事先確定因子的個數(shù)(number of factors)。這種

10、做法適合檢驗(yàn)因子的理論或重復(fù)某些工作??傊?,采取最容易解釋且最簡單的因子結(jié)構(gòu)為好。,4、因子旋轉(zhuǎn)(Rotation)方法 與選擇,因子旋轉(zhuǎn)一般在因子分析的第二步進(jìn)行 旋轉(zhuǎn)方法: 不旋轉(zhuǎn)(None) 方差最大法(Varimax) 等量最大法(Equamax) 四次方最大法(Quartimax) 斜交旋轉(zhuǎn)法(Direct Oblimin) 選擇標(biāo)準(zhǔn): 一般選Varimax(正交旋轉(zhuǎn)法),為更容易解釋,選斜交旋轉(zhuǎn)法,5、因子命名,因子命名主要借助于因子負(fù)載矩陣(factor solution)。 因子命名原則: 具有高荷重的變量,對因子名稱影響最大(可考慮按大小排序)。 絕對值大于0.3的荷重是顯著

11、的(解釋大于10方差)。,6、可刪除的變量,在所有因子因子荷重(lodging)均小于0.3的項(xiàng)目; 兩個因子上因子荷重(lodging) 差不多大小 根據(jù)實(shí)際需要,從大到小排列,刪除后面不需要的,7、計(jì)算維度分或因子值(Factor scores),用計(jì)算(Compute)命令簡單相加即可,六、案例分析,案例見農(nóng)業(yè)生態(tài)系統(tǒng).sav 要求: 1.計(jì)算樣本相關(guān)矩陣R 2.求相關(guān)矩陣R的特征值與特征向量,并計(jì)算貢獻(xiàn)率 3.選擇主成分 4.對所選主成分做經(jīng)濟(jì)解釋,第一主成分與x1,x5,x6,x7,x9呈顯出較強(qiáng)的正相關(guān),與x3呈顯出較強(qiáng)的負(fù)相關(guān),而這幾個變量則綜合反映了生態(tài)經(jīng)濟(jì)結(jié)構(gòu)狀況,因此可以認(rèn)為第一主成分z1是生態(tài)經(jīng)濟(jì)結(jié)構(gòu)的代表。 第二主成分與x2,x4,x5呈顯出較強(qiáng)的正相關(guān),與x1呈顯出較強(qiáng)的負(fù)相關(guān),其中,除了x1為人口總數(shù)外,x2,x4,x5都反映了人均占有資源量的情況,因此可以認(rèn)為第二主成分代表了人均資源量。,分析:,顯然,用三個主成分代替原來9個變量(x1,x2,x9),描述農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng),可以使問題更進(jìn)一步簡化、明了。,第三主成分,與x8呈顯出的正相關(guān)程度最高,其次是x6,而與x7呈負(fù)相關(guān),因此可以認(rèn)為第三主成分在一定程度上代表了農(nóng)業(yè)經(jīng)濟(jì)結(jié)構(gòu)。,因子分析和主成分分析的一些注意事項(xiàng),可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論