版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第第5 5節(jié)節(jié) 主成分分析主成分分析 (Principal Components Analysis,PCA) 第三章第三章 地理學(xué)中的經(jīng)典統(tǒng)地理學(xué)中的經(jīng)典統(tǒng) 計分析方法計分析方法 1高級教育 主要內(nèi)容主要內(nèi)容 主成分分析概述主成分分析概述 主成分分析的基本原理主成分分析的基本原理 主成分分析的計算步驟主成分分析的計算步驟 主成分分析方法應(yīng)用實例主成分分析方法應(yīng)用實例 主成分分析的主成分分析的SPSSSPSS實現(xiàn)過程實現(xiàn)過程 主成分分析的應(yīng)用及需要注意的問題主成分分析的應(yīng)用及需要注意的問題 附:主成分分析與因子分析的區(qū)別附:主成分分析與因子分析的區(qū)別 2高級教育 一、主成分分析概述一、主成分分析
2、概述 3高級教育 v假定你是一個公司的財務(wù)經(jīng)理,掌握了公假定你是一個公司的財務(wù)經(jīng)理,掌握了公 司的所有數(shù)據(jù),這包括司的所有數(shù)據(jù),這包括眾多的變量眾多的變量,比如,比如 固定資產(chǎn)、流動資金、每一筆借貸的數(shù)額固定資產(chǎn)、流動資金、每一筆借貸的數(shù)額 和期限、各種稅費、工資支出、原料消耗、和期限、各種稅費、工資支出、原料消耗、 產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分 工和教育程度等等工和教育程度等等。 v如果讓你向上級或有關(guān)方面介紹公司狀況,如果讓你向上級或有關(guān)方面介紹公司狀況, 你能夠把這些指標和數(shù)字都你能夠把這些指標和數(shù)字都原封不動地擺原封不動地擺 出去嗎出去嗎?
3、引子引子 4高級教育 v當然不能。當然不能。匯報什么?匯報什么? v發(fā)現(xiàn)在如此多的變量之中,有很多是發(fā)現(xiàn)在如此多的變量之中,有很多是 相關(guān)的。人們希望能夠找出它們的相關(guān)的。人們希望能夠找出它們的少少 數(shù)數(shù)“代表代表”來對它們進行描述。來對它們進行描述。 v需要把這種有需要把這種有很多變量很多變量的數(shù)據(jù)進行高的數(shù)據(jù)進行高 度概括,度概括,用少數(shù)幾個指標簡單明了地用少數(shù)幾個指標簡單明了地 把情況說清楚。把情況說清楚。 5高級教育 v主成分分析(主成分分析( Principal Components Analysis )和)和 因子分析(因子分析(Factor Analysis)就是把變量維數(shù)降低就
4、是把變量維數(shù)降低 以便于描述、理解和分析的方法。以便于描述、理解和分析的方法。 v主成分分析也稱為主分量分析,是一種通過降維來主成分分析也稱為主分量分析,是一種通過降維來 簡化數(shù)據(jù)結(jié)構(gòu)的方法:如何把多個變量化為少數(shù)幾簡化數(shù)據(jù)結(jié)構(gòu)的方法:如何把多個變量化為少數(shù)幾 個綜合變量(綜合指標)個綜合變量(綜合指標) ,而這幾個綜合變量可以,而這幾個綜合變量可以 反映原來多個變量的大部分信息,所含的信息又互反映原來多個變量的大部分信息,所含的信息又互 不重疊,即它們之間要相互獨立,互不相關(guān)。不重疊,即它們之間要相互獨立,互不相關(guān)。 v這些綜合變量就叫因子或主成分,它是不可觀測的這些綜合變量就叫因子或主成分
5、,它是不可觀測的 ,即,即它不是具體的變量它不是具體的變量(這與聚類分析不同),(這與聚類分析不同),只只 是幾個指標的綜合是幾個指標的綜合。 v在引入主成分分析之前,先看下面的例子。在引入主成分分析之前,先看下面的例子。 什么是主成分分析法?什么是主成分分析法? 6高級教育 成績數(shù)據(jù)成績數(shù)據(jù) v53個學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷個學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷 史、英語的成績?nèi)缦卤恚ú糠郑J贰⒂⒄Z的成績?nèi)缦卤恚ú糠郑?7高級教育 從本例可能提出的問題從本例可能提出的問題 v能不能把這個數(shù)據(jù)表中的能不能把這個數(shù)據(jù)表中的6 6個變量用一個變量用一 兩個綜合變量來表示呢?兩個綜合變量來表
6、示呢? v這一兩個綜合變量包含有多少原來的信這一兩個綜合變量包含有多少原來的信 息呢?息呢? v能不能利用找到的綜合變量來對學(xué)生排能不能利用找到的綜合變量來對學(xué)生排 序呢?序呢? 8高級教育 v事實上,以上的三個問題在地理學(xué)研究中,事實上,以上的三個問題在地理學(xué)研究中, 也會經(jīng)常遇到。它也會經(jīng)常遇到。它所涉及的問題可以推廣到所涉及的問題可以推廣到 對企業(yè)、對學(xué)校、對區(qū)域進行對企業(yè)、對學(xué)校、對區(qū)域進行分析、評價、分析、評價、 排序和分類排序和分類等。等。 v比如對比如對n個區(qū)域進行綜合評價,可選的描述區(qū)個區(qū)域進行綜合評價,可選的描述區(qū) 域特征的指標很多,而這些指標往往存在域特征的指標很多,而這些
7、指標往往存在一一 定的相關(guān)性定的相關(guān)性(既不完全獨立,又不完全相關(guān)(既不完全獨立,又不完全相關(guān) ),這就給研究帶來很大不便。),這就給研究帶來很大不便。若選指標太若選指標太 多,會增加分析問題的難度與復(fù)雜性,選指多,會增加分析問題的難度與復(fù)雜性,選指 標太少,有可能會漏掉對區(qū)域影響較大的指標太少,有可能會漏掉對區(qū)域影響較大的指 標,影響結(jié)果的可靠性。標,影響結(jié)果的可靠性。 9高級教育 這就需要我們在相關(guān)分析的基礎(chǔ)上,采這就需要我們在相關(guān)分析的基礎(chǔ)上,采 用主成分分析法找到幾個用主成分分析法找到幾個新的相互獨立新的相互獨立 的綜合指標的綜合指標,達到既減少指標數(shù)量、又,達到既減少指標數(shù)量、又 能
8、區(qū)分區(qū)域間差異的目的。能區(qū)分區(qū)域間差異的目的。 10高級教育 二、主成分分析的基本原理二、主成分分析的基本原理 11高級教育 (一)主成分分析的幾何解釋(一)主成分分析的幾何解釋 v例中數(shù)據(jù)點是六維的;即每個觀測值是例中數(shù)據(jù)點是六維的;即每個觀測值是6維空維空 間中的一個點。希望把間中的一個點。希望把6維空間用低維空間表維空間用低維空間表 示。示。 v先假定只有二維,即只有兩個變量,語文成先假定只有二維,即只有兩個變量,語文成 績(績(x1)和數(shù)學(xué)成績()和數(shù)學(xué)成績(x2),分別由橫坐標),分別由橫坐標 和縱坐標所代表;和縱坐標所代表; v每個學(xué)生都是二維坐標系中的一個點。每個學(xué)生都是二維坐標
9、系中的一個點。 12高級教育 空間的點空間的點 v如果這些數(shù)據(jù)形成一個橢圓形狀的點陣如果這些數(shù)據(jù)形成一個橢圓形狀的點陣 (這在二維正態(tài)的假定下是可能的)該(這在二維正態(tài)的假定下是可能的)該 橢圓有一個長軸和一個短軸。在短軸方橢圓有一個長軸和一個短軸。在短軸方 向上數(shù)據(jù)變化很少;向上數(shù)據(jù)變化很少; v在極端的情況,短軸如退化成一點,長在極端的情況,短軸如退化成一點,長 軸的方向可以完全解釋這些點的變化,軸的方向可以完全解釋這些點的變化, 由二維到一維的降維就自然完成了。由二維到一維的降維就自然完成了。 13高級教育 2 x 1 x 假定語文成績假定語文成績 (X1) 和數(shù)學(xué)成和數(shù)學(xué)成 績績 (X
10、2) 的相的相 關(guān)系數(shù)關(guān)系數(shù)= 0.6 。 設(shè)設(shè) X1 和和 X2 分別分別 為標準化后的分為標準化后的分 數(shù),右圖為其散數(shù),右圖為其散 點圖。點圖。 14高級教育 那么隨機向量那么隨機向量 的方差的方差協(xié)方差矩陣為協(xié)方差矩陣為 可以看出,在變量標準化的情況下的方差可以看出,在變量標準化的情況下的方差協(xié)方差協(xié)方差 矩陣與其相關(guān)矩陣相等。矩陣與其相關(guān)矩陣相等。 由求矩陣特征值和特征向量的方法:令由求矩陣特征值和特征向量的方法:令 可以求出:可以求出: 15高級教育 對應(yīng)的特征向量分別為:對應(yīng)的特征向量分別為: 顯然,這兩個特征向量是顯然,這兩個特征向量是相互正交的相互正交的單位向量。而且它們單位
11、向量。而且它們 與原來的坐標軸與原來的坐標軸 X1 和和 X2 的夾角都分別等于的夾角都分別等于45 。如果將。如果將 坐標軸坐標軸 X1 和和 X2 旋轉(zhuǎn)旋轉(zhuǎn)45 ,那么點在新坐標系中的坐標,那么點在新坐標系中的坐標 (Y1,Y2)與原坐標()與原坐標(X1,X2)有如下的關(guān)系:)有如下的關(guān)系: Y1和和Y2均是均是X1 和和 X2 的線性組合的線性組合 系數(shù)代表什么?系數(shù)代表什么? 16高級教育 2 x 1 x 在新坐標系中,在新坐標系中, 可以發(fā)現(xiàn):雖然可以發(fā)現(xiàn):雖然 散點圖的形狀沒散點圖的形狀沒 有改變,但新的有改變,但新的 隨機變量隨機變量 Y1 和和 Y2 已經(jīng)不再相已經(jīng)不再相 關(guān)
12、。而且大部分關(guān)。而且大部分 點沿點沿 Y1 軸散開,軸散開, 在在 Y1 軸方向的軸方向的 變異較大(即變異較大(即 Y1的方差較的方差較 大)大) ,相對來說,相對來說, 在在 Y2軸方向的軸方向的 變異較?。醋儺愝^小(即 Y2 的方差較的方差較 ?。┬。?。 17高級教育 事實上,隨機變量事實上,隨機變量 Y1和和 Y2的方差分別為:的方差分別為: 可以看出,可以看出,最大變動最大變動方向方向是由特征向量所決定的,是由特征向量所決定的, 而特征值則刻畫了對應(yīng)的方差。而特征值則刻畫了對應(yīng)的方差。這只是我們舉的這只是我們舉的 一個例子,對于一般情況,數(shù)學(xué)上也能證明。一個例子,對于一般情況,數(shù)
13、學(xué)上也能證明。 18高級教育 在上面的例子中在上面的例子中 Y1 和和 Y2 就是原變量就是原變量 X1和和 X2 的第一主成分和第二主成分。實際上第一主成的第一主成分和第二主成分。實際上第一主成 分分 Y1 就基本上反映了就基本上反映了 X1 和和X2 的主要信息,因的主要信息,因 為圖中的各點在新坐標系中的為圖中的各點在新坐標系中的 Y1 坐標基本上就坐標基本上就 代表了這些點的分布情況,因此可以選代表了這些點的分布情況,因此可以選 Y1 為一為一 個新的綜合變量。當然如果再選個新的綜合變量。當然如果再選 Y2也作為綜合也作為綜合 變量,那么變量,那么 Y1 和和 Y2 則反映了則反映了
14、X1 和和 X2的全部的全部 信息。信息。 19高級教育 從幾何上看,找主成分的問題就是找出從幾何上看,找主成分的問題就是找出 p維空間中橢球體的主軸問題,就是要在維空間中橢球體的主軸問題,就是要在 x1xp的相關(guān)矩陣中的相關(guān)矩陣中m個較大特征值所對應(yīng)的個較大特征值所對應(yīng)的 特征向量。特征向量。 究竟提取幾個主成分或因子,一般有兩究竟提取幾個主成分或因子,一般有兩 種方法:種方法: v特征值特征值11 v累計貢獻率累計貢獻率0.80.8 那么如何提取主成分呢?那么如何提取主成分呢? (二)主成分分析的基本思想(二)主成分分析的基本思想 20高級教育 假定有假定有n個地理樣本,每個樣本共有個地理
15、樣本,每個樣本共有p p個變量,個變量, 構(gòu)成一個構(gòu)成一個np階的地理數(shù)據(jù)矩陣階的地理數(shù)據(jù)矩陣 npnn p p xxx xxx xxx X 21 22221 11211 (3.5.1) 綜合指標如何選取呢?這些綜合指標要想盡可能多地綜合指標如何選取呢?這些綜合指標要想盡可能多地 反映原指標的信息,綜合指標的表達式中要含有原指反映原指標的信息,綜合指標的表達式中要含有原指 標,那么我們通常是取原指標的線性組合,適當調(diào)整標,那么我們通常是取原指標的線性組合,適當調(diào)整 它們的系數(shù),使綜合指標間相互獨立且代表性好。它們的系數(shù),使綜合指標間相互獨立且代表性好。 21高級教育 定義:記定義:記x1,x2
16、,xP為原變量指標,為原變量指標, z1,z2,zm(mp)為新變量指標)為新變量指標 pmpmmm pp pp xlxlxlz xlxlxlz xlxlxlz 2211 22221212 12121111 . (3.5.2) 可以看出,新指標對原指標有多個線性組合,可以看出,新指標對原指標有多個線性組合, 新指標對哪個原指標反映的多,哪個少,取決于它的新指標對哪個原指標反映的多,哪個少,取決于它的 系數(shù)。系數(shù)系數(shù)。系數(shù)lij的確定原則:的確定原則: zi與與zk(ik;i,k=1,2,m; j= 1,2,p )相互無關(guān);)相互無關(guān);22高級教育 z1是是x1,x2,xP的一切線性組合的一切線
17、性組合 中方差最大者中方差最大者(最能解釋它們之間的變化),最能解釋它們之間的變化), z2是與是與z1不相關(guān)的不相關(guān)的x1,x2,xP的所有線性的所有線性 組合中方差最大者組合中方差最大者; zm是與是與z1,z2, zm 1都不相關(guān)的 都不相關(guān)的x1,x2,xP, , 的所有線性組 的所有線性組 合中方差最大者。合中方差最大者。 則新變量指標則新變量指標z1,z2,zm分別稱為原分別稱為原 變量指標變量指標x1,x2,xP的第的第1,第,第2,第,第 m主成分。主成分。 23高級教育 從以上的分析可以看出,主成分分析的從以上的分析可以看出,主成分分析的 實質(zhì)就是確定原來變量實質(zhì)就是確定原來
18、變量xj(j=1,2 , p) 在諸主成分在諸主成分zi(i=1,2,m)上的荷載)上的荷載 lij ( i=1,2,m; j=1,2 ,p)。)。 從數(shù)學(xué)上可以證明,它們分別是相關(guān)矩從數(shù)學(xué)上可以證明,它們分別是相關(guān)矩 陣(也就是陣(也就是x1,x2,xP 的相關(guān)系數(shù)矩陣)的相關(guān)系數(shù)矩陣) m個較大的特征值所對應(yīng)的特征向量。個較大的特征值所對應(yīng)的特征向量。 24高級教育 三、主成分分析的計算步驟三、主成分分析的計算步驟 25高級教育 (一)計算相關(guān)系數(shù)矩陣一)計算相關(guān)系數(shù)矩陣 rij(i,j=1,2,p)為原變量)為原變量xi與與xj標準化后的標準化后的 相關(guān)系數(shù),相關(guān)系數(shù), rij=rji,
19、 ,其計算公式為 其計算公式為 pppp p p rrr rrr rrr R 21 22221 11211 (3.5.3) n k n k jkjiki n k jkjiki ij xxxx xxxx r 11 22 1 )()( )( (3.5.4) 26高級教育 (二)計算特征值與特征向量(二)計算特征值與特征向量 1、解特征方程,求出特征值,、解特征方程,求出特征值, 并使其按大小順序排列并使其按大小順序排列 ; 0RI 0 21 p 2、分別求出對應(yīng)于特征值、分別求出對應(yīng)于特征值 的特征向量的特征向量 ,要求,要求 =1,即,即, 其中表示向量其中表示向量 的第的第j個分量個分量,也就
20、是說也就是說 為單位向量。為單位向量。 i ), 2 , 1(piei i e 1 1 2 p j ij e ij e i e i e 27高級教育 3 3、計算主成分貢獻率及累計貢獻率、計算主成分貢獻率及累計貢獻率 貢獻率貢獻率 ),2, 1( 1 pi p k k i 累計貢獻率累計貢獻率 ),2, 1( 1 1 pi p k k i k k 一般取累計貢獻率達一般取累計貢獻率達85%95%的特征值的特征值 所對應(yīng)的第所對應(yīng)的第1 1、第、第2 2、第、第m(mp)個主成分。)個主成分。 m , 21 28高級教育 4、計算主成分載荷計算主成分載荷 在主成分之間不相關(guān)時,在主成分之間不相關(guān)
21、時,主成分載荷就是主成分主成分載荷就是主成分z zi i與變量與變量x xj j之之 間的相關(guān)系數(shù)間的相關(guān)系數(shù)(在數(shù)學(xué)上可以證明)(在數(shù)學(xué)上可以證明) 5 5、各主成分的得分、各主成分的得分 得到各主成分的載荷以后,可以按照(得到各主成分的載荷以后,可以按照(3.5.23.5.2)計算各主成)計算各主成 分的得分分的得分 ), 2 , 1,(),(pjiexzpl ijijiij (3.5.5) pmpmmm pp pp xlxlxlz xlxlxlz xlxlxlz 2211 22221212 12121111 . 29高級教育 nmnn m m zzz zzz zzz Z 21 22221
22、 11211 (3.5.6) 每個地區(qū)的綜合評價值為:對各個主成分每個地區(qū)的綜合評價值為:對各個主成分 進行加權(quán)求和。權(quán)重為每個主成分方差的進行加權(quán)求和。權(quán)重為每個主成分方差的 貢獻率。貢獻率。 30高級教育 四、四、 主成分分析方法應(yīng)用實例主成分分析方法應(yīng)用實例 31高級教育 (一)(一)下面,我們根據(jù)表下面,我們根據(jù)表3.5.13.5.1給出的給出的 數(shù)據(jù),對某農(nóng)業(yè)生態(tài)經(jīng)濟系統(tǒng)做主成分分析。數(shù)據(jù),對某農(nóng)業(yè)生態(tài)經(jīng)濟系統(tǒng)做主成分分析。 表3.5.13.5.1 某農(nóng)業(yè)生態(tài)經(jīng)濟系統(tǒng)各區(qū)域單元的有關(guān)數(shù)據(jù) 32高級教育 33高級教育 步驟如下:步驟如下: (1)將表)將表3.5.1中的數(shù)據(jù)作標準差標準
23、化中的數(shù)據(jù)作標準差標準化 處理,然后將它們代入公式(處理,然后將它們代入公式(3.5.4)計算相)計算相 關(guān)系數(shù)矩陣(表關(guān)系數(shù)矩陣(表3.5.2)。)。 x1x2x3x4x5x6x7x8x9 x11-0.327 -0.714 -0.3360.3090.4080.790.1560.744 x2-0.331-0.0350.6440.420.2550.009-0.0780.094 x3-0.71-0.03510.07-0.74-0.755-0.93-0.109-0.924 x4-0.340.6440.0710.3830.069-0.05-0.0310.073 x50.3090.42-0.740.38
24、310.7340.6720.0980.747 x60.4080.255-0.7550.0690.73410.6580.2220.707 x70.790.009-0.93-0.0460.6720.6581-0.030.89 x80.156-0.078 -0.109 -0.0310.0980.222-0.0310.29 x90.7440.094-0.9240.0730.7470.7070.890.291 表3.5.23.5.2相關(guān)系數(shù)矩陣 34高級教育 (2)由相關(guān)系數(shù)矩陣計算特征)由相關(guān)系數(shù)矩陣計算特征 值,以及各個主成分的貢獻率與累值,以及各個主成分的貢獻率與累 計貢獻率(表計貢獻率(表3.5
25、.3)。由表)。由表3.5.3可可 知,第知,第1,第,第2,第,第3主成分的累計貢主成分的累計貢 獻率已高達獻率已高達86.596%(大于(大于85%),), 故只需要求出第故只需要求出第1、第、第2、第、第3主成分主成分 z1,z2,z3即可。即可。 35高級教育 表3.5.33.5.3特征值及主成分貢獻率 =4.661/8.9988 36高級教育 (3 3)對于特征值)對于特征值 分別分別 =4.661 0=4.661 0、 =2.089 0=2.089 0、=1.0430=1.0430,分別求出其特征向量,分別求出其特征向量 e1 1,e2 2,e3 3,再用公式(,再用公式(3.5.
26、53.5.5)計算各變量)計算各變量 x x1 1,x2 2,x9 9在主成分在主成分z1 1,z2 2,z3 3上的載荷上的載荷 (表(表3.5.43.5.4)。)。 i 37高級教育 表表3.5.4 3.5.4 主成分載荷主成分載荷 上述計算過程上述計算過程,可以借助于可以借助于SPSS或或Matlab軟件系統(tǒng)實現(xiàn)。軟件系統(tǒng)實現(xiàn)。 38高級教育 (1)從表從表3.5.4可以看出,第可以看出,第1主成分主成分z1 與與x1,x5,x6,x7,x9呈現(xiàn)出較強的正相呈現(xiàn)出較強的正相 關(guān),與關(guān),與x3呈現(xiàn)出較強的負相關(guān),而這幾個呈現(xiàn)出較強的負相關(guān),而這幾個 變量則綜合反映了生態(tài)經(jīng)濟結(jié)構(gòu)狀況,因變量
27、則綜合反映了生態(tài)經(jīng)濟結(jié)構(gòu)狀況,因 此可以認為第此可以認為第1主成分主成分z1是生態(tài)經(jīng)濟結(jié)構(gòu)是生態(tài)經(jīng)濟結(jié)構(gòu) 的代表。的代表。 (2)第第2主成分主成分z2與與x2,x4,x5呈現(xiàn)出較呈現(xiàn)出較 強的正相關(guān),與強的正相關(guān),與x1呈現(xiàn)出較強的負相關(guān),呈現(xiàn)出較強的負相關(guān), 其中,除了其中,除了x1為人口總數(shù)外,為人口總數(shù)外,x2,x4,x5都都 反映了人均占有資源量的情況,因此可以反映了人均占有資源量的情況,因此可以 認為第認為第2主成分主成分z2代表了人均資源量。代表了人均資源量。 分析:主成分載荷是主成分與變量之間的分析:主成分載荷是主成分與變量之間的 相關(guān)系數(shù)。相關(guān)系數(shù)。 39高級教育 顯然,用顯
28、然,用3個主成分個主成分z1、z2、z3代替原來代替原來 9個變量個變量(x1,x2,x9)描述農(nóng)業(yè)生態(tài))描述農(nóng)業(yè)生態(tài) 經(jīng)濟系統(tǒng),可以使問題更進一步簡化、明經(jīng)濟系統(tǒng),可以使問題更進一步簡化、明 了。了。 (3)第第3主成分主成分z3與與x8呈現(xiàn)出的正相關(guān)程度呈現(xiàn)出的正相關(guān)程度 最高,其次是最高,其次是x6,而與,而與x7呈負相關(guān),因此可呈負相關(guān),因此可 以認為第以認為第3主成分在一定程度上代表了農(nóng)業(yè)主成分在一定程度上代表了農(nóng)業(yè) 經(jīng)濟結(jié)構(gòu)。經(jīng)濟結(jié)構(gòu)。 (4)另外,表另外,表3.5.4中最后一列(占方差中最后一列(占方差 的百分數(shù)),在一定程度上反映了的百分數(shù)),在一定程度上反映了3個主成個主成
29、分分z1、z2、z3包含原變量(包含原變量(x1,x2,x9) 的信息量多少。的信息量多少。 40高級教育 v接著還可以計算每個主成分的得分,接著還可以計算每個主成分的得分, 組成一個新的數(shù)據(jù)集,作為進一步應(yīng)組成一個新的數(shù)據(jù)集,作為進一步應(yīng) 用系統(tǒng)聚類分析方法進行區(qū)劃、分類用系統(tǒng)聚類分析方法進行區(qū)劃、分類 的新的出發(fā)點。的新的出發(fā)點。 v也可以用來綜合評價。也可以用來綜合評價。 v進行區(qū)域差異分析進行區(qū)域差異分析 41高級教育 五、主成分分析的五、主成分分析的SPSS實現(xiàn)過程實現(xiàn)過程 42高級教育 v以書上例子為例,將數(shù)據(jù)存為以書上例子為例,將數(shù)據(jù)存為.sav文件文件, v選選AnalyzeD
30、ata ReductionFactor進入主對話框;進入主對話框; v把把x1x9選入選入Variables,然后點擊,然后點擊Descriptive v擊擊Extraction, 在在Method選擇一個方法(如果是主成分分析,則選選擇一個方法(如果是主成分分析,則選 Principal Components),), 下面的選項可以隨意,比如要畫碎石圖就選下面的選項可以隨意,比如要畫碎石圖就選Scree plot,另,另 外在外在Extract選項可以按照特征值的大小選主成分(或因選項可以按照特征值的大小選主成分(或因 子),也可以選定因子的數(shù)目;子),也可以選定因子的數(shù)目; 之后回到主對話
31、框(用之后回到主對話框(用Continue)。)。 v然后點擊然后點擊Rotation,再在該對話框中的,再在該對話框中的Method選擇一個選擇一個 旋轉(zhuǎn)方法(如果是不作旋轉(zhuǎn)就選旋轉(zhuǎn)方法(如果是不作旋轉(zhuǎn)就選None,我們選,我們選Varimax, 方差最大正交旋轉(zhuǎn)法),方差最大正交旋轉(zhuǎn)法), 在在Display選選Rotated solution(以輸出和旋轉(zhuǎn)有關(guān)的結(jié)(以輸出和旋轉(zhuǎn)有關(guān)的結(jié) 果)和果)和Loading plot(以輸出載荷圖);之后回到主對話(以輸出載荷圖);之后回到主對話 框(用框(用Continue)。)。 v如果要計算因子得分就要點擊如果要計算因子得分就要點擊Score
32、s,再選擇,再選擇Save as variables(因子得分就會作為變量存在數(shù)據(jù)中的附加列上)(因子得分就會作為變量存在數(shù)據(jù)中的附加列上) 和計算因子得分的方法(比如和計算因子得分的方法(比如Regression);之后回到);之后回到 主對話框(用主對話框(用Continue)。這時點)。這時點OK即可。即可。 43高級教育 44高級教育 45高級教育 46高級教育 47高級教育 48高級教育 49高級教育 結(jié)果解釋結(jié)果解釋 C Co or rr re el la at ti io on n M Ma at tr ri ix x 1.000-.327-.714-.336.309.408.7
33、90.156.744 -.3271.000-.035.644.420.255.009-.078.094 -.714-.0351.000.070-.740-.755-.930-.109-.924 -.336.644.0701.000.383.069-.046-.031.073 .309.420-.740.3831.000.734.672.098.747 .408.255-.755.069.7341.000.658.222.707 .790.009-.930-.046.672.6581.000-.030.890 .156-.078-.109-.031.098.222-.0301.000.290 .
34、744.094-.924.073.747.707.890.2901.000 人口密度 人均耕地面積 森林覆蓋率 農(nóng)民人均純收入 人均糧食產(chǎn)量 經(jīng)濟作物占農(nóng)作物播 面比例 耕地占土地面積比 果園與林地面積之比 灌溉田占耕地面積之 Correlation 人口密度 人均耕 地面積森林覆蓋率 農(nóng)民人均 純收入 人均糧 食產(chǎn)量 經(jīng)濟作物 占農(nóng)作物 播面比例 耕地占土 地面積比 果園與林地 面積之比 灌溉田占耕 地面積之 KMO and Bartletts TestKMO and Bartletts Test .759 159.767 36 .000 Kaiser-Meyer-Olkin Measure
35、 of Sampling Adequacy. Approx. Chi-Square df Sig. Bartletts Test of Sphericity KMO值大于值大于0.5, Bartletts Test的的 Sig. 大于大于0.05表表 明可用因子分析明可用因子分析 50高級教育 結(jié)果解釋結(jié)果解釋 CommunalitiesCommunalities 1.000.832 1.000.803 1.000.947 1.000.757 1.000.858 1.000.718 1.000.952 1.000.990 1.000.938 人口密度 人均耕地面積 森林覆蓋率 農(nóng)民人均純收入
36、人均糧食產(chǎn)量 經(jīng)濟作物占農(nóng)作物播 面比例 耕地占土地面積比 果園與林地面積之比 灌溉田占耕地面積之 InitialExtraction Extraction Method: Principal Component Analysis. 說明提取的幾個因子包含每個原變量的程度說明提取的幾個因子包含每個原變量的程度 公因子方差公因子方差 51高級教育 結(jié)果解釋結(jié)果解釋 這里的這里的Initial Eigenvalues就是特征值(數(shù)據(jù)就是特征值(數(shù)據(jù) 相關(guān)陣的特征值)。相關(guān)陣的特征值)。頭三個成分特征值累頭三個成分特征值累 積占了總方差的積占了總方差的86.596%。后面的特征值的。后面的特征值的
37、貢獻越來越少。貢獻越來越少。 Total Variance ExplainedTotal Variance Explained 4.66151.79051.7904.66151.79051.7904.60551.17251.172 2.08923.21775.0072.08923.21775.0072.10023.32974.500 1.04311.58986.5961.04311.58986.5961.08912.09586.596 .5075.63892.234 .3153.50295.736 .1932.14097.876 .1141.27199.147 .045.50499.650 .
38、031.350100.000 Component 1 2 3 4 5 6 7 8 9 Total% of VarianceCumulative %Total% of VarianceCumulative %Total% of VarianceCumulative % Initial EigenvaluesExtraction Sums of Squared LoadingsRotation Sums of Squared Loadings Extraction Method: Principal Component Analysis. 52高級教育 特征值的貢獻還可以從特征值的貢獻還可以從SP
39、SS的所謂碎石圖看出的所謂碎石圖看出 53高級教育 怎么解釋這三個主成分。前面說過主成分是原始九怎么解釋這三個主成分。前面說過主成分是原始九 個變量的線性組合。是怎么樣的組合呢?個變量的線性組合。是怎么樣的組合呢?SPSSSPSS可以可以 輸出下面的表。輸出下面的表。 這里每一列代表一個主成分作為原來變量線性組合的系數(shù)這里每一列代表一個主成分作為原來變量線性組合的系數(shù) (比例)。比如第一主成分寫成九個原先變量的線性組合,(比例)。比如第一主成分寫成九個原先變量的線性組合, 系數(shù)(比例)為系數(shù)(比例)為0.739, 0.123, -0.964, 0.042, 0.813, 0.819,0.933
40、, 0.197,0.964。 C Co om mp po on ne en nt t M Ma at tr ri ix x a a .739-.532-.061 .123.887-.028 -.964.096.095 .042.868.037 .813.444-.011 .819.179.125 .933-.133-.251 .197-.100.970 .964-.025.092 人口密度 人均耕地面積 森林覆蓋率 農(nóng)民人均純收入 人均糧食產(chǎn)量 經(jīng)濟作物占農(nóng)作物播 面比例 耕地占土地面積比 果園與林地面積之比 灌溉田占耕地面積之 123 Component Extraction Method:
41、 Principal Component Analysis. 3 components extracted. a. 54高級教育 如用如用x x1 1 x x9 9分別表示原先的九個變量,而用分別表示原先的九個變量,而用y y1 1, ,y y2 2, ,y y3 3, , 表示新的表示新的 主成分,那么,原先九個變量主成分,那么,原先九個變量x x1 1, ,x x2 2, ,x x3 3, ,x x4 4, ,x x5 5, ,x x6 6與第一和第二與第一和第二 第三主成分第三主成分y y1 1, ,y y2 2, ,y y3 3的關(guān)系為: 的關(guān)系為: y y 1 1 = 0 . 7 3
42、 9= 0 . 7 3 9x x 1 1 + 0 . 1 2 3 x 2 2 - 0 . 9 6 4x x 3 3 + 0 . 0 4 2x x 4 4 + 0.813x x5 5+0.819x x6 6+0.933x x7 7+0.197x x8 8+0.964x x9 9 這些系數(shù)稱為主成分載荷(這些系數(shù)稱為主成分載荷(loading),它表示主成分和相應(yīng)的),它表示主成分和相應(yīng)的 原先變量的相關(guān)系數(shù)。原先變量的相關(guān)系數(shù)。 相關(guān)系數(shù)相關(guān)系數(shù)(絕對值)越大,主成分對該變量的代表性也越大。絕對值)越大,主成分對該變量的代表性也越大。 可以看得出,第一主成分對各個變量解釋得都很充分。而最后可以看
43、得出,第一主成分對各個變量解釋得都很充分。而最后 的幾個主成分和原先的變量就不那么相關(guān)了。的幾個主成分和原先的變量就不那么相關(guān)了。 55高級教育 Rotated Component MatrixRotated Component Matrix a a .773-.483.044 .070.891-.054 -.972.034-.016 -.017.870.003 .780.496.059 .787.238.206 .962-.079-.141 .093-.051.989 .947.043.198 人口密度 人均耕地面積 森林覆蓋率 農(nóng)民人均純收入 人均糧食產(chǎn)量 經(jīng)濟作物占農(nóng)作物播 面比例 耕地
44、占土地面積比 果園與林地面積之比 灌溉田占耕地面積之 123 Component Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Rotation converged in 4 iterations. a. X X1 1=0.773=0.773y y1 1-0.483-0.483y y2 2+0.044+0.044y y3 3 56高級教育 計算因子得分計算因子得分 v可以根據(jù)前面的因子得分公式(因子得可以根據(jù)前面的因子得分公式(因子得 分系
45、數(shù)和原始變量的標準化值的乘積之分系數(shù)和原始變量的標準化值的乘積之 和),算出每個樣本的第一個因子、第和),算出每個樣本的第一個因子、第 二個因子和第三個主成分的大小,即算二個因子和第三個主成分的大小,即算 出出每個樣本每個樣本的因子得分的因子得分f1, , f2和 和f3。 v人們可以根據(jù)這三套因子得分對樣本分人們可以根據(jù)這三套因子得分對樣本分 別排序。當然得到因子得分只是別排序。當然得到因子得分只是SPSS軟軟 件的一個選項(可將因子得分存為新變件的一個選項(可將因子得分存為新變 量、顯示因子得分系數(shù)矩陣)量、顯示因子得分系數(shù)矩陣) 57高級教育 Component Score Coeffi
46、cient MatrixComponent Score Coefficient Matrix .180-.245-.030 .003.424-.043 -.218.035.066 -.021.416.018 .161.223-.001 .155.102.134 .230-.059-.215 -.059-.011.930 .196.005.110 人口密度 人均耕地面積 森林覆蓋率 農(nóng)民人均純收入 人均糧食產(chǎn)量 經(jīng)濟作物占農(nóng)作物播 面比例 耕地占土地面積比 果園與林地面積之比 灌溉田占耕地面積之 123 Component Extraction Method: Principal Compone
47、nt Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores. 58高級教育 六、主成分分析的應(yīng)用六、主成分分析的應(yīng)用 59高級教育 根據(jù)主成分分析的定義及性質(zhì),我們已大體上根據(jù)主成分分析的定義及性質(zhì),我們已大體上 能看出主成分分析的一些應(yīng)用。概括起來說,主成能看出主成分分析的一些應(yīng)用。概括起來說,主成 分分析主要有以下幾方面的應(yīng)用。分分析主要有以下幾方面的應(yīng)用。 1主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù) 。即用研究。即用研究m維的維的Y空間代替空間代替p
48、維的維的X空間空間(mp), 而低維的而低維的Y空間代替空間代替 高維的高維的x空間所損失的信息很空間所損失的信息很 少。即使只有一個主成分少。即使只有一個主成分Yl(即即 m1)時,這個時,這個Yl仍仍 是使用全部是使用全部X變量變量(p個個)得到的。例如要計算得到的。例如要計算Yl的均的均 值也得使用全部值也得使用全部x的均值。在所選的前的均值。在所選的前m個主成分個主成分 中,如果某個中,如果某個Xi的系數(shù)全部近似于零的話,就可以的系數(shù)全部近似于零的話,就可以 把這個把這個Xi刪除,這也是一種刪除多余變量的方法。刪除,這也是一種刪除多余變量的方法。 60高級教育 2有時可通過因子負荷有時
49、可通過因子負荷aij的結(jié)構(gòu),弄清的結(jié)構(gòu),弄清X變量間的變量間的 某些關(guān)系。某些關(guān)系。 3. 多維數(shù)據(jù)的一種圖形表示方法。我們知道當維數(shù)多維數(shù)據(jù)的一種圖形表示方法。我們知道當維數(shù) 大于大于3時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大 都多于都多于3個變量。要把研究的問題用圖形表示出來是不個變量。要把研究的問題用圖形表示出來是不 可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩 個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫 出出n個樣品在二維平面上的分布狀況
50、,由圖形可直觀地個樣品在二維平面上的分布狀況,由圖形可直觀地 看出各樣品在主分量中的地位??闯龈鳂悠吩谥鞣至恐械牡匚?。 61高級教育 4由主成分分析法構(gòu)造回歸模型。即把各主成由主成分分析法構(gòu)造回歸模型。即把各主成 分作為新自變量代替原來自變量分作為新自變量代替原來自變量x做回歸分析。做回歸分析。 5用主成分分析篩選回歸變量。回歸變量的選用主成分分析篩選回歸變量?;貧w變量的選 擇有著重要的實際意義,為了使模型本身易于做結(jié)擇有著重要的實際意義,為了使模型本身易于做結(jié) 構(gòu)分析、控制和預(yù)報,好從原始變量所構(gòu)成的子集構(gòu)分析、控制和預(yù)報,好從原始變量所構(gòu)成的子集 合中選擇最佳變量,構(gòu)成最佳變量集合,用主成
51、分合中選擇最佳變量,構(gòu)成最佳變量集合,用主成分 分析篩選變量,可以用較少的計算量來選擇變量,分析篩選變量,可以用較少的計算量來選擇變量, 獲得選擇最佳變量子集合的效果。獲得選擇最佳變量子集合的效果。 62高級教育 附、主成分分析與因子附、主成分分析與因子 分析的區(qū)別分析的區(qū)別 63高級教育 因子分析因子分析 v主成分分析從原理上是尋找橢球的所有主主成分分析從原理上是尋找橢球的所有主 軸。原先有幾個變量,就有幾個主成分。軸。原先有幾個變量,就有幾個主成分。 v而因子分析是事先確定要找?guī)讉€成分,這而因子分析是事先確定要找?guī)讉€成分,這 里叫因子(里叫因子(factor)(比如兩個),那就找)(比如兩
52、個),那就找 兩個。兩個。 v這使得在數(shù)學(xué)模型上,因子分析和主成分這使得在數(shù)學(xué)模型上,因子分析和主成分 分析有不少區(qū)別。而且因子分析的計算也分析有不少區(qū)別。而且因子分析的計算也 復(fù)雜得多。根據(jù)因子分析模型的特點,它復(fù)雜得多。根據(jù)因子分析模型的特點,它 還多一道工序:因子旋轉(zhuǎn)(還多一道工序:因子旋轉(zhuǎn)(factor rotation );這個步驟可以使結(jié)果更好。);這個步驟可以使結(jié)果更好。 64高級教育 v對于計算機,因子分析并不費事。對于計算機,因子分析并不費事。 v從輸出的結(jié)果來看,因子分析也有因子從輸出的結(jié)果來看,因子分析也有因子 載荷(載荷(factor loading)的概念,代表)的概
53、念,代表 了因子和原先變量的相關(guān)系數(shù)。但是在了因子和原先變量的相關(guān)系數(shù)。但是在 因子分析公式中的因子載荷位置和主成因子分析公式中的因子載荷位置和主成 分分析不同。分分析不同。 v因子分析也給出了二維圖;其解釋和主因子分析也給出了二維圖;其解釋和主 成分分析的載荷圖類似。成分分析的載荷圖類似。 65高級教育 主成分分析與因子分析的公式上的區(qū)別主成分分析與因子分析的公式上的區(qū)別 111 11221 221 12222 1 122 pp pp pppppp ya xa xa x ya xa xax ya xaxa x 111 112211 221 122222 1 122 mm mm ppppmmp
54、 xa fa faf xa fafaf xafafaf 111 11221 221 12222 1 122 pp pp mmmmpp fxxx fxxx fxxx 主成分分析主成分分析 因子分析因子分析(mp) 因子得分因子得分 主成分載荷主成分載荷 旋轉(zhuǎn)之后的旋轉(zhuǎn)之后的 因子載荷因子載荷 因子得分因子得分 系數(shù)中的值系數(shù)中的值 66高級教育 對于學(xué)生成績的數(shù)據(jù),對于學(xué)生成績的數(shù)據(jù),SPSSSPSS因子分析輸出因子分析輸出 為為 Rotated Component MatrixRotated Component Matrix a a -.387.790 -.172.841 -.184.827
55、.879-.343 .911-.201 .913-.216 MATH PHYS CHEM LITERAT HISTORY ENGLISH 12 Component Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Rotation converged in 3 iterations.a. 67高級教育 這個表說明六個變量和因子的關(guān)系。這個表說明六個變量和因子的關(guān)系。 為簡單記,我們用為簡單記,我們用x1, x2, x3, x4, x5, x6來表示來表示math(數(shù)學(xué)),(數(shù)學(xué)), phys(物(物 理),理),chem(化學(xué)),(化學(xué)),literat(語(語 文),文),history(歷史),(歷史),english (英語)等變量。這樣因子(英語)等變量。這樣因子f1和和f2與與 這些原變量之間的關(guān)系是(注意,這些原變量之間的關(guān)系是(注意, 和主成分分析不同,這里把成分和主成分分析不同,這里把成分 (因子)寫在方程的右邊,把原變(因子)寫在方程的右邊,把原變 量寫在左邊;但相應(yīng)的系數(shù)還是主量寫
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度寵物用品連鎖店承包經(jīng)營服務(wù)協(xié)議4篇
- 二零二五版明星代言合同合作方責任與義務(wù)協(xié)議4篇
- 建設(shè)工程設(shè)計合同(2篇)
- 聚氨酯管殼施工方案
- 二零二五版數(shù)碼產(chǎn)品典當借款服務(wù)協(xié)議4篇
- 2025年度個人貸款還款計劃合同模板8篇
- 中央處理器GPU:性能躍遷與行業(yè)應(yīng)用的深度剖析 頭豹詞條報告系列
- 班會安全教育模板
- 二零二五年度民間擔保機構(gòu)與企業(yè)合作協(xié)議4篇
- 鯨的自述200字5篇
- 《消防設(shè)備操作使用》培訓(xùn)
- 新交際英語(2024)一年級上冊Unit 1~6全冊教案
- 2024年度跨境電商平臺運營與孵化合同
- 2024年電動汽車充電消費者研究報告-2024-11-新能源
- 湖北省黃岡高級中學(xué)2025屆物理高一第一學(xué)期期末考試試題含解析
- 上海市徐匯中學(xué)2025屆物理高一第一學(xué)期期末學(xué)業(yè)水平測試試題含解析
- 稻殼供貨合同范本
- 《采氣樹基礎(chǔ)知識》課件
- 超齡員工用工免責協(xié)議書
- 機械工程師招聘筆試題及解答(某大型國企)
- 軟件運維考核指標
評論
0/150
提交評論