第五章主成分復(fù)習(xí)_第1頁
第五章主成分復(fù)習(xí)_第2頁
第五章主成分復(fù)習(xí)_第3頁
第五章主成分復(fù)習(xí)_第4頁
第五章主成分復(fù)習(xí)_第5頁
已閱讀5頁,還剩29頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

2023/2/21主成分分析PrincipalComponentsAnalysis2023/2/22第五章主成分分析

目錄上頁下頁返回結(jié)束

§5.1主成分分析的基本思想與理論§5.2主成分分析的幾何意義§5.3總體主成分及其性質(zhì)§5.4樣本主成分的導(dǎo)出§5.5有關(guān)問題的討論§5.6主成分分析步驟及框圖§5.7主成分分析的上機實現(xiàn)2023/2/23第五章主成分分析

目錄上頁下頁返回結(jié)束

主成分分析(principalcomponentsanalysis)也稱主分量分析,是由霍特林(Hotelling)于1933年首先提出的。主成分分析是利用降維的思想,在損失很少信息的前提下把多個指標(biāo)轉(zhuǎn)化為幾個]綜合指標(biāo)的多元統(tǒng)計方法。通常把轉(zhuǎn)化生成的綜合指標(biāo)稱之為主成分,其中每個主成分都是原始變量的線性組合,且各個主成分之間互不相關(guān),這就使得主成分比原始變量具有某些更優(yōu)越的性能。這樣在研究復(fù)雜問題時就可以只考慮少數(shù)幾個主成分而不至于損失太多信息,從而更容易抓住主要矛盾,揭示事物內(nèi)部變量之間的規(guī)律性,同時使問題得到簡化,提高分析效率。本章主要介紹主成分分析的基本理論和方法、主成分分析的計算步驟及主成分分析的上機實現(xiàn)。2023/2/24

目錄上頁下頁返回結(jié)束

§5.1.1

主成分分析的基本思想既然研究某一問題涉及的眾多變量之間有一定的相關(guān)性,就必然存在著起支配作用的共同因素,根據(jù)這一點,通過對原始變量相關(guān)矩陣或協(xié)方差矩陣內(nèi)部結(jié)構(gòu)關(guān)系的研究,利用原始變量的線性組合形成幾個綜合指標(biāo)(主成分),在保留原始變量主要信息的前提下起到降維與簡化問題的作用,使得在研究復(fù)雜問題時更容易抓住主要矛盾。一般地說,利用主成分分析得到的主成分與原始變量之間有如下基本關(guān)系:1.每一個主成分都是各原始變量的線性組合;2.主成分的數(shù)目大大少于原始變量的數(shù)目2023/2/25

目錄上頁下頁返回結(jié)束

§5.1.1

主成分分析的基本思想3.主成分保留了原始變量絕大多數(shù)信息4.各主成分之間互不相關(guān)通過主成分分析,可以從事物之間錯綜復(fù)雜的關(guān)系中找出一些主要成分,從而能有效利用大量統(tǒng)計數(shù)據(jù)進行定量分析,揭示變量之間的內(nèi)在關(guān)系,得到對事物特征及其發(fā)展規(guī)律的一些深層次的啟發(fā),把研究工作引向深入。2023/2/26

目錄上頁下頁返回結(jié)束

§5.1.2

主成分分析的基本理論設(shè)對某一事物的研究涉及個指標(biāo),分別用表示,這個指標(biāo)構(gòu)成的維隨機向量為。設(shè)隨機向量的均值為,協(xié)方差矩陣為。對進行線性變換,可以形成新的綜合變量,用表示,也就是說,新的綜合變量可以由原來的變量線性表示,即滿足下式:(5.1)2023/2/27

目錄上頁下頁返回結(jié)束

§5.1.2

主成分分析的基本理論由于可以任意地對原始變量進行上述線性變換,由不同的線性變換得到的綜合變量的統(tǒng)計特性也不盡相同。因此為了取得較好的效果,我們總是希望的方差盡可能大且各之間互相獨立,由于

=而對任給的常數(shù),有2023/2/28

目錄上頁下頁返回結(jié)束

§5.1.2

主成分分析的基本理論

因此對不加限制時,可使任意增大,問題將變得沒有意義。我們將線性變換約束在下面的原則之下:1.,即:

2.

3.是的一切滿足原則1的線性組合中方差最大者;是與不相關(guān)的所有線性組合中方差最大者;…,是與都不相關(guān)的的所有線性組合中方差最大者。2023/2/29

目錄上頁下頁返回結(jié)束

§5.3總體主成分及其性質(zhì)由上面的討論可知,求解主成分的過程就是求滿足三條原則的原始變量的線性組合的過程。本節(jié)先從總體出發(fā),介紹求解主成分的一般方法及主成分的性質(zhì),然后介紹樣本主成分的導(dǎo)出。2023/2/210

目錄上頁下頁返回結(jié)束

§5.3.1總體主成分

由以上結(jié)論,我們把的協(xié)方差矩陣的非零特征值對應(yīng)的標(biāo)準(zhǔn)化特征向量分別作為系數(shù)向量,分別稱為隨機向量的第一主成分、第二主成分、…、第主成分。的分量依次是的第一主成分、第二主成分、…、第主成分的充分必要條件是:(1),即為階正交陣;(2)的分量之間互不相關(guān);(3)的個分量是按方差由大到小排列。2023/2/211

目錄上頁下頁返回結(jié)束

§5.3.1總體主成分

(二)主成分的性質(zhì)性質(zhì)1的協(xié)方差陣為對角陣。這一性質(zhì)可由上述結(jié)論容易得到,證明略。性質(zhì)2記,有證明:記則有于是2023/2/212

目錄上頁下頁返回結(jié)束

§5.3.1總體主成分

定義5.1稱為第個主成分的方差貢獻率,稱為主成分的累積貢獻率。

由此進一步可知,主成分分析是把個隨機變量的總方差分解為個不相關(guān)的隨機變量的方差之和,使第一主成分的方差達到最大,第一主成分是以變化最大的方向向量各分量為系數(shù)的原始變量的線性函數(shù),最大方差為。表明了的方差在全部方差中的比值,稱為第一主成分的貢獻率。這個值越大,表明這個新變量綜合信息的能力越強,也即由的差異來解釋隨機向量的差異的能力越強。2023/2/213

目錄上頁下頁返回結(jié)束

§5.3.1總體主成分正因如此,才把稱為的主成分。進而我們就更清楚為什么主成分的名次是按特征根取值的大小排序的。

進行主成分分析的目的之一是為了減少變量的個數(shù),所以一般不會取個主成分,而是取個主成分,取多少比較合適,這是一個很實際的問題,通常以所取使得累積貢獻率達到85%以上為宜,即(5.5)這樣,既能使損失信息不太多,又達到減少變量,簡化問題的目的。另外,選取主成分還可根據(jù)特征值的變化來確定。圖5-2為SPSS統(tǒng)計軟件生成的碎石圖。

2023/2/214

目錄上頁下頁返回結(jié)束

§5.3.1總體主成分

定義5.2第個主成分與原始變量的相關(guān)系數(shù)稱做因子負(fù)荷量。因子負(fù)荷量是主成分解釋中非常重要的解釋依據(jù),因子負(fù)荷量的絕對值大小刻畫了該主成分的主要意義及其成因。在下一章因子分析中還將要對因子負(fù)荷量的統(tǒng)計意義給出更詳細(xì)的解釋。由下面的性質(zhì)我們可以看到因子負(fù)荷量與系數(shù)向量成正比。

性質(zhì)3(5.6)

證明:令:為單位向量。則又2023/2/215

目錄上頁下頁返回結(jié)束

§5.3.1總體主成分

于是

于是

由性質(zhì)3知因子負(fù)荷量與向量系數(shù)成正比,與的標(biāo)準(zhǔn)差成反比關(guān)系,因此,絕不能將因子負(fù)荷量與向量系數(shù)混為一談。在解釋主成分的成因或是第個變量對第個主成分的重要性時,應(yīng)當(dāng)根據(jù)因子負(fù)荷量而不能僅僅根據(jù)與的變換系數(shù)。2023/2/216

目錄上頁下頁返回結(jié)束

§5.3.1總體主成分

性質(zhì)4(5.7)證明:由性質(zhì)3有(5.8)性質(zhì)5證明:因為向量是隨機向量的線性組合,因此也可以精確表示成的線性組合。由回歸分析知識知,與的全相關(guān)系數(shù)的平方和等于1,而因為之間互不相關(guān),所以與的全相關(guān)系數(shù)的平方和也就是,因此,性質(zhì)5成立。2023/2/217

目錄上頁下頁返回結(jié)束

§5.3.1總體主成分

定義5.3與前個主成分的全相關(guān)系數(shù)平方和稱為對原始變量的方差貢獻率,即

(5.9)這一定義說明了前個主成分提取了原始變量中的信息,由此我們可以判斷我們提取的主成分說明原始的能力。2023/2/218

目錄上頁下頁返回結(jié)束

§5.4樣本主成分的導(dǎo)出由此可知新的綜合變量(主成分)彼此不相關(guān),并且的方差為,則分別稱為第一、第二、……、第個主成分。由上述求主成分的過程可知,主成分在幾何圖形中的方向?qū)嶋H上就是的特征向量的方向,關(guān)于主成分分析的幾何意義我們還要在下一節(jié)詳細(xì)討論;主成分的方差貢獻就等于的相應(yīng)特征值。這樣,我們在利用樣本數(shù)據(jù)求解主成分的過程實際上就轉(zhuǎn)化為求相關(guān)陣或協(xié)方差陣的特征值和特征向量的過程。

2023/2/219

目錄上頁下頁返回結(jié)束

§5.5.1關(guān)于由協(xié)方差矩陣或相關(guān)矩陣出發(fā)求解主成分由前面的討論可知求解主成分的過程實際就是對矩陣結(jié)構(gòu)進行分析的過程,也就是求解特征值的過程。在實際分析過程中,我們可以從原始數(shù)據(jù)的協(xié)方差矩陣出發(fā),也可以從原始數(shù)據(jù)的相關(guān)矩陣出發(fā),其求主成分的過程是一致的。但是,從協(xié)方差陣出發(fā)和從相關(guān)陣出發(fā)所求得的主成分一般來說是有差別的,而且這種差別有時候還很大。下面我們舉例說明這個問題,為了敘述方便,我們以二維數(shù)據(jù)為例?!纠?.1】假定我們研究某一經(jīng)濟問題共涉及兩個指標(biāo):產(chǎn)值和利稅。其中產(chǎn)值以百萬元計,利稅以萬元計,得原始資料矩陣如下:2023/2/220

目錄上頁下頁返回結(jié)束

§5.5.3主成分分析與重疊信息

首先應(yīng)當(dāng)認(rèn)識到主成分分析方法適用于變量之間存在較強相關(guān)性的數(shù)據(jù),如果原始數(shù)據(jù)相關(guān)性較弱,運用主成分分析后不能起到很好的降維作用,即所得的各個主成分濃縮原始變量信息的能力差別不大。一般認(rèn)為當(dāng)原始數(shù)據(jù)大部分變量的相關(guān)系數(shù)都小于0.3時,運用主成分分析不會取得很好的效果。很多研究工作者在運用主成分分析方法時,都或多或少存在著對主成分分析去除原始變量重疊信息的期望,這樣,在實際工作中初始就可以把與某一研究問題相關(guān)而可能得到的變量(指標(biāo))都納入分析過程,再用少數(shù)幾個主成分濃縮這些有用信息(假定已剔除了重疊信息),然后對主成分進行深入分析。在對待重疊信息方面,生成的新的綜合變量(主成分)是有效剔除了原始變量中的重疊信息,還是僅僅按原來的模式將原始信息中的絕大部分用幾個不相關(guān)的新變量表示出來,這一點還值得討論。2023/2/221

目錄上頁下頁返回結(jié)束

§5.5.3主成分分析與重疊信息這樣求得的主成分已經(jīng)與沒有第一個指標(biāo)重疊信息時不一樣了,因為主成分方差的總和已經(jīng)變?yōu)槎皇?,每個主成分解釋方差的比例也相應(yīng)發(fā)生變化,而整個分析過程沒有對重疊信息作任何特殊處理。也就是說,由于對第一個指標(biāo)羅列了兩次,其在生成的主成分構(gòu)成中也起到了加倍的作用。這一點是尤其應(yīng)該引起注意的,這意味著主成分分析對重疊信息的剔除是無能為力的,同時主成分分析還損失了一部分信息。對此文獻[4]舉例進行了說明。這就告訴我們在實際工作中,在選取初始變量進入分析時應(yīng)該小心,對原始變量存在多重共線性的問題,在應(yīng)用主成分分析方法時一定要慎重。應(yīng)該考慮所選取的初始變量是否合適,是否真實地反映了事物的本來面目,如果是出于避免遺漏某些信息而特意選取了過多的存在重疊信息的變量時,就要特別注意應(yīng)用主成分分析所得到的結(jié)果。2023/2/222

目錄上頁下頁返回結(jié)束

§5.5.3主成分分析與重疊信息如果所得到的樣本協(xié)方差矩陣(或是相關(guān)陣)最小的特征值接近于0,那么就有(5.11)進而推出(5.12)這就意味著,中心化以后的原始變量之間存在著多重共線性,即原始變量存在著不可忽視的重疊信息。因此,在進行主成分分析得出協(xié)方差陣或是相關(guān)陣發(fā)現(xiàn)最小特征根接近于零時,應(yīng)該注意對主成分的解釋,或者考慮對最初納入分析的指標(biāo)進行篩選,由此可以看出,雖然主成分分析不能有效地剔除重疊信息,但它至少可以發(fā)現(xiàn)原始變量是否存在著重疊信息,這對我們減少分析中的失誤是有幫助的。2023/2/223

目錄上頁下頁返回結(jié)束

§5.7主成分分析的上機實現(xiàn)

【例5.4】全國重點水泥企業(yè)經(jīng)濟效益綜合評價例。利用主成分綜合評價全國重點水泥企業(yè)的經(jīng)濟效益。原始數(shù)據(jù)(數(shù)據(jù)來自1984年中國統(tǒng)計年鑒)見表5-10。2023/2/224

目錄上頁下頁返回結(jié)束

§5.7主成分分析的上機實現(xiàn)

廠家編號及指標(biāo)固定資產(chǎn)利稅率資金利稅率銷售收入利稅率資金利潤率固定資產(chǎn)產(chǎn)值率流動資金周轉(zhuǎn)天數(shù)萬元產(chǎn)值能耗全員勞動生產(chǎn)率1琉璃河16.6826.7531.8418.453.255528.831.752邯鄲19.727.5632.9419.259.825532.922.873大同15.223.432.9816.2446.786541.691.534哈爾濱7.298.9721.34.7634.396239.281.635華新29.4556.4940.7443.6875.326926.682.146湘鄉(xiāng)32.9342.7847.9833.8766.465032.872.67柳州25.3937.8236.7627.5668.186335.792.438峨嵋15.0519.4927.2114.216.137635.761.759耀縣19.8228.7833.4120.1759.257139.131.8310永登21.1335.239.1626.5252.476235.081.7311工源16.7528.7229.6219.2355.765830.081.5212撫順15.8328.0326.417.4361.196132.751.613大連16.5329.7332.4920.6350.416937.571.3114江南22.2454.5931.053767.956332.331.5715江油12.9220.8225.1212.5451.076639.181.83表5-102023/2/225

目錄上頁下頁返回結(jié)束

§5.7主成分分析的上機實現(xiàn)

經(jīng)標(biāo)準(zhǔn)化后的數(shù)據(jù)取名為“重點水泥廠”見表5-11。x1x2x3x4x5x6x7x8-0.14367-0.35795-0.11356-0.36669-0.038791.1933471.426821-0.277120.246189-0.293880.050803-0.287320.3561571.1933470.2890352.253119-0.33473-0.622920.056779-0.581-0.42773-0.37328-1.3981-0.77413-1.35585-1.76431-1.68844-1.71997-1.172550.043644-1.00954-0.548221.5048441.9944361.2162772.1414281.287927-0.872792.164810.6039441.9540870.9099992.2980751.1681420.7553152.2116560.3012351.643150.9807270.5176720.6215860.5421040.858711-0.09974-0.35411.259096-0.35409-0.9322-0.80537-0.7824-2.87137-1.6204-0.34791-0.27712表5-112023/2/226

目錄上頁下頁返回結(jié)束

§5.7主成分分析的上機實現(xiàn)

續(xù)表5-110.26168-0.197380.12103-0.191090.321892-1.10143-0.98378-0.096390.4307920.3104340.9801930.438921-0.085680.043644-0.20479-0.3223-0.13464-0.20212-0.44527-0.284350.1120930.6666361.046255-0.79672-0.2534-0.2567-0.9264-0.462930.4385130.1917320.330666-0.61599-0.16304-0.12223-0.01644-0.14545-0.20952-0.87279-0.70361-1.27114-2.009841.844149-0.23161.4786810.844885-0.099740.435397-0.68377-0.62906-0.827-1.11766-0.94809-0.16984-0.50383-0.99239-0.09639x1x2x3x4x5x6x7x80.26168-0.197380.12103-0.191090.321892-1.10143-0.98378-0.096390.4307920.3104340.9801930.438921-0.085680.043644-0.20479-0.3223-0.13464-0.20212-0.44527-0.284350.1120930.6666361.046255-0.79672-0.2534-0.2567-0.9264-0.462930.4385130.1917320.330666-0.61599-0.16304-0.12223-0.01644-0.14545-0.20952-0.87279-0.70361-1.27114-2.009841.844149-0.23161.4786810.844885-0.099740.435397-0.68377-0.62906-0.827-1.11766-0.94809-0.16984-0.50383-0.99239-0.09639x1x2x3x4x5x6x7x8續(xù)表5-110.26168-0.197380.12103-0.191090.321892-1.10143-0.98378-0.096390.4307920.3104340.9801930.438921-0.085680.043644-0.20479-0.3223-0.13464-0.20212-0.44527-0.284350.1120930.6666361.046255-0.79672-0.2534-0.2567-0.9264-0.462930.4385130.1917320.330666-0.61599-0.16304-0.12223-0.01644-0.14545-0.20952-0.87279-0.70361-1.27114-2.009841.844149-0.23161.4786810.844885-0.099740.435397-0.68377-0.62906-0.827-1.11766-0.94809-0.16984-0.50383-0.99239-0.09639x1x2x3x4x5x6x7x82023/2/227

目錄上頁下頁返回結(jié)束

§5.7主成分分析的上機實現(xiàn)導(dǎo)入spss中計算出其相關(guān)陣R如下,見表5-12:表5-122023/2/228

目錄上頁下頁返回結(jié)束

§5.7主成分分析的上機實現(xiàn)在確定主成分個數(shù)之前,與例5-3相同的spss操作,得出軟件輸出結(jié)果5-6如下:輸出結(jié)果5-6(1)2023/2/229

目錄上頁下頁返回結(jié)束

§5.7主成分分析的上機實現(xiàn)輸出結(jié)果5-6(2)2023/2/230

目錄上頁下頁返回結(jié)束

§5.7主成分分析的上機實現(xiàn)從上表及上圖可看出,前3個主成分解釋了全部方差的87.085%,也即包含了原始數(shù)據(jù)的信息總量達到了87.085%,這說明前三個主成分代表原來的8個指標(biāo)評價企業(yè)的經(jīng)濟效益已經(jīng)有足夠的把握。設(shè)這3個主成分分別用來表示,按照例5-3操作,只不過在點擊extraction按鈕時,在numberoffactors中填寫3,即可得到相關(guān)矩陣的前三個特征根的特征向量,見表5-13:表5-132023/2/231

目錄上頁下頁返回結(jié)束

§5.7主成分分析的上機實現(xiàn)由上表,三個主成分的線性組合如下:(5.14)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論