主成分分析數(shù)據(jù)的標(biāo)準(zhǔn)化與非標(biāo)準(zhǔn)化的對(duì)比分析_第1頁(yè)
主成分分析數(shù)據(jù)的標(biāo)準(zhǔn)化與非標(biāo)準(zhǔn)化的對(duì)比分析_第2頁(yè)
主成分分析數(shù)據(jù)的標(biāo)準(zhǔn)化與非標(biāo)準(zhǔn)化的對(duì)比分析_第3頁(yè)
主成分分析數(shù)據(jù)的標(biāo)準(zhǔn)化與非標(biāo)準(zhǔn)化的對(duì)比分析_第4頁(yè)
主成分分析數(shù)據(jù)的標(biāo)準(zhǔn)化與非標(biāo)準(zhǔn)化的對(duì)比分析_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、12主成分分析的基本理論假設(shè)我們所討論的實(shí)際問(wèn)題中有p個(gè)指標(biāo),我們把這p個(gè)指標(biāo)看作p個(gè)隨機(jī)變量,記為X,X,X。這p個(gè)指標(biāo)構(gòu)成的p維隨機(jī)向量為X(X,X,X).12P12PTOC o 1-5 h z設(shè)隨機(jī)向量X的均値為I,勘、方差為:。對(duì)X進(jìn)行線性轉(zhuǎn)換,可以形成新的綜合變量,Y用示,也就是說(shuō),新的綜合變量可以由原來(lái)的變量線性表示,即滿足Y1Y HYPERLINK l bookmark12uX+uX+uXuX+uX+uX121222111212p1p HYPERLINK l bookmark14YuX+uX+uXp1p12p2ppp由于可以任瑕地對(duì)原始變量進(jìn)行上述線性變換,由不同的線性變換得到的

2、綜合變量Y的統(tǒng)計(jì)特征也不盡木相同。因此為了取得較好的效果,我們總是希望Y=uX的方差盡可能大且各Y之間互相獨(dú)立,由于iijvar(Y)var(uX)=u,uiiii而對(duì)任給的常數(shù)c,有var(cuX)cu,ucc2u,uiiiii因此對(duì)u不加限制時(shí),可使var(Y)任意增大,問(wèn)題將變得沒(méi)有意義。我們將ii線性變換約束在下面原則下:1.2.每個(gè)主成分的系數(shù)平方和為1,uu1即u2+u2+ii主成分之間相互獨(dú)立,即無(wú)重疊的信息。即1i2i+u21pi3.Co(vF,F(xiàn))0,(ij;i,j1,ij2,p)主成分的方差依次遞減,重要性依次遞減,Y是X,X,112X所有線性組合P中方差最大者;即Y是與Y

3、不相關(guān)的X,X,2112X所有線性組合中方差最大P者;Y是與Y,Y,Y不相關(guān)的X,X,2p112p1X所有線性組合中方差最大P者。Va(F)Var(F)*Var(F)12p基于以上三條原則決定的綜合變量Y,Y,Y分別為原始變量的第一、二、p12第p主成分。其中,各綜合變量在總方差中占得比重依次遞減。 i主成分分析基本思想是在力保數(shù)據(jù)信息損失最少的原則下,把多個(gè)指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)的一種對(duì)多變量數(shù)據(jù)進(jìn)行最佳綜合簡(jiǎn)化。對(duì)于隨機(jī)變量X,X,X而言,其協(xié)方差矩陣或相關(guān)矩陣正是對(duì)個(gè)變量離散程度與變量之間12P的相關(guān)程度的信息的反映,而相關(guān)矩陣是將原始變量標(biāo)準(zhǔn)化后的協(xié)方差矩陣。本文所要討論白的主成分

4、分析數(shù)據(jù)的標(biāo)準(zhǔn)化與非標(biāo)準(zhǔn)化的對(duì)比分析本質(zhì)上就是對(duì)原始變量的協(xié)方差矩陣以及相關(guān)矩陣求解主成分進(jìn)行對(duì)比分析。下面就對(duì)二者進(jìn)行討論。主成分求解、從協(xié)方差矩陣出發(fā)求解主成分一)第一主成分:設(shè)X的協(xié)方差陣為:iii2iP21224PP2PPX # #由于為非負(fù)定的對(duì)稱陣,則有利用線性代數(shù)的知識(shí)可得,祕(mì)存在正交陣U,使得U遠(yuǎn)U二X的特征根,不妨假設(shè)九2其中九,九2,九i2p由特征根相對(duì)應(yīng)的特征向量所組成的正交陣。x。而U恰好是p #,u)=piu,2i1puuu1112uu21221i,a)p1*XuU二i下面我們來(lái)看,是否由V的第一列元素所構(gòu)成為原始變量的線性組合是否有最大的方差。設(shè)有P維正交向量a=C

5、,a,111211pY=a+X+aXV(Yi)=a浮i=a;Uiiii =a,uu,aiiii=1=(a,u)2iii=10,所以Var(y1)Var(y2)Var(y 、由相關(guān)系數(shù)矩陣求解主成分當(dāng)分析中所選擇的經(jīng)濟(jì)變量具有不同的量綱,變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。量綱對(duì)于主成分分析的影響及消除方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以使每一個(gè)變量的均值為0,方差為1。x*-X廠E(Xi)clear988.102697.9427383005.00224693055045416761361817935363232:747.991649.9426635642.0033022815115

6、7564859578541148360017925J195.00462.824674185.001271812415267217162233939436535866S239.20328.873041318.002670151701912581116902421248276741534108.38147.46822266.0028592415115899694792156184225314460;487.681057.157290387.0067421515678643626971899848906109127025(270.68933.1310035627.001123219736837902

7、2363574645203173298.02732.639002623.00752210346521591862037506446175919125;307.39633.664027314.0063748814524742241712763183581291343357;1262.414893.0169355680.006324371.89981.7615792063.0016198379.491195.1716156245.0020342126.13581.327515766.0023224137.95269.303301429.005141153.77507.343795136.00101

8、72134.36558.338032877.004700174.996138500181327462781820023561E01016425368107564739588815172115841884738413280679764006712i11182605456215625829391543263:29032304901142612186046634迢7280486042148536335104874661i2547653090184251226223274982:324617328162739724976004548(13057490001238806244740516683(ssjA

9、rrayEditor一b田Fa0”Stack:Base二1234567891803972.2023e-KJ052.7901e-KJ091.3152e-KJ062.6353e-KJ062.721e-KJ088.857e-KJ081.7197e-KJ091739422.2023e-KJ058.8222e-KJ051.1981e-KJ101.8107e-KJ068.0932e-KJ061.1521e-KJ093.4268e-KJ096.4466e-KJ095313032.7901e-KlO91.1981e-KJ101.7392e-Kl141.1916e-KJ101.0786e-KJ111.5766e

10、-KJ134.5629e-KJ138.0912e-KJ136.4973e-K0841.3152e4l061.8107e-KJ061.1916e-KJ101.6241e-KJOB6.0639e-KJ071,3939e-KJ099.5593e-KJ092.1688e-KJ102.1351e-KJ0552.6353e-KJ068.0932e-KJ061.0786e-KJ116.0639e-KJ071.164e-KJ089.9275e-KJ093.1713e-KJ105.9269e-KJ105.629e-F0562.721e-KlO81.1521e-KJ091.5766e-Kl131.3939e-KJ

11、099.9275e-KJ091.6252e-KJ124.64e-KJ128.9388e-KJ127.435e-K07T8.857e4l083.4268e-KJ094.5629e-KJ139.5593e-KJ093.1713e-KJ104.64e-KJ121.3884e-KJ132.6862e-KJ132.2815e-KJ0881.7197e-KJ096.4466e-KJ098.0912e-KJ132.1688e-KJ105.9269e-KJ108.9388e-KJ122.6862e-KJ135.8224e-KJ135.0297e-F08917394531306.4973e-Kl082.1351

12、e-KJOS5.629e-KJ057.435e-KJ072.2815e-KJ085.0297e-KJ085073.5103.6038e-KJ081,3297e-KJ091.7195e4c=eig(b);v3d=eig(b); 由上面的協(xié)方差矩陣可以看出各個(gè)變量之間的離散程度很大,說(shuō)明變量之間相關(guān)程度不大。然而在相關(guān)矩陣中可以看出除了第四個(gè)變量與其他變量離散程度大,其余變量之間都有很強(qiáng)的相關(guān)性,相關(guān)系數(shù)在0.7以上。這個(gè)結(jié)果與協(xié)方差矩陣有截然不同的解釋。這是因?yàn)樵紨?shù)據(jù)各項(xiàng)指標(biāo)的受不同度量尺度的影響。由原始數(shù)據(jù)協(xié)方差出發(fā)求解主成分,得到如下結(jié)果:特征根解釋方差比例累積比例其對(duì)應(yīng)特征值的標(biāo)黑圭正交

13、特征向量見(jiàn)下表:特征根特征根特征根特征根特征根特征根特征根特征根特征根特征根因此所得的主成分的表達(dá)式是Y,(1.47E05)(XX)+(6.09E05)(XX)+0.85463(XX)+0.093096(XX)TOC o 1-5 h z1122331010Y,(1.43E05)(XX)(1.12E05)(XX)0.50078(XX)+0.14387(XX)1122331010Y,(0.077126)(XX)+(0.038452)(XX)(9.78E07)(XX)+(8.50E05)(XX)101122331010其中第一主成分保留了原有變量的92.8%的信息,所以在分析中可以把第二主成分舍掉,

14、這樣就達(dá)到了簡(jiǎn)化問(wèn)題的目的。第一主成分與原是變量的因子負(fù)荷分別p(Y,X)=丫1111/1,(1.47E05)x112.32E+14/8.04E+04,0.7905p(Y,X)=Y/,(6.09E-05)x2.32E+14/8.82E+05,0.98781212122p(Y,X)=Y/,0.98711313133p(Y,X)=Y/,0.11611414144p(Y,X)=Y/,0.7789為1515155p(Y,X)=Y/,0.97091616166p(Y,X)=Y/,0.97121717177p(Y,X)=Y/,0.88801818188p(Y,X)=Y/,0.78231919199p(Y,

15、X)=Y/,0.90691101,10110,10注:其中為第ii個(gè)特征根Y為標(biāo)準(zhǔn)正父化后的特征向量陣中第i行第j列ij元素,為第i個(gè)變量的方差(i,j=1,2,.,10)ii由此可見(jiàn),第一主成分反映了年底總?cè)丝跀?shù)指標(biāo)的79.05%、國(guó)內(nèi)生產(chǎn)總值指標(biāo)的98.78%、工業(yè)總產(chǎn)值指標(biāo)的98.71%、貨運(yùn)總量指標(biāo)的77.89%、地方財(cái)政預(yù)算內(nèi)收入指標(biāo)的97.09%、固定資產(chǎn)投資總額指標(biāo)的97.12%、城鄉(xiāng)居民年底儲(chǔ)蓄余額指標(biāo)的88.8%、在崗職工平均人數(shù)指標(biāo)的78.23%、在崗職工人數(shù)總額90.69%。所以第一主成分可以看成是年底總?cè)丝跀?shù)、國(guó)內(nèi)生產(chǎn)總值、工業(yè)總產(chǎn)值、貨運(yùn)總量、地方財(cái)政預(yù)算內(nèi)收入、固定

16、資產(chǎn)投資總額、城鄉(xiāng)居民年底儲(chǔ)蓄余額、在崗職工平均人數(shù)、在崗職工人數(shù)總額的綜合變量。它在很大程度上起到了及降維的作用,利用一個(gè)綜合變量解釋了九個(gè)原始變量。而主成分分析是利用利用降維的思想,在力保數(shù)據(jù)信息損失最少的原則下,把多個(gè)指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)的一種對(duì)多變量數(shù)據(jù)進(jìn)行最佳綜合簡(jiǎn)化的多元統(tǒng)計(jì)方法,本次主成分提取為解釋原有的所有變量。因此此次用協(xié)方差矩陣求解的主成分不是很好?,F(xiàn)就對(duì)原始數(shù)據(jù)相關(guān)矩陣進(jìn)行分析。而由原始數(shù)據(jù)相關(guān)矩陣得到如下結(jié)果:特征根解釋方差比例累積比例其對(duì)應(yīng)特征值的標(biāo)準(zhǔn)正交特征向量見(jiàn)下表:特征根特征根特征根特征根特征根特征根特征根特征根特征根特征根因此所得的主成分的表達(dá)式是Y,0

17、.31814(XX)+0.34386(XX)+0.32335(XX)+0.34396(XX)TOC o 1-5 h z1L2乙3_310Y,0.20773(XX)+0.11973(XX)+0.1947(XX)+0.08645(XX)1122331010Y,0.016935(XX)+0.44555(XX)0.12414(XX)+0.69947(XX)101122331010其中第一、二主成分保留了原有變量90.45%的信息,所以在分析中可以把第一、二主成份提取出來(lái),這樣就達(dá)到了降維的目的。第一、二主成分與原是變量的因子負(fù)荷分別為利用上面求因子負(fù)荷方法求得下表第一主成分第二主成分由上表可知第一主成

18、分反映了年底總?cè)丝跀?shù)指標(biāo)的89.45%、國(guó)內(nèi)生產(chǎn)總值指標(biāo)的96.68%、工業(yè)總產(chǎn)值指標(biāo)的90.91%、貨運(yùn)總量指標(biāo)的85.11%、地方財(cái)政預(yù)算內(nèi)收入指標(biāo)的95.46%、固定資產(chǎn)投資總額指標(biāo)的98.57%、城鄉(xiāng)居民年底儲(chǔ)蓄余額指標(biāo)的95.29%、在崗職工平均人數(shù)指標(biāo)的90.90%、在崗職工人數(shù)總額96.71%。所以第一主成分可以看成是年底總?cè)丝跀?shù)、國(guó)內(nèi)生產(chǎn)總值、工業(yè)總產(chǎn)值、貨運(yùn)總量、地方財(cái)政預(yù)算內(nèi)收入、固定資產(chǎn)投資總額、城鄉(xiāng)居民年底儲(chǔ)蓄余額、在崗職工平均人數(shù)、在崗職工人數(shù)總額的綜合變量。第二主成份反映了客運(yùn)總量指標(biāo)的93.09%。這說(shuō)明第一、二兩個(gè)主成分共同解釋了原是變量的所有指標(biāo),也就是起到了

19、降維作用,而不想?yún)f(xié)方差矩陣求解主成分那樣,并沒(méi)有把所有變量解釋完整??偨Y(jié)一般而言,對(duì)于度量單位不同的指標(biāo)或是取值范圍彼此差異非常大的指標(biāo)不直接由其協(xié)方差矩陣出發(fā)進(jìn)行主成分分析,而應(yīng)該考慮對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)化。在本文中采用的例子就是度量單位不同,有萬(wàn)人、萬(wàn)噸、萬(wàn)元、億元,而數(shù)據(jù)見(jiàn)的差異性也非常大,小則65.49大則13618179,。因此在用協(xié)方差矩陣求解主成分時(shí)存在協(xié)方差矩陣中數(shù)據(jù)的差異性很大。在后面提取主成分時(shí)發(fā)現(xiàn),只提取了一個(gè)主成分,而此時(shí)并不能將所有的變量都解釋到,這就沒(méi)有真正起到降維的作用。但是在用相關(guān)矩陣求解主成分時(shí)發(fā)現(xiàn),提取了兩個(gè)主成分后可以很好地將所有變量都解釋了,進(jìn)而起到降維的作用,

20、這就實(shí)現(xiàn)主成分分析的最終目的。但是對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后更傾向于各個(gè)指標(biāo)的作用在主成分分析夫人構(gòu)成中相等。對(duì)于數(shù)據(jù)取值范圍不大或是度量單位相同的指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理后,其主成分分析的結(jié)果與仍由協(xié)方差矩陣出發(fā)求得的結(jié)果有較大區(qū)別。這是因?yàn)閷?duì)數(shù)據(jù)標(biāo)準(zhǔn)化的過(guò)程實(shí)際上就是抹殺原是變量離散程度差異的過(guò)程,標(biāo)準(zhǔn)化后方差均為1,而實(shí)際上方差是對(duì)數(shù)據(jù)信息的重要概括形式,也就是說(shuō),對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后抹殺了一部分重要信息,因此才使得標(biāo)準(zhǔn)化后各變量在主成分構(gòu)成中的作用趨于相等。因此,對(duì)同度量或是取值范圍在同量級(jí)的數(shù)據(jù),還是直接從協(xié)方差矩陣求解主成分為宜。附錄年末總?cè)丝跀?shù)(萬(wàn)人)地區(qū)生產(chǎn)總值(GDP)(億元)限額以

21、上工業(yè)總產(chǎn)值(萬(wàn)元)客運(yùn)總量(萬(wàn)噸)貨運(yùn)總量(萬(wàn)噸)地方財(cái)政預(yù)算內(nèi)收入(萬(wàn)元)固定資產(chǎn)投資總額(萬(wàn)元)城鄉(xiāng)居民儲(chǔ)蓄年末余額(萬(wàn)元)在崗職工平均人數(shù)(萬(wàn)人)在崗職工工資總額(萬(wàn)元)北京市988.12697.94273830052246930550454167613618179353632323857511091天津市747.991649.94266356423302281511575648595785411483600178.522580319石家莊195462.820467418512718124152672171622339394365357.57668230太原市239.2328.8713

22、0413182670151701912581116902421248276.44741534呼和浩108.38147.45982226628592415115899694792156184225.28314460沈陽(yáng)市487.681057.15729038767421515678643626971899848906109.361270250大連市270.68933.1311003562711232197368379022363574645203173.21047008長(zhǎng)春市298.02732.6299002623752210346521591862037506446174.56919125哈爾

23、濱307.39633.65840273146374881452474224171276318358129.131343357上海市1262.414893.016935568063244949961385001813274627818200235.096152145南京市371.89981.75915792063161981412010164253681075647395888.151517214杭州市379.491195.161615624520342158418847384132806797640067.491279750寧波市126.13581.3157515766232241118260

24、54562156258293915431.79633904合肥市137.95269.2993301429514129032304901142612186046633.71364216福州市153.77507.34437951361017272804860421485363351048745.71617604廈門市134.36558.3268032877470025476530901842512262232749.4823834南昌市174.68343.587238815043513246173281627397249760044.63480685濟(jì)南市322.45820.12761696526300130574900012388062447405165.85836911青島市237.62700.8341212017315166290687380062020380401721863.5949555鄭州市229.03388.12326180101158973733797971440263501138257.4650500武漢市758.231347.8010208352117031624486158648550278019988137.121551442長(zhǎng)沙市180.77468.8732417588857875503460701890677

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論