主成分分析和MATLAB應用_第1頁
主成分分析和MATLAB應用_第2頁
主成分分析和MATLAB應用_第3頁
主成分分析和MATLAB應用_第4頁
主成分分析和MATLAB應用_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、主成分分析類型:一種處理高維數(shù)據(jù)的方法。降維思想:在實際問題的研究中,往往會涉及眾多有關(guān)的變量。但是,變量太多不但會增加計算的復雜性,而且也會給合理地分析問題和解釋問題帶來困難。一般說來,雖然每個變量都提供了一定的信息,但其重要性有所不同,而在很多情況下,變量間有一定的相關(guān)性,從而使得這些變量所提供的信息在一定程度上有所重疊。因而人們希望對這些變量加以“改造”,用為數(shù)極少的互補相關(guān)的新變量來反映原變量所提供的絕大部分信息,通過對新變量的分析達到解決問題的目的。一、總體主成分1.1定義設X,X,,X為某實際問題所涉及的p個隨機變量。記X=(X,X;,Xp)T,其協(xié)方差矩陣為12,=()=E(XE

2、(X)(XE(X)t,ypxp它是一個p階非負定矩陣。設 HYPERLINK l bookmark0=ItX=IX+1X+1X111111221pp HYPERLINK l bookmark2=ItX=IX+1X+1X222112222pp(1)則有第i個主成分:一般地,在約束條件Y=ItX=1X+1X+ppp11p22Var(Y)=Var(1tX)=It,1iiii,i=h2.,p.Cov(Y,Y)=Cov(1tX,1tX)=It,1,j=1,2,p.ijijij1T1=1iiCov(Y,Y)=1T,1=0,k=1,2,i1ikik下,求l使Var(Y)達到最大,由此l所確定的iiiY=1T

3、Xii稱為X,X,X的第i個主成分。1.2總體主成分的計算(2)設,是X=(X,X,X)t的協(xié)方差矩陣,,的特征值及相應的正交單位化特征向量分12p別為九九XX*2交單位特征向量。其中九*1n九*0為p的特征值,pe*=(e*,e*l1112,e*)t為相應于特征值X*的正ipi并且(8)Uvar(Y*)=另九*戈必(X*)=p,iil=1l=1i=1第i個主成分的貢獻率:4*P前m個主成分的累計貢獻率:藝九*l1;pY*與X*的相關(guān)系數(shù)為p=jX*e*。liY*,X*“ijij二、樣本主成分前面討論的是總體主成分,但在實際問題中,一般(或p)是未知的,需要通過樣本來估計。設x,(x,x,x)

4、卩,i,1,2,.,n.ii1i2ip為取自X,(X,X,X)T12p的一個容量為n的簡單隨機樣本,則樣本協(xié)方差矩陣及樣本相關(guān)矩陣分別為s,G)可pxpR,(r)ijpxpn1(x一x)(x一x)T9)k,1,1xniji=1其中x,(x,x,x)T,x12psij1區(qū)(x一x)(x一x),i,j,1,2,.,pn一1kiikjjk,1分別以S和R作為和p的估計,然后按總體主成分分析的方法作樣本主成分分析。三、例題某市為了全面分析機械類個企業(yè)的經(jīng)濟效益,選擇了8個不同的利潤指標,14企業(yè)關(guān)于這8個指標的統(tǒng)計數(shù)據(jù)如下表所示,試進行主成分分析。表114家企業(yè)的利潤指標的統(tǒng)計數(shù)據(jù)變量企業(yè)序號凈產(chǎn)值利

5、潤率(%)xi1固定資產(chǎn)利潤率(%)xi2總產(chǎn)值利潤率(%)xi2銷售收入利潤率(%)xi3產(chǎn)品成本利潤率(%)xi5物耗利潤率(%)xi6人均利潤率x(千i7元/人)流動資金利潤率(%)xi8140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.516.416.722.829.33.01726.6722.07.89.910.212.61

6、7.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.6解:樣本均值向量為:元(2797910.95091008.54311.06414.6141.55214.686)t,樣本協(xié)方差矩陣為:

7、168.33360.35745.75741.21557.90671.6728.602101.62037.20716.82515.50523.53529.0294.78544.02324.84324.33536.47849.2783.62939.410S24.42336.28349.1463.67538.71856.04675.4045.00259.723103.0186.82174.5231.1376.722102.707168.3360.35745.75841.21657.90671.6728.602101.6260.35737.20716.82515.50523.53529.0294.78

8、4644.02345.75816.82524.84324.33536.47849.2783.62939.4141.21615.50524.33524.42336.28349.1463.674738.71857.90623.53536.47836.28356.04675.4045.002259.72371.67229.02949.27849.14675.404103.026.821574.5238.6024.78463.6293.67475.00226.82151.1376.7217101.6244.02339.4138.71859.72374.5236.7217102.71R0.762660.

9、707580.642810.596170.544260.621780.7728510.553410.514340.515380.468880.735620.7121410.987930.97760.974090.682820.7801910.980710.97980.697350.7730610.992350.626630.7871810.63030.7244910.622021由于S中主對角線元素差異較大,因此我們樣本相關(guān)矩陣R出發(fā)進行主成分分析。樣本相關(guān)矩陣R為:1矩陣R的特征值及相應的特征向量分別為:特征值特征向量6.13660.321130.295160.389120.384720.3

10、79550.370870.319960.355461.0421-0.4151-0.597660.229740.278690.316320.37151-0.27814-0.156840.43595-0.451230.10303-0.0398950.053874-0.0372920.0751860.77059-0.424780.22037-0.668170.36336-0.22596-0.110810.148740.069353-0.134950.559490.15191-0.0382170.624350.12273-0.0369090.159280.21062-0.43006-0.581050.

11、0088274-0.101670.13584-0.158110.86226-0.25204-0.34506-0.13934-0.0265570.00296240.1596-0.061134-0.539660.0466060.7609-0.278090.06203-0.131260.00122380.19295-0.031987-0.641760.11002-0.253970.68791-0.006045-0.0054031R的特征值及貢獻率見下表特征值貢獻率()累計貝獻率()6.13660.767080.767081.04210.130270.897340.435950.0544940.951

12、840.220370.0275470.979380.151910.0189880.998370.00882740.00110340.999480.00296240.00037030.999850.00122380.000152971前3個標準化樣本主成分類及貢獻率已達到95.184%,故只需取前三個主成分即可。前3個標準化樣本主成分中各標準化變量x*=X二i(i=1,2,8)前的系數(shù)即為i反*II對應特征向量,由此得到3個標準化樣本主成分為,y=0.32113x*+029516x*+0.38912x*+0.38472x*+0.37955x*+0.37087x*+0.31996x*+0.3554

13、6x*12345678y=-0.4151x*-0.59766x*+0.22974x*+0.27869x*+0.31632x*+0.37151x*-0.27814x*-0.15684x*12345678y=-0.45123x*+0.10303x*-0.039895x*+0.053874x*-0.037292x*+0.075186x*+0.77059x*-0.42478x*12345678注意到,y近似是8個標準化變量x*=Xi_i-(i=1,2,S)的等權(quán)重之和,是反映各企1頁ii業(yè)總效應大小的綜合指標,y的值越大,則企業(yè)的效益越好。由于y的貢獻率高達1176.708%,故若用y的得分值對各企業(yè)

14、進行排序,能從整體上反映企業(yè)之間的效應差別。1將S中s的值及x中各元的值以及各iii企業(yè)關(guān)于X的觀測值代入y勺表達式中,可求得各企業(yè)y勺得分及其按其得分由大到小的排序結(jié)果。企業(yè)序號得分12-0.973544-0.648563-0.6274311-0.4855810-0.219497-0.18914-0.00480350.01687980.17711130.1892510.2935120.6531560.8556690.96285所以,第9家企業(yè)的效益最好,第12家企業(yè)的效益最差。Matlab程序:coeff,score,latent二princomp(X)注:該函數(shù)使用協(xié)方差陣作主成分分析。主

15、成分分析程序a=;b二corrcoef(zscore(a)%計算相關(guān)系數(shù)矩陣D二tril(b)%得到三角矩陣d,v二eig(b)%計算特征值和特征向量y1=zscore(a)*d(:,7)%計算第一主成分數(shù)值f1,i1=sort(y1);f2,i2=sort(i1);flipud(il),flipud(fl),f2%第一主成分得分排序y2=zscore(a)*d(:,6)%計算第二主成分數(shù)值f1,i1=sort(y2);f2,i2=sort(i1);flipud(il),flipud(fl),f2%第二主成分得分排序y3=zscore(a)*d(:,5)%計算第三主成分數(shù)值f1,i1=sort(y3);f2,i2=sort(i1);flipud(il),flipud(fl),f2%第三主成分得分排序y4=zscore(a)*d(:,4)%計算第三主成分數(shù)值f1,i1=sort(y4);f2,i2=sort(i1);flipud(il),flipud(fl),f2%第si主成分得分排序y5二zscore(a)*d(:,3)%計算第一主成分數(shù)值f1,i1=sort(y1);f2,i2=sort(i1);flipud(il),flipud(fl),f2%第一主成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論