多元統(tǒng)計(jì)分析課件(主成分分析)_第1頁
多元統(tǒng)計(jì)分析課件(主成分分析)_第2頁
多元統(tǒng)計(jì)分析課件(主成分分析)_第3頁
多元統(tǒng)計(jì)分析課件(主成分分析)_第4頁
多元統(tǒng)計(jì)分析課件(主成分分析)_第5頁
已閱讀5頁,還剩48頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第七章

主成分分析

第一節(jié)什么是主成分分析及基本思想

主成分分析(PrincipalComponentsAnalysis)也稱主分量分析

是將多項(xiàng)指標(biāo),化為少數(shù)幾個(gè)不相關(guān)的綜合指標(biāo)的一種統(tǒng)計(jì)方法。

在經(jīng)濟(jì)問題研究中,為了全面、系統(tǒng)地分析問題,我們必須考慮眾多對某經(jīng)濟(jì)過程有影響的因素,這些因素也叫指標(biāo),在多元統(tǒng)計(jì)分析中也稱為變量。每個(gè)指標(biāo)都在不同程度上反映了所研究問題的某些信息。但是1、指標(biāo)之間彼此有一定的相關(guān)性,使得相應(yīng)的統(tǒng)計(jì)數(shù)據(jù)在一定程度上反映的信息有重疊。主成分分析可將相關(guān)的指標(biāo)化成一些不相關(guān)的指標(biāo),避免了信息重疊帶來的虛假性。2、在用統(tǒng)計(jì)方法研究多變量問題時(shí),變量太多會(huì)增大計(jì)算量和增加分析問題的復(fù)雜性,人們自然希望在進(jìn)行定量分析的過程中所涉及的變量要少,而得到的信息量又要多。主成分分析是解決這些問題的理想工具。在綜合評價(jià)工業(yè)企業(yè)的經(jīng)濟(jì)效益中,考核指標(biāo)有:1每百元固定資產(chǎn)原值實(shí)現(xiàn)產(chǎn)值、2每百元固定資產(chǎn)原值實(shí)現(xiàn)利稅、3每百元資金實(shí)現(xiàn)利稅、4每百元工業(yè)總產(chǎn)值實(shí)現(xiàn)利稅、5每百元銷售收入實(shí)現(xiàn)利稅、6每噸標(biāo)準(zhǔn)煤實(shí)現(xiàn)工業(yè)產(chǎn)值、7每千瓦電力實(shí)現(xiàn)工業(yè)產(chǎn)值、8全員勞動(dòng)生產(chǎn)率、9每百元流動(dòng)資金實(shí)現(xiàn)的產(chǎn)值指標(biāo)間信息有重疊,指標(biāo)數(shù)量又多。經(jīng)過主成分分析計(jì)算,最后確定選擇了2個(gè)主成分作為綜合評價(jià)工業(yè)企業(yè)經(jīng)濟(jì)效益的依據(jù),變量數(shù)由9個(gè)減少到2個(gè),這兩個(gè)主成分代表的信息達(dá)91.6%,使所研究的問題簡化。所謂主成分就是原指標(biāo)的線性組合。主成分可以有很多個(gè),反應(yīng)原指標(biāo)信息最多的稱為第一主成分,其次是第二主成分,…等等。所謂反應(yīng)原指標(biāo)的信息多就是其方差大,方差越大,它反應(yīng)的信息就越多,因此選方差最大的作為第一主成分,…。

一項(xiàng)十分著名的工作是美國的統(tǒng)計(jì)學(xué)家斯通(stone)在1947年關(guān)于國民經(jīng)濟(jì)的研究。選擇17個(gè)反映國民收入與支出的變量因素,例如雇主補(bǔ)貼、消費(fèi)資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等,他利用美國1929一1938年各年的數(shù)據(jù)。

在進(jìn)行主成分分析后,竟以97.4%的精度,用3個(gè)新變量取代了原17個(gè)變量。根據(jù)經(jīng)濟(jì)學(xué)知識,斯通給這3個(gè)新變量分別命名為

總收入F1、總收入變化率F2經(jīng)濟(jì)發(fā)展或衰退的趨勢F3

第二節(jié)主成分分析的

數(shù)學(xué)模型與幾何解釋X1X2

一、幾何解釋(幾何意義):為了直觀,先在二維空間中討論主成分的幾何意義。設(shè)對每個(gè)樣品觀測兩個(gè)變量X1和X2的數(shù)據(jù)如下X1123456X2246810

12

樣品點(diǎn)完全在同一條直線上,這條直線的方程是:X2=2X1X1X2其散點(diǎn)圖如下θX1F2

X2F1

因?yàn)闃悠伏c(diǎn)都在F1軸上,F(xiàn)1方向有離散性,F(xiàn)2方向無離散性,也就無區(qū)別??梢杂肍1來描述這些樣品點(diǎn),,因此在新坐標(biāo)系中只需用F1一個(gè)變量就可以描述原來需用兩個(gè)變量X1和X2描述的樣品。那么F1包含了原來變量X1和X2的100%的信息。在實(shí)際問題中,這樣的情況是很少見的。一般情況下,例如有n個(gè)樣品,每個(gè)樣品有兩個(gè)變量值X1和X2,則n個(gè)樣品的散點(diǎn)圖如帶狀.由圖可見這n個(gè)樣品點(diǎn)無論是沿著X1軸方向或X2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量X1的方差和X2的方差定量地表示。X1X1

θ

X2F2

F1

X1

同樣我們將X1軸和X2軸同時(shí)按逆時(shí)針方向旋轉(zhuǎn)θ角度,得到新坐標(biāo)軸F1和F2

。F1和F2是兩個(gè)新變量。根據(jù)解析幾何中的坐標(biāo)旋轉(zhuǎn)變換公式:新變量Fl和F2是原變量X1和X2的線性組合,用矩陣表示為:其中由線性代數(shù)我們知道:U是正交矩陣U的列向量都是單位向量且兩兩正交。U的列向量都是單位向量兩兩正交說明Fl與F2不相關(guān)。相關(guān)系數(shù)為零。旋轉(zhuǎn)變換的目的是為了使得n個(gè)樣品點(diǎn)在Fl軸方向上的離散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大部分信息,在研究某經(jīng)濟(jì)問題時(shí),即使不考慮變量F2也無損大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。

Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問題時(shí)避免了信息重疊所帶來的虛假性。二維平面上的樣品點(diǎn)的方差大部分都?xì)w結(jié)在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。由于n個(gè)樣品點(diǎn)在Fl軸上的方差最大,因而將二維空間的點(diǎn)的描述用Fl這個(gè)綜合變量來代替,所損失的信息最小,由此稱Fl為第一主成分,F(xiàn)2為第二主成分。那么在經(jīng)濟(jì)問題研究中我們可以只考慮F1方向上的信息,忽略F2方向上的信息,損失信息很少。這樣二維空間可以降為一維空間了。只取綜合變量F1,簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。二、數(shù)學(xué)模型:

假設(shè)我們所討論的實(shí)際問題中,有p個(gè)指標(biāo),我們把這p個(gè)指標(biāo)看作p個(gè)隨機(jī)變量,記為X1,X2,…,Xp

主成分分析就是要把這p個(gè)指標(biāo)的問題,轉(zhuǎn)變?yōu)橛懻損個(gè)指標(biāo)的線性組合的問題

主成分分析通常的做法是,尋求原指標(biāo)的線性組合Fi。用矩陣表示

用矩陣表示

并且滿足:

(i=1,2,…P)*F=

其中aij由下列原則來確定:1、不相關(guān)性,F(xiàn)i與Fj不相關(guān)。即(a1i,a2i,…,api)與(a1j,a2j,…,apj)正交,也即ai與aj正交,2、方差極大條件,F(xiàn)l是Xl,X2,…,Xp的一切線性組合(系數(shù)滿足*式)中方差最大者;F2是與Fl不相關(guān)的Xl,X2,…,Xp的一切線性組合(系數(shù)滿足*式)中方差最大者;…;Fp是與Fl,F2,…,Fp-1都不相關(guān)的Xl,X2,…,Xp的一切線性組合(系數(shù)滿足*式)中方差最大者。

如此決定的綜合變量Fl,F2,…,Fp分別稱為原變量的第一主成分,第二主成分,第P主成分。其中Fl在總方差中占的比重最大,其余F2,…,Fp的方差依次遞減。主成分分析通常的做法是,尋求原指標(biāo)的線性組合Fi。并且滿足:1(i=1,2,…P)*2不相關(guān)性,F(xiàn)i與Fj不相關(guān)。即ai與aj正交,3方差極大條件,第三節(jié)主成分的推導(dǎo)及性質(zhì)定理1若A是p階實(shí)對稱陣,則一定可以找到正交陣U,使其中是A的特征根。

定理2、若上述矩陣A的特征根所對應(yīng)的單位特征向量為

則實(shí)對稱陣屬于不同特征根所對應(yīng)的特征向量是正交的,即有令1主成分的推導(dǎo)設(shè)F=為正交矩陣由協(xié)方差陣的性質(zhì),有D(AX)=AD(X)Aˊ這里D(F)=D()=UˊD(X)U或(1)又因?yàn)槭菍?shí)對稱矩陣,則存在正交矩陣U使

(2)因此可知U可由實(shí)對稱矩陣的單位特征向量構(gòu)成,即U可由|-λI|=0及(-λI)Y=0求出。這樣求出的F是否滿足條件?前兩條已滿足,因U是標(biāo)準(zhǔn)正交特征向量,下面看第三條是否滿足由(1)(2)可知而主對角線上的元素為Var(Fi)Var(Fi)=λi因?yàn)?/p>

所以在實(shí)際問題中的協(xié)方差陣通常未知,需要通過樣本協(xié)方差陣來估計(jì)。設(shè)有n個(gè)樣品,每個(gè)樣品測得p個(gè)指標(biāo),于是得到原始資料矩陣

是樣本協(xié)方差陣,作為總體協(xié)方差陣的無偏估計(jì),則由的單位特征向量構(gòu)成U,即由|-λI|=0求出λ然后代入(-λI)Y=0求出單位特征向量,構(gòu)成U主成分

(i=1,2,…P)F=是的特征根構(gòu)成的對角陣,ai是的特征根λi對應(yīng)的標(biāo)準(zhǔn)正交特征向量在實(shí)際問題中,利用主成分的目的是為了減少變量的個(gè)數(shù),所以一般不用P個(gè)主成分,而是根據(jù)如下方法選取前K個(gè)主成分。定義為第i主成分Fi的方差貢獻(xiàn)率。這個(gè)值越大,說明這個(gè)主成分Fi綜合原指標(biāo)信息的能力越強(qiáng)。定義(K≤P)為主成分Fl,F2,…,Fk的累積方差貢獻(xiàn)率。當(dāng)前K個(gè)主成分的累積方差貢獻(xiàn)率達(dá)到85%以上時(shí),就取K個(gè)主成分。這樣K個(gè)主成分基本反映了原指標(biāo)的信息,指標(biāo)數(shù)目由P個(gè)減少到K個(gè)。這種由討論多個(gè)指標(biāo)降為少數(shù)幾個(gè)綜合指標(biāo)的過程在數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論