主成分分析的概念及基本思想主成分分析PrincipleComponent_第1頁
主成分分析的概念及基本思想主成分分析PrincipleComponent_第2頁
主成分分析的概念及基本思想主成分分析PrincipleComponent_第3頁
主成分分析的概念及基本思想主成分分析PrincipleComponent_第4頁
主成分分析的概念及基本思想主成分分析PrincipleComponent_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1、主成分分析的概念及基本思想主成分分析 (Principle Component Analysis, PCA)是最為常用的特征提取方法, 被廣泛應(yīng)用到各領(lǐng)域,如圖像處理、綜合評價(jià)、語音識別、故障診斷等。它通過對原始數(shù)據(jù)的加工處理,簡化問題處理的難度并提高數(shù)據(jù)信息的信噪比,以改善抗干擾能力。主成分概念首先由 Karl parson 在 1901 年引進(jìn),不過當(dāng)時(shí)只是對非隨機(jī)變量進(jìn)行討論, 1933 年 Hotelling 將這個(gè)概念推廣到隨機(jī)向量。在實(shí)際問題中,研究多指標(biāo) (變量 )問題是經(jīng)常遇到的,然而在多數(shù)情況下,不同指標(biāo)之間是有一定相關(guān)性。由于指標(biāo)較多并且指標(biāo)之間有一定的相關(guān)性,勢必增加

2、了分析問題的復(fù)雜性。 主成分分析就是設(shè)法將原來眾多具有一定相關(guān)性的指標(biāo) (比如 p 個(gè)指標(biāo) ),重新組合成一組新的相互無關(guān)的綜合指標(biāo)來代替原來指標(biāo) 。通常數(shù)學(xué)上的處理就是將原來 p 個(gè)指標(biāo)作線性組合, 作為新的綜合指標(biāo), 但是這種線性組合,如果不加限制,則可以有很多,我們應(yīng)該如何去選取呢?如果將選取的第一個(gè)線性組合即第一個(gè)綜合指標(biāo)記為F1,自然希望 F1 盡可能多的反映原來指標(biāo)的信息,這里的“信息”用什么來表達(dá)?最經(jīng)典的方法就是用F1 的方差來表達(dá),即Var(F1)越大,表示 F1 包含的信息越多。因此在所有的線性組合中所選取的F1 應(yīng)該是方差最大的,故稱 F1 為第一主成分。 如果第一主成分

3、不足以代表原來P 個(gè)指標(biāo)的信息, 再考慮選取 F2 即選第二個(gè)線性組合, 為了有效地反映原來信息, F1 已有的信息就不需要再出現(xiàn)在 F2 中,用數(shù)學(xué)語言表達(dá)就是要求 Cov(F1,F(xiàn)2)=0 ,稱 F2 為第二主成分,依此類推可以構(gòu)造出第三,四,第 p 個(gè)主成分。不難想象這些主成分之間不僅不相關(guān),而且它們的方差依次遞減。因此在實(shí)際工作中,就挑選前幾個(gè)最大主成分,雖然這樣做會(huì)損失一部分信息,但是由于它使我們抓住了主要矛盾,并從原始數(shù)據(jù)中進(jìn)一步提取了某些新的信息。因而在某些實(shí)際問題的研究中得益比損失大,這種既減少了變量的數(shù)目又抓住了主要矛盾的做法有利于問題的分析和處理。2、主成分分析的數(shù)學(xué)模型及

4、幾何意義2.1、數(shù)學(xué)模型設(shè)有 n 個(gè)樣品,每個(gè)樣品觀測p 項(xiàng)指標(biāo) (變量 ): X 1,X2, .Xp,得到原始數(shù)據(jù)資料陣:x11x12x1px21x22x2 p, X 2, ,X p )X(X 1xn1xn2xnp其中x1iX i =x2ii =1,2, ,pxni用數(shù)據(jù)矩陣 X 的 p 個(gè)向量 (即 p 個(gè)指標(biāo)向量 )X 1,X2 , X p 作線性組合 (即綜合指標(biāo)向量 )為:FaX1aX2apXp 111 12 1FaX1aX2apXp 221 22 2Fpa1 p X 1 a p2X 2app X p簡寫成FaXia XaXpi1 , 2 , , pi1 i2 i 2p i其中, X

5、i 是 n 維向量,所以Fi 也是 n 維向量。上述方程組要求:a12ia22ia2pi1i1,2, p且系數(shù)aij由下列原則決定:(1)Fi 與Fj (ij,i,j=1,p)不相關(guān);F1 是 X 1 ,X2, ,X p 的一切線性組合 (系數(shù)滿足上述方程組 )中方差最大的, F2與 F1 不相關(guān)的 X 1 ,X 2, ,Xp 一切線性組合中方差最大的,F(xiàn)p 是與 F1,F(xiàn)2,F(xiàn)p-1 都不相關(guān)的 X 1 ,X2, ,X p 的一切線性組合中方差最大的。如何求滿足上述要求的方程組的系數(shù)aij 呢?下一節(jié)將會(huì)看到每個(gè)方程式中的系數(shù)向量 (a1i,a2i , ,api),i=1,2, ,p 不是別

6、的而恰好是X 的協(xié)差陣的特征值所對應(yīng)的特征向量,也就是說,數(shù)學(xué)上可以證明使Var(F1)達(dá)到最大,這個(gè)最大值是在協(xié)方差陣的第一個(gè)特征值所對應(yīng)特征向量處達(dá)到。依此類推使 Var(Fp)達(dá)到最大值是在協(xié)方差陣的第p 個(gè)特征值所對應(yīng)特征向量處達(dá)到。2.2、主成分的幾何意義從代數(shù)學(xué)觀點(diǎn)看主成分就是p 個(gè)變量 X 1 ,X2,,X p 的一些特殊的線性組合, 而在幾何上這些線性組合正是把X 1 ,X 2,,X p 構(gòu)成的坐標(biāo)系旋轉(zhuǎn)產(chǎn)生的新坐標(biāo)系,新坐標(biāo)軸使之通過樣品變差最大的方向(或說具有最大的樣品方差) 。下面以最簡單的二元正態(tài)變量來說明主成分的幾何意義。設(shè)有 n 個(gè)樣品,每個(gè)樣品有p 個(gè)變量記為 X

7、 1 ,X 2, ,X p,它們的綜合變量記為F1, F2 , Fp 。當(dāng) p=2 時(shí),原變量是 X 1, X 2,它們有下圖的相關(guān)關(guān)系:主成分的意義對于二元正態(tài)分布變量, n 個(gè)分散的點(diǎn)大致形成為一個(gè)橢圓,若在橢圓長軸方向取坐標(biāo)軸 F1,在短軸方向聚 F2,這相當(dāng)于在平面上作一個(gè)坐標(biāo)變換,即按逆時(shí)針方向旋轉(zhuǎn) 角度,根據(jù)旋轉(zhuǎn)軸變換公式新老坐標(biāo)之間有關(guān)系:F1X1 cosX 2 sinF2X1 sinX2 cos矩陣表示為:F1cossinX1U XF2sincosX2顯然 UT=U-1 且是正交矩陣,即UTU=I 。從上圖還容易看出二維平面上的n 個(gè)點(diǎn)的波動(dòng) (可用方差表示 )大部分可以歸結(jié)為

8、在 F1 軸上的波動(dòng),而在 F2 軸上的波動(dòng)是較小的。如果上圖的橢圓是相當(dāng)扁平的,那么我們可以只考慮 F1 方向上的波動(dòng),忽略 F2 方向的波動(dòng)。這樣一來,二維可以降為一維了,只取第一個(gè)綜合變量 F1 即可。而 F1 是橢圓的長軸。 一般情況 ,p 個(gè)變量組成 p 維空間, n 個(gè)樣品就是 p 維空間的 n 個(gè)點(diǎn),對 p 元正態(tài)分布變量來說,找主成分的問題就是找P 維空間中橢球體的主軸問題。3、主成分分析的推導(dǎo)在下面推導(dǎo)過程中,要用到線性代數(shù)中的兩個(gè)定理:定理一若 A是 p*p 階實(shí)對稱陣,則一定可以找到正交陣U 使100020,其中 1,2, p是 A 的特征根。U 1AU00p定理二若上述

9、矩陣 A 的特征根所對應(yīng)的單位特征向量為u1, u2, up 令u11u12u1pUu21u22u2p(u1 , u2 , ,up )up1u p2u pp則實(shí)對稱 A 屬于不同特征根所對應(yīng)的特征向量是正交的,即uuj0UU TUTU Ii設(shè) F a Xa X2a XpaT X ,其中 a=(a1,a2,ap)T,X=(X 1,X 2,112pXp )T,求主成分就是尋找X 的線性函數(shù) aT X 使相應(yīng)得方差盡可能地大,即使Var (F )Var (aT X )aTa達(dá)到最大值,且 aT。a=1設(shè)協(xié)方差矩陣的特征根為1,2,p,不妨假設(shè)12p0,相應(yīng)的單位特征向量為u1, u2, up。令U(

10、u1 ,u2 ,up )u11u12u21u22u1pu2pu21u22由前面線性代數(shù)定理可知: UTU=UU T=I,且100020UU T00p因此ppaT ai aT ui uTi ai (aT ui )( aT ui )Ti 1i1所以pu2ppi ui uii 1p(aT ui )2i 1aT a1(aT u)21(aTU )( aT U )TaTUU T a1aT a1i1i 1而且,當(dāng) a=u1 時(shí)有ppTu1T(i ui uT)u1TTu1Tu1 )2u1u1ii u1ui ui1 (u11i 1i 1因此, a=u1 使 Var(aTX)=a Ta 達(dá)到最大值,且Var (u

11、1T X )u1T u11同理Var (uiT X )i而且ppcov( uiT ,uTj ) uiT u j uiT (aua uaT )u ja (uiT ua )( uaT u j ) 0, i ja 1a1上述推導(dǎo)表明: X 1,X2,Xp 的主成分就是以E 的特征向量為系數(shù)的線性組合,它們互不相關(guān),其方差為的特征根。由于的特征根12p0,所以有 VarF1VarF2 VarFp0。了解這一點(diǎn)也就可以明白為什么主成分的名次是按特征根取值大小的順序排列的。在解決實(shí)際問題時(shí),一般不是取p 個(gè)主成分,而是根據(jù)累計(jì)貢獻(xiàn)率的大小取前pk 個(gè) 。 稱 第 一 主 成 分 的 貢 獻(xiàn) 率 為 i /

12、i, 由 于 有 Var (F1)1,所以i 1ppi /iVar ( F1 ) /Var ( Fi ) 。因此第一主成分的貢獻(xiàn)率就是第一主成分的方差在全i 1i1pX 1, X 2, ,X p 信息的部方差i中的比值。這個(gè)值越大,表明第一主成分綜合i1力越強(qiáng)。p前兩個(gè)主成分的累計(jì)貢獻(xiàn)率定義為 ( 12 ) /i , 前 k 個(gè)主成分的累計(jì)貢獻(xiàn)i1kp。如果前 k 個(gè)主成分的貢獻(xiàn)率達(dá)到85%,表明取前 k 個(gè)主成分率定義為i /ii1i1包含了全部測量指標(biāo)所具有的信息,這樣既減少了變量的個(gè)數(shù)又便于對實(shí)際問題進(jìn)行分析和研究。4、主成分分析的計(jì)算步驟設(shè) x = ( x 1 , x2 , ?, xn) T 為 n 維隨機(jī)矢量 ,則 PCA 具體計(jì)算步驟如下:將原始觀察數(shù)據(jù)組成樣本矩陣 X ,每一列為一個(gè)觀察樣本 x ,每一行代表一維數(shù)據(jù)。計(jì)算樣本的協(xié)方差矩陣:計(jì)算協(xié)方差矩陣 Cx 的特征值 i 及相應(yīng)特征向量 ui ,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論