pca和KPCA的詳細介紹與分析(全網(wǎng)最全,最經(jīng)典)_第1頁
pca和KPCA的詳細介紹與分析(全網(wǎng)最全,最經(jīng)典)_第2頁
pca和KPCA的詳細介紹與分析(全網(wǎng)最全,最經(jīng)典)_第3頁
pca和KPCA的詳細介紹與分析(全網(wǎng)最全,最經(jīng)典)_第4頁
pca和KPCA的詳細介紹與分析(全網(wǎng)最全,最經(jīng)典)_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第二章 主成分分析1. 主成分分析的基本原理 統(tǒng)計學(xué)上PCA的定義為用幾個較少的綜合指標(biāo)來代替原來較多的指標(biāo),而這些較少的綜合指標(biāo)既能盡多地反映原來較多指標(biāo)的有用信息,且相互之間又是無關(guān)的。作為一種建立在統(tǒng)計最優(yōu)原則基礎(chǔ)上的分析方法,主成分分析具有較長的發(fā)展歷史。在1901年,Pearson首先將變換引入生物學(xué)領(lǐng)域,并重新對線性回歸進行了分析,得出了變換的一種新形式。Hotelling于1933年則將其與心理測驗學(xué)領(lǐng)域聯(lián)系起來,把離散變量轉(zhuǎn)變?yōu)闊o關(guān)聯(lián)系數(shù)。在概率論理論建立的同時,主成分分析又單獨出現(xiàn),由Karhunen于1947年提出,隨后Loeve于1963年將其歸納總結(jié)。因此,主成分分析也

2、被稱為K-L變換1。PCA運算就是一種確定一個坐標(biāo)系統(tǒng)的直交變換,在這個新的坐標(biāo)系統(tǒng)下,變換數(shù)據(jù)點的方差沿新的坐標(biāo)軸得到了最大化。這些坐標(biāo)軸經(jīng)常被稱為是主成分。PCA運算是一個利用了數(shù)據(jù)集的統(tǒng)計性質(zhì)的特征空間變換,這種變換在無損或很少損失了數(shù)據(jù)集的信息的情況下降低了數(shù)據(jù)集的維數(shù)。PCA的基本原理如下:給定輸入數(shù)據(jù)矩陣 (通常),它由一些中心化的樣本數(shù)據(jù)構(gòu)成,其中且 (2-1)PCA通過式(2-2)將輸入數(shù)據(jù)矢量變換為新的矢量 (2-2)其中:U是一個正交矩陣,它的第列是樣本協(xié)方差矩陣 (2-3)的第個本征矢量。換句話說,PCA首先求解如下的本征問題 (2-4)其中是的一個本征值,是相應(yīng)的本征矢

3、量。當(dāng)僅利用前面的個本征矢量時(對應(yīng)本征值按降序排列),得矩陣 。新的分量稱為主分量2。最大特征值對應(yīng)的最大特征向量就是第一個主成分,這個特征向量就是數(shù)據(jù)有最大方差分布的方向。第二主成分也就是第二大特征值對應(yīng)的特征向量,數(shù)據(jù)點沿著這個方向方差有第二大變化,且這個特征向量與第一個是正交的。 實際過程中原始數(shù)據(jù)如果沒有經(jīng)過中心化,即式(2-1)不成立,則也可以對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理。即對每一個指標(biāo)分量作標(biāo)準(zhǔn)化處理 (2-5)其中樣本均值: (2-6)樣本標(biāo)準(zhǔn)差: (2-7)得到,接下來進行以上運算,這就是標(biāo)準(zhǔn)的PCA,這種標(biāo)準(zhǔn)化方法有效的減少了數(shù)據(jù)量綱對數(shù)據(jù)提取的影響3。 2. 主成分分析的實現(xiàn)步驟

4、基于上述主成分分析的基本原理,可以得出主成分分析的計算步驟如下所示:1、將所獲得的個指標(biāo)(每一指標(biāo)有個樣品)的一批數(shù)據(jù)寫成一個()維數(shù)據(jù)矩陣2、對矩陣A作標(biāo)準(zhǔn)化處理:即對每一個指標(biāo)分量進行標(biāo)準(zhǔn)化處理,利用公式(2-5),從而得到。3、由式(2-8)計算樣本矩陣的相關(guān)系數(shù)矩陣 (2-8)4、運用Jacobi迭代方法計算R的特征值,即對應(yīng)的特征向量。5、特征值按降序排序(通過選擇排序)得并對特征向量進行相應(yīng)調(diào)整得。6、通過施密特正交化方法單位正交化特征向量,得到。7、計算特征值的累積貢獻率,根據(jù)給定的提取效率,如果,則提取個主成分。8、計算已標(biāo)準(zhǔn)化的樣本數(shù)據(jù)X在提取出的特征向量上的投影,其中。所得

5、的Y即為進行特征提取后的數(shù)據(jù)也就是數(shù)據(jù)降維后的數(shù)據(jù)。第三章 基于核的主成分分析1. 核方法作為一種由線性到非線性之間的橋梁,核方法的相關(guān)研究起源于20世紀(jì)初葉,其在模式識別中的應(yīng)用至少可以追溯到1964年,然而直到最近幾年,核方法的研究開始得到廣泛的重視,從而相繼提出了各種基于核方法的理論和方法。核方法是一系列先進性數(shù)據(jù)處理技術(shù)的總稱,其共同特點是這些數(shù)據(jù)處理方法都應(yīng)用了核映射。核函數(shù)方法的基本原理是通過非線性函數(shù)把輸入空間映射到高維空間,在特征空間中進行數(shù)據(jù)處理,其關(guān)鍵在于通過引入核函數(shù),把非線性變換后的特征空間內(nèi)積運算轉(zhuǎn)換為原始空間的核函數(shù)計算,從而大大簡化了計算量4。從具體操作過程上看,

6、核方法首先采用非線性映射將原始數(shù)據(jù)由數(shù)據(jù)空間映射到特征空間,進而在特征空間進行對應(yīng)的線性操作,如圖3-1所示:由于采用了非線性映射,且這種非線性映射往往是比較復(fù)雜的,從而大大增強了非線性數(shù)據(jù)的處理能力。 從本質(zhì)上講,核方法實現(xiàn)了數(shù)據(jù)空間、特征空間、和類別空間之間的非線性變換。設(shè)和為數(shù)據(jù)空間中的樣本點,數(shù)據(jù)空間到特征空間的映射函數(shù)為,核函數(shù)的基礎(chǔ)是實現(xiàn)向量的內(nèi)積變換 (3-1) 通常,非線性變換函數(shù)相當(dāng)復(fù)雜,而運算過程中實際用到的核函數(shù)則相對簡單的多,這正是核方法迷人的地方。核方法由特征空間回到數(shù)據(jù)空間非線性映射數(shù)據(jù)空間特征空間由數(shù)據(jù)空間回到特征空間非線性操作SVMSVRKPCAKFD線性操作:

7、分類回歸PCAFD圖3-1 核方法框架示意圖對于核函數(shù)必須滿足Mercer條件:對于任意給定的對稱函數(shù),它是某個特征空間中的內(nèi)積運算的充要條件是對于任意的不恒為0的函數(shù)滿足,有 (3-2)式(3-2)給出了函數(shù)成為核函數(shù)的充要條件??紤]到核方法的基礎(chǔ)是實現(xiàn)了一種由輸入空間到特征空間的非線性映射,假設(shè)輸入空間數(shù)據(jù)為,對任意對稱、連續(xù)且滿足Mercer條件的函數(shù),存在一個Hilbert空間,對映射有 (3-3)式中是空間的維數(shù)。常用的核函數(shù)有以下幾種形式:線性核函數(shù) (3-4)P階多項式核函數(shù) (3-5)高斯徑向基函數(shù)(RBF)核函數(shù) (3-6)多層感知器核函數(shù) (3-7)2. 基于核的主成分分析

8、的基本原理假設(shè)為訓(xùn)練樣本,用表示輸入空間。KPCA方法的基本思想是通過某種隱式方式將輸入空間映射到某個高維空間(常稱為特征空間),并且在特征空間中實現(xiàn)PCA5,6 。假設(shè)相應(yīng)的映射為,其定義如下核函數(shù)通過映射將隱式的實現(xiàn)點到F的映射,并且由此映射而得的特征空間中數(shù)據(jù)滿足中心化的條件,即 (3-8)則特征空間中的協(xié)方差矩陣為: (3-9)現(xiàn)求的特征值和特征向量, (3-10)即有 (3-11) 考慮到所有的特征向量可表示為的線性張成,即 (3-12)則有 (3-13)其中。定義維矩陣K (3-14)則式子(3-13)可以簡化為 (3-15)顯然滿足 (3-16)求解(3-16)就能得到特征值和特

9、征向量,對于測試樣本在特征向量空間的投影為 (3-17)將內(nèi)積用核函數(shù)替換則有 (3-18)當(dāng)(3-8)不成立時,需進行調(diào)整, (3-19)則核矩陣可修正為 (3-20)3. 基于核的主成分分析的實現(xiàn)步驟基于上述KPCA的基本原理,可得KPCA的處理過程如下:1、將所獲得的個指標(biāo)(每一指標(biāo)有個樣品)的一批數(shù)據(jù)寫成一個()維數(shù)據(jù)矩陣。2、計算核矩陣,先選定高斯徑向核函數(shù)中的參數(shù),再由式(3-14),計算核矩陣K。3、通過(3-20)修正核矩陣得到KL。4、運用Jacobi迭代方法計算KL的特征值即對應(yīng)的特征向量。5、特征值按降序排序(通過選擇排序)得并對特征向量進行相應(yīng)調(diào)整得。6 、通過施密特正

10、交化方法單位正交化特征向量,得到。7、計算特征值的累積貢獻率,根據(jù)給定的提取效率,如果,則提取個主分量。8、計算已修正的核矩陣在提取出的特征向量上的投影,其中。所得的投影即為數(shù)據(jù)經(jīng)KPCA降維后所得數(shù)據(jù)。4. PCA和KPCA的比較主成分分析屬于代數(shù)特征分析方法,是模式識別領(lǐng)域中一種經(jīng)典的特征抽取和降維方法。但是PCA的缺點是需要很大的存儲空間和計算復(fù)雜度。如果原始空間的維數(shù)是, PCA需要分解一個的非稀疏矩陣。因為PCA是一種線性映射方法,降維后的表示是由線性映射生成的,它忽略了數(shù)據(jù)之間高于2階的相互關(guān)系,所以抽取的特征并不是最優(yōu)的,這在一定程度上影響了PCA方法的效果7。核主成分分析是線性

11、PCA的非線性擴展算法,它采用非線性的方法抽取主成分,即KPCA是在通過映射函數(shù)把原始向量映射到高維空間F,在F上進行PCA分析8。KPCA與PCA具有本質(zhì)上的區(qū)別:PCA是基于指標(biāo)的,而KPCA是基于樣本的。KPCA不僅適合于解決非線性特征提取問題,而且它還能比PCA提供更多的特征數(shù)目和更多的特征質(zhì)量,因為前者可提供的特征數(shù)目與輸入樣本的數(shù)目是相等的,而后者的特征數(shù)目僅為輸入樣本的維數(shù)4。KPCA的優(yōu)勢是可以最大限度地抽取指標(biāo)的信息;但是KPCA抽取指標(biāo)的實際意義不是很明確,計算也比PCA復(fù)雜。PCA的主分量具有如下的特征:1、行矢量線形無關(guān);2、用最前面的幾個主分量表示原輸入,其均方逼近誤

12、差最小9。KPCA的特征與特征空間中的PCA的特征是一樣的。其特征如下:1、前()個主成分或者是特征向量上的投影,與其余個正交方向相比有較大的方差。2、通過前個主分量(在任意個可能的方向中)描繪中的觀測報告所產(chǎn)生的均方近似誤差是最小的。3、主成分之間是線形無關(guān)的。4、前個主分量相對于輸入而言擁有最大的共有信息量。這表明典型的PCA的性質(zhì)在特征空間中依然得到保留,如最大變化的正交方向、最小的L2-重建誤差、相對于輸入而言最大的共有信息等9。 5. 主動學(xué)習(xí)在基于核的主成分分析中的應(yīng)用基于核的主成分分析方法是基于樣本的,計算所需的時間和內(nèi)存與輸入空間的維數(shù)無關(guān),但與樣本數(shù)目卻密切相關(guān)。隨著樣本數(shù)量

13、的增多,計算的時間復(fù)雜度和空間復(fù)雜度也隨之增加。事實上,各個樣本點對降維的貢獻是不一樣,因此可以通過第一主元對應(yīng)的特征向量(其中為樣本的數(shù)目)來過濾樣本的方法減少樣本數(shù)目。具體操作步驟如下:1、取該主元特征向量分量的絕對值,并對所得的絕對值進行降序排序得到,并記錄其對應(yīng)的樣本標(biāo)號。2、計算的各個分量累計所占比重,若大于給定的值,提取中的前個值,并將所得的個樣本編號升序排序得,以此樣本編號對應(yīng)的樣本組合成新的樣本數(shù)據(jù),即。3、對XX執(zhí)行一次KPCA運算,提取出主成分為V,計算投影,其中KK為提取出的樣本標(biāo)號對應(yīng)的核矩陣KL(原始數(shù)據(jù)對應(yīng)的修正的核矩陣)的行組合而成。這種方法能簡化計算量,但如果樣

14、本數(shù)目太多時,上述方法顯然不可行。一是耗費太多的時間,二是運算需要占用太多的內(nèi)存,比如,128M內(nèi)存只能完成3000個樣本的計算4。這就需要對樣本進行分組訓(xùn)練,這種對樣本進行篩選方法叫做AKPCA 。設(shè)樣本數(shù)目為N,現(xiàn)在將其分成M組,為每一組中具有的樣本數(shù)目,設(shè)第組中與第一投影方向相對應(yīng)的系數(shù)向量為:,并假設(shè)每一組中保留的樣本數(shù)目為,由下式?jīng)Q定: (3-21)式中為閾值,可根據(jù)問題需要確定,越小,篩選掉的樣本越多,但也可能產(chǎn)生較大的誤差。由排序得來,滿足:。綜上,AKPCA的具體計算方法為:1、重采樣,形成組樣本;2、對各組樣本進行KPCA,對樣本進行初步篩選;3、組合初步篩選好的樣本,形成新的樣本集,并對之進行KPCA,在此基礎(chǔ)上,對樣本進一步篩選;4、根據(jù)問題的規(guī)模,重復(fù)上述3步,直到形成最終的投影方向4。實際上也可以用前兩個主分量的絕對值的和來代替第一主分量的絕對值來篩選樣本,達到簡化樣本數(shù)目的目的。該實驗中就是采用了這種方法。6. 核主成分分析的應(yīng)用及進一步研究KPCA由于其特征提取速度快、特征信息保留充分等特征,被廣泛的應(yīng)用到模式識別中。比如去噪,人臉識別,三維物體識別,遙感圖像分析等方面都有廣泛的應(yīng)用11。KPCA存在三點不足:各特征的物理意義很不明確,一般的PCA僅是原有各特征的線性疊加,還可以勉強找出其含義,而KPCA是不可能明確其物理意義的;求投影所需的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論