




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第二章 主成分分析1. 主成分分析的基本原理 統(tǒng)計(jì)學(xué)上PCA的定義為用幾個(gè)較少的綜合指標(biāo)來代替原來較多的指標(biāo),而這些較少的綜合指標(biāo)既能盡多地反映原來較多指標(biāo)的有用信息,且相互之間又是無關(guān)的。作為一種建立在統(tǒng)計(jì)最優(yōu)原則基礎(chǔ)上的分析方法,主成分分析具有較長(zhǎng)的發(fā)展歷史。在1901年,Pearson首先將變換引入生物學(xué)領(lǐng)域,并重新對(duì)線性回歸進(jìn)行了分析,得出了變換的一種新形式。Hotelling于1933年則將其與心理測(cè)驗(yàn)學(xué)領(lǐng)域聯(lián)系起來,把離散變量轉(zhuǎn)變?yōu)闊o關(guān)聯(lián)系數(shù)。在概率論理論建立的同時(shí),主成分分析又單獨(dú)出現(xiàn),由Karhunen于1947年提出,隨后Loeve于1963年將其歸納總結(jié)。因此,主成分分析也
2、被稱為K-L變換1。PCA運(yùn)算就是一種確定一個(gè)坐標(biāo)系統(tǒng)的直交變換,在這個(gè)新的坐標(biāo)系統(tǒng)下,變換數(shù)據(jù)點(diǎn)的方差沿新的坐標(biāo)軸得到了最大化。這些坐標(biāo)軸經(jīng)常被稱為是主成分。PCA運(yùn)算是一個(gè)利用了數(shù)據(jù)集的統(tǒng)計(jì)性質(zhì)的特征空間變換,這種變換在無損或很少損失了數(shù)據(jù)集的信息的情況下降低了數(shù)據(jù)集的維數(shù)。PCA的基本原理如下:給定輸入數(shù)據(jù)矩陣 (通常),它由一些中心化的樣本數(shù)據(jù)構(gòu)成,其中且 (2-1)PCA通過式(2-2)將輸入數(shù)據(jù)矢量變換為新的矢量 (2-2)其中:U是一個(gè)正交矩陣,它的第列是樣本協(xié)方差矩陣 (2-3)的第個(gè)本征矢量。換句話說,PCA首先求解如下的本征問題 (2-4)其中是的一個(gè)本征值,是相應(yīng)的本征矢
3、量。當(dāng)僅利用前面的個(gè)本征矢量時(shí)(對(duì)應(yīng)本征值按降序排列),得矩陣 。新的分量稱為主分量2。最大特征值對(duì)應(yīng)的最大特征向量就是第一個(gè)主成分,這個(gè)特征向量就是數(shù)據(jù)有最大方差分布的方向。第二主成分也就是第二大特征值對(duì)應(yīng)的特征向量,數(shù)據(jù)點(diǎn)沿著這個(gè)方向方差有第二大變化,且這個(gè)特征向量與第一個(gè)是正交的。 實(shí)際過程中原始數(shù)據(jù)如果沒有經(jīng)過中心化,即式(2-1)不成立,則也可以對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。即對(duì)每一個(gè)指標(biāo)分量作標(biāo)準(zhǔn)化處理 (2-5)其中樣本均值: (2-6)樣本標(biāo)準(zhǔn)差: (2-7)得到,接下來進(jìn)行以上運(yùn)算,這就是標(biāo)準(zhǔn)的PCA,這種標(biāo)準(zhǔn)化方法有效的減少了數(shù)據(jù)量綱對(duì)數(shù)據(jù)提取的影響3。 2. 主成分分析的實(shí)現(xiàn)步驟
4、基于上述主成分分析的基本原理,可以得出主成分分析的計(jì)算步驟如下所示:1、將所獲得的個(gè)指標(biāo)(每一指標(biāo)有個(gè)樣品)的一批數(shù)據(jù)寫成一個(gè)()維數(shù)據(jù)矩陣2、對(duì)矩陣A作標(biāo)準(zhǔn)化處理:即對(duì)每一個(gè)指標(biāo)分量進(jìn)行標(biāo)準(zhǔn)化處理,利用公式(2-5),從而得到。3、由式(2-8)計(jì)算樣本矩陣的相關(guān)系數(shù)矩陣 (2-8)4、運(yùn)用Jacobi迭代方法計(jì)算R的特征值,即對(duì)應(yīng)的特征向量。5、特征值按降序排序(通過選擇排序)得并對(duì)特征向量進(jìn)行相應(yīng)調(diào)整得。6、通過施密特正交化方法單位正交化特征向量,得到。7、計(jì)算特征值的累積貢獻(xiàn)率,根據(jù)給定的提取效率,如果,則提取個(gè)主成分。8、計(jì)算已標(biāo)準(zhǔn)化的樣本數(shù)據(jù)X在提取出的特征向量上的投影,其中。所得
5、的Y即為進(jìn)行特征提取后的數(shù)據(jù)也就是數(shù)據(jù)降維后的數(shù)據(jù)。第三章 基于核的主成分分析1. 核方法作為一種由線性到非線性之間的橋梁,核方法的相關(guān)研究起源于20世紀(jì)初葉,其在模式識(shí)別中的應(yīng)用至少可以追溯到1964年,然而直到最近幾年,核方法的研究開始得到廣泛的重視,從而相繼提出了各種基于核方法的理論和方法。核方法是一系列先進(jìn)性數(shù)據(jù)處理技術(shù)的總稱,其共同特點(diǎn)是這些數(shù)據(jù)處理方法都應(yīng)用了核映射。核函數(shù)方法的基本原理是通過非線性函數(shù)把輸入空間映射到高維空間,在特征空間中進(jìn)行數(shù)據(jù)處理,其關(guān)鍵在于通過引入核函數(shù),把非線性變換后的特征空間內(nèi)積運(yùn)算轉(zhuǎn)換為原始空間的核函數(shù)計(jì)算,從而大大簡(jiǎn)化了計(jì)算量4。從具體操作過程上看,
6、核方法首先采用非線性映射將原始數(shù)據(jù)由數(shù)據(jù)空間映射到特征空間,進(jìn)而在特征空間進(jìn)行對(duì)應(yīng)的線性操作,如圖3-1所示:由于采用了非線性映射,且這種非線性映射往往是比較復(fù)雜的,從而大大增強(qiáng)了非線性數(shù)據(jù)的處理能力。 從本質(zhì)上講,核方法實(shí)現(xiàn)了數(shù)據(jù)空間、特征空間、和類別空間之間的非線性變換。設(shè)和為數(shù)據(jù)空間中的樣本點(diǎn),數(shù)據(jù)空間到特征空間的映射函數(shù)為,核函數(shù)的基礎(chǔ)是實(shí)現(xiàn)向量的內(nèi)積變換 (3-1) 通常,非線性變換函數(shù)相當(dāng)復(fù)雜,而運(yùn)算過程中實(shí)際用到的核函數(shù)則相對(duì)簡(jiǎn)單的多,這正是核方法迷人的地方。核方法由特征空間回到數(shù)據(jù)空間非線性映射數(shù)據(jù)空間特征空間由數(shù)據(jù)空間回到特征空間非線性操作SVMSVRKPCAKFD線性操作:
7、分類回歸PCAFD圖3-1 核方法框架示意圖對(duì)于核函數(shù)必須滿足Mercer條件:對(duì)于任意給定的對(duì)稱函數(shù),它是某個(gè)特征空間中的內(nèi)積運(yùn)算的充要條件是對(duì)于任意的不恒為0的函數(shù)滿足,有 (3-2)式(3-2)給出了函數(shù)成為核函數(shù)的充要條件??紤]到核方法的基礎(chǔ)是實(shí)現(xiàn)了一種由輸入空間到特征空間的非線性映射,假設(shè)輸入空間數(shù)據(jù)為,對(duì)任意對(duì)稱、連續(xù)且滿足Mercer條件的函數(shù),存在一個(gè)Hilbert空間,對(duì)映射有 (3-3)式中是空間的維數(shù)。常用的核函數(shù)有以下幾種形式:線性核函數(shù) (3-4)P階多項(xiàng)式核函數(shù) (3-5)高斯徑向基函數(shù)(RBF)核函數(shù) (3-6)多層感知器核函數(shù) (3-7)2. 基于核的主成分分析
8、的基本原理假設(shè)為訓(xùn)練樣本,用表示輸入空間。KPCA方法的基本思想是通過某種隱式方式將輸入空間映射到某個(gè)高維空間(常稱為特征空間),并且在特征空間中實(shí)現(xiàn)PCA5,6 。假設(shè)相應(yīng)的映射為,其定義如下核函數(shù)通過映射將隱式的實(shí)現(xiàn)點(diǎn)到F的映射,并且由此映射而得的特征空間中數(shù)據(jù)滿足中心化的條件,即 (3-8)則特征空間中的協(xié)方差矩陣為: (3-9)現(xiàn)求的特征值和特征向量, (3-10)即有 (3-11) 考慮到所有的特征向量可表示為的線性張成,即 (3-12)則有 (3-13)其中。定義維矩陣K (3-14)則式子(3-13)可以簡(jiǎn)化為 (3-15)顯然滿足 (3-16)求解(3-16)就能得到特征值和特
9、征向量,對(duì)于測(cè)試樣本在特征向量空間的投影為 (3-17)將內(nèi)積用核函數(shù)替換則有 (3-18)當(dāng)(3-8)不成立時(shí),需進(jìn)行調(diào)整, (3-19)則核矩陣可修正為 (3-20)3. 基于核的主成分分析的實(shí)現(xiàn)步驟基于上述KPCA的基本原理,可得KPCA的處理過程如下:1、將所獲得的個(gè)指標(biāo)(每一指標(biāo)有個(gè)樣品)的一批數(shù)據(jù)寫成一個(gè)()維數(shù)據(jù)矩陣。2、計(jì)算核矩陣,先選定高斯徑向核函數(shù)中的參數(shù),再由式(3-14),計(jì)算核矩陣K。3、通過(3-20)修正核矩陣得到KL。4、運(yùn)用Jacobi迭代方法計(jì)算KL的特征值即對(duì)應(yīng)的特征向量。5、特征值按降序排序(通過選擇排序)得并對(duì)特征向量進(jìn)行相應(yīng)調(diào)整得。6 、通過施密特正
10、交化方法單位正交化特征向量,得到。7、計(jì)算特征值的累積貢獻(xiàn)率,根據(jù)給定的提取效率,如果,則提取個(gè)主分量。8、計(jì)算已修正的核矩陣在提取出的特征向量上的投影,其中。所得的投影即為數(shù)據(jù)經(jīng)KPCA降維后所得數(shù)據(jù)。4. PCA和KPCA的比較主成分分析屬于代數(shù)特征分析方法,是模式識(shí)別領(lǐng)域中一種經(jīng)典的特征抽取和降維方法。但是PCA的缺點(diǎn)是需要很大的存儲(chǔ)空間和計(jì)算復(fù)雜度。如果原始空間的維數(shù)是, PCA需要分解一個(gè)的非稀疏矩陣。因?yàn)镻CA是一種線性映射方法,降維后的表示是由線性映射生成的,它忽略了數(shù)據(jù)之間高于2階的相互關(guān)系,所以抽取的特征并不是最優(yōu)的,這在一定程度上影響了PCA方法的效果7。核主成分分析是線性
11、PCA的非線性擴(kuò)展算法,它采用非線性的方法抽取主成分,即KPCA是在通過映射函數(shù)把原始向量映射到高維空間F,在F上進(jìn)行PCA分析8。KPCA與PCA具有本質(zhì)上的區(qū)別:PCA是基于指標(biāo)的,而KPCA是基于樣本的。KPCA不僅適合于解決非線性特征提取問題,而且它還能比PCA提供更多的特征數(shù)目和更多的特征質(zhì)量,因?yàn)榍罢呖商峁┑奶卣鲾?shù)目與輸入樣本的數(shù)目是相等的,而后者的特征數(shù)目?jī)H為輸入樣本的維數(shù)4。KPCA的優(yōu)勢(shì)是可以最大限度地抽取指標(biāo)的信息;但是KPCA抽取指標(biāo)的實(shí)際意義不是很明確,計(jì)算也比PCA復(fù)雜。PCA的主分量具有如下的特征:1、行矢量線形無關(guān);2、用最前面的幾個(gè)主分量表示原輸入,其均方逼近誤
12、差最小9。KPCA的特征與特征空間中的PCA的特征是一樣的。其特征如下:1、前()個(gè)主成分或者是特征向量上的投影,與其余個(gè)正交方向相比有較大的方差。2、通過前個(gè)主分量(在任意個(gè)可能的方向中)描繪中的觀測(cè)報(bào)告所產(chǎn)生的均方近似誤差是最小的。3、主成分之間是線形無關(guān)的。4、前個(gè)主分量相對(duì)于輸入而言擁有最大的共有信息量。這表明典型的PCA的性質(zhì)在特征空間中依然得到保留,如最大變化的正交方向、最小的L2-重建誤差、相對(duì)于輸入而言最大的共有信息等9。 5. 主動(dòng)學(xué)習(xí)在基于核的主成分分析中的應(yīng)用基于核的主成分分析方法是基于樣本的,計(jì)算所需的時(shí)間和內(nèi)存與輸入空間的維數(shù)無關(guān),但與樣本數(shù)目卻密切相關(guān)。隨著樣本數(shù)量
13、的增多,計(jì)算的時(shí)間復(fù)雜度和空間復(fù)雜度也隨之增加。事實(shí)上,各個(gè)樣本點(diǎn)對(duì)降維的貢獻(xiàn)是不一樣,因此可以通過第一主元對(duì)應(yīng)的特征向量(其中為樣本的數(shù)目)來過濾樣本的方法減少樣本數(shù)目。具體操作步驟如下:1、取該主元特征向量分量的絕對(duì)值,并對(duì)所得的絕對(duì)值進(jìn)行降序排序得到,并記錄其對(duì)應(yīng)的樣本標(biāo)號(hào)。2、計(jì)算的各個(gè)分量累計(jì)所占比重,若大于給定的值,提取中的前個(gè)值,并將所得的個(gè)樣本編號(hào)升序排序得,以此樣本編號(hào)對(duì)應(yīng)的樣本組合成新的樣本數(shù)據(jù),即。3、對(duì)XX執(zhí)行一次KPCA運(yùn)算,提取出主成分為V,計(jì)算投影,其中KK為提取出的樣本標(biāo)號(hào)對(duì)應(yīng)的核矩陣KL(原始數(shù)據(jù)對(duì)應(yīng)的修正的核矩陣)的行組合而成。這種方法能簡(jiǎn)化計(jì)算量,但如果樣
14、本數(shù)目太多時(shí),上述方法顯然不可行。一是耗費(fèi)太多的時(shí)間,二是運(yùn)算需要占用太多的內(nèi)存,比如,128M內(nèi)存只能完成3000個(gè)樣本的計(jì)算4。這就需要對(duì)樣本進(jìn)行分組訓(xùn)練,這種對(duì)樣本進(jìn)行篩選方法叫做AKPCA 。設(shè)樣本數(shù)目為N,現(xiàn)在將其分成M組,為每一組中具有的樣本數(shù)目,設(shè)第組中與第一投影方向相對(duì)應(yīng)的系數(shù)向量為:,并假設(shè)每一組中保留的樣本數(shù)目為,由下式?jīng)Q定: (3-21)式中為閾值,可根據(jù)問題需要確定,越小,篩選掉的樣本越多,但也可能產(chǎn)生較大的誤差。由排序得來,滿足:。綜上,AKPCA的具體計(jì)算方法為:1、重采樣,形成組樣本;2、對(duì)各組樣本進(jìn)行KPCA,對(duì)樣本進(jìn)行初步篩選;3、組合初步篩選好的樣本,形成新的樣本集,并對(duì)之進(jìn)行KPCA,在此基礎(chǔ)上,對(duì)樣本進(jìn)一步篩選;4、根據(jù)問題的規(guī)模,重復(fù)上述3步,直到形成最終的投影方向4。實(shí)際上也可以用前兩個(gè)主分量的絕對(duì)值的和來代替第一主分量的絕對(duì)值來篩選樣本,達(dá)到簡(jiǎn)化樣本數(shù)目的目的。該實(shí)驗(yàn)中就是采用了這種方法。6. 核主成分分析的應(yīng)用及進(jìn)一步研究KPCA由于其特征提取速度快、特征信息保留充分等特征,被廣泛的應(yīng)用到模式識(shí)別中。比如去噪,人臉識(shí)別,三維物體識(shí)別,遙感圖像分析等方面都有廣泛的應(yīng)用11。KPCA存在三點(diǎn)不足:各特征的物理意義很不明確,一般的PCA僅是原有各特征的線性疊加,還可以勉強(qiáng)找出其含義,而KPCA是不可能明確其物理意義的;求投影所需的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年會(huì)計(jì)從業(yè)資格考試試題及答案
- 中班健康活動(dòng)《讓自己快樂》課件大綱
- 貴州省織金縣2025屆英語八下期中教學(xué)質(zhì)量檢測(cè)模擬試題含答案
- 江蘇省揚(yáng)州市江都市第三中學(xué)2025年七下英語期中質(zhì)量檢測(cè)模擬試題含答案
- 腫瘤病例分享演講比賽實(shí)施綱要
- 2025年兒童文學(xué)與心理發(fā)展考試試卷及答案
- 四川省眉山外國(guó)語學(xué)校2025屆八下英語期中質(zhì)量跟蹤監(jiān)視模擬試題含答案
- 信用征信體系教育框架
- 娛樂安全培訓(xùn)
- 網(wǎng)絡(luò)安全防御技術(shù)試題庫
- YY 0334-2002硅橡膠外科植入物通用要求
- GB/T 41261-2022過程工業(yè)報(bào)警系統(tǒng)管理
- GB 5013.2-1997額定電壓450/750V及以下橡皮絕緣電纜第2部分:試驗(yàn)方法
- (完整版)杭州電子科技大學(xué)數(shù)字電路期末考試試卷及答案
- 員工宿舍核查表
- 腰椎椎管狹窄癥治療的新方法課件
- 完工付款最終付款申請(qǐng)表
- 有限空間作業(yè)及應(yīng)急物資清單
- 國(guó)際經(jīng)濟(jì)學(xué)期末考試試題庫含答案
- 基于PLC的音樂噴泉控制系統(tǒng)的設(shè)計(jì)-畢業(yè)設(shè)計(jì)
- 體育場(chǎng)地與設(shè)施
評(píng)論
0/150
提交評(píng)論