版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、主元分析(PCA)理論分析及應(yīng)用什么是PCA?PCA是Principal component analysis的縮寫(xiě),中文翻譯為主元分析。它是一 種對(duì)數(shù)據(jù)進(jìn)行分析的技術(shù),最重要的應(yīng)用是對(duì)原有數(shù)據(jù)進(jìn)行簡(jiǎn)化。正如它的名字: 主元分析,這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu),去除噪音 和冗余,將原有的復(fù)雜數(shù)據(jù)降維,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu)。它的優(yōu) 點(diǎn)是簡(jiǎn)單,而且無(wú)參數(shù)限制,可以方便的應(yīng)用與各個(gè)場(chǎng)合。因此應(yīng)用極其廣泛, 從神經(jīng)科學(xué)到計(jì)算機(jī)圖形學(xué)都有它的用武之地。被譽(yù)為應(yīng)用線形代數(shù)最價(jià)值的結(jié) 果之一。在以下的章節(jié)中,不僅有對(duì)PCA的比較直觀的解釋,同時(shí)也配有較為深入 的分析。首先將從
2、一個(gè)簡(jiǎn)單的例子開(kāi)始說(shuō)明PCA應(yīng)用的場(chǎng)合以及想法的由來(lái), 進(jìn)行一個(gè)比較直觀的解釋;然后加入數(shù)學(xué)的嚴(yán)格推導(dǎo),引入線形代數(shù),進(jìn)行問(wèn)題 的求解。隨后將揭示PCA與SVD(Singular Value Decomposition)之間的聯(lián)系以及 如何將之應(yīng)用于真實(shí)世界。最后將分析PCA理論模型的假設(shè)條件以及針對(duì)這些 條件可能進(jìn)行的改進(jìn)。一個(gè)簡(jiǎn)單的模型在實(shí)驗(yàn)科學(xué)中我常遇到的情況是,使用大量的變量代表可能變化的因素,例 如光譜、電壓、速度等等。但是由于實(shí)驗(yàn)環(huán)境和觀測(cè)手段的限制,實(shí)驗(yàn)數(shù)據(jù)往往 變得極其的復(fù)雜、混亂和冗余的。如何對(duì)數(shù)據(jù)進(jìn)行分析,取得隱藏在數(shù)據(jù)背后的 變量關(guān)系,是一個(gè)很困難的問(wèn)題。在神經(jīng)科學(xué)、氣象
3、學(xué)、海洋學(xué)等等學(xué)科實(shí)驗(yàn)中, 假設(shè)的變量個(gè)數(shù)可能非常之多,但是真正的影響因素以及它們之間的關(guān)系可能又 是非常之簡(jiǎn)單的。下面的模型取自一個(gè)物理學(xué)中的實(shí)驗(yàn)。它看上去比較簡(jiǎn)單,但足以說(shuō)明問(wèn)題。 如圖表錯(cuò)誤!未定義書(shū)簽。所示。這是一個(gè)理想彈簧運(yùn)動(dòng)規(guī)律的測(cè)定實(shí)驗(yàn)。假 設(shè)球是連接在一個(gè)無(wú)質(zhì)量無(wú)摩擦的彈簧之上,從平衡位置沿x軸拉開(kāi)一定的距離 然后釋放。圖表錯(cuò)誤!未定義書(shū)簽。對(duì)于一個(gè)具有先驗(yàn)知識(shí)的實(shí)驗(yàn)者來(lái)說(shuō),這個(gè)實(shí)驗(yàn)是非常容易的。球的運(yùn)動(dòng)只是在 x軸向上發(fā)生,只需要記錄下軸向上的運(yùn)動(dòng)序列并加以分析即可。但是,在真 實(shí)世界中,對(duì)于第一次實(shí)驗(yàn)的探索者來(lái)說(shuō)(這也是實(shí)驗(yàn)科學(xué)中最常遇到的一種情 況),是不可能進(jìn)行這樣的假
4、設(shè)的。那么,一般來(lái)說(shuō),必須記錄下球的三維位置 (%,*,)。這一點(diǎn)可以通過(guò)在不同角度放置三個(gè)攝像機(jī)實(shí)現(xiàn)(如圖所示)假設(shè) 以200Hz的頻率拍攝畫(huà)面,就可以得到球在空間中的運(yùn)動(dòng)序列。但是,由于實(shí) 驗(yàn)的限制,這三臺(tái)攝像機(jī)的角度可能比較任意,并不是正交的。事實(shí)上,在真實(shí) 世界中也并沒(méi)有所謂的口,北z軸,每個(gè)攝像機(jī)記錄下的都是一幅二維的圖像, 有其自己的空間坐標(biāo)系,球的空間位置是由一組二維坐標(biāo)記錄的: (x ,y ),(x ,y ),(x ,y ) 繹寸寸系幺布產(chǎn)生了 n 牟申肉的待詈序列 侶;A A B B C C 。經(jīng)過(guò)實(shí)驗(yàn),系統(tǒng) 一生了幾分鐘內(nèi)球的位置序列。怎4干 從這些數(shù)據(jù)中得到球是沿著某個(gè)x
5、軸運(yùn)動(dòng)的規(guī)律呢?怎樣將實(shí)驗(yàn)數(shù)據(jù)中的冗余 變量剔除,化歸到這個(gè)潛在的x軸上呢?這是一個(gè)真實(shí)的實(shí)驗(yàn)場(chǎng)景,數(shù)據(jù)的噪音是必須面對(duì)的因素。在這個(gè)實(shí)驗(yàn)中噪 音可能來(lái)自空氣、摩擦、攝像機(jī)的誤差以及非理想化的彈簧等等。噪音使數(shù)據(jù)變 得混亂,掩蓋了變量間的真實(shí)關(guān)系。如何去除噪音是實(shí)驗(yàn)者每天所要面對(duì)的巨大 考驗(yàn)。上面提出的兩個(gè)問(wèn)題就是PCA方法的目標(biāo)。PCA主元分析方法是解決此類問(wèn) 題的一個(gè)有力的武器。下文將結(jié)合以上的例子提出解決方案,逐步敘述PCA方 法的思想和求解過(guò)程。線形代數(shù):基變換從線形代數(shù)的角度來(lái)看,PCA的目標(biāo)就是使用另一組基去重新描述得到的數(shù) 據(jù)空間。而新的基要能盡量揭示原有的數(shù)據(jù)間的關(guān)系。在這個(gè)例
6、子中,沿著某工 軸上的運(yùn)動(dòng)是最重要的。這個(gè)維度即最重要的“主元”。PCA的目標(biāo)就是找到這 樣的“主元”,最大程度的去除冗余和噪音的干擾。A.標(biāo)準(zhǔn)正交基為了引入推導(dǎo),需要將上文的數(shù)據(jù)進(jìn)行明確的定義。在上面描述的實(shí)驗(yàn)過(guò)程 中,在每一個(gè)采樣時(shí)間點(diǎn)上,每個(gè)攝像機(jī)記錄了一組二維坐標(biāo)(七,七),綜合三 臺(tái)攝像機(jī)數(shù)據(jù),在每一個(gè)時(shí)間點(diǎn)上得到的位置數(shù)據(jù)對(duì)應(yīng)于一個(gè)六維列向量。xAyAxB%J如果以200Hz的頻率拍攝10分鐘,將得到10 x60X200 = 120000個(gè)這樣的向量數(shù) 據(jù)。抽象一點(diǎn)來(lái)說(shuō),每一個(gè)采樣點(diǎn)數(shù)據(jù)X都是在m維向量空間(此例中m = 6)內(nèi) 的一個(gè)向量,這里的m是牽涉的變量個(gè)數(shù)。由線形代數(shù)我們
7、知道,在m維向量 空間中的每一個(gè)向量都是一組正交基的線形組合。最普通的一組正交基是標(biāo)準(zhǔn)正 交基,實(shí)驗(yàn)采樣的結(jié)果通??梢钥醋魇窃跇?biāo)準(zhǔn)正交基下表示的。舉例來(lái)說(shuō),上例 中每個(gè)攝像機(jī)記錄的數(shù)據(jù)坐標(biāo)為(七七),這樣的基便是(1,0),(0,1)。那為什么(!2疽),(土,三)不取 2 222 或是其他任意的基呢?原因是,這樣的標(biāo)準(zhǔn)正交基反映了數(shù)據(jù)的采集方式。假設(shè)采集數(shù)據(jù)點(diǎn)是(2,2),一般并不會(huì)記錄(2、,20)(在序*亨)基下),因?yàn)橐话愕挠^測(cè)者都是習(xí)慣于取攝像機(jī)的屏幕坐標(biāo),即向上和向右的方向作為觀測(cè)的基準(zhǔn)。也就是說(shuō),標(biāo)準(zhǔn)正交基表現(xiàn)了數(shù)據(jù) 觀測(cè)的一般方式。在線形代數(shù)中,這組基表示為行列向量線形無(wú)關(guān)的單
8、位矩陣。10/B.基變換從更嚴(yán)格的數(shù)學(xué)定義上來(lái)說(shuō),PCA回答的問(wèn)題是:如何尋找到另一組正交 基,它們是標(biāo)準(zhǔn)正交基的線性組合,而且能夠最好的表示數(shù)據(jù)集?這里提出了 PCA方法的一個(gè)最關(guān)鍵的假設(shè):線性。這是一個(gè)非常強(qiáng)的假設(shè) 條件。它使問(wèn)題得到了很大程度的簡(jiǎn)化:1)數(shù)據(jù)被限制在一個(gè)向量空間中,能 被一組基表示;2)隱含的假設(shè)了數(shù)據(jù)之間的連續(xù)性關(guān)系。這樣一來(lái)數(shù)據(jù)就可以被表示為各種基的線性組合。令X表示原數(shù)據(jù)集。X是 一個(gè)mxn的矩陣,它的每一個(gè)列向量都表示一個(gè)時(shí)間采樣點(diǎn)上的數(shù)據(jù)X,在上 面的例子中,m = 6,n = 120000。丫表示轉(zhuǎn)換以后的新的數(shù)據(jù)集表示。P是他們 之間的線性轉(zhuǎn)換。px = y
9、(1)有如下定義: P表示p的行向量。七表示X的列向量(或者X)。 七表示y的列向量。公式(i)表示不同基之間的轉(zhuǎn)換,在線性代數(shù)中,它有如下的含義:P是從X到y(tǒng)的轉(zhuǎn)換矩陣。幾何上來(lái)說(shuō),p對(duì)x進(jìn)行旋轉(zhuǎn)和拉伸得到y(tǒng)。p的行向量,%,pm是一組新的基,而y是原數(shù)據(jù)x在這組新的基 表示下得到的重新表示。下面是對(duì)最后一個(gè)含義的顯式說(shuō)明:piPX =:pm -p1氣y =:p - X注意到y(tǒng)的列向量:P 氣J =:p - X可見(jiàn)七表示的是氣與P中對(duì)應(yīng)列的點(diǎn)積,也就是相當(dāng)于是在對(duì)應(yīng)向量上的投影。 所以,P的行向量事實(shí)上就是一組新的基。它對(duì)原數(shù)據(jù)X進(jìn)行重新表示。在一 些文獻(xiàn)中,將數(shù)據(jù)x成為“源”,而將變換后的
10、y稱為“信號(hào)”。這是由于變換 后的數(shù)據(jù)更能體現(xiàn)信號(hào)成分的原因。C.問(wèn)題在線性的假設(shè)條件下,問(wèn)題轉(zhuǎn)化為尋找一組變換后的基,也就是p的行向量(七,,pm ,這些向量就是PCA中所謂的“主元”。問(wèn)題轉(zhuǎn)化為如下的形式:怎樣才能最好的表示原數(shù)據(jù)X ? P的基怎樣選擇才是最好的?解決問(wèn)題的關(guān)鍵是如何體現(xiàn)數(shù)據(jù)的特征。那么,什么是數(shù)據(jù)的特征,如何體 現(xiàn)呢?方差和目標(biāo)“最好的表示”是什么意思呢?下面的章節(jié)將給出一個(gè)較為直觀的解釋,并 增加一些額外的假設(shè)條件。在線性系統(tǒng)中,所謂的“混亂數(shù)據(jù)”通常包含以下的 三種成分:噪音、旋轉(zhuǎn)以及冗余。下面將對(duì)這三種成分做出數(shù)學(xué)上的描述并針對(duì) 目標(biāo)作出分析。噪音對(duì)數(shù)據(jù)的影響是巨大
11、的,如果不能對(duì)噪音進(jìn)行區(qū)分,就不可能抽取數(shù)據(jù) 中有用的信息。噪音的橫梁有多種方式,最常見(jiàn)的定義是信噪比SNA (signal-to-noise at或是方差比。2:b 2SNR = gb 2noiseA.噪音和旋轉(zhuǎn)比較大的信噪比表示數(shù)據(jù)的準(zhǔn)確度高,而信噪比低則說(shuō)明數(shù)據(jù)中的噪音成分 比較多。那么怎樣區(qū)分什么是信號(hào),什么是噪音呢?這里假設(shè),變化較大的信息 被認(rèn)為是信號(hào),變化較小的則是噪音。事實(shí)上,這個(gè)標(biāo)準(zhǔn)等價(jià)于一個(gè)低通的濾波 器,是一種標(biāo)準(zhǔn)的去噪準(zhǔn)則。而變化的大小則是由方差來(lái)描述的。 n (Xi - X)2n -1它表示了采樣點(diǎn)在平均值兩側(cè)的分布,對(duì)應(yīng)于圖表 錯(cuò)誤!未定義書(shū)簽。(a) 就是采樣點(diǎn)云
12、的“胖瘦”。顯然的,方差較大,也就是較“寬”較“胖”的分布, 表示了采樣點(diǎn)的主要分布趨勢(shì),是主信號(hào)或主要分量;而方差較小的分布則被認(rèn) 為是噪音或次要分量。angle ar p (decrees)圖表 錯(cuò)誤!未定義書(shū)簽。:(a)攝像機(jī)A的采集數(shù)據(jù)。圖中黑色垂直直線表示一 組正交基的方向。b nal是采樣點(diǎn)云在長(zhǎng)線方向上分布的方差,而b toise是數(shù)據(jù)點(diǎn) 在短線方向上分布的方差。(b)對(duì)尸的基向量進(jìn)行旋轉(zhuǎn)使SNR和方差最大。假設(shè)攝像機(jī)A拍攝到的數(shù)據(jù)如圖表 錯(cuò)誤!未定義書(shū)簽。(a)所示,圓圈代表采樣 點(diǎn),因?yàn)檫\(yùn)動(dòng)理論上是只存在于一條直線上,所以偏離直線的分布都屬于噪音。此時(shí)S*描述的就是采樣點(diǎn)云在
13、某對(duì)垂直方向上的概率分布的比值。那么,最大限度的揭示原數(shù)據(jù)的結(jié)構(gòu)和關(guān)系,找出某條潛在的,最優(yōu)的工軸,事實(shí)上等價(jià) 尋找一對(duì)空間內(nèi)的垂直直線(圖中黑線表示,也對(duì)應(yīng)于此空間的一組基),使得 信噪比盡可能大的方向。容易看出,本例中潛在的、軸就是圖上的較長(zhǎng)黑線方向。 那么怎樣尋找這樣一組方向呢?直接的想法是對(duì)基向量進(jìn)行旋轉(zhuǎn)。如圖表 錯(cuò)誤!未定義書(shū)簽(b)所示,隨著這對(duì)直線的轉(zhuǎn)動(dòng)SNR以及方差的變化情況。應(yīng)于SNR最大值的一組基p*,就是最優(yōu)的“主元”方向。在進(jìn)行數(shù)學(xué)中求取這組基的推 導(dǎo)之前,先介紹另一個(gè)影響因素。B.冗余有時(shí)在實(shí)驗(yàn)中引入了一些不必要的變量??赡軙?huì)使兩種情況:1)該變量對(duì) 結(jié)果沒(méi)有影響;2
14、)該變量可以用其它變量表示,從而造成數(shù)據(jù)冗余。下面對(duì)這 樣的冗余情況進(jìn)行分析和分類。圖表 錯(cuò)誤!未定義書(shū)簽。:可能冗余數(shù)據(jù)的頻譜圖表示。1和分別是兩個(gè)不同 的觀測(cè)變量。(比如例子中的七,yB)。最佳擬合線L kri用虛線表示。如圖表錯(cuò)誤!未定義書(shū)簽。所示,它揭示了兩個(gè)觀測(cè)變量之間的關(guān)系。(a) 圖所示的情況是低冗余的,從統(tǒng)計(jì)學(xué)上說(shuō),這兩個(gè)觀測(cè)變量是相互獨(dú)立的,它們 之間的信息沒(méi)有冗余。而相反的極端情況如(C),r和r2高度相關(guān),L完全可以用 r1表示。一般來(lái)說(shuō),這種情況發(fā)生可能是因?yàn)閿z像機(jī)A和攝像機(jī)B放置的位置太 近或是數(shù)據(jù)被重復(fù)記錄了,也可能是由于實(shí)驗(yàn)設(shè)計(jì)的不合理所造成的。那么對(duì)于 觀測(cè)者而
15、言,這個(gè)變量的觀測(cè)數(shù)據(jù)就是完全冗余的,應(yīng)當(dāng)去除,只用一個(gè)變量就 可以表示了。這也就是PCA中“降維”思想的本源。C.協(xié)方差矩陣對(duì)于上面的簡(jiǎn)單情況,可以通過(guò)簡(jiǎn)單的線性擬合的方法來(lái)判斷各觀測(cè)變量之 間是否出現(xiàn)冗余的情況,而對(duì)于復(fù)雜的情況,需要借助協(xié)方差來(lái)進(jìn)行衡量和判斷: n (a - a )(b - b)ABn -1A,B分別表示不同的觀測(cè)變量所記錄的一組值,在統(tǒng)計(jì)學(xué)中,由協(xié)方差的 性質(zhì)可以得到:b 2b - ,且b Ab= 當(dāng)且僅當(dāng)觀測(cè)變量A,B相互獨(dú)立。b;B=bA,當(dāng) A = B。等價(jià)的,將A,B寫(xiě)成行向量的形式:A = a a a B = b b b 12n ,12n協(xié)方差可以表示為:15
16、b 2AB三ABt將每n -1那么,對(duì)于一組具有m個(gè)觀測(cè)變量,n個(gè)采樣時(shí)間點(diǎn)的采樣數(shù)據(jù)X 個(gè)觀測(cè)變量的值寫(xiě)為行向量,可以得到一個(gè)mXn的矩陣:接下來(lái)定義協(xié)方差矩陣如下:氣三-1 XXt容易發(fā)現(xiàn)協(xié)方差矩陣Cx性質(zhì)如下:CX是一個(gè)mXm的平方對(duì)稱矩陣。CX對(duì)角線上的元素是對(duì)應(yīng)的觀測(cè)變量的方差。非對(duì)角線上的元素是對(duì)應(yīng)的觀測(cè)變量之間的協(xié)方差。b2x1x1b2X2X1b2x1 x2b2X2X2b2x1 xmb2X2Xmb 2XmX1b 2x X- m 2b2xxmm根據(jù)協(xié)方差矩陣CX包含了所有觀測(cè)變量之間的相關(guān)性度量。更重要的是 前兩節(jié)的說(shuō)明,這些相關(guān)性度量反映了數(shù)據(jù)的噪音和冗余的程度。.在對(duì)角線上的元
17、素越大,表明信號(hào)越強(qiáng),變量的重要性越高;元素越小 則表明可能是存在的噪音或是次要變量。在非對(duì)角線上的元素大小則對(duì)應(yīng)于相關(guān)觀測(cè)變量對(duì)之間冗余程度的大小。一般情況下,初始數(shù)據(jù)的協(xié)方差矩陣總是不太好的,表現(xiàn)為信噪比不高且變 量間相關(guān)度大。PCA的目標(biāo)就是通過(guò)基變換對(duì)協(xié)方差矩陣進(jìn)行優(yōu)化,找到相關(guān)“主 元”。那么,如何進(jìn)行優(yōu)化?矩陣的那些性質(zhì)是需要注意的呢?D.協(xié)方差矩陣的對(duì)角化總結(jié)上面的章節(jié),主元分析以及協(xié)方差矩陣優(yōu)化的原則是:1)最小化變量 冗余,對(duì)應(yīng)于協(xié)方差矩陣的非對(duì)角元素要盡量?。?)最大化信號(hào),對(duì)應(yīng)于要使 協(xié)方差矩陣的對(duì)角線上的元素盡可能的大。因?yàn)閰f(xié)方差矩陣的每一項(xiàng)都是正值, 最小值為0,所以
18、優(yōu)化的目標(biāo)矩陣匕的非對(duì)角元素應(yīng)該都是0,對(duì)應(yīng)于冗余最小。 所以優(yōu)化的目標(biāo)矩陣匕應(yīng)該是一個(gè)對(duì)角陣。即只有對(duì)角線上的元素可能是非零 值。同時(shí),PCA假設(shè)P所對(duì)應(yīng)的一組變換基p,匕必須是標(biāo)準(zhǔn)正交的,而優(yōu) 化矩陣q對(duì)角線上的元素越大,就說(shuō)明信號(hào)的成分越大,換句話就是對(duì)應(yīng)于越 重要的“主元”。對(duì)于協(xié)方差矩陣進(jìn)行對(duì)角化的方法很多。根據(jù)上面的分析,最簡(jiǎn)單最直接的 算法就是在多維空間內(nèi)進(jìn)行搜索。和圖表 錯(cuò)誤!未定義書(shū)簽。(a)的例子中旋轉(zhuǎn)P 的方法類似:1)在m維空間中進(jìn)行遍歷,找到一個(gè)方差最大的向量,令作p1。2)在與p1垂直的向量空間中進(jìn)行遍歷,找出次大的方差對(duì)應(yīng)的向量,記作 p2。3)對(duì)以上過(guò)程循環(huán),直
19、到找出全部m的向量。它們生成的順序也就是“主 元”的排序。這個(gè)理論上成立的算法說(shuō)明了 PCA的主要思想和過(guò)程。在這中間,牽涉到 兩個(gè)重要的特性:a)轉(zhuǎn)換基是一組標(biāo)準(zhǔn)正交基。這給PCA的求解帶來(lái)了很大的好 處,它可以運(yùn)用線性代數(shù)的相關(guān)理論進(jìn)行快速有效的分解。這些方法將在后面提 到。b)在PCA的過(guò)程中,可以同時(shí)得到新的基向量所對(duì)應(yīng)的“主元排序”,利 用這個(gè)重要性排序可以方便的對(duì)數(shù)據(jù)進(jìn)行光順、簡(jiǎn)化處理或是壓縮。E. PCA的假設(shè)和局限PCA的模型中存在諸多的假設(shè)條件,決定了它存在一定的限制,在有些場(chǎng)合 可能會(huì)造成效果不好甚至失效。對(duì)于學(xué)習(xí)和掌握PCA來(lái)說(shuō),理解這些內(nèi)容是非 常重要的,同時(shí)也有利于理
20、解基于改進(jìn)這些限制條件的PCA的一些擴(kuò)展技術(shù)。PCA的假設(shè)條件包括:線形性假設(shè)。如同文章開(kāi)始的例子,PCA的內(nèi)部模型是線性的。這也就決定了它能進(jìn) 行的主元分析之間的關(guān)系也是線性的?,F(xiàn)在比較流行的kernelPCA的一類 方法就是使用非線性的權(quán)值對(duì)原有PCA技術(shù)的拓展。使用中值和方差進(jìn)行充分統(tǒng)計(jì)。使用中值和方差進(jìn)行充分的概率分布描述的模型只限于指數(shù)型概率分 布模型。(例如高斯分布),也就是說(shuō),如果我們考察的數(shù)據(jù)的概率分布并 不滿足高斯分布或是指數(shù)型的概率分布,那么PCA將會(huì)失效。在這種模型 下,不能使用方差和協(xié)方差來(lái)很好的描述噪音和冗余,對(duì)教化之后的協(xié)方 差矩陣并不能得到很合適的結(jié)果。事實(shí)上,去
21、除冗余的最基礎(chǔ)的方程是:P(y, y ) = P(y)P(y )1212其中P()代表概率分布的密度函數(shù)?;谶@個(gè)方程進(jìn)行冗余去除的方法被稱 作獨(dú)立主元分析(ICA)方法(Independent Component Analy)i不過(guò),所幸的是, 根據(jù)中央極限定理,現(xiàn)實(shí)生活中所遇到的大部分采樣數(shù)據(jù)的概率分布都是遵 從高斯分布的。所以PCA仍然是一個(gè)使用于絕大部分領(lǐng)域的穩(wěn)定且有效的算 法。大方差向量具有較大重要性。PCA方法隱含了這樣的假設(shè):數(shù)據(jù)本身具有較高的信噪比,所以具有 最高方差的一維向量就可以被看作是主元,而方差較小的變化則被認(rèn)為是 噪音。這是由于低通濾波器的選擇決定的。主元正交。PCA
22、方法假設(shè)主元向量之間都是正交的,從而可以利用線形代數(shù)的一 系列有效的數(shù)學(xué)工具進(jìn)行求解,大大提高了效率和應(yīng)用的范圍。PCA求解:特征根分解在線形代數(shù)中,PCA問(wèn)題可以描述成以下形式:尋找一組正交基組成的矩陣P,有丫 = PX,使得1 = n -1YY是對(duì)角陣。 則P的行向量(也就是一組正交基),就是數(shù)據(jù)X的主元向量。對(duì)七進(jìn)行推導(dǎo):C =上 YYtn 一 1=1 (PX)(PX )tn 1=上 PXXtPtn 1=P( XXT ) Ptn 1C = PAPtn 1定義a三XXT,則A是一個(gè)對(duì)稱陣。對(duì)a進(jìn)行對(duì)角化求取特征向量得:A = EDEt則D是一個(gè)對(duì)角陣而E則是對(duì)稱陣A的特征向量排成的矩陣。這
23、里要提出的一點(diǎn)是,A是一個(gè)mxm的矩陣,而它將有r(尸m)個(gè)特征向 量。其中r是矩陣A的秩。如果r m,則A即為退化陣。此時(shí)分解出的特征向 量不能覆蓋整個(gè)m空間。此時(shí)只需要在保證基的正交性的前提下,在剩余的空 間中任意取得m-r維正交向量填充E的空格即可。它們將不對(duì)結(jié)果造成影響。 因?yàn)榇藭r(shí)對(duì)應(yīng)于這些特征向量的特征值,也就是方差值為零。求出特征向量矩陣后我們?nèi)三Et,則A = PtDP,由線形代數(shù)可知矩陣P有性質(zhì)P-1 = Pt,從而進(jìn)行如下計(jì)算:C = PAPtY n 一 1P( PtDP) Ptn 一 1 ( PPt ) D( PPt )n 一 1(PP-1) D( PP-1)n -1C
24、= 土 D可知此時(shí)的P就是我們需要求得變換基。至此我們可以得到PCA的結(jié)果: X的主元即是XXt的特征向量,也就是矩陣P的行向量。矩陣Cy對(duì)角線上第i個(gè)元素是數(shù)據(jù)X在方向Pj的方差。我們可以得到PCA求解的一般步驟:采集數(shù)據(jù)形成mxn的矩陣。m為觀測(cè)變量個(gè)數(shù),n為采樣點(diǎn)個(gè)數(shù)。在每個(gè)觀測(cè)變量(矩陣行向量)上減去該觀測(cè)變量的平均值得到矩陣X。對(duì)XXt進(jìn)行特征分解,求取特征向量以及所對(duì)應(yīng)的特征根??偨Y(jié)和討論P(yáng)CA技術(shù)的一大好處是對(duì)數(shù)據(jù)進(jìn)行降維的處理。我們可以對(duì)新求出的“主元” 向量的重要性進(jìn)行排序,根據(jù)需要取前面最重要的部分,將后面的維數(shù)省去, 可以達(dá)到降維從而簡(jiǎn)化模型或是對(duì)數(shù)據(jù)進(jìn)行壓縮的效果。同時(shí)
25、最大程度的保 持了原有數(shù)據(jù)的信息。在前文的例子中,經(jīng)過(guò)PCA處理后的數(shù)據(jù)只剩下了一維,也就是彈簧運(yùn)動(dòng)的 那一維,從而去除了冗余的變量,揭示了實(shí)驗(yàn)數(shù)據(jù)背后的物理原理。PCA技術(shù)的一個(gè)很大的優(yōu)點(diǎn)是,它是完全無(wú)參數(shù)限制的。在PCA的計(jì)算過(guò)程 中完全不需要人為的設(shè)定參數(shù)或是根據(jù)任何經(jīng)驗(yàn)?zāi)P蛯?duì)計(jì)算進(jìn)行干預(yù),最后 的結(jié)果只與數(shù)據(jù)相關(guān),與用戶是獨(dú)立的。但是,這一點(diǎn)同時(shí)也可以看作是缺點(diǎn)。如果用戶對(duì)觀測(cè)對(duì)象有一定的先驗(yàn)知 識(shí),掌握了數(shù)據(jù)的一些特征,卻無(wú)法通過(guò)參數(shù)化等方法對(duì)處理過(guò)程進(jìn)行干預(yù), 可能會(huì)得不到預(yù)期的效果,效率也不高。.圖表 錯(cuò)誤!未定義書(shū)簽。:黑色點(diǎn)表示采樣數(shù)據(jù),排列成轉(zhuǎn)盤(pán)的形狀。容易想象,該數(shù)據(jù)的主
26、元是(牛勺或是旋轉(zhuǎn)角0。如圖表 錯(cuò)誤!未定義書(shū)簽。中的例子,PCA找出的主元將是(牛勺。但是 這顯然不是最優(yōu)和最簡(jiǎn)化的主元。(今烏)之間存在著非線性的關(guān)系。根據(jù)先 驗(yàn)的知識(shí)可知旋轉(zhuǎn)角0是最優(yōu)的主元。則在這種情況下,PCA就會(huì)失效。但 是,如果加入先驗(yàn)的知識(shí),對(duì)數(shù)據(jù)進(jìn)行某種劃歸,就可以將數(shù)據(jù)轉(zhuǎn)化為以0 為線性的空間中。這類根據(jù)先驗(yàn)知識(shí)對(duì)數(shù)據(jù)預(yù)先進(jìn)行非線性轉(zhuǎn)換的方法就成 為kernel-PCA,它擴(kuò)展了 PCA能夠處理的問(wèn)題的范圍,又可以結(jié)合一些先 驗(yàn)約束,是比較流行的方法。有時(shí)數(shù)據(jù)的分布并不是滿足高斯分布。如圖表錯(cuò)誤!未定義書(shū)簽。所示, 在非高斯分布的情況下,PCA方法得出的主元可能并不是最優(yōu)的
27、。在尋找主 元時(shí)不能將方差作為衡量重要性的標(biāo)準(zhǔn)。要根據(jù)數(shù)據(jù)的分布情況選擇合適的 描述完全分布的變量,然后根據(jù)概率分布式P(y, y ) = P(y)P(y )1212來(lái)計(jì)算兩個(gè)向量上數(shù)據(jù)分布的相關(guān)性。等價(jià)的,保持主元間的正交假設(shè),尋 找的主元同樣要使P(yi,y2)= 0。這一類方法被稱為獨(dú)立主元分解(ICA)。圖表錯(cuò)誤!未定義書(shū)簽。:數(shù)據(jù)的分布并不滿足高斯分布,呈明顯的十字星狀。 這種情況下,方差最大的方向并不是最優(yōu)主元方向。PCA方法和線形代數(shù)中的奇異值分解(SVD)方法有內(nèi)在的聯(lián)系,一定意義上 來(lái)說(shuō),PCA的解法是SVD的一種變形和弱化。對(duì)于mxn的矩陣X,通過(guò) 奇異值分解可以直接得到如
28、下形式:個(gè)n x n的矩陣,而是m x n的對(duì)角陣。X = U VT其中U 是 一個(gè)mxm的矩陣,V 是形式如下:其中1 -2 -r,是原矩陣的奇異值。由簡(jiǎn)單推導(dǎo)可知,如果對(duì)奇異值 分解加以約束:U的向量必須正交,則矩陣U即為PCA的特征值分解中的E, 則說(shuō)明PCA并不一定需要求取XXT,也可以直接對(duì)原數(shù)據(jù)矩陣X進(jìn)行SVD 奇異值分解即可得到特征向量矩陣,也就是主元向量。計(jì)算機(jī)視學(xué)領(lǐng)域的應(yīng)用PCA方法是一個(gè)具有很高普適性的方法,被廣泛應(yīng)用于多個(gè)領(lǐng)域。這里要特 別介紹的是它在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用,包括如何對(duì)圖像進(jìn)行處理以及在人臉識(shí) 別方面的特別作用。數(shù)據(jù)表示如果要將PCA方法應(yīng)用于視覺(jué)領(lǐng)域,最基
29、本的問(wèn)題就是圖像的表達(dá)。如果 是一幅NxN大小的圖像,它的數(shù)據(jù)將被表達(dá)為一個(gè)N2維的向量:X = (x x . x )t在這里圖像的結(jié)構(gòu)將被打亂,每一個(gè)像素點(diǎn)被看作是一維,最直接的方法就 是將圖像的像素一行行的頭尾相接成一個(gè)一維向量。還必須要注意的是,每 一維上的數(shù)據(jù)對(duì)應(yīng)于對(duì)應(yīng)像素的亮度、灰度或是色彩值,但是需要?jiǎng)潥w到同 一緯度上。模式識(shí)別假設(shè)數(shù)據(jù)源是一系列的20幅圖像,每幅圖像都是NxN大小,那么它們都可以表示為一個(gè)N2維的向量。將它們排成一個(gè)矩陣:ImagesMatrix=(ImageVec1 ImageVec2 . ImageVec20)然后對(duì)它們進(jìn)行PCA處理,找出主元。為什么這樣做呢
30、?據(jù)人臉識(shí)別的例子來(lái)說(shuō),數(shù)據(jù)源是20幅不同的人臉圖像, PCA方法的實(shí)質(zhì)是尋找這些圖像中的相似的維度,因?yàn)槿四樀慕Y(jié)構(gòu)有極大的 相似性(特別是同一個(gè)人的人臉圖像),則使用PCA方法就可以很容易的提 取出人臉的內(nèi)在結(jié)構(gòu),也及時(shí)所謂“模式”,如果有新的圖像需要與原有圖 像比較,就可以在變換后的主元維度上進(jìn)行比較,則可衡量新圖與原有數(shù)據(jù) 集的相似度如何。對(duì)這樣的一組人臉圖像進(jìn)行處理,提取其中最重要的主元,即可大致描述人 臉的結(jié)構(gòu)信息,稱作“特征臉”(EigenFace)。這就是人臉識(shí)別中的重要方法“特征臉?lè)椒ā钡睦碚摳鶕?jù)。近些年來(lái),基于對(duì)一般PCA方法的改進(jìn),結(jié) 合ICA、kernel-PCA等方法,在主元分析中加入關(guān)于人臉圖像的先驗(yàn)知識(shí), 則能得到更好的效果。C.圖像信息壓縮使用PCA方法進(jìn)行圖像壓縮,又被稱為Hotelling算法,或者Karhunen and Leove(KL)變換。這是視覺(jué)領(lǐng)域內(nèi)圖像處理的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版搬運(yùn)企業(yè)節(jié)能減排合同范本3篇
- 2025年度木材加工設(shè)備租賃及維護(hù)服務(wù)合同范本4篇
- 2025版民爆物品裝卸作業(yè)環(huán)境保護(hù)合同4篇
- 2025年度個(gè)人消費(fèi)分期付款合同范本(2025版)3篇
- 農(nóng)業(yè)機(jī)械化與農(nóng)村振興人才培育考核試卷
- 2025版事業(yè)單位聘用合同正規(guī)范本(含試用期)2篇
- 2025版人工智能研發(fā)中心錄用合同范本3篇
- 2025年公益活動(dòng)加盟合同
- 2025年大型活動(dòng)合作協(xié)議
- 2025年度高科技實(shí)驗(yàn)室租賃合同4篇
- 【探跡科技】2024知識(shí)產(chǎn)權(quán)行業(yè)發(fā)展趨勢(shì)報(bào)告-從工業(yè)轟鳴到數(shù)智浪潮知識(shí)產(chǎn)權(quán)成為競(jìng)爭(zhēng)市場(chǎng)的“矛與盾”
- 《中國(guó)政法大學(xué)》課件
- GB/T 35270-2024嬰幼兒背帶(袋)
- 遼寧省沈陽(yáng)名校2025屆高三第一次模擬考試英語(yǔ)試卷含解析
- 2024-2025學(xué)年高二上學(xué)期期末數(shù)學(xué)試卷(新題型:19題)(基礎(chǔ)篇)(含答案)
- 2022版藝術(shù)新課標(biāo)解讀心得(課件)小學(xué)美術(shù)
- Profinet(S523-FANUC)發(fā)那科通訊設(shè)置
- 醫(yī)學(xué)教程 常見(jiàn)化療藥物歸納
- 統(tǒng)編版九年級(jí)歷史下冊(cè)第一單元教案教學(xué)設(shè)計(jì)
- GB/T 25000.51-2016系統(tǒng)與軟件工程系統(tǒng)與軟件質(zhì)量要求和評(píng)價(jià)(SQuaRE)第51部分:就緒可用軟件產(chǎn)品(RUSP)的質(zhì)量要求和測(cè)試細(xì)則
- 外科學(xué)試題庫(kù)及答案(共1000題)
評(píng)論
0/150
提交評(píng)論