PCA算法的數(shù)學知識特征值分解和奇異值分解_第1頁
PCA算法的數(shù)學知識特征值分解和奇異值分解_第2頁
PCA算法的數(shù)學知識特征值分解和奇異值分解_第3頁
PCA算法的數(shù)學知識特征值分解和奇異值分解_第4頁
PCA算法的數(shù)學知識特征值分解和奇異值分解_第5頁
全文預覽已結(jié)束

VIP免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、PCA算法的數(shù)學知識-特征值分解和奇異值分解:1)特征值:    如果說一個向量v是方陣X的特征向量,將一定可以表示成下面的形式:    這時候就被稱為特征向量v對應的特征值,一個矩陣的一組特征向量是一組正交向量。特征值分解是將一個矩陣分解成下面的形式:其中Q是這個矩陣X的特征向量組成的矩陣,是一個對角陣,每一個對角線上的元素就是一個特征值。首先,要明確的是,乘以一個矩陣其實就是一個線性變換,而且將一個矩陣乘以一個向量后得到的向量,其實就相當于對這個向量進行了線性變換。如果我們想要描述好一個變換,那我們就描述好這個變換主要的變化方向就

2、好了。分解得到的矩陣是一個對角陣,里面的特征值是由大到小排列的,這些特征值所對應的特征向量就是描述這個矩陣變化方向(從主要的變化到次要的變化排列)。通過特征值分解得到的前N個特征向量,就對應了這個矩陣最主要的N個變化方向。我們利用這前N個變化方向,就可以近似這個矩陣(變換)。也就是:提取這個矩陣最重要的特征。總結(jié)一下,特征值分解可以得到特征值與特征向量,特征值表示的是這個特征到底有多重要,而特征向量表示這個特征是什么,可以將每一個特征向量理解為一個線性的子空間,我們可以利用這些線性的子空間干很多的事情。不過,特征值分解也有很多的局限,比如說變換的矩陣必須是方陣。2)奇異值: 

3、0; 特征值分解是一個提取矩陣特征很不錯的方法,但是它只是對方陣而言的,而奇異值分解是一個能適用于任意的矩陣的一種分解的方法:假設X是一個n* p的矩陣,那么得到的U是一個n * n的方陣(里面的向量是正交的,U里面的向量稱為左奇異向量),是一個n * p的矩陣(除了對角線的元素都是0,對角線上的元素稱為奇異值),(V的轉(zhuǎn)置)是一個p * p的矩陣,里面的向量也是正交的,V里面的向量稱為右奇異向量)。那么奇異值和特征值是怎么對應起來的呢?首先,我們將一個矩陣X的轉(zhuǎn)置乘以X,將會得到一個方陣,我們用這個方陣求特征值可以得到:    這里得到的v,就是我們上

4、面的右奇異向量。此外我們還可以得到:    這里的就是上面說的奇異值,u就是上面說的左奇異向量。奇異值跟特征值類似,在矩陣中也是從大到小排列,而且的減少特別的快,在很多情況下,前10%甚至1%的奇異值的和就占了全部的奇異值之和的99%以上了。也就是說,我們也可以用前r大的奇異值來近似描述矩陣,這里定義一下部分奇異值分解:    r是一個遠小于n、p的數(shù),右邊的三個矩陣相乘的結(jié)果將會是一個接近于X的矩陣,在這兒,r越接近于p,則相乘的結(jié)果越接近于X。而這三個矩陣的面積之和(在存儲觀點來說,矩陣面積越小,存儲量就越?。┮h遠小于原始的矩陣

5、X,我們?nèi)绻胍獕嚎s空間來表示原矩陣X,我們存下這里的三個矩陣:U、V就好了。奇異值與主成分分析(PCA):PCA的全部工作簡單點說,就是對原始的空間中順序地找一組相互正交的坐標軸,第一個軸是使得方差最大的,第二個軸是在與第一個軸正交的平面中使得方差最大的,第三個軸是在與第1、2個軸正交的平面中方差最大的,這樣假設在N維空間中,我們可以找到N個這樣的坐標軸,我們?nèi)∏皉個去近似這個空間,這樣就從一個N維的空間壓縮到r維的空間了,但是我們選擇的r個坐標軸能夠使得空間的壓縮使得數(shù)據(jù)的損失最小。假設矩陣每一行表示一個樣本,每一列表示一個特征,用矩陣的語言來表示,對一個n* p的矩陣X進行坐標軸的變化,

6、P就是一個變換的矩陣,從一個p維的空間變換到另一個p維的空間,在空間中就會進行一些類似于旋轉(zhuǎn)、拉伸的變化。    而將一個n * p的矩陣X變換成一個n* r的矩陣,這樣就會使得本來有p個特征的樣本,變成了有r個特征了(r < p),這r個其實就是對p個特征的一種提煉。用數(shù)學語言表示就是:    但是這個跟奇異值分解(SVD)什么關系呢?之前談到,SVD得出的奇異向量也是從奇異值由大到小排列的,按PCA的觀點來看,就是方差最大的坐標軸就是第一個奇異向量,方差次大的坐標軸就是第二個奇異向量我們回憶一下之前得到的SVD式子:

7、0;    在矩陣的兩邊同時乘上一個矩陣V,由于V是一個正交的矩陣,所以V轉(zhuǎn)置乘以V得到單位陣I,所以可以化成后面的式子     將后面的式子與X * P那個n * p的矩陣變換為n * r的矩陣的式子對照看看,在這里,其實V就是P,也就是一個變化的向量,即一組新的坐標基,也叫主成分矩陣,而相當于原數(shù)據(jù)在新坐標基下的坐標,叫做得分矩陣。這里是將一個n * p 的矩陣壓縮到一個n * r的矩陣,也就是對列進行壓縮。如果我們想對行進行壓縮(在PCA的觀點下,對行進行壓縮可以理解為,將一些相似的樣本合并在一起,或者將一些沒有太大價值的樣本去掉)怎么辦呢?同樣我們寫出一個通用的行壓縮例子:    這樣就從一個n行的矩陣壓縮到一個r行的矩陣了,對SVD來說也是一樣的,我們對SVD分解的式子兩邊乘以U的轉(zhuǎn)置U'這樣我們就得到了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論