




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、PCA算法的數(shù)學(xué)知識(shí)-特征值分解和奇異值分解:1)特征值: 如果說(shuō)一個(gè)向量v是方陣X的特征向量,將一定可以表示成下面的形式: 這時(shí)候就被稱為特征向量v對(duì)應(yīng)的特征值,一個(gè)矩陣的一組特征向量是一組正交向量。特征值分解是將一個(gè)矩陣分解成下面的形式:其中Q是這個(gè)矩陣X的特征向量組成的矩陣,是一個(gè)對(duì)角陣,每一個(gè)對(duì)角線上的元素就是一個(gè)特征值。首先,要明確的是,乘以一個(gè)矩陣其實(shí)就是一個(gè)線性變換,而且將一個(gè)矩陣乘以一個(gè)向量后得到的向量,其實(shí)就相當(dāng)于對(duì)這個(gè)向量進(jìn)行了線性變換。如果我們想要描述好一個(gè)變換,那我們就描述好這個(gè)變換主要的變化方向就
2、好了。分解得到的矩陣是一個(gè)對(duì)角陣,里面的特征值是由大到小排列的,這些特征值所對(duì)應(yīng)的特征向量就是描述這個(gè)矩陣變化方向(從主要的變化到次要的變化排列)。通過(guò)特征值分解得到的前N個(gè)特征向量,就對(duì)應(yīng)了這個(gè)矩陣最主要的N個(gè)變化方向。我們利用這前N個(gè)變化方向,就可以近似這個(gè)矩陣(變換)。也就是:提取這個(gè)矩陣最重要的特征。總結(jié)一下,特征值分解可以得到特征值與特征向量,特征值表示的是這個(gè)特征到底有多重要,而特征向量表示這個(gè)特征是什么,可以將每一個(gè)特征向量理解為一個(gè)線性的子空間,我們可以利用這些線性的子空間干很多的事情。不過(guò),特征值分解也有很多的局限,比如說(shuō)變換的矩陣必須是方陣。2)奇異值:
3、0; 特征值分解是一個(gè)提取矩陣特征很不錯(cuò)的方法,但是它只是對(duì)方陣而言的,而奇異值分解是一個(gè)能適用于任意的矩陣的一種分解的方法:假設(shè)X是一個(gè)n* p的矩陣,那么得到的U是一個(gè)n * n的方陣(里面的向量是正交的,U里面的向量稱為左奇異向量),是一個(gè)n * p的矩陣(除了對(duì)角線的元素都是0,對(duì)角線上的元素稱為奇異值),(V的轉(zhuǎn)置)是一個(gè)p * p的矩陣,里面的向量也是正交的,V里面的向量稱為右奇異向量)。那么奇異值和特征值是怎么對(duì)應(yīng)起來(lái)的呢?首先,我們將一個(gè)矩陣X的轉(zhuǎn)置乘以X,將會(huì)得到一個(gè)方陣,我們用這個(gè)方陣求特征值可以得到: 這里得到的v,就是我們上
4、面的右奇異向量。此外我們還可以得到: 這里的就是上面說(shuō)的奇異值,u就是上面說(shuō)的左奇異向量。奇異值跟特征值類似,在矩陣中也是從大到小排列,而且的減少特別的快,在很多情況下,前10%甚至1%的奇異值的和就占了全部的奇異值之和的99%以上了。也就是說(shuō),我們也可以用前r大的奇異值來(lái)近似描述矩陣,這里定義一下部分奇異值分解: r是一個(gè)遠(yuǎn)小于n、p的數(shù),右邊的三個(gè)矩陣相乘的結(jié)果將會(huì)是一個(gè)接近于X的矩陣,在這兒,r越接近于p,則相乘的結(jié)果越接近于X。而這三個(gè)矩陣的面積之和(在存儲(chǔ)觀點(diǎn)來(lái)說(shuō),矩陣面積越小,存儲(chǔ)量就越?。┮h(yuǎn)遠(yuǎn)小于原始的矩陣
5、X,我們?nèi)绻胍獕嚎s空間來(lái)表示原矩陣X,我們存下這里的三個(gè)矩陣:U、V就好了。奇異值與主成分分析(PCA):PCA的全部工作簡(jiǎn)單點(diǎn)說(shuō),就是對(duì)原始的空間中順序地找一組相互正交的坐標(biāo)軸,第一個(gè)軸是使得方差最大的,第二個(gè)軸是在與第一個(gè)軸正交的平面中使得方差最大的,第三個(gè)軸是在與第1、2個(gè)軸正交的平面中方差最大的,這樣假設(shè)在N維空間中,我們可以找到N個(gè)這樣的坐標(biāo)軸,我們?nèi)∏皉個(gè)去近似這個(gè)空間,這樣就從一個(gè)N維的空間壓縮到r維的空間了,但是我們選擇的r個(gè)坐標(biāo)軸能夠使得空間的壓縮使得數(shù)據(jù)的損失最小。假設(shè)矩陣每一行表示一個(gè)樣本,每一列表示一個(gè)特征,用矩陣的語(yǔ)言來(lái)表示,對(duì)一個(gè)n* p的矩陣X進(jìn)行坐標(biāo)軸的變化,
6、P就是一個(gè)變換的矩陣,從一個(gè)p維的空間變換到另一個(gè)p維的空間,在空間中就會(huì)進(jìn)行一些類似于旋轉(zhuǎn)、拉伸的變化。 而將一個(gè)n * p的矩陣X變換成一個(gè)n* r的矩陣,這樣就會(huì)使得本來(lái)有p個(gè)特征的樣本,變成了有r個(gè)特征了(r < p),這r個(gè)其實(shí)就是對(duì)p個(gè)特征的一種提煉。用數(shù)學(xué)語(yǔ)言表示就是: 但是這個(gè)跟奇異值分解(SVD)什么關(guān)系呢?之前談到,SVD得出的奇異向量也是從奇異值由大到小排列的,按PCA的觀點(diǎn)來(lái)看,就是方差最大的坐標(biāo)軸就是第一個(gè)奇異向量,方差次大的坐標(biāo)軸就是第二個(gè)奇異向量我們回憶一下之前得到的SVD式子:
7、0; 在矩陣的兩邊同時(shí)乘上一個(gè)矩陣V,由于V是一個(gè)正交的矩陣,所以V轉(zhuǎn)置乘以V得到單位陣I,所以可以化成后面的式子 將后面的式子與X * P那個(gè)n * p的矩陣變換為n * r的矩陣的式子對(duì)照看看,在這里,其實(shí)V就是P,也就是一個(gè)變化的向量,即一組新的坐標(biāo)基,也叫主成分矩陣,而相當(dāng)于原數(shù)據(jù)在新坐標(biāo)基下的坐標(biāo),叫做得分矩陣。這里是將一個(gè)n * p 的矩陣壓縮到一個(gè)n * r的矩陣,也就是對(duì)列進(jìn)行壓縮。如果我們想對(duì)行進(jìn)行壓縮(在PCA的觀點(diǎn)下,對(duì)行進(jìn)行壓縮可以理解為,將一些相似的樣本合并在一起,或者將一些沒有太大價(jià)值的樣本去掉)怎么辦呢?同樣我們寫出一個(gè)通用的行壓縮例子: 這樣就從一個(gè)n行的矩陣壓縮到一個(gè)r行的矩陣了,對(duì)SVD來(lái)說(shuō)也是一樣的,我們對(duì)SVD分解的式子兩邊乘以U的轉(zhuǎn)置U'這樣我們就得到了
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 甘孜職業(yè)學(xué)院《大跨度空間結(jié)構(gòu)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025屆寧夏吳忠市高三上學(xué)期適應(yīng)性考試(一模)歷史試卷
- 2024-2025學(xué)年浙江省六校聯(lián)盟高一上學(xué)期期中聯(lián)考?xì)v史試卷
- 做賬實(shí)操-代理記賬行業(yè)的賬務(wù)處理分錄
- 長(zhǎng)春大學(xué)旅游學(xué)院《幼兒舞蹈創(chuàng)編二》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024-2025學(xué)年湖北省新高考聯(lián)考協(xié)作體高一上學(xué)期期中考試歷史試卷
- 濟(jì)南工程職業(yè)技術(shù)學(xué)院《信息安全基礎(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 聊城大學(xué)東昌學(xué)院《病理學(xué)與病理生理學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 亳州職業(yè)技術(shù)學(xué)院《數(shù)據(jù)分析與可視化實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 萍鄉(xiāng)衛(wèi)生職業(yè)學(xué)院《文化人類學(xué)理論》2023-2024學(xué)年第二學(xué)期期末試卷
- 防止化學(xué)污染管理制度
- 五年級(jí)上冊(cè)英語(yǔ)Module6Unit1Youcanplaybasketballwell外研社課件
- 工程施工派工單
- 編紙條 市賽獲獎(jiǎng) 完整版課件
- 玩具公司職位說(shuō)明書匯編
- 平面設(shè)計(jì)創(chuàng)意與制作課件
- 化學(xué)專業(yè)英語(yǔ)元素周期表
- 新湘版小學(xué)科學(xué)四年級(jí)下冊(cè)教案(全冊(cè))
- Q∕SY 06349-2019 油氣輸送管道線路工程施工技術(shù)規(guī)范
- 實(shí)驗(yàn)心理學(xué)課件(周愛保博士版)
- 04 第三章 環(huán)境污染物的生物轉(zhuǎn)運(yùn)和生物轉(zhuǎn)化 -毒物動(dòng)力學(xué)
評(píng)論
0/150
提交評(píng)論