人工智能算法與實(shí)踐-第10章 主成分分析_第1頁
人工智能算法與實(shí)踐-第10章 主成分分析_第2頁
人工智能算法與實(shí)踐-第10章 主成分分析_第3頁
人工智能算法與實(shí)踐-第10章 主成分分析_第4頁
人工智能算法與實(shí)踐-第10章 主成分分析_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

10.4算法總結(jié)10.1算法概述10.2算法原理10.3算法案例目錄第十章主成分分析人工智能算法與實(shí)踐—1

01算法概述PartTHREE—2

在對某一事物進(jìn)行實(shí)證研究中,為了更全面、準(zhǔn)確地反映出事物的特征及其發(fā)展規(guī)律,人們往往要考慮與其有關(guān)系的多個(gè)指標(biāo),這些指標(biāo)在多元統(tǒng)計(jì)中也稱為變量。這樣就產(chǎn)生了如下問題:一方面人們?yōu)榱吮苊膺z漏重要的信息而考慮盡可能多的指標(biāo),而另一方面隨著考慮指標(biāo)的增多增加了問題的復(fù)雜性,同時(shí)由于各指標(biāo)均是對同一事物的反映,不可避免地造成信息的大量重疊,這種信息的重疊有時(shí)甚至?xí)⑹挛锏恼嬲卣髋c內(nèi)在規(guī)律。基于上述問題,人們就希望在定量研究中涉及的變量較少,而得到的信息量又較多。主成分分析正是研究如何通過原來變量的少數(shù)幾個(gè)線性組合來解釋原來變量絕大多數(shù)信息的一種多元統(tǒng)計(jì)方法。10.1算法概述—3

研究某一問題涉及的眾多變量之間有一定的相關(guān)性,那也就肯定存在起支配作用的共同因素,根據(jù)這一點(diǎn),通過對原始變量相關(guān)矩陣或協(xié)方差矩陣內(nèi)部結(jié)構(gòu)關(guān)系的研究,利用原始變量的線性組合形成幾個(gè)綜合指標(biāo)(主成分),在保留原始變量主要信息的前提下起到降維與簡化問題的作用,使得在研究復(fù)雜問題時(shí)更容易抓住主要矛盾。10.1算法概述—4

主成分與原始變量2431每一個(gè)主成分都是各原始變量的線性組合主成分的數(shù)目大大少于原始變量的數(shù)目主成分保留了原始變量絕大多數(shù)信息各主成分之間互不相關(guān)10.1算法概述—5

一般地說,利用主成分分析得到的主成分與原始變量之間有以下關(guān)系。

10.1算法概述—6

02算法原理PartTHREE—7

10.2算法原理—8

如圖,對于一個(gè)坐標(biāo)點(diǎn)(3,2)得到,其代表的意思是二維坐標(biāo)里其橫坐標(biāo)為3,縱坐標(biāo)為2。其實(shí)這隱含了一個(gè)假設(shè),即其橫縱坐標(biāo)的基為(1,0)和(0,1)。對于一般的二維向量,這似乎是大家的默認(rèn)情況,就像隨便給出一個(gè)數(shù)字10,大家會認(rèn)為這是10進(jìn)制表示,除非特殊標(biāo)明,不會把它當(dāng)作其他進(jìn)制來理解。10.2算法原理—9

10.2算法原理—10

10.2算法原理—11

同樣對于一個(gè)具有n個(gè)特征的集合來說,很難說這n個(gè)特征都是完全有必要的,所以我們就想辦法來精簡一些特征。選取少于n個(gè)的基向量組,將數(shù)據(jù)投影在這個(gè)向量組上,減少空間的同時(shí)又能保證信息量。首先需要明確的一點(diǎn)是什么才算好的基向量?首先舉一個(gè)將二維空間的數(shù)據(jù)投影到一維空間的情況。如上圖所示,對于空間中的這些點(diǎn),我們應(yīng)該怎么投影才能夠盡可能的保持?jǐn)?shù)據(jù)的信息量呢?通過上圖中可以看出,如果將數(shù)據(jù)投影到PC1上,那么所有的數(shù)據(jù)點(diǎn)較為分散,與之相反,如果投影到PC2上,則數(shù)據(jù)較為集中。考慮一個(gè)極端的情況,假如所有的點(diǎn)在投影之后全部集中在一個(gè)點(diǎn)上,這樣好嗎?當(dāng)然不!10.2算法原理—12

如果所有的點(diǎn)都集中到一個(gè)點(diǎn)上,那就說明所有的點(diǎn)都沒有差別,信息全部丟失了。所以我們希望當(dāng)數(shù)據(jù)點(diǎn)投影到某個(gè)坐標(biāo)軸之上以后,數(shù)據(jù)越分散越好,而衡量一組數(shù)據(jù)是否發(fā)散恰好有一個(gè)統(tǒng)計(jì)名詞“方差”,也就是說投影過后的點(diǎn)值方差越大越好。同時(shí),如果數(shù)據(jù)被投影到多個(gè)基向量上,那么我們希望這些基向量之間的耦合程度越小越好,也就說基向量之間應(yīng)該是正交的,如下圖所示。因?yàn)槿绻豢紤]基向量之間的正交性,只考慮方差最大的話,那么所求得的值其實(shí)都是一樣的。關(guān)于在不同的基向量上的投影的線性相關(guān)度也有一個(gè)度量標(biāo)準(zhǔn)--協(xié)方差。那么我們的目標(biāo)明確了,使得相同特征之間方差越大越好,不同特征之間協(xié)方差越小越好。10.2算法原理—13

10.2算法原理—14

10.2算法原理—15

03

算法案例PartTHREE—16

數(shù)據(jù)降維本實(shí)驗(yàn)對鳶尾花數(shù)據(jù)集采用主成分分析方法,使數(shù)據(jù)降維。數(shù)據(jù)集中前4列數(shù)據(jù)分別代表它的4項(xiàng)特征:花萼長度、花萼寬度、花瓣長度、花瓣寬度,最后一列為標(biāo)簽。共有150條數(shù)據(jù)。該試驗(yàn)的目的是為了找到樣本數(shù)據(jù)的主成分特征,并將數(shù)都投影到主成分特征的方向上,投影后的數(shù)據(jù)可以很容易的對其進(jìn)行分類。10.3算法案例—17

10.3算法案例—18

本實(shí)驗(yàn)數(shù)據(jù)為開放型數(shù)據(jù)集,直接下載到本地。1.數(shù)據(jù)讀入2.數(shù)據(jù)標(biāo)準(zhǔn)化10.3算法案例—19

3.指定維度,訓(xùn)練降維模型并返回10.3算法案例—20

4.對降維后數(shù)據(jù)進(jìn)行可視化運(yùn)行結(jié)果如上圖所示。實(shí)驗(yàn)將主成分的個(gè)數(shù)指定為2,即降維后數(shù)據(jù)的維度,將原本的樣本數(shù)據(jù)向主成分特征的方向上進(jìn)行投影,得到上圖所示的分類效果。10.3算法案例—21

04算法總結(jié)PartTHREE—22

這里對PCA算法做一個(gè)總結(jié)。作為一個(gè)非監(jiān)督學(xué)習(xí)的降維方法,它只需要特征值分解,就可以對數(shù)據(jù)進(jìn)行壓縮,去噪。因此在實(shí)際場景應(yīng)用很廣泛。為了克服PCA的一些缺點(diǎn),出現(xiàn)了很多PCA的變種,比如第六節(jié)的為解決非線性降維的KPCA,還有解決內(nèi)存限制的增量PCA方法IncrementalPCA,以及解決稀疏數(shù)據(jù)降維的PCA方法SparsePCA等。

10.4算法總結(jié)—23

PCA算法的主要優(yōu)點(diǎn)有:1)僅僅需要以方差衡量信息量,不受數(shù)據(jù)集以外的因素影響。

2)各主成分之間正交,可消除原始數(shù)據(jù)成分間的相互影響的因素。

3)計(jì)算方法簡單,主要運(yùn)算是特征值分解,易于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論