版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
10.4算法總結(jié)10.1算法概述10.2算法原理10.3算法案例目錄第十章主成分分析人工智能算法與實(shí)踐—1
—
01算法概述PartTHREE—2
—
在對某一事物進(jìn)行實(shí)證研究中,為了更全面、準(zhǔn)確地反映出事物的特征及其發(fā)展規(guī)律,人們往往要考慮與其有關(guān)系的多個(gè)指標(biāo),這些指標(biāo)在多元統(tǒng)計(jì)中也稱為變量。這樣就產(chǎn)生了如下問題:一方面人們?yōu)榱吮苊膺z漏重要的信息而考慮盡可能多的指標(biāo),而另一方面隨著考慮指標(biāo)的增多增加了問題的復(fù)雜性,同時(shí)由于各指標(biāo)均是對同一事物的反映,不可避免地造成信息的大量重疊,這種信息的重疊有時(shí)甚至?xí)⑹挛锏恼嬲卣髋c內(nèi)在規(guī)律。基于上述問題,人們就希望在定量研究中涉及的變量較少,而得到的信息量又較多。主成分分析正是研究如何通過原來變量的少數(shù)幾個(gè)線性組合來解釋原來變量絕大多數(shù)信息的一種多元統(tǒng)計(jì)方法。10.1算法概述—3
—
研究某一問題涉及的眾多變量之間有一定的相關(guān)性,那也就肯定存在起支配作用的共同因素,根據(jù)這一點(diǎn),通過對原始變量相關(guān)矩陣或協(xié)方差矩陣內(nèi)部結(jié)構(gòu)關(guān)系的研究,利用原始變量的線性組合形成幾個(gè)綜合指標(biāo)(主成分),在保留原始變量主要信息的前提下起到降維與簡化問題的作用,使得在研究復(fù)雜問題時(shí)更容易抓住主要矛盾。10.1算法概述—4
—
主成分與原始變量2431每一個(gè)主成分都是各原始變量的線性組合主成分的數(shù)目大大少于原始變量的數(shù)目主成分保留了原始變量絕大多數(shù)信息各主成分之間互不相關(guān)10.1算法概述—5
—
一般地說,利用主成分分析得到的主成分與原始變量之間有以下關(guān)系。
10.1算法概述—6
—
02算法原理PartTHREE—7
—
10.2算法原理—8
—
如圖,對于一個(gè)坐標(biāo)點(diǎn)(3,2)得到,其代表的意思是二維坐標(biāo)里其橫坐標(biāo)為3,縱坐標(biāo)為2。其實(shí)這隱含了一個(gè)假設(shè),即其橫縱坐標(biāo)的基為(1,0)和(0,1)。對于一般的二維向量,這似乎是大家的默認(rèn)情況,就像隨便給出一個(gè)數(shù)字10,大家會認(rèn)為這是10進(jìn)制表示,除非特殊標(biāo)明,不會把它當(dāng)作其他進(jìn)制來理解。10.2算法原理—9
—
10.2算法原理—10
—
10.2算法原理—11
—
同樣對于一個(gè)具有n個(gè)特征的集合來說,很難說這n個(gè)特征都是完全有必要的,所以我們就想辦法來精簡一些特征。選取少于n個(gè)的基向量組,將數(shù)據(jù)投影在這個(gè)向量組上,減少空間的同時(shí)又能保證信息量。首先需要明確的一點(diǎn)是什么才算好的基向量?首先舉一個(gè)將二維空間的數(shù)據(jù)投影到一維空間的情況。如上圖所示,對于空間中的這些點(diǎn),我們應(yīng)該怎么投影才能夠盡可能的保持?jǐn)?shù)據(jù)的信息量呢?通過上圖中可以看出,如果將數(shù)據(jù)投影到PC1上,那么所有的數(shù)據(jù)點(diǎn)較為分散,與之相反,如果投影到PC2上,則數(shù)據(jù)較為集中。考慮一個(gè)極端的情況,假如所有的點(diǎn)在投影之后全部集中在一個(gè)點(diǎn)上,這樣好嗎?當(dāng)然不!10.2算法原理—12
—
如果所有的點(diǎn)都集中到一個(gè)點(diǎn)上,那就說明所有的點(diǎn)都沒有差別,信息全部丟失了。所以我們希望當(dāng)數(shù)據(jù)點(diǎn)投影到某個(gè)坐標(biāo)軸之上以后,數(shù)據(jù)越分散越好,而衡量一組數(shù)據(jù)是否發(fā)散恰好有一個(gè)統(tǒng)計(jì)名詞“方差”,也就是說投影過后的點(diǎn)值方差越大越好。同時(shí),如果數(shù)據(jù)被投影到多個(gè)基向量上,那么我們希望這些基向量之間的耦合程度越小越好,也就說基向量之間應(yīng)該是正交的,如下圖所示。因?yàn)槿绻豢紤]基向量之間的正交性,只考慮方差最大的話,那么所求得的值其實(shí)都是一樣的。關(guān)于在不同的基向量上的投影的線性相關(guān)度也有一個(gè)度量標(biāo)準(zhǔn)--協(xié)方差。那么我們的目標(biāo)明確了,使得相同特征之間方差越大越好,不同特征之間協(xié)方差越小越好。10.2算法原理—13
—
10.2算法原理—14
—
10.2算法原理—15
—
03
算法案例PartTHREE—16
—
數(shù)據(jù)降維本實(shí)驗(yàn)對鳶尾花數(shù)據(jù)集采用主成分分析方法,使數(shù)據(jù)降維。數(shù)據(jù)集中前4列數(shù)據(jù)分別代表它的4項(xiàng)特征:花萼長度、花萼寬度、花瓣長度、花瓣寬度,最后一列為標(biāo)簽。共有150條數(shù)據(jù)。該試驗(yàn)的目的是為了找到樣本數(shù)據(jù)的主成分特征,并將數(shù)都投影到主成分特征的方向上,投影后的數(shù)據(jù)可以很容易的對其進(jìn)行分類。10.3算法案例—17
—
10.3算法案例—18
—
本實(shí)驗(yàn)數(shù)據(jù)為開放型數(shù)據(jù)集,直接下載到本地。1.數(shù)據(jù)讀入2.數(shù)據(jù)標(biāo)準(zhǔn)化10.3算法案例—19
—
3.指定維度,訓(xùn)練降維模型并返回10.3算法案例—20
—
4.對降維后數(shù)據(jù)進(jìn)行可視化運(yùn)行結(jié)果如上圖所示。實(shí)驗(yàn)將主成分的個(gè)數(shù)指定為2,即降維后數(shù)據(jù)的維度,將原本的樣本數(shù)據(jù)向主成分特征的方向上進(jìn)行投影,得到上圖所示的分類效果。10.3算法案例—21
—
04算法總結(jié)PartTHREE—22
—
這里對PCA算法做一個(gè)總結(jié)。作為一個(gè)非監(jiān)督學(xué)習(xí)的降維方法,它只需要特征值分解,就可以對數(shù)據(jù)進(jìn)行壓縮,去噪。因此在實(shí)際場景應(yīng)用很廣泛。為了克服PCA的一些缺點(diǎn),出現(xiàn)了很多PCA的變種,比如第六節(jié)的為解決非線性降維的KPCA,還有解決內(nèi)存限制的增量PCA方法IncrementalPCA,以及解決稀疏數(shù)據(jù)降維的PCA方法SparsePCA等。
10.4算法總結(jié)—23
—
PCA算法的主要優(yōu)點(diǎn)有:1)僅僅需要以方差衡量信息量,不受數(shù)據(jù)集以外的因素影響。
2)各主成分之間正交,可消除原始數(shù)據(jù)成分間的相互影響的因素。
3)計(jì)算方法簡單,主要運(yùn)算是特征值分解,易于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 18216.11-2024交流1 000 V和直流1 500 V及以下低壓配電系統(tǒng)電氣安全防護(hù)措施的試驗(yàn)、測量或監(jiān)控設(shè)備第11部分:TT、TN和IT系統(tǒng)中剩余電流監(jiān)視器(RCM)的有效性
- 專業(yè)器械保養(yǎng)及維修協(xié)議(2024年度)版B版
- 2024簡易版?zhèn)€人房屋租賃協(xié)議模板版B版
- 2024年度教育居間服務(wù)協(xié)議范本3篇
- 2024年版電力供應(yīng)與需求側(cè)管理合同
- 2024年適用大額融資居間協(xié)議法律文本版B版
- 互聯(lián)網(wǎng)網(wǎng)絡(luò)使用安全講座
- 6 生物的變異 說課稿-2024-2025學(xué)年科學(xué)六年級上冊蘇教版
- 2024年環(huán)保型電動汽車研發(fā)與生產(chǎn)合同
- 職業(yè)學(xué)院橫向課題申請書
- 2024-2025學(xué)年度第一學(xué)期四年級數(shù)學(xué)寒假作業(yè)
- 中考語文真題專題復(fù)習(xí) 小說閱讀(第01期)(解析版)
- 《陸上風(fēng)電場工程概算定額》NBT 31010-2019
- 招投標(biāo)法考試試題及答案
- 皮帶輸送機(jī)工程施工電氣安裝措施要點(diǎn)
- 愛人情況登記表
- QJ903.9A-1995航天產(chǎn)品工藝文件管理制度管理用工藝文件編制規(guī)則
- 惡性淋巴瘤化療方案有哪些
- 美制統(tǒng)一螺紋表UNC,UNF
- 男性公民兵役登記應(yīng)征報(bào)名表
- 水蓄冷與冰蓄冷地比較
評論
0/150
提交評論