




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
模式識別第講第1頁,共34頁,2023年,2月20日,星期五第3次課程概要模式判別PCA特征評價(jià)維數(shù)比率問題第2頁,共34頁,2023年,2月20日,星期五PCAPrincipalcomponentanalysis主元分析或主成分分析功能:簡化復(fù)雜數(shù)據(jù)到低維空間,從而發(fā)現(xiàn)數(shù)據(jù)中隱藏的簡單結(jié)構(gòu)。原始數(shù)據(jù)源(生數(shù)據(jù))通常有冗余,包含噪聲PCA的目標(biāo):去除冗余,并發(fā)現(xiàn)重要特征PCA特征評價(jià)維數(shù)比率問題第3頁,共34頁,2023年,2月20日,星期五PCA的大致思路認(rèn)為原始數(shù)據(jù)X是復(fù)雜的(有噪聲有冗余),要對X重新表示重新表示后數(shù)據(jù)的維度即為隱藏于X中的簡單結(jié)構(gòu)PCA特征評價(jià)維數(shù)比率問題第4頁,共34頁,2023年,2月20日,星期五PCA怎么做?技術(shù)路線利用線性代數(shù)為工具,用另一組基去重新描述數(shù)據(jù)空間新的基能夠最好地表示原數(shù)據(jù)X原有的基是什么樣的形式呢?Na?vebasis:目標(biāo):找到另一組基,能最好表達(dá)數(shù)據(jù)集,這個新的基是原有基的線性組合PCA特征評價(jià)維數(shù)比率問題采用該方法就隱含了一個假設(shè):線性。數(shù)據(jù)限制在一個向量空間里,能被一組基表示第5頁,共34頁,2023年,2月20日,星期五基變換n個樣本每個樣本m個特征構(gòu)成m×n的矩陣XP是從X到Y(jié)的轉(zhuǎn)換矩陣幾何上,Y由對X旋轉(zhuǎn)拉伸得到P的行向量構(gòu)成一組新的基,而Y是在這組基下對X的重新表示PCA特征評價(jià)維數(shù)比率問題第6頁,共34頁,2023年,2月20日,星期五在線性的假設(shè)條件下,要解答要尋求一組變換后的基,也就是P的行向量{p1,…pm}這組基就是X的主元要解答的問題1我們要將X轉(zhuǎn)換成為的Y是個什么樣子?2對應(yīng)于Y,如何求解P?PCA特征評價(jià)維數(shù)比率問題第7頁,共34頁,2023年,2月20日,星期五我們要將X轉(zhuǎn)換成為的Y是個什么樣子?回顧一下PCA要解決的問題,數(shù)據(jù)復(fù)雜混亂
噪聲冗余PCA特征評價(jià)維數(shù)比率問題第8頁,共34頁,2023年,2月20日,星期五重要特征和噪聲的數(shù)學(xué)描述信噪比要使得信噪比大,信號的方差大,噪聲的方差小假設(shè):變化較大的信息認(rèn)為是信號,變化較小的則是噪聲PCA特征評價(jià)維數(shù)比率問題第9頁,共34頁,2023年,2月20日,星期五冗余的數(shù)學(xué)描述該變量可以用其它變量表示,因此造成了信息冗余PCA特征評價(jià)維數(shù)比率問題協(xié)方差矩陣可以反映數(shù)據(jù)的噪聲和冗余的程度第10頁,共34頁,2023年,2月20日,星期五PCA的目標(biāo)及它基于的假設(shè)PCA特征評價(jià)維數(shù)比率問題通過基變換,對協(xié)方差矩陣進(jìn)行優(yōu)化,即使得變換后的數(shù)據(jù)集Y,其協(xié)方差矩陣為對角陣。線性假設(shè):PCA內(nèi)部模型是線性的,是基于原始特征的線性變換。(如果原始數(shù)據(jù)存在非線性屬性,則經(jīng)PCA分析后將不再反映這種非線性屬性)方差越大,特征越重要。(有些對整體方差貢獻(xiàn)不大的主成分,有可能在樣本分類方面起至關(guān)重要的作用)冗余用相關(guān)性表示。(數(shù)據(jù)的概率分布需要滿足高斯分布或是指數(shù)型的概率分布)主元正交,即轉(zhuǎn)換基是一組標(biāo)準(zhǔn)正交基。該假設(shè)的作用是方便求解第11頁,共34頁,2023年,2月20日,星期五PCA求解:特征根分解(1)PCA特征評價(jià)維數(shù)比率問題尋找一組正交基組成的矩陣P,有Y=PX,使得CY是對角陣,則P的行向量,就是數(shù)據(jù)X的主元向量。D是一個對角陣E是對稱陣A的特征根排成的矩陣解題技巧,令P≡ET第12頁,共34頁,2023年,2月20日,星期五PCA求解:特征根分解(2)PCA特征評價(jià)維數(shù)比率問題第13頁,共34頁,2023年,2月20日,星期五PCA算法的一般求解步驟由以上推導(dǎo),PCA算法的一般求解步驟如下1采集數(shù)據(jù),形成m×n的矩陣,m為特征個數(shù),n為樣本數(shù)。2矩陣中的每個元素減去該維的均值,得到X3求XX‘的特征根PCA特征評價(jià)維數(shù)比率問題第14頁,共34頁,2023年,2月20日,星期五將PCA用于降維由PCA線性變換后得到的數(shù)據(jù)集,可認(rèn)為是沒有冗余的。在此結(jié)構(gòu)下,可以討論樣本中的哪些屬性(特征)比較重要。按方差由大到小排序,但丟棄的準(zhǔn)則是什么?PCA特征評價(jià)維數(shù)比率問題方法一:Kaiser準(zhǔn)則丟棄那些低于1的特征值方法二:觀察特征值的圖,通過斜率檢測,即從圖中曲線開始變平緩的點(diǎn)開始,丟棄后面的全部特征值。第15頁,共34頁,2023年,2月20日,星期五有關(guān)PCA需要注意的一個問題原始數(shù)據(jù)集里,每個特征是有意義的。比如圖像中一個對象的形狀、顏色等。但是線性變換后,語義信息丟失了。這對我們解釋識別過程帶來一定的問題。PCA特征評價(jià)維數(shù)比率問題第16頁,共34頁,2023年,2月20日,星期五特征評價(jià)對于特征分類能力的評價(jià)(1)圖形考察:盒狀圖分布圖(2)分布模型評價(jià)(3)統(tǒng)計(jì)推論檢測這些評價(jià)方法可為我們觀察某些特征集合下的數(shù)據(jù)分布提供直觀的指導(dǎo)信息PCA特征評價(jià)維數(shù)比率問題第17頁,共34頁,2023年,2月20日,星期五盒狀圖怎么畫(1)回顧:盒狀圖應(yīng)用在此的目的是:評價(jià)特征用于分類的能力因此,我們用來畫盒狀圖的數(shù)據(jù)是樣本集中一個維度(特征)的數(shù)據(jù)繪制步驟:1)將n個數(shù)據(jù)由小到大排序。(由大到小也可以)2)計(jì)算3個四分位數(shù)。
a.中位數(shù)(第2個四分位數(shù),Q2)如果n為奇數(shù),則排序后,第(n+1)/2位是中位數(shù)。如果n為偶數(shù),則排序后,第n/2與第(n+1)/2位數(shù)的平均值,為中位數(shù)。
b.不計(jì)Q2,計(jì)算前半個數(shù)據(jù)集的中位數(shù)Q1。
c.不計(jì)Q2,計(jì)算后半個數(shù)據(jù)集的中位數(shù)Q3。3)3個四分位數(shù)、最小值、最大值共5個數(shù)字就可以繪制盒狀圖了。PCA特征評價(jià)維數(shù)比率問題第18頁,共34頁,2023年,2月20日,星期五盒狀圖怎么畫(2)PCA特征評價(jià)維數(shù)比率問題將成績排序班級某科某次測試成績?nèi)缦拢旱?9頁,共34頁,2023年,2月20日,星期五盒狀圖怎么畫(3)PCA特征評價(jià)維數(shù)比率問題最小值:27最大值:97Q2:第(39+1)/2=20位的值60Q1:第(19+1)/2=10位的值45Q3:第(21+39)/2=30位的值70排序后的成績第20頁,共34頁,2023年,2月20日,星期五盒狀圖怎么畫(4)PCA特征評價(jià)維數(shù)比率問題有一半人及格;1/4學(xué)生70分以上;1/4學(xué)生45分以下;另外,還體現(xiàn)了分?jǐn)?shù)是集中還是分散全距最小值:27最大值:97Q2:60Q1:45Q3:70四分位距第21頁,共34頁,2023年,2月20日,星期五如何用盒狀圖觀察特征的分類能力軟木塞數(shù)據(jù)集,三個類別在兩個特征上的盒狀圖PCA特征評價(jià)維數(shù)比率問題特征PRT特征PRTG第22頁,共34頁,2023年,2月20日,星期五分布圖數(shù)據(jù)在特征空間分布上存在大量重疊,會對分類造成困難分布圖描繪了數(shù)據(jù)類別的拓?fù)浣Y(jié)構(gòu),可直觀獲取特征間分布重疊狀況PCA特征評價(jià)維數(shù)比率問題第23頁,共34頁,2023年,2月20日,星期五分布模型評價(jià)給定數(shù)據(jù)集(特征向量的集合),其分布是否與給定的分布模型吻合用適當(dāng)?shù)姆植寄P兔枋鰯?shù)據(jù)集,就可以根據(jù)已知樣本集為分布模型估計(jì)參數(shù),確定后的模型可用作分類或聚類。PCA特征評價(jià)維數(shù)比率問題第24頁,共34頁,2023年,2月20日,星期五Kolmogorov-Smirnov檢測
K-S檢驗(yàn)(1)經(jīng)驗(yàn)分布函數(shù)給定N個由小到大排序的數(shù)據(jù)X1….XN其中n(i)是小于等于Xi的對象個數(shù)PCA特征評價(jià)維數(shù)比率問題(1,2,2,2,3,3,3,4)第25頁,共34頁,2023年,2月20日,星期五Kolmogorov-Smirnov檢測
K-S檢驗(yàn)(2)PCA特征評價(jià)維數(shù)比率問題給定一個經(jīng)驗(yàn)分布函數(shù)FX和一個理論累積分布函數(shù)FYD=max{D+,D-}兩個經(jīng)驗(yàn)分布函數(shù)第26頁,共34頁,2023年,2月20日,星期五Kolmogorov-Smirnov檢測
K-S檢驗(yàn)(3)PCA特征評價(jià)維數(shù)比率問題K-S檢驗(yàn)的基本思路就是根據(jù)這兩根曲線的最大間距判斷是否為同一分布給定一個正態(tài)分布下產(chǎn)生的100個隨機(jī)數(shù),下圖繪制了這100個隨機(jī)數(shù)的經(jīng)驗(yàn)分布函數(shù)以及正態(tài)累積分布函數(shù)第27頁,共34頁,2023年,2月20日,星期五統(tǒng)計(jì)推論檢測量化特征的分類能力常用的統(tǒng)計(jì)推論檢驗(yàn)法對于服從正態(tài)分布的特征t-student檢驗(yàn)Anova統(tǒng)計(jì)檢驗(yàn)有時候,在樣本有限的情況下,避免對特征的分布模型進(jìn)行假設(shè)Kruskal-Wallis檢驗(yàn)(K-W檢驗(yàn),又稱H檢驗(yàn))PCA特征評價(jià)維數(shù)比率問題第28頁,共34頁,2023年,2月20日,星期五Kruskal-Wallis檢驗(yàn)給定有類別標(biāo)簽的一個樣本集,檢驗(yàn)其中一個特征的分類能力,需要挑出該特征下的數(shù)據(jù),形成由n個數(shù)據(jù)組成的集合X(1)對X由小到大排序,每一個數(shù)據(jù)對應(yīng)的序號稱作秩次(2)求評價(jià)值Hni:第i類的樣本數(shù)
Ri:第i類中所有樣本的秩次和(3)一般認(rèn)為,具有較高H值的特征有較強(qiáng)分類能力PCA特征評價(jià)維數(shù)比率問題第29頁,共34頁,2023年,2月20日,星期五Kruskal-Wallis檢驗(yàn)
一個例子包含3個類別的樣本集,取其中一個特征得到數(shù)據(jù)集如下:類別1:279;338;334;198;303類別2:229;274;310類別3:210;285;117PCA特征評價(jià)維數(shù)比率問題n=11;n1=5;n2=3;n3=3;R1=37;R2=18;R3=11;第30頁,共34頁,2023年,2月20日,星期五Kruskal-Wallis檢驗(yàn)
軟木塞數(shù)據(jù)的檢驗(yàn)結(jié)果PCA特征評價(jià)維數(shù)比率問題第31頁,共34頁,2023年,2月20日,星期五回顧:決策面在一個低維空間里,決策面很復(fù)雜,投射到高維空間中,可以找到一個線性的決策面但是在實(shí)際應(yīng)用中,無限制地向高維投射,會存在“維數(shù)災(zāi)難”問題PCA特征評價(jià)維數(shù)比率問題第32頁,共34頁,2023年,2月20日,星期五數(shù)據(jù)不斷增加時的兩類分布圖這三個圖想要給我們一個直觀的印象:當(dāng)維數(shù)比率較低時,由訓(xùn)練集合學(xué)習(xí)得到的分類器將會是錯誤的。維數(shù)比率較低對應(yīng)著數(shù)據(jù)分布稀疏的狀
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 合同換貨協(xié)議書模板圖片
- 合同協(xié)議書如何蓋章圖片
- 2025年北京市商業(yè)店鋪?zhàn)赓U合同
- 零售行業(yè)的嵌入式解決方案試題及答案
- 軟件測試工具的實(shí)踐應(yīng)用經(jīng)驗(yàn)試題及答案
- 信息系統(tǒng)監(jiān)理師備考清單與試題答案解析
- 軟件測試工程師應(yīng)對考試的技巧試題及答案
- 解析行政組織理論的重要性試題及答案
- 公路工程的規(guī)范與標(biāo)準(zhǔn)試題及答案
- 石油hse試題及答案
- 生產(chǎn)良率系統(tǒng)統(tǒng)計(jì)表
- 用TOC理論提高生產(chǎn)制造的競爭力課件
- SketchUp (草圖大師) 基礎(chǔ)培訓(xùn)PPT課件
- 生命線安裝方案
- 代理機(jī)構(gòu)服務(wù)質(zhì)量考核評價(jià)表
- 淺談打擊樂器在小學(xué)低段音樂課堂中的運(yùn)用
- 電廠保安人員管理制度
- 2018年瀘州市生物中考試題含答案
- ge核磁共振機(jī)房專用精密空調(diào)機(jī)技術(shù)要求
- 新干縣人民醫(yī)院血液透析治療患者告知書
- 消防電氣檢驗(yàn)批質(zhì)量驗(yàn)收記錄表
評論
0/150
提交評論