機(jī)器學(xué)習(xí)-05-下-.ppt

上傳人：x*** IP屬地：四川上傳時(shí)間：2019-07-12 格式：PPT 頁數(shù)：47 大?。?.66MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩42頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)第五講(下),多維數(shù)據(jù)處理與維度約簡(jiǎn),盧志茂,維度約簡(jiǎn),維度約簡(jiǎn),維度約簡(jiǎn)概述（1）多種稱謂維度規(guī)約 dimensionality reduction 特征選擇 feature selection 特征提取 feature extraction,統(tǒng)稱降維降低維數(shù)，減少類別描述的特征數(shù)量,維度約簡(jiǎn),維度約簡(jiǎn)概述（2）輸入的空間輸入輸出均為二元的情況,需要降維嗎？,維度約簡(jiǎn),維度約簡(jiǎn)概述（3）輸入的空間神經(jīng)網(wǎng)絡(luò)的輸入層,維度約簡(jiǎn),維度約簡(jiǎn)概述（4）降維的好處理想情況下，降維不該是一個(gè)獨(dú)立過程常被看做預(yù)處理過程加以考慮降低算法計(jì)算復(fù)雜度簡(jiǎn)單模型，方差小，更魯棒特征少，易解釋和學(xué)習(xí) 容易實(shí)現(xiàn)可視化,聽說過維數(shù)災(zāi)難嗎？,嘭、嘭,維度約簡(jiǎn),維度約簡(jiǎn)概述（5）降維的可能性特征描述存在冗余特征變量相互依賴對(duì)類別沒有表征能力無關(guān)的、錯(cuò)誤的、表現(xiàn)力弱的高維空間向低維空間映射多維信息的融合、混合、揉合,還記得數(shù)據(jù)表的主鍵嗎,單鍵、組合鍵、全鍵,維度約簡(jiǎn),維度約簡(jiǎn)概述（6）常用降維方法特征選擇從 d 維中找出能提供更多信息的 k 個(gè)維子集選擇 subset selection 特征提取通過變換，找出 k 個(gè)維的新組合主成分分析線性判別分析,維度約簡(jiǎn),子集選擇（1）尋找最佳子集最佳子集包括那些對(duì)正確率貢獻(xiàn)最大的屬性（特征） d 個(gè)變量有 2d 的個(gè)可能子集只能在合理的時(shí)間找到一個(gè)合理的解主要方法向前選擇 forward selection 從空集開始添加使誤差降低最多的特征向后選擇 backward selection 逐步刪除掉使誤差提高很小的特征,維度約簡(jiǎn),子集選擇（2）順序向前選擇 sequential forward selection 處理思想 F, a feature set of input dimensions, xi, i = 1, . . . , d. E(F) denotes the error incurred on the validation sample when only the inputs in F are used. start with no features: F = . At each step, for all possible xi , we train our model on the training set and calculate E(Fxi) on the validation set,驗(yàn)證集,維度約簡(jiǎn),子集選擇（3）順序向前選擇 sequential forward selection 處理思想 Then, we choose that input xj that causes the least error E 不在減小，則停止 E 如果變化太小，也可以考慮提前停止,維度約簡(jiǎn),子集選擇（4）順序向前選擇 sequential forward selection 該方法的復(fù)雜度分析從 d 到 k train and test the system d+ (d 1) + (d 2) + + (d k) times, which is O(d2). 貪心策略，局部最優(yōu) 不能發(fā)現(xiàn)組合特征一次可增加多個(gè)，但需更多計(jì)算量也可回溯，考察是否要?jiǎng)h除某些已添加特征,維度約簡(jiǎn),子集選擇（5）順序向后選擇 sequential backward selection 與添加特征向反，逐個(gè)刪除特征改進(jìn)策略與向前方法一樣如果預(yù)料無效特征多，則向前方法更可取,考慮變化最小的特征,維度約簡(jiǎn),主成份分析Principal Components Analysis （1）投影方法 project ion methods 從 d 維投影到 k (k d) 維輸入空間，并且信息損失最小首先考慮，向 d 維向量 w 投影,高維空間的一條直線,注意：都是標(biāo)量,維度約簡(jiǎn),主成份分析（2）投影方法 projection methods 向 d 向量 w 投影每個(gè)樣本點(diǎn)的投影是一個(gè) 一維點(diǎn) d 維正態(tài)分布在上的投影仍然是一維正態(tài)分布推廣 W is a d k matrix with rank k d, then the k-dimensional WTx is k-variate normal（k 維正態(tài)分布）投影到 k 個(gè)d 維向量，構(gòu)成新的 k 維向量空間,維度約簡(jiǎn),主成份principal component分析（3）是一種特征提取方法無監(jiān)督方法不依賴輸出（不用標(biāo)記類別）但需要最大化方差選擇可以造成最大方差的特征 The principal component is w1 such that the sample, after projection on to w1, is most spread out so that the difference between the sample points becomes most apparent.（放大樣本之間的差別）要求| w1| = 1 （單位向量） z1 = wT1 x 且 Cov(x) = ,維度約簡(jiǎn),主成份分析（4）計(jì)算過程用拉格朗日方法求極值限制條件對(duì)w1求導(dǎo)并令其為0，可以求解w1 w1 是矩陣的特征向量，是特征值（本征值）為了使方差最大，選擇具有最大特征值的特征向量,特征向量形式特征值分解,維度約簡(jiǎn),主成份分析（5）計(jì)算過程用拉格朗日方法求極值依次計(jì)算第二個(gè)主成份并要求與第一個(gè)主成分正交（不相關(guān)） w2求導(dǎo)并令其為0：,組成新的坐標(biāo)系,維度約簡(jiǎn),主成份分析（6）計(jì)算過程用拉格朗日方法求極值依次計(jì)算第二個(gè)主成份并要求與第一個(gè)主成分正交（不相關(guān)）,第一大的特征值,維度約簡(jiǎn),主成份分析（7）計(jì)算過程 w2 should be the eigenvector of with the second largest eigenvalue, 2 = . 其它主成份依次可求解,各維上的變量存在線性相關(guān),降到了 k 維,維度約簡(jiǎn),主成份分析（8）原點(diǎn)中心化 k columns of W are the k leading eigenvectors of S（the estimator to ）,坐標(biāo)系旋轉(zhuǎn),維度約簡(jiǎn),主成份分析（9）討論如何控制主成份的數(shù)量 S 是對(duì)角陣，如果特征值都大于0，但如果 |S| 很小，對(duì)方差影響小，也可以舍棄如果考慮貢獻(xiàn)在 90% 以上的方差的前 k 個(gè)主要成分方差比例 proportion of variance 如果特征變量間高度相關(guān)，則看 kd, 維度壓縮比會(huì)很大不相關(guān)，則 k = d,空間變換后，各維的特征變量是相互獨(dú)立的,d 是變量可控制,維度約簡(jiǎn),斜坡圖（Scree graph）,(a) Scree graph. (b) Proportion of variance explained is given for the Optdigits dataset from the UCI Repository.,This is a handwritten digit dataset with ten classes and sixty-four dimensional inputs. The first twenty eigenvectors explain 90 percent of the variance.,維度約簡(jiǎn),如果前兩個(gè)主成份貢獻(xiàn)最大，可視化的情況,search visually for structure, groups, outliers, normality, and so forth,維度約簡(jiǎn),主成份分析（10）來自譜分解的解釋如何控制主成份的數(shù)量 S 是對(duì)角陣，如果特征值都大于0，但如果 |S|,協(xié)方差矩陣,矩陣正交可逆,S 就是對(duì)角陣,維度約簡(jiǎn),主成份分析（11）來自譜分解 spectral decomposition 的解釋如何控制主成份的數(shù)量,維度約簡(jiǎn),主成份分析（12）實(shí)例分析有一個(gè)班學(xué)生的五門課成績(jī)，要求對(duì)學(xué)生排序如何解決記總分？計(jì)算平均分？問題是如何突出五門成績(jī)之間的差別引入PCA 計(jì)算最大特征值的特征向量投影到具有最大的方差的特征向量上,空間變換投影,維度約簡(jiǎn),線性判別式分析Linear discriminant analysis （1）概述用于分類的有指導(dǎo)降維方法有別于 PCA 有監(jiān)督方法，需要訓(xùn)練樣本對(duì)應(yīng)的輸出，而PCA是無監(jiān)督方法 PCA突出特征對(duì)樣本的有效表示 LDA側(cè)重類別之間的差別，效果通?；乇躊CA更好應(yīng)用十分廣泛的特征提取方法與 PCA 一樣受重視屬于降維的基本方法,維度約簡(jiǎn),線性判別式分析 (LDA)（2）兩個(gè)類的問題 Given samples from two classes C1 and C2, we want to find the direction, as defined by a vector w, such that when the data are projected onto w, the examples from the two classes are as well separated as possible. As we saw before： z = wTx 從 d 維到一維投影如何尋找或確定向量 w 的方向使誤差最小或者方差最小,在兩條不同的直線上投影差別,維度約簡(jiǎn),線性判別式分析 (LDA)（3）兩個(gè)類的問題確定 w m1 and m1 are the means of samples from C1 before and after projection, respectively. Note that m1 Rd and m1 R . We are given a sample X = xt, rt such that rt = 1 if xt C1 and rt = 0 if xt C2.,投到一維變標(biāo)量,標(biāo)量,維度約簡(jiǎn),線性判別式分析 (LDA)（4）兩個(gè)類的問題確定 w The scatter（散布） of samples from C1 and C2 after projection are: 希望 |m1 m2| 大，s12 + s22 小,分散程度,維度約簡(jiǎn),線性判別式分析 (LDA)（5）兩個(gè)類的問題確定 w Fishers linear discriminant 最大化下式,投影到向量上，尋找理想的分界,維度約簡(jiǎn),線性判別式分析 (LDA)（6）兩個(gè)類的問題確定 w Fishers linear discriminant 重寫分子定義SB 為類間散布矩陣（between-class scatter matrix.）,維度約簡(jiǎn),線性判別式分析 (LDA)（7）兩個(gè)類的問題確定 w Fishers linear discriminant 重寫分母,維度約簡(jiǎn),線性判別式分析 (LDA)（8）兩個(gè)類的問題確定 w Fishers linear discriminant 重寫分母,維度約簡(jiǎn),線性判別式分析 (LDA)（9）兩個(gè)類的問題確定 w Fishers linear discriminant 判別式改寫對(duì) w 微分，并令其為0,維度約簡(jiǎn),線性判別式分析 (LDA)（10）兩個(gè)類的問題確定 w Fishers linear discriminant 方程的解當(dāng) ，有判別式：,已被證明,維度約簡(jiǎn),線性判別式分析 (LDA)（11）推廣到多類問題對(duì)于 K 個(gè)類的情況需要K-1個(gè)判別式二類問題需要一個(gè)判別式需要向 K-1 個(gè) d 維矢量投影（需要 K-1條直線，K-1個(gè)分界）由這些向量作為列向量組成矩陣 W X 向 W 投影 z 是 k 維，W 是 d k.,維度約簡(jiǎn),線性判別式分析 (LDA)（12）推廣到多類問題對(duì)于 K 個(gè)類的情況 Ci 的類內(nèi)散布矩陣,維度約簡(jiǎn),線性判別式分析 (LDA)（13）推廣

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

機(jī)器學(xué)習(xí)-05-下-.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

機(jī)器學(xué)習(xí)-05-下-.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔