機器學(xué)習(xí)聚類課件_第1頁
機器學(xué)習(xí)聚類課件_第2頁
機器學(xué)習(xí)聚類課件_第3頁
機器學(xué)習(xí)聚類課件_第4頁
機器學(xué)習(xí)聚類課件_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、統(tǒng)計與機器學(xué)習(xí)統(tǒng)計學(xué):從不完全的信息里取得準(zhǔn)確知識的技巧。統(tǒng)計應(yīng)用:用數(shù)理統(tǒng)計的原理和方法,分析和解釋自然界界的種種現(xiàn)象和數(shù)據(jù)資料,以求把握其本質(zhì)和規(guī)律性。機器學(xué)習(xí):可以理解為計算機自動從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,并應(yīng)用于解決新問題。內(nèi)容比較雜,至今還沒有統(tǒng)一的定義,而且也很難給出一個公認(rèn)的和準(zhǔn)確的定義。機器學(xué)習(xí)在大多數(shù)情況下應(yīng)用概率論與統(tǒng)計學(xué)理論來設(shè)計算法;1機器學(xué)習(xí)給定數(shù)據(jù) (X1, Y1), (X2, Y2), ,(Xn, Yn),機器自動學(xué)習(xí) X 和 Y 之間的關(guān)系,從而對新的 Xi,能夠預(yù)測 Yi。垃圾郵件識別:(郵件 1, 垃圾), (郵件 2, 正常), (郵件 3, 垃圾), (郵件 N

2、, 正常)郵件 X = 垃圾 or 正常?2測試數(shù)據(jù)發(fā)現(xiàn)規(guī)律預(yù)測預(yù)測結(jié)果規(guī)則郵件XiYi:垃圾or正常發(fā)件人郵件地址異常;標(biāo)題含有“低價促銷”機器學(xué)習(xí)一般流程:3訓(xùn)練數(shù)據(jù)測試數(shù)據(jù)學(xué)習(xí)預(yù)測預(yù)測結(jié)果模型訓(xùn)練過程應(yīng)用過程(X1, Y1)(X2, Y2) (Xn, Yn)XiYi機器學(xué)習(xí)模型:問題的影響因素(特征)有哪些?它們之間的關(guān)系如何?策略:什么樣的模型是好的模型;算法:如何高效的找到最優(yōu)參數(shù);分類:有監(jiān)督的學(xué)習(xí);無監(jiān)督的學(xué)習(xí);半監(jiān)督的學(xué)習(xí);增強學(xué)習(xí);多任務(wù)學(xué)習(xí);4統(tǒng)計與機器學(xué)習(xí)內(nèi)容:聚類與分類;統(tǒng)計推斷:參數(shù)檢驗,假設(shè)檢驗;回歸分析;馬爾科夫鏈與隱馬爾科夫模型。遺傳算法與神經(jīng)網(wǎng)絡(luò);。5機器學(xué)習(xí)

3、:聚類 (Clustering)聚類就是對大量未知標(biāo)注的數(shù)據(jù)集,按數(shù)據(jù)的內(nèi)在相似性將數(shù)據(jù)集劃分為多個類別,使類別內(nèi)的數(shù)據(jù)相似度較大而類別間的數(shù)據(jù)相似度較小;簇(或類Cluster):子集合最大化簇(或類)內(nèi)的相似性;最小化簇(或類)間的相似性;聚類是一種無監(jiān)督分類法:沒有預(yù)先指定的類別;典型的應(yīng)用作為一個獨立的分析工具,用于了解數(shù)據(jù)的分布; 作為其它算法的一個數(shù)據(jù)預(yù)處理步驟;6機器學(xué)習(xí):聚類 (Clustering)簡單示例:聚類后預(yù)測:7訓(xùn)練數(shù)據(jù)待分類數(shù)據(jù)機器學(xué)習(xí):聚類 (Clustering)基因表達芯片(微陣列):預(yù)測新測序基因的功能是重要的生物學(xué)問題;基因表達微陣列提供了預(yù)測功能的途徑

4、;基因芯片對研究調(diào)控網(wǎng)絡(luò)提供了最基本的數(shù)據(jù);基因芯片可以衡量基因在不同條件下的表達量;基因如果被轉(zhuǎn)錄,就可以認(rèn)為是處于激活狀態(tài);轉(zhuǎn)錄產(chǎn)物 mRNA 的數(shù)量代表基因的活性;8機器學(xué)習(xí):聚類 (Clustering)DNA 芯片的應(yīng)用:研究基因樣本在在不同的時間段表達的差異;研究不同的基因樣本在相同的條件下的表達差異9機器學(xué)習(xí):聚類 (Clustering)DNA芯片數(shù)據(jù):綠色:僅僅在參考狀態(tài)表達;紅色:僅僅在所研究的狀態(tài)表達;黃色:在兩種狀態(tài)都表達;黑色:在兩種狀態(tài)都不表達;表達強度數(shù)據(jù)會被標(biāo)準(zhǔn)化、組成表達強度矩陣。10Time:Time XTime YTime ZGene 110810Gene

5、 21009Gene 348.63Gene 4783Gene 5123機器學(xué)習(xí):聚類 (Clustering)DNA 芯片數(shù)據(jù)的聚類:每組數(shù)據(jù)可以看做 n 維空間里的點;通過對每個點對計算距離構(gòu)造距離矩陣;距離較近的基因表達情況相似、或許更有可能具有功能上的相關(guān)性;聚類能夠構(gòu)造功能相關(guān)基因集合;11機器學(xué)習(xí):聚類 (Clustering)DNA芯片數(shù)據(jù)的聚類:同質(zhì)性:一個類中基因相似,即距離較小;差異性:不同類的基因非常不同,即距離較大;聚類并非易事;算法不同可能得到不同的結(jié)果;12機器學(xué)習(xí):聚類 (Clustering)DNA芯片數(shù)據(jù)的聚類:兩點之間的距離歐氏距離: 平方歐氏距離:夾角余弦:

6、絕對距離: Chebychev距離:皮爾森相關(guān)系數(shù):Minkowski距離:13機器學(xué)習(xí):聚類 (Clustering)DNA芯片數(shù)據(jù)的聚類:兩類之間的距離最短距離法:最長距離法:重心法:類平均法:離差平方和:14機器學(xué)習(xí):聚類 (Clustering)聚類方法:k-均值法(k-means)給定 k, k-均值算法由以下四步來完成:把對象劃分為 k 個非空的子集;隨機的選擇一些種子點作為目前劃分的簇的質(zhì)心。質(zhì)心是簇的中心(平均點);把每一個對象賦給最近的種子點;重復(fù)第二步,直到?jīng)]有新的分配;15機器學(xué)習(xí):聚類 (Clustering)聚類方法:k-均值法16x1x2x3機器學(xué)習(xí):聚類 (Clu

7、stering)聚類方法:k-均值法17x1x2x3機器學(xué)習(xí):聚類 (Clustering)聚類方法:k-均值法18x1x2x3機器學(xué)習(xí):聚類 (Clustering)聚類方法:k-均值法19x1x2x3機器學(xué)習(xí):聚類 (Clustering)聚類方法:k-均值法優(yōu)點:復(fù)雜度: O(tkn), 其中 n 是對象的數(shù)目, k 是 cluster 的數(shù)目, t 是迭代的次數(shù),通常 k, t 0,則判定 x 屬于 H1,如果 g(x) 0,則判定 x 屬于 C2,如果 g(x) = 0,則可以將 x 任意分到某一類或者拒絕判定。46HC2C1機器學(xué)習(xí):支持向量機方程 g(x) = 0 定義了一個判定

8、面,它把歸類于 C1 的點與歸類于 C2 的點分開來。當(dāng) g(x) 是線性函數(shù)時,此平面被稱為超平面 (hyperplane)。方程 g(x) = 0 實際上是 n - 1維的線性子空間;47機器學(xué)習(xí):支持向量機如何找到最大間隔?為了將這個準(zhǔn)則具體化,需要用數(shù)學(xué)式子表達。為了方便,將訓(xùn)練樣本集表示成 xi, yi,i = 1, , N,其中 xi 為 d 維向量也就是特征向量,而 yi -1, +1,即用 yi 是 +1 或 -1 表示其類別。對于分界面 H 表示成:并且滿足:故 H1到 H2 的間隔為:目標(biāo):在滿足約束條件的前提下達到間隔最大;前提:線性可分;48機器學(xué)習(xí):支持向量機轉(zhuǎn)化為帶

9、約束的極值問題,或規(guī)劃問題;對于這樣一個帶約束條件為不等式的條件極值問題,需要引用擴展的拉格朗日乘子理論,按這個理論構(gòu)造拉格朗日函數(shù)的原則為:49(3)機器學(xué)習(xí):支持向量機上述方法線性可分條件為基本前提;可否將不可分問題轉(zhuǎn)化為可分?50機器學(xué)習(xí):支持向量機異或問題是最簡單的一個無法直接對特征采用線性判別函數(shù)解決的問題。如圖所示的四個樣本點。利用 SVM 將他們映射到一個更高維的空間,使之線性可分。51機器學(xué)習(xí):支持向量機采用最簡單且展開不超過二次的展開將上述問題的點映射到六維空間:最佳超平面是:其二維空間投影如圖所示52機器學(xué)習(xí):支持向量機特點:對特征空間劃分的最優(yōu)超平面是SVM的目標(biāo),最大化分類邊際的思想是SVM方法的核心;支持向量是SVM的訓(xùn)練結(jié)果,在SVM分類決策中起決定作用的是支持向量;模型為凸二次規(guī)劃模型,沒有陷入局部最優(yōu)解的問題,任何局部最優(yōu)解都是全局最優(yōu)解;SVM 的最終決策函數(shù)只由少數(shù)的支持向量所確定,計算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”。少數(shù)支持向量決定了最終結(jié)果,這不但可以幫助我們抓住關(guān)鍵樣本、“剔除”大量冗余樣本,而且注定了該方法不但算法簡單,而且具有較好的“魯棒”性。53機器學(xué)習(xí):分類結(jié)果的衡量靈敏度(Sensitivity)與特異度(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論