




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、聚類分析與分類分析 數(shù)據(jù)聚類和分類是重要的數(shù)據(jù)挖掘方法,表達譜基因聚類可以將那些具有相關(guān)功能和共調(diào)控關(guān)系的基因聚在一起,用于推斷調(diào)控基因、注釋基因功能和確立分子標簽, 為進一步詳細研究基因的功能打下基礎(chǔ)。 表達譜樣本聚類可以幫助發(fā)現(xiàn)新的疾病亞型。樣本分類可以提高復(fù)雜疾病診斷的正確率。 XXX 學(xué)號 基因表達譜分析所采用的常用方法是聚類,其目的就是將基因分組。聚類分析 聚類分析是一種 無監(jiān)督學(xué)習(xí)方法,不需要任何先驗領(lǐng)域知識。從生物學(xué)的角度,聚類分析方法所隱含的生物學(xué)意義或基本假設(shè)是,組內(nèi)基因的表達譜相似,它們可能有相似的功能。 但聚類只是為了尋求類,不管所聚的類別是否有意義。 對基因表達譜進行聚
2、類分析之前,必須首先確定反映不同基因表達譜相似程度的度量函數(shù),根據(jù)該函數(shù)可以將相似程度高的基因分為一類。在實際計算中,還可以用距離代替相似的概念,相似性度量被轉(zhuǎn)化為兩個基因表達譜之間的距離。距離越小,表達模式越相近;反之,則表達模式差異大。常見的相似性度量: 歐氏距離(Euclidean distance ) Pearson 相關(guān)系數(shù)(Pearson s correlation coefficiency ) 互信息( mutual information )聚類分析相似性(距離)尺度函數(shù)歐氏距離 歐氏距離( Euclidean distance )是一個通常采用的距離定義,它是在空間中兩個點之
3、間的真實距離。Minkowski Distance公式 不是一種距離,而是一組距離的定義 可以隨意取值,可以是負數(shù),也可以是正數(shù),或是無窮大Euclidean Distance公式 明氏公式=2的情況 從本質(zhì)上說 Pearson 相關(guān)系數(shù)是測量兩個表達矢量所指方向的相似性, 處理時將其視為單位矢量,因而對幅度的變化不敏感。 但若兩個不很相似的基因表達譜在某一突出的的峰或谷特別相關(guān)的話,Pearson 相關(guān)系數(shù)可能得出假陽性。 相關(guān)系數(shù)的一個有趣的性質(zhì)是它可用來檢測負相關(guān)的基因 Pearson 相關(guān)系數(shù) 幾何距離比較適合衡量樣本間的相似性或基因在樣本空間(如不同組織間)的相似性。當基因表達數(shù)據(jù)是
4、一系列具有相同變化趨勢的數(shù)據(jù)時,運用幾何距離會丟失重要信息 距離和相關(guān)系數(shù)反映的都是基因表達譜之間的相似性,這種相似性反映了基因的共表達行為,而基因的行為是復(fù)雜的,它們之間存在調(diào)控和被調(diào)控的關(guān)系,或者存在調(diào)控鏈,調(diào)控還有正性調(diào)控和負性調(diào)控之分。對于這些調(diào)控關(guān)系,它們的表達譜往往是不相似的,或者存在時延、或者存在反相,而基因表達的幅度也可能不相等。 如何從數(shù)據(jù)中發(fā)現(xiàn)這些復(fù)雜的基因關(guān)系呢? 考慮到了兩個或多個基因?qū)ν惠斎牖蚩刂菩盘柗磻?yīng)可能不同 ,一個基因可能上調(diào) ,而另一個可能下調(diào)。這兩種基因反應(yīng)雖然不同, 但常被認為功能相關(guān) ?;バ畔?目前,還沒有理論來指導(dǎo)如何選擇最好的相似性度量,也許一個
5、“正確”的距離在表達模式空間是不存在的,選擇何種度量函數(shù)依賴于我們要解決的問題。 總的來說, 對同一種聚類算法 , 所用度量函數(shù)不同,結(jié)果也可能不同。聚類算法 對于基因表達譜的聚類問題,由于目前對基因表達的系統(tǒng)行為了解得不全面,沒有聚類的先驗知識,所以通常采用無監(jiān)督學(xué)習(xí)方法。 在基因表達數(shù)據(jù)分析方面,層次聚類、 K 均值聚類、自組織映射聚類在應(yīng)用中是常用的方法。 下面主要介紹這幾種常用的聚類方法。層次聚類 層次聚類法,在統(tǒng)計分析中也稱為系統(tǒng)聚類法。 其就是一層一層的進行聚類,可以由上向下把大的類別(cluster)分割,叫作分裂法;也可以由下向上對小的類別進行聚合,叫作凝聚法;但是一般用的比較
6、多的是由下向上的凝聚方法。凝聚法: 首先將每個表達譜當作一個類, 根據(jù)一定的距離度量標準計算兩類間的距離 。然后反復(fù)地將距離最近的兩類合并為一類 ,并重新計算類間距離 ,直到達到某種終止標準或只剩一個類 。這一過程產(chǎn)生一樹狀結(jié)構(gòu), 樹枝高度與類間距離成正比。最后選取某一水平(即某一類間距離)的類數(shù)作最終結(jié)果 。距離度量標準層次聚類缺點: 算法的時間復(fù)雜度大 結(jié)果依賴聚類的合并點和分裂點的選擇 層次聚類過程最明顯的特點就是不可逆性,也就是說,一旦聚類結(jié)果形成,想要再重新合并來優(yōu)化聚類的性能是不可能的了 聚類終止的條件的不精確性,要求指定一個合并或分解的終止條件,比如指定聚類的個數(shù)或是兩個距離最近
7、的聚類之間最小距離閾值層次聚類優(yōu)點: 容易理解和實現(xiàn) 所得到的結(jié)果以樹狀圖的形式表示,可以直觀地觀察基因之間的相互關(guān)系,尤其是類與類之間的關(guān)系K均值聚類 K 均值(K-means)聚類在數(shù)據(jù)劃分上不考慮類的分層結(jié)構(gòu)問題 步驟:隨機選擇初始類中心將所有的表達譜分配到 K 個類中,根據(jù)歐氏距離,反復(fù)計算每個類的類中心,然后將每個表達譜分配到類中心與之最接近的類中 , 形成新的類再計算新的類中心直至類中心保持不變, 或達到最大疊代次數(shù)。該算法使待聚類的所有向量到聚類中心的距離的平方和最小K-均值聚類缺點: 要求預(yù)指定類數(shù) ,而實際應(yīng)用中很難預(yù)測類數(shù), 因此需要通過試誤 ,即使用多套不同的參數(shù)設(shè)定,比
8、較其結(jié)果 ,并且從生物學(xué)角度對結(jié)果進行驗證 。 需要用隨機初始類中心,不同的隨機類中心會有得到完全不同的結(jié)果 是完全無結(jié)構(gòu)的方法,聚類的結(jié)果是無組織的K-均值聚類優(yōu)點: 采用誤差平方和為準則函數(shù)的動態(tài)聚類方法,其計算快速,適合于大規(guī)模的數(shù)據(jù)計算 自組織映射聚類(SOM) 在 SOM 算法中 ,使用者預(yù)先指定一個具有某種拓撲構(gòu)形的結(jié)點群(即二維網(wǎng)格 -每個結(jié)點對應(yīng)一個類), 在將這些結(jié)點隨機映射到基因表達數(shù)據(jù)空間, 再反復(fù)隨機挑選一個表達譜 ,將與之最近的結(jié)點向它移近, 其他結(jié)點隨之移動, 但移動距離與初始結(jié)點拓撲結(jié)構(gòu)中結(jié)點間距離成比例。反復(fù)挑選表達譜 , 并移動結(jié)點 SOM缺點: 也需要預(yù)先指
9、定參數(shù)(節(jié)點群的拓撲構(gòu)形) 是一種拓撲保留的神經(jīng)網(wǎng)絡(luò), 易產(chǎn)生不均衡分類。若不相關(guān)數(shù)據(jù)過多, 感興趣的數(shù)據(jù)較少時,分辨率可能會很低。因此,在應(yīng)用 SOM對基因表達譜聚類前,需要對數(shù)據(jù)進行篩選 SOM優(yōu)點: 可以將高維表達譜映射到二維, 從網(wǎng)格上的數(shù)據(jù)可以清楚地看到數(shù)據(jù)(基因或樣本)的空間聚類情況,這非常有利于理解樣本之間的關(guān)系 具有穩(wěn)健準確和抗噪能力強的優(yōu)點 雙向聚類以上對基因表達譜采用的都是單向聚類法(one-way clustering),即要么以整個樣本中特性相似的基因進聚類,或者以基因表達相似的樣本進行聚類。對樣本和基因同時進行聚類就是雙向聚類法 雙聚類的目的:在基因表達數(shù)據(jù)矩陣中尋找
10、滿足條件的子矩陣,使得子矩陣中基因集在對應(yīng)的條件集上表達波動一致,反之亦然。不同的雙聚類算法采用不同的方式度量結(jié)果質(zhì)量,所能找到的雙聚類類型是有很大差別的。分類分析 上述無監(jiān)督的聚類分析可同時對樣本和基因進行聚類。而有監(jiān)督的分類分析一般是單向的,即以基因為屬性,構(gòu)建分類模式對樣本的類別進行預(yù)測。還可以同時進行疾病相關(guān)基因的挖掘。常用分類方法:Fisher線性判別K近鄰分類法(略)PAM方法決策樹Fisher線性判別 像上圖所示的兩種投影方案,左邊的投影方向可以將兩種樣本區(qū)分開來,而右邊的投影方向不能區(qū)分開來,所以左邊的投影方向更好。Fisher線性判別的思想是: 找到一個投影矩陣,通過這個投影
11、矩陣將各類樣本數(shù)據(jù)映射到一個新的空間,使得投影后兩類相隔盡可能遠,而同一類內(nèi)的樣本盡可能聚集。PAM方法又叫K-medoids(K-中心點)聚類,使K-means(K-均值)聚類的改進?;舅枷耄好款悩颖镜馁|(zhì)心向所有樣本的質(zhì)心進行收縮。基因基因1 1基因基因2 2K-均值聚類和K-中心點聚類區(qū)別: k-means的質(zhì)心是各個樣本點的平均,可能是樣本點中不存在的點 k-medoids的質(zhì)心一定是某個樣本點的值這個不同使他們具有不同的優(yōu)缺點: k-medoids的運行速度較慢 k-medoids對噪聲魯棒性比較好 雖然k-medoids也有優(yōu)點,但是只能對小樣本起作用,樣本一大其速度就太慢了,而且
12、當樣本多的時候,少數(shù)幾個噪音對k-means的質(zhì)心影響也沒有想象中的那么重,所以k-means的應(yīng)用明顯比k-medoids多的多。決策樹 決策樹是一種常用于預(yù)測模型的算法,它通過將大量數(shù)據(jù)有目的的分類,從中找到一些有價值的,潛在的信息。它的主要優(yōu)點是描述簡單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理 分割準則: Gini指數(shù)變化 信息增益(熵) 上面兩個準則是值越大,表示節(jié)點越 “不純”,越小表示越“純”(二者選一即可)決策樹應(yīng)用于腫瘤基因表達譜的分類分析決策樹優(yōu)點: 不需要使用者了解很多背景知識(這同時也是它的最大缺點), 概念簡單, 計算效率高 作為一種非參數(shù)分類方法,使用者不需要輸入任何參數(shù) 分類的結(jié)果意義明確, 可解釋性強 有關(guān)決策樹的演變算法也很多 優(yōu)化方案:修剪枝葉 決策樹過度擬合往往是因為太過“茂盛”,也就是節(jié)點過多,所以需要裁剪(Prune Tree)枝葉。裁剪枝葉的策略對決策樹正確率的影響很大。主要有兩種剪枝方法:前剪枝: 在構(gòu)建決策樹的過程時,提前停止。那么,會將切分節(jié)點的條件設(shè)置的很苛刻,導(dǎo)致決策樹很短小。結(jié)果就是決策
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物資訂貨計劃依據(jù)
- 電纜提升計劃天津
- 長沙市科技計劃項目
- 2025至2030年中國噴砂氧化牌數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國衛(wèi)生熱水設(shè)備數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國東方巨龍煙花數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國PVC纖維增強花園管數(shù)據(jù)監(jiān)測研究報告
- 2025年中國銅跑車市場調(diào)查研究報告
- 2025年中國花桿市場調(diào)查研究報告
- 骨干教師培訓(xùn)工作計劃范文
- 人美版四年級書法下冊《第6課 豎心旁》教學(xué)設(shè)計
- 二年級綜合實踐活動課件-我與蔬菜交朋友-全國通(41張)
- 血型與輸血檢驗-臨床輸血(臨床檢驗課件)
- 按摩師培訓(xùn)協(xié)議書
- 落地式腳手架安全技術(shù)措施
- 開心麻花《白蛇前傳》劇本
- 常州市旅游資源調(diào)查與評價
- 中職物理課件
- 分子生物學(xué)課件:緒論-細胞生物學(xué)發(fā)展簡史
- 光伏支架安裝工程質(zhì)量驗收記錄完整
- 波普解析PPT質(zhì)譜教案資料
評論
0/150
提交評論