生物信息學(xué)的基因聚類實(shí)際分析_第1頁(yè)
生物信息學(xué)的基因聚類實(shí)際分析_第2頁(yè)
生物信息學(xué)的基因聚類實(shí)際分析_第3頁(yè)
生物信息學(xué)的基因聚類實(shí)際分析_第4頁(yè)
生物信息學(xué)的基因聚類實(shí)際分析_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基因表達(dá)數(shù)據(jù)的聚類分析基因表達(dá)數(shù)據(jù)主要來自于兩個(gè)方面:一是基因芯片,這是最主要的表達(dá)數(shù)據(jù)來源,利用基因芯片技術(shù)可以大規(guī)模并行獲取基因轉(zhuǎn)錄結(jié)果mRNA的數(shù)據(jù)。表達(dá)系列分析SAGE和差異顯示、蛋白質(zhì)芯片等是快速檢測(cè)蛋白質(zhì)及其含量的另一類技術(shù)。生物信息學(xué)的基因聚類實(shí)際分析聚類分析是模式識(shí)別中一種非常有吸引力的方法,特別適用于模式分類數(shù)不知道的情況。從機(jī)器學(xué)習(xí)的角度來看,有兩種基本的聚類分析:有監(jiān)督聚類無監(jiān)督聚類生物信息學(xué)的基因聚類實(shí)際分析基因表達(dá)數(shù)據(jù)聚類分析一般包括以下幾個(gè)步驟:(1)確定基因表達(dá)的數(shù)據(jù)(2)計(jì)算相似性矩陣,各個(gè)矩陣元素代表兩個(gè)基因的表達(dá)是否相似(3)選擇算法進(jìn)行聚類分析(4)顯示分析結(jié)果。生物信息學(xué)的基因聚類實(shí)際分析對(duì)數(shù)據(jù)進(jìn)行聚類分析之前,必須將包含在基因表達(dá)矩陣中的數(shù)據(jù)進(jìn)行相似程度分析,并且對(duì)分析結(jié)果進(jìn)行量化。通常情況下,相似往往被賦于一個(gè)較大的量化的值,而不相似則由一個(gè)較小的量化的值來表示。在實(shí)際計(jì)算中,往往以距離代替相似的概念,相似性度量被轉(zhuǎn)化為兩個(gè)基因表達(dá)模式之間的距離。距離越小,表達(dá)模式越相近,反之,則表達(dá)模式差異大。生物信息學(xué)的基因聚類實(shí)際分析生物信息學(xué)的基因聚類實(shí)際分析幾種常用的聚類方法1.簡(jiǎn)單聚類2.層次式聚類3.K平均聚類4.自組織映射神經(jīng)網(wǎng)絡(luò)5.模糊聚類分析方法6、聚類分析結(jié)果的樹圖表示生物信息學(xué)的基因聚類實(shí)際分析1、簡(jiǎn)單聚類假設(shè)有n個(gè)基因表達(dá)數(shù)據(jù)向量分別為X1,X2,…,XN

令任意一個(gè)基因的表達(dá)向量為第一個(gè)聚類的中心依次處理其它基因在處理第i個(gè)基因時(shí),首先計(jì)算該基因的表達(dá)數(shù)據(jù)向量與現(xiàn)有各類中心的距離假設(shè)與第j類的距離Dij最小,并且Dij<T,則將基因i分配到第j類;否則生成一個(gè)新類,該類的中心為第i個(gè)基因的表達(dá)向量。生物信息學(xué)的基因聚類實(shí)際分析2、層次式聚類

生物信息學(xué)的基因聚類實(shí)際分析3、K平均聚類

任意選取K個(gè)基因表達(dá)向量作為初始聚類中心

Z1,Z2,…,Zk

反復(fù)迭代計(jì)算如果||X-Zj(l)||<||X-Zi(l)||(i=1,2,…,K,i

j),則將X所代表的基因歸于第j類。按照上述辦法處理所有的基因;經(jīng)過上述處理,聚類可能發(fā)生變化,因此需要重新計(jì)算K個(gè)新聚類中心:

對(duì)于所有的聚類中心,如果Zj(l+1)=Zj(l)(j=1,2,…,K),則迭代結(jié)束,得到最后的聚類結(jié)果;否則繼續(xù)進(jìn)行迭代計(jì)算。

生物信息學(xué)的基因聚類實(shí)際分析4、自組織映射神經(jīng)網(wǎng)絡(luò)

生物信息學(xué)的基因聚類實(shí)際分析圖9.12SOM聚類結(jié)果示意生物信息學(xué)的基因聚類實(shí)際分析5、模糊聚類分析方法主要過程:(1)建立模糊相似矩陣(2)生成模糊等價(jià)矩陣(3)構(gòu)建動(dòng)態(tài)聚類圖生物信息學(xué)的基因聚類實(shí)際分析6、聚類結(jié)果顯示

基因表達(dá)模式聚類結(jié)果圖示生物信息學(xué)的基因聚類實(shí)際分析分類分析方法

有監(jiān)督學(xué)習(xí)疾病診斷、細(xì)胞類型識(shí)別樣本分類:(例)急性淋巴細(xì)胞白血病(ALL)急性髓性白血病(AML)生物信息學(xué)的基因聚類實(shí)際分析例:兩類劃分

生物信息學(xué)的基因聚類實(shí)際分析問題:基因的選擇?分類的方法?貝葉斯分類法支持向量機(jī)(SVM)

k最近鄰法神經(jīng)網(wǎng)絡(luò)方法決策樹方法投票分類法(多分類器)

生物信息學(xué)的基因聚類實(shí)際分析7、主成分分析PCA

生物信息學(xué)的基因聚類實(shí)際分析圖9.13主元素對(duì)應(yīng)特征值圖示生物信息學(xué)的基因聚類實(shí)際分析生物信息學(xué)的基因聚類實(shí)際分析分析基因表達(dá)數(shù)據(jù)發(fā)現(xiàn)與疾病直接相關(guān)的基因發(fā)現(xiàn)這些基因的活動(dòng)規(guī)律生物信息學(xué)的基因聚類實(shí)際分析基因調(diào)控網(wǎng)絡(luò)分析一個(gè)基因網(wǎng)絡(luò)由一組生物分子(如基因、蛋白質(zhì))以及它們之間的相互作用構(gòu)成,這些生物分子共同完成一些特定的細(xì)胞功能任務(wù)。在實(shí)際分析過程中,往往以圖這種數(shù)據(jù)結(jié)構(gòu)表示基因網(wǎng)絡(luò),圖中的節(jié)點(diǎn)代表基因或者蛋白質(zhì),而節(jié)點(diǎn)之間的連線代表基因、蛋白質(zhì)之間的相互作用?;蚓W(wǎng)絡(luò)描述了特定細(xì)胞或組織中的功能路徑,如代謝、基因調(diào)控,信號(hào)傳導(dǎo)等。生物信息學(xué)的基因聚類實(shí)際分析

基因表達(dá)在化學(xué)催化中的作用生物信息學(xué)的基因聚類實(shí)際分析代謝路徑示例:脯氨酸的生物合成生物信息學(xué)的基因聚類實(shí)際分析基因表達(dá)實(shí)際上是細(xì)胞、組織、器官受遺傳和環(huán)境影響的結(jié)果。一個(gè)基因的轉(zhuǎn)錄和表達(dá)由細(xì)胞的生化狀態(tài)所決定,在一個(gè)基因的轉(zhuǎn)錄過程中,一組轉(zhuǎn)錄因子作用于該基因的啟動(dòng)子區(qū)域,控制該基因轉(zhuǎn)錄,而這些轉(zhuǎn)錄因子本身又是其它基因的產(chǎn)物。當(dāng)一個(gè)基因通過轉(zhuǎn)錄、翻譯形成功能基因產(chǎn)物后,它將改變細(xì)胞的生化狀態(tài),從而直接或間接地影響其它基因的表達(dá),甚至影響自身的表達(dá)。多個(gè)基因的表達(dá)不斷變化,使得細(xì)胞的生化狀態(tài)不斷地變化。生物信息學(xué)的基因聚類實(shí)際分析一個(gè)基因的表達(dá)受其它基因的影響,而這個(gè)基因又會(huì)影響其它基因的表達(dá),這種相互影響、相互制約關(guān)系構(gòu)成了復(fù)雜的基因表達(dá)調(diào)控網(wǎng)絡(luò)?;虮磉_(dá)數(shù)據(jù)之中隱含基因之間的相互作用關(guān)系,因而可以通過分析基因表達(dá)數(shù)據(jù),構(gòu)建基因調(diào)控網(wǎng)絡(luò)。生物信息學(xué)的基因聚類實(shí)際分析幾種基因調(diào)控網(wǎng)絡(luò)模型1、布爾網(wǎng)絡(luò)模型生物信息學(xué)的基因聚類實(shí)際分析ABC

ABC 系統(tǒng)運(yùn)行軌跡

循環(huán)ABC111021113011400150006000前一個(gè)狀態(tài)

后一個(gè)狀態(tài)

作用規(guī)則(1)A激活B(2)B激活A(yù)和C(3)C抑制A生物信息學(xué)的基因聚類實(shí)際分析生物信息學(xué)的基因聚類實(shí)際分析2、線性組合模型線性組合模型是一種連續(xù)網(wǎng)絡(luò)模型,在這種模型中,一個(gè)基因的表達(dá)值是若干個(gè)其它基因表達(dá)值的加權(quán)和。基本表示形式為:生物信息學(xué)的基因聚類實(shí)際分析3、加權(quán)矩陣模型加權(quán)矩陣模型與線性組合模型相似,在該模型中,一個(gè)基因的表達(dá)值是其它基因表達(dá)值的函數(shù)。生物信息學(xué)的基因聚類實(shí)際分析4、互信息關(guān)聯(lián)網(wǎng)絡(luò)可以用距離或相關(guān)系數(shù)作為基因表達(dá)模式之間的相似性度量,還可以用另外一種度量形式,即用熵和互信息描述基因與基因的關(guān)聯(lián)。一個(gè)基因表達(dá)模式的熵是該模式所含信息量的度量。設(shè)X是一個(gè)基因表達(dá)模式,用下式計(jì)算熵:生物信息學(xué)的基因聚類實(shí)際分析該基因網(wǎng)描述了四類實(shí)體:

(a

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論