8年制生物信息學(xué)ppt課件 第7章_第1頁(yè)
8年制生物信息學(xué)ppt課件 第7章_第2頁(yè)
8年制生物信息學(xué)ppt課件 第7章_第3頁(yè)
8年制生物信息學(xué)ppt課件 第7章_第4頁(yè)
8年制生物信息學(xué)ppt課件 第7章_第5頁(yè)
已閱讀5頁(yè),還剩61頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

同濟(jì)大學(xué)李亦學(xué)王海蕓第七章基因芯片數(shù)據(jù)分析MicroarrayDataAnalysis第一節(jié)引言Introduction基因芯片(DNA微陣列)是上世紀(jì)九十年代,隨著計(jì)算機(jī)技術(shù)和基因組測(cè)序技術(shù)的發(fā)展而發(fā)展起來的一種新型的生物技術(shù),它能夠平行、高通量地監(jiān)測(cè)成千上萬(wàn)基因轉(zhuǎn)錄本的表達(dá)水平,從而為系統(tǒng)地監(jiān)測(cè)細(xì)胞內(nèi)mRNA分子的表達(dá)狀態(tài)進(jìn)而推測(cè)細(xì)胞的功能狀態(tài)提供了可能。第二節(jié)芯片平臺(tái)及數(shù)據(jù)庫(kù)GeneralMicroarrayPlatformandDatabase一、cDNA微陣列芯片寡核苷酸芯片類似于cDNA芯片,但是在探針的設(shè)計(jì)上優(yōu)于cDNA芯片,它的探針并不是來源于cDNA克隆,而是預(yù)先設(shè)計(jì)并合成的代表每個(gè)基因特異片段的約50mer左右長(zhǎng)度的序列,然后將其點(diǎn)樣到特定的基質(zhì)上制備成芯片,從而克服了探針序列太長(zhǎng)導(dǎo)致的非特異性交叉雜交和由于探針雜交條件變化巨大導(dǎo)致的數(shù)據(jù)結(jié)果的不可靠。二、寡核苷酸芯片

三、原位合成芯片

四、光纖微珠芯片(BeadArray)五、基因表達(dá)倉(cāng)庫(kù)

GeneExpressionOmnibus,GEO六、斯坦福微陣列數(shù)據(jù)庫(kù)

TheStanfordMicroarray

Database,SMD七、其他常用基因表達(dá)數(shù)據(jù)庫(kù)

ArrayExpress、CGED第三節(jié)基因芯片數(shù)據(jù)預(yù)處理

GeneralMicroarrayDataTypeandDatabase一、基因芯片數(shù)據(jù)提取(一)

cDNA微陣列芯片(二)

原位合成芯片定性信息提?。篜/A/M(Present/Absent/Marginal)定量信息提取:基于探針集匯總后的基因水平的熒光信號(hào)強(qiáng)度值二、對(duì)數(shù)轉(zhuǎn)換對(duì)芯片數(shù)據(jù)做對(duì)數(shù)化轉(zhuǎn)換后,數(shù)據(jù)可近似正態(tài)分布三、數(shù)據(jù)過濾

數(shù)據(jù)過濾的目的是去除表達(dá)水平是負(fù)值或很小的數(shù)據(jù)或者明顯的噪聲數(shù)據(jù)。過閃耀現(xiàn)象物理因素導(dǎo)致的信號(hào)污染雜交效能低點(diǎn)樣問題其他四、補(bǔ)缺失值(一)數(shù)據(jù)缺失類型非隨機(jī)缺失基因表達(dá)豐度過高或過低隨機(jī)缺失與基因表達(dá)豐度無(wú)關(guān),數(shù)據(jù)補(bǔ)缺主要針對(duì)隨機(jī)缺失情況(二)數(shù)據(jù)補(bǔ)缺方法1.簡(jiǎn)單補(bǔ)缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)averagemissingvalues=column(array)average2.k近鄰法選擇與具有缺失值基因的k個(gè)鄰居基因用鄰居基因的加權(quán)平均估計(jì)缺失值參數(shù):鄰居個(gè)數(shù)距離函數(shù)3.回歸法4.其他方法五、數(shù)據(jù)標(biāo)準(zhǔn)化(一)為什么要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化存在不同來源的系統(tǒng)誤差染料物理特性差異(熱光敏感性,半衰期等)染料的結(jié)合效率點(diǎn)樣針差異數(shù)據(jù)收集過程中的掃描設(shè)施不同芯片間的差異實(shí)驗(yàn)條件差異(二)運(yùn)用哪些基因進(jìn)行標(biāo)準(zhǔn)化處理芯片上大部分基因(假設(shè)芯片上大部分基因在不同條件下表達(dá)量相同)不同條件間穩(wěn)定表達(dá)的基因(如持家基因)控制序列(spikedcontrol)

在不同條件下表達(dá)水平相同的合成DNA序列或外源的DNA序列。1.片內(nèi)標(biāo)化(within-slidenormalization)

(1)全局標(biāo)化(globalnormalization)(三)cDNA芯片數(shù)據(jù)標(biāo)準(zhǔn)化處理假設(shè):R=k*G方法:c=log2k:中值或均值

(2)熒光強(qiáng)度依賴的標(biāo)化(intensitydependentnormalization)為什么方法:scatter-plotsmootherlowess擬合

c(A)為M

對(duì)A的擬合函數(shù)標(biāo)化后的數(shù)據(jù)

(3)點(diǎn)樣針依賴的標(biāo)化(within-print-tip-groupnormalization)

為什么一張芯片的不同區(qū)域運(yùn)用不同的點(diǎn)樣針點(diǎn)樣,從而引入點(diǎn)樣針帶來的系統(tǒng)誤差。method(4)尺度調(diào)整(scaleadjustment)為什么調(diào)整不同柵格(grids)間的數(shù)據(jù)離散度方法:計(jì)算不同柵格的尺度因子

2.片間標(biāo)化(multiple-slidenormalization)線性標(biāo)化法(linearscalingmethods)

與芯片內(nèi)標(biāo)化的尺度調(diào)整(scaleadjustment)方法類似非線性標(biāo)化法(non-linearmethods)分位數(shù)標(biāo)化法(quantilenormalization)

兩張芯片的表達(dá)數(shù)據(jù)的分位數(shù)標(biāo)化至相同,即分布于對(duì)角線上3.染色互換實(shí)驗(yàn)(dye-swapexperiment)

的標(biāo)化

實(shí)驗(yàn)組對(duì)照組芯片1cy5(R)cy3(G’)

芯片2cy3(G)cy5(R’)前提假設(shè):c︽c’方法:

1.提取定性信號(hào)(1)對(duì)每個(gè)探針對(duì)計(jì)算R

R=(PM

MM)/(PM+MM)(2)比較R與定義的閾值Tau(小的正值,默認(rèn)值為0.015).(3)單側(cè)的Wilcoxon’sSignedRanktest產(chǎn)生p值,根據(jù)p值定義定量信號(hào)值

PresentcallMarginalcallAbsentcall(四)芯片數(shù)據(jù)標(biāo)準(zhǔn)化2.提取定量信號(hào)(1)分析步驟獲取探針?biāo)綌?shù)據(jù)背景值效正標(biāo)準(zhǔn)化處理探針特異背景值效正探針集信號(hào)的匯總

(2)分析方法M=log2R-log2GA=(log2R+log2G)/2

前面提及的標(biāo)準(zhǔn)化方法僅效正了數(shù)據(jù)分布的中心,在不同的柵格間log-Ratios的方差也不同。第四節(jié)差異表達(dá)分析

AnalysisofDifferentiallyExpressionGene一、倍數(shù)法實(shí)驗(yàn)條件下的表達(dá)值對(duì)照條件下的表達(dá)值通常以2倍差異為閾值,判斷基因是否差異表達(dá)二、t檢驗(yàn)法

運(yùn)用t檢驗(yàn)法可以判斷基因在兩不同條件下的表達(dá)差異是否具有顯著性三、方差分析

方差分析可用于基因在兩種或多種條件間的表達(dá)量的比較,它將基因在樣本之間的總變異分解為組間變異和組內(nèi)變異兩部分。通過方差分析的假設(shè)檢驗(yàn)判斷組間變異是否存在,如果存在則表明基因在不同條件下的表達(dá)有差異。四、SAM

(significanceanalysisofmicroarrays)(一)多重假設(shè)檢驗(yàn)問題Ⅰ型錯(cuò)誤(假陽(yáng)性)即在假設(shè)檢驗(yàn)作推斷結(jié)論時(shí),拒絕了實(shí)際上正確的檢驗(yàn)假設(shè),即將無(wú)差異表達(dá)的基因判斷為差異表達(dá)。Ⅱ型錯(cuò)誤(假陰性)即不拒絕實(shí)際上不正確的,即將有差異表達(dá)的基因判斷為無(wú)差異表達(dá)。在進(jìn)行差異基因挑選時(shí),整個(gè)差異基因篩選過程需要做成千上萬(wàn)次假設(shè)檢驗(yàn),導(dǎo)致假陽(yáng)性率的累積增大。對(duì)于這種多重假設(shè)檢驗(yàn)帶來的放大的假陽(yáng)性率,需要進(jìn)行糾正。常用的糾正策略有Bonferroni效正,控制FDR(falsediscoveryrate)值等。(二)分析步驟計(jì)算統(tǒng)計(jì)量擾動(dòng)實(shí)驗(yàn)條件,計(jì)算擾動(dòng)后的基因表達(dá)的相對(duì)差異統(tǒng)計(jì)量計(jì)算擾動(dòng)后的平均相對(duì)差異統(tǒng)計(jì)量確定差異表達(dá)基因閾值:以最小的正值和最大的負(fù)值作為統(tǒng)計(jì)閾值,運(yùn)用該閾值,統(tǒng)計(jì)在值中超過該閾值的假陽(yáng)性基因個(gè)數(shù),估計(jì)假陽(yáng)性發(fā)現(xiàn)率FDR值。通過調(diào)整FDR值的大小得到差異表達(dá)基因。五、信息熵

運(yùn)用信息熵進(jìn)行差異基因挑選時(shí),不需要用到樣本的類別信息,所以運(yùn)用信息熵找到的差異基因是指在所有條件下表達(dá)波動(dòng)比較大的基因。

第五節(jié)基因芯片數(shù)據(jù)的聚類分析

ClusterAnalysisofMicroarrayData

一、聚類目的基于物體的相似性將物體分成不同的組二、基因表達(dá)譜數(shù)據(jù)的聚類對(duì)基因進(jìn)行聚類

識(shí)別功能相關(guān)的基因識(shí)別基因共表達(dá)模式對(duì)樣本進(jìn)行聚類

質(zhì)量控制檢查樣本是否按已知類別分組發(fā)現(xiàn)亞型

樣本基因基因表達(dá)譜三、距離尺度函數(shù)幾何距離線性相關(guān)系數(shù)非線性相關(guān)系數(shù)互信息其他

四、聚類算法

(一)層次聚類層次聚類算法將研究對(duì)象按照它們的相似性關(guān)系用樹形圖進(jìn)行呈現(xiàn),進(jìn)行層次聚類時(shí)不需要預(yù)先設(shè)定類別個(gè)數(shù),樹狀的聚類結(jié)構(gòu)可以展示嵌套式的類別關(guān)系。在對(duì)含非單獨(dú)對(duì)象的類進(jìn)行合并或分裂時(shí),常用的類間度量方法2000年Alizadeh等運(yùn)用基因芯片數(shù)據(jù),基于層次聚類算法證實(shí)了DLBCL腫瘤病人在mRNA層面確實(shí)存在兩種亞型(二)k均值聚類基本思想(三)自組織映射聚類基本思想:在不斷的學(xué)習(xí)過程中,輸出層的神經(jīng)元根據(jù)輸入樣本的特點(diǎn)進(jìn)行權(quán)重調(diào)整,最后拓樸結(jié)構(gòu)發(fā)生了改變(四)雙向聚類雙向聚類就是識(shí)別基因表達(dá)譜矩陣中同質(zhì)的子矩陣,運(yùn)用特定的基因子類識(shí)別樣本子類。第六節(jié)基因芯片數(shù)據(jù)的

分類分析

ClassificationofMicroarrayData一、線性判別分類器二、k近鄰分類法

基本思想三、PAM分類法

PredictionAnalysisforMicroarray基因1基因2

基本思想每類樣本的質(zhì)心向所有樣本的質(zhì)心進(jìn)行收縮,即收縮每個(gè)基因的類均值,收縮的數(shù)量由值決定。當(dāng)收縮過程發(fā)生時(shí),某些基因在不同類中將會(huì)有相同的類均值,這些基因就不具有類間的區(qū)別效能。計(jì)算統(tǒng)計(jì)量對(duì)公式經(jīng)過變換得到收縮各類的均值分析步驟判斷新樣本類別

當(dāng)四、決策樹(一)基本思想決策樹又稱為多級(jí)分類器,利用決策樹分類可以把一個(gè)復(fù)雜的多類別分類問題轉(zhuǎn)化為若干個(gè)簡(jiǎn)單的分類問題來解決決策樹的結(jié)構(gòu):一個(gè)樹性的結(jié)構(gòu),內(nèi)部節(jié)點(diǎn)上選用一個(gè)屬性進(jìn)行分割,每個(gè)分叉都是分割的一個(gè)部分,葉子節(jié)點(diǎn)表示一個(gè)分布(二)分析步驟:提取分類規(guī)則,進(jìn)行分類預(yù)測(cè)在構(gòu)造決策樹的過程中最重要的一點(diǎn)是在每一個(gè)分割節(jié)點(diǎn)確定用哪個(gè)屬性來分類(或分裂)這就涉及到關(guān)于使用什么準(zhǔn)則來衡量使用A屬性比使用B屬性更合理決策樹分類算法output訓(xùn)練集決策樹input(三)衡量準(zhǔn)則信息增益——informationgain基尼指數(shù)——Giniindex(四)決策樹的修剪消除決策樹的過適應(yīng)問題消除訓(xùn)練集中的異常和噪聲所涉及的方法很多,比如先剪枝算法(print)與后剪枝(sprint算法)等等五、分類效能評(píng)價(jià)(一)構(gòu)建訓(xùn)練集和檢驗(yàn)集n倍交叉驗(yàn)證(n-foldcrossvalidation)Bagging(bootstrapaggregation)無(wú)放回隨機(jī)抽樣留一法交叉驗(yàn)證(leave-one-outcrossvalidation,LOOCV)(二)分類效能靈敏度(sensitivity,recall)特異性(specificity)陽(yáng)性預(yù)測(cè)率(positivepredictivevalue,precision)陰性預(yù)測(cè)率(negativepredictivevalue)均衡正確率(balancedaccuracy)正確率(correctoraccuracy)第七節(jié)基因芯片數(shù)據(jù)的其他分析

ComplementaryAnalysisofMicroarrayData一、降維處理(主成分分析)新指標(biāo)是原來基因的線性組合二、時(shí)間序列的表達(dá)譜分析(一)擴(kuò)大的基因表達(dá)譜矩陣(二)時(shí)間點(diǎn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論