




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
生物信息學(xué)第二版基因表達(dá)數(shù)據(jù)分析演示文稿本文檔共111頁;當(dāng)前第1頁;編輯于星期二\3點(diǎn)6分第五章
基因表達(dá)數(shù)據(jù)分析蘇州大學(xué)沈百榮首都醫(yī)科大學(xué)李冬果生物信息學(xué)本文檔共111頁;當(dāng)前第2頁;編輯于星期二\3點(diǎn)6分第一節(jié)引言Introduction本文檔共111頁;當(dāng)前第3頁;編輯于星期二\3點(diǎn)6分基因表達(dá)組學(xué)與基因組學(xué)相比較表達(dá)組信息是動(dòng)態(tài)的;表達(dá)組學(xué)的數(shù)據(jù),更多的是數(shù)值分析;轉(zhuǎn)錄組學(xué)中除了模式識(shí)別外,系統(tǒng)建模也十分重要。本文檔共111頁;當(dāng)前第4頁;編輯于星期二\3點(diǎn)6分真核生物基因表達(dá)的基本方式本文檔共111頁;當(dāng)前第5頁;編輯于星期二\3點(diǎn)6分基因表達(dá)調(diào)控示意圖本文檔共111頁;當(dāng)前第6頁;編輯于星期二\3點(diǎn)6分基因表達(dá)的時(shí)空性本文檔共111頁;當(dāng)前第7頁;編輯于星期二\3點(diǎn)6分基因表達(dá)測定方法RT-qPCR本文檔共111頁;當(dāng)前第8頁;編輯于星期二\3點(diǎn)6分近20年來三種不同高通量基因表達(dá)測定技術(shù)的應(yīng)用趨勢本文檔共111頁;當(dāng)前第9頁;編輯于星期二\3點(diǎn)6分高通量基因表達(dá)測定的應(yīng)用實(shí)例1.測定組織特異性基因表達(dá)2.基因功能分類3.癌癥的分類和預(yù)測4.臨床治療效果預(yù)測5.基因與小分子藥物、疾病之間的關(guān)聯(lián)6.干細(xì)胞的全能型、自我更新和細(xì)胞命運(yùn)決定研究本文檔共111頁;當(dāng)前第10頁;編輯于星期二\3點(diǎn)6分7.動(dòng)植物的發(fā)育研究8.環(huán)境對細(xì)胞基因表達(dá)的作用9.環(huán)境監(jiān)測10.物種的繁育本文檔共111頁;當(dāng)前第11頁;編輯于星期二\3點(diǎn)6分第二節(jié)基因表達(dá)測定平臺(tái)與數(shù)據(jù)庫MicroarrayPlatformandDatabases本文檔共111頁;當(dāng)前第12頁;編輯于星期二\3點(diǎn)6分1.cDNA芯片2.Affymetrix芯片
3.下一代測序技術(shù)技術(shù)如:Roche-454,IlluminaMiSeq,IonTorrentPGM一、基因表達(dá)測定平臺(tái)介紹本文檔共111頁;當(dāng)前第13頁;編輯于星期二\3點(diǎn)6分二、Microarray技術(shù)與RNA-Seq技術(shù)的比較1.RNA-Seq技術(shù)對沒有已知參考基因組信息的非模式生物,也可測定轉(zhuǎn)錄信息;2.RNA-Seq技術(shù)可以測定轉(zhuǎn)錄邊界的精度達(dá)到一個(gè)堿基,RNA-Seq可以用來研究復(fù)雜的轉(zhuǎn)錄關(guān)系;3.RNA-Seq可以同時(shí)測定序列的變異;4.RNA-Seq背景信號(hào)很小,測定的動(dòng)態(tài)范圍很大。本文檔共111頁;當(dāng)前第14頁;編輯于星期二\3點(diǎn)6分RNA-Seq在基因表達(dá)的定量上準(zhǔn)確性很高;RNA-Seq在測定技術(shù)上和生物上重復(fù)性很高;RNA-Seq的測定需要很少的RNA樣本。在應(yīng)用上RNA-Seq技術(shù)對ISOFORM的測定和等位基因的區(qū)分比芯片技術(shù)有很好的優(yōu)勢。本文檔共111頁;當(dāng)前第15頁;編輯于星期二\3點(diǎn)6分三、基因表達(dá)數(shù)據(jù)庫常用基因表達(dá)數(shù)據(jù)庫名稱數(shù)據(jù)庫內(nèi)容GeneExpressionOmnibus(GEO)目前最常用的基因表達(dá)數(shù)據(jù)(NCBI)ExpressionAtlas歐洲生物信息學(xué)中心的基因表達(dá)數(shù)據(jù)庫SMDStanford基因表達(dá)數(shù)據(jù)庫RNA-SeqAtlas正常組織的基因表達(dá)譜數(shù)據(jù)GEPdb基因型、表型和基因表達(dá)關(guān)系GXD老鼠發(fā)育基因表達(dá)信息EMAGE老鼠胚胎的時(shí)空表達(dá)信息AGEMAP老鼠老化的基因表達(dá)數(shù)據(jù)本文檔共111頁;當(dāng)前第16頁;編輯于星期二\3點(diǎn)6分疾病相關(guān)基因表達(dá)數(shù)據(jù)庫數(shù)據(jù)庫名稱數(shù)據(jù)庫內(nèi)容GENT腫瘤組織與正常組織的表達(dá)數(shù)據(jù)ParkDB帕金森病的基因表達(dá)數(shù)據(jù)庫cMAP小分子化合物對人細(xì)胞基因表達(dá)的影響Anticancerdruggeneexpressiondatabase抗癌化合物的基因表達(dá)數(shù)據(jù)CGED癌癥基因表達(dá)數(shù)據(jù)庫(包括臨床信息)本文檔共111頁;當(dāng)前第17頁;編輯于星期二\3點(diǎn)6分第三節(jié)
數(shù)據(jù)預(yù)處理與差異表達(dá)分析
PreprocessingofMicroarrayDataandAnalysisofDifferentiallyExpressionGene本文檔共111頁;當(dāng)前第18頁;編輯于星期二\3點(diǎn)6分一、基因芯片數(shù)據(jù)預(yù)處理(一)基因芯片數(shù)據(jù)的提取cDNA微陣列芯片熒光信號(hào)本文檔共111頁;當(dāng)前第19頁;編輯于星期二\3點(diǎn)6分定性信息提?。篜/A/M(Present/Absent/Marginal)定量信息提?。夯谔结樇瘏R總后的基因水平的熒光信號(hào)強(qiáng)度值原位合成芯片本文檔共111頁;當(dāng)前第20頁;編輯于星期二\3點(diǎn)6分(二)數(shù)據(jù)對數(shù)化轉(zhuǎn)換對芯片數(shù)據(jù)做對數(shù)化轉(zhuǎn)換后,數(shù)據(jù)可近似正態(tài)分布本文檔共111頁;當(dāng)前第21頁;編輯于星期二\3點(diǎn)6分(三)數(shù)據(jù)過濾數(shù)據(jù)過濾的目的是去除表達(dá)水平是負(fù)值或很小的數(shù)據(jù)或者明顯的噪聲數(shù)據(jù)。過閃耀現(xiàn)象物理因素導(dǎo)致的信號(hào)污染雜交效能低點(diǎn)樣問題其他本文檔共111頁;當(dāng)前第22頁;編輯于星期二\3點(diǎn)6分(四)補(bǔ)缺失值1.數(shù)據(jù)缺失類型非隨機(jī)缺失基因表達(dá)豐度過高或過低。隨機(jī)缺失與基因表達(dá)豐度無關(guān),數(shù)據(jù)補(bǔ)缺主要針對隨機(jī)缺失情況。本文檔共111頁;當(dāng)前第23頁;編輯于星期二\3點(diǎn)6分高表達(dá)基因的數(shù)據(jù)缺失本文檔共111頁;當(dāng)前第24頁;編輯于星期二\3點(diǎn)6分2.數(shù)據(jù)補(bǔ)缺方法(1)簡單補(bǔ)缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)averagemissingvalues=column(array)average本文檔共111頁;當(dāng)前第25頁;編輯于星期二\3點(diǎn)6分(2)k近鄰法選擇與具有缺失值基因的k個(gè)鄰居基因用鄰居基因的加權(quán)平均估計(jì)缺失值參數(shù)鄰居個(gè)數(shù)距離函數(shù)本文檔共111頁;當(dāng)前第26頁;編輯于星期二\3點(diǎn)6分本文檔共111頁;當(dāng)前第27頁;編輯于星期二\3點(diǎn)6分(3)回歸法本文檔共111頁;當(dāng)前第28頁;編輯于星期二\3點(diǎn)6分(五)數(shù)據(jù)標(biāo)準(zhǔn)化1.為什么要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化:存在不同來源的系統(tǒng)誤差染料物理特性差異(熱光敏感性,半衰期等)染料的結(jié)合效率點(diǎn)樣針差異數(shù)據(jù)收集過程中的掃描設(shè)施不同芯片間的差異實(shí)驗(yàn)條件差異本文檔共111頁;當(dāng)前第29頁;編輯于星期二\3點(diǎn)6分2.運(yùn)用哪些基因進(jìn)行標(biāo)準(zhǔn)化處理芯片上大部分基因(假設(shè)芯片上大部分基因在不同條件下表達(dá)量相同)不同條件間穩(wěn)定表達(dá)的基因(如持家基因)控制序列(spikedcontrol)在不同條件下表達(dá)水平相同的合成DNA序列或外源的DNA序列。本文檔共111頁;當(dāng)前第30頁;編輯于星期二\3點(diǎn)6分3.cDNA芯片數(shù)據(jù)標(biāo)準(zhǔn)化處理(1)片內(nèi)標(biāo)化(within-slidenormalization)方法全局標(biāo)化、熒光強(qiáng)度依賴的標(biāo)準(zhǔn)化、點(diǎn)樣針組內(nèi)標(biāo)準(zhǔn)化。本文檔共111頁;當(dāng)前第31頁;編輯于星期二\3點(diǎn)6分假設(shè):R=k*G方法:c=log2k:中值或均值全局標(biāo)化(globalnormalization)本文檔共111頁;當(dāng)前第32頁;編輯于星期二\3點(diǎn)6分熒光強(qiáng)度依賴的標(biāo)化(intensitydependentnormalization)為什么方法:scatter-plotsmootherlowess擬合
c(A)為M
對A的擬合函數(shù)標(biāo)化后的數(shù)據(jù)本文檔共111頁;當(dāng)前第33頁;編輯于星期二\3點(diǎn)6分點(diǎn)樣針依賴的標(biāo)化(within-print-tip-groupnormalization)為什么一張芯片的不同區(qū)域運(yùn)用不同的點(diǎn)樣針點(diǎn)樣,從而引入點(diǎn)樣針帶來的系統(tǒng)誤差。method本文檔共111頁;當(dāng)前第34頁;編輯于星期二\3點(diǎn)6分(2)染色互換實(shí)驗(yàn)(dye-swapexperiment)的標(biāo)化實(shí)驗(yàn)組對照組芯片1cy5(R)cy3(G’)
芯片2cy3(G)cy5(R’)前提假設(shè):c︽c’方法:本文檔共111頁;當(dāng)前第35頁;編輯于星期二\3點(diǎn)6分線性標(biāo)化法(linearscalingmethods)與芯片內(nèi)標(biāo)化的尺度調(diào)整(scaleadjustment)方法類似。非線性標(biāo)化法(non-linearmethods)分位數(shù)標(biāo)化法(quantilenormalization)兩張芯片的表達(dá)數(shù)據(jù)的分位數(shù)標(biāo)化至相同,即分布于對角線上。(3)片間標(biāo)化(multiple-slidenormalization)本文檔共111頁;當(dāng)前第36頁;編輯于星期二\3點(diǎn)6分4.芯片數(shù)據(jù)標(biāo)準(zhǔn)化對每個(gè)探針對計(jì)算RR=(PM–MM)/(PM+MM)比較R與定義的閾值Tau(小的正值,默認(rèn)值為0.015)單側(cè)的Wilcoxon’sSignedRanktest產(chǎn)生p值,根據(jù)p值定義定量信號(hào)值
PresentcallMarginalcallAbsentcall(1)
提取定性信號(hào)本文檔共111頁;當(dāng)前第37頁;編輯于星期二\3點(diǎn)6分本文檔共111頁;當(dāng)前第38頁;編輯于星期二\3點(diǎn)6分分析步驟獲取探針?biāo)綌?shù)據(jù)→背景值效正→標(biāo)準(zhǔn)化處理→探針特異背景值效正→探針集信號(hào)的匯總(2)提取定量信號(hào)本文檔共111頁;當(dāng)前第39頁;編輯于星期二\3點(diǎn)6分1分析方法本文檔共111頁;當(dāng)前第40頁;編輯于星期二\3點(diǎn)6分2本文檔共111頁;當(dāng)前第41頁;編輯于星期二\3點(diǎn)6分3本文檔共111頁;當(dāng)前第42頁;編輯于星期二\3點(diǎn)6分4本文檔共111頁;當(dāng)前第43頁;編輯于星期二\3點(diǎn)6分5本文檔共111頁;當(dāng)前第44頁;編輯于星期二\3點(diǎn)6分6本文檔共111頁;當(dāng)前第45頁;編輯于星期二\3點(diǎn)6分M=log2R-log2GA=(log2R+log2G)/27本文檔共111頁;當(dāng)前第46頁;編輯于星期二\3點(diǎn)6分8本文檔共111頁;當(dāng)前第47頁;編輯于星期二\3點(diǎn)6分9本文檔共111頁;當(dāng)前第48頁;編輯于星期二\3點(diǎn)6分前面提及的標(biāo)準(zhǔn)化方法僅效正了數(shù)據(jù)分布的中心,在不同的柵格間log-Ratios的方差也不同。本文檔共111頁;當(dāng)前第49頁;編輯于星期二\3點(diǎn)6分本文檔共111頁;當(dāng)前第50頁;編輯于星期二\3點(diǎn)6分二、差異表達(dá)分析基本原理與方法(一)倍數(shù)法實(shí)驗(yàn)條件下的表達(dá)值對照條件下的表達(dá)值通常以2倍差異為閾值,判斷基因是否差異表達(dá)本文檔共111頁;當(dāng)前第51頁;編輯于星期二\3點(diǎn)6分(二)t檢驗(yàn)法
運(yùn)用t檢驗(yàn)法可以判斷基因在兩不同條件下的表達(dá)差異是否具有顯著性
本文檔共111頁;當(dāng)前第52頁;編輯于星期二\3點(diǎn)6分(三)方差分析
本文檔共111頁;當(dāng)前第53頁;編輯于星期二\3點(diǎn)6分兩種或多種條件間下基因表達(dá)量的比較,用方差分析。它將基因在樣本之間的總變異分解為組間變異和組內(nèi)變異兩部分。通過方差分析的假設(shè)檢驗(yàn)判斷組間變異是否存在,如果存在則表明基因在不同條件下的表達(dá)有差異。本文檔共111頁;當(dāng)前第54頁;編輯于星期二\3點(diǎn)6分(四)SAM法(significanceanalysisofmicroarrays)1.多重假設(shè)檢驗(yàn)問題Ⅰ型錯(cuò)誤(假陽性)在假設(shè)檢驗(yàn)作推斷結(jié)論時(shí),拒絕了實(shí)際上正確的檢驗(yàn)假設(shè),即將無差異表達(dá)的基因判斷為差異表達(dá)。Ⅱ型錯(cuò)誤(假陰性)不拒絕實(shí)際上不正確的,即將有差異表達(dá)的基因判斷為無差異表達(dá)。本文檔共111頁;當(dāng)前第55頁;編輯于星期二\3點(diǎn)6分在進(jìn)行差異基因挑選時(shí),整個(gè)差異基因篩選過程需要做成千上萬次假設(shè)檢驗(yàn),導(dǎo)致假陽性率的累積增大。對于這種多重假設(shè)檢驗(yàn)帶來的放大的假陽性率,需要進(jìn)行糾正。常用的糾正策略有Bonferroni效正,控制FDR(falsediscoveryrate)值等。本文檔共111頁;當(dāng)前第56頁;編輯于星期二\3點(diǎn)6分2.分析步驟計(jì)算統(tǒng)計(jì)量擾動(dòng)實(shí)驗(yàn)條件,計(jì)算擾動(dòng)后的基因表達(dá)的相對差異統(tǒng)計(jì)量計(jì)算擾動(dòng)后的平均相對差異統(tǒng)計(jì)量本文檔共111頁;當(dāng)前第57頁;編輯于星期二\3點(diǎn)6分確定差異表達(dá)基因閾值以最小的正值和最大的負(fù)值作為統(tǒng)計(jì)閾值,運(yùn)用該閾值,統(tǒng)計(jì)在值中超過該閾值的假陽性基因個(gè)數(shù),估計(jì)假陽性發(fā)現(xiàn)率FDR值。調(diào)整FDR值的大小得到差異表達(dá)基因。本文檔共111頁;當(dāng)前第58頁;編輯于星期二\3點(diǎn)6分本文檔共111頁;當(dāng)前第59頁;編輯于星期二\3點(diǎn)6分(五)信息熵運(yùn)用信息熵進(jìn)行差異基因挑選時(shí),不需要用到樣本的類別信息,所以運(yùn)用信息熵找到的差異基因是指在所有條件下表達(dá)波動(dòng)比較大的基因。本文檔共111頁;當(dāng)前第60頁;編輯于星期二\3點(diǎn)6分三、差異表達(dá)分析應(yīng)用以一套阿爾海茨默病相關(guān)的基因表達(dá)譜數(shù)據(jù)(GSE5281)為例,詳細(xì)介紹如何利用BRB-ArrayTools軟件進(jìn)行數(shù)據(jù)預(yù)處理,并對處理過的標(biāo)準(zhǔn)化的基因芯片數(shù)據(jù)利用SAM軟件進(jìn)行差異表達(dá)分析的過程。本文檔共111頁;當(dāng)前第61頁;編輯于星期二\3點(diǎn)6分GSE5281數(shù)據(jù)是利用Affymetrix公司的寡核苷酸芯片HG-U133Plus2.0Array檢測阿爾海茨默病病人和正常老年人大腦中六個(gè)不同區(qū)域的基因表達(dá)情況,本例僅選擇其中一個(gè)區(qū)域—內(nèi)側(cè)顳回(middletemporalgyrus,MTG)的數(shù)據(jù)進(jìn)行說明。本文檔共111頁;當(dāng)前第62頁;編輯于星期二\3點(diǎn)6分第一步:導(dǎo)入芯片數(shù)據(jù)使用“importdata”下的“GeneralFormatImporter”導(dǎo)入基因芯片數(shù)據(jù),數(shù)據(jù)間用Tab鍵分隔(或使用Excell文件),也可使用“DataImportWizard”進(jìn)行導(dǎo)入。本文檔共111頁;當(dāng)前第63頁;編輯于星期二\3點(diǎn)6分導(dǎo)入芯片數(shù)據(jù)本文檔共111頁;當(dāng)前第64頁;編輯于星期二\3點(diǎn)6分第二步:選擇文件類型每張芯片用單獨(dú)的文件存儲(chǔ),多個(gè)文件保存在一個(gè)文件夾
“Arrayaresavedinseparatefilesstoredinonefolder”若多張芯片數(shù)據(jù)組織成一個(gè)矩陣形式,存儲(chǔ)在一個(gè)文件中“Arrayaresavedinhorizontallyalignedfile”本文檔共111頁;當(dāng)前第65頁;編輯于星期二\3點(diǎn)6分選擇記憶芯片數(shù)據(jù)文件類型本文檔共111頁;當(dāng)前第66頁;編輯于星期二\3點(diǎn)6分第三步:選擇芯片數(shù)據(jù)文件所存儲(chǔ)的路徑注意路徑中不能包含中文本文檔共111頁;當(dāng)前第67頁;編輯于星期二\3點(diǎn)6分第四步:選擇基因芯片平臺(tái)本文檔共111頁;當(dāng)前第68頁;編輯于星期二\3點(diǎn)6分第五步:選擇文件格式本文檔共111頁;當(dāng)前第69頁;編輯于星期二\3點(diǎn)6分第六步:數(shù)據(jù)的過濾和標(biāo)準(zhǔn)化本文檔共111頁;當(dāng)前第70頁;編輯于星期二\3點(diǎn)6分第七步:基因注釋由于基因芯片檢測的是探針的表達(dá)情況,而探針和基因之間往往不是一一對應(yīng),所以,在數(shù)據(jù)導(dǎo)入后軟件會(huì)詢問是否需要進(jìn)行基因注釋,及是否需要將探針轉(zhuǎn)換成相應(yīng)的基因名(genesymbol)或EntrezID本文檔共111頁;當(dāng)前第71頁;編輯于星期二\3點(diǎn)6分第八步:運(yùn)行SAMFDR=0.01,delta=0.68選出2209個(gè)在阿爾海茨默病病人和正常人腦組織中表達(dá)發(fā)生顯著性改變的基因。本文檔共111頁;當(dāng)前第72頁;編輯于星期二\3點(diǎn)6分SAM的參數(shù)設(shè)定本文檔共111頁;當(dāng)前第73頁;編輯于星期二\3點(diǎn)6分第九步:SAMPlot
本文檔共111頁;當(dāng)前第74頁;編輯于星期二\3點(diǎn)6分SAMPlot
本文檔共111頁;當(dāng)前第75頁;編輯于星期二\3點(diǎn)6分第四節(jié)
聚類分析與分類分析
ClusteringAnalysisandClassification本文檔共111頁;當(dāng)前第76頁;編輯于星期二\3點(diǎn)6分一、聚類目的基于物體的相似性將物體分成不同的組本文檔共111頁;當(dāng)前第77頁;編輯于星期二\3點(diǎn)6分二、基因表達(dá)譜數(shù)據(jù)的聚類對基因進(jìn)行聚類識(shí)別功能相關(guān)的基因識(shí)別基因共表達(dá)模式對樣本進(jìn)行聚類質(zhì)量控制檢查樣本是否按已知類別分組發(fā)現(xiàn)亞型本文檔共111頁;當(dāng)前第78頁;編輯于星期二\3點(diǎn)6分
樣本基因本文檔共111頁;當(dāng)前第79頁;編輯于星期二\3點(diǎn)6分三、距離(相似性)尺度函數(shù)幾何距離線性相關(guān)系數(shù)非線性相關(guān)系數(shù)互信息本文檔共111頁;當(dāng)前第80頁;編輯于星期二\3點(diǎn)6分四、聚類算法層次聚類算法將研究對象按照它們的相似性關(guān)系用樹形圖進(jìn)行呈現(xiàn),進(jìn)行層次聚類時(shí)不需要預(yù)先設(shè)定類別個(gè)數(shù),樹狀的聚類結(jié)構(gòu)可以展示嵌套式的類別關(guān)系。(一)層次聚類本文檔共111頁;當(dāng)前第81頁;編輯于星期二\3點(diǎn)6分本文檔共111頁;當(dāng)前第82頁;編輯于星期二\3點(diǎn)6分在對含非單獨(dú)對象的類進(jìn)行合并或分裂時(shí),常用的類間度量方法。類間相似性度量方法本文檔共111頁;當(dāng)前第83頁;編輯于星期二\3點(diǎn)6分2000年Alizadeh等運(yùn)用基因芯片數(shù)據(jù),基于層次聚類算法證實(shí)了DLBCL腫瘤病人在mRNA層面確實(shí)存在兩種亞型本文檔共111頁;當(dāng)前第84頁;編輯于星期二\3點(diǎn)6分(二)k均值聚類基本思想本文檔共111頁;當(dāng)前第85頁;編輯于星期二\3點(diǎn)6分(三)自組織映射聚類基本思想在不斷的學(xué)習(xí)過程中,輸出層的神經(jīng)元根據(jù)輸入樣本的特點(diǎn)進(jìn)行權(quán)重調(diào)整,最后拓樸結(jié)構(gòu)發(fā)生了改變。本文檔共111頁;當(dāng)前第86頁;編輯于星期二\3點(diǎn)6分(四)雙向聚類雙向聚類就是識(shí)別基因表達(dá)譜矩陣中同質(zhì)的子矩陣,運(yùn)用特定的基因子類識(shí)別樣本子類。
本文檔共111頁;當(dāng)前第87頁;編輯于星期二\3點(diǎn)6分雙向聚類識(shí)別同質(zhì)的子結(jié)構(gòu)本文檔共111頁;當(dāng)前第88頁;編輯于星期二\3點(diǎn)6分五、分類分析(一)線性判別分類器本文檔共111頁;當(dāng)前第89頁;編輯于星期二\3點(diǎn)6分(二)k近鄰分類法本文檔共111頁;當(dāng)前第90頁;編輯于星期二\3點(diǎn)6分(三)PAM方法
(predictionanalysisformicroarray)基本思想每類樣本的質(zhì)心向所有樣本的質(zhì)心進(jìn)行收縮,即收縮每個(gè)基因的類均值,收縮的數(shù)量由值決定。當(dāng)收縮過程發(fā)生時(shí),某些基因在不同類中將會(huì)有相同的類均值,這些基因就不具有類間的區(qū)別效能。本文檔共111頁;當(dāng)前第91頁;編輯于星期二\3點(diǎn)6分基因1基因2本文檔共111頁;當(dāng)前第92頁;編輯于星期二\3點(diǎn)6分分析步驟計(jì)算統(tǒng)計(jì)量對公式經(jīng)過變換得到本文檔共111頁;當(dāng)前第93頁;編輯于星期二\3點(diǎn)6分收縮各類的均值判斷新樣本類別本文檔共111頁;當(dāng)前第94頁;編輯于星期二\3點(diǎn)6分(四)決策樹基本思想決策樹又稱多級(jí)分類器,它可以把一個(gè)復(fù)雜的多類別分類問題轉(zhuǎn)化為若干個(gè)簡單的分類問題來解決。決策樹的結(jié)構(gòu):一個(gè)樹狀的結(jié)構(gòu),內(nèi)部節(jié)點(diǎn)上選用一個(gè)屬性進(jìn)行分割,每個(gè)分叉都是分割的一個(gè)部分,葉子節(jié)點(diǎn)表示一個(gè)分布。本文檔共111頁;當(dāng)前第95頁;編輯于星期二\3點(diǎn)6分決策樹應(yīng)用于腫瘤基因表達(dá)譜的分類分析本文檔共111頁;當(dāng)前第96頁;編輯于星期二\3點(diǎn)6分分析步驟:提取分類規(guī)則,進(jìn)行分類預(yù)測在構(gòu)造決策樹的過程中最重要的一點(diǎn)是在每一個(gè)分割節(jié)點(diǎn)確定用哪個(gè)屬性來分類(或分裂)這就涉及到關(guān)于使用什么準(zhǔn)則來衡量使用A屬性比使用B屬性更合理決策樹分類算法output訓(xùn)練集決策樹input本文檔共111頁;當(dāng)前第97頁;編輯于星期二\3點(diǎn)6分衡量準(zhǔn)則信息增益——informationgain基尼指數(shù)——Giniindex本文檔共111頁;當(dāng)前第98頁;編輯于星期二\3點(diǎn)6分決策樹的修剪消除決策樹的過適應(yīng)問題消除訓(xùn)練集中的異常和噪聲本文檔共111頁;當(dāng)前第99頁;編輯于星期二\3點(diǎn)6分(五)分類效能評(píng)價(jià)1.構(gòu)建訓(xùn)練集和檢驗(yàn)集n倍交叉驗(yàn)證(n-foldcrossvalidation)Bagging(bootstrapaggregating)無放回隨機(jī)抽樣留一法交叉驗(yàn)證(leave-one-outcrossvalidation,LOOCV)本文檔共111頁;當(dāng)前第100頁;編輯于星期二\3點(diǎn)6分2.分類效能靈敏度(sensitivity,recall)特異性(specificity)陽性預(yù)測率(positivepredictivevalue,precision)陰性預(yù)測率(negativepredictivevalue)均衡正確率(balancedaccuracy)正確率(correctoraccuracy)本文檔共111頁;當(dāng)前第101頁;編輯于星期二\3點(diǎn)6分第五節(jié)
基因表達(dá)譜數(shù)據(jù)分析軟件
SoftwareToolsforGeneExpressionProfileAnalysis本文檔共111頁;當(dāng)前第102頁;編輯于星期二\3點(diǎn)6分一、R程序示例R程序說明a=49;sqrt(a)賦值可用“=”,也可用“-〉”;R的語句可以寫在一行,用“;”分開seq(0,5,length=6)seq是R的一個(gè)函數(shù);具體可以輸入命令“?seq”查找seq的具體使用方法plot(sin(seq(0,2*pi,length=100)))plot是畫圖函數(shù),a="Thedogatemyhomework"a是一個(gè)字符串sub("dog","cat",a)sub的功能是將a中的“dog”用“cat”替代,結(jié)果為"Thecatatemyhomework“a=(1+1==3);aa是一個(gè)邏輯變量,結(jié)果為:FALSE本文檔共111頁;當(dāng)前第103頁;編輯于星期二\3點(diǎn)6分R程序說明x<-1:6“:”在這里是"from:to"的意思,結(jié)果是1,2,3,4,5,6。dim(x)<-c(3,4);xdim函數(shù)是維數(shù)的意思,這里的功能是將x變?yōu)?X4維的基陣a=c(7,5,1);a[2]C函數(shù)的功能是組合,這里將3個(gè)數(shù)組合賦值給a,a[2]是5doe=list(name="john",age=28,married=F)doe是list,與向量的差別是可以由不同的變量組合doe$name;doe$ageR語言中,特殊符號(hào)$的作用本文
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《初高中英語語法比較與辨析教案》
- 不動(dòng)產(chǎn)交易買賣協(xié)議書
- 中學(xué)生歷史事件故事讀后感
- 美容師儀器知識(shí)培訓(xùn)課件
- 血液++課件-2024-2025學(xué)年北師大版生物七年級(jí)下冊
- 紅色故事鐵道游擊隊(duì)的愛國主義教育解讀
- 教育資源整合及教育信息化建設(shè)方案
- 2024-2025學(xué)年高二數(shù)學(xué)湘教版選擇性必修第二冊教學(xué)課件 第4章-4.3 獨(dú)立性檢驗(yàn)
- 商業(yè)租賃房屋合同
- 房產(chǎn)銷售內(nèi)部承包合同
- 部編版(統(tǒng)編版)五年級(jí)語文下冊語文書電子版(可下載打印)
- 2024年中北大學(xué)招考聘用博士研究生(高頻重點(diǎn)復(fù)習(xí)提升訓(xùn)練)共500題附帶答案詳解
- 村衛(wèi)生室靜脈輸液規(guī)范和安全管理制度
- 供應(yīng)商大會(huì)總結(jié)報(bào)告
- JGJ127-2000 看守所建筑設(shè)計(jì)規(guī)范
- 名著閱讀(解析版)-2024年中考語文真題(江蘇專用)
- (高清版)JTG 6310-2022 收費(fèi)公路聯(lián)網(wǎng)收費(fèi)技術(shù)標(biāo)準(zhǔn)
- DZ∕T 0203-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 稀有金屬類(正式版)
- 會(huì)議新聞寫作要求與技巧
- 聽評(píng)課方法與策略
- (正式版)QBT 8018-2024 熟制與生干核桃和仁
評(píng)論
0/150
提交評(píng)論