生物芯片表達(dá)譜分析技術(shù)_第1頁
生物芯片表達(dá)譜分析技術(shù)_第2頁
生物芯片表達(dá)譜分析技術(shù)_第3頁
生物芯片表達(dá)譜分析技術(shù)_第4頁
生物芯片表達(dá)譜分析技術(shù)_第5頁
已閱讀5頁,還剩65頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

生物芯片表達(dá)譜分析技術(shù)主要內(nèi)容常用公共微陣列數(shù)據(jù)庫

GEO,ArrayExpress常用微陣列數(shù)據(jù)預(yù)處理軟件

R(Bioconductor),Arraytool識別差異表達(dá)基因方法

Foldchange,Ttest,SAM常用公共數(shù)據(jù)庫及檢索實例目前主要芯片數(shù)據(jù)庫

GEO主頁面簡介GEO數(shù)據(jù)庫創(chuàng)建于2000年,是當(dāng)今最大、最全面的公共基因表達(dá)數(shù)據(jù)資源。GEO數(shù)據(jù)庫覆蓋廣泛的生物學(xué)內(nèi)容,包括疾病、代謝、藥理學(xué)、藥學(xué)、免疫學(xué)和生態(tài)學(xué)等。數(shù)據(jù)來自世界各地實驗室研究者的提交。數(shù)據(jù)類型包括核苷酸陣列(cDNA、寡核苷酸),比較基因組雜交,質(zhì)譜分析蛋白質(zhì)組等等。包含1600多個物種:/geo/summary/?type=taxfullGEO組成及結(jié)構(gòu)

GEO將研究者遞交的數(shù)據(jù)分成三個等級的實體類型,分別是平臺(platform)、系列(series)和樣本(sample),它們每個均可保存到獨立相關(guān)的數(shù)據(jù)庫,因為它們分別被賦予了一個唯一的、永恒不變的標(biāo)志符。數(shù)據(jù)庫中的記錄種類1:平臺(Platform):描述芯片的特性,如寡核苷酸探針組,cDNA,SAGE標(biāo)簽,抗體等。一個平臺可以被不同樣本、不同系列引用。平臺登錄號的首字母為“GPL”。樣本(Sample):描述了樣本是如何從未處理狀態(tài)到形成最后的提交數(shù)據(jù),包括經(jīng)過何種處理,處理方式,如何從中提取待測生物分子,生物分子如何被標(biāo)記,如何雜交,如何掃描,原始數(shù)據(jù)經(jīng)過何種處理轉(zhuǎn)化為提交數(shù)據(jù),以及最后提交結(jié)果中每種分子的測量值。一個樣本只能引用一種平臺,卻可以被多個系列引用。樣本登錄號的首字母為“GSM”。系列(Series):包括一組相關(guān)的樣本,以及對整個研究的介紹。一個系列可以引用多個樣本,可以引用多個平臺。系列登錄號的首字母為“GSE”。數(shù)據(jù)庫中的記錄種類2:數(shù)據(jù)集(Dataset):是由系列整理后形成的,一個系列可以形成一個或者多個數(shù)據(jù)集。一個數(shù)據(jù)集只引用一個平臺,且經(jīng)過處理后,同一個數(shù)據(jù)集內(nèi)的不同芯片間同一個基因的值是可以直接比較的。數(shù)據(jù)集登錄號首字母是“GDS”。表達(dá)譜(Profile):從數(shù)據(jù)集中抽取的,一個基因在不同個樣本中的表達(dá)值組成的數(shù)組。數(shù)據(jù)的檢索、瀏覽與下載根據(jù)需求在該對話框中輸入關(guān)鍵字例如:lungbloodmiRNAhomo數(shù)據(jù)下載ArrayExpress主頁面http://www.ebi.ac.uk/arrayexpress/ArrayExpress是一個公開的,免費訪問的數(shù)據(jù)庫

用戶可進行提交,查詢和下載相應(yīng)的表達(dá)數(shù)據(jù)。ExperimentsArchive------檢索窗口

截止到目前為止收錄1223250個芯片(array)數(shù)據(jù),涉及到43124個實驗(experiment)工作,涵蓋200多個物種。包含基因表達(dá)數(shù)據(jù),copynumber數(shù)據(jù),microRNA表達(dá)數(shù)據(jù)等不同類型的高通量數(shù)據(jù)。ArrayExpress簡介在上述箭頭所指區(qū)域內(nèi),可以直接輸入實驗數(shù)據(jù)編號,查詢數(shù)據(jù)樣本量,癌型等關(guān)鍵詞信息進行相應(yīng)查詢。例如:實驗數(shù)據(jù)編號-----E-GEOD-17710,E-MEXP-1029,E-AFMX-5,E-SMDB-2287,E-TABM-343等等關(guān)鍵詞-----humanlungcancermicroRNA或者不輸入任何信息直接點擊進入下述頁面,返回所有的實驗數(shù)據(jù)。

數(shù)據(jù)查詢和下載可以在上述箭頭所示區(qū)域進行進一步的過濾篩選:A:如果查詢lung相關(guān)數(shù)據(jù),只要輸入lung,會自動提示如下相關(guān)信息進行篩選ABCDE注意:若輸入多個關(guān)鍵詞,默認(rèn)的是AND連接,輸入lungcancer其實匹配的是‘lungANDcancer’。B:可以進行物種過濾查詢,有如下200多個物種可供選擇C:可以通過數(shù)據(jù)涉及平臺進行過濾查詢,包括affymatrix,agilent,illumina等多種芯片平臺。D和E:可對數(shù)據(jù)類型(蛋白,RNA,DNA等),芯片技術(shù)類型(質(zhì)譜,測序等)進行過濾篩選。例如進行如下篩選返回64個結(jié)果:點擊箭頭所示‘加號’,展示如下結(jié)果:ABCDEFG下載數(shù)據(jù)預(yù)處理的數(shù)據(jù):

E-GEOD18842.processed.1.zip原始數(shù)據(jù):

E-GEOD-18842.raw.1.zipE-GEOD-18842.raw.2.zipE-GEOD-18842.raw.3.zip

樣本信息:

E-GEOD-18842.sdrf.txt

平臺信息:

A-AFFY-44.adf.txt微陣列數(shù)據(jù)預(yù)處理及其相應(yīng)的軟件圖像分析和數(shù)據(jù)提取數(shù)據(jù)預(yù)處理差異表達(dá)篩選后續(xù)芯片數(shù)據(jù)分析芯片數(shù)據(jù)分析流程芯片數(shù)據(jù)預(yù)處理 1.

背景校正(BackgroundCorrection);

2.標(biāo)準(zhǔn)化(Normalization); 3.合并(Summary).中位數(shù)標(biāo)準(zhǔn)化方法(quantile)中位數(shù)標(biāo)化步驟如下:第一步:對每張芯片的數(shù)據(jù)點排序。第二步:求出同一位置的幾次重復(fù)實驗數(shù)據(jù)的均值,并用該均值代替該位置的基因的表達(dá)量。第三步:將每個基因還原到本身的位置上。局部加權(quán)回歸標(biāo)化(Loess)方法局部加權(quán)回歸標(biāo)化步驟如下:第一步:首先確定以x為中心的一個區(qū)間(Window)內(nèi)參加局部回歸的觀察值的個數(shù)q。q值設(shè)的越高則得到的擬和曲線越平滑,但對變量關(guān)系的細(xì) 微變化越不敏感。小的q值會對細(xì)微的變化很敏感,但是得到的擬和曲線變得很粗糙。第二步:定義區(qū)間內(nèi)所有點的權(quán)數(shù),權(quán)數(shù)由權(quán)數(shù)函數(shù)來決定,任一點的權(quán)數(shù)是權(quán)數(shù)函數(shù)的曲線的高度。第三步:對每個區(qū)間內(nèi)的q個散點擬和一條直線,擬合曲線描述這個區(qū)間內(nèi)的變量關(guān)系。第四步:擬合值y值就是在x點的y的擬合值。

對基因表達(dá)數(shù)據(jù)的分析,其重要任務(wù)之一是篩選差異表達(dá)基因,即通過比較正常和疾病狀態(tài)下基因表達(dá)的差異。常用篩選差異表達(dá)基因的方法:

1.倍數(shù)法(foldchange)

2.T檢驗(T-test)

3.SAM(significanceanalysisofmicroarrays)

篩選差異表達(dá)基因FC方法-foldchangeFC(Foldchange)常稱為倍數(shù)法或倍數(shù)差異法,是早期基因芯片實驗常采用的篩選差異基因表達(dá)的方法,其算法如下:其中和分別為對不同分組每例觀測的基因表達(dá)水平取對數(shù)后的均值。FC法僅比較不同組件變量平均差別的大小,其缺點顯而易見,即沒有考慮到數(shù)據(jù)的離散程度,受極端值的影響較大,而極端值是微陣列實驗中的常見現(xiàn)象。同時沒有給出差異的顯著性。

T檢驗(T-test)T檢驗是傳統(tǒng)兩組均數(shù)比較方法,理論上要求兩組數(shù)據(jù)均來自正態(tài)分布總體且兩組數(shù)據(jù)的總體方差相等。如果要評斷兩組樣本平均數(shù)之間的差異程度,其統(tǒng)計量T值的計算公式為:

T

=a=(1/n1+1/n2)/(n1+n2-2)S(i):第i個基因兩組均數(shù)差的標(biāo)準(zhǔn)誤不足:由于標(biāo)準(zhǔn)誤的估計建立在小樣本的基礎(chǔ)上,標(biāo)準(zhǔn)誤的穩(wěn)定性受到影響,而在大量基因中不可避免存在部分具有極小標(biāo)準(zhǔn)誤的基因,t檢驗在樣本標(biāo)準(zhǔn)誤較小的情況下,即使表達(dá)均數(shù)間的差值并不大,也可能得到很大的t值而被判斷為差異表達(dá),造成了假陽性。

t檢驗在一定程度上也會受到極端值的影響。SAM

(significanceanalysisofmicroarrays)SAM基本原理是在傳統(tǒng)t檢驗公式的分母加上一個較小的正數(shù)S0,使構(gòu)建的統(tǒng)計量在分子(均數(shù)差值)較小的情況下不容易得到較大的t值。通過上述調(diào)整可以在很大程度上限制表達(dá)水平較低的基因被識別為差異表達(dá)基因,并且使得統(tǒng)計量的分布較少依賴于基因表達(dá)水平。

公式中S0的取值需要保證統(tǒng)計量d(i)的變異系數(shù)最小,d(i)的變異系數(shù)可以通過permutation方法作為s(i)的函數(shù)求得。SAM的初衷是避免將表達(dá)水平和變異程度均較低的無生物學(xué)意義的基因識別為差異表達(dá)基因,在t檢驗公式的分母中加入一個較小的正數(shù),使得SAM法對基因表達(dá)的變異程度敏感性降低,而對基因表達(dá)平均水平的組間差異敏感性增強。即使差異表達(dá)具有較小變化的基因不會因為具有很小的標(biāo)準(zhǔn)誤而被誤判為差異表達(dá)基因,減小了t檢驗的不穩(wěn)定性。決定其調(diào)整程度大小的“修正因子”S0由樣本數(shù)據(jù)計算得到,這一特點使其可因數(shù)據(jù)的不同而改變調(diào)整的程度。SAM在某種程度了減弱了極端值的影響。Bioconductor是針對基因組分析的一組R語言擴展包source("/getBioC.R")getBioC()

Affy芯片數(shù)據(jù)分析舉例1.Backgroundmethods:

"bg.correct“"mas""none""rma“2.NormalizationMethods:

"constant""contrasts""invariantset""loess""methods" "qspline""quantiles""quantiles.robust“3.Summarizationmethods:

"avgdiff""liwong""mas""medianpolish""playerout”4.DifferentialExpressionGenemethods“samr““t.test"

#LoadtheBioconductorpackageaffy.>library(affy)#Readthe.CELfiledata.>Data=ReadAffy()#ComputetheRMAmeasuresofexpression.>expr=justRMA(Data,background="RMA”,normalize="quantile")#Writethedatatoatab-delimitedtextfile.>write.exprs(expr,file="mydata.txt")BRB-ArrayTools是一款為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論