基因芯片數(shù)據(jù)_第1頁
基因芯片數(shù)據(jù)_第2頁
基因芯片數(shù)據(jù)_第3頁
基因芯片數(shù)據(jù)_第4頁
基因芯片數(shù)據(jù)_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第七章基因芯片數(shù)據(jù)分析MicroarrayDataAnalysis第一節(jié)芯片平臺及數(shù)據(jù)庫(GeneralMicroarrayPlatformandDatabase)一、cDNA微陣列芯片寡核苷酸芯片類似于cDNA芯片,但是在探針的設(shè)計(jì)上優(yōu)于cDNA芯片,它的探針并不是來源于cDNA克隆,而是預(yù)先設(shè)計(jì)并合成的代表每個(gè)基因特異片段的約50mer左右長度的序列,然后將其點(diǎn)樣到特定的基質(zhì)上制備成芯片,從而克服了探針序列太長導(dǎo)致的非特異性交叉雜交和由于探針雜交條件變化巨大導(dǎo)致的數(shù)據(jù)結(jié)果的不可靠。二、寡核苷酸芯片

五、基因表達(dá)倉庫GeneExpressionOmnibus,GEO六、斯坦福微陣列數(shù)據(jù)庫TheStanfordMicroarrayDatabase,SMD第二節(jié)基因芯片數(shù)據(jù)預(yù)處理

(GeneralMicroarrayDataTypeandDatabase)一、基因芯片數(shù)據(jù)提取與過濾(一)

cDNA微陣列芯片(二)

Affymetrix公司的原位合成芯片定性信息提?。篜/A/M(Present/Absent/Marginal)定量信息提取:基于探針集匯總后的基因水平的熒光信號強(qiáng)度值數(shù)據(jù)過濾

數(shù)據(jù)過濾的目的是去除表達(dá)水平是負(fù)值或很小的數(shù)據(jù)、或者明顯的噪聲數(shù)據(jù)。過閃耀現(xiàn)象物理因素導(dǎo)致的信號污染雜交效能低點(diǎn)樣問題其它二、數(shù)據(jù)補(bǔ)缺(一)數(shù)據(jù)缺失類型非隨機(jī)缺失基因表達(dá)豐度過高或過低隨機(jī)缺失與基因表達(dá)豐度無關(guān),數(shù)據(jù)補(bǔ)缺主要針對隨機(jī)缺失情況(二)數(shù)據(jù)補(bǔ)缺方法1、簡單補(bǔ)缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)averagemissingvalues=column(array)average2、K近鄰法選擇與具有缺失值基因的k個(gè)鄰居基因用鄰居基因的加權(quán)平均估計(jì)缺失值參數(shù):鄰居個(gè)數(shù)距離函數(shù)3、回歸法三、數(shù)據(jù)標(biāo)準(zhǔn)化(一)為什么要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化存在不同來源的系統(tǒng)誤差染料物理特性差異(熱和光敏感性,半衰期等)染料連接效能點(diǎn)樣針差異數(shù)據(jù)收集過程中掃描設(shè)施不同芯片差異實(shí)驗(yàn)條件差異(二)運(yùn)用哪些基因進(jìn)行標(biāo)準(zhǔn)化處理芯片上大部分基因(假設(shè)芯片上大部分基因在不同條件下表達(dá)量相同)不同條件間穩(wěn)定表達(dá)的基因(如持家基因)控制序列(spikedcontrol)合成DNA序列或外源的DNA序列,在不同條件下表達(dá)水平相同。1、片內(nèi)標(biāo)化(Within-slidenormalization)

(1)全局標(biāo)化(Globalnormalization)(三)cDNA芯片數(shù)據(jù)標(biāo)準(zhǔn)化處理假設(shè):R=k*G方法:C=log2k:中值或均值

(2)熒光強(qiáng)度依賴的標(biāo)化(Intensitydependentnormalization)為什么方法:scatter-plotsmootherlowess擬合c(A)為MvsA的擬合函數(shù)標(biāo)化后的數(shù)據(jù)

(3)點(diǎn)樣針依賴的標(biāo)化(Within-print-tip-groupnormalization)

為什么一張芯片的不同區(qū)域運(yùn)用不同的點(diǎn)樣針點(diǎn)樣,從而引入點(diǎn)樣針帶來的系統(tǒng)誤差。method(4)尺度調(diào)整(Scaleadjustment)為什么調(diào)整不同柵格(grids)間的數(shù)據(jù)離散度方法:計(jì)算不同柵格的尺度因子

2、片間標(biāo)化(Multiple-slidenormalization)線性標(biāo)化法(Linearscalingmethods)與芯片內(nèi)標(biāo)化的尺度調(diào)整(Scaleadjustment)方法類似非線性標(biāo)化法(non-linearmethods)分位數(shù)標(biāo)化法(Quantilenormalization)兩張芯片的表達(dá)數(shù)據(jù)的分位數(shù)標(biāo)化至相同,即分布于對角線上。3、染色互換實(shí)驗(yàn)(dye-swapexperiment)的標(biāo)化

實(shí)驗(yàn)組對照組芯片1cy5(R)cy3(G’)芯片2cy3(G)cy5(R’)前提假設(shè):c︽c’方法:

1、提取定性信號(1)對每個(gè)探針對計(jì)算R

R=(PM-MM)/(PM+MM)(2)比較R與定義的閾值Tau(小的正值,默認(rèn)值為0.015).(3)單側(cè)的Wilcoxon’sSignedRanktest產(chǎn)生p值,根據(jù)p值定義定量信號值PresentcallMarginalcallAbsentcall(四)Affymetrix芯片數(shù)據(jù)標(biāo)準(zhǔn)化2、提具取定量降信號(1)各分析步若驟獲取探矛針?biāo)讲粩?shù)據(jù)背景值效輝正標(biāo)準(zhǔn)化吳處理探針特異劫背景值效音正探針集閥信號的榜匯總(2)養(yǎng)分析方貧法M=唱lo扒g2R-運(yùn)log2GA=案(log2R+踐lo欲g2G)/束2前面提及楚的標(biāo)準(zhǔn)化螺方法僅效久正了數(shù)據(jù)錢分布的中架心,在不統(tǒng)同的柵格童間log該-Rat面ios裹的方差也槍不同。第三節(jié)移差異培表達(dá)分合析(An繡aly竹sis積of響Di輪ffe用ren撿tia鴨lly派Ex濱pre感ssi羊on遺Gen膨e)一、倍數(shù)愁法實(shí)驗(yàn)條傾件下的斯表達(dá)值對照條那件下的付表達(dá)值通常以致2倍差高異為閾呢值,判遭斷基因娛是否差練異表達(dá)二、統(tǒng)旁計(jì)學(xué)方唱法1、t檢標(biāo)驗(yàn)法運(yùn)用t檢茫驗(yàn)法可以前判斷基因恨在兩不同盯條件下的聰表達(dá)差異紛是否具有址顯著性2、方私差分析方差分?jǐn)[析可用岡于基因無在兩種擠或多種計(jì)條件間辰的表達(dá)哄量的比弱較,它疏將基因襪在樣本暫之間的振總變異傻分解為糊組間變擔(dān)異和組構(gòu)內(nèi)變異叼兩部分沸。通過宰方差分株析的假基設(shè)檢驗(yàn)稈判斷組斥間變異怪是否存標(biāo)在,如柴果存在秒則表明亭基因在晴不同條醬件下的龍表達(dá)有粘差異。三、S瓶AM豈(S森ign頑ifi沙can呆ce看Ana糖lys篇is擦of余Mic篩roa陰rra鑒ys)(一)兵多重蘭假設(shè)檢沙驗(yàn)問題Ⅰ型錯撈誤(假腎陽性)渴即在假甘設(shè)檢驗(yàn)廈作推斷君結(jié)論時(shí)抓,拒絕故了實(shí)際砍上正確掠的檢驗(yàn)騰假設(shè),傘即將無討差異表裂達(dá)的基眼因判斷錘為差異辯表達(dá)。Ⅱ型錯誤色(假陰性獨(dú))即不拒叢絕實(shí)際上慈不正確的齒,即將有莫差異表達(dá)彩的基因判順斷為無差托異表達(dá)。在進(jìn)行差禁異基因挑遮選時(shí),整狡個(gè)差異基爸因篩選過占程需要做戒成千上萬城次假設(shè)檢共驗(yàn),導(dǎo)致乒假陽性率咳的累積增敗大。對于賢這種多重菠假設(shè)檢驗(yàn)供帶來的放媽大的假陽敘性率,需咽要進(jìn)行糾鄙正。常用贊的糾正策裂略有Bo流nfer露roni萍效正,控緊制FDR悄(Fal四seD歪isco本very榴Rat閉e)值等。(二)柱分析丘步驟計(jì)算統(tǒng)計(jì)錫量擾動實(shí)驗(yàn)兼條件,計(jì)智算擾動后險(xiǎn)的基因表刷達(dá)的相對棚差異統(tǒng)計(jì)澇量計(jì)算擾動鼓后的平均那相對差異諷統(tǒng)計(jì)量確定差異斤表達(dá)基因鼠閾值:以殖最小的正值和坐最大的負(fù)峽值作為統(tǒng)此計(jì)閾值,運(yùn)用詳該閾值,踏統(tǒng)計(jì)在值學(xué)中超過該閾曉值的假仗陽性基捉因個(gè)數(shù)遙,估計(jì)假陽性昆發(fā)現(xiàn)率F爭DR值。通過調(diào)整聚FDR值菜的大小得蠶到差異表達(dá)基望因。四、信故息熵運(yùn)用信孔息熵進(jìn)淚行差異貸基因挑勞選時(shí),癥不需要竄用到樣策本的類網(wǎng)別信息鳴,所以宰運(yùn)用信蕩息熵找宗到的差墳異基因飼是指在氧所有條衡件下表察達(dá)波動輕比較大叢的基因飼。第四節(jié)基因芯片溉數(shù)據(jù)的聚奸類分析(Cl球ust異er扶Ana技lys往is臨of既Mic盾roa當(dāng)rra劑yD允ata枯)(一)相勸似性測度幾何距漂離線性相脹關(guān)系數(shù)非線性秒相關(guān)系戰(zhàn)數(shù)互信息其它(二)層次聚類層次聚薄類算法秧將研究網(wǎng)對象按泥照它們斬的相似典性關(guān)系汪用樹形蒸圖進(jìn)行陳呈現(xiàn),廈進(jìn)行層篩次聚類輛時(shí)不需楚要預(yù)先住設(shè)定類方別個(gè)數(shù)榮,樹狀花的聚類扒結(jié)構(gòu)可環(huán)以展示遭嵌套式寒的類別偷關(guān)系。在對含鉤非單獨(dú)若對象的罪類進(jìn)行竹合并或剖分裂時(shí)岡,常用醫(yī)的類間貴度量方前法(三)硬k均值飲聚類基本思想(四)自暢組織映射食聚類基本思想蒙:在不斷父的學(xué)習(xí)過簽程中,輸令出層的神流經(jīng)元根據(jù)裳輸入樣本妹的特點(diǎn)進(jìn)浮行權(quán)重調(diào)尼整,最后怎拓樸結(jié)構(gòu)柴發(fā)生了改嬸變第五節(jié)紋基因犯芯片數(shù)洗據(jù)的分而類分析(Cl念ass譜ifi遷cat袖ion華of乓Mi針cro習(xí)arr到ay綠Dat狠a)一、線性縱判別分類謊器二、k近江鄰分類法基本思想三、決策衛(wèi)樹(一)綠基本思抵想決策樹又躁稱為多級腥分類器,臂利用決策綱樹分類可殺以把一個(gè)挑復(fù)雜的多淺類別分類弱問題轉(zhuǎn)化寨為若干個(gè)喊簡單的分賄類問題來賄解決決策樹匆的結(jié)構(gòu)鍵:一個(gè)潤樹性的佛結(jié)構(gòu),肆內(nèi)部節(jié)博點(diǎn)上選不用一個(gè)紫屬性進(jìn)母行分割抗,每個(gè)歡分叉都染是分割斤的一個(gè)螞部分,村葉子節(jié)全點(diǎn)表示買一個(gè)分挺布(二)膛分析步宰驟:提稀取分類舉規(guī)則,醉進(jìn)行分怒類預(yù)測在構(gòu)造躍決策樹厭的過程多中最重題要的一蘇點(diǎn)是在防每一個(gè)焦分裂節(jié)嬌點(diǎn)確定振用那個(gè)舍屬性來袍分類(菜或分裂扯)這就涉溪及到關(guān)片于使用侵什么準(zhǔn)闖則來衡崗量使用蛇A屬性貫比使用坦B屬性膛更合理決策樹分類算法output訓(xùn)練集決策樹input(三)宴衡量準(zhǔn)些則信息增吧益——怪Inf稿orm評ati仆on每gai促n基尼指數(shù)丘——Gi乞nii杯ndex第六節(jié)勸常用背的表達(dá)清譜分析歡軟件(Ge惕ner服al壤Mic披roa漏rra掛yA抄nal歡ysi療sS浪oft夢war腳e)Arra領(lǐng)yToo悄lsDCh御ip(右DNA勢-Ch殃ip富Ana要lyz壤er)SAMR語言貞和Bi柏oCo桐ndu供cto低r:輪aff鐘y、m殼arr立ay、侄lim稈maMatl肌ab:悉Bioi鮮nfor鏟mati杯csT緩oolb護(hù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論