內(nèi)蒙科大生物信息學(xué)課件第7章 生物芯片_第1頁(yè)
內(nèi)蒙科大生物信息學(xué)課件第7章 生物芯片_第2頁(yè)
內(nèi)蒙科大生物信息學(xué)課件第7章 生物芯片_第3頁(yè)
內(nèi)蒙科大生物信息學(xué)課件第7章 生物芯片_第4頁(yè)
內(nèi)蒙科大生物信息學(xué)課件第7章 生物芯片_第5頁(yè)
已閱讀5頁(yè),還剩131頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第七章 生物芯片2022/9/10BIOINFORMATICS1本章提要:生物芯片被譽(yù)為20世紀(jì)生物學(xué)最重大發(fā)明技術(shù)之一。本章首先對(duì)生物芯片作了簡(jiǎn)要介紹,然后從生物芯片的分類、基本原理、應(yīng)用和數(shù)據(jù)的處理與分析幾個(gè)角度學(xué)習(xí)生物芯片有關(guān)的基本知識(shí)。2022/9/10BIOINFORMATICS27.1生物芯片簡(jiǎn)介 生物芯片(Biochip) 又稱微陣列(microarray)。這一名詞是20世紀(jì)80年代初提出來(lái)的,美國(guó)海軍實(shí)驗(yàn)室Carter等科學(xué)家試圖把有機(jī)功能分子或生物活性分子進(jìn)行組裝,構(gòu)建微功能單元,實(shí)現(xiàn)信息的獲取、儲(chǔ)存、處理和傳輸功能。真正的生物芯片出現(xiàn)于20世紀(jì)90年代,DNA微陣列技術(shù)自

2、1995年誕生之時(shí),就被預(yù)言為具有劃時(shí)代意義的技術(shù),將從根本上改變生物科技的面貌。2022/9/10BIOINFORMATICS3 生物芯片將生命科學(xué)研究中所涉及的不連續(xù)的分析過(guò)程(如樣品制備、化學(xué)反應(yīng)和分析測(cè)試),利用微電子、微機(jī)械、化學(xué)、物理技術(shù)、計(jì)算機(jī)技術(shù)在固體芯片表面構(gòu)建的微流體分析單元和系統(tǒng),使之集成化、微型化。2022/9/10BIOINFORMATICS4生物芯片主要是指采用光導(dǎo)原位合成或微量點(diǎn)樣等技術(shù),將大量生物分子如核酸片斷、多肽片斷、組織切片、細(xì)胞等有序地固定于支持物(如玻片、硅片、聚丙烯酰胺、尼龍膜等)的表面,組成密集、有序的二維分子陣列,然后與已標(biāo)記的待測(cè)生物樣品中靶分

3、子雜交,通過(guò)特定的儀器如激光共聚焦掃描或電荷偶聯(lián)攝像機(jī)(CCD)對(duì)雜交信號(hào)的強(qiáng)度進(jìn)行快速、并行、高效的檢測(cè)分析,從而判斷樣品中靶分子的數(shù)量。2022/9/10BIOINFORMATICS5 微陣列的主要應(yīng)用在于對(duì)基因表達(dá)問(wèn)題的研究,特別是在人類基因組和其它生物基因組計(jì)劃完成之后,我們需要從全基因組水平定量或定性檢測(cè)轉(zhuǎn)錄產(chǎn)物mRNA?;虮磉_(dá)數(shù)據(jù)與基因組數(shù)據(jù)相比,更為復(fù)雜,數(shù)據(jù)量更大,數(shù)據(jù)的增長(zhǎng)更快?;虮磉_(dá)數(shù)據(jù)中包含著基因活動(dòng)的信息,可以反映細(xì)胞當(dāng)前的生理狀態(tài)。2022/9/10BIOINFORMATICS6 通過(guò)對(duì)該數(shù)據(jù)矩陣的分析,可以回答一系列的生物學(xué)問(wèn)題:基因的功能是什么?在不同條件或不

4、同細(xì)胞類型中,哪些基因的表達(dá)存在差異?在特定條件下,哪些基因的表達(dá)發(fā)生了顯著變化,這些基因受到哪些基因的調(diào)節(jié),或控制哪些基因的表達(dá)?2022/9/10BIOINFORMATICS7微陣列廣泛應(yīng)用的另一個(gè)重要原因是為了理解基因網(wǎng)絡(luò)(network)或通路(pathway)。傳統(tǒng)的分子生物學(xué)方法針對(duì)“一個(gè)基因一個(gè)實(shí)驗(yàn)”的設(shè)計(jì)思路,其通量極為有限,同時(shí)也無(wú)法獲得基因功能的整體框架。2022/9/10BIOINFORMATICS8 例如,傳統(tǒng)方法研究基因之間相互作用關(guān)系的方法之一是通過(guò)“基因敲除”技術(shù)來(lái)實(shí)現(xiàn),只能在很小規(guī)模上觀測(cè)對(duì)相同或不同組織中對(duì)其它基因表達(dá)的影響,而微陣列可以在單一芯片上同時(shí)監(jiān)測(cè)整

5、個(gè)基因組的變化,因而可以同時(shí)理解成千上萬(wàn)個(gè)基因之間的相互作用,對(duì)整個(gè)表達(dá)譜有一全面理解。2022/9/10BIOINFORMATICS9生物芯片會(huì)對(duì)21世紀(jì)的生命科學(xué)和醫(yī)學(xué)的發(fā)展產(chǎn)生巨大的影響,可以大大促進(jìn)后基因組計(jì)劃的各項(xiàng)研究。通過(guò)比較不同個(gè)體或物種之間以及同一個(gè)體在不同生長(zhǎng)發(fā)育階段,正常和疾病狀態(tài)下基因轉(zhuǎn)錄及其表達(dá)的差異,尋找和發(fā)現(xiàn)新基因,研究它們?cè)谏矬w發(fā)育、遺傳、進(jìn)化等過(guò)程中的功能。2022/9/10BIOINFORMATICS10生物芯片還將在研究人類重大疾病如癌癥、心血管病等相關(guān)基因及其相互作用機(jī)理方面發(fā)揮重要作用。在預(yù)防醫(yī)學(xué)方面,生物芯片可以使人們盡早認(rèn)識(shí)自身潛在的疾病,并實(shí)施有

6、效的防治。2022/9/10BIOINFORMATICS117.2生物芯片的種類7.2.1 生物芯片的分類 1、根據(jù)支持介質(zhì)劃分 制備芯片的固相支持介質(zhì)有玻片、硅片、聚丙烯酰胺、尼龍膜等。選擇固相支持介質(zhì)考慮的主要因素有:熒光背景的大小、化學(xué)穩(wěn)定性、結(jié)構(gòu)復(fù)雜性、介質(zhì)對(duì)化學(xué)修飾作用的反應(yīng)、介質(zhì)表面積及其承載物能力及非特異性吸附程度等因素。2022/9/10BIOINFORMATICS12 2、根據(jù)制備方法劃分 芯片制備的方法主要有原位合成和直接點(diǎn)樣法。其中原位合成的代表技術(shù)是先引導(dǎo)聚合法,其中最具有代表性的有Affymetrix公司的多寡核苷酸微陣列,此外還有噴墨打印合成法,代表是Agilent

7、公司的微陣列。直接點(diǎn)樣法用聚丙烯酰胺凝膠作為支持介質(zhì),將凝膠固定在玻璃上,然后將合成好的不同探針?lè)謩e加到不同的膠塊上,制成以膠塊為陣點(diǎn)的芯片。2022/9/10BIOINFORMATICS13 3、根據(jù)芯片上固定的探針劃分 生物芯片按其探針?lè)譃榛蛐酒℅ene Chip)、蛋白質(zhì)芯片(Protein Chip)、細(xì)胞芯片、組織芯片等。如果芯片上固定的分子是寡核苷酸探針或DNA,就是DNA芯片。DNA芯片又細(xì)分為寡核苷酸芯片、DNA芯片和基因芯片。2022/9/10BIOINFORMATICS147.2.2 幾種常見(jiàn)的生物芯片 1、基因芯片 基因芯片是目前最重要的生物芯片,又稱DNA芯片(DN

8、A Chip)或DNA微陣列(DNA microarray)。2022/9/10BIOINFORMATICS15基因芯片這一技術(shù)方法是1991年首次提出的,該技術(shù)將成千上萬(wàn)的探針同時(shí)固定于支持物上,所以一次可以對(duì)大量的DNA分子或RNA分子進(jìn)行檢測(cè)分析,從而解決了傳統(tǒng)核酸印跡雜交等技術(shù)復(fù)雜、自動(dòng)化程度低、檢測(cè)目的分子數(shù)量少、低通量等不足。而且,通過(guò)設(shè)計(jì)不同的探針陣列(array),還可以用于序列分析,稱為雜交測(cè)序(SBH)。2022/9/10BIOINFORMATICS16 基因芯片以其無(wú)可比擬的信息量、高通量、快速、準(zhǔn)確的分析基因的能力,在基因功能研究、基因診斷及藥物篩選等方面顯示了巨大的威

9、力,被稱為是基因功能研究領(lǐng)域的最偉大發(fā)明之一?;蛐酒云涓咄俊⒉⑿袡z測(cè)等特點(diǎn)適應(yīng)了分析人類基因組計(jì)劃對(duì)海量生物信息提取、分析的需要。2022/9/10BIOINFORMATICS17 深入研究基因突變和基因表達(dá)的有效方法的需求是基因芯片發(fā)展的動(dòng)力。結(jié)構(gòu)基因組學(xué)研究所有基因的結(jié)構(gòu)和染色體定位,用傳統(tǒng)的方法費(fèi)時(shí)費(fèi)力,基因表達(dá)譜研究基因表達(dá)產(chǎn)物在機(jī)體發(fā)育、分化及疾病中的作用巨大。由于基因芯片高速度、高通量、集約化和低成本的特點(diǎn),誕生以后就受到科學(xué)界的廣泛關(guān)注。2022/9/10BIOINFORMATICS182、蛋白質(zhì)芯片蛋白質(zhì)芯片,又稱蛋白質(zhì)微陣列(protein microarray),是指

10、固定于支持介質(zhì)上的蛋白質(zhì)構(gòu)成的微陣列。蛋白質(zhì)芯片與基因芯片類似,是在一個(gè)基因芯片大小的載體上,按使用目的的不同,點(diǎn)布相同或不同種類的蛋白質(zhì),然后再用標(biāo)記了熒光染料的蛋白質(zhì)結(jié)合,掃描儀上讀出熒光強(qiáng)弱,計(jì)算機(jī)分析出樣本結(jié)果。2022/9/10BIOINFORMATICS19從理論上講,蛋白質(zhì)芯片可以對(duì)各種蛋白質(zhì)進(jìn)行檢測(cè),彌補(bǔ)基因芯片檢測(cè)的不足,不僅適合于抗原、抗體的篩選,同樣也可用于受體配體的相互作用的研究,具有一次性檢測(cè)樣本巨大、相對(duì)低消耗、計(jì)算機(jī)自動(dòng)分析結(jié)果以及快速、準(zhǔn)確等特點(diǎn)。2022/9/10BIOINFORMATICS20基因芯片通過(guò)檢測(cè)mRNA的豐度或者DNA的拷貝數(shù)來(lái)確定基因的表達(dá)模

11、式和表達(dá)水平,然而mRNA的表達(dá)水平(包括mRNA的種類和含量)并不能反應(yīng)蛋白質(zhì)的表達(dá)水平,許多功能蛋白質(zhì)還有翻譯后修飾和加工,如磷酸化、羰基化、乙?;⒌鞍踪|(zhì)水解等修飾,直接進(jìn)行蛋白質(zhì)分析是蛋白質(zhì)組研究領(lǐng)域的重要內(nèi)容。2022/9/10BIOINFORMATICS21 目前蛋白質(zhì)組學(xué)研究的主要技術(shù)是質(zhì)譜(MS)和雙向凝膠電泳(2DPAGE)。MS是一種十分有用的檢測(cè)工具,但目前尚不能用于定量分析;2D技術(shù)由于樣本需求量大、操作復(fù)雜也不能滿足醫(yī)學(xué)診斷的需求。因而,蛋白質(zhì)芯片剛剛興起就成為研究熱點(diǎn)。2022/9/10BIOINFORMATICS22 蛋白質(zhì)芯片技術(shù)的優(yōu)點(diǎn)主要體現(xiàn)在;能夠快速并且定

12、量分析大量蛋白質(zhì);蛋白質(zhì)芯片使用相對(duì)簡(jiǎn)單,結(jié)果正確率較高,只需對(duì)少量血樣標(biāo)本進(jìn)行沉降分離和標(biāo)記后,即可加于芯片上進(jìn)行分析和檢測(cè);相對(duì)傳統(tǒng)的酶標(biāo)ELISA分析,蛋白質(zhì)芯片采用光敏染料標(biāo)記,靈敏度高準(zhǔn)確性好。此外,蛋白芯片的所需試劑少,可直接應(yīng)用血清樣本,便于診斷,實(shí)用性強(qiáng)。 2022/9/10BIOINFORMATICS23 3、組織芯片 組織芯片是將多種組織切片代替核酸或蛋白質(zhì),按照一定順序固定在玻片上。其優(yōu)點(diǎn)在于可以原位檢測(cè)信號(hào)發(fā)生的位置,缺點(diǎn)是切片較大,因而不能在一張片子上大規(guī)模固定多個(gè)樣品。同時(shí),由于組織切片的樣品來(lái)源很不穩(wěn)定,每張玻片之間都不相同,重復(fù)性和穩(wěn)定性一直是一主要問(wèn)題。不過(guò),

13、將芯片概念引入免疫組化和原位雜交中確實(shí)是一概念和技術(shù)上的突破。2022/9/10BIOINFORMATICS247.3 基因芯片的基本原理7.3.1 基因芯片基本原理和基本流程 7.3.1.1基因芯片的基本原理基因芯片的原型是20紀(jì)80年代中期提出的?;蛐酒幕驹硎峭ㄟ^(guò)雜交的方法,即通過(guò)與一組已知序列的核酸探針雜交進(jìn)行核酸的分析。 2022/9/10BIOINFORMATICS25基因芯片有寡核苷酸芯片、cDNA芯片和Genomic芯片之分,包括兩種模式:一是將靶DNA固定于支持物上,適合于同一探針對(duì)不同靶DNA的分析;二是將大量探針?lè)肿庸潭ㄓ谥С治锷?,適合于對(duì)同一靶DNA進(jìn)行不同探針序

14、列的分析。2022/9/10BIOINFORMATICS26根據(jù)基因芯片的應(yīng)用又主要分為兩大類:用于研究基因型和用于檢測(cè)RNA的表達(dá)。從本質(zhì)上來(lái)講,前者實(shí)際上是利用基因芯片進(jìn)行序列分析,其中包括識(shí)別DNA序列的突變和研究DNA的多態(tài)性;而后者則是利用基因芯片研究序列的功能。7.3.1.2 基因芯片的基本流程圖8-1 cDNA微陣列工作流程圖2022/9/10BIOINFORMATICS28基因芯片技術(shù)包括四個(gè)主要步驟:芯片制備、樣品制備、雜交反應(yīng)、信號(hào)檢測(cè)和結(jié)果分析。首先提出基因芯片所要解決的問(wèn)題,確定研究目標(biāo),例如,研究基因的SNP。檢測(cè)或分析DNA的變異或者進(jìn)行基因差異表達(dá)的研究。2022

15、/9/10BIOINFORMATICS29根據(jù)所要解決的問(wèn)題,選擇一組特定的基因?qū)ο蟆F浯?,根?jù)所選擇的基因序列,設(shè)計(jì)探針序列以及探針在芯片上的分布。然后根據(jù)設(shè)計(jì)結(jié)果制備基因芯片,制備方法大致分為在片合成法和點(diǎn)樣法。接下來(lái)就是對(duì)靶基因即待測(cè)樣品進(jìn)行擴(kuò)增和標(biāo)記,然后進(jìn)行雜交實(shí)驗(yàn),并對(duì)基因芯片的雜交結(jié)果進(jìn)行檢測(cè),最后根據(jù)獲得的熒光圖譜,進(jìn)行數(shù)據(jù)處理分析,報(bào)告檢測(cè)結(jié)果,并將相應(yīng)的數(shù)據(jù)存入數(shù)據(jù)庫(kù)。 2022/9/10BIOINFORMATICS30 1、基因芯片的制備 基因芯片的制備主要包括兩個(gè)方面:一是基因芯片的設(shè)計(jì);二是基因芯片的制作。前者又包括基因芯片上探針的設(shè)計(jì)和探針在芯片上布局的設(shè)計(jì)。 20

16、22/9/10BIOINFORMATICS31 1)基因芯片設(shè)計(jì):目的在于提取更多的生物分子信息,并提高信息的可靠性?;蛐酒O(shè)計(jì)包括寡核苷酸探針或cDNA探針設(shè)計(jì)、探針布局和芯片優(yōu)化。根據(jù)參照序列設(shè)計(jì)探針,盡可能使最終芯片的熒光檢測(cè)圖像中完全互補(bǔ)雜交信號(hào)突出,提高基因芯片檢測(cè)的可靠性。芯片優(yōu)化是指在設(shè)計(jì)后續(xù)階段對(duì)芯片制備過(guò)程進(jìn)行優(yōu)化,如減少制備芯片所需要的掩膜板,精簡(jiǎn)探針合成環(huán)節(jié)。2022/9/10BIOINFORMATICS32在芯片設(shè)計(jì)的不同階段,都要用到信息學(xué)中的優(yōu)化方法,如探針優(yōu)化、布局優(yōu)化及芯片優(yōu)化。各種基因芯片的功能不同,相應(yīng)的芯片設(shè)計(jì)要求和設(shè)計(jì)方法也有所不同,必須根據(jù)具體的芯片

17、功能采用不同的設(shè)計(jì)方法?;蛐酒瑑纱蟛煌瑧?yīng)用是基因組規(guī)模的DNA變異分析和基因表達(dá)比較分析,從芯片設(shè)計(jì)方面來(lái)看,這兩大類應(yīng)用具有許多共同的要求,但在一些重要的方面卻存在著很大的差異,必須在設(shè)計(jì)方面加以考慮。 2022/9/10BIOINFORMATICS33 在進(jìn)行探針設(shè)計(jì)和布局時(shí)必需考慮以下幾個(gè)方面:互補(bǔ)性:探針與待檢測(cè)的目標(biāo)序列片段互補(bǔ);敏感性和特異性:要求探針僅僅對(duì)特定目標(biāo)序列片段敏感,而對(duì)其他序列不產(chǎn)生雜交信號(hào);容錯(cuò)性:通過(guò)探針設(shè)計(jì),提高基因芯片檢測(cè)的容錯(cuò)性,常用的方法是使用冗余探針;2022/9/10BIOINFORMATICS34可靠性:通過(guò)探針設(shè)計(jì),提高基因芯片檢測(cè)的可靠性;可控

18、性:在基因芯片上設(shè)置質(zhì)量監(jiān)控探針,以便于監(jiān)控基因芯片產(chǎn)品的質(zhì)量;可讀性:通過(guò)探針布局,使得最終的雜交檢測(cè)圖像便于觀察理解,如將檢測(cè)相關(guān)基因的探針?lè)旁谛酒舷噜彽膮^(qū)域;高信號(hào)量的探針不要影響到其他探針的信號(hào)。2022/9/10BIOINFORMATICS35 在探針設(shè)計(jì)方面,最重要的是所有探針的雜交溫度要盡量接近。為了提高芯片對(duì)雜交錯(cuò)配的辨別能力,人們提出了一種優(yōu)化設(shè)計(jì)方法。該方法的基本思想是通過(guò)動(dòng)態(tài)調(diào)節(jié)各個(gè)探針的長(zhǎng)度及探針之間的覆蓋長(zhǎng)度,使所設(shè)計(jì)的各個(gè)探針的解鏈溫度Tm最大程度地保持一致,從而有效地提高對(duì)堿基雜交錯(cuò)配的辨別能力,提高基因芯片檢測(cè)結(jié)果的可靠性。2022/9/10BIOINFORM

19、ATICS36 采用生物信息學(xué)中常用的動(dòng)態(tài)規(guī)劃算法進(jìn)行優(yōu)化,以使得各個(gè)探針具有相近解鏈溫度作為優(yōu)化目標(biāo),篩選并優(yōu)化組合各候選探針。在優(yōu)化組合時(shí)要求各探針的長(zhǎng)度和相鄰探針之間的交疊長(zhǎng)度滿足給定的約束條件,經(jīng)過(guò)優(yōu)化組合以后得到一組覆蓋目標(biāo)序列的探針。2022/9/10BIOINFORMATICS37 2)基因芯片的制作。要成功的制作芯片,需要準(zhǔn)備三大材料:準(zhǔn)備固定在芯片上的生物分子樣品(即探針)、芯片片基和制作芯片的儀器。2022/9/10BIOINFORMATICS38 研究目的不同,期望制作的芯片類型不同,制備芯片方法也不盡相同,以DNA芯片為例,基本上可分為兩大類:一類是原位合成(即在支持物

20、表面原位合成寡核苷酸探針),適用于寡核苷酸;另一類是點(diǎn)樣法,預(yù)合成后直接點(diǎn)樣多用于大片段DNA,有時(shí)也用于寡核苷酸,甚至cDNA。2022/9/10BIOINFORMATICS39 原位合成有兩種途徑,一是原位光刻合成(Affymetri公司專利技術(shù)),該方法的主要優(yōu)點(diǎn)是可以用很少的步驟合成極其大量的探針陣列。采用的技術(shù)原理是在合成堿基單體的5羥基末端連上一個(gè)光敏保護(hù)基。合成的第一步是利用光照射使羥基脫離保護(hù),然后將一個(gè)5端保護(hù)的核苷酸單體連接上去,這個(gè)過(guò)程反復(fù)進(jìn)行直至合成完畢。2022/9/10BIOINFORMATICS40使用多種掩蓋物能以更少的合成步驟生產(chǎn)出高密度的陣列,在合成循環(huán)中探

21、針數(shù)目呈指數(shù)增長(zhǎng)。某一個(gè)含n個(gè)核苷酸的寡聚核苷酸,通過(guò)4n個(gè)化學(xué)步驟能合成出4n個(gè)可能結(jié)構(gòu)。2022/9/10BIOINFORMATICS41例如,合成8核苷酸探針,要通過(guò)32個(gè)化學(xué)步驟,8個(gè)小時(shí)可合成65536個(gè)探針。用該方法合成的探針陣列密度可高達(dá)106個(gè)/cm2。另一種原位合成是壓電打印法(piezoelectric printing),原理與普通的彩色噴墨打印機(jī)相似,所用技術(shù)也是常規(guī)的固相合成方法。通過(guò)4個(gè)噴印頭將4種堿基按序列要求依次噴印在芯片的特定位點(diǎn)上,噴印頭可在整個(gè)芯片上移動(dòng)。支持物經(jīng)過(guò)包被后,根據(jù)芯片上不同位點(diǎn)探針的序列需要將特定的堿基噴印在芯片上特定位置。2022/9/10

22、BIOINFORMATICS42 該技術(shù)采用的化學(xué)原理與傳統(tǒng)的DNA固相合成一致,因此不需要特殊制備的化學(xué)試劑。每步產(chǎn)率可達(dá)到99以上,可以合成出長(zhǎng)度為4050個(gè)堿基的探針。盡管如此,原位合成方法仍然比較復(fù)雜,除了在基因芯片研究方面享有盛譽(yù)的Affymetrix等公司使用該技術(shù)合成探針外,其他中小型公司大多使用合成點(diǎn)樣法。 2022/9/10BIOINFORMATICS43 點(diǎn)樣法是將預(yù)先通過(guò)液相化學(xué)合成的探針,或PCR技術(shù)擴(kuò)增cDNA,或基因組DNA經(jīng)純化、定量分析后,通過(guò)由陣列復(fù)制器(arraying and replicating device,ARD)或陣列點(diǎn)樣機(jī)(arrayer)及電

23、腦控制的機(jī)器人,準(zhǔn)確、快速地將不同探針樣品定量點(diǎn)樣于帶正電荷的尼龍膜或硅片等相應(yīng)位置上(支持物應(yīng)事先進(jìn)行特定處理,例如以帶正電荷的多聚賴氨酸或氨基硅烷),再由紫外線交聯(lián)固定后即得到DNA微陣列或芯片。2022/9/10BIOINFORMATICS44 點(diǎn)樣的方式分兩種:其一為接觸式點(diǎn)樣,即點(diǎn)樣針直接與固相支持物表面接觸,將DNA樣品留在固相支持物上;其二為非接觸式點(diǎn)樣,即噴點(diǎn),它是以壓電原理將DNA樣品通過(guò)毛細(xì)管直接噴至固相支持物表面。 2022/9/10BIOINFORMATICS45 2靶基因(待測(cè))樣品的制備 生物樣品往往是非常復(fù)雜的生物分子混合體,除少數(shù)特殊樣品外,一般不能直接與芯片反

24、應(yīng),必須將樣品進(jìn)行生物處理。根據(jù)基因芯片的檢測(cè)目的不同,可以將樣品制備方法分為用于表達(dá)譜測(cè)量的mRNA樣品制備和用于多態(tài)性(或突變)分析的基因樣品的制備,由于這兩種不同的基因芯片在探針設(shè)計(jì)上有較大的區(qū)別,靶基因制備的實(shí)驗(yàn)方法也不完全一樣。 2022/9/10BIOINFORMATICS46與普通分子生物學(xué)實(shí)驗(yàn)一樣,靶基因的制備需要運(yùn)用常規(guī)手段從細(xì)胞或組織中提取模板分子,從血液或活組織中獲取的DNA/mRNA樣品在標(biāo)記成為探針以前必須進(jìn)行擴(kuò)增提高閱讀靈敏度,但這一過(guò)程操作起來(lái)卻有一定的難度。例如在一個(gè)癌細(xì)胞中有成千上萬(wàn)個(gè)正?;蛟诟蓴_癌基因的檢測(cè),對(duì)癌基因進(jìn)行高效、特異地?cái)U(kuò)增就不是一件很容易的事

25、。因?yàn)樵谝话闳芤褐羞M(jìn)行PCR擴(kuò)增時(shí),由于靶片段太少,故存在其他不同的DNA片段與其競(jìng)爭(zhēng)引物的情況。2022/9/10BIOINFORMATICS47美國(guó) Mosaic Technologies公司發(fā)展了一種固相 PCR系統(tǒng),優(yōu)于傳統(tǒng) PCR技術(shù),此系統(tǒng)在靶 DNA上設(shè)計(jì)一對(duì)雙向引物,將其排列在丙烯酰胺薄膜上,每套都可以從靶基因兩頭延伸。當(dāng)引物和DNA樣品及PCR試劑相混合時(shí),如果樣品包含靶序列,DNA就從引物兩頭開(kāi)始合成,并在引物之間形成雙鏈DNA環(huán)或“橋”。2022/9/10BIOINFORMATICS48由于上述反應(yīng)在固相中產(chǎn)生,因而避免了引物競(jìng)爭(zhēng)現(xiàn)象,并可減少殘留物污染和重復(fù)引發(fā)。這種方

26、法無(wú)交叉污染且省去液相處理的繁瑣。LynxTheqeuhcs公司提出另一個(gè)革新的方法,即大規(guī)模平行固相克隆(massively parallel solidphase cloning)可以對(duì)一個(gè)樣品中數(shù)以萬(wàn)計(jì)的DNA片段同時(shí)進(jìn)行克隆,且不必分離和單獨(dú)處理每個(gè)克隆,使樣品擴(kuò)增更為有效快速。2022/9/10BIOINFORMATICS49 對(duì)于檢測(cè)表達(dá)的芯片,樣品制備通常涉及mRNA的純化、cDNA的合成、體外轉(zhuǎn)錄或者PCR、標(biāo)記等步驟;而對(duì)于SNP或者突變的檢測(cè),則往往涉及基因組DNA的純化和PCR、標(biāo)記等步驟。在模板擴(kuò)增過(guò)程中,實(shí)現(xiàn)對(duì)靶基因的標(biāo)記,根據(jù)樣品來(lái)源、基因含量、檢測(cè)方法和分析目的不

27、同,采用的基因分離、擴(kuò)增及標(biāo)記方法各異。待測(cè)樣品的標(biāo)記方法有熒光標(biāo)記法、生物素標(biāo)記法、放射性核素標(biāo)記法等。2022/9/10BIOINFORMATICS50 目前采用的最普遍的熒光標(biāo)記方法是通過(guò)在擴(kuò)增過(guò)程中加入含有熒光標(biāo)記的dNTP(至少一種為熒光標(biāo)記),在轉(zhuǎn)錄和復(fù)制過(guò)程中熒光標(biāo)記的單核苷酸分子被引入新合成的DNA片段。2022/9/10BIOINFORMATICS51對(duì)于表達(dá)芯片分析,常用的幾種方法制備和標(biāo)記靶基因:將純化的樣品RNA通過(guò)特定的引物逆轉(zhuǎn)錄合成單鏈cDNA靶基因,在合成的過(guò)程中摻入標(biāo)記物;或者先將待測(cè)樣品的RNA轉(zhuǎn)錄合成cDNA,再進(jìn)一步通過(guò)加入標(biāo)記物進(jìn)行體外轉(zhuǎn)錄合成cRNA單

28、鏈靶基因,或者將合成的cRNA加標(biāo)記物和特殊引物進(jìn)行PCR擴(kuò)增,制備成標(biāo)記的雙鏈靶基因。而對(duì)于SNP芯片和突變檢測(cè),則需要將純化的基因組DNA用特定的引物擴(kuò)增并進(jìn)行標(biāo)記。2022/9/10BIOINFORMATICS523靶基因的雜交及其信號(hào)的檢測(cè)和分析 基因芯片與靶基因的雜交過(guò)程與一般常規(guī)的分子雜交過(guò)程基本相同。其雜交過(guò)程一般先將制備得到的靶基因配制成適當(dāng)?shù)碾s交液。 2022/9/10BIOINFORMATICS53適合于在玻璃片的雜交液有多種,比較典型的配方,如雜交溶液配方A(雜交溫度 42):50甲酰胺,6SCC,0.5SDS,5Denhardt試劑; 配方B(雜交溫度65):6SCC,

29、0.5SDS,5Denhardt試劑;配方C(雜交溫度65):10SDS,7的PEG8000。用于檢測(cè)的基因芯片先進(jìn)行封閉預(yù)雜交30min,然后用含有靶基因的雜交液在雜交溫度下孵育824h,用清洗液清洗后離心干燥。2022/9/10BIOINFORMATICS54 雜交條件的選擇與研究目的有關(guān),多態(tài)性分析或者基因測(cè)序時(shí),每個(gè)核苷酸或突變部位都必須檢測(cè)出來(lái),通常設(shè)計(jì)出一套4種寡核苷酸,在靶序列上跨越每個(gè)位點(diǎn),只在中央位點(diǎn)堿基有所不同,根據(jù)每套探針在某一特定位點(diǎn)的雜交嚴(yán)謹(jǐn)程度,即可測(cè)定出該堿基的種類。2022/9/10BIOINFORMATICS55如果芯片僅用于檢測(cè)基因表達(dá),只需設(shè)計(jì)出針對(duì)基因中

30、的特定區(qū)域的幾套寡核苷酸即可,表達(dá)檢測(cè)需要長(zhǎng)的雜交時(shí)間,較低的嚴(yán)謹(jǐn)性,更高的樣品濃度和低溫度,這有利于增加檢測(cè)的特異性和低拷貝基因檢測(cè)的靈敏度。突變檢測(cè),要鑒別出單堿基錯(cuò)配,需要更高的雜交嚴(yán)謹(jǐn)性和更短的時(shí)間。 2022/9/10BIOINFORMATICS56 此外,雜交反應(yīng)還必須考慮雜交反應(yīng)體系中鹽濃度、探針GC含量和所帶電荷、探針與芯片之間連接臂的長(zhǎng)度及種類、檢測(cè)基因的二級(jí)結(jié)構(gòu)的影響。有資料顯示探針和芯片之間適當(dāng)長(zhǎng)度的連接臂可以使雜交效率提高150倍。連接臂上的正或負(fù)電荷都將減少雜交效率。由于探針和檢測(cè)基因均帶負(fù)電荷,因此影響它們之間的雜交結(jié)合,為此有人提出用不帶電荷的肽核酸(PNA)做探

31、針。2022/9/10BIOINFORMATICS57雖然PNA的制備比較復(fù)雜,但與DNA探針比較有許多特點(diǎn),如不需要鹽離子,因此可防止檢測(cè)基因二級(jí)結(jié)構(gòu)的形成及自身復(fù)性。由于PNADNA結(jié)合更加穩(wěn)定和特異,因此更有利于單堿基錯(cuò)配基因的檢測(cè)。2022/9/10BIOINFORMATICS58顯色和分析測(cè)定方法主要為熒光法,其重復(fù)性較好,不足的是靈敏度仍較低。目前正在發(fā)展的方法還有質(zhì)譜法、化學(xué)發(fā)光法、光導(dǎo)纖維法等。以熒光法為例,當(dāng)前主要的檢測(cè)手段是激光共聚焦顯微掃描技術(shù),以便于對(duì)高密度探針陣列每個(gè)位點(diǎn)的熒光強(qiáng)度進(jìn)行定量分析。2022/9/10BIOINFORMATICS59 因?yàn)樘结樑c樣品完全正常

32、配對(duì)時(shí)所產(chǎn)生的熒光信號(hào)強(qiáng)度是具有單個(gè)或兩個(gè)錯(cuò)配堿基探針的535倍,所以對(duì)熒光信號(hào)強(qiáng)度精確測(cè)定是實(shí)現(xiàn)檢測(cè)特異性的基礎(chǔ)。但熒光法存在的問(wèn)題是,只要標(biāo)記的樣品結(jié)合到探針陣列上后就會(huì)發(fā)出陽(yáng)性信號(hào),這種結(jié)合是否為正常配對(duì),或正常配對(duì)與錯(cuò)配兼而有之,該方法本身并不能提供足夠的信息進(jìn)行分辨。2022/9/10BIOINFORMATICS60 通常檢測(cè)芯片上的雜交信號(hào)需要高靈敏度的檢測(cè)系統(tǒng)閱讀儀(scanner or reader)。閱讀儀的成像原理分為激光共焦掃描和CCD成像兩種。激光共焦掃描與CCD相比,分辨率和靈敏度較高,但是掃描速度較慢且價(jià)格昂貴。經(jīng)熒光樣品雜交后的芯片,熒光信號(hào)可以經(jīng)過(guò)熒光顯微鏡、激

33、光共聚焦顯微鏡或激光掃描儀進(jìn)行信號(hào)的收集,收集后的信號(hào)經(jīng)過(guò)計(jì)算機(jī)處理,并與探針陣列位點(diǎn)進(jìn)行比較,可得出雜交的檢測(cè)結(jié)果。2022/9/10BIOINFORMATICS61 4檢測(cè)結(jié)果分析 基因芯片檢測(cè)結(jié)果的分析主要包括三個(gè)方面: 1)熒光檢測(cè)圖像分析。基因芯片與熒光樣品雜交后,用圖像掃描儀器捕獲芯片上的熒光圖像。許多基因芯片研究機(jī)構(gòu)已開(kāi)發(fā)出一些基因芯片圖像處理軟件,例如 Gene Pix、ImageGene、BioDiscovery、ScanAlyze等。 2022/9/10BIOINFORMATICS62 基因芯片圖像處理最基本的目標(biāo)是確定每個(gè)芯片單元的熒光強(qiáng)度或熒光強(qiáng)度對(duì)比值(多色熒光標(biāo)記的

34、情況下)。目標(biāo)看上去雖然簡(jiǎn)單,但是目前還沒(méi)有通用的處理方法。掃描和處理基因芯片圖像仍需要人工干預(yù),以對(duì)齊網(wǎng)格線,保證正確標(biāo)定每個(gè)芯片單元的位置,同時(shí)還要能夠去除圖像上的污點(diǎn)以及其他形式的圖像噪聲。2022/9/10BIOINFORMATICS632)檢測(cè)結(jié)果分析。如果芯片檢測(cè)的目的是測(cè)定序列,則要根據(jù)芯片上每個(gè)探針的雜交結(jié)果判斷樣本中是否含有對(duì)應(yīng)的互補(bǔ)序列,并利用生物信息學(xué)中的片段組裝算法連接各個(gè)片段,形成更長(zhǎng)的目標(biāo)序列;如果檢測(cè)的目的是進(jìn)行序列變異的分析,則要根據(jù)正確匹配探針以及錯(cuò)配探針(錯(cuò)配探針是指探針中有一個(gè)或幾個(gè)與靶基因核苷酸序列不同的探針)在基因芯片對(duì)應(yīng)位置上的熒光強(qiáng)度,給出序列變化

35、的位點(diǎn),并指明發(fā)生什么變化;2022/9/10BIOINFORMATICS64 如果芯片檢測(cè)的目的是進(jìn)行基因表達(dá)分析,則需要給出芯片上各個(gè)基因的表達(dá)譜,定量描述基因的表達(dá)水平,進(jìn)一步分析還包括基因表達(dá)模式進(jìn)行聚類,尋找基因之間的相關(guān)性,發(fā)現(xiàn)協(xié)同工作的基因。2022/9/10BIOINFORMATICS65 3)檢測(cè)結(jié)果可靠性分析?;蛐酒且粋€(gè)非常復(fù)雜的系統(tǒng),包括許多環(huán)節(jié),由于目前技術(shù)上的限制,在基因芯片制備、雜交及檢測(cè)等方面都可能出現(xiàn)誤差,芯片檢測(cè)結(jié)果并非100可靠。2022/9/10BIOINFORMATICS66因此,必須對(duì)芯片檢測(cè)結(jié)果作出可靠性的評(píng)價(jià)??煽啃苑治鲋饕獜膬蓚€(gè)方面進(jìn)行:一是

36、根據(jù)實(shí)驗(yàn)統(tǒng)計(jì)誤差(如探針合成的錯(cuò)誤率、全匹配探針與錯(cuò)誤探針的誤識(shí)率等),計(jì)算出基因芯片最終結(jié)果的可靠性;二是對(duì)基因芯片與樣品序列雜交過(guò)程進(jìn)行分子動(dòng)力學(xué)研究,建立芯片雜交過(guò)程的計(jì)算機(jī)仿真實(shí)驗(yàn)?zāi)P?,以便在制作芯片之前分析所設(shè)計(jì)芯片的性能,預(yù)測(cè)芯片實(shí)驗(yàn)結(jié)果的可靠性。2022/9/10BIOINFORMATICS677.4 生物芯片的應(yīng)用生物芯片技術(shù)是20世紀(jì)90年代中期以來(lái)影響最深遠(yuǎn)的重大科技進(jìn)展之一,它是集微電子學(xué)、生物學(xué)、物理學(xué)、化學(xué)、計(jì)算機(jī)科學(xué)為一體高度交叉的高薪技術(shù),具有重大的基礎(chǔ)研究?jī)r(jià)值,又具有明顯的產(chǎn)業(yè)化前景。由于使用該技術(shù)可以將大量的探針同時(shí)固定于支持物上,所以可以對(duì)大量生物分子進(jìn)行檢

37、測(cè)分析,從而解決了傳統(tǒng)核酸印跡雜交技術(shù)復(fù)雜、自動(dòng)化程度低、檢測(cè)目的分子數(shù)量少、低通量等不足。2022/9/10BIOINFORMATICS68 使用該技術(shù)有多種不同的應(yīng)用價(jià)值,如測(cè)序、基因表達(dá)譜測(cè)定、基因診斷、藥物篩選等。為后基因組計(jì)劃時(shí)代基因功能的研究及現(xiàn)代醫(yī)學(xué)科學(xué)及醫(yī)學(xué)診斷學(xué)的發(fā)展提供了強(qiáng)有力的工具,將會(huì)使新基因的發(fā)現(xiàn)、基因診斷、藥物篩選、給藥個(gè)性化等方面取得重大突破,為人類社會(huì)帶來(lái)巨大變革。2022/9/10BIOINFORMATICS697.4.1 測(cè)序 采用生物芯片測(cè)序方法有芯片毛細(xì)血管電泳測(cè)序和寡核苷酸微陣列雜交測(cè)序兩種。1999年,加利福尼亞大學(xué)伯克利分校Mathies小組首先報(bào)

38、道芯片毛細(xì)血管電泳測(cè)序結(jié)果。他們?cè)?0分鐘內(nèi)完成了對(duì)433個(gè)堿基對(duì)序列的測(cè)定工作。2022/9/10BIOINFORMATICS70 用芯片測(cè)序的另一種方法是寡核苷酸微陣列測(cè)序法,又稱雜交測(cè)序法(Sequencing by hybridization,SBH)。所謂SBH,就是利用固定探針與樣品進(jìn)行分子雜交產(chǎn)生的雜交圖譜從而排列出待測(cè)DNA的序列順序。2022/9/10BIOINFORMATICS71 SBH的原理可以通過(guò)下面的例子來(lái)說(shuō)明,設(shè)有DNA片段AGCCTAGCTGAA,探針為所有的8核苷酸(48=65536種)。將待測(cè)DNA和探針按一定比例在適宜溫度下混合雜交,完全匹配的序列有5種,

39、TCGGATCG,CGGATCGA, GGATCGAC,GATCGACT和ATCGACTT。這些探針只相差一個(gè)核苷酸,由它們可得到待測(cè)DNA的互補(bǔ)序列為TCGGATCGACTT,待測(cè)DNA序列為AGCCTAGCTGAA。2022/9/10BIOINFORMATICS72 最初SBH法是在液相中進(jìn)行的,因此雜交信號(hào)的讀取非常困難,而且限制了序列分析的速度。采用DNA探針陣列方法有較大優(yōu)越性。把一組寡核苷酸探針有序地排列在硅、玻璃等基片表面,組成一二維陣列。在這一陣列中,每一探針都有確定的坐標(biāo)位置,只要確定了位置就確定了探針,探針與待測(cè)DNA雜交,沖洗去非特異性DNA,檢測(cè)在哪些位點(diǎn)上有雜交信號(hào)。

40、2022/9/10BIOINFORMATICS73 再通過(guò)一定的計(jì)算就可以得到待測(cè)DNA的序列。Mark Chee等用含135000個(gè)寡核苷酸探針的高密度微陣列分析了黑猩猩和人BRCA1基因序列差異,結(jié)果發(fā)現(xiàn)在外顯子11約3.4kb長(zhǎng)度范圍內(nèi)的核酸序列同源性在98.2%到83.5%之間,揭示了二者有高度相似性。2022/9/10BIOINFORMATICS74目前SBH還存在若干問(wèn)題,有待進(jìn)一步改進(jìn)。比如,由于眾多寡核苷酸組成各不相同,很難找到最佳雜交條件。錯(cuò)配問(wèn)題,特別是G-T和G-A,難于檢測(cè)。SBH不適合于重復(fù)序列和簡(jiǎn)單序列單元DNA的測(cè)序等。2022/9/10BIOINFORMATIC

41、S757.4.2 基因表達(dá)分析由于DNA芯片技術(shù)可直接檢測(cè)mRNA的種類及豐度,因而成為研究基因表達(dá)的有力工具。檢測(cè)基因差異表達(dá)的操作流程見(jiàn)圖8-1。2022/9/10BIOINFORMATICS76 cDNA微陣列是在1995年由斯坦福大學(xué)率先研制成功并應(yīng)用于基因表達(dá)分析的。首先將細(xì)胞內(nèi)的mRNA逆轉(zhuǎn)錄成cDNA并分離,然后將分離得到的所有或部分cDNA(其長(zhǎng)度通常大于200bp)作為探針,用機(jī)器手按照陣列的形式點(diǎn)到玻璃片上。玻璃片上的每一個(gè)點(diǎn)只包含一種cDNA分子,這樣就制成了cDNA微陣列。2022/9/10BIOINFORMATICS77 一般,探針的序列是已知的。在使用cDNA微陣列

42、時(shí),首先提取組織或細(xì)胞系中的mRNA樣本,逆轉(zhuǎn)錄成cDNA并用熒光素標(biāo)記;然后把標(biāo)記混合物加到cDNA微陣列上,與探針雜交,雜交過(guò)程完成后,清洗微陣列;最后用激光掃描儀掃描并獲取熒光圖像,對(duì)圖像進(jìn)行分析,得到cDNA芯片上每一個(gè)點(diǎn)的熒光強(qiáng)度值。熒光強(qiáng)度值定量地反映了樣本中存在的與探針互補(bǔ)的mRNA豐度,也就是反映了探針?biāo)鶎?duì)應(yīng)基因的表達(dá)水平。2022/9/10BIOINFORMATICS787.4.3 基因診斷基因芯片目前最主要的應(yīng)用之一就是疾病診斷。從正常人的細(xì)胞中分離出mRNA后與DNA芯片雜交就可以得出標(biāo)準(zhǔn)圖譜。從病人的細(xì)胞中分離出mRNA后與DNA芯片雜交就可以得出病變圖譜。通過(guò)分析比較

43、這兩種圖譜,就可以得出病變的mRNA表達(dá)的信息,即DNA突變發(fā)生在何部位,屬于什么樣的序列突變。2022/9/10BIOINFORMATICS79文獻(xiàn)報(bào)道了DNA芯片用于檢測(cè)遺傳性乳腺和卵巢癌基因BRCAl第11個(gè)外顯子的突變。檢測(cè)了15例病人樣品,發(fā)現(xiàn)其中14例有基因突變。在20個(gè)對(duì)照樣品中沒(méi)有假陽(yáng)性結(jié)果出現(xiàn)。研究者所用高密度DNA芯片包含96600種20mer寡核苷酸探針。探針以綠色熒光標(biāo)記,目的基因轉(zhuǎn)錄產(chǎn)物即靶分子標(biāo)記紅色熒光,完全雜交的分子產(chǎn)生黃色熒光信號(hào)。2022/9/10BIOINFORMATICS80 結(jié)果顯示攜帶BRCAl突變基因的雜合子來(lái)源的靶分子能與兩種探針雜交,說(shuō)明雜合子

44、中包含了野生型及突變型兩種基因。Affymetrix公司把P53基因全長(zhǎng)序列和已知突變的探針集成在芯片上,制成P53基因芯片,將在癌癥早期診斷中發(fā)揮作用。2022/9/10BIOINFORMATICS81 又如,Heller等構(gòu)建了96個(gè)基因的cDNA微陣列,用于檢測(cè)分析風(fēng)濕性關(guān)節(jié)炎(RA)相關(guān)基因,以探討DNA芯片在感染性疾病診斷方面的應(yīng)用。目前,多種診斷芯片包括結(jié)核桿菌耐藥性檢測(cè)芯片、肝炎病毒檢測(cè)芯片已逐步進(jìn)入市場(chǎng),基因診斷是基因芯片中最具有商業(yè)化價(jià)值的應(yīng)用。2022/9/10BIOINFORMATICS827.4.4 藥物篩選 如何分離和鑒定藥的有效成分是目前中藥產(chǎn)業(yè)和傳統(tǒng)的西藥開(kāi)發(fā)遇到

45、的重大問(wèn)題,基因芯片是解決這一問(wèn)題的有效手段,它能夠大規(guī)模地篩選、通用性強(qiáng),能夠從基因水平解釋藥物的作用機(jī)理,即可以利用基因芯片分析用藥前后機(jī)體的不同組織、器官基因表達(dá)的差異。如果再以cDNA表達(dá)文庫(kù)得到的肽庫(kù)來(lái)制作肽芯片,則可以從眾多的藥物成分中篩選到起作用的部分物質(zhì)。2022/9/10BIOINFORMATICS83 利用RNA、單鏈DNA有很大的柔性,能形成復(fù)雜的空間結(jié)構(gòu),更有利于與靶分子相結(jié)合的特點(diǎn),可將核酸庫(kù)中的RNA或單鏈DNA固定在芯片上,然后與靶蛋白結(jié)合,形成蛋白質(zhì)-RNA或蛋白質(zhì)-DNA復(fù)合物,可以篩選特異的藥物蛋白或核酸,因此,芯片技術(shù)和RNA庫(kù)的結(jié)合在藥物篩選中有廣泛應(yīng)用

46、。2022/9/10BIOINFORMATICS847.5 數(shù)據(jù)處理和分析7.5.1 數(shù)據(jù)處理7.5.1.1丟失數(shù)據(jù)和極端值的處理 丟失數(shù)據(jù)(missing data)和極端值(outlier)是微陣列實(shí)驗(yàn)中數(shù)據(jù)質(zhì)量控制(quality control )的兩個(gè)基本問(wèn)題。數(shù)據(jù)丟失的原因很多,包括分辨率不夠、圖像失敗或只是由于芯片上的灰塵或劃痕所引起。數(shù)據(jù)丟失還可能由于自動(dòng)化方法中的系統(tǒng)誤差產(chǎn)生。多數(shù)情況下,丟失的數(shù)據(jù)是這些不同原因相混合,不存在哪種占主要的問(wèn)題。2022/9/10BIOINFORMATICS85 cDNA微陣列中數(shù)據(jù)丟失的含義是由于空點(diǎn)(empty spot),其熒光強(qiáng)度為零,

47、或者由于其背景強(qiáng)度高于樣品點(diǎn)。 Affymetrix微陣列丟失數(shù)據(jù)是指原始數(shù)據(jù)中錯(cuò)配值(MM)高于全配值(PM)。這些可疑資料通常是經(jīng)過(guò)手工方法剔除,不用做分析。但在某些情況下,剔除丟失數(shù)據(jù)可能給數(shù)據(jù)分析帶來(lái)困難,并引起重要信息的缺失。2022/9/10BIOINFORMATICS86 因此,最好將丟失數(shù)據(jù)進(jìn)行替換。最簡(jiǎn)單的數(shù)據(jù)替換方法是根據(jù)同一芯片上其他點(diǎn)的情況進(jìn)行統(tǒng)計(jì)分析而得到一個(gè)預(yù)計(jì)值。對(duì)于雙色cDNA微陣列,如果某個(gè)基因有重復(fù)點(diǎn),這些點(diǎn)的平均值可用來(lái)代替丟失數(shù)據(jù)。如果沒(méi)有重復(fù)點(diǎn),可用統(tǒng)計(jì)方法預(yù)測(cè)丟失數(shù)據(jù)(如EM算法)。一種簡(jiǎn)易方法是計(jì)算該樣品點(diǎn)用不同染料標(biāo)記時(shí)在整個(gè)芯片強(qiáng)度的分布位置,

48、并以此為參照,推算出相應(yīng)位置上的丟失值而加以替換。2022/9/10BIOINFORMATICS87 極端數(shù)據(jù)是指那些偏離群體的數(shù)據(jù)。微陣列實(shí)驗(yàn)中,極端值的出現(xiàn)和消除可在不同水平。極端值可在一塊芯片上出現(xiàn),但重復(fù)片子上不出現(xiàn);也可以是同一片子上某個(gè)基因的重復(fù)點(diǎn),而不管這些重復(fù)點(diǎn)鄰近與否;還可以是同一片子上任意點(diǎn)所產(chǎn)生的偏離。2022/9/10BIOINFORMATICS88現(xiàn)有微陣列技術(shù)中,多種因素可導(dǎo)致不同芯片間的變異性。已有不同方法減少這些芯片間的變異和系統(tǒng)誤差(如下文將要敘述的正態(tài)化)。同一類型的芯片中,那些變異性大的片子應(yīng)當(dāng)去除,這種片子又稱極端片子(outlier slide)。片間

49、變異可能由于點(diǎn)樣濃度和體積、加到芯片上的標(biāo)記靶分子數(shù)目、雜交條件和其他因素等所引起。最簡(jiǎn)單的去除極端片子的方法是靠視覺(jué)觀察圖像。一種簡(jiǎn)單而有效的消除方法是通過(guò)提高實(shí)驗(yàn)自動(dòng)化程度而消除。2022/9/10BIOINFORMATICS89另一種去除極端片子的方法是如前面實(shí)驗(yàn)設(shè)計(jì)中討論的那樣,進(jìn)行重復(fù)性實(shí)驗(yàn),并用統(tǒng)計(jì)方法評(píng)估片間變異。重復(fù)片子上對(duì)應(yīng)的基因可得到相關(guān)系數(shù)。這種方法中,至少需要3次重復(fù)才能評(píng)估芯片質(zhì)量和剔除極端片子。所用的方法是計(jì)算兩兩配對(duì)(pairwise)相關(guān)系數(shù)。這時(shí),需要設(shè)置一個(gè)相關(guān)系數(shù)界值,依實(shí)驗(yàn)設(shè)計(jì)而定,但通常必須大于0.9。通過(guò)兩兩配對(duì),分別得到各相關(guān)系數(shù)值。2022/9/

50、10BIOINFORMATICS90 通常情況下,相關(guān)系數(shù)都比較高且差別不大。如果兩個(gè)相關(guān)系數(shù)值遠(yuǎn)遠(yuǎn)低于另外一個(gè),常表明存在極端片子。如果所有相關(guān)系數(shù)都很低,表示微陣列的質(zhì)量差,這不是極端值的范疇,而需要重新設(shè)計(jì)和制作芯片。2022/9/10BIOINFORMATICS91 同一芯片上也可出現(xiàn)極端值。在缺乏重復(fù)點(diǎn)的情況下,最高和最低的數(shù)值通常被當(dāng)做極端值處理而加以剔除。閾值的設(shè)置可以根據(jù)百分位值(如最低數(shù)值點(diǎn)或最高數(shù)值點(diǎn)的0.5)或那些偏離整個(gè)片子的分布中一定數(shù)量的標(biāo)準(zhǔn)差范圍(如3)。剩余的資料重新計(jì)算均數(shù)和標(biāo)準(zhǔn)差。2022/9/10BIOINFORMATICS92 這個(gè)過(guò)程不斷重復(fù),直到?jīng)]有

51、發(fā)現(xiàn)極端值為止。這種方法主要根據(jù)統(tǒng)計(jì)學(xué)原理,有一定的局限性。從生物學(xué)角度來(lái)看,某些基因的表達(dá)可能極高或極低,而且意義很大,特別是那些高表達(dá)的基因。在有重復(fù)點(diǎn)的情況下,極端值的挑選主要根據(jù)重復(fù)性的相似情況。如果某個(gè)重復(fù)點(diǎn)偏離該基因所有重復(fù)點(diǎn)平均數(shù)幾個(gè)標(biāo)準(zhǔn)差范圍,這個(gè)點(diǎn)即被當(dāng)做極端值,需要去除或替換。2022/9/10BIOINFORMATICS937.5.1.2數(shù)據(jù)的正態(tài)性和線性檢查正態(tài)性(normality)是指所分析數(shù)據(jù)是否符合正態(tài)分布,而線性(linearity)是指兩組樣品的散點(diǎn)圖中,其數(shù)據(jù)相關(guān)性呈線性。在數(shù)據(jù)分析前后都必須檢查數(shù)據(jù)的正態(tài)性和線性,這是由于微陣列數(shù)據(jù)分析所用統(tǒng)計(jì)方法中基本

52、都假定數(shù)據(jù)呈正態(tài)分布。如果數(shù)據(jù)不呈正態(tài)分布,而是向一側(cè)偏移,這些統(tǒng)計(jì)方法所得結(jié)果將不可靠,除非選用不依賴正態(tài)分布的非參數(shù)統(tǒng)計(jì)方法。微陣列數(shù)據(jù)通常向右歪斜,這是因?yàn)樵S多基因表現(xiàn)為中度或低度表達(dá)。2022/9/10BIOINFORMATICS94數(shù)據(jù)的線性檢查有助于正態(tài)化方法的選用。線性相關(guān)資料可用整體正態(tài)化方法,非線性相關(guān)資料則采用局部正態(tài)化方法。同時(shí),線性檢查也可提供數(shù)據(jù)可靠性的信息。檢查線性最簡(jiǎn)單的方法是作散點(diǎn)圖(scatter plot)。如果數(shù)據(jù)呈線性,點(diǎn)的分布應(yīng)符合直線性。2022/9/10BIOINFORMATICS957.5.2數(shù)據(jù)分析 微陣列合適的數(shù)據(jù)分析方法取決于實(shí)驗(yàn)設(shè)計(jì)和研究

53、目的。微陣列通常用于發(fā)現(xiàn)基因、闡明代謝途徑和進(jìn)行分子分類。要回答這些問(wèn)題,需要綜合考慮多個(gè)方面。實(shí)驗(yàn)條件可以有多種,如不同時(shí)相觀察。這些條件可以相對(duì)獨(dú)立,也可有某種聯(lián)系,甚至是多種實(shí)驗(yàn)變量的組合。為了反映這些多樣性,已有一些常用的方法用做鑒定這些變化的顯著性或基因表達(dá)模式的識(shí)別。2022/9/10BIOINFORMATICS96 這主要包括監(jiān)測(cè)兩個(gè)或多個(gè)樣品基因表達(dá)水平比值的表達(dá)差異性(differential expression),減少維數(shù)并進(jìn)行歸類的主成分分析(principle component analysis),以及用做類型發(fā)現(xiàn)(class discovery)和類型預(yù)測(cè)(cla

54、ss prediction)的聚類分析(clustering)和分類分析( classification)。以下將主要介紹目前常用的差異表達(dá)分析和聚類分析。2022/9/10BIOINFORMATICS977.5.2.1 差異表達(dá)分析 用于檢測(cè)基因表達(dá)水平的DNA微陣列實(shí)驗(yàn)的應(yīng)用之一是比較實(shí)驗(yàn),其目的是比較兩個(gè)條件下的基因表達(dá)差異,從中識(shí)別出與條件相關(guān)的特異性基因。何謂顯著表達(dá)差異?它通常是指一個(gè)基因在兩個(gè)條件中表達(dá)水平的檢測(cè)值在排除實(shí)驗(yàn)、檢測(cè)等因素外,達(dá)到一定的差異,具有統(tǒng)計(jì)學(xué)意義,同時(shí)也具有生物學(xué)意義。例如,與正常組織相比,腫瘤組織中相對(duì)高表達(dá)的基因。2022/9/10BIOINFORMA

55、TICS98 微陣列技術(shù)的早期應(yīng)用中(目前還在應(yīng)用),研究差異表達(dá)基因的方法是將相同組織來(lái)源的兩種樣品(如癌癥和正常)經(jīng)不同標(biāo)記,混合后與同一芯片雜交。篩選的標(biāo)準(zhǔn)通常定義為1.8-2.0倍。其比值超過(guò)這個(gè)界值時(shí)被認(rèn)為是差異表達(dá)。如果使用重復(fù)點(diǎn),出現(xiàn)一個(gè)以上的重復(fù)點(diǎn)的表達(dá)比值超過(guò)閾值,這個(gè)基因可被認(rèn)為是差異表達(dá)基因。2022/9/10BIOINFORMATICS99常用的分析方法有3類,第一類稱之為倍數(shù)分析,計(jì)算每一個(gè)基因在兩個(gè)條件下的Ratio值,若大于給定閾值,則為表達(dá)差異顯著的基因;第二類方法采用統(tǒng)計(jì)分析中的t檢驗(yàn)和方差分析,計(jì)算表達(dá)差異的置信度,來(lái)分析差異是否具有統(tǒng)計(jì)顯著性;第三類是建模

56、的方法,通過(guò)確定兩個(gè)條件下的模型參數(shù)是否相同來(lái)判斷表達(dá)差異的顯著性,例如貝葉斯方法。2022/9/10BIOINFORMATICS100倍數(shù)變化分析方法具有明顯的局限性,這是因?yàn)槿狈虮磉_(dá)變化數(shù)據(jù)的可靠性和界值的選擇標(biāo)準(zhǔn)。從生物學(xué)角度看,基因表達(dá)變化的程度并不一定表示會(huì)產(chǎn)生生物學(xué)后果。而兩種不同組織或狀態(tài)下,一種僅表現(xiàn)為20變化量的基因可能較同樣組織中變化量超過(guò)2倍或更高倍數(shù)的基因更具生物學(xué)意義。例如,信號(hào)傳導(dǎo)途徑中,任何細(xì)小的基因表達(dá)量的變化可產(chǎn)生明顯的生物學(xué)結(jié)果。2022/9/10BIOINFORMATICS101即使通過(guò)統(tǒng)計(jì)分析得到的差異表達(dá)基因,也會(huì)出現(xiàn)同樣的爭(zhēng)議。另外,低表達(dá)基因的

57、熒光強(qiáng)度更易受到其他因素如背景噪音的影響,因此低豐度基因所受影響較高豐度基因大,需要一個(gè)更大的界值才能篩選出受調(diào)節(jié)的基因。2022/9/10BIOINFORMATICS102篩選差異表達(dá)基因更可靠的方法是利用統(tǒng)計(jì)學(xué)原理,特別是有重復(fù)芯片或基因點(diǎn)時(shí)。僅有為數(shù)不多的統(tǒng)計(jì)處理方法可用來(lái)進(jìn)行微陣列的數(shù)據(jù)分析。差異表達(dá)基因的統(tǒng)計(jì)檢驗(yàn)方法通常是比較兩組或多組均數(shù)的差異。如果僅有兩組,可用t檢驗(yàn);兩組以上則常用方差分析(ANOVA),兩者的假設(shè)都必須符合正態(tài)分布。2022/9/10BIOINFORMATICS103差異表達(dá)統(tǒng)計(jì)分析時(shí),需要決定選用單側(cè)檢驗(yàn)還是雙側(cè)檢驗(yàn)。通常分3種情形: 研究組(如腫瘤)較對(duì)照

58、組表達(dá)高; 研究組較對(duì)照組表達(dá)低; 研究組和對(duì)照組的表達(dá)可高可低。前兩種情況選擇單側(cè)檢驗(yàn),最后一種情況選擇雙側(cè)檢驗(yàn)。另一需要考慮的問(wèn)題是界值( I類錯(cuò)誤)的設(shè)定,通常選擇0.05。由于微陣列上有成千上萬(wàn)個(gè)基因,盡管I類錯(cuò)誤的比例較小,但假陽(yáng)性的基因數(shù)目不可低估。2022/9/10BIOINFORMATICS104如10000個(gè)基因的芯片,將有500個(gè)基因的表達(dá) 為假陽(yáng)性結(jié)果。這種錯(cuò)誤率顯然與樣品大小有關(guān)?;谶@種分析,很難避免實(shí)驗(yàn)水平上的誤差,這可以根據(jù)下面的計(jì)算進(jìn)一步說(shuō)明問(wèn)題。2022/9/10BIOINFORMATICS105如果選擇顯著性水平為0.05,每個(gè)基因不出錯(cuò)的概率為: Pgen

59、e(正確)1-P1-0.050.95 因此,如果觀察500個(gè)基因,實(shí)驗(yàn)水平上不出錯(cuò)的概率為: Pexp(正確)(1-P)500(1-0.05)500 0.955007.275E-12 這樣,實(shí)驗(yàn)水平引起錯(cuò)誤的概率是: Pexp(錯(cuò)誤)1-(1-P)5001-7.275E-12 12022/9/10BIOINFORMATICS106就是說(shuō),含500個(gè)基因的微陣列將不可避免地出現(xiàn)錯(cuò)誤,更不用說(shuō)含有上千或上萬(wàn)個(gè)基因的情況。因此,多重比較時(shí)常需要進(jìn)行校正,以降低總的實(shí)驗(yàn)水平的I類錯(cuò)誤的概率,即在基因水平發(fā)生至少一個(gè)錯(cuò)誤的概率。校正方法中常用的有Sdk校正法、Bonferroni校正法,以及假發(fā)現(xiàn)率控制

60、法(false discovery rate controlling )和置換校正法(permutation correction)。 2022/9/10BIOINFORMATICS1077.5.2.2 主成分分析(PCA)數(shù)據(jù)集中,一些數(shù)據(jù)并不能增加有用的信息量,而只是混淆數(shù)據(jù),這時(shí)需要減少數(shù)據(jù)的維數(shù)(dimension)。微陣列的數(shù)據(jù)集通常非常大,含有上萬(wàn)個(gè)基因,以及很多次不同實(shí)驗(yàn)的結(jié)果。每個(gè)基因以及每個(gè)實(shí)驗(yàn)就可當(dāng)做一維。減少維數(shù)的方法有多種,主成分分析(PCA )是最常用的一種。2022/9/10BIOINFORMATICS108計(jì)算主成分的目的是將高維數(shù)據(jù)投影到較低維空間。給定n個(gè)變量

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論