生物信息學(xué)表達(dá)譜流程簡(jiǎn)介課件_第1頁(yè)
生物信息學(xué)表達(dá)譜流程簡(jiǎn)介課件_第2頁(yè)
生物信息學(xué)表達(dá)譜流程簡(jiǎn)介課件_第3頁(yè)
生物信息學(xué)表達(dá)譜流程簡(jiǎn)介課件_第4頁(yè)
生物信息學(xué)表達(dá)譜流程簡(jiǎn)介課件_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、表達(dá)譜流程簡(jiǎn)介科學(xué)特種兵團(tuán)RNA線韓祖晶數(shù)字基因表達(dá)譜(Digital Gene Expression Profile,DGEP) DGEPDGEDGEII主要流程主推流程實(shí)驗(yàn)流程和原理信息分析流程 DGE 1、DGE實(shí)驗(yàn)流程和實(shí)驗(yàn)原理: 如右圖,展示的是DGE 的實(shí)驗(yàn)流程。從總的RNA 樣品到mRNA的提取再到 cDNA的合成再到Tag的 制備最后到上機(jī)測(cè)序和數(shù)據(jù)產(chǎn)出。 DGE如右圖,展示的是DGE的實(shí)驗(yàn)原理。利用OligodT的beads富集總RNA中mRNA,并逆轉(zhuǎn)錄為雙鏈cDNA,采用4堿基識(shí)別酶NlaIII酶切雙鏈cDNA,鏈接Illumin

2、a adapter1,利用MmeI酶切3端CATG下游17bp堿基,并在3端鏈接Illumina adapter2。再加入Primer GX1和Primer GX2進(jìn)行PCR擴(kuò)增。擴(kuò)增后樣本通過(guò)6% TBE PAGE膠回收85堿基條帶,純化后通過(guò)Illumina基因表達(dá)測(cè)序。 DGE2、DGE信息分析流程: DGE2.1、去除雜質(zhì)數(shù)據(jù) 原始序列帶有一段3adaptor序列,并且含有少量低質(zhì)量序列以及各種雜質(zhì)成分。經(jīng)過(guò)一系列數(shù)據(jù)處理,得到Clean Tag。 數(shù)據(jù)處理的步驟: 去除3adaptor序列:原始read帶有一段3adaptor序列, 首先要去除每個(gè)read的3adaptor序列; 去

3、除空載reads(只含3adaptor而不含Tag序列的reads); 去除低質(zhì)量Tag(含有未知堿基N的tag); 去除長(zhǎng)度過(guò)小過(guò)大的Tag,保留長(zhǎng)度為21nt的Tag; 獲得Clean Tag。2.2、Clean Tag 拷貝數(shù)分布統(tǒng)計(jì)不均一性是細(xì)胞mRNA表達(dá)的顯著特征,少量種類mRNA表達(dá)豐度極高,而大部分種類mRNA表達(dá)水平很低甚至極低。Clean Tags數(shù)據(jù)中,Tags的拷貝數(shù)反映了相應(yīng)基因的表達(dá)量,其分布統(tǒng)計(jì)可以從整體上評(píng)估數(shù)據(jù)是否正常。DGE DGE2.3、測(cè)序飽和度分析飽和度分析檢驗(yàn)隨著測(cè)序量(標(biāo)簽數(shù)量,Total Tag Number)的增加,檢測(cè)到的基因是否隨之上升。2

4、.4、實(shí)驗(yàn)重復(fù)性分析 對(duì)兩次平行實(shí)驗(yàn)的結(jié)果相關(guān)性分析可獲得對(duì)實(shí)驗(yàn)結(jié)果可靠性和操作穩(wěn)定性的評(píng)估。DGE DGE2.5、基因表達(dá)注釋 首先,我們根據(jù)合作伙伴提供的參考基因數(shù)據(jù)庫(kù)(注:對(duì)于沒(méi)有參考基因數(shù)據(jù)庫(kù)的物種,可以在同屬種中進(jìn)行同源比對(duì),但結(jié)果僅供參考。),利用軟件檢索mRNA上所有的 CATG位點(diǎn),生成CATG17nt堿基的參考標(biāo)簽數(shù)據(jù)庫(kù)。然后將全部Clean Tag與參考標(biāo)簽數(shù)據(jù)庫(kù)比對(duì),允許最多一個(gè)堿基錯(cuò)配,對(duì)其中唯一比對(duì)到一個(gè)基因的標(biāo)簽(Unambiguous Tags)進(jìn)行基因注釋,統(tǒng)計(jì)每個(gè)基因?qū)?yīng)的原始Clean Tag數(shù),然后對(duì)原始Clean Tag數(shù)做標(biāo)準(zhǔn)化處理,獲得標(biāo)準(zhǔn)化的基因表

5、達(dá)量,從而更準(zhǔn)確、科學(xué)地衡量基因的表達(dá)水平。標(biāo)準(zhǔn)化方法為:每個(gè)基因包含的原始Clean Tags數(shù) / 該樣本中總clean Tags數(shù) * 1,000,000 (t Hoen, Ariyurek et al. 2019; Morrissy, Morin et al. 2009)。 DGE Clean Tag 和參考基因、線粒體、葉綠體和參考基因組的比對(duì)結(jié)果統(tǒng)計(jì) DGE 2.6、反義轉(zhuǎn)錄分析 Sense-antisense是基因表達(dá)調(diào)控的一種重要方式。如果測(cè)序標(biāo)簽?zāi)鼙葘?duì)到基因的反義鏈,則暗示該基因的反義鏈也包含轉(zhuǎn)錄本(t Hoen, Ariyurek et al. 2019),該基因可能存在s

6、ense-antisense調(diào)控方式。 2.7、新轉(zhuǎn)錄本預(yù)測(cè) 與芯片相比,應(yīng)用Solexa表達(dá)譜檢測(cè)基因表達(dá)毋須事先設(shè)計(jì)探針,因此能幫助用戶檢測(cè)出新轉(zhuǎn)錄本。我們將不能比對(duì)到參考基因和葉綠體、線粒體基因組的clean tag比對(duì)到核基因組,給出clean tag能唯一比對(duì)上的核基因組區(qū)域,研究人員結(jié)合自己研究領(lǐng)域的背景知識(shí),可判斷相關(guān)區(qū)域是否存在之前未發(fā)現(xiàn)的新轉(zhuǎn)錄本(t Hoen, Ariyurek et al. 2019)。 DGE 2.6、差異表達(dá)基因篩選 2.7、表達(dá)模式聚類分析 2.8、GO功能顯著性分析 2.9、Pathway顯著性分析以上分析同DGEII,將在后面講到。1、DGEII

7、實(shí)驗(yàn)流程和實(shí)驗(yàn)原理: 樣品提取總RNA后,對(duì)于真核生物,用帶有Oligo(dT)的磁珠富集mRNA,對(duì)于原核生物,用試劑盒去除rRNA,向得到的mRNA中加入fragmentation buffer使其片斷化成為短片段,再以片斷后的mRNA為模板,用六堿基隨機(jī)引物(random hexamers)合成cDNA一鏈,并加入緩沖液、dNTPs、RNase H和DNA polymerase I合成cDNA二鏈,經(jīng)過(guò)QiaQuick PCR試劑盒純化并加EB緩沖液洗脫經(jīng)末端修復(fù)、加polyA,加測(cè)序接頭,再經(jīng)瓊脂糖凝膠電泳回收目的大小片段,并進(jìn)行PCR擴(kuò)增,從而完成整個(gè)文庫(kù)制備工作,構(gòu)建好的文庫(kù)用Il

8、lumina HiSeqTM 2000進(jìn)行測(cè)序。DGEII DGEII2、信息分析流程: DGEII2.1、去除雜質(zhì)數(shù)據(jù)2.2、Clean Tag 拷貝數(shù)分布統(tǒng)計(jì)2.3、測(cè)序飽和度分析2.4、實(shí)驗(yàn)重復(fù)性分析基本原理同DGE,這里不再重復(fù)。 DGEII2.5、reads與參考序列的比對(duì) 我們采用短reads比對(duì)軟件SOAPaligner/soap21將clean reads分別比對(duì)到參考基因組和參考基因序列(允許兩個(gè)堿基錯(cuò)配)。 比對(duì)是后面分析的基礎(chǔ)。2.6、Reads在參考基因上的分布統(tǒng)計(jì) 在RNA-Seq實(shí)驗(yàn)過(guò)程中,首先要通過(guò)化學(xué)方法將mRNA打斷成短片段,然后上機(jī)測(cè)序。如果打斷的隨機(jī)性差,

9、測(cè)序得到的reads在基因中的分布將是不均勻的,這樣的reads做后續(xù)分析將對(duì)結(jié)果有很大的影響。我們利用reads在參考基因上的分布情況來(lái)評(píng)價(jià)打斷隨機(jī)性。由于不同參考基因有不同的長(zhǎng)度,我們把reads在參考基因上的位置標(biāo)準(zhǔn)化到相對(duì)位置(reads在基因上的位置與基因長(zhǎng)度的比值),然后統(tǒng)計(jì)基因的不同位置比對(duì)上的reads數(shù)。2.7、Reads在參考基因組上的分布分析 該部分分析是以圖示的方式給出 reads在基因組上的分布情況,以及reads所在位置上基因的分布情況。 DGEII每個(gè)點(diǎn)(共500個(gè)點(diǎn),500 windows)表示317642nt的區(qū)域,Gene Number指每個(gè)窗口中g(shù)ene的

10、個(gè)數(shù)。Coverage指每個(gè)窗口中被reads覆蓋的區(qū)域與窗口長(zhǎng)度之比。log2ReadsNumber指每個(gè)窗口的平均測(cè)序深度 DGEII2.8、基因表達(dá)量統(tǒng)計(jì) 利用唯一比對(duì)上基因的reads數(shù)目和比對(duì)上參考序列的總reads數(shù)來(lái)計(jì)算基因表達(dá)量。 基因表達(dá)量的計(jì)算使用RPKM法(Reads Per Kb per Million reads)3,其計(jì)算公式為: 設(shè)RPKM(A)為基因A的表達(dá)量,則C為唯一比對(duì)到基因A的reads數(shù),N為唯一比對(duì)到參考基因的總reads數(shù),L為基因A編碼區(qū)的堿基數(shù)。RPKM法能消除基因長(zhǎng)度和測(cè)序量差異對(duì)計(jì)算基因表達(dá)的影響,計(jì)算得到的基因表達(dá)量可直接用于比較不同樣品

11、間的基因表達(dá)差異。 如果一個(gè)基因存在多個(gè)轉(zhuǎn)錄本,則用該基因的最長(zhǎng)轉(zhuǎn)錄本計(jì)算其表達(dá)量。 DGEII2.9、差異表達(dá)基因篩選 通過(guò)比較不同樣本間的數(shù)據(jù)從而篩選出差異表達(dá)基因,后續(xù)分析中的差異基因表達(dá)模式聚類分析,Gene Ontology功能顯著性富集分析,Pathway顯著性富集分析,蛋白互作網(wǎng)絡(luò)分析均是基于差異表達(dá)基因。 參照Audic S等人發(fā)表在Genome Research上的數(shù)字化基因表達(dá)譜差異基因檢測(cè)方法(Audic and Claverie 2019)(該文獻(xiàn)已被引用超過(guò)五百次),我們開(kāi)發(fā)了嚴(yán)格的算法篩選兩樣本間的差異表達(dá)基因。 假設(shè)觀測(cè)到基因A對(duì)應(yīng)的clean tag數(shù)為x,已知

12、在一個(gè)大文庫(kù)中,每個(gè)基因的表達(dá)量只占所有基因表達(dá)量的一小部分,在這種情況下,p(x)的分布服從泊松分布: DGEII 已知,樣本一總clean tag數(shù)為N1,樣本二總clean tag數(shù)為N2,基因A在樣本一中對(duì)應(yīng)的clean數(shù)為x,在樣本二中對(duì)應(yīng)的clean數(shù)為y,則基因A在兩樣本中表達(dá)量相等的概率可由以下公式計(jì)算: DGEII 然后,我們對(duì)差異檢驗(yàn)的p value作多重假設(shè)檢驗(yàn)校正,通過(guò)控制FDR(False Discovery Rate)來(lái)決定P Value的域值。假設(shè)挑選了R個(gè)差異表達(dá)基因,其中S個(gè)是真正有差異表達(dá)的基因,另外V個(gè)是其實(shí)沒(méi)有差異表達(dá)的基因,為假陽(yáng)性結(jié)果。希望錯(cuò)誤比例Q

13、V/R平均而言不能超過(guò)某個(gè)可以容忍的值(比如1),則在統(tǒng)計(jì)時(shí)預(yù)先設(shè)定FDR不能超過(guò)0.01(Benjamini and Yekutieli 2019)。在我們的分析中,差異表達(dá)基因定義為FDR=0.01且倍數(shù)差異在2倍和2倍以上的基因。 DGEII2.10、差異基因表達(dá)模式聚類分析 主要原理:表達(dá)模式相似的基因通常具有相似的功能。我們利用cluster軟件(Eisen, Spellman, et al. 2019),以歐氏距離為距離計(jì)算方法,對(duì)差異表達(dá)基因和實(shí)驗(yàn)條件同時(shí)進(jìn)行等級(jí)聚類分析。 聚類模式圖見(jiàn)有圖,紅色表示上調(diào),綠色表示下調(diào),顏色越深表示差異倍數(shù)越大。圖中每列表示一個(gè)獨(dú)立的實(shí)驗(yàn)條件,每

14、行表示同一個(gè)基因在不同實(shí)驗(yàn)條件下的上下調(diào)情況。 DGEII2.11、GO功能顯著性分析 Gene Ontology(簡(jiǎn)稱GO)是一個(gè)國(guó)際標(biāo)準(zhǔn)化的基因功能分類體系,提供了一套動(dòng)態(tài)更新的標(biāo)準(zhǔn)詞匯表(controlled vocabulary)來(lái)全面描述生物體中基因和基因產(chǎn)物的屬性。GO總共有三個(gè)ontology,分別描述基因的分子功能(molecular function)、所處的細(xì)胞位置(cellular component)、參與的生物過(guò)程(biological process)。 該分析首先把所有差異表達(dá)基因向Gene Ontology數(shù)據(jù)庫(kù)(/)的各個(gè)ter

15、m映射,計(jì)算每個(gè)term的基因數(shù)目,然后應(yīng)用超幾何檢驗(yàn),找出與整個(gè)基因組背景相比,在差異表達(dá)基因中顯著富集的GO條目,其計(jì)算公式為: DGEIIGO功能顯著性分析結(jié)果文件: DGEII2.12、Pathway顯著性富集分析 主要原理:在生物體內(nèi),不同基因相互協(xié)調(diào)行使其生物學(xué),基于pathway的分析有助于更進(jìn)一步了解基因的生物學(xué)功能。KEGG是有關(guān)pathway的主要公共數(shù)據(jù)庫(kù)(Kanehisa, Araki, et al. 2019)。Pathway顯著性富集分析以KEGG Pathway為單位(對(duì)于非模式物種,可以同blast比對(duì)來(lái)獲得背景序列的KO號(hào)),應(yīng)用超幾何檢驗(yàn),找出與整個(gè)基因組背

16、景相比,在差異表達(dá)基因中顯著性富集的pathway(一般地,Qvalue0.05)。通過(guò)pathway顯著性富集能確定差異表達(dá)基因參與的代謝途徑。 DGEIIPathway顯著性富集分析結(jié)果: 各列的意義: DGEII DGEII2.13、蛋白質(zhì)相互作用網(wǎng)絡(luò)分析 相互作用網(wǎng)絡(luò)分析整合了BIND,BioGrid,HPRD等相互作用網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的信息,結(jié)果文件中的網(wǎng)絡(luò)由差異表達(dá)基因以及跟差異表達(dá)基因有直接相互作用的基因組成。結(jié)果文件可用Medusa軟件顯示。 作業(yè)1、原核生物能做DGE分析嗎?2、根據(jù)DGE的實(shí)驗(yàn)原理和分析流程說(shuō)明參考基因?qū)GE分析結(jié)果的影響?3、根據(jù)DGE的實(shí)驗(yàn)原理敘述DGE分析目前實(shí)際存在的問(wèn)題,有何改進(jìn)的方法?4

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論