全基因組重測序數(shù)據分析詳細說明_第1頁
全基因組重測序數(shù)據分析詳細說明_第2頁
全基因組重測序數(shù)據分析詳細說明_第3頁
全基因組重測序數(shù)據分析詳細說明_第4頁
全基因組重測序數(shù)據分析詳細說明_第5頁
免費預覽已結束,剩余17頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、全基因組重測序數(shù)據分析1. 簡介(Introduction)通過高通量測序識別發(fā)現(xiàn) de novo的somatic和germ line突變,結構變異-SNV,包括重 排突變(deletioi n, duplicati on 以及 copy number variatio n )以及 SNP 的座位;針對重排 突變和SNP的功能性進行綜合分析;我們將分析基因功能(包括miRNA ),重組率(Recomb in ation )情況,雜合性缺失(LOH )以及進化選擇與mutation之間的關系;以及這些關系將怎樣使得在disease ( cancer)genome中的mutation產生對應的易感

2、機制和功能。我們將在基因組學以及比較基因組學,群體遺傳學綜合層面上深入探索疾病基因組和癌癥基因組。StmctumVariathnC hroiniicwiial to<n*iobp gen (HU FC>loKPne<irdetectioD.SeqtiEflce VarijifliGni* M KmJMrifelCk IlWtbln 1 Cpjii(CVh J* Ib4vIi* SrfMMLiJ 4v|MMiiiiiii* I rrwai viuIk«« KWi-CW r小命* Mw rad f-kiMihW- « mtmI HfihHAdMMMk

3、rosccppk tad subcbromosoEnjil Q-rn*a*l iaUiiLi BwiB Cl rMWB-tl BrWIlH I- laf rfrsvilv iFim< O.r*BM«ul BbHirKiLhnMolccil&r gtBCilc dt teflon實驗設計與樣本(1) Case-Control 對照組設計(2 )家庭成員組設計:父母-子女組(4人、3人組或多人); 初級數(shù)據分析1.數(shù)據量產出:總堿基數(shù)量、Total Mapping Reads 、Uniquely Mapping Reads統(tǒng)計,測序深度分析。2 .一致性序列組裝:與參考基因

4、組序列(Refere nee gen ome seque nee)的比對分析,禾U用貝葉斯統(tǒng)計模型檢測出每個堿基位點的最大可能性基因型,并組裝出該個體基因組的一致序列。3. SNP檢測及在基因組中的分布:提取全基因組中所有多態(tài)性位點,結合質量值、測序深 度、重復性等因素作進一步的過濾篩選,最終得到可信度高的SNP數(shù)據集。并根據參考基因組信息對檢測到的變異進行注釋。4 .In Del檢測及在基因組的分布:在進行mappi ng的過程中,進行容 gap的比對并檢測可 信的short In Del。在檢測過程中,gap的長度為15個堿基。對于每個In Del的檢測,至少 需要3個Paired-End

5、 序列的支持。5. Structure Variation 檢測及在基因組中的分布:能夠檢測到的結構變異類型主要有:插入、 缺失、復制、倒位、易位等。根據測序個體序列與參考基因組序列比對分析結果,檢測全基 因組水平的結構變異并對檢測到的變異進行注釋。高級數(shù)據分析1.測序短序列匹配(Read Mapping )(1) 屏蔽掉 Y染色體上假體染色體區(qū)域(pseudo-autosomal region ),將Read與參考序 列NCBI36進行匹配(包括所有染色體,未定位的con tig,以及線粒體序列 mtDNA (將用校正的劍橋參考序列做替代)。采用標準序列匹配處理對原始序列文件進行基因組匹配,

6、將Read與參考基因組進行初始匹配;給出匹配的平均質量得分分布;(2) 堿基質量得分的校準。我們采用堿基質量校準算法對每個Read中每個堿基的質量進 行評分,并校準一些顯著性誤差,包括來自測序循環(huán)和雙核苷酸結構導致的誤差。(3) 測序誤差率估計。pseudoautosomal con tigs,short repeat regions (包括 segme ntalduplicati on , simple repeat seque nee- 通過 tandem repeat 識另 U算法識另 U) 將被過濾;2. SNP Calling 計算 (SNP Calling )我們可以采用整合多種

7、SNP探測算法的結果,綜合地,更準確地識別出SNP。通過對多種算法各自識別的 SNP進行一致性分析,保留具有高度一致性的SNP作為最終SNP結果。這些具有高度一致性的 SNP同時具有非常高的可信度。在分析中使用到的SNP識別算法包括基于貝葉斯和基因型似然值計算的方法,以及使用連鎖不平衡 LD或推斷技術用于優(yōu)化SNP識別檢出的準確性。統(tǒng)計SNV的等位基因頻率在全基因組上的分布稀有等位基因數(shù)目在不同類別的 SNV中的比率分布(a) ; SNV的類別主要考慮:(1)無 義(nonsense ) , (2)化學結構中非同義,(3)所有非同義,(4)保守的非同義,(5) 非編碼,(6)同義,等類型SNV

8、 ;另外,針對保守性的討論, 我們將分析非編碼區(qū)域 SNV 的保守型情況及其分布(圖 a, b )ANS o呦輻帥M30252QT5W備 OLoi.olm(>.(>.(>.(>.(>.(>. b ssv Eb- i 33. 短插入 / 缺失探測(Short In sertio n /Deletion(In del ) Call)(1) .計算全基因組的in del變異和基因型檢出值的過程計算過程主要包含 3步:(1)潛在的in del的探測;(2)通過局部重匹配計算基因型的似 然值;(3)基于LD連鎖不平衡的基因型推斷和檢出識別。In del在X,Y染色體上

9、沒有檢出值得出。(2) . I ndel過濾處理4. 融合基因的發(fā)現(xiàn)(Fusion gene Discovery )選擇注釋的基因信息來自于當前最新版本的Ensemble Gene數(shù)據庫,RefSeq數(shù)據庫和Vega Gene數(shù)據庫。下面圖例給出的是融合基因的形成,即來自不同染色體的各自外顯子 經過重組形成融合基因的模式圖。Gswnic 1X4如fl Mb* !- Ctiriat EtMrwjj Chf 2 U. CAACAG r OAGTATCACAD4Extm 361776177Initofl 35. 結構變異(Structure Variation )結構變異(Structure Var

10、iation SV)是基因組變異的一類主要來源,主要由大片段序列(一般 >1kb)的拷貝數(shù)變異(copy number variatio n, CNV)以及非平衡倒位(un bala nee in version )事件構成。目前主要一些基因組研究探測識別的SV大約有20,000個(DGV數(shù)據庫)。在某些區(qū)域上,甚至 SV形成的速率要大于 SNP的速率,并與疾病臨床表型具有很大關聯(lián)。我們不僅可以通過測序方式識別公共的SV,也可以識別全新的 SV。全新的SV的生成一般在germ line和突變機制方面都具有所報道。然而,當前對SV的精確解析需要更好的算法實現(xiàn)。同時,我們也需要對SV的形成機

11、制要有更重要的認知,尤其是 SV否起始于祖先基因組座位的插入或缺失,而不簡單的根據等位基因頻率或則與參考基因組序列比對判斷。SV的功能性也結合群體遺傳學和進化生物學結合起來,我們綜合的考察SV的形成機制類別。SV形成機制分析,包括以下幾種可能存在的主要機制的識別發(fā)現(xiàn):(A)同源性介導的直系同源序列區(qū)段重組(NAHR);(B )與DNA雙鏈斷裂修復或復制叉停頓修復相關的非同源重組(NHR);(C) 通過擴展和壓縮機制形成可變數(shù)量的串聯(lián)重復序列(VNTR);(D) 轉座元件插入(一般主要是長/短間隔序列元件LINE/SINE或者伴隨TEI相關事件 的兩者的組合)。結構變異探測和擴增子(Amplic

12、on )的探測與識別分析:如下圖所示6. 測序深度分析測序深度分析就是指根據基因組框內覆蓋度深度與期望覆蓋度深度進行關聯(lián),并識別出SV。我們也將采用不同算法識別原始測序數(shù)據中的缺失片段(deletion )和重復片段(duplication )。7. SV探測識別結果的整合與FDR推斷(可選步驟)(1). PCR或者芯片方式驗證 SV(2).計算FDR-錯誤發(fā)現(xiàn)率(配合驗證試驗由客戶指定)篩選SV檢出結果用于SV的合并和后續(xù)分析:我們通過不同方式探測識別SV的目的極大程度的檢出SV,并且降低其 FDR( <=10% )。通過下屬篩選方法決定后續(xù)分析所使用到的SV集合。每種SV探測識別算法

13、得到的SV的FDR要求小于10%,并將各自符合條件的SV合并;對于FDR大于10%的算法計算識別的 SV結果,如果有PCR和芯片平 臺驗證數(shù)據,同樣可以納入后續(xù)SV分析中。最后,針對不同算法得到的SV,整合處理根據breakpoint斷點左右重合覆蓋度的置信區(qū)間來評定;8. 變異屬性分析(1) n eutral coalesce nt 分析測序數(shù)據可以探測到低頻率的變異體(MAF<=5% )。根據來自群體遺傳學理論(neutralcoalesce nt理論)的期望值可以計算低頻度變異的分布。我們用不同等位基因頻率下每Mb變異數(shù)目與n eutral coalesce nt選擇下的期望值比值

14、,即每Mb基因組win dows內的theta觀測值,來刻畫和反映自然純化選擇與種群(cancer cell-line可以特定的認為是可以區(qū)分的種群)增長速率。該分布分別考察SNP (藍色線),In del (紅色線),具有基因型的大片段缺失(黑色線),以及外顯子區(qū)域上的SNP (綠色線)在不同等位基因頻率區(qū)間上的theta情況(參見下圖)。Variant allele frequency(2).全新變異體(novel variant)的等位基因頻率和數(shù)量分布分析對象包括全新預測的SNP , in del , large deletio n,以及外顯子 SNP在每個等位基因頻率類別下的數(shù)目比率

15、(fraction )(參見下圖);全新預測是指預測分析結果與dbSNP (當前版本129 )以及deletion數(shù)據庫dbVar ( 2010年6月份版本)和已經發(fā)表的有關 in dels 研究的基因組數(shù)據經過比較后識別確定的全新的SNP,in del以及deletion。dbSNP包含SNP 和 in dels; dbVAR 包含有 deletio n, duplicatio n, 以及 mobile eleme nt in sertio n。dbRIP 以及其他基因組學研究(JC Ventrer以及Watson基因組,炎黃計劃亞洲人基因組)結果 提 供 的shortin dels禾口la

16、rgedeleti on。-®>oc upoelr6 4 2 o,a a0.0-0.0 0.2 04 0.6 0.8 1-0Variant allele frequency(3) .變異體的大小分布以及新穎性分布計算 SNP , Deletion,以及 Insertion 大小分布;計算 SNP , Deletion,以及 Insertion 中屬 于全新預測結果的數(shù)目占已有各自參考數(shù)據庫數(shù)目的比例(相對于dbSNP數(shù)據庫;dbSNP包含 SNP 和 indels;dbVAR 包含有 deletion,duplication, 以及 mobile element inserti

17、on。 dbRIP以及其他基因組學研究(JC Ventrer以及 Watson基因組,炎黃計劃亞洲人基因組)結果提供的short in dels和large deletion )其中,可以給出 LINE,Alu的特征位置。37G543?1O 匸也AQgain仝孑100kbkb “OtvipObp 10 kh3 2 10 o o o O6-ODeletionsSNPs Insartions<-og1D阿(4) .結構變異SV的斷點聯(lián)結點(BreakPoint Junction) 分析根據SV不同檢出結果經過一些列篩選步驟構建所有結構變異SV的斷點聯(lián)結點數(shù)據庫,保留長度大于等于50bp的SV

18、 ;分析斷點聯(lián)結點處具有 homology或者microhomology的SV ; 并將同一染色體,起始和終止位置坐標下的不同SV進行去冗余處理。分析識別SV的斷點聯(lián)結點(Breakpoint):將Breakpoint按照可能形成的方式可以分類為 以下幾類:(a) 非等位基因同源重組型(non-allelic homologous recombination-NAHR);(b) 非同源重組 (non homologous recomb in atio n-NHR),包括 non homologous en d-jo ining (NHEJ)和 fork stalling /template s

19、witching ( FoSTeS/MMBIR );(c)可變串聯(lián)重復(VNTR)(d)轉座插入元件(TEI )。313V512IInsertion traceFomwaiofi mechanism stacked hts-tognvnboogrannBMAHR DBNHR (3 TEIVWTR10飛圖CSV形成偏好性分析分析SV形成機制與斷裂點臨近區(qū)域序列的關系,包括染色質界標(端粒,中心粒),重組 高發(fā)熱點區(qū)域,重復序列以及GC含量,短DNA motif和微同源區(qū)域(microhomologyregion )。D«tan» tQ lelomeFiM1,206a.e Oe

20、+O7 -C.Oa-i-OC-1 0fl+D8 rDtstsnce to eerrtncfnereeNAUR NHR TEIDe-tanw tn 窮用eny txwdwn1,2»+W-w-U NAH Fl NHR TEId.4.3 o ovlluQAA15co+ NHRBackground -p- Expectation0510152025Lenqfri ol microhomoloq (bp)9. 突變率估計針對以家庭成員為單位的測序方案,我們主要探測de novo的突變(DNM );通過采用不同的方法/算法,我們給出每個家庭一份推斷的DNM報表;(1) 根據基因型推斷結果,分別對

21、每人每堿基位置上的de novo突變進行綜合度量;(2) 采用貝葉斯方法計算家庭組設計中DNM的后驗概率10. SNP,SNV功能分析與注釋(1).祖先等位基因的注釋通過將人類(NCBI36),黑猩猩(chimpanzee2.1 ),猩猩(PPYG2)以及恒河猴(MMUL1) 4種基因組進行基因組比對,發(fā)現(xiàn)保守的序列區(qū)域,計算祖先等位基因;以及 duplicatio n/deleti on 事件的進化分析。(2).分析基因結構序列上不同區(qū)域的多樣性( Diversity )與分歧進化(diverge nee )根據基因型分析結果計算基因結構序列上的多樣性程度,即雜合度(heterozygosi

22、ty);雜合度指標可以說明選擇效應的存在以及局部變異的結構分布特征模式。我們將考慮基因5' UTR上游200bp,5' UTR,第一個外顯子,第一個內含子,中間外顯子,中間內含子,最末外顯子和內含子,以及 3' UTR及其下游200bp區(qū)域左右考察的范圍(參見下圖a)。分析編碼 轉錄本的起始/終止位置臨近區(qū)域的多樣性和進化分歧度(參見下圖 b)。0.UU120.00060.0000Jd0.016-0.012'0 008-0.4 -0.2 0.0 0.2 04cM from transcription start/stop(3).疾病變異體探測將樣本測序中分析得到

23、 SV與HGMD疾病變異體數(shù)據進行比對,得到交叉記錄的錯義和無 義的SNP ;通過將HGMD疾病關聯(lián)突變與 CUI (疾病概念分類標識數(shù)據庫) 比對獲得HGMD 中所有SV的疾病表型,并獲得HGMD與測序數(shù)據分析得到的 SV的疾病表型;并通過Fisher 檢驗和Bonferroni多重假設檢驗校正計算樣本SV所富集的疾病表型。pHddw(4).拷貝數(shù)變異CNV所含基因的功能注釋將CNV是否覆蓋區(qū)段重復 SD區(qū)域分類為2大類, 計算,顯著性在橫軸表示;各種顯著性功能在縱軸表示。每類CNV的所含基因的功能富集情況CAH/l iwi tswrbppmg 5Ca如屮沖呂站-LogJPrthjPi0E初

24、PmiMHMftBM(5) .變異的功能性分析與注釋(a) . SNP, Indels以及大的結構變異 SV的功能注釋;(b) .對包含翻譯起始注釋信息的轉錄本編碼區(qū)上的SNP分類為:同義SNP ,非同義SNP 和無義SNP (引入終止子),干擾終止子的 SNP,以及干擾剪接位點的 SNP ;為了降低假 陽性,我們采用嚴格的篩選方式過濾來自 in dels的錯誤;(c) 對錯義編碼區(qū)突變的功能性分析:通過信息學分析算法評估相對于生殖系變異的體細 胞突變對蛋白質的結構和功能的影響效應。(6). SNV,SNP與miRNA研究之間的關聯(lián)分析miRNA是起重要的調控作用的小分子,我們將對miRNA的

25、pri-mRNA ,pre-miRNA 以及miRNA靶基因序列進行分析,識別潛在的SNP功能位點。據文獻研究提供證據表明Humanpre-miRNA的二級結構中存在不同位置上的SNP,我們將通過熱力學穩(wěn)定性分析方法評估SNP對pre-miRNA結構的影響;另外,我們也將對miRNA-Target靶基因相互作用位點做分析,評估對SNP對靶基因靶向性的影響。MIR*19MIR(7). SNV,SNP與GWAS研究之間的關聯(lián)分析分析GWAS研究中得到的易感基因在基因組上不同坐標上的OR值分布情況;將當前已知的GWAS研究成果與SNP進行比較;根據 LD連鎖不平衡將SNP與易感基因的關系進 行深入討

26、論;直接與間接關聯(lián)方法可以分別識別與表型相關的SNP,對于不易獲得(missing)和定位的SNP,通過LD連鎖不平衡推斷疾病易感基因突變座位。(8)生物學通路(代謝通路,信號通路)分析生物學通路(Biological pathway ),包括代謝通路和信號轉導通路是生物功能的重要組成 部分,我們將各種形式的突變、變異,包括SNV和SNP,的對應基因放到生物學通路中進行綜合分析,考察功能性突變對pathway的影響程度和影響的規(guī)律。通過GSEA (配合芯片表達譜數(shù)據),KS檢驗,超幾何分布檢驗等方法對變異基因在某些pathway的富集程度進行排序,識別發(fā)生功能改變的潛在通路。(9).蛋白質-蛋

27、白質相互作用(PPI )網絡分析蛋白質相互作用也是生物分子功能增益和缺失的重要途徑,因此我們針對蛋白質相互作用網絡中的突變的蛋白及其收到影響的網絡節(jié)點蛋白進行系統(tǒng)分析,并對收到影響的網絡子結構進行功能注釋分析和聚類富分析。我們采用網絡分析算法對由于各種突變所受到影響的子網 絡(sub network )進行功能富集度的分析;3(10).順式基因調控網絡模塊(CRM )分析(a) 啟動子序列分析包括動子區(qū)域上的 Motif預測,并與已知轉錄因子數(shù)據庫 TRANSFAC和JASPAR中的TFBS 結合位點進行比對;啟動子區(qū)域上保守性分析,分析突變位置和保守性區(qū)域的關聯(lián);(b) 計算全基因組保守性。

28、確定TFBS的保守性以及 mutation位置的保守性;(11 )重排(arrangements )與突變(mutation )的全基因組統(tǒng)計(a) .體細胞(somatic)和生殖系(germline )重排(arrangements )體細胞突變是相對于germ line突變的一類需要重要分析的內容,我們針對Case-control設計的測序方案可以分別分析突變的情況,包括SNV , in del,以及 CNV ;如果僅在tumor/disease(Case 組)出現(xiàn)而不在normal (對照組)出現(xiàn)的突變我們可以認為是somatic體細胞突變。將somatic mutation 與dbS

29、NP數(shù)據庫比對可以發(fā)現(xiàn)潛在的全新的突變和有記 錄的突變位置。然后,將突變分別比對到基因區(qū)域和非基因區(qū)域。基因區(qū)域具體包括:內含子區(qū),UTR,剪接位點區(qū)和外顯子區(qū)。其中外顯子區(qū)分別統(tǒng)計:同義(synonymous ),缺失(deletion ),閱讀框移位 (frameshift ),插入(insertion ),錯義(missense ),無義(nonsense ) 以及非編碼蛋白外顯子 (non-protein coding exon)等不同類型。綜合不同方面分析的結果,并按照突變分類給出各重排(arrangements)類型:SNV , CNV的數(shù)目統(tǒng)計數(shù)據表(參見下圖)。對每一測序樣本分別進行標注,包括體細胞突

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論