生物信息學在高通量測序數(shù)據(jù)分析中的應用_第1頁
生物信息學在高通量測序數(shù)據(jù)分析中的應用_第2頁
生物信息學在高通量測序數(shù)據(jù)分析中的應用_第3頁
生物信息學在高通量測序數(shù)據(jù)分析中的應用_第4頁
生物信息學在高通量測序數(shù)據(jù)分析中的應用_第5頁
已閱讀5頁,還剩61頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

生物信息學在高通量測序數(shù)據(jù)分析中的應用第1頁,課件共66頁,創(chuàng)作于2023年2月提綱高通量測序技術的介紹高通量測序技術的主要應用生物信息學在高通量測序數(shù)據(jù)中的主要應用第2頁,課件共66頁,創(chuàng)作于2023年2月高通量測序簡介高通量測序:一次性對幾百萬到十億條DNA分子進行并行測序,又稱為下一代測序技術,其使得可對一個物種的轉(zhuǎn)錄組和基因組進行深入、細致、全貌的分析,所以又被稱為深度測序。High-throughputSequencingNextGenerationSequencingDeepSequencing3第3頁,課件共66頁,創(chuàng)作于2023年2月主要測序技術

第一代測序技術Sangersequencing(1980’s)第二代測序技術(nextgenerationsequencing,NGS)Roche/454(2005)Illumina/Solexa(2006)Life/APG’sSOLiD(2007)Life/APG’sIontorrent(2010)第三代測序技術PacificBioscience’ssinglemoleculesequencing(2011)Nanoporesequencing第4頁,課件共66頁,創(chuàng)作于2023年2月測序的基本反應原理:DNA聚合反應第5頁,課件共66頁,創(chuàng)作于2023年2月第一代測序技術Sanger法第6頁,課件共66頁,創(chuàng)作于2023年2月結(jié)合熒光標記和毛細管電泳第7頁,課件共66頁,創(chuàng)作于2023年2月測序峰圖第8頁,課件共66頁,創(chuàng)作于2023年2月ABI3730sequencerReadlength:>1,000bpAccuracy:99.999%Cost:$0.5/kbThroughput:6x105bp/day第9頁,課件共66頁,創(chuàng)作于2023年2月SangervsNGSSangerNGS樣品量大小是否需要電泳是否通量低高單位成本高低準確率高偏低讀長長短第10頁,課件共66頁,創(chuàng)作于2023年2月高通量測序技術

Roche/454pyrosequencing以固化了引物的玻璃微球為中心形成油包水結(jié)構(gòu)的乳滴,每個乳滴都是一個PCR反應的微量反應器(通過控制測序文庫DNA的濃度和微球懸濁液的濃度,保證大多數(shù)微球只結(jié)合一條DNA模板)。經(jīng)過多輪循環(huán)反應,每個微球表面都結(jié)合了數(shù)千個相同的拷貝。變性后,使微球上結(jié)合的都是單鏈DNA片段。富集微球,轉(zhuǎn)移到刻有大規(guī)模微孔陣列的微孔板上,每個微孔只容納一個微球。第11頁,課件共66頁,創(chuàng)作于2023年2月高通量測序技術

Roche/454pyrosequencing順次向流通池中加入4種dNTP中的一種,流過微孔板的一面。當dNTP與脫氧核糖骨架連接后釋放出焦磷酸,在與dNTP一起加入的ATP硫?;负蜔晒馑孛缸饔孟庐a(chǎn)生一系列級聯(lián)反應,放出不同的光信號。每個微孔中光信號的有無,就表明對應的dNTP是否連接到了片段上。第12頁,課件共66頁,創(chuàng)作于2023年2月454測序的原理:焦磷酸測序逐次加入dATP等,每加入一種,檢測信號,清洗再加下一種。ATP硫酸化酶5’-磷酰硫酸熒光素酶第13頁,課件共66頁,創(chuàng)作于2023年2月高通量測序技術

Roche/454pyrosequencing優(yōu)勢:讀長長(max1kb,GSFLXTitaniumXL+),運行時間短(10-23hours)主要錯誤來源:難以準確判定連續(xù)堿基(經(jīng)過3次級聯(lián)化學反應產(chǎn)生的熒光信號與連接上堿基的數(shù)量線性關系較差),容易產(chǎn)生Indel劣勢:通量相對偏低(max700M),單位成本高GSFLX+SystemGSJuniorSystem第14頁,課件共66頁,創(chuàng)作于2023年2月高通量測序技術

Illumina/Solexa單鏈DNA兩端加上非對稱的通用接頭(包括測序引物),接頭與事先固定在固相芯片表面的序列互補單鏈DNA結(jié)合到芯片表面形成橋式結(jié)構(gòu)。然后使用接頭引物進行PCR擴增變性后在一個芯片上可以形成上億個不相關的單鏈DNA分子簇,其一端固定在芯片表面,另一端是自由的第15頁,課件共66頁,創(chuàng)作于2023年2月高通量測序技術

Illumina/Solexa使用測序引物從自由的通用接頭一側(cè)開始測序反應。測序使用的dNTP每種堿基被不同的熒光基團標記,同時脫氧核糖的3’-OH被封閉,這樣每輪測序循環(huán)只能延伸一個核苷酸。讀取堿基熒光信號,就能知道這一輪每個簇結(jié)合上的是什么核苷酸然后切除熒光基團,打開被封閉的3’-OH,繼續(xù)進行下一輪反應第16頁,課件共66頁,創(chuàng)作于2023年2月Solexa測序的原理:可逆阻斷第17頁,課件共66頁,創(chuàng)作于2023年2月高通量測序技術

Illumina/Solexa優(yōu)勢:通量最高(max600Gb,HiSeq2500)主要錯誤來源:同一個簇內(nèi)不同DNA鏈延伸情況不同(相位差),導致讀取錯誤劣勢:讀長較短(max250bp,HiSeq2500),運行時間長(1-14days,HiSeq2500大幅提升了運行速度),數(shù)據(jù)存儲和分析難度大。MiSeqHiSeq2000GenomeAnalyzerII第18頁,課件共66頁,創(chuàng)作于2023年2月高通量測序技術

AB/SOLiDSOLiDSystem5500series第19頁,課件共66頁,創(chuàng)作于2023年2月SOLiD測序探針介紹類似454的微球反應體系,但使用連接反應。第20頁,課件共66頁,創(chuàng)作于2023年2月SOLiD

Sequencing每次測序反應的第1輪,測序引物1與接頭序列互補形成平末端,然后與探針連接。當探針1,2位與待測序列模板互補并連接上之后,獲取熒光信息。然后在探針的5,6位之間切開探針,進行下一個連接反應。這樣重復多次,可以獲得模板序列的第1-2,6-7,11-12……位置的信息。第21頁,課件共66頁,創(chuàng)作于2023年2月高通量測序技術

Life/APG’sSOLiD優(yōu)點:由于使用雙堿基編碼技術(two-baseencoding),準確率最高,通量高(max300Gb)缺點:讀長最短(max75bp),運行時間長(7-10day),數(shù)據(jù)儲存和分析難度大5500SeriesGeneticAnalysisSystems第22頁,課件共66頁,創(chuàng)作于2023年2月高通量測序技術

Life/APG’sIontorrentPGM454發(fā)明者的新作品測序反應在微陣列芯片上的微反應池中進行。每個dNTP結(jié)合到延伸鏈上,會釋放出一個H+,pH值變化會導致電位變化。檢測每次dNTP流過的電位差變化,就能知道該dNTP是否連接上去。第23頁,課件共66頁,創(chuàng)作于2023年2月高通量測序技術

Life/APG’sIontorrentPGM優(yōu)點:速度快(<2hours),準確度較高(只需要1次聚合反應,電位變化與堿基數(shù)量線性關系較好),成本低,芯片可升級缺點:讀長較短(max200bp),通量較低(max~1G)已有升級版IonProton,號稱比Iontorrent強100倍。Iontorrent318chipIonProton第24頁,課件共66頁,創(chuàng)作于2023年2月高通量測序技術

PacificBioscience’ssinglemoleculesequencing每個納米孔底部固定一個已經(jīng)結(jié)合了引物和模板的DNA聚合酶分子。每次測序反應加入一種熒光標記的dNTP核苷酸,聚合酶在檢測空間內(nèi)將其捕獲后產(chǎn)生光曝。通過連續(xù)實時檢測每個孔內(nèi)的熒光信號,就快速測定了每個孔內(nèi)的模板序列第25頁,課件共66頁,創(chuàng)作于2023年2月高通量測序技術

PacificScience’ssinglemoleculesequencing優(yōu)點:讀長長(max15kb)缺點:錯誤率高(單次反應錯誤率~15%。經(jīng)改進后使用多次循環(huán)重復,錯誤率降低到1%),通量低(與讀長有關)SMATCells第26頁,課件共66頁,創(chuàng)作于2023年2月Comparisonof5NGStechniques454SolexaSOLiDIontorrentPacific文庫制備乳滴PCR橋式PCR乳滴PCR乳滴PCR單分子測序反應聚合反應聚合反應連接反應聚合反應聚合反應原理焦磷酸反向終止合成可剪切探針連接pH電位差單分子實時熒光光學檢測是是是否是最大讀長~1kb250bp75bp200bp~15kb最大數(shù)據(jù)產(chǎn)出*700Mb600Gb300Gb~1.2Gb~80Mb運行時間較短長最長短短主要錯誤Indel替換替換IndelCG刪除準確率低高最高較高低平均數(shù)據(jù)成本高低低較低高數(shù)據(jù)分析難度較低高最高高最低*最大數(shù)據(jù)產(chǎn)出量往往不是最大讀長的文庫HiSeq2500和IonProton均號稱1天測1個30x的人類基因組,成本$1000第27頁,課件共66頁,創(chuàng)作于2023年2月高通量測序技術的主要應用DNA測序基因組deno測序基因組重測序宏基因組(Metagenome)測序外顯子組測序RNA測序轉(zhuǎn)錄組測序表達譜測序小RNA測序降解組測序表觀基因組測序Chip-seqClip-seq

第28頁,課件共66頁,創(chuàng)作于2023年2月生物信息學在高通量測序

數(shù)據(jù)中的主要應用

第29頁,課件共66頁,創(chuàng)作于2023年2月常用生物信息學分析平臺與資源常用編程分析平臺:

Perl/BioPerl

Python/BioPython

R/Bioconductor

JAVA/BioJava常用網(wǎng)上資源:

NCBISRA–SequenceReadArchive

UCSCGenomeBrowser

SEQanswers–WiKi&ForumforNGS第30頁,課件共66頁,創(chuàng)作于2023年2月常用基因組拼接軟件VelvetRayABySSSOAPdenovoSSAKESHARCGSMIRAEdena第31頁,課件共66頁,創(chuàng)作于2023年2月基因組比對軟件BLASTBLATMAQSOAPBowtieBWASSAHAELAND第32頁,課件共66頁,創(chuàng)作于2023年2月SNP分析軟件SAMToolsSOAPsnpNGS-BackboneMAQSeqManNGenCLCBioGenomics第33頁,課件共66頁,創(chuàng)作于2023年2月生物信息學在基因組分析方面的應用

基因組denovo測序?qū)ξ粗蚪M序列的物種取樣:

動物:血液、肌肉植物:葉片(黃化葉,組培植株)估算基因組復雜度(大小、重復序列比例、雜合度)測序技術:Illunimapaired-end為主Sanger、454、SOLiD為輔,PacBio目前也開始用于基因組測序補洞文庫構(gòu)建盡量隨機打斷第34頁,課件共66頁,創(chuàng)作于2023年2月WGS(wholegenomeshortgun)Coveragedepth(覆蓋深度or測序深度):每個堿基被測序的平均次數(shù),是用來衡量測序數(shù)據(jù)量的首要參數(shù)。測序總數(shù)據(jù)量/基因組大小Coverageratio(覆蓋率):被測序到的堿基占全基因組大小的比率。覆蓋比率隨覆蓋深度升高而提高,亦受測序bias的影響,如illumina測序會受到GCbias的影響,而導致測序不均勻。理論上(完全隨機打斷)測序深度達到20x即可覆蓋整個基因組。實際工作中一般需要50x以上(100bp讀長)。Reads長度越長越好。第35頁,課件共66頁,創(chuàng)作于2023年2月DenovoassemblyPaired-endreadsContigMate-endreadsorlongreadsScaffoldGeneticmap,FISH…..Chromosome第36頁,課件共66頁,創(chuàng)作于2023年2月基因組注釋蛋白編碼基因注釋重復序列注釋非編碼RNA注釋,主要是miRNA基因組注釋流程第37頁,課件共66頁,創(chuàng)作于2023年2月全基因組成功測序案例互葉梅基因組(國際互葉梅基因組測序項目,2013)TheAmborellaGenomeandtheEvolutionofFloweringPlants完全使用NGS測序組裝最原始的被子植物互葉梅Amborella已被確定是所有其他存活被子植物的單一姊妹物種,是其他被子植物比較的關鍵參照物。Amborella植物測序基因組解決了“達爾文難解之謎”——為什么幾百萬年前花在地球上突然激增的問題。基因組序列為地球生命史上重大事件提供了理論參考:開花植物的起源。第38頁,課件共66頁,創(chuàng)作于2023年2月全基因組測序不成功案例麻風樹基因組(日本,2011)Sanger結(jié)合NGS組裝完成度低只進行了基本的基因組注釋。發(fā)現(xiàn)許多與脂質(zhì)合成及抗病相關的基因。推測這些都是麻風樹不斷適應干燥環(huán)境獲得的性質(zhì)。第39頁,課件共66頁,創(chuàng)作于2023年2月重測序(Resequencing)對已有參考基因組物種的不同基因型或不同個體的全基因組或部分區(qū)段進行測序,以獲得個體之間的基因組和功能差異。用途:了解物種的起源和演化歷程理解疾病的成因理解動植物性狀的分子機制全基因組關聯(lián)分析(Genome-wildassociationstudy,GWAS)第40頁,課件共66頁,創(chuàng)作于2023年2月SNP檢測,注釋和統(tǒng)計Indel

檢測,注釋和統(tǒng)計SV檢測,注釋和統(tǒng)計CNV檢測,注釋和統(tǒng)計變異檢測第41頁,課件共66頁,創(chuàng)作于2023年2月SNPcalling考慮測序錯誤等位基因的SNP(考慮個體測序深度)ACSNVvsSNPSNV(singlenucleotidevariation):單個個體中出現(xiàn)的單核苷酸變異。但是在癌癥研究中,SNV往往指somaticmutation(體細胞突變)SNP(singlenucleotidepolymorphism):在一個群體中出現(xiàn)一定頻率(有人認為>5%)的單核苷酸變異群體SNPcalling第42頁,課件共66頁,創(chuàng)作于2023年2月ATCGATCGAATTCGTACGATGCTTAGCTAGCATACGReferenceReadsATCGATCGCGTACGATGCTTAGCTAGCATACGShortInDel檢測第43頁,課件共66頁,創(chuàng)作于2023年2月尋找SV(structurevariation)第44頁,課件共66頁,創(chuàng)作于2023年2月Copynumbervariation(CNV)需要一定的測序覆蓋度(>10x),mappingdepth也需要仔細檢查第45頁,課件共66頁,創(chuàng)作于2023年2月轉(zhuǎn)錄組SmallRNA降解組TextRNADGE生物信息學在RNAomics方面的應用RNA高通量測序第46頁,課件共66頁,創(chuàng)作于2023年2月轉(zhuǎn)錄組SmallRNA降解組TextRNADGERNA測序—轉(zhuǎn)錄組測序第47頁,課件共66頁,創(chuàng)作于2023年2月轉(zhuǎn)錄組測序簡介轉(zhuǎn)錄組即特定細胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的所有RNA的總和,包括mRNA和非編碼RNA(Non-coding

RNA)。

第二代測序系統(tǒng)可精確檢測單個堿基,并且不受到研究中先驗信息的干擾,科研人員能夠快速地獲得某一物種特定器官或組織在某一狀態(tài)下幾乎所有mRNA轉(zhuǎn)錄本序列,從而能夠開展:UTRs區(qū)域界定、可變剪切研究、低豐度新轉(zhuǎn)錄本發(fā)現(xiàn)、融合基因鑒定、cSNP(編碼序列單核苷酸多態(tài)性)研究等。第48頁,課件共66頁,創(chuàng)作于2023年2月轉(zhuǎn)錄組研究內(nèi)容轉(zhuǎn)錄組數(shù)據(jù)評估基因表達注釋差異表達基因鑒定、聚類、Geneontology、KEGGpathway分析基因結(jié)構(gòu)優(yōu)化新轉(zhuǎn)錄本可變剪接融合基因SNP第49頁,課件共66頁,創(chuàng)作于2023年2月轉(zhuǎn)錄組測序流程無參考序列測序流程有參考序列測序流程第50頁,課件共66頁,創(chuàng)作于2023年2月轉(zhuǎn)錄組主要分析內(nèi)容無參考序列轉(zhuǎn)錄組分析內(nèi)容有參考序列轉(zhuǎn)錄組分析內(nèi)容1測序數(shù)據(jù)產(chǎn)量統(tǒng)計,數(shù)據(jù)成分和質(zhì)量評估;2Contig及Scaffold組裝、長度分布3Unigene的長度分布和功能注釋,GO分類,Pathway分析,差異表達分析4蛋白功能預測與分類,差異表達基因GO富集和Pathway富集分析。1基本數(shù)據(jù)統(tǒng)計,比對參考序列2序列在基因組上在分布3測序深度分析、隨機性評估和基因差異表達分析4新基因預測,基因可變剪接鑒定和基因融合鑒定等。第51頁,課件共66頁,創(chuàng)作于2023年2月基因融合分析基因嵌合分析流程MIPOL1-DGKB

基因融合模式第52頁,課件共66頁,創(chuàng)作于2023年2月GenomicintergenicregionReadsclusterPairedReadsdistribution優(yōu)化基因結(jié)構(gòu)

鑒定新的轉(zhuǎn)錄本Paired-End(PE)ReadsReads比對到參考序列基因間區(qū)域第53頁,課件共66頁,創(chuàng)作于2023年2月鑒定可變剪接(AlternativeSplicing)exon1exon2exon3exon1exon2exon3exon1exon3commonreadsjunctionreadsmRNA第54頁,課件共66頁,創(chuàng)作于2023年2月分析RNA水平SNP轉(zhuǎn)錄組重測序比對軟件:SOAPDenovo轉(zhuǎn)錄組測序:組裝軟件:SoapDenovo比對軟件:SoapSNP第55頁,課件共66頁,創(chuàng)作于2023年2月轉(zhuǎn)錄組SmallRNA降解組TextRNADGERNA測序—小RNA測序第56頁,課件共66頁,創(chuàng)作于2023年2月SmallRNA:是長度在18-40nt的非編碼RNA,在基因表達調(diào)控中發(fā)揮著重要的作用。小RNA的產(chǎn)生第57頁,課件共66頁,創(chuàng)作于2023年2月總RNA通過切膠回收CATGGCTGAAGTCAAGGATGTCATGGAAGGCAATCCCACATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGTTGAATCTGAAACCCTCATGGTTGAATCTGAAACCCTCATGGCTGAATCTGAGGCTCTCATGGCTGAATCTGAGGCTCTCATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGCTGAAGTCAAGGATGTCATGGCTGAAGTCAAGGATGT測序CATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGTTGAATCTGAAACCCT

CATGGTTGAATCTGAAACCCTCATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATAmiRNAsiRNArepeatunann比對注釋和預測SmallRNA測序第58頁,課件共66頁,創(chuàng)作于2023年2月SmallRNA分析smallRNA的長度分布;rRNA、tRNA、snRNA、sno

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論