基因組注釋詳解_第1頁
基因組注釋詳解_第2頁
基因組注釋詳解_第3頁
基因組注釋詳解_第4頁
基因組注釋詳解_第5頁
已閱讀5頁,還剩69頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基因組注釋基因組測序相關(guān)技術(shù)發(fā)展

198119861989199119941998200020022003200620072008Inthecomingfuture200920102005AffylaunchesGeneExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomatedDNAsequencerLowhangingfruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirstmicroarraypublication-onArabidopsisILMNlaunchesgeneexpressionarraysHumanGenomeProject&CeleraGenomicscompletesfirstdraftgenomeHapmapprojectlaunchedHapmap1stphasedatareleaseAffy&ILMNbothlaunched100KgenotypingarraysRiseofGenomeWideAssociationStudies(GWAS)RocheGSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD1.0Launched!TheSequencingShakeup!!SOLiD3.0:100GBoutofthebox!The3rdGenerationSequencingwillbelaunchedILMNHiSeq2000launched<2weeks~$1,0000.010.101.0010.00100.001,000.0010,000.00100,000.00$MThroughput

(Gb)CostofperHumanGenomeInnovationofNGSthroughput3Gb6Gb20-30Gb0204060801001202402007200820092010199020012012200720100.001Moore’sLaw更低的價格使得基于測序的科研和臨床應(yīng)用越來越被接受13years~$3,000,000,000200Gb-300Gb測序技術(shù)的發(fā)展帶來測序價格的下降Illumina/Solexa/GIIxGeneticAnalyzer50~95GB/runIllumina/Solexa/HiSeq200GB/runRoche/454GenomeSequencerFLX500Mb/runAppliedBiosystemsSOLiD4100GB/runAppliedBiosystemsSOLiD/HQ300GB/run成熟的二代測序技術(shù)平臺高通量測序服務(wù)未知基因組測序(Denovogenomesequencing)基因組重測序(Wholegenomeresequencing)實驗數(shù)據(jù)分析MatePair測序構(gòu)建Scaffold30X的覆蓋率

(454&(SolexaorSOLiD))序列預(yù)處理(質(zhì)量控制)基因組拼接(基于reference拼接)注釋(基因功能、代謝通路、比較基因組)SNP發(fā)現(xiàn)及注釋實驗數(shù)據(jù)分析30X以上的覆蓋率

(Solexa

orSOLiD)序列預(yù)處理(質(zhì)量控制)基因組分型技術(shù)SNP、Indel、CNV、染色體結(jié)構(gòu)變異及注釋與表型相關(guān)的全基因組關(guān)聯(lián)分析和功能連鎖性分析高通量測序服務(wù)外顯子捕獲測序(Targetexomecapture)全基因組甲基化測序(DNAmethylationsequencing)實驗數(shù)據(jù)分析>30X的覆蓋率

(SolexaorSOLiD)序列預(yù)處理(質(zhì)量控制)基因組分型技術(shù)SNP、Indel、CNV、染色體結(jié)構(gòu)變異及注釋與表型相關(guān)的全基因組關(guān)聯(lián)分析和功能連鎖性分析實驗數(shù)據(jù)分析30X以上的覆蓋率(Solexa

orSOLiD)序列預(yù)處理(質(zhì)量控制)甲基化位點檢測及注釋高通量測序服務(wù)轉(zhuǎn)錄組測序(RNA-seqsequencing)microRNA測序(microRNAsequencing)實驗數(shù)據(jù)分析mRNA打斷、反轉(zhuǎn)錄、加接頭Denovo454構(gòu)建轉(zhuǎn)錄圖譜Reference

barcode建庫Solexa,SOLiD

序列預(yù)處理(質(zhì)量控制)表達豐度統(tǒng)計注釋(功能、代謝通路、表達差異比較)未知轉(zhuǎn)錄本的分析實驗數(shù)據(jù)分析microRNA提取、兩頭加接頭、反轉(zhuǎn)錄、建庫

(Solexa

orSOLiD)序列預(yù)處理(質(zhì)量控制)已知microRNA豐度統(tǒng)計未知microRNA預(yù)測及豐度統(tǒng)計高通量測序服務(wù)元基因組測序(meta-genomesequencing)未知病毒檢測(Unknown

virusdetecting)實驗數(shù)據(jù)分析DNA提取、建庫序列預(yù)處理(質(zhì)量控制)拼接、注釋(功能、代謝通路)豐度統(tǒng)計、比較元基因組實驗數(shù)據(jù)分析低量RNA、DNA處理、建庫與宿主、微生物、病毒數(shù)據(jù)庫比較未知病毒的發(fā)現(xiàn)及預(yù)測兩種測序策略:基于BAC的方法:先把基因組打碎成200-300kb的片段并制成BAC文庫,再選擇一些BAC進一步打碎成3kb左右的小片段,測序并拼接。全基因組鳥槍法:把基因組直接打碎成3kb左右的小片段,測序并拼接?;贐AC的方法全基因組DNA隨機打成大片段選擇并克隆大片段排序,選擇再打碎,克隆,測序,拼接全基因組鳥槍法基因組DNA

隨機打碎

測序并拼接

拼接軟件的新需求能充分利用正反向測序的配對信息,避免重復(fù)序列造成的錯誤拼接能處理數(shù)以百萬甚至千萬計的數(shù)據(jù)

程序并行化高效率比對能逐步拼接基因組注釋SequenceGENESCANORFFinderGENEMARKGenePrediction…BlastnFastaHomologySearchTranscriptionRegulatoryRegionDomainIdentify(HMMER,BLIMPS)Transmembrane(TMAP,TMHMM)LocalizationSites(Psort)Physical&ChemicalPara(PI/MW,EXTCOEF)Post-translationalmodifications(NetNGlyc…)ProteinAnnotation…GeneOntologyPathwayPredictedGeneOrGene原核(Prokaryote)基因編碼區(qū)啟動子轉(zhuǎn)錄起始位點非翻譯區(qū)被轉(zhuǎn)錄區(qū)起始密碼子終止密碼子5’3’上游

轉(zhuǎn)錄終止位點下游基因組注釋SequenceGENESCANORFFinderGENEMARKGenePrediction…BlastnFastaHomologySearchTranscriptionRegulatoryRegionDomainIdentify(HMMER,BLIMPS)Transmembrane(TMAP,TMHMM)LocalizationSites(Psort)Physical&ChemicalPara(PI/MW,EXTCOEF)Post-translationalmodifications(NetNGlyc…)ProteinAnnotation…GeneOntologyPathwayPredictedGeneOrGene開放閱讀框ORF

(OpenReadingFrame)一段序列從起始密碼子(startcodon)開始,到終止密碼子(stopcodon)結(jié)束,而且其中不包含其它終止密碼子。微生物基因發(fā)現(xiàn)要解決的問題微生物基因組中80%-90%的序列參與編碼主要問題:如果有兩個或更多重疊的閱讀框,哪一個是基因(假定只可能有一個)最可靠的方法–

同源搜索(使用BLAST或FASTA等)主要困難:在無已知同源性信息的情況下尋找基因預(yù)測軟件GetORFWebAccess

http://bioweb.pasteur.fr/seqanal/interfaces/getorf.htmlApplication(DownloadEmboss)

GETORF:AdvancedOptions

i.Codetouse:選擇不同的codonusagetable,包含有:

(1)Standard

(2)Standard(withalternativeinitiationcodons)

(3)VertebrateMitochondrial

(4)YeastMitochondrial

(5)Mold,Protozoan,CoelenterateMitochondrialandMycoplasma/Spiroplasma

(6)InvertebrateMitochondrial

(7)CiliateMacronuclearandDasycladacean

(8)EchinodermMitochondrial

(9)EuplotidNuclear

(10)Bacterial

(11)AlternativeYeastNuclear

(12)AscidianMitochondrial

(13)FlatwormMitochondrial

(14)BlepharismaMacronuclear

(15)ChlorophyceanMitochondrial

(16)TrematodeMitochondrial

(17)Scenedesmusobliquus

(18)ThraustochytriumMitochondrialGETORF:AdvancedOptionsii.最小的開放閱讀框由多少個核甘酸組成,預(yù)設(shè)值為30,也就是10個氨基酸。iii.Typeofoutput:可選擇不同的輸入結(jié)果,包含有:

(1)TranslationofregionsbetweenSTOPcodons

(2)TranslationofregionsbetweenSTARTandSTOPcodons

(3)NucleicsequencesbetweenSTOPcodons

(4)NucleicsequencesbetweenSTARTandSTOPcodons

(5)NucleotidesflankingSTARTcodons

(6)NucleotidesflankinginitialSTOPcodons

(7)NucleotidesflankingendingSTOPcodonsfastagcgphylipemblswissncbinbrfgenbankigcodatastrideracedbstadentextfitchmsfclustalphylipphylip3asn1Metagenomics

CommunityGenomics●EnvironmentalGenomicsWhoisthere?–diversity&abundanceWhattheyaredoing?–Metabolic&interactionWhytheyarethere?–EcologicalrelationsSpeciescomplexityAcidminedrainage1 100 1000 10000SeawaterHumangutSoilThecultivation-independentanalysisofthecollectivegenomesofmicrobialpopulationsobtaineddirectlyfromtheenvironmentTheComplexityofMetagenomicsAABCDA’Isolatedgenome–singlesourceofDNAMetagenome–multiplesourceofDNAXGenomeAnnotation,Metagenomics?readsassembliesgenesannotationTraditionalgenomicsreadsassembliesORFsannotationMetagenomics???

HugeMultipleorganismsFragmental

HugePartialORFsWrongORFsQ:Solution?

A:Clustering.ProteinfamiliesNovelfamiliesORFvalidation

HugeMultipleorganismsUnevencoverage真核生物的基因的完整結(jié)構(gòu)

及它的表達過程transcriptionRNAsplicingproteintranslationexon1DNAexon2exon3intron1intron2promotergtgtagagupstreamdownstream5’UTR3’UTRgtgtagagPrimaryRNAtranscript3`5’MatureRNAUTSuga,uaa,uag3`aaa…5’基因識別找出在一段DNA序列中,是否存在ORF,亦及“基因”。判明基因的結(jié)構(gòu),包括起止位置,外顯子/內(nèi)含子邊界,啟動子,polyA區(qū)域,非轉(zhuǎn)譯區(qū)(UTR)等。預(yù)測真基因和“假基因”(pseudogene)及可能的剪切位點?;谕葱缘幕蝾A(yù)測法“從頭開始”(Abinitio)預(yù)測法綜合使用以上兩種方法:如TwinScan其它方法:如數(shù)字信號處理,Z曲線,等基因預(yù)測方法分類基于序列相似性的基因預(yù)測將基因組序列與EST(expressedsequencetag,表達序列標記)或cDNA等相比較(用Sim4等方法),從而找出與mRNA相對應(yīng)的區(qū)域。將基因組序列與蛋白質(zhì)數(shù)據(jù)庫相比較(用BLASTX等方法),從而找出可能的編碼區(qū)。將預(yù)測得到的多肽與蛋白質(zhì)數(shù)據(jù)庫相比較將基因組序列與同源性相近物種的基因組相比較,找出保守區(qū)域。優(yōu)點:基于已有的生物學(xué)數(shù)據(jù),因此結(jié)果更有生物學(xué)意義缺點:

受限于已有的生物學(xué)數(shù)據(jù)數(shù)據(jù)庫可能存在的誤差對于相似程度應(yīng)如何定義基于同源性的基因預(yù)測法優(yōu)缺點同源搜索HomologySearcha.序列局部相似比較。試圖發(fā)現(xiàn)有生物意義保守序列,而不一定要全局相似??梢杂删植肯嗨频贸鰞尚蛄锌赡苡邢嗤δ芑蚬δ芟嚓P(guān)。b.比較得到的是相似性,并非同源性,我們必須根據(jù)相似性結(jié)合其他證據(jù)做出判斷。BlastWeb:/blast/Application:/BLAST/download.shtml如何正確看待比較結(jié)果BLAST找出的結(jié)果僅僅是表示兩條序列之間有局部相似,與同源性關(guān)系不大,認定功能相同或相關(guān)也不是充分的。一定要結(jié)合其他的分析結(jié)果判斷。BLAST結(jié)果中相似部分需要認真仔細觀察??纯聪嗨频牟糠质巧锷瞎δ苤匾谋J夭糠?,還是一些無關(guān)緊要的重復(fù)序列結(jié)合已知的信息(比如該蛋白不可能有某種功能和可能有某種功能),注意在比較中排在后面的是否與其他已知信

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論