中國科技大學(xué)系列:《生物信息學(xué)》02課件_第1頁
中國科技大學(xué)系列:《生物信息學(xué)》02課件_第2頁
中國科技大學(xué)系列:《生物信息學(xué)》02課件_第3頁
中國科技大學(xué)系列:《生物信息學(xué)》02課件_第4頁
中國科技大學(xué)系列:《生物信息學(xué)》02課件_第5頁
已閱讀5頁,還剩58頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

生物信息學(xué)

第二章:序列的采集和存儲中國科技大學(xué)系列:《生物信息學(xué)》02中心法則DNA:Deoxyribonucleicacid,脫氧核糖核酸;RNA:RiboNucleicAcid,核糖核酸;中國科技大學(xué)系列:《生物信息學(xué)》02堿基中國科技大學(xué)系列:《生物信息學(xué)》02核苷酸,Ribonucleotide中國科技大學(xué)系列:《生物信息學(xué)》02脫氧核苷酸

Deoxyribonucleotide中國科技大學(xué)系列:《生物信息學(xué)》02雙脫氧核糖核苷酸

Dideoxyribonucleotide

中國科技大學(xué)系列:《生物信息學(xué)》02DNA的結(jié)構(gòu)中國科技大學(xué)系列:《生物信息學(xué)》02RNA的結(jié)構(gòu)中國科技大學(xué)系列:《生物信息學(xué)》02氨基酸的結(jié)構(gòu)中國科技大學(xué)系列:《生物信息學(xué)》02氨基酸的性質(zhì)及分類中國科技大學(xué)系列:《生物信息學(xué)》02氨基酸周期表中國科技大學(xué)系列:《生物信息學(xué)》02標(biāo)準(zhǔn)密碼子中國科技大學(xué)系列:《生物信息學(xué)》02本章內(nèi)容提要1.DNA測序2.序列數(shù)據(jù)的存儲核酸序列數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫基因組數(shù)據(jù)庫3.序列數(shù)據(jù)的文件格式中國科技大學(xué)系列:《生物信息學(xué)》021.DNA測序DNA一次連續(xù)測序的長度約為500bp;EST(Expressedsequencetag)測序:細(xì)胞中mRNA反轉(zhuǎn)錄成cDNA,方向不定測序;GSS(GenomeSurveySequences,基因組勘測序列):類似于ESTs,來源基因組;HTG(High-throughputgenomesequences,高通量基因組序列):高通量、尚未完工的DNA序列;中國科技大學(xué)系列:《生物信息學(xué)》02DNA測序的實驗方法

(末端終止法)CATddGTPddTTPddATP(D)使用寡核苷酸引物連續(xù)測序基因組測序:兩種方案策略1.基因圖譜法:DNA片段在染色體上的位置、方向已知。首先染色體被打斷成150~200kbp左右的大片段,然后克隆到BACs(BacterialArtificialChromosome)中,再進(jìn)一步隨機(jī)打斷,克隆,測序,依靠計算機(jī)組裝成長的序列(contig)。2.“鳥槍法”(shotgun):DNA片段在染色體上的位置和方向未知。全基因組隨機(jī)打斷成小片段,克隆,雙向測序,計算機(jī)組裝成長的序列。中國科技大學(xué)系列:《生物信息學(xué)》02人類基因組計劃基因組圖譜:遺傳圖譜,物理圖譜遺傳圖譜(geneticmap):連鎖圖譜,顯示所知的基因和/或遺傳標(biāo)記的相對距離位置與次序。物理圖譜(physicalmap):表示某些基因和/或遺傳標(biāo)記之間在基因組上的精確位置和距離(如間隔的bp數(shù)目)的圖譜。中國科技大學(xué)系列:《生物信息學(xué)》02中國科技大學(xué)系列:《生物信息學(xué)》02大規(guī)模測序方法中國科技大學(xué)系列:《生物信息學(xué)》022.序列數(shù)據(jù)的存儲核酸序列數(shù)據(jù)庫國際三大核酸序列數(shù)據(jù)庫:GenBank,EBML,DDBJRefSeq:TheReferenceSequence

DatabasedbEST:ExpressedSequencesTags數(shù)據(jù)庫UniGene等蛋白質(zhì)序列數(shù)據(jù)庫UniProtSwiss-prot&TrEMBL,PIR基因組數(shù)據(jù)庫:Ensembl中國科技大學(xué)系列:《生物信息學(xué)》02核酸數(shù)據(jù)庫數(shù)據(jù)的增長中國科技大學(xué)系列:《生物信息學(xué)》02GenBank由美國國立衛(wèi)生研究院NIH下屬國立生物技術(shù)信息中心NCBI建立。匯集并注釋了所有公開的核酸以及蛋白質(zhì)序列。每個記錄代表了一個單獨的、連續(xù)的、帶有注釋的DNA或RNA片段。中國科技大學(xué)系列:《生物信息學(xué)》02GenBank中測序最多的20個物種161.0版,2007中國科技大學(xué)系列:《生物信息學(xué)》02EMBL核酸序列數(shù)據(jù)庫EMBL-EBI(EuropeanBioinformaticsInstitute)維護(hù);中國科技大學(xué)系列:《生物信息學(xué)》02NIG(NationalInstituteofGenetics)CIB(CenterforInformationBiology)DDBJ中國科技大學(xué)系列:《生物信息學(xué)》02INSDC1998年,GenBank、EMBL和DDBJ共同成立了國際核酸序列數(shù)據(jù)庫協(xié)會(InternationalNucleotideSequenceDatabaseCollaboration,INSDC)三大核酸數(shù)據(jù)庫之間每天將新測定或更新的數(shù)據(jù)進(jìn)行交換共享,保證數(shù)據(jù)信息的完整與同步,每兩個月更新一次版本。中國科技大學(xué)系列:《生物信息學(xué)》02中國科技大學(xué)系列:《生物信息學(xué)》02三大數(shù)據(jù)庫之間的聯(lián)系中國科技大學(xué)系列:《生物信息學(xué)》02RefSeq數(shù)據(jù)庫1.提供非冗余的,高質(zhì)量的,經(jīng)檢驗校正的序列信息;2.包括染色體、基因組(細(xì)胞器、病毒、質(zhì)粒)、蛋白質(zhì)、RNA等;

序列文件的標(biāo)識符:mRNA序列:NM_123456非編碼RNA:NR_123456蛋白質(zhì)序列:NP_123456

中國科技大學(xué)系列:《生物信息學(xué)》02中國科技大學(xué)系列:《生物信息學(xué)》02RefSeq記錄的特征截然不同的Accession號區(qū)別于其它GenBank命名格式的序列,前綴是兩個字母加下劃線_;在Comment區(qū)域顯示來源;使用正式命名;包括dbxrefs的特征;蛋白序列在DBSOURCE區(qū)域標(biāo)示‘REFSEQ’中國科技大學(xué)系列:《生物信息學(xué)》02GenBankVS.

RefSeq中國科技大學(xué)系列:《生物信息學(xué)》02dbEST:表達(dá)序列標(biāo)簽數(shù)據(jù)庫最多的20個物種:2007.08,總序列45,660,524條中國科技大學(xué)系列:《生物信息學(xué)》02UniGene:

AnOrganizedViewoftheTranscriptome為每一個基因創(chuàng)造一個唯一的條目,收集這個基因所有的ESTs中國科技大學(xué)系列:《生物信息學(xué)》02Swiss-Prot&TrEMBL最早廣泛使用的蛋白數(shù)據(jù)庫;歐洲最主要的蛋白序列數(shù)據(jù)庫;SIB(SwissInstituteofBioinformatics)可由ExPASy(ExpertProteinAnalysisSystem)系統(tǒng)訪問;所有序列條目均經(jīng)過有經(jīng)驗的分子生物學(xué)家和蛋白質(zhì)化學(xué)家審核,因此又稱為蛋白質(zhì)專家?guī)?。中國科技大學(xué)系列:《生物信息學(xué)》02TrEMBLvs.GenPeptTrEMBL(TranslationofEMBL):計算機(jī)注釋的Swiss-Prot分支數(shù)據(jù)庫,從EMBL庫中的cDNA序列翻譯得到的氨基酸序列數(shù)據(jù)庫。GenPept:由GenBank翻譯得到的蛋白質(zhì)序列,與TrEMBL類似,這兩個數(shù)據(jù)庫中的序列錯誤率較大,均有較大的冗余度。中國科技大學(xué)系列:《生物信息學(xué)》02PIR1984年,美國國家醫(yī)學(xué)研究基金會(NREF)正式啟動蛋白質(zhì)信息資源(ProteinInformationResource,PIR)計劃;美國最主要的蛋白序列數(shù)據(jù)庫;非冗余、高質(zhì)量注釋、全面分類;PIR數(shù)據(jù)庫按照數(shù)據(jù)的性質(zhì)和注釋層次分為PIR1、PIR2、PIR3和PIR4。PIR1中的序列已經(jīng)驗證,注釋最為詳盡。中國科技大學(xué)系列:《生物信息學(xué)》02UniProtUniversalProteinResource:Swiss-prot(TrEMBL),

PIR兩大蛋白數(shù)據(jù)庫的整合體;收錄蛋白質(zhì)序列目錄最廣泛、功能注釋最全面的數(shù)據(jù)庫;包含三個子庫:UniProtKB(UniProtKnowledgebase)UniRef(UniProtReferenceClusters)UniParc(UniprotArchive)中國科技大學(xué)系列:《生物信息學(xué)》02中國科技大學(xué)系列:《生物信息學(xué)》02UniProtKBUniProtKnowledgebase:Release15.4,16-Jun-2009,包括:Swiss-ProtRelease57.4:497293entriesTrEMBLRelease40.4:9145906entries包含蛋白質(zhì)序列全面的信息,提供準(zhǔn)確、豐富的序列與功能注釋。記錄以6位字母和數(shù)字組成,例:Q5K8D3

中國科技大學(xué)系列:《生物信息學(xué)》02中國科技大學(xué)系列:《生物信息學(xué)》02Swiss-ProtRelease57.7中國科技大學(xué)系列:《生物信息學(xué)》02中國科技大學(xué)系列:《生物信息學(xué)》02TrEMBLRelease40.4中國科技大學(xué)系列:《生物信息學(xué)》02較早的基因組數(shù)據(jù)庫-

GDB為人類基因組計劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。GDB的目標(biāo)是構(gòu)建關(guān)于人類基因組的百科全書,除了構(gòu)建基因組圖譜之外,還開發(fā)了描述序列水平的基因組內(nèi)容的方法,包括序列變異和其它對功能和表型的描述。中國科技大學(xué)系列:《生物信息學(xué)》02基因組數(shù)據(jù)庫收集某些生物整個基因組序列的數(shù)據(jù)庫;基因組計劃HumanGenomeProjectSequencingGenomicsProjects

從GenBank中選擇同一物種的核酸信息組成的二級庫;中國科技大學(xué)系列:《生物信息學(xué)》02TheEnsemblprojectproducesgenomedatabasesforvertebratesandothereukaryoticspecies,andmakesthisinformationfreelyavailableonline.EMBL-EBI和Sanger研究所共同開發(fā)?;蚪M數(shù)據(jù)庫-Ensembl中國科技大學(xué)系列:《生物信息學(xué)》023.序列數(shù)據(jù)的文件格式DNA/RNA/氨基酸代碼的標(biāo)識GenBank數(shù)據(jù)格式EMBL&UniProt數(shù)據(jù)格式FASTA數(shù)據(jù)格式中國科技大學(xué)系列:《生物信息學(xué)》02DNA代碼氨基酸代碼中國科技大學(xué)系列:《生物信息學(xué)》02GenBank數(shù)據(jù)文件格式中國科技大學(xué)系列:《生物信息學(xué)》02GenBank數(shù)據(jù)文件格式中國科技大學(xué)系列:《生物信息學(xué)》02GenBank數(shù)據(jù)文件格式子庫Locus名字定義(標(biāo)題)修改日期序列類型mRNA(=cDNA)rRNAsnRNADNA序列長度檢索號Genbank號序列形狀中國科技大學(xué)系列:《生物信息學(xué)》02GenBank的數(shù)據(jù)類型中國科技大學(xué)系列:《生物信息學(xué)》02GenBank數(shù)據(jù)文件格式中國科技大學(xué)系列:《生物信息學(xué)》02GenBank數(shù)據(jù)文件格式中國科技大學(xué)系列:《生物信息學(xué)》02EMBL(UniProt)數(shù)據(jù)格式中國科技大學(xué)系列:《生物信息學(xué)》02EMBL和GenBank數(shù)據(jù)格式的對比中國科技大學(xué)系列:《生物信息學(xué)》02FASTA格式中國科技大學(xué)系列:《生物信息學(xué)》02FASTA格式 >1I60:A|PDBID|CHAIN|SEQUENCE MKLCFNEATTLENSNLKLDLELCEKHGYDYIEIRTMDKLPEYLKDHSLDDLAEYFQTHH

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論