核苷酸數據庫學習教案_第1頁
核苷酸數據庫學習教案_第2頁
核苷酸數據庫學習教案_第3頁
核苷酸數據庫學習教案_第4頁
核苷酸數據庫學習教案_第5頁
已閱讀5頁,還剩112頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、會計學1核苷酸數據庫核苷酸數據庫第一頁,共117頁。第1頁/共116頁第二頁,共117頁。第2頁/共116頁第三頁,共117頁。第3頁/共116頁第四頁,共117頁。數據庫(數據庫(DatabaseDatabase)p用于收集、整理、儲存、加工、發(fā)布和檢索數據的系統(tǒng)用于收集、整理、儲存、加工、發(fā)布和檢索數據的系統(tǒng)p生物類的數據庫種類很多(序列、結構、生物分子互作、其他生物類的數據庫種類很多(序列、結構、生物分子互作、其他)p投稿文章首先投稿文章首先(shuxin)要將核苷酸序列或蛋白質序列提交到要將核苷酸序列或蛋白質序列提交到相應的數據庫中相應的數據庫中p一個數據庫記錄一個數據庫記錄(entr

2、y)一般由兩部分組成:原始序列數據一般由兩部分組成:原始序列數據(sequence data) + 描述這些數據生物學信息的注釋描述這些數據生物學信息的注釋(annotation)。注釋中包含的信息與相應的序列數據同樣重要和有應用價值。注釋中包含的信息與相應的序列數據同樣重要和有應用價值。第4頁/共116頁第五頁,共117頁。 (1)時間性 新的數據可以及時(jsh)在互聯(lián)網獲?。?)注釋 對每個序列有一致的、詳細的說明信息 (3)支撐數據 相關的研究背景,原始數據,文獻支持(4)數據質量 數據庫管理者對數據質量進行核查(5)集成性 三種基本數據(核酸、蛋白、蛋白結構)的集成。 有效提高研究者

3、的研究效率生物生物(shngw)(shngw)信息數據庫的特征信息數據庫的特征第5頁/共116頁第六頁,共117頁。分子生物數據庫的分類分子生物數據庫的分類(fn li)(fn li)一級數據庫:數據直接來源于實驗獲得的原始數據,只經過簡單的歸類一級數據庫:數據直接來源于實驗獲得的原始數據,只經過簡單的歸類(u li)整理和注釋。包含:整理和注釋。包含:二級數據庫:二級數據庫:對原始對原始(yunsh)生物分子數據進行整理、分類的結果,是在生物分子數據進行整理、分類的結果,是在一級數據庫、實驗數據和理論分析的基礎上針對特定的應用目一級數據庫、實驗數據和理論分析的基礎上針對特定的應用目標而建立的

4、。包含:種類繁多:真核生物啟動子序列庫標而建立的。包含:種類繁多:真核生物啟動子序列庫 EPD ;功能模體;功能模體(motif)數據庫數據庫 PROSITE 數據庫名稱數據庫名稱 數據來源數據來源核酸序列數據庫核酸序列數據庫直接來源于實驗數據直接來源于實驗數據蛋白質序列數據庫蛋白質序列數據庫主要是非實驗來源數據主要是非實驗來源數據結構數據庫結構數據庫X射線衍射和核磁共振射線衍射和核磁共振第6頁/共116頁第七頁,共117頁。生物信息生物信息(xnx) 學數據庫學數據庫 工具工具 染色體染色體核酸核酸(h sun)蛋白質蛋白質基因組圖譜基因組圖譜(tp)DNA序列序列蛋白質序列蛋白質序列蛋白質

5、結構蛋白質結構基因組基因組數據庫數據庫核酸序列核酸序列數據庫數據庫蛋白質序列蛋白質序列數據庫數據庫蛋白質結構蛋白質結構數據庫數據庫二級數據庫二級數據庫 復合數據庫復合數據庫基因組作圖基因組作圖序列測定序列測定結構測定結構測定生物信息數據庫構建流程生物信息數據庫構建流程第7頁/共116頁第八頁,共117頁。主要主要(zhyo)核酸序列數據庫核酸序列數據庫: GenBank、EMBL、 DDBJ主要主要(zhyo)蛋白質序列數據庫:蛋白質序列數據庫:Swissprot, PIR第8頁/共116頁第九頁,共117頁。第9頁/共116頁第十頁,共117頁。第10頁/共116頁第十一頁,共117頁。第1

6、1頁/共116頁第十二頁,共117頁。Bethesda, MD131988, 美國美國(mi u)馬里蘭州的貝塞斯達馬里蘭州的貝塞斯達第12頁/共116頁第十三頁,共117頁。p建立了公共數據庫建立了公共數據庫: GenBank,人類基因組人類基因組p開展計算生物學研究開展計算生物學研究p研發(fā)用于序列分析研發(fā)用于序列分析(fnx)的軟件工具的軟件工具:BLAST,Entrez,免費,免費MEDLINE(PubMed)第13頁/共116頁第十四頁,共117頁。15第14頁/共116頁第十五頁,共117頁。p 1979年開始建設,年開始建設,1982年正式運行年正式運行p 美國國家生物信息中心負責

7、維護美國國家生物信息中心負責維護(wih) pGenBank數據庫的數據來源有三種:數據庫的數據來源有三種:p直接來源于測序工作者提交的序列直接來源于測序工作者提交的序列p與其它數據機構協(xié)作交換的數據與其它數據機構協(xié)作交換的數據p美國專利局提供的專利數據美國專利局提供的專利數據GenBankGenBank數據庫數據庫第15頁/共116頁第十六頁,共117頁。第16頁/共116頁第十七頁,共117頁。第17頁/共116頁第十八頁,共117頁。第18頁/共116頁第十九頁,共117頁。第19頁/共116頁第二十頁,共117頁。o 1980年開始建設,年開始建設,1982年正式運行年正式運行o 歐洲

8、主要的核酸序列收集單位歐洲主要的核酸序列收集單位o歐洲分子生物歐洲分子生物(shngw)學實驗室學實驗室(European Molecular Biology Laboratory, EMBL,1974,德國海德堡,德國海德堡)的歐洲生物的歐洲生物(shngw)信息研究所(信息研究所(European Bioinformatics Institute)負責維護負責維護EMBL數據庫數據庫EMBL數據庫的數據來源有三種:數據庫的數據來源有三種:直接來源于測序工作者提交的序列(直接來源于測序工作者提交的序列(Sanger測序中心測序中心(zhngxn))與其它數據機構協(xié)作交換的數據與其它數據機構協(xié)

9、作交換的數據歐洲專利局提供的專利數據歐洲專利局提供的專利數據第20頁/共116頁第二十一頁,共117頁。第21頁/共116頁第二十二頁,共117頁。ENA由原由原EMBL-Bank核酸序列數據庫基礎上發(fā)展核酸序列數據庫基礎上發(fā)展(fzhn)起來,是歐洲最重要的核酸序起來,是歐洲最重要的核酸序列資源列資源.第22頁/共116頁第二十三頁,共117頁。第23頁/共116頁第二十四頁,共117頁。第24頁/共116頁第二十五頁,共117頁。第25頁/共116頁第二十六頁,共117頁。o日本日本1984年開始建立,并于年開始建立,并于1987年正式服務。年正式服務。o 亞洲唯一的核酸序列數據庫亞洲唯一

10、的核酸序列數據庫o生物信息學中心生物信息學中心(zhngxn)和日本國家遺傳研究所的和日本國家遺傳研究所的DNA數據數據庫共同組建。庫共同組建。 DDBJDDBJ數據庫數據庫DDBJ數據庫的數據來源有二種:數據庫的數據來源有二種:90%直接來源于日本直接來源于日本(r bn)研究者提交的序列研究者提交的序列與其它數據機構協(xié)作交換的數據與其它數據機構協(xié)作交換的數據第26頁/共116頁第二十七頁,共117頁。第27頁/共116頁第二十八頁,共117頁。第28頁/共116頁第二十九頁,共117頁。ESFGDLSTDAVMGNPKVKAHGKKVLGAFSD第29頁/共116頁第三十頁,共117頁。第

11、30頁/共116頁第三十一頁,共117頁。第31頁/共116頁第三十二頁,共117頁。IUPAC堿基代碼堿基代碼(di m)表表 第32頁/共116頁第三十三頁,共117頁。第33頁/共116頁第三十四頁,共117頁。第34頁/共116頁第三十五頁,共117頁。錯誤(cuw)第35頁/共116頁第三十六頁,共117頁。FASTA格式格式(g shi)示例示例正確(zhngqu)第36頁/共116頁第三十七頁,共117頁。數據庫中數據庫中FASTA格式序列格式序列(xli)命名命名n 標題行相關部分(b fen)用 “|”分隔;n 命名的順序:ngi號| Accesion number|相對應的

12、英文名稱,“ ” 相應物種的拉丁文名稱第37頁/共116頁第三十八頁,共117頁。 GenoInfo Identifier 的簡寫,指的序列標識號。 序列的任何改變都會被分配一個(y )新的GI號; 一條核苷酸序列翻譯成蛋白質序列,也會分配一個(y )新的GI號 gi第38頁/共116頁第三十九頁,共117頁。第39頁/共116頁第四十頁,共117頁。第40頁/共116頁第四十一頁,共117頁。第41頁/共116頁第四十二頁,共117頁。LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 DEFINITION Saccharomyces cere

13、visiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Sacchar

14、omycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1

15、509 (1994) PUBMED 7871890 .FEATURES Location/Qualifiers CDS 1.206 /codon_start=3 /product=TCP1-beta /protein_id= /db_xref=GI:1293614 /translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 687.3158 /gene=AXL2 . ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctca

16、acaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct . 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc / 第42頁/共116頁第四十三頁,共117頁。描述符描述符(包含包含(bohn)整個記錄的信整個記錄的信息)息) 特征表特征表(注釋這一紀錄注釋這一紀錄(j l)的信息)的信息)序列序列(xli)信息信息LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 D

17、EFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycoti

18、na; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae J

19、OURNAL Yeast 10 (11), 1503-1509 (1994) PUBMED 7871890 .FEATURES Location/Qualifiers CDS 1.206 /codon_start=3 /product=TCP1-beta /protein_id= /db_xref=GI:1293614 /translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 687.3158 /gene=AXL2 . ORIGIN 1 gatcctccat atacaacggt

20、 atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc / 第43頁/共116頁第四十四頁,共117頁。第44頁/共116頁第四十五頁,共117頁。GBFF格式格式(g shi)頭部:基因座頭部:基因座第45頁/共116頁第四十六頁,共117頁。GBFF格式格式(g shi)頭部:定義行頭部:定義行第46頁/共

21、116頁第四十七頁,共117頁。accessionACCESSION (編號,檢索號):是序列記錄的唯一指針,具有唯一性和永久性,在文獻中引用這個序列時,應該以此編號為準。通常由一個字母加5個數字(shz)(U12345)或者由兩個字母加6個數字(shz)(AF123456)組成。檢索號在數據庫中是唯一而且不變的,即使數據的提交者改變數據的內容。在 ACCESSION行中可能出現多個檢索號,可能是因為數據提交者提交了一條與原記錄相關的新記錄,或者新提交的記錄覆蓋了原有的舊記錄。第一個檢索號為主檢索號,而其余的統(tǒng)稱為二級檢索號。GBFF格式格式(g shi)頭部:檢索號頭部:檢索號第47頁/共1

22、16頁第四十八頁,共117頁。GBFF格式格式(g shi)頭部:版本號頭部:版本號第48頁/共116頁第四十九頁,共117頁。GBFF格式格式(g shi)頭部:關鍵詞頭部:關鍵詞第49頁/共116頁第五十頁,共117頁。GBFF格式格式(g shi)頭部:來源行頭部:來源行第50頁/共116頁第五十一頁,共117頁。GBFF格式格式(g shi)頭部:參考文獻頭部:參考文獻第51頁/共116頁第五十二頁,共117頁。GBFF格式中部格式中部(zhn b):序列特征表:序列特征表第52頁/共116頁第五十三頁,共117頁。GBFF格式中部:序列格式中部:序列(xli)特征表格式特征表格式第5

23、3頁/共116頁第五十四頁,共117頁。GBFF格式中部格式中部(zhn b):序列特征表格式:序列特征表格式第54頁/共116頁第五十五頁,共117頁。GBFF格式中部格式中部(zhn b):序列特征表:特性表關鍵詞:序列特征表:特性表關鍵詞第55頁/共116頁第五十六頁,共117頁。CDS 指的是編碼區(qū)序列(指的是編碼區(qū)序列(Coding sequence) 序列功能區(qū)域序列功能區(qū)域(qy)的表示方法:的表示方法: 1. 確定的功能區(qū),直接寫作確定的功能區(qū),直接寫作n.m 2. 表示表示partial on the 3end CDS第56頁/共116頁第五十七頁,共117頁。GBFF格式中

24、部:序列特征格式中部:序列特征(tzhng)表:特性位置表:特性位置第57頁/共116頁第五十八頁,共117頁。GBFF格式中部:序列格式中部:序列(xli)特征表:特性位置特征表:特性位置第58頁/共116頁第五十九頁,共117頁。GBFF格式中部格式中部(zhn b):序列特征表:特性位置:序列特征表:特性位置第59頁/共116頁第六十頁,共117頁。GBFF格式格式(g shi)中部:序列特征表:限定詞中部:序列特征表:限定詞第60頁/共116頁第六十一頁,共117頁。限定詞限定詞含義含義限定詞限定詞含義含義/allele=給定基因的等位基因給定基因的等位基因/anticodon=tRN

25、A反義密碼子的位置及它所編碼的氨基酸反義密碼子的位置及它所編碼的氨基酸/bound_moiety=嵌合范圍嵌合范圍/cell_line=獲得序列的細胞系獲得序列的細胞系/cell_type=獲得序列的細胞類型獲得序列的細胞類型/chromosome=獲得序列的染色體獲得序列的染色體/citation=已被引用的參考文獻數已被引用的參考文獻數/clone=獲得序列的克隆子獲得序列的克隆子/clone_lib=獲得序列的克隆文庫獲得序列的克隆文庫/codon=指出與參考密碼子不同的密碼子指出與參考密碼子不同的密碼子/codon_start=相對于序列第一個堿基,編碼序列密碼子相對于序列第一個堿基,

26、編碼序列密碼子的偏移量的偏移量/cons_splice=區(qū)分內含子剪切位點和區(qū)分內含子剪切位點和“5-GT .AG-3” 剪切位點剪切位點/country=DNA樣本的來源國樣本的來源國/cultivar=所獲序列植物的栽培變種所獲序列植物的栽培變種/db_xref=其它數據庫信息的交叉索引號其它數據庫信息的交叉索引號/dev_stage=序列來源于某種生物的特定發(fā)育階段序列來源于某種生物的特定發(fā)育階段/direction=DNA復制方向復制方向/EC_number=序列產物的酶學編號序列產物的酶學編號/environmental_sample=序列直接從環(huán)境材料中獲得而沒有指明來序列直接從環(huán)

27、境材料中獲得而沒有指明來源物種源物種/evidence=序列特性來源于實驗還是推理序列特性來源于實驗還是推理/exception=指明指明DNA序列未按通常的生物學規(guī)律翻譯,序列未按通常的生物學規(guī)律翻譯,如如RNA編輯編輯/focus指出在紀錄中的來源特性在其它物種中還有不同指出在紀錄中的來源特性在其它物種中還有不同的來源特性的來源特性/frequency=在種群中發(fā)生變異的頻率在種群中發(fā)生變異的頻率/function=序列所代表的功能序列所代表的功能/germline如果序列是如果序列是DNA并來源于免疫球蛋白家族,并來源于免疫球蛋白家族,則表示該序列來源于未重排則表示該序列來源于未重排DN

28、A/haplotype=序列來源于某種物種的單倍體序列來源于某種物種的單倍體/insertion_seq=序列來源于某種插入元件序列來源于某種插入元件/isolation_source=描述序列來源物種的生理、環(huán)境和地理信息描述序列來源物種的生理、環(huán)境和地理信息/isolate=序列來源的生物個體序列來源的生物個體/label=序列特性的俗名序列特性的俗名第61頁/共116頁第六十二頁,共117頁。/lab_host=為擴增序列來源物種所用的實驗室宿主為擴增序列來源物種所用的實驗室宿主/map=相關特性在基因圖譜上的位置相關特性在基因圖譜上的位置/macronuclear指明指明DNA來源于染

29、色體分化的大核期來源于染色體分化的大核期/mod_base=被修飾堿基的簡寫被修飾堿基的簡寫/note=評論及附加信息評論及附加信息/number=從從53注明遺傳元件的順序注明遺傳元件的順序/organelle=獲得序列的細胞器獲得序列的細胞器/organism=提供測序用遺傳物質的物種的科學名稱提供測序用遺傳物質的物種的科學名稱/PCR_conditions=描述描述PCR的反應條件的反應條件/phenotype=序列特性所導致的表型序列特性所導致的表型/pop_variant=獲得序列的群體變異種名稱獲得序列的群體變異種名稱/plasmid=獲得序列的質粒名稱獲得序列的質粒名稱/prod

30、uct=序列編碼產物的名稱序列編碼產物的名稱/protein_id=蛋白質的檢索號蛋白質的檢索號/proviral整合在基因組中的前病毒整合在基因組中的前病毒/pseudo假基因假基因/rearranged如果序列是如果序列是DNA并來源于免疫球蛋白家族,則表并來源于免疫球蛋白家族,則表示該序列來源于重排示該序列來源于重排DNA/replace=表明特性間的間隔序列已被替換表明特性間的間隔序列已被替換/rpt_family=重復序列重復序列/rpt_type=重復序列的組織方式重復序列的組織方式/rpt_unit=指明重復區(qū)域的重復元件構成指明重復區(qū)域的重復元件構成/sequenced_mol

31、=獲得序列的分子類型獲得序列的分子類型/serotype=同一物種的不同血清學特征同一物種的不同血清學特征/serovar=同一原核生物的血清學特征同一原核生物的血清學特征/sex=獲得序列的物種性別獲得序列的物種性別/specific_host=獲得序列的天然宿主獲得序列的天然宿主/specimen_voucher=指明來源物種保存于什么地方指明來源物種保存于什么地方/standard_name=特性的通用名稱特性的通用名稱/strain=獲得序列的菌株獲得序列的菌株/sub_clone=獲得序列的亞克隆獲得序列的亞克隆/sub_species=獲得序列的來源物種的亞種獲得序列的來源物種的亞

32、種/sub_strain=獲得序列的來源微生物亞種獲得序列的來源微生物亞種/tissue_lib=獲得序列組織庫獲得序列組織庫/tissue_type=獲得序列組織類型獲得序列組織類型/transgenic指明物種的來源特性是否是轉基因受體指明物種的來源特性是否是轉基因受體/translation=按通用或指定的密碼子表翻譯的氨基酸序列按通用或指定的密碼子表翻譯的氨基酸序列/transl_except=標明序列中未按指定密碼子表翻譯的氨基酸的位標明序列中未按指定密碼子表翻譯的氨基酸的位置置/transl_table=描述在翻譯中與通用密碼表不同的密碼表描述在翻譯中與通用密碼表不同的密碼表/tr

33、ansposon=轉座子轉座子/usedin=表明該特性在其它檢索中也被使用表明該特性在其它檢索中也被使用/variety=獲得序列的生物變種獲得序列的生物變種/virion病毒顆粒病毒顆粒第62頁/共116頁第六十三頁,共117頁。第63頁/共116頁第六十四頁,共117頁。第64頁/共116頁第六十五頁,共117頁。GBFF格式格式(g shi)尾部尾部第65頁/共116頁第六十六頁,共117頁。GBFF格式格式(g shi)尾部尾部第66頁/共116頁第六十七頁,共117頁。第67頁/共116頁第六十八頁,共117頁。第68頁/共116頁第六十九頁,共117頁。第69頁/共116頁第七十

34、頁,共117頁。第70頁/共116頁第七十一頁,共117頁。EMBL:酵母菌TCB1-第71頁/共116頁第七十二頁,共117頁。第72頁/共116頁第七十三頁,共117頁。生物生物(shngw)序列的相似性序列的相似性相似性相似性(similarity)(similarity): 是指一種是指一種(y zhn)(y zhn)很直接的數量關系,比很直接的數量關系,比如部分相同或相似的百分比或其它一些合適的如部分相同或相似的百分比或其它一些合適的度量。比如說,度量。比如說,A A序列和序列和B B序列的相似性是序列的相似性是8080,或者,或者4/54/5。這是個量化的關系。當然可進行自。這是個

35、量化的關系。當然可進行自身局部比較。身局部比較。第73頁/共116頁第七十四頁,共117頁。同源同源(tn yun)性性(homology): 指從一些數據中推斷出的兩個基因或蛋白質序列指從一些數據中推斷出的兩個基因或蛋白質序列具而共同祖先的結論,屬于質的判斷。就是說具而共同祖先的結論,屬于質的判斷。就是說A和和B的關系上,只有是同源的關系上,只有是同源(tn yun)序列,序列,或者非同源或者非同源(tn yun)序列兩種關系。而說序列兩種關系。而說A和和B的同源的同源(tn yun)性為性為80都是不科學的。都是不科學的。生物生物(shngw)序列的同源性序列的同源性第74頁/共116頁第

36、七十五頁,共117頁。相似性和同源性關系相似性和同源性關系(gun x)序列的相似性和序列的同源性有一定的關系,一般來說序列間的相似性越高的話,它們是同源序列的可能性就更高,所以經??梢酝ㄟ^序列的相似性來推測序列是否同源。 正因為存在這樣的關系,很多時候對序列的相似性和同源性就沒有做很明顯的區(qū)分,造成經常等價混用兩個(lin )名詞。所以有出現A序列和B序列的同源性為80一說。第75頁/共116頁第七十六頁,共117頁。序列相似性比較序列相似性比較(bjio)和同源性分和同源性分析析o序列相似性分析:序列相似性分析:o 就是用來計算待研究序列與某序列之間的相就是用來計算待研究序列與某序列之間的

37、相似性程度,常用的軟件包有似性程度,常用的軟件包有BLAST、FASTA等;等;o序列同源性分析:序列同源性分析:o 是將待研究與來自不同物種的序列中進行進是將待研究與來自不同物種的序列中進行進化分析,以確定該序列與其它化分析,以確定該序列與其它(qt)序列間的序列間的親源關系。常用的程序包有親源關系。常用的程序包有Phylip及及Mega。第76頁/共116頁第七十七頁,共117頁。第77頁/共116頁第七十八頁,共117頁。BLASTBLAST是是“局部相似性基本查詢工具局部相似性基本查詢工具”(Basic Local Alignment Search Tool)的縮的縮寫。寫。BLAST

38、 是由美國國立是由美國國立(u l)生物技術信息生物技術信息中心(中心(NCBI)開發(fā)的一個基于序列相似性)開發(fā)的一個基于序列相似性的數據庫搜索程序。的數據庫搜索程序。第78頁/共116頁第七十九頁,共117頁。BLAST能告訴我們能告訴我們(w men)什么?什么?可以獲取以下一些信息可以獲取以下一些信息(xnx):1.查詢序列可能具有某種功能查詢序列可能具有某種功能2.查詢序列可能是來源于某個物種查詢序列可能是來源于某個物種3.查詢序列可能是某種功能基因的同源基因查詢序列可能是某種功能基因的同源基因4.未知新序列的鑒定未知新序列的鑒定第79頁/共116頁第八十頁,共117頁。第80頁/共1

39、16頁第八十一頁,共117頁。第81頁/共116頁第八十二頁,共117頁。第82頁/共116頁第八十三頁,共117頁。第83頁/共116頁第八十四頁,共117頁?;净?jbn)BLAST程序程序程序名查詢序列數據庫搜索方法Blastn核酸核酸核酸核酸用核酸序列搜索核酸數據庫用核酸序列搜索核酸數據庫Blastp蛋白質蛋白質用蛋白質序列搜索蛋白質數據庫Blastx核酸蛋白質用核酸序列搜索蛋白質數據庫(核酸序列框翻譯成蛋白質序列后和蛋白質數據庫中的序列逐一搜索Tblastn蛋白質核酸用蛋白質序列搜索核酸序列據庫(先將核酸數據庫中的序列按照框翻譯為蛋白序列然后逐一比對)TBlastx核酸核酸將查詢

40、序列和數據庫中的序列都按照個可讀框翻譯為蛋白序列后再比對第84頁/共116頁第八十五頁,共117頁。第85頁/共116頁第八十六頁,共117頁。兩種版本兩種版本(bnbn)的的BALST比較比較(1)網絡版本:網絡版本:包括包括NCBI在內的很多網站都提供了在線的在內的很多網站都提供了在線的BLAST服服務,這也是我們務,這也是我們(w men)最經常用到的最經常用到的blast服務。服務。方便,容易操作,數據庫同步更新。方便,容易操作,數據庫同步更新。缺點是不利于操作大批量的數據,同時也不能自己定缺點是不利于操作大批量的數據,同時也不能自己定義搜索的數據庫。義搜索的數據庫。第86頁/共116

41、頁第八十七頁,共117頁。單機版的特點:單機版的特點:單機版的單機版的BLAST可以通過可以通過NCBI的的ftp站點獲得,站點獲得,不同平臺的版本不同平臺的版本: linux,windows,獲得程序的同時必須獲取相應的數據獲得程序的同時必須獲取相應的數據(shj)庫才庫才能在本地進行能在本地進行blast分析分析優(yōu)點是可以處理大批的數據優(yōu)點是可以處理大批的數據(shj),可以自己定,可以自己定義數據義數據(shj)庫庫.需要耗費本地機的大量資源需要耗費本地機的大量資源,硬件要求高。硬件要求高。此外操作也沒有網絡版直觀、方便,需要一定的計算此外操作也沒有網絡版直觀、方便,需要一定的計算機操作

42、水平。機操作水平。兩種版本兩種版本(bnbn)的的BLAST比較比較(2)第87頁/共116頁第八十八頁,共117頁。第88頁/共116頁第八十九頁,共117頁。第89頁/共116頁第九十頁,共117頁。BLAST任務任務(rn wu)提交(提交(1)1.序列信息(xnx)部分填入查詢(chxn)(query)的序列序列范圍(默認全部)選擇搜索數據庫如果接受其他參數默認設置,點擊開始搜索第90頁/共116頁第九十一頁,共117頁。Blast任務任務(rn wu)提交(提交(2)設置搜索(su su)的范圍,entrez關鍵詞,或者選擇特定物種2.設置(shzh)各種參數部分一些過濾選項,包括簡單重復序列,人類基因組中的重復序列等E值上限值上限窗口大小窗口大小如果你對blast的命令行選項熟悉的話,可以在這里加入更多的參數第91頁/共116頁第九十二頁,共117頁。第92頁/共116頁第九十三頁,共117頁。查詢序列(xli)的描述第93頁/共116頁第九十四頁,共117頁。顯示比對區(qū)域(q

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論