blast簡介及其應(yīng)用ppt課件_第1頁
blast簡介及其應(yīng)用ppt課件_第2頁
blast簡介及其應(yīng)用ppt課件_第3頁
blast簡介及其應(yīng)用ppt課件_第4頁
blast簡介及其應(yīng)用ppt課件_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、BLAST簡介及其應(yīng)用Basic Local Alignment Search Tool2實驗?zāi)康?、了解、了解 Blast資源和功能資源和功能2、了解、了解blast的應(yīng)用的應(yīng)用3、掌握使用、掌握使用blast進行序列搜索進行序列搜索3生物序列的相似性相似性相似性(similarity): 是指一種很直接的數(shù)量關(guān)系,比如是指一種很直接的數(shù)量關(guān)系,比如部分相同或相似的百分比或其它一些合部分相同或相似的百分比或其它一些合適的度量。比如說,適的度量。比如說,A序列和序列和B序列的序列的相似性是相似性是80,或者,或者4/5。這是個量化。這是個量化的關(guān)系。當(dāng)然可進行自身局部比較。的關(guān)系。當(dāng)然可進行自

2、身局部比較。4 同源性同源性(homology): 指從一些數(shù)據(jù)中推斷出的兩個基因或指從一些數(shù)據(jù)中推斷出的兩個基因或蛋白質(zhì)序列具有共同祖先的結(jié)論,屬于質(zhì)蛋白質(zhì)序列具有共同祖先的結(jié)論,屬于質(zhì)的判斷。就是說的判斷。就是說A和和B的關(guān)系上,只有是的關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)系。而同源序列,或者非同源序列兩種關(guān)系。而說說A和和B的同源性為的同源性為80都是不科學(xué)的。都是不科學(xué)的。生物序列的同源性5相似性和同源性關(guān)系 序列的相似性和序列的同源性有一定的關(guān)系,一般來說序列間的相似性越高的話,它們是同源序列的可能性就更高,所以經(jīng)??梢酝ㄟ^序列的相似性來推測序列是否同源。 正因為存在這樣的關(guān)

3、系,很多時候?qū)π蛄械南嗨菩院屯葱跃蜎]有做很明顯的區(qū)分,造成經(jīng)常等價混用兩個名詞。所以有出現(xiàn)A序列和B序列的同源性為80一說。6Blast程序評價序列相似性的兩個數(shù)據(jù)Score:使用打分矩陣對匹配的片段進行:使用打分矩陣對匹配的片段進行打分,這是對各對氨基酸殘基或堿基打分,這是對各對氨基酸殘基或堿基打分求和的結(jié)果,一般來說,匹配片段越打分求和的結(jié)果,一般來說,匹配片段越長、長、 相似性越高則相似性越高則Score值越大。值越大。E value:在相同長度的情況下,兩個氨基在相同長度的情況下,兩個氨基酸殘基或堿基隨機排列的序列進行打酸殘基或堿基隨機排列的序列進行打分,得到上述分,得到上述Scor

4、e值的概率的大小。值的概率的大小。E值值越小表示隨機情況下得到該越小表示隨機情況下得到該Score值的可值的可能性越低。能性越低。我們在獲得一個我們在獲得一個Blast結(jié)果時需要看這兩結(jié)果時需要看這兩個指標(biāo)。個指標(biāo)。 如果如果Blast獲得的目標(biāo)序列的獲得的目標(biāo)序列的Score值越高值越高并且并且E-value越低表明結(jié)果越可信,反之越低表明結(jié)果越可信,反之越不可信越不可信.7BLAST簡介 BLAST既是一種算法也是一種基于該算法設(shè)計出的搜索工具,是由美國國家生物信息中心NCBI研發(fā)的一個生物信息數(shù)據(jù)庫搜索工具系統(tǒng),該系統(tǒng)對于生物基因序列數(shù)據(jù)在計算機中的表達和處理作了許多的研究,提供了一個快

5、速的基于堿基數(shù)據(jù)的搜索引擎。 BLAST是基于匹配短序列片段,用一種強有力的統(tǒng)計模型來確定未知序列與數(shù)據(jù)庫序列的最佳局部聯(lián)配,可在序列數(shù)據(jù)庫中對查詢序列進行相似性比對工作。8BLAST簡介BLAST搜索的六大優(yōu)點:搜索的六大優(yōu)點:使用方便,功能齊全使用方便,功能齊全速度快,結(jié)果可信速度快,結(jié)果可信NCBI精心維護,持續(xù)開發(fā)精心維護,持續(xù)開發(fā)配套數(shù)據(jù)庫不斷更新配套數(shù)據(jù)庫不斷更新免費服務(wù)免費服務(wù)NCBI、EBI、TIGR)免費下載,本地安裝免費下載,本地安裝9主要的BLAST程序功能)程序名程序名查詢序列查詢序列數(shù)據(jù)庫數(shù)據(jù)庫搜索方法搜索方法Blastn核酸核酸核酸核酸在核酸數(shù)據(jù)庫中比對核酸序列在核

6、酸數(shù)據(jù)庫中比對核酸序列Blastp蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)在蛋白質(zhì)數(shù)據(jù)庫中比對蛋白質(zhì)序列在蛋白質(zhì)數(shù)據(jù)庫中比對蛋白質(zhì)序列Blastx核酸核酸蛋白質(zhì)蛋白質(zhì)在蛋白質(zhì)數(shù)據(jù)庫中比對待檢的核酸序列在蛋白質(zhì)數(shù)據(jù)庫中比對待檢的核酸序列(用所有(用所有6種可讀框翻譯)種可讀框翻譯)Tblastn蛋白質(zhì)蛋白質(zhì)核酸核酸在核酸數(shù)據(jù)庫在核酸數(shù)據(jù)庫(用所有(用所有6種可讀框翻譯)種可讀框翻譯)中比對待檢的蛋白質(zhì)序列中比對待檢的蛋白質(zhì)序列TBlastx核酸核酸核酸核酸在核酸數(shù)據(jù)庫(用所有在核酸數(shù)據(jù)庫(用所有6種可讀框翻譯)種可讀框翻譯)中比對待檢的核酸序列(也用所有中比對待檢的核酸序列(也用所有6種種可讀框翻譯)可讀框翻譯

7、)10兩種版本的BLAST比較一)w 網(wǎng)絡(luò)版本網(wǎng)絡(luò)版本w 包括包括NCBI在內(nèi)的很多網(wǎng)站都提供了在在內(nèi)的很多網(wǎng)站都提供了在線的線的BLAST服務(wù),這也是我們最經(jīng)常用服務(wù),這也是我們最經(jīng)常用到的到的BLAST服務(wù)。網(wǎng)絡(luò)版本的服務(wù)。網(wǎng)絡(luò)版本的BLAST服服務(wù)就有方便,容易操作,數(shù)據(jù)庫同步更新務(wù)就有方便,容易操作,數(shù)據(jù)庫同步更新等優(yōu)點。但是缺點是不利于操作大批量的等優(yōu)點。但是缺點是不利于操作大批量的數(shù)據(jù),同時也不能自己定義搜索的數(shù)據(jù)庫。數(shù)據(jù),同時也不能自己定義搜索的數(shù)據(jù)庫。11w 單機版單機版w 單機版的單機版的BLAST可以通過可以通過NCBI的的ftp站點獲得,站點獲得,有適合不同平臺的版本包括

8、有適合不同平臺的版本包括linux,dos等)。等)。獲得程序的同時必須獲取相應(yīng)的數(shù)據(jù)庫才能在獲得程序的同時必須獲取相應(yīng)的數(shù)據(jù)庫才能在本地進行本地進行BLAST分析。單機版的優(yōu)點是可以處分析。單機版的優(yōu)點是可以處理大批的數(shù)據(jù),可以自己定義數(shù)據(jù)庫,但是需理大批的數(shù)據(jù),可以自己定義數(shù)據(jù)庫,但是需要耗費本地機的大量資源,此外操作也沒有網(wǎng)要耗費本地機的大量資源,此外操作也沒有網(wǎng)絡(luò)版直觀、方便,需要一定的計算機操作水平。絡(luò)版直觀、方便,需要一定的計算機操作水平。兩種版本的BLAST比較二)Why use BLAST?w BLAST 是是NCBI中用來將一個蛋白質(zhì)或中用來將一個蛋白質(zhì)或DNA序列和各種數(shù)據(jù)

9、庫中的其他序列進行序列和各種數(shù)據(jù)庫中的其他序列進行比對的主要工具。比對的主要工具。 BLAST搜索是研究一搜索是研究一個蛋白質(zhì)和基因的最基本的方法之一。個蛋白質(zhì)和基因的最基本的方法之一。BLAST的使用w BLAST 具有非常廣泛的應(yīng)用:具有非常廣泛的應(yīng)用:w 研究可能存在多種剪切方式的表達序列標(biāo)簽。研究可能存在多種剪切方式的表達序列標(biāo)簽。w 尋找對于一個蛋白質(zhì)的功能和尋找對于一個蛋白質(zhì)的功能和/或結(jié)構(gòu)起關(guān)鍵作用的氨或結(jié)構(gòu)起關(guān)鍵作用的氨基酸殘基。基酸殘基。w 確定特定的蛋白質(zhì)或核酸序列有哪些已知的直系同源或確定特定的蛋白質(zhì)或核酸序列有哪些已知的直系同源或旁系同源序列。旁系同源序列。w 確定哪些

10、蛋白質(zhì)和基因在特定的物種中出現(xiàn)。確定哪些蛋白質(zhì)和基因在特定的物種中出現(xiàn)。w 確定一個確定一個DNA或蛋白質(zhì)序列身份。或蛋白質(zhì)序列身份。w 發(fā)現(xiàn)新基因發(fā)現(xiàn)新基因w 確定一個特定基因或蛋白質(zhì)有哪些已經(jīng)發(fā)現(xiàn)了的變種。確定一個特定基因或蛋白質(zhì)有哪些已經(jīng)發(fā)現(xiàn)了的變種。Blast的使用w 首先在首先在NCBI的基因數(shù)據(jù)庫中找到一段基因核苷的基因數(shù)據(jù)庫中找到一段基因核苷酸序列或者是通過測序得到的核苷酸序列)。酸序列或者是通過測序得到的核苷酸序列)。w 將該序列用將該序列用FASTA格式存入記事本。格式存入記事本。w 進入進入Blast界面選擇一種自己所需的功能進行搜界面選擇一種自己所需的功能進行搜索比對。索

11、比對。w 將需要查詢序列鍵入框中選擇數(shù)據(jù)庫和確定比將需要查詢序列鍵入框中選擇數(shù)據(jù)庫和確定比對參數(shù)。對參數(shù)。w Blast比對)比對)網(wǎng)頁版 具體步驟1.登陸登陸blast主頁主頁 /BLAST/2.根據(jù)數(shù)據(jù)類型,選擇合適的程序根據(jù)數(shù)據(jù)類型,選擇合適的程序3.填寫表單信息填寫表單信息4.提交任務(wù)提交任務(wù)5.查看和分析結(jié)果查看和分析結(jié)果1.登陸登陸blast主頁主頁/BLAST/組裝的基因組序列庫基本blast特定的BLAST所有的BLAST基因數(shù)據(jù)庫181920核酸數(shù)據(jù)庫中比對核酸序列蛋白質(zhì)數(shù)據(jù)庫中比對蛋白質(zhì)序列BLASTNBLAS

12、TP蛋白質(zhì)數(shù)據(jù)庫中比對核酸序列蛋白質(zhì)數(shù)據(jù)庫中比對核酸序列核酸數(shù)據(jù)庫中比對蛋白質(zhì)序列21標(biāo)準(zhǔn)蛋白質(zhì)數(shù)據(jù)庫組裝的基因序列庫快速搜索基本操作特定的BLAST所有的BLAST基因數(shù)據(jù)庫23特定的BLAST242.根據(jù)數(shù)據(jù)類型,選擇合適的程序根據(jù)數(shù)據(jù)類型,選擇合適的程序2.根據(jù)數(shù)據(jù)類型,選擇合適的程序根據(jù)數(shù)據(jù)類型,選擇合適的程序blastn (nucleotide BLAST):將一個核酸的查:將一個核酸的查詢序列與一個核酸序列數(shù)據(jù)庫相比較。詢序列與一個核酸序列數(shù)據(jù)庫相比較。blastp (protein BLAST):將一個氨基酸的查詢:將一個氨基酸的查詢序列與一個蛋白質(zhì)序列數(shù)據(jù)庫相比較。這類搜索序列

13、與一個蛋白質(zhì)序列數(shù)據(jù)庫相比較。這類搜索有專門與蛋白質(zhì)搜索相關(guān)的可選參數(shù),如對各種有專門與蛋白質(zhì)搜索相關(guān)的可選參數(shù),如對各種PAM和和BLOSUM打分矩陣的選擇。打分矩陣的選擇。2.根據(jù)數(shù)據(jù)類型,選擇合適的程序根據(jù)數(shù)據(jù)類型,選擇合適的程序blastx (translated BLAST):將一個核酸的查詢:將一個核酸的查詢序列按所有可能的閱讀框翻譯后的序列與一個蛋白序列按所有可能的閱讀框翻譯后的序列與一個蛋白質(zhì)序列數(shù)據(jù)庫進行比較。如若有一個質(zhì)序列數(shù)據(jù)庫進行比較。如若有一個DNA序列,想序列,想知道它編碼什么蛋白質(zhì),用此程序進行搜索。它會知道它編碼什么蛋白質(zhì),用此程序進行搜索。它會自動將自動將DN

14、A翻譯成翻譯成6種可能的蛋白質(zhì)。然后此程序種可能的蛋白質(zhì)。然后此程序就會將翻譯的就會將翻譯的6個蛋白質(zhì)序列逐一與蛋白質(zhì)序列數(shù)個蛋白質(zhì)序列逐一與蛋白質(zhì)序列數(shù)據(jù)庫中的各個成員進行比較。據(jù)庫中的各個成員進行比較。2.根據(jù)數(shù)據(jù)類型,選擇合適的程序根據(jù)數(shù)據(jù)類型,選擇合適的程序tblastx (translated BLAST):將一個核酸查詢:將一個核酸查詢序列的序列的6種框架的翻譯結(jié)果與一個核酸序列數(shù)據(jù)庫種框架的翻譯結(jié)果與一個核酸序列數(shù)據(jù)庫的的6種框架翻譯產(chǎn)物進行比較。該程序不能使用種框架翻譯產(chǎn)物進行比較。該程序不能使用BLAST網(wǎng)頁上提供的主要的去冗余網(wǎng)頁上提供的主要的去冗余(nr)數(shù)據(jù)庫,因數(shù)據(jù)庫

15、,因這一操作很消耗計算機資源。這一操作很消耗計算機資源。283.填寫表單信息填寫表單信息291.序列信息部分填入查詢query的序列序列范圍(默認全部)選擇搜索數(shù)據(jù)庫如果接受其他參數(shù)默認設(shè)置,點擊開始搜索30去冗余GenBank編碼序列PDB + SwissProt + PIR + PRF31常用的檢索數(shù)據(jù)庫32Pdb擁有三維空間結(jié)構(gòu)的原子坐標(biāo)的氨基酸序列庫擁有三維空間結(jié)構(gòu)的原子坐標(biāo)的氨基酸序列庫Nr GenBank 蛋白數(shù)據(jù)庫蛋白數(shù)據(jù)庫ESTExpressed sequence tags,表達序列標(biāo)簽數(shù)據(jù)庫,表達序列標(biāo)簽數(shù)據(jù)庫STSsequence tagged sites,序列標(biāo)簽位點數(shù)據(jù)

16、庫,序列標(biāo)簽位點數(shù)據(jù)庫Htgshigh throughput genomic sequences,高通量基因組序列,高通量基因組序列GSSgenome survey sequences,基因組測定序列,基因組測定序列Yeast酵母基因組中基因編碼的全套蛋白質(zhì)酵母基因組中基因編碼的全套蛋白質(zhì)E.coli大腸桿菌基因組中基因編碼的全套蛋白質(zhì)大腸桿菌基因組中基因編碼的全套蛋白質(zhì)Mito脊椎動物線粒體的全基因組序列脊椎動物線粒體的全基因組序列Alu搜集了靈長類動物的搜集了靈長類動物的Alu重復(fù)序列重復(fù)序列Swissprot蛋白質(zhì)數(shù)據(jù)庫蛋白質(zhì)數(shù)據(jù)庫w nr數(shù)據(jù)庫是合并了若干個主要的蛋白質(zhì)或數(shù)據(jù)庫是合并了

17、若干個主要的蛋白質(zhì)或DNA數(shù)據(jù)庫得到的。這些數(shù)據(jù)庫中經(jīng)常包數(shù)據(jù)庫得到的。這些數(shù)據(jù)庫中經(jīng)常包含有相同的序列,但含有相同的序列,但nr數(shù)據(jù)庫只收錄其中數(shù)據(jù)庫只收錄其中的一個序列的一個序列(即使在即使在nr數(shù)據(jù)庫中出現(xiàn)看上數(shù)據(jù)庫中出現(xiàn)看上去一樣的序列,實際上還是具有一些細節(jié)去一樣的序列,實際上還是具有一些細節(jié)上的區(qū)別上的區(qū)別)。 nr數(shù)據(jù)庫是在要搜索現(xiàn)有的數(shù)據(jù)庫是在要搜索現(xiàn)有的絕大多數(shù)序列時典型和常用的數(shù)據(jù)庫。絕大多數(shù)序列時典型和常用的數(shù)據(jù)庫。33341.序列信息部分填入查詢query的序列序列范圍(默認全部)選擇搜索數(shù)據(jù)庫如果接受其他參數(shù)默認設(shè)置,點擊開始搜索4.提交任務(wù)提交任務(wù)5.查看和分析結(jié)果

18、查看和分析結(jié)果3536具體例子以下列蛋白序列為例,進行BLAST搜素: MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA 371.登陸NCBI的BLAST主頁 /B

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論