版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、生物序列的相似性搜索 blast簡介及其應(yīng)用,2010年6月 科教信息科,2,序列數(shù)據(jù)的保存格式與相關(guān)數(shù)據(jù)庫資源 在數(shù)據(jù)庫中進行序列相似性搜索 多序列比對 進化樹構(gòu)建與分子進化分析 Motif的尋找與序列的模式識別 RNA二級結(jié)構(gòu),蛋白質(zhì)二、三級結(jié)構(gòu)的預(yù)測 基因芯片的數(shù)據(jù)分析,生物信息學(xué)常見的應(yīng)用與軟件,3,內(nèi)容提要,1.基本概念 相似性,同源性 2.Blast介紹 Blast資源和相關(guān)問題 3.Blast的應(yīng)用 網(wǎng)絡(luò)版,單機版 4.深入了解Blast(改進程序,算法基礎(chǔ)) 5.其他的序列相似性搜索工具(fasta),4,生物序列的相似性,相似性(similarity): 是指一種很直接的數(shù)量
2、關(guān)系,比如部分相同或相似的百分比或其它一些合適的度量。比如說,A序列和B序列的相似性是80,或者4/5。這是個量化的關(guān)系。當(dāng)然可進行自身局部比較。,5,同源性(homology): 指從一些數(shù)據(jù)中推斷出的兩個基因或蛋白質(zhì)序列具而共同祖先的結(jié)論,屬于質(zhì)的判斷。就是說A和B的關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)系。而說A和B的同源性為80都是不科學(xué)的。,生物序列的同源性,6,相似性和同源性關(guān)系,序列的相似性和序列的同源性有一定的關(guān)系,一般來說序列間的相似性越高的話,它們是同源序列的可能性就更高,所以經(jīng)??梢酝ㄟ^序列的相似性來推測序列是否同源。 正因為存在這樣的關(guān)系,很多時候?qū)π蛄械南嗨菩院?/p>
3、同源性就沒有做很明顯的區(qū)分,造成經(jīng)常等價混用兩個名詞。所以有出現(xiàn)A序列和B序列的同源性為80一說。,7,序列相似性比較和序列同源性分析,序列相似性比較: 就是將待研究序列與DNA或蛋白質(zhì)序列庫進行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等; 序列同源性分析: 是將待研究序列加入到一組與之同源,但來自不同物種的序列中進行多序列同時比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;,8,Blast簡
4、介(一),BLAST 是由美國國立生物技術(shù)信息中心(NCBI)開發(fā)的一個基于序列相似性的數(shù)據(jù)庫搜索程序。 BLAST是“局部相似性基本查詢工具”(Basic Local Alignment Search Tool)的 縮寫。,9,Blast 是一個序列相似性搜索的程序包,其中包含了很多個獨立的程序,這些程序是根據(jù)查詢的對象和數(shù)據(jù)庫的不同來定義的。比如說查詢的序列為核酸,查詢數(shù)據(jù)庫亦為核酸序列數(shù)據(jù)庫,那么就應(yīng)該選擇blastn程序。 下表列出了主要的blast程序。,Blast簡介(二),10,主要的blast程序,11,Blast相關(guān)的問題,怎么獲得blast服務(wù),怎么使用的問題? 為什么使用
5、blast,可以獲得什么樣的信息? 其他問題:實際使用時選擇哪種方式(網(wǎng)絡(luò),本地化),參數(shù)的選擇,結(jié)果的解釋,12,Blast資源,1.NCBI主站點: /BLAST/(網(wǎng)絡(luò)版) /blast/ (單機版) 2.其他站點: http:/ http:/nema.cap.ed.ac.uk/ncbi_blast.html /blast/(果蠅) ,13,Blast結(jié)果給出的信息,Blast結(jié)果會列出跟查詢序列相似性比較高,符合限定要求的序列結(jié)果,根據(jù)這些結(jié)
6、果可以獲取以下一些信息。 1.查詢序列可能具有某種功能 2.查詢序列可能是來源于某個物種 3.查詢序列可能是某種功能基因的同源基因 這些信息都可以應(yīng)用到后續(xù)分析中。,14,兩種版本的Blast比較(一),網(wǎng)絡(luò)版本 包括NCBI在內(nèi)的很多網(wǎng)站都提供了在線的blast服務(wù),這也是我們最經(jīng)常用到的blast服務(wù)。網(wǎng)絡(luò)版本的blast服務(wù)就有方便,容易操作,數(shù)據(jù)庫同步更新等優(yōu)點。但是缺點是不利于操作大批量的數(shù)據(jù),同時也不能自己定義搜索的數(shù)據(jù)庫。,15,單機版 單機版的blast可以通過NCBI的ftp站點獲得,有適合不同平臺的版本(包括linux,dos等)。獲得程序的同時必須獲取相應(yīng)的數(shù)據(jù)庫才能在本
7、地進行blast分析。單機版的優(yōu)點是可以處理大批的數(shù)據(jù),可以自己定義數(shù)據(jù)庫,但是需要耗費本地機的大量資源,此外操作也沒有網(wǎng)絡(luò)版直觀、方便,需要一定的計算機操作水平。,兩種版本的Blast比較(二),16,本地WEB版的Blast,在NCBI的FTP上,在blast程序的目錄下,還提供了一種供用戶在自己的服務(wù)器上建立Blast網(wǎng)頁服務(wù)的軟件包(wwwblast)。 使用該軟件包,用戶可以建立一個簡易的進行Blast運算的網(wǎng)站供實驗室人員使用。用于搜索的數(shù)據(jù)庫同樣可以靈活的定義。,17,Blast程序評價序列相似性的兩個數(shù)據(jù),Score:使用打分矩陣對匹配的片段進行打分,這是對各對氨基酸殘基(或堿
8、基)打分求和的結(jié)果,一般來說,匹配片段越長、 相似性越高則Score值越大。 E value:在相同長度的情況下,兩個氨基酸殘基(或堿基)隨機排列的序列進行打分,得到上述Score值的概率的大小。E值越小表示隨機情況下得到該Score值的可能性越低。,18,NCBI提供的Blast服務(wù),登陸ncbi的blast主頁,核酸序列,蛋白序列,翻譯序列,底下有其他一些針對特殊數(shù)據(jù)庫的和查看以往的比對結(jié)果等,19,Blast任務(wù)提交表單(一),1.序列信息部分,填入查詢(query)的序列,序列范圍 (默認全部),選擇搜索數(shù)據(jù)庫,如果接受其他參數(shù)默認設(shè)置,點擊開始搜索,20,Blast任務(wù)提交表單(二)
9、,設(shè)置搜索的范圍,entrez關(guān)鍵詞,或者選擇特定物種,2.設(shè)置各種參數(shù)部分,一些過濾選項,包括簡單重復(fù)序列,人類基因組中的重復(fù)序列等,E值上限,窗口大小,如果你對blast的命令行選項熟悉的話,可以在這里加入更多的參數(shù),21,Blast任務(wù)提交表單(三),3.設(shè)置結(jié)果輸出顯示格式,選擇需要顯示的選項以及顯示的文件格式,顯示數(shù)目,Alignment的顯示方式,篩選結(jié)果,E值范圍,其他一些顯示格式參數(shù),點擊開始搜索,22,提交任務(wù),返回查詢號(request id),可以修改顯示結(jié)果格式,修改完顯示格式后點擊進入結(jié)果界面,23,結(jié)果頁面(一),圖形示意結(jié)果,24,結(jié)果頁面(二),目標(biāo)序列描述部分
10、,帶有g(shù)enbank的鏈接,點擊可以進入相應(yīng)的genbank序列,匹配情況,分值,e值,25,結(jié)果頁面(三),詳細的比對上的序列的排列情況,26,一個具體的例子(blastp),假設(shè)以下為一未知蛋白序列 query_seq MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSS
11、SRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADST QA 我們通過blast搜索來獲取一些這個序列的信息。,27,具體步驟,1.登陸blast主頁 http:/www.ncbi.nlm.
12、/BLAST/ 2.根據(jù)數(shù)據(jù)類型,選擇合適的程序 3.填寫表單信息 4.提交任務(wù) 5.查看和分析結(jié)果,28,分析過程(一),1.登陸ncbi的blast主頁,2.選擇程序,因為查詢序列是蛋白序列可以選擇blastp,點擊進入,也可以選擇tblastn,作為演示, 我們這里選blastp,29,分析過程(二),3.填入序列(copypaste) Fasta格式,或者純序列,4.選擇搜索區(qū)域,這里我們要搜索整個序列,不填,5.選擇搜索數(shù)據(jù)庫,這里我們選nr(非冗余的蛋白序列庫)。,是否搜索保守區(qū)域數(shù)據(jù)庫(cdd),蛋白序列搜索才有。 我們選上,30,分析過程(三),6.限制條件,我們
13、限制在病毒里面找。,7.其他選項保持默認值,打分矩陣,31,分析過程(四),8.輸出格式選項保持默認值,9.點擊開始搜索,32,分析過程(五),10.查詢序列的一些相關(guān)信息,在cdd庫里面找到兩個保守區(qū)域,點擊可以進入,33,分析過程(六),圖形結(jié)果,34,分析過程(七),匹配序列列表,35,分析過程(八),具體匹配情況,36,為什么使用單機版的Blast? 1.特殊的數(shù)據(jù)庫要求。 2.涉及序列的隱私與價值。 3.批量處理 4.其他原因?,單機版的Blast使用(一),37,單機版Blast的基本操作過程 1.下載單機版的Blast程序 /bl
14、ast/executables/ 目錄下,下載對應(yīng)的操作系統(tǒng)版本。 2.解壓程序包(blast-2.28-ia32-linux.tar.gz) 命令是: $ tar zxvf blast-2.28-ia32-linux.tar.gz,單機版的Blast使用(二),38,下載正確的Blast程序包,blast:在本地運行的blast程序包 wwwblast:在本地服務(wù)器建立blast服務(wù)的網(wǎng)站 netblast:blast的客戶端程序,直接鏈接至NCBI的BLAST服務(wù)器,使用BLAST服務(wù),不需瀏覽器。,39,下載正確的Blast程序包,Blast程序包的名字上還包括了該程序包運行的硬件和操作
15、系統(tǒng)環(huán)境:,硬件環(huán)境(CPU),操作系統(tǒng),sparc,powerPC,ia32,ia64,amd64,mips,alpha,linux,macox,solaris,irix,aix,freebsd,win32,hpux,40,3.獲取Blast數(shù)據(jù)庫 a.直接從ncbi下載 /blast/db/ b.用Blast程序包提供的formatdb工具自己格式化序列數(shù)據(jù)成數(shù)據(jù)庫。 假設(shè)有一序列數(shù)據(jù)(sequence.fa,多序列,fasta格式),欲自己做成Blast數(shù)據(jù)庫,典型的命令如下:,單機版的Blast使用(三),41,核酸序列: $ ./fo
16、rmatdb i sequence.fa p F o T/F n db_name 蛋白序列: $ ./formatdb i sequence.fa p T o T/F n db_name,單機版的Blast使用(四),42,4.執(zhí)行Blast比對 獲得了單機版的Blast程序,解壓開以后,如果有了相應(yīng)的數(shù)據(jù)庫(db),那么就可以開始執(zhí)行Blast分析了。 單機版的Blast程序包,把基本的blast分析,包括blastn,blastp,blastx等都整合到了blastall一個程序里面。,單機版的Blast使用(五),43,以下是一個典型的blastn分析命令: (待分析序列seq.fa,數(shù)
17、據(jù)庫nt_db) $./blastall p blastn i seq.fa -d nt_db w 7 e 10 o 程序名 輸入 數(shù)據(jù)庫 窗口 e值 輸出 seq.blastn.out 該命令的意思是,對seq.fa文件中的核酸序列對nt_db數(shù)據(jù)庫執(zhí)行blastn搜索,窗口大小是7,e值限制是10,輸出的結(jié)果保存到文件seq.blastn.out 中。,單機版的Blast使用(六),44,5.Blastall的常用參數(shù) -p 程序名應(yīng)該是blastn,blastp,blastx,tblastn,tblastx中的一個 -d 數(shù)據(jù)庫名稱,默認nr -i 查詢序列文件,默認stdin -e E
18、值限制,默認10 -o 結(jié)果輸出文件,默認stdout -F 過濾選項,默認T -a 選擇進行運算的CPU個數(shù),單機版的Blast使用(七),45,進一步深入Blast,1.blast2 2.Megablast 3.Psi-blast 4.其他(rpsblast,blastclust等),46,Blast2,兩個序列的blast比對,給定兩個序列,相互進行blast比對。能快速檢查兩個序列是否存在相似性片斷或者是否一致。這比起全序列比對要快很多。,47,Megablast,megablast采用了貪婪算法(greedy algorithm),它連接了多個查詢序列進行一次搜索比對,這樣節(jié)省了很多
19、搜索數(shù)據(jù)庫的時間。主要針對核酸序列。是blast經(jīng)過優(yōu)化后,適用于由于測序或者其他原因形成的輕微的差別的序列之間的比較,比一般的相似性搜索程序要快10倍,可以很快的完成兩組大數(shù)據(jù)的比對。,48,PSI-blast,Position specific iterative BLAST (PSI-BLAST) 位點特異的迭代blast搜索,主要針對蛋白序列。第一次blast搜索后,結(jié)果中最相似的序列重新構(gòu)建PSSM (位點特異性打分矩陣),然后再使用該矩陣進行第二輪blast搜索,再調(diào)整矩陣,搜索,如此迭代。 最終高度保守的區(qū)域就會得到比較高的分值,而不保守的區(qū)域則分數(shù)降低,趨近0。 這樣可以提高b
20、last搜索的靈敏度。,49,Blast的算法基礎(chǔ),基本思想是:通過產(chǎn)生數(shù)量更少的但質(zhì)量更好的增強點來提高速度。 BALST算法是建立在嚴格的統(tǒng)計學(xué)的基礎(chǔ)之上的。它集中于發(fā)現(xiàn)具有較高的相似性的局部比對,且局部比對中不能含有空位(blast2.0引入了允許插入gap的算法)。 由于局部比對的限制條件,在大多數(shù)情況下比對會被分解為若干個明顯的HSP(High-score Sequence Pairs)。,50,Blast的算法流程,51,首先確定一個終止值S、步長參數(shù)w和一個閾值T。然后軟件會在考慮搜索背景性質(zhì)的基礎(chǔ)上計算出合適的S值。使要比對的序列中包含一個分值不小于S的HSP。,Blast的算
21、法(一),52,Blast的算法(二),2. 引入鄰近字串的思想:不需要字串確切地匹配,當(dāng)有一個字串的分值高于T時,BALST就宣稱找到了一個選中的字串。為了提高速度,允許較長的字串長度W。W值很少變化,這樣,T值就成為權(quán)衡速度和敏感度的參數(shù)。,53,Blast的算法(三),一個字串選中后,程序會進行沒有空位的局部尋優(yōu),比對的最低分值是S,當(dāng)比對延伸時會遇到一些負的分值,使得比對的分值下降,當(dāng)下降的分值小于S時,命中的延伸就會終止。這樣系統(tǒng)會減少消耗于毫無指望的選中延伸的時間,使系統(tǒng)的性能得以改進。,54,在1997年提出了對BLAST程序的改進算法,提高了搜索速度、敏感度和實用性。 可處理間
22、隔(gap)的gapped BLAST算法 PSI-BLAST算法 對一個選中字串長度標(biāo)準(zhǔn)的延伸 利用profile(表頭文件)的數(shù)據(jù)結(jié)構(gòu)來進行搜索,Blast的改進(一),55,以兩個步長各為w的字串開始搜索 。 若兩個字竄在序列上不重疊,并且位于同一對角線上,并且距離在A之內(nèi),則將這兩個字串聯(lián)起來作為搜索的起點。 執(zhí)行通常的BLAST算法,使用一種不同的記分方式,根據(jù)高度顯著比對(HSPs)的最高分值建立一個最初的profile。,Blast的改進(二),56,根據(jù)該profile反復(fù)利用BLAST算法對數(shù)據(jù)庫進行搜索,這一步實際上是根據(jù)表頭文件的統(tǒng)計結(jié)果擴展局部比對。這一過程是反復(fù)進行的
23、,直到再沒有發(fā)現(xiàn)新的有意義的匹配為止。由于在每一輪都會有新的片段加入,因此在操作過程中profile需要在每一個循環(huán)結(jié)束之后更新。,Blast的改進(三),57,58,數(shù)據(jù)庫搜索工具的sensitivity與selectivity,Sensitivity:盡可能多地搜索到具有一定相似性的序列的能力。 Selectivity:盡可能準(zhǔn)確地搜索到對研究目的有用的相似性的序列的能力。,59,其他的序列相似性搜索工具 fasta,FastA算法是由Lipman和Pearson于1985年發(fā)表的(Lipman和Pearson,1985)。FastA的基本思路是識別與代查序列相匹配的很短的序列片段,稱為k
24、-tuple。 以下鏈接是EBI提供的fasta服務(wù)。 http:/www.ebi.ac.uk/fasta33/,60,幫助信息,各個參數(shù)選項,填入搜索序列,61,基本思想是:一個能夠揭示出真實的序列關(guān)系的比對至少包含一個兩個序列都擁有的字(片斷),把查詢序列中的所用字編成索引,然后在數(shù)據(jù)庫搜索時查詢這些索引,以檢索出可能的匹配,這樣那些命中的字很快被鑒定出來。,FASTA算法基礎(chǔ),62,確定參數(shù)ktup,在兩個序列中查找長度為ktup的、相匹配的片段(增強點)。為了提高速度,可以通過查詢表格或hash表來完成,然后在表格中搜索與另一條序列相匹配的、長度為ktup的片段。,FASTA算法(一),63
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 土地轉(zhuǎn)讓協(xié)議書范文6篇
- 七年級上學(xué)期教學(xué)計劃范文六篇
- 2023年一周工作計劃
- 形容冬天寒冷的經(jīng)典句子120句
- 三年級第二學(xué)期美術(shù)教學(xué)計劃
- 實習(xí)工作總結(jié)錦集十篇
- 新年工作計劃(3篇)
- 《秋天的水果》中班教案
- 大學(xué)生暑期三下鄉(xiāng)心得體會
- 防校園欺凌主題班會教案
- 中國土地制度智慧樹知到期末考試答案章節(jié)答案2024年浙江大學(xué)
- 手術(shù)物品準(zhǔn)備完善率
- 2024年西藏自治區(qū)中考地理真題(原卷版)
- 成人高考JAVA程序設(shè)計(考試復(fù)習(xí)資料)
- MOOC 電路理論-華中科技大學(xué) 中國大學(xué)慕課答案
- 物流園區(qū)運營管理承包合同樣本
- 國家職業(yè)技術(shù)技能標(biāo)準(zhǔn) 6-02-06-10 茶葉加工工 2024年版
- 2024年四川成都市金牛國投人力資源服務(wù)有限公司招聘筆試參考題庫含答案解析
- 腦栓塞患者的護理
- 2024-2024新課標(biāo)全國卷1-地理-(附答案)
- 無人駕駛清掃車市場調(diào)查數(shù)據(jù)報告2024年(含現(xiàn)狀分析市場排名數(shù)據(jù)及未來預(yù)測)
評論
0/150
提交評論