生物序列的相似搜索blast簡介及其應(yīng)用市公開課獲獎?wù)n件省名師優(yōu)質(zhì)課賽課一等獎?wù)n件_第1頁
生物序列的相似搜索blast簡介及其應(yīng)用市公開課獲獎?wù)n件省名師優(yōu)質(zhì)課賽課一等獎?wù)n件_第2頁
生物序列的相似搜索blast簡介及其應(yīng)用市公開課獲獎?wù)n件省名師優(yōu)質(zhì)課賽課一等獎?wù)n件_第3頁
生物序列的相似搜索blast簡介及其應(yīng)用市公開課獲獎?wù)n件省名師優(yōu)質(zhì)課賽課一等獎?wù)n件_第4頁
生物序列的相似搜索blast簡介及其應(yīng)用市公開課獲獎?wù)n件省名師優(yōu)質(zhì)課賽課一等獎?wù)n件_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

生物序列相同性搜索

-blast介紹及其應(yīng)用6月科教信息科1/731序列數(shù)據(jù)保留格式與相關(guān)數(shù)據(jù)庫資源在數(shù)據(jù)庫中進行序列相同性搜索多序列比對進化樹構(gòu)建與分子進化分析Motif尋找與序列模式識別RNA二級結(jié)構(gòu),蛋白質(zhì)二、三級結(jié)構(gòu)預(yù)測基因芯片數(shù)據(jù)分析生物信息學(xué)常見應(yīng)用與軟件2/732內(nèi)容提要1.基本概念相同性,同源性2.Blast介紹Blast資源和相關(guān)問題3.Blast應(yīng)用網(wǎng)絡(luò)版,單機版4.深入了解Blast(改進程序,算法基礎(chǔ))5.其它序列相同性搜索工具(fasta)3/733生物序列相同性相同性(similarity):

是指一個很直接數(shù)量關(guān)系,比如部分相同或相同百分比或其它一些適當(dāng)度量。比如說,A序列和B序列相同性是80%,或者4/5。這是個量化關(guān)系。當(dāng)然可進行本身局部比較。4/734同源性(homology):指從一些數(shù)據(jù)中推斷出兩個基因或蛋白質(zhì)序列具而共同祖先結(jié)論,屬于質(zhì)判斷。就是說A和B關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)系。而說A和B同源性為80%都是不科學(xué)。生物序列同源性5/735相同性和同源性關(guān)系序列相同性和序列同源性有一定關(guān)系,普通來說序列間相同性越高話,它們是同源序列可能性就更高,所以經(jīng)常能夠經(jīng)過序列相同性來推測序列是否同源。正因為存在這么關(guān)系,很多時候?qū)π蛄邢嗤院屯葱跃蜎]有做很顯著區(qū)分,造成經(jīng)常等價混用兩個名詞。所以有出現(xiàn)A序列和B序列同源性為80%一說。6/736序列相同性比較和序列同源性分析序列相同性比較:就是將待研究序列與DNA或蛋白質(zhì)序列庫進行比較,用于確定該序列生物屬性,也就是找出與此序列相同已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。慣用程序包有BLAST、FASTA等;序列同源性分析:是將待研究序列加入到一組與之同源,但來自不一樣物種序列中進行多序列同時比較,以確定該序列與其它序列間同源性大小。這是理論分析方法中最關(guān)鍵一步。完成這一工作必須使用多序列比較算法。慣用程序包有CLUSTAL等;7/737Blast介紹(一)

BLAST是由美國國立生物技術(shù)信息中心(NCBI)開發(fā)一個基于序列相同性數(shù)據(jù)庫搜索程序。BLAST是“局部相同性基本查詢工具”(BasicLocalAlignmentSearchTool)縮寫。8/738Blast是一個序列相同性搜索程序包,其中包含了很多個獨立程序,這些程序是依據(jù)查詢對象和數(shù)據(jù)庫不一樣來定義。比如說查詢序列為核酸,查詢數(shù)據(jù)庫亦為核酸序列數(shù)據(jù)庫,那么就應(yīng)該選擇blastn程序。下表列出了主要blast程序。Blast介紹(二)9/739主要blast程序程序名查詢序列數(shù)據(jù)庫搜索方法Blastn核酸核酸核酸序列搜索逐一核酸數(shù)據(jù)庫中序列Blastp蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)序列搜索逐一蛋白質(zhì)數(shù)據(jù)庫中序列Blastx核酸蛋白質(zhì)核酸序列6框翻譯成蛋白質(zhì)序列后和蛋白質(zhì)數(shù)據(jù)庫中序列逐一搜索。Tblastn蛋白質(zhì)核酸蛋白質(zhì)序列和核酸數(shù)據(jù)庫中核酸序列6框翻譯后蛋白質(zhì)序列逐一比對。TBlastx核酸核酸核酸序列6框翻譯成蛋白質(zhì)序列,再和核酸數(shù)據(jù)庫中核酸序列6框翻譯成蛋白質(zhì)序列逐一進行比對。10/7310Blast相關(guān)問題怎么取得blast服務(wù),怎么使用問題?為何使用blast,能夠取得什么樣信息?其它問題:實際使用時選擇哪種方式(網(wǎng)絡(luò),當(dāng)?shù)鼗瑓?shù)選擇,結(jié)果解釋…11/7311Blast資源1.NCBI主站點:

/BLAST/(網(wǎng)絡(luò)版)

/blast/(單機版)2.其它站點:

/blast/

http://nema.cap.ed.ac.uk/ncbi_blast.html

/blast/(果蠅)…12/7312Blast結(jié)果給出信息Blast結(jié)果會列出跟查詢序列相同性比較高,符合限定要求序列結(jié)果,依據(jù)這些結(jié)果能夠獲取以下一些信息。1.查詢序列可能含有某種功效2.查詢序列可能是起源于某個物種3.查詢序列可能是某種功效基因同源基因…這些信息都能夠應(yīng)用到后續(xù)分析中。13/7313兩種版本Blast比較(一)網(wǎng)絡(luò)版本包含NCBI在內(nèi)很多網(wǎng)站都提供了在線blast服務(wù),這也是我們最經(jīng)慣用到blast服務(wù)。網(wǎng)絡(luò)版本blast服務(wù)就有方便,輕易操作,數(shù)據(jù)庫同時更新等優(yōu)點。不過缺點是不利于操作大批量數(shù)據(jù),同時也不能自己定義搜索數(shù)據(jù)庫。14/7314單機版單機版blast能夠經(jīng)過NCBIftp站點取得,有適合不一樣平臺版本(包含linux,dos等)。取得程序同時必須獲取對應(yīng)數(shù)據(jù)庫才能在當(dāng)?shù)剡M行blast分析。單機版優(yōu)點是能夠處理大批數(shù)據(jù),能夠自己定義數(shù)據(jù)庫,不過需要花費當(dāng)?shù)貦C大量資源,另外操作也沒有網(wǎng)絡(luò)版直觀、方便,需要一定計算機操作水平。兩種版本Blast比較(二)15/7315當(dāng)?shù)豔EB版Blast

在NCBIFTP上,在blast程序目錄下,還提供了一個供用戶在自己服務(wù)器上建立Blast網(wǎng)頁服務(wù)軟件包(wwwblast)。使用該軟件包,用戶能夠建立一個簡易進行Blast運算網(wǎng)站供試驗室人員使用。用于搜索數(shù)據(jù)庫一樣能夠靈活定義。16/7316Blast程序評價序列相同性兩個數(shù)據(jù)Score:使用打分矩陣對匹配片段進行打分,這是對各對氨基酸殘基(或堿基)打分求和結(jié)果,普通來說,匹配片段越長、相同性越高則Score值越大。Evalue:在相同長度情況下,兩個氨基酸殘基(或堿基)隨機排列序列進行打分,得到上述Score值概率大小。E值越小表示隨機情況下得到該Score值可能性越低。17/7317NCBI提供Blast服務(wù)登陸ncbiblast主頁核酸序列蛋白序列翻譯序列底下有其它一些針對特殊數(shù)據(jù)庫和查看以往比對結(jié)果等18/7318Blast任務(wù)提交表單(一)1.序列信息部分填入查詢(query)序列序列范圍(默認(rèn)全部)選擇搜索數(shù)據(jù)庫假如接收其它參數(shù)默認(rèn)設(shè)置,點擊開始搜索19/7319Blast任務(wù)提交表單(二)設(shè)置搜索范圍,entrez關(guān)鍵詞,或者選擇特定物種2.設(shè)置各種參數(shù)部分一些過濾選項,包含簡單重復(fù)序列,人類基因組中重復(fù)序列等E值上限窗口大小假如你對blast命令行選項熟悉話,能夠在這里加入更多參數(shù)20/7320Blast任務(wù)提交表單(三)3.設(shè)置結(jié)果輸出顯示格式選擇需要顯示選項以及顯示文件格式顯示數(shù)目Alignment顯示方式篩選結(jié)果E值范圍其它一些顯示格式參數(shù)點擊開始搜索21/7321提交任務(wù)返回查詢號(requestid)能夠修改顯示結(jié)果格式修改完顯示格式后點擊進入結(jié)果界面22/7322結(jié)果頁面(一)圖形示意結(jié)果23/7323結(jié)果頁面(二)目標(biāo)序列描述部分帶有g(shù)enbank鏈接,點擊能夠進入對應(yīng)genbank序列匹配情況,分值,e值24/7324結(jié)果頁面(三)詳細(xì)比對上序列排列情況25/7325一個詳細(xì)例子(blastp)假設(shè)以下為一未知蛋白序列>query_seqMSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA我們經(jīng)過blast搜索來獲取一些這個序列信息。26/7326詳細(xì)步驟1.登陸blast主頁

/BLAST/2.依據(jù)數(shù)據(jù)類型,選擇適當(dāng)程序3.填寫表單信息4.提交任務(wù)5.查看和分析結(jié)果27/7327分析過程(一)1.登陸ncbiblast主頁2.選擇程序,因為查詢序列是蛋白序列能夠選擇blastp,點擊進入也能夠選擇tblastn作為演示,我們這里選blastp28/7328分析過程(二)3.填入序列(copy+paste)Fasta格式,或者純序列4.選擇搜索區(qū)域,這里我們要搜索整個序列,不填5.選擇搜索數(shù)據(jù)庫,這里我們選nr(非冗余蛋白序列庫)。是否搜索保守區(qū)域數(shù)據(jù)庫(cdd),蛋白序列搜索才有。我們選上29/7329分析過程(三)6.限制條件,我們限制在病毒里面找。7.其它選項保持默認(rèn)值打分矩陣30/7330分析過程(四)8.輸出格式選項保持默認(rèn)值9.點擊開始搜索31/7331分析過程(五)10.查詢序列一些相關(guān)信息在cdd庫里面找到兩個保守區(qū)域,點擊能夠進入32/7332分析過程(六)圖形結(jié)果33/7333分析過程(七)匹配序列列表34/7334分析過程(八)詳細(xì)匹配情況35/7335為何使用單機版Blast? 1.特殊數(shù)據(jù)庫要求。 2.包括序列隱私與價值。 3.批量處理 4.其它原因??單機版Blast使用(一)36/7336單機版Blast基本操作過程 1.下載單機版Blast程序/blast/executables/目錄下,下載對應(yīng)操作系統(tǒng)版本。 2.解壓程序包(blast-2.28-ia32-linux.tar.gz)命令是:$tarzxvfblast-2.28-ia32-linux.tar.gz 單機版Blast使用(二)37/7337下載正確Blast程序包blast:在當(dāng)?shù)剡\行blast程序包wwwblast:在當(dāng)?shù)胤?wù)器建立blast服務(wù)網(wǎng)站netblast:blast客戶端程序,直接鏈接至NCBIBLAST服務(wù)器,使用BLAST服務(wù),不需瀏覽器。38/7338下載正確Blast程序包Blast程序包名字上還包含了該程序包運行硬件和操作系統(tǒng)環(huán)境:硬件環(huán)境(CPU)操作系統(tǒng)sparcpowerPCia32ia64amd64mipsalphalinuxmacoxsolarisirixaixfreebsdwin32hpux39/7339 3.獲取Blast數(shù)據(jù)庫 a.直接從ncbi下載

/blast/db/ b.用Blast程序包提供formatdb工具自己格 式化序列數(shù)據(jù)成數(shù)據(jù)庫。 假設(shè)有一序列數(shù)據(jù)(sequence.fa,多序列,fasta格式),欲自己做成Blast數(shù)據(jù)庫,經(jīng)典命令以下:單機版Blast使用(三)40/7340核酸序列:$./formatdb–isequence.fa–pF–oT/F–ndb_name蛋白序列:$./formatdb–isequence.fa–pT–oT/F–ndb_name單機版Blast使用(四)41/73414.執(zhí)行Blast比對 取得了單機版Blast程序,解壓開以后,假如有了對應(yīng)數(shù)據(jù)庫(db),那么就能夠開始執(zhí)行Blast分析了。 單機版Blast程序包,把基本blast分析,包含blastn,blastp,blastx等都整合到了blastall一個程序里面。單機版Blast使用(五)42/7342以下是一個經(jīng)典blastn分析命令:(待分析序列seq.fa,數(shù)據(jù)庫nt_db)$./blastall–pblastn–iseq.fa-dnt_db–w7–e10–o

程序名 輸入數(shù)據(jù)庫窗口e值輸出 seq.blastn.out該命令意思是,對seq.fa文件中核酸序列對nt_db數(shù)據(jù)庫執(zhí)行blastn搜索,窗口大小是7,e值限制是10,輸出結(jié)果保留到文件seq.blastn.out中。單機版Blast使用(六)43/73435.Blastall慣用參數(shù)-p程序名應(yīng)該是blastn,blastp,blastx,tblastn,tblastx中一個-d數(shù)據(jù)庫名稱,默認(rèn)nr-i查詢序列文件,默認(rèn)stdin-eE值限制,默認(rèn)10-o結(jié)果輸出文件,默認(rèn)stdout-F過濾選項,默認(rèn)T-a選擇進行運算CPU個數(shù)單機版Blast使用(七)44/7344深入深入Blast1.blast22.Megablast3.Psi-blast4.其它(rpsblast,blastclust等)45/7345Blast2兩個序列blast比對,給定兩個序列,相互進行blast比對。能快速檢驗兩個序列是否存在相同性片斷或者是否一致。這比起全序列比對要快很多。46/7346Megablastmegablast采取了貪婪算法(greedyalgorithm),它連接了多個查詢序列進行一次搜索比對,這么節(jié)約了很多搜索數(shù)據(jù)庫時間。主要針對核酸序列。是blast經(jīng)過優(yōu)化后,適合用于因為測序或者其它原因形成輕微差異序列之間比較,比普通相同性搜索程序要快10倍,能夠很快完成兩組大數(shù)據(jù)比對。47/7347PSI-blastPositionspecificiterativeBLAST(PSI-BLAST)位點特異迭代blast搜索,主要針對蛋白序列。第一次blast搜索后,結(jié)果中最相同序列重新構(gòu)建PSSM(位點特異性打分矩陣),然后再使用該矩陣進行第二輪blast搜索,再調(diào)整矩陣,搜索,如此迭代。最終高度保守區(qū)域就會得到比較高分值,而不保守區(qū)域則分?jǐn)?shù)降低,趨近0。這么能夠提升blast搜索靈敏度。48/7348Blast算法基礎(chǔ)基本思想是:經(jīng)過產(chǎn)生數(shù)量更少但質(zhì)量更加好增強點來提升速度。BALST算法是建立在嚴(yán)格統(tǒng)計學(xué)基礎(chǔ)之上。它集中于發(fā)覺含有較高相同性局部比對,且局部比對中不能含有空位(blast2.0引入了允許插入gap算法)。因為局部比正確限制條件,在大多數(shù)情況下比對會被分解為若干個顯著HSP(High-scoreSequencePairs)。49/7349Blast算法流程50/7350首先確定一個終止值S、步長參數(shù)w和一個閾值T。然后軟件會在考慮搜索背景性質(zhì)基礎(chǔ)上計算出適當(dāng)S值。使要比正確序列中包含一個分值大于SHSP。Blast算法(一)51/7351Blast算法(二)2.引入鄰近字串思想:不需要字串確切地匹配,當(dāng)有一個字串分值高于T時,BALST就宣稱找到了一個選中字串。為了提升速度,允許較長字串長度W。W值極少改變,這么,T值就成為權(quán)衡速度和敏感度參數(shù)。52/7352Blast算法(三)一個字串選中后,程序會進行沒有空位局部尋優(yōu),比正確最低分值是S,當(dāng)比對延伸時會碰到一些負(fù)分值,使得比正確分值下降,當(dāng)下降分值小于S時,命中延伸就會終止。這么系統(tǒng)會降低消耗于毫無指望選中延伸時間,使系統(tǒng)性能得以改進。53/7353在1997年提出了對BLAST程序改進算法,提升了搜索速度、敏感度和實用性??商幚黹g隔(gap)gappedBLAST算法PSI-BLAST算法對一個選中字串長度標(biāo)準(zhǔn)延伸利用profile(表頭文件)數(shù)據(jù)結(jié)構(gòu)來進行搜索Blast改進(一)54/7354以兩個步長各為w字串開始搜索。若兩個字竄在序列上不重合,而且位于同一對角線上,而且距離在A之內(nèi),則將這兩個字串聯(lián)起來作為搜索起點。執(zhí)行通常BLAST算法,使用一個不一樣記分方式,依據(jù)高度顯著比對(HSPs)最高分值建立一個最初profile。Blast改進(二)55/7355依據(jù)該profile重復(fù)利用BLAST算法對數(shù)據(jù)庫進行搜索,這一步實際上是依據(jù)表頭文件統(tǒng)計結(jié)果擴展局部比對。這一過程是重復(fù)進行,直到再沒有發(fā)覺新有意義匹配為止。因為在每一輪都會有新片段加入,所以在操作過程中profile需要在每一個循環(huán)結(jié)束之后更新。Blast改進(三)56/735657/7357數(shù)據(jù)庫搜索工具sensitivity與selectivitySensitivity:盡可能多地搜索到含有一定相同性序列能力。Selectivity:盡可能準(zhǔn)確地搜索到對研究目標(biāo)有用相同性序列能力。58/7358其它序列相同性搜索工具

-fastaFastA算法是由Lipman和Pearson于1985年發(fā)表(Lipman和Pearson,1985)。FastA基本思緒是識別與代查序列相匹配很短序列片段,稱為k-tuple。以下鏈接是EBI提供fasta服務(wù)。

http://www.ebi.ac.uk/fasta33/

59/7359幫助信息各個參數(shù)選項填入搜索序列60/7360基本思想是:一個能夠揭示出真實序列關(guān)系比對最少包含一個兩個序列都擁有字(片斷),把查詢序列中所用字編成索引,然后在數(shù)據(jù)庫搜索時查詢這些索引,以檢索出可能匹配,這么那些命中字很快被判定出來。FASTA算法基礎(chǔ)61/7361確定參數(shù)ktup,在兩個序列中查找長度為ktup、相匹配片段(增強點)。為了提升速度,能夠經(jīng)過查詢表格或hash表來完成,然后在表格中搜索與另一條序列相匹配、長度為ktup片段。FAST

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論