進化分析軟件綜述.doc_第1頁
進化分析軟件綜述.doc_第2頁
進化分析軟件綜述.doc_第3頁
進化分析軟件綜述.doc_第4頁
進化分析軟件綜述.doc_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

大家好:我在此介紹幾個進化樹分析及其相關軟件的使用和應用范圍。這幾個軟件分別是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN(LINUX)。在介紹軟件之前,我先簡要地敘述一下有關進化樹分析的一些方法學問題。進化樹也稱種系樹,英文名叫“Phyligenetic tree”。對于一個完整的進化樹分析需要以下幾個步驟: 要對所分析的多序列目標進行排列(To align sequences)。做ALIGNMENT的軟件很多,最經(jīng)常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。 要構建一個進化樹(To reconstrut phyligenetic tree)。構建進化樹的算法主要分為兩類:獨立元素法(discrete character methods)和距離依靠法(distance methods)。所謂獨立元素法是指進化樹的拓撲形狀是由序列上的每個堿基/氨基酸的狀態(tài)決定的(例如:一個序列上可能包含很多的酶切位點,而每個酶切位點的存在與否是由幾個堿基的狀態(tài)決定的,也就是說一個序列堿基的狀態(tài)決定著它的酶切位點狀態(tài),當多個序列進行進化樹分析時,進化樹的拓撲形狀也就由這些堿基的狀態(tài)決定了)。而距離依靠法是指進化樹的拓撲形狀由兩兩序列的進化距離決定的。進化樹枝條的長度代表著進化距離。獨立元素法包括最大簡約性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距離依靠法包括除權配對法(UPGMAM)和鄰位相連法(Neighbor-joining)。 對進化樹進行評估。主要采用Bootstraping法。進化樹的構建是一個統(tǒng)計學問題。我們所構建出來的進化樹只是對真實的進化關系的評估或者模擬。如果我們采用了一個適當?shù)姆椒ǎ敲此鶚嫿ǖ倪M化樹就會接近真實的“進化樹”。模擬的進化樹需要一種數(shù)學方法來對其進行評估。不同的算法有不同的適用目標。一般來說,最大簡約性法適用于符合以下條件的多序列:i 所要比較的序列的堿基差別小,ii 對于序列上的每一個堿基有近似相等的變異率,iii 沒有過多的顛換/轉換的傾向,iv 所檢驗的序列的堿基數(shù)目較多(大于幾千個堿基);用最大可能性法分析序列則不需以上的諸多條件,但是此種方法計算極其耗時。如果分析的序列較多,有可能要花上幾天的時間才能計算完畢。UPGMAM(Unweighted pair group method with arithmetic mean)假設在進化過程中所有核苷酸/氨基酸都有相同的變異率,也就是存在著一個分子鐘。這種算法得到的進化樹相對來說不是很準確,現(xiàn)在已經(jīng)很少使用。鄰位相連法是一個經(jīng)常被使用的算法,它構建的進化樹相對準確,而且計算快捷。其缺點是序列上的所有位點都被同等對待,而且,所分析的序列的進化距離不能太大。另外,需要特別指出的是對于一些特定多序列對象來說可能沒有任何一個現(xiàn)存算法非常適合它。最好是我們來發(fā)展一個更好的算法來解決它。但無疑這是非常難的。我想如果有人能建立這樣一個算法的話,那他(她)完全可以在Proc.Natl.Acad.Sci.USA.上發(fā)一篇高質(zhì)量的文章。 下面介紹幾個軟件的使用。首先是PHYLIP。其是多個軟件的壓縮包,下載后雙擊則自動解壓。當你解壓后就揮發(fā)現(xiàn)PHYLIP的功能極其強大,主要包括五個方面的功能軟件:i,DNA和蛋白質(zhì)序列數(shù)據(jù)的分析軟件。ii,序列數(shù)據(jù)轉變成距離數(shù)據(jù)后,對距離數(shù)據(jù)分析的軟件。 iii,對基因頻率和連續(xù)的元素分析的軟件。iv,把序列的每個堿基/氨基酸獨立看待(堿基/氨基酸只有0和1的狀態(tài))時,對序列進行分析的軟件。v,按照DOLLO簡約性算法對序列進行分析的軟件。vi,繪制和修改進化樹的軟件。在此,我主要對前兩種功能軟件進行說明。 我們現(xiàn)在有幾個序列如下:Mo3 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCATMo5 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo6 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo7 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCATMo8 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCATMo9 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo12 ATGTATTTCGTACATTACTG CCAGCCACCATGAATATTGTACGGTACCATMo13 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT要對這8個序列進行進化樹分析,按照上面的步驟,首先用CLUSTALX排列序列,輸出格式為 *.PHY。用記事本打開如下圖:圖中的8和50分別表示8個序列和每個序列有50個堿基。然后,打開軟件SEQBOOT,如下圖:按路徑輸入剛才生成的 *.PHY文件,并在Random number seed (must be odd) ?的下面輸入一個4N+1的數(shù)字后,屏幕顯示如下:圖中的D、J、R、I、O、1、2代表可選擇的選項,鍵入這些字母,程序的條件就會發(fā)生改變。D選項無須改變。J選項有三種條件可以選擇,分別是Bootstrap、Jackknife和Permute。文章上面提到用Bootstraping法對進化樹進行評估,所謂Bootstraping法就是從整個序列的堿基(氨基酸)中任意選取一半,剩下的一半序列隨機補齊組成一個新的序列。這樣,一個序列就可以變成了許多序列。一個多序列組也就可以變成許多個多序列組。根據(jù)某種算法(最大簡約性法、最大可能性法、除權配對法或鄰位相連法)每個多序列組都可以生成一個進化樹。將生成的許多進化樹進行比較,按照多數(shù)規(guī)則(majority-rule)我們就會得到一個最“逼真”的進化樹。Jackknife則是另外一種隨機選取序列的方法。它與Bootstrap法的區(qū)別是不將剩下的一半序列補齊,只生成一個縮短了一半的新序列。Permute是另外一種取樣方法,其目的與Bootstrap和Jackknife法不同,這里不再介紹。R選項讓使用者輸入republicate的數(shù)目。所謂republicate就是用Bootstrap法生成的一個多序列組。根據(jù)多序列中所含的序列的數(shù)目的不同可以選取不同的republicate。當我們設置好條件后,鍵入Y按回車。得到一個文件outfile Outfile用記事本打開如下:這個文件包括了100個republicate。打開DNAPARS(最大簡約性法)或DNAML(最大可能性法)軟件。將剛才生成的outfile文件更名后輸入。如下圖:選項O是讓使用者設定一個序列作為outgroup。一般選擇一個親緣關系與所分析序列組很接近的序列作為outgroup(本例子不選outgroup),outgroup選擇的好壞將直接影響到最后的進化樹的好壞。選項M是輸入剛才設置的republicate的數(shù)目。設置好條件后,鍵入Y按回車。生成兩個文件outfile和treefile。Outfile打開如下圖:該文件包括了227個進化樹。Treefile可以用TREEVIEW軟件打開同樣包含了這227個進化樹。打開CONSENSE軟件,將剛才生成的treefile文件更名后輸入。如下圖:鍵入Y按回車。生成兩個文件outfile和treefile。Treefile用TREEVIEW打開,如下圖:Outfile打開如下圖:我們看出兩個樹是同樣的。但在outfile的樹上的數(shù)字表示該枝條的Bootstrap支持率(除以100.6)。到現(xiàn)在,8個序列的進化樹分析(最大簡約法)已經(jīng)完成。 如果要用鄰位相連法對這8個序列進行分析的話,也首先執(zhí)行SEQBOOT軟件將這8個序列變成100個republicate。然后,打開DNADIST軟件,把SEQBOOT生成的文件輸入,如下圖:選項D有四種距離模式可以選擇,分別是Kimura 2-parameter、Jin/Nei、Maximum-likelihood和Jukes-Cantor。選項T一般鍵入一個15-30之間的數(shù)字。選項M鍵入100。運行后生成文件如下圖:這個文件包含了與輸入文件相同的100個republicate,只不過每個republicate是以兩兩序列的進化距離來表示。文件中的每個republicate都省略了第一排的Mo3 Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13。以這個輸出文件為輸入文件,執(zhí)行NEIGHBOR軟件。如下圖:選項M鍵入100。生成兩個文件outfile和treefile用記事本和TREEVIEW打開后,發(fā)現(xiàn)這兩個文件都含有100個進化樹。再將treefile文件更名后輸入CONSENSE軟件,又得到兩個文件outfile和treefile,這就是最后的結果。以上是對DNA序列的分析,如果要對蛋白質(zhì)序列進行分析,PROTDIST、PROTPARS等軟件。其他軟件的用法可以參照PHYLIP的documents。下面介紹PUZZLE軟件。它是用最大可能性的方法來構建進化樹的一個軟件,并且對樹進行bootstrap評估。該軟件搜尋進化樹時用的算法是quartet puzzling,這個算法相對較快,但如要分析的序列較多時,也相當耗時。另有LINUX版,運行起來相對較快。PUZZLE的輸入格式為PHYLIP INTERLEAVED

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論