分子系統(tǒng)發(fā)生 理論和實踐(共11頁)_第1頁
分子系統(tǒng)發(fā)生 理論和實踐(共11頁)_第2頁
分子系統(tǒng)發(fā)生 理論和實踐(共11頁)_第3頁
分子系統(tǒng)發(fā)生 理論和實踐(共11頁)_第4頁
分子系統(tǒng)發(fā)生 理論和實踐(共11頁)_第5頁
已閱讀5頁,還剩16頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、分子(fnz)系統(tǒng)發(fā)生學:理論和實踐文摘:分子進化是重要的解決各種生物物種或基因之間的關系等問題的起源,發(fā)展和物種的數目變化和遷移模式。測序技術(jsh)的進步了系統(tǒng)發(fā)育分析到一個新的高度。生物進化已經滲透到幾乎每一個分支,過多的分支以及龐雜的分析軟件包讓生物學家犯了愁。在這里,我們審查系統(tǒng)進化分析的主要方法,包括直系、距離、可能性和貝葉斯方法。我們討論他們的優(yōu)勢和劣勢,為其使用提供指導。出現DNA測序技術之前,系統(tǒng)發(fā)育樹幾乎只用于描述(mio sh)在分類學和物種分類之間的關系。今天,生物學的分子測序用于幾乎所有進化分支。除了代表的關系,基因在物種生命之樹上的發(fā)展史是用來描述paralogu

2、es之間的關系在一個基因家族,歷史的人口,病原體的進化- ary和流行病學動態(tài),體細胞的系譜關系在不同的點子和癌癥發(fā)展和語言的進化。最近,分子系統(tǒng)發(fā)生學基因組compari子基因成為一個不可或缺的工具。在這種情況下,它使用:將宏基因組序列,識別基因,監(jiān)管元素和新測序的基因組的非編碼rna;解釋現代和古代個人基因組;重建祖先基因組。在其他應用程序中,發(fā)展史本身可能不是直接利益但不過必須占在分析。這種“樹思維”改變了許多生物學的分支。在群體遺傳學,開發(fā)創(chuàng)新中合并理論和廣泛的可用性的多個個體的基因序列相同物種的發(fā)展促使genealogy-based推理方法,具有轉速- olutionized現代計算

3、人口麝貓- ics。這里,基因樹描述序列樣本的家譜是高度不確定的;他們不是直接興趣但是包含有價值的公司美信模型中的參數。樹想也結下了深厚的人口遺傳學和合成系統(tǒng)發(fā)生學,形成統(tǒng)計進化地理學的新興領域。在物種樹methods2基因樹的單個位點可能不是直接興趣和可能與物種樹相沖突。在未被注意的平均基因樹下多品種聯(lián)合模型,這些方法推斷物種樹盡管基因樹的不確定性。在比較分析,推理之間的關聯(lián)特征(例如,睪丸大小和性濫交)使用現代物種的觀測特征應該考慮物種發(fā)展史避免曲解歷史事件的因果關系。推理的自適應蛋白質進化發(fā)展史是用來跟蹤同義和nonsynonymous substitu沿著樹枝,不確定加速氨基酸變化的情

4、況下,即使發(fā)展史不直接利益。如今,每一個生物學家需要了解系統(tǒng)發(fā)育推斷。然而,一個試驗心理生物學家不熟悉的領域,許多分析方法和軟件的存在似乎令人生畏。在本文中,我們描述當前的套件phylo方法遺傳推斷使用序列數據。我們還討論各種統(tǒng)計標準,有助于選擇最適合一個特定的問題的方法和數據類型。下一代測序(上天)技術的認識產生巨大的數據集。分析這樣的數據集,減少系統(tǒng)誤差,提高模型的魯棒性侵犯更重要如此更比減少隨機抽樣錯誤。我們討論幾個問題在大型數據集的分析,例如哲學樹一個種系發(fā)生是系譜歷史分支長河中不知道的參數。例如,左圖的種系發(fā)生在t0t1時間點內的兩個特殊事件。分支的長度(b0,b1,b2,b3)展示

5、的是在整個進化分支中每兩個位點間預期的替換單位和測量值總和的類型。如果替換數據長時間保持恒定,我們稱之為分子保留時鐘。這棵樹將會有一個超度量的根,意思是從樹尖到樹根的距離是相等的。在樹根上的物種代表年齡是祖先的節(jié)點因此包含長長分支的參數。樹根和分子鐘傲慢的程序分子鐘根。對于親緣關系較近的物種來說,假設這個時鐘不傲慢。分子生物學家分析,不能出現這種結果。如果分支樹上的每一個分支允許有一個獨立(dl)的進化數據,通常用的模型和方法是不能識別根上的特定位點的,所以只有樹上的非根除能被識別推斷出來。一個沒有根的S物種(wzhng)的樹應該有2S-3的距離。據分析通常用的策略是包括物種以外的樹根,眾所周

6、知的親緣關系遠的物種。盡管推斷樹對于(duy)所有的物種都是無根的,但在整個分支的特定位點仍然被相信有根的存在來領導外源物種所以物種內是有根的。這個策略被稱為組織外的根。一個系統(tǒng)進化樹包括節(jié)點和分支,每一個分支 代表一個遺傳宗譜的存在,每一個節(jié)點代表一個新的遺傳宗譜的出現。如果這個樹代表一群物種的關系那么這個節(jié)點代表嗲表五中的形成,在別的context中關系可能就不是這樣了。比如在一個人類的基因序列樹中,一個節(jié)點就會代表一個個體的出生,然而在一個paralogous基因樹中,一個節(jié)點就會代表一個重復基因的出現。系統(tǒng)進化數不是直接發(fā)現的,它是由基因序列或是其他數據推出來的。本次系統(tǒng)進化樹的重建時

7、基于距離和character倆方面。在距離矩陣的方法中,沒對序列的距離被估計,之后的結果用于樹的重建。 基于性狀的方法包括maximum parsimony, maximum likelihood and Bayesian inference 方法。這些方法同時比對所有的序列,如果有一個位點相同就給這個樹加一分。這個樹的分數是 maximum parsi-mony(最大值過度吝嗇)方法里邊的最小的改變值,是 maximum likelihood 方法里的可能值的log值,是Bayesian inference方法里的posterior probability值。在理論上,用分數最高的樹和所有可

8、能的樹做對比,而實際上,因為有很多可能的樹,比如徹底的計算不實一個好的計算方法除非是一個曉得數據,所以我們用了算法來得到啟發(fā)式的樹,經常用一種快速的算法來得到一個starting tree的樹,之后 再用次數來重新排列以計算次數的分數。一個啟發(fā)式的樹不能保證是一個最好的樹在一定的標準下,但是它使得大數據的反洗成為可能。為了描述大數據,這三種方法被用來替換模型之后模型構建。但是maximum parsimon。失敗了。兩個序列的距離用 Markov chain模型中的核酸替換率來計算。幾種通用的模型在FIG.1中北介紹。JC69 模型認為倆個核酸的替換率是相等的。 K80模型認為在 transi

9、tions和 transversions.之間有不同的替換率。倆種方法都預測了四個核苷酸的相同序列,而在HKY85和GTR模型中,這個序列的預測就不是很嚴格,因為在突變率和選擇上的變化,基因和蛋白上的不同位點以不同的速度在進化。在距離的計算中這樣的變化是被gamm(位點的分布律)值來調整的,就像在 JC69 + , HKY85 + or GTR +?模型中一樣。在距離矩陣模型中當序列的距離倍計算之后,序列對比就沒有(mi yu)用處了 。這是一個用相同的方塊(fn kui)的方法用于數據統(tǒng)計來適應直線y=a+bx固定散落的點。是優(yōu)化分支長度導致了被給的分數是Q,這個數最小的分數就是估計這個數的

10、真實值。 最小的進化方法用樹的長度代替Q為樹的選擇,盡管這些樹的分枝(fn zh)長度可以用來估計最小方塊的標準,在最小進化標準下,樹越短就越正確。廣泛運用距離方法是加入鄰居,這是一個群算法和通過開始一棵像星型樹連續(xù)的選擇一對分類去加入到一起的操作。直到一個獲得一個圓滿解決好的樹。這個樹將會被選擇被估計最小樹的長度,兩個分類將會代表他們的祖先并且聯(lián)系到根源分類的數目將會減少一個。最大的距離在分類取代兩個原始分類對于鄰居的討論在不斷地更新。加入鄰居的高效實施在MEGA的方法中找到了。距離方法的優(yōu)點和弱點。第一個距離方法的優(yōu)點是計算的高效性,一組計算是非??斓囊驗樗⒉恍枰c其他很多樹進行最佳標準

11、的比較。由于這個原因,加入鄰居是個很大的具有非常低的可分離性的數據設置分析。記載表明,他用于計算兩個兩個的距離可能非常重要。距離方法表現的非常差在分離序列上。因為大的距離包含了大量的樣品錯誤,大多數的距離方法并不會由于大的距離的估測導致高度的變化。距離的方法對于直線排列的缺口非常的敏感。最大的節(jié)儉節(jié)儉樹的分數。最大的節(jié)儉方法使基因樹的數目通過分配特征情況對于樹上內部的節(jié)點的數量最小化。特征長度是需要改變長度的最小數。然而,樹的分數是所有位點的特征長度的總和,最大節(jié)儉樹是使樹分數最小化的一種樹。一些位點在靠節(jié)儉法在對樹的比較上并沒有用,例如連續(xù)位點,相同的核酸出現在所有的物種有一個特征長度為零在

12、所有的樹上,那種只在一種物種上出現的單獨的核苷酸序列。也能夠被忽略,特征長度也總是相同的。節(jié)儉信息為那些至少有兩個可以區(qū)分的特征。對于四類物種僅僅有三個位點模型XXYY:XYXY:,所在位置是區(qū)分兩個核苷酸序列。這三個模型可能不是相同根源的樹對那四類物種,他們中最大的節(jié)儉樹依靠三個位點模型出現在列隊中的頻率。這個列隊是為了找到在雙源樹中的最小改變的數,這個列隊被他們普遍發(fā)展節(jié)儉工程。節(jié)儉的起源發(fā)展是用來分析所摧毀的形態(tài)學特征,在世紀年代末,他開始用于分子數據,一個節(jié)儉或者可能性是否形態(tài)學的分析是一個公開辯論。這個公開辯論已經被減弱,方法的重要性能夠廣泛被認可,節(jié)儉法仍然被廣泛使用。并不是因為節(jié)

13、儉法被認為是自由假設而是因為它能經常產生合理結果和計算高效。節(jié)儉法的優(yōu)點和缺點。優(yōu)點是因為他很簡單,很容易去描述去理解,它是可調節(jié)的對于嚴謹的數學分析。簡單幫助了電腦高效性的發(fā)展。一個最大的缺點是缺乏一個明確假設,這樣會導致在沒有任何序列進化樹結構的知識的基礎上的可操作性不強。圖二所示:相鄰加入算法。相鄰加入算法是一個分開的聚類算法。它從一棵星型樹開始:兩個節(jié)點然后在這顆樹上聚集在一起(在這個例子中,節(jié)點1和節(jié)點2),在這棵樹的根部減少節(jié)點的數量(shling)至1個(節(jié)點X)。這個過程一直在重復直到一顆完整解決好的進化樹誕生。使它一直存在一個問題名為long-branch-attractio

14、n43。(長枝條誘惑)。如果正確(zhngqu)的進化樹(T1,in FlG 3a)有兩個額外的長枝條,且被一個短的內在枝條分割,簡約性將會朝向一個錯誤推斷的進化樹(T2 in FIG 3b),而且這些長枝條被聚集在一起。當這些枝條在T1中伸長到一定程度時,對于XXYY位置模式的可能性(用于支持正確的進化樹(T1)),可能會比XYXY位置模式(用于支持錯誤的進化樹T2)更小。因此,在序列里有越多的作用位點,就會有越大的可能性對于XXYY模式被觀測到概率比XYXY被觀測到的概率更低,而且更能確定的是:這顆錯誤的進化樹T2將會被選擇作為最簡約的進化樹。因此簡約性匯聚了一顆錯誤的進化樹,并且所提供的

15、數據前后不一致。long-branch-attraction43(長枝條誘惑)已經被證實在許多真實和模擬的數據集合,并且是由于簡約性引導在同一位點正確的多水平的變化的錯誤或者是適應在兩個長枝條的平行變化??碦EFS的24,25頁有更多關于這個問題的討論。值得注意的是,如果假設模型過于簡單,忽略了節(jié)點之間的速度變化,那么(n me)基于模型的方法(即 距離,似然法和貝葉斯方法)也遭受長枝吸引。在深層次的系統(tǒng)發(fā)育結構的重建中,長枝吸引(以及物種之間的不平等的核苷酸或氨基酸的頻率)是系統(tǒng)誤差的重要來源(FIG 3c,d) 。在這個分析中,去使用現實的替代模型或者似然法。貝葉斯方法論是明智可取的選擇。

16、高頻率的生物分類單位的抽樣去打破長枝或者消除高速演化的蛋白以及位點也能夠奏效。 最大相似性最大相似性的基礎,最大可能性是在二十世紀二十年代作為一種估計一個模型中的未知參數的統(tǒng)計方法被R.A.Fisher開發(fā)出,可能性函數被定義為給定參數的數據的概率,但被看做是數據中的一個參數的函數。它代表了數據中與參數有關的所有信息,參數的最大相似估計值是可能性最大化的參數值。通常來講,最大相似估計值在數字上使用了迭代優(yōu)化算法。 MLES有著理想的漸進性質;它們是客觀的,穩(wěn)定的;高效的。最大似然樹重建,第一個DNA序列數據的最大相似性分析的算法是由FLESETEIN開發(fā)的。得益于日益增加的計算能力和軟件的啟用

17、以及序列進化的越發(fā)現實化的模型。使該方法現在已經得到廣泛應用??勺⒁獾剑瑑蓚€優(yōu)化步驟參與了最大相似樹的估計:分支長度的優(yōu)化的計算使每個候選樹的樹得分以找出樹空間中最大似然樹。從一個統(tǒng)計學角度來講,樹(拓撲結構)是一個模型而不是一個參數,而給定樹的分支長度和替換參數是模型中的參數。最大似然樹推理就相當于比較許多統(tǒng)計模型,每個都有相同數量的參數。上文所提到的MLES的引人注目的漸進性質在真實樹被給出未應用于參數估計,但不是最大相似樹。 在各種替代模型下計算一個給定樹的相似性在文獻23、24中有相應解釋。用距離計算的所有替代模型中都可以用在這里。事實上通過比較許多序列容納復雜的模型是可行的。最常用的

18、分子進化中的模型假設序列中的位點可獨立進化,因此相似性是不同位點的概率的產物。在任何特定位點的概率是平均超過無法觀察的在最早節(jié)點的特征狀態(tài)。而相似平均超過所有可能的狀態(tài)。早期的最大似然應用包括PHYP MOLPHY 和PAUP4 現代應用 如PLYML53 PAML54 GARLI55,都不只是計算速度更快但也更有尋找具有高度相似性的樹時高效性。MEGA5的最大似然性最近加入了該方法(fngf),使其更容易被沒有電腦經驗的生物學家們所接受。最大相似性的優(yōu)劣勢。最大相似性的一個優(yōu)勢在于其所有的假象模型都很清晰,所以它們可以被評估和改進。一個最大相似法中復雜進化模型的計算機指令系統(tǒng)的實用性是其由于

19、簡約發(fā)的最大優(yōu)勢。深度中系問題的現代推理運用飽受蛋白質法幾乎完全依賴于相似性和貝葉斯定理(dngl)的方法。第五(d w)頁表1|的幾個功能常用的系統(tǒng)發(fā)育程序名稱簡述參考文獻鏈接貝葉斯進化分析取樣樹木(BEAST)貝葉斯MCMC計劃下的時鐘推斷根性樹種或寬松的時鐘模式。它可用于分析核苷酸序列和氨基酸序列,以及形態(tài)數據。一套程序,如示蹤和FigTree,還提供了用于診斷,總結和可視化結果http:/beast.bio.ed.ac.uk遺傳算法快速似然推斷(GARLI)使用遺傳算法的程序來搜索最大似然樹。它包括GTR+模型和特殊情況,可以分析核苷酸,氨基酸和密碼子的序列。并行版本也已經推出/p/g

20、arli假設使用測試系統(tǒng)發(fā)育(的HyPHY)最大似然程序的分子進化的擬合模型。它實現,用戶可以用它來指定模型一個高級語言和建立似然比檢驗分子進化遺傳分析(MEGA基于Windows的程序采用了全圖形化的用戶界面,可以在Mac OSX或Linux上使用的Windows模擬器上運行。它包括距離,系統(tǒng)發(fā)育重建的簡約性和可能性的方法,雖然其優(yōu)勢在于距離的方法。它采用了比對程序從GenBank中的ClustalW和可檢索數據MrBayes貝葉斯MCMC計劃系統(tǒng)發(fā)育推斷。它包括所有的核苷酸,氨基酸和密碼子替代的模型開發(fā)的可能性分析系統(tǒng)發(fā)育分析通過最大似然(PAML)方案估計的參數和假設檢驗的集合使用可能性

21、。它主要用于陽性篩選試驗,祖重建和分子鐘約會。它是不適合的搜索樹系統(tǒng)發(fā)育分析采用簡約*和其它方法(PAUP*4.0)PAUP*4.0仍然是一個beta版本(在撰寫本文時)。它實現了簡約,系統(tǒng)發(fā)育重建的距離和似然法PHYLIP程序包通過的距離,簡約的進化推理程序和似然法PhyML快速程序用于搜索使用核苷酸的最大似然樹或蛋白質序列數據RAxML快速程序用于搜索下GTR的最大似然樹模型使用的核苷酸或氨基酸序列。水貨版本特別是強大的采用新樹分析技術(TNT)快速節(jié)儉計劃,旨在對非常大的數據集注:所有程序可以在Windows,Mac OSX和Unix或Linux平臺(pngti)上運行。除了PAUP*,

22、其中收取象征性的費用,所有的包都是免費下載。見費爾森斯丁的綜合節(jié)目列表/phylip/software.html。GTR,一般(ybn)時間可逆的;MCMC,馬氏鏈蒙特卡羅。似然比檢驗一般的假設檢驗使用該方法似然性來比較兩個嵌套的假說,通常使用的2分布,以評估的意義。分子鐘該假說或觀察的進化速率不隨時間變化或整個譜系。先驗分布分配的分配之前的參數分析的數據(shj)。后驗分布的分布參數(或模型)條件的數據。它結合信息在現有和在數據(可能性)。(本段文字為左邊邊框內容)對于這種推論,它做為模型,以適應位點之間可變的氨基酸取代率或甚至這些位點之間不同氨基酸的頻率是很重要的。最大似然擁有距離有明顯的

23、優(yōu)勢或簡約性方法,如果目的是為了理解序列進化的過程。似然比測試可以用來檢查演化模型的擬合,并測試一些有趣的生物的假說,如分子時鐘和達爾文選擇影響蛋白質進化。見參考文獻22,24,64,65為摘要這樣的測試在系統(tǒng)發(fā)育。最大似然法的主要缺點是似然度計算和,特別是樹搜索可能性準則下的計算苛刻。另一個缺點在于,該方法具有可能不佳的統(tǒng)計特性,如果模型錯誤識別。這也是真正的貝葉斯分析(表2).貝葉斯方法貝葉斯推理的基礎。貝葉斯推理是一般統(tǒng)計推斷的方法。它不同于在最大似然模型中的參數被認為是隨機變量的統(tǒng)計分布,而在最大似然他們未知固定常數的分析之前,數據時,參數被分配一個先驗分布,這是結合的數據(或可能性)

24、來生成后驗分布。所有有關的推論參數,然后基于所述后驗分布。在過去的二十年中,貝葉斯推理具有得到普及得益于先進的計算方法,特別是馬爾可夫鏈蒙特卡羅算法(MCMC算法)。貝葉斯系統(tǒng)發(fā)育。貝葉斯推理介紹在十九世紀九十年代后期分子(fnz)系統(tǒng)學。早期的方法,假設一個分子鐘。更高效的MCMC 算法發(fā)展這消除了時鐘的假設(允許獨立在無根樹分支長度)和該方案MrBayes的新聞稿中所作的方法分子systematists的歡迎。一個更近在程序BEAST72用途貝葉斯實施所謂寬松的時鐘模型來推斷根樹盡管該模型允許替代率改變跨譜系(表1)。結論(jiln)第六頁的圖中的。a Correct tree, T1正確

25、(zhngqu)的樹b Wrong tree, T2錯誤的樹c The Gnepine tree能力有限未查到d The GneCup tree能力有限未查到然后圖里其他的是各種屬名,就沒翻譯。圖三。在理論上和實踐上的長枝吸引。圖a和b依據Felsenstein顯示了對四個物種情況的分析。如果正確的樹(T1)有兩個長分支由一個內部短分支隔開,簡約性(以及在簡單模型中基于模型的方法如似然法和貝葉斯法)傾向于恢復錯誤樹(T2),兩個長分支被組合在一起。圖c和d顯示出類似的現象用一個真實數據集合。關于種子植物的系統(tǒng)發(fā)生。買麻藤目是一個形態(tài)學和生態(tài)上裸子植物的不同分組,包括三個屬(麻黃,買麻藤和千歲蘭

26、),但其系統(tǒng)發(fā)育位置一直存在爭議。最大似然分析葉綠體蛋白質產生GneCup樹(d),麻黃目與Cupressophyta分組,顯然由于長枝吸引加工。然而,Gnepine樹(c),麻黃目連接松科,排除進化最快的。不包括18蛋白質以及三種蛋白質(即psbC rpl2和rps7),推斷出經歷過許多平行的替換日本柳杉分支和分支之間的祖先是買麻藤目。Gnepine樹(c)還支持兩種蛋白質的核基因組和看上去是正確的樹。分支長度和引導比例都是使用RAxML計算的。有關詳細信息,請參閱REF134。正文貝葉斯推理依賴于貝葉斯定理,公式是這樣的P(T,)是樹T的先驗概率和參數,P(D | T,)的可能性或概率鑒于

27、樹的數據和參數,P(T,| D)是后驗概率。分母P(D)是標準化常數,它的作用是確保P(T,| D)的和依靠樹木和集成在一個參數上。定理公式是后與前時間成正比的可能性,或者是嗎是之前的信息加上后信息數據信息。一般來說,樹的后驗概率不能直接計算。特別是,標準化常數(P(D)涉及高維積分所有可能的參數值)在所有可能的樹求和。相反,貝葉斯系統(tǒng)發(fā)育推斷依賴于采樣算法從后驗分布上來生成一個樣本,這是示框2。見第5章介紹采樣的REF。24。貝葉斯推理的優(yōu)點和缺點方法。似然法和貝葉斯方法使用似然函數,從而分享許多統(tǒng)計的屬性,如一致性和效率。然而,最大似然法和貝葉斯推理表示反對哲學的統(tǒng)計推斷。貝葉斯推理看上去

28、是作為一個優(yōu)勢或劣勢相同的特性,取決于一個人的哲學。參見REF24共同的簡要描述。在這里我們評論兩個問題結果的可解釋性和之前信息模型的實用性。首先,眾所周知,貝葉斯統(tǒng)計回答生物問題直接和收益結果是容易解釋:樹的后驗概率是,這里樹是正確的樹??紤]到旁邊(pngbin)小字馬爾可夫鏈蒙特卡羅算法(采樣算法)。一個(y )蒙卡洛模擬是計算機模擬生物使用隨機過程數字。一個采樣算法蒙特卡洛模擬算法,生成一個樣本的目標分布(通常是一個貝葉斯后驗分布)。不同的樹重建方法的優(yōu)點(yudin)和缺點的總結簡約的方法 :優(yōu)點簡單而直觀的吸引力 唯一的框架,適用于一些數據 (如正弦和LINES)缺點假設是隱式的,并

29、了解甚少 缺乏一個模型使得它幾乎不可能把我們的序列進化的知識合并分支長度基本上是低估了的時候 替代率很高 最大簡約法可能遭受長期分支的吸引力 距離法 優(yōu)點:快速的運算速度 只要遺傳距離確定了可應用到任何類型的數據可以選擇適應的數據計算模型的距離缺點:大多數距離的理論,如相鄰數據加入,不考慮距離估計的方差 距離的計算是有問題的,當序列是發(fā)散的,涉及到許多對準缺口 負分支長度是沒有意義的似然方法 優(yōu)點:可以使用復雜的替換機型 使生物接近現實 強大的框架來估計參數和進行假設檢驗缺點:最大似然法涉及大量的計算 拓撲結構不是一個參數,使其難以適用來估計最大似然理論,引導 比例很難解釋貝葉斯方法 優(yōu)點:可

30、以用現實的替代模型,如最大似然法 首先先存概率包含一些信息或專業(yè)知識 其次系統(tǒng)樹和進化枝的后驗概率更容易被解釋缺點:Markov chain Monte Carlo(MCMC)中涉及大量的計算 大量數據表明,MCMC收斂和混合問題都很難識別和糾正 首先沒有信息的話概率很難確定。對于那些后來的沒有知識的研究者們來說,多維的概率可能會產生不當影響 后驗概率往往會出現過高的現象 模型的選擇會涉及到很多具有挑戰(zhàn)性的計算與此相反,像是最大似然法的分析中,類似于置信區(qū)間這樣的概念有著人為的解釋,模糊了很多數據的使用者們。在系統(tǒng)發(fā)育中,還不可能確定一棵樹的置信區(qū)間。盡管付出很多的努力,廣泛的利用輔助程序的理

31、論但還是很難解釋它。當然老一代人不能完全的否定最大似然法。系統(tǒng)樹和進化枝計算時的后存概率往往出現(chxin)的過高。在很多分析中,所有模型的后驗概率都達到了100%。系統(tǒng)樹的后驗概率(gil)很容易改變模型,使用簡單的模型可能會導致飛漲的后驗概率。系統(tǒng)(xtng)發(fā)生理論的數據評定系統(tǒng)發(fā)生的推理目的是估計進化樹的拓撲結構和它可能的進化枝。存在四種標準用來判斷進化樹的理論。一致性當能夠趨于正確的參數接近無窮時,一個預測的方法就可以說是不矛盾的。當預測的樹接向正確的樹靠近也就是序列上的位置增加時,一個樹的重現方法就是不矛盾的,如果假定的模型是正確的,那么模型方法就是統(tǒng)一的。有一些樹在聯(lián)合中過度節(jié)

32、儉,就可能是矛盾的。Felsensteins證明了這一點并促進了更多的熱門討論。效率在一個參數的統(tǒng)計學評估中,一個無偏斜的有小方差的預測比有大方差的更有效率。在一個發(fā)展史樹中,效率可能用還原一個正確的樹的可能性來評估,這可以通過電腦模擬來預測,重現一個數的復雜意味著MLEs的漸進理論可能是不成立的,然而電腦已經發(fā)現比過度節(jié)儉更高的效率也就是最有可能恢復的正確的樹(MCMC)是一個從一棵樹(或參數值)到另一棵樹的移動的運算法則,從長遠來看,參照樹木(或參數)的比例進行后驗概率。樹參數設置 (T,)構成了該算法的狀態(tài)。在這里,參數may包括: 樹的分支長度和參數的演化模型,如過渡/顛換率比。下述方

33、案說明了主要的MCMC算法的特點。 第1步:初始化,隨機選擇起始樹和啟動參數(T,)。 第2步:主回路步驟2a。建議把樹T.Propose改變成一個新的樹,T *,通過改變當前樹,如果T*具有比當前樹高后驗概率, P(T *,| D) P(T,| D),接受新樹T*。否則,接受T *的概率為:如果T *是公認的,設定T= T *步驟2b。建議更改參數.Propose新的參數值,*,通過改變當前。這里,為了簡單起見,我們假定這些建議是對稱的,這樣的提議*從equals的概率的概率建議from*。如果P(T,*| D) P(T,| D),接受新的*。否則,接受* 概率:如果新的*被接受時,設定=*

34、。步驟2c。鏈中的樣品。打印(d yn)出來(T,)。注意,第一次的算法不需要歸一化常數的計算P(D),因為它消除在提議后比率的步驟(bzhu)2a和2b。第二,從長遠來看,一棵樹的參數設置如果(rgu)比另一組后驗概率高將被更頻繁的算法比訪問:。的確,算法在任意樹上的時間的預期比例正好是它的后驗概率: P(T|D因此,通過計數在算法中各樹被訪問的頻率,我們得到后驗概率的MCMC的估計。對于樹木對值的序列(或鏈)(T,)由算法產生有這樣的可能性,考慮到當前的狀態(tài)(T,),它移動到新的物業(yè)狀態(tài)的概率不依賴于過去的狀態(tài)。此無記憶特性被稱為馬爾可夫特性,其中指出這樣的現狀,未來不取決于在過去。生成的

35、序列稱為馬爾可夫鏈,因為馬爾可夫鏈是由MonteCarlo模擬生成的。魯棒性。(魯棒性就是系統(tǒng)的健壯性。它是在異常和危險情況下系統(tǒng)生存的關鍵)是一種穩(wěn)健的方法,如果它給正確的答案即使它的假設被違反。一些假設關系比其他的重要。隨著序列數據快速增長堆積,抽樣誤差在建樹中顯著減小,所以系統(tǒng)錯誤或穩(wěn)健性的方法變得更加重要。 計算速度。此屬性是容易評估。使用聚類算法鄰近的加入到一棵樹是非??斓?。該方法是搜索下一個最好的標準樹,如最大進化,最大簡約法和最大似然速度較慢。貝葉斯方法的運算速度取決于鏈的長度(由MCMC算法產生的),這是高度依賴于數據的。進化的計算可能是昂貴的,最大似然和貝葉斯推理速度通常比最

36、大簡約較慢。然而,對于大型數據集在計算算法取得基于似然方法方法進行分析以取得相當大的進步。利用新的算法的優(yōu)勢即多核處理器和圖形的計算機處理單元(GPU),正在推動邊界更進一步。大數據集系統(tǒng)發(fā)生分析隨著新的測序技術的出現和完成各種基因組計劃的到來,系統(tǒng)發(fā)育已進入基因組大規(guī)模數據集的時代。在這里,我們就這樣大的數據集討論與分析的幾個問題。 超級樹和超級矩陣處理。兩種方法已被提倡的系統(tǒng)分析數百個基因或蛋白質,特別是當一些位點缺失的一些物種。該supertree方法分別分析了各基因,然后使用啟發(fā)式算法的集合子樹的單個基因組成一個supertree對于所有物種。單獨分析對研究在重建子樹或患病水平基因轉移

37、的區(qū)別有用。然而,這是低效估計一個共同的系統(tǒng)發(fā)育構成所有基因。在超級矩陣的方法中,序列多基因被連接起來以產生一個數據超矩陣,在其中丟失的數據將被一個詢問標記代替,該超級矩陣然后用于重建樹。大多數的超級矩陣分析忽略了基因間的進化動力學差異。需要注意的是一個超級矩陣分析,假定不同的進化模型和不同的樹和分支長度對于基因是相當于一個單獨的或supertree分析。當一個普通的樹位于所有基因之下,理想辦法應該是一個對所有基因的組合(超級矩陣)分析,利用適應在進化過程中周圍基因同源域的可能性。我們的下面的評論涉及到這個組合的方法。缺失數據的影響。很多基因組數據集高度不完全,所以大部分細胞基因矩陣將是空的。

38、雖然,從理論上講,該似然函數(在最大似然和貝葉斯方法)可以正常容納丟失數據,這種大規(guī)模的缺失數據和排列差異的影響并不很好理解的。模擬顯示最大似然和貝葉斯推斷總體表現比鄰居加入或最大簡約處理丟失的數據更好,貝葉斯推理是被發(fā)現進行最佳的。相鄰接合的低性能可被理解為如果考慮極端情況,排除排列差異后,成對距離的計算從不同集合的基因或位點的,其中一些是快速進化的,而另一些正在慢慢演變。對于(duy)傳統(tǒng)(chuntng)的參數估計,我們重視的置信區(qū)間,他表明參與(cny)點的不確定性所述參數的估計值。這在分子系統(tǒng)中是不可能的,如概念中的方差,和當施加到樹木的置信區(qū)間都是沒有意義的。對于距離,簡約又似然的方法,并且

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論