




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第四章基于距離的系統(tǒng)發(fā)生分析本章內(nèi)容分子系統(tǒng)發(fā)生學(xué)的歷史4.1分子系統(tǒng)發(fā)生分析的優(yōu)點(diǎn)4.2系統(tǒng)發(fā)生樹(shù)4.3距離矩陣法4.4最大似然法4.5多重序列比對(duì)4.64.1分子系統(tǒng)發(fā)生學(xué)的歷史
系統(tǒng)發(fā)生學(xué)是研究物種之間的進(jìn)化關(guān)系的,是進(jìn)化生物學(xué)的一個(gè)重要研究領(lǐng)域,系統(tǒng)發(fā)生分析在達(dá)爾文時(shí)代就已經(jīng)開(kāi)始。從那時(shí)起,科學(xué)家們就開(kāi)始尋找物種的源頭,分析物種之間的進(jìn)化關(guān)系,給各個(gè)物種分門別類。CharlesDarwin(1809-1882)4.1分子系統(tǒng)發(fā)生學(xué)的歷史
1902~1904年,G.H.FNuttall證明了把一個(gè)生物體的血液注射到另一個(gè)生物體時(shí),產(chǎn)生的免疫反應(yīng)的程度與這兩個(gè)生物體的進(jìn)化關(guān)系直接相關(guān)。通過(guò)這些實(shí)驗(yàn),他檢測(cè)了成百種生物之間的關(guān)系,并且最早正確地推斷出人和猿比它們和其它靈長(zhǎng)類動(dòng)物有更近的共同祖先
20世紀(jì)50年代,分子數(shù)據(jù)才開(kāi)始被廣泛應(yīng)用于系統(tǒng)發(fā)生研究。蛋白質(zhì)電泳,使得我們可以在一些淺層特征上(如分子大小、電荷等)來(lái)分離和比較蛋白質(zhì)20世紀(jì)60年代,蛋白質(zhì)測(cè)序成為可能,而在此之前,測(cè)序中等長(zhǎng)度蛋白質(zhì)的全部氨基酸序列都是很不容易的。所有這些方法促進(jìn)了可研究其系統(tǒng)方式的生物體種類的重大改變4.1分子系統(tǒng)發(fā)生學(xué)的歷史20世紀(jì)70年代,研究者開(kāi)始能夠獲得真正的基因組信息。研究者一度熱衷于重建系統(tǒng)發(fā)生關(guān)系,結(jié)果還為面臨著成指數(shù)增長(zhǎng)的數(shù)據(jù)的分子生物學(xué)家們發(fā)展出很多嚴(yán)格的數(shù)學(xué)方法。這是第一次研究者有可能對(duì)系統(tǒng)發(fā)生分類賦予統(tǒng)計(jì)置信度,并且相對(duì)容易地形成關(guān)于進(jìn)化過(guò)程的可驗(yàn)性假設(shè)
如今,DNA序列數(shù)據(jù)比任何其他形式的分子信息都要豐富得多。傳統(tǒng)的基于解剖差異的分類方法仍舊給進(jìn)化提供補(bǔ)充數(shù)據(jù)。古生物學(xué)也提供了關(guān)于生物體積累差異和進(jìn)化真實(shí)時(shí)間不可替代的線索。此外,像PCR(聚合酶鏈?zhǔn)椒磻?yīng))這樣的分子技術(shù)產(chǎn)生同源序列提供了第一手的資料,使得回答關(guān)于地球上生命的歷史和關(guān)系這樣至關(guān)重要的問(wèn)題變得更容易了。4.2分子系統(tǒng)發(fā)生分析的優(yōu)點(diǎn)
遺傳關(guān)系在解碼進(jìn)化關(guān)系上十分重要。分子時(shí)鐘假設(shè)的最大作用是暗示了分子數(shù)據(jù)能用來(lái)解碼所有生命體之間的系統(tǒng)發(fā)生關(guān)系。簡(jiǎn)單說(shuō),就是生物體之間分子相似度越高,他們之間的關(guān)系就越近。表型分析——在能夠利用分子生物學(xué)工具提供的分子數(shù)據(jù)進(jìn)行這種分析之前,分類學(xué)家只能依靠表型的比較來(lái)推斷生物體的基因型。最初的表型檢查僅包括大量粗略的解剖特征,后來(lái)還研究了行為的、超微結(jié)構(gòu)以及生物化學(xué)特性表型分析的局限性趨同進(jìn)化——有時(shí)候關(guān)系很遠(yuǎn)的生物體也能進(jìn)化出相似的表型例如,如果一個(gè)生物學(xué)家按照生物體是否有眼睛來(lái)構(gòu)建進(jìn)化樹(shù),那么他可能將人類、兩翼昆蟲和軟體動(dòng)物放在同一個(gè)進(jìn)化組中許多生物沒(méi)有可用來(lái)進(jìn)行比較的易于研究的表型特征例如,研究細(xì)菌之間的關(guān)系總是困難重重。即使用顯微鏡檢查,細(xì)菌幾乎沒(méi)有明顯特征當(dāng)比較關(guān)系較遠(yuǎn)的生物的時(shí)候,第三個(gè)問(wèn)題出現(xiàn)了,即什么樣的表型特征能用來(lái)比較呢?基于DNA和蛋白質(zhì)序列的分析一般不會(huì)存在這樣的問(wèn)題,因?yàn)楹芏嗤捶肿訉?duì)所有生物都是很基本的概念
系統(tǒng)發(fā)生樹(shù):三個(gè)或者更多基因或生物體之間
進(jìn)化關(guān)系的典型圖示;
大部分系統(tǒng)發(fā)生研究都是圍繞系統(tǒng)發(fā)生樹(shù)的概念進(jìn)行的,它表示了數(shù)據(jù)之間的關(guān)系分歧時(shí)間共同祖先的特征
4.3系統(tǒng)發(fā)生樹(shù)4.3.1重建系統(tǒng)發(fā)生樹(shù)的術(shù)語(yǔ)系統(tǒng)發(fā)生樹(shù)有時(shí)也稱為系統(tǒng)樹(shù)圖,它是由一系列的節(jié)點(diǎn)和分支組成的,其中每個(gè)節(jié)點(diǎn)代表一個(gè)分類單元。分支末端的節(jié)點(diǎn)(外部節(jié)點(diǎn))對(duì)應(yīng)一個(gè)基因或生物體;內(nèi)部節(jié)點(diǎn)代表一個(gè)推斷的共同祖先,它在過(guò)去的某個(gè)時(shí)候分歧出兩個(gè)獨(dú)立的分支。ABCDⅠⅡⅢⅣⅤ外部節(jié)點(diǎn)內(nèi)部節(jié)點(diǎn)根節(jié)點(diǎn)4.3.1重建系統(tǒng)發(fā)生樹(shù)的術(shù)語(yǔ)Newick格式——系統(tǒng)發(fā)生樹(shù)結(jié)構(gòu)的基本信息在計(jì)算機(jī)程序中常用一組嵌套的圓括號(hào)表示,稱為Newick格式,用該格式來(lái)表示上圖中的樹(shù),可寫成(((Ⅰ,Ⅱ)
,(Ⅲ,Ⅳ)),Ⅴ)ABCDⅠⅡⅢⅣⅤ二叉樹(shù)與多叉樹(shù)雖然內(nèi)部節(jié)點(diǎn)可以是多叉,即有三個(gè)或者更多的派生分支,但大多數(shù)樹(shù)的內(nèi)部節(jié)點(diǎn)都只有兩個(gè)分支,稱為二叉節(jié)點(diǎn)多叉節(jié)點(diǎn)可以用以下的兩個(gè)方法之一來(lái)解釋:一個(gè)祖先種群同時(shí)產(chǎn)生了三個(gè)或者更多的獨(dú)立分支過(guò)去某時(shí)發(fā)生了兩個(gè)或者多個(gè)二叉分歧,但是由于可獲得數(shù)據(jù)的限制無(wú)法確定它們發(fā)生的先后次序本章系統(tǒng)發(fā)生樹(shù)主要指二叉樹(shù)一棵系統(tǒng)發(fā)生樹(shù)的分支模式能表達(dá)關(guān)于進(jìn)化事件發(fā)生順序的信息;一棵系統(tǒng)發(fā)生樹(shù)的分支長(zhǎng)度有時(shí)用來(lái)表示不同數(shù)據(jù)集分歧的程度。標(biāo)度樹(shù):是指分支長(zhǎng)度與相鄰節(jié)點(diǎn)對(duì)的差異程度成正比的樹(shù)。在最好的情況下,標(biāo)度樹(shù)是可加的,即連接兩個(gè)節(jié)點(diǎn)的分支的長(zhǎng)度準(zhǔn)確地表示了它們之間的差異非標(biāo)度樹(shù):只是將所有外部節(jié)點(diǎn)排成行,表示他們之間的親緣關(guān)系,而沒(méi)有表示它們之間差異程度的任何信息4.3.2有根樹(shù)和無(wú)根樹(shù)ⅠⅡⅢⅣⅤ根時(shí)間ⅠⅡⅢⅣⅤ⑴有根樹(shù)⑵無(wú)根樹(shù)有根樹(shù),單一的節(jié)點(diǎn)指派為共同的祖先,從祖先節(jié)點(diǎn)只有唯一的路徑進(jìn)化到達(dá)其他任何節(jié)點(diǎn)。無(wú)根樹(shù)只表明了節(jié)點(diǎn)之間的關(guān)系,而沒(méi)有關(guān)于進(jìn)化發(fā)生方向的信息;但是通過(guò)引入外群或外部參考物種,可以在無(wú)根樹(shù)中指派根節(jié)點(diǎn)4.3.2有根樹(shù)和無(wú)根樹(shù)只考慮3個(gè)物種的時(shí)候,有3棵有根(二叉)樹(shù),一棵無(wú)根樹(shù),如下圖所示:ⅠⅡⅠⅡⅢⅠⅢⅡⅡⅢⅠⅢ有根樹(shù)無(wú)根樹(shù)4.3.2有根樹(shù)和無(wú)根樹(shù)描述少量物種之間可能的進(jìn)化關(guān)系的有根樹(shù)和無(wú)根樹(shù)的數(shù)目物種數(shù)目有根樹(shù)數(shù)目無(wú)根樹(shù)數(shù)目211331415351051510344594252207025152134580467678757905853580625208200794532637891559375221643095476699771875n個(gè)物種可能的有根系統(tǒng)發(fā)生樹(shù)(NR)和無(wú)根系統(tǒng)發(fā)生樹(shù)(NU)數(shù)目可用下面的公式計(jì)算得到:
NR=(2n-3)!∕2n-2(n-2)!
NU=(2n-5)!∕2n-3(n-3)!只有一棵樹(shù)代表了(基因或物種)的實(shí)際系統(tǒng)發(fā)生關(guān)系!4.3.3基因樹(shù)和物種樹(shù)區(qū)別:基因樹(shù)為基于單個(gè)同源基因差異構(gòu)建的系統(tǒng)發(fā)生樹(shù);物種樹(shù)一般從多個(gè)基因數(shù)據(jù)中分析得出。只考慮一個(gè)基因的時(shí)候,個(gè)體有可能表現(xiàn)出與其他物種的成員關(guān)系更近的情況。(下圖)基因分化的發(fā)生通常先于產(chǎn)生新物種的種群分離基因分化事件常常在物種形成前或后都有發(fā)生。abcdefG1G2G3SG4G54.3.4特征和距離數(shù)據(jù)用于構(gòu)建系統(tǒng)發(fā)生樹(shù)的分子數(shù)據(jù)分成兩類:(1)
距離(distances)數(shù)據(jù),常用距離矩陣描述,表示兩個(gè)數(shù)據(jù)集之間所有兩兩差異;(2)
特征(characters)數(shù)據(jù),存在有限不同狀態(tài)的特征。
DNA和蛋白質(zhì)序列數(shù)據(jù)描述離散的特征;其他特征數(shù)據(jù)集的例子包括基于解剖學(xué)或行為學(xué)的分類法中較常見(jiàn)的特征,如生物體顏色、生物體對(duì)某種刺激的反應(yīng)時(shí)間等。一旦建立了確定所有可能狀態(tài)之間相似性的標(biāo)準(zhǔn),特征數(shù)據(jù)就很容易轉(zhuǎn)化成距離數(shù)據(jù);例如,來(lái)自兩個(gè)物種的兩個(gè)基因之間的距離值(D)可以簡(jiǎn)單地用序列的最優(yōu)比對(duì)來(lái)確定,計(jì)算匹配的核苷酸數(shù)目(m),將它除以總的位點(diǎn)數(shù)目(t):D=m/t許多生物學(xué)家用“每100個(gè)核苷酸改變數(shù)”來(lái)歸一化距離值。通過(guò)蛋白質(zhì)序列比對(duì)時(shí),也可以用同樣的方法來(lái)計(jì)算蛋白質(zhì)距離。但是,做這樣的轉(zhuǎn)換時(shí),大量重要的潛在生物信息可能會(huì)丟失。比如,我們知道,一些替換更容易發(fā)生在某些特定的核酸和蛋白質(zhì)序列上,因此比對(duì)時(shí),應(yīng)賦予不同的權(quán)重值。以算術(shù)為基礎(chǔ)的系統(tǒng)發(fā)生樹(shù)重建方法,常常忽略數(shù)據(jù)集的生物學(xué)上的意義(本章)。表型分類學(xué)家喜歡使用這種方法,因?yàn)樗麄儼阎攸c(diǎn)放在數(shù)據(jù)集之間的關(guān)系上,而不管他們到達(dá)當(dāng)前狀態(tài)的途徑如何遺傳分類學(xué)家一般更加關(guān)心進(jìn)化的途徑和模式,傾向于使用更多以生物學(xué)為基礎(chǔ)的建樹(shù)方法(第五章)這兩類方法都被廣泛使用,并且對(duì)大部分?jǐn)?shù)據(jù)集都適用4.4距離矩陣法
兩兩距離矩陣是全體有待分析的數(shù)據(jù)集之間差異的表格化總結(jié),包含用于很多常見(jiàn)系統(tǒng)發(fā)生樹(shù)重建算法的原始數(shù)據(jù)。要深入理解這些算法背后的邏輯,讀者首先應(yīng)該理解系統(tǒng)發(fā)生樹(shù)到底傳遞了什么樣的信息,從而選擇不同的算法4.4.1非加權(quán)組平均法(UPGMA)
非加權(quán)組平均法
(UPGMA)是最早的距離矩陣法,20世紀(jì)60年代早期提出,用來(lái)協(xié)助進(jìn)行表型特征的進(jìn)化分析的是基于統(tǒng)計(jì)的,像所有基于距離的方法一樣,要求數(shù)據(jù)能夠精簡(jiǎn)為所有被研究的物種兩兩之間遺傳距離的度量。
一般來(lái)說(shuō),UPGMA方法需要建立一個(gè)距離矩陣。
UPGMA距離矩陣系統(tǒng)發(fā)生樹(shù)ACBDE例:4個(gè)物種A、B、C、D建立的矩陣,假設(shè)其兩兩距離如下所示:數(shù)目ABCBdABCdACdBCDdADdBDdCDdAB表示物種A和B之間的距離,dAC表示物種A和C之間的距離,依次類推。UPGMA算法先將兩個(gè)距離最近的物種合成一個(gè)復(fù)合物種組,如上表所示,假設(shè)距離矩陣中的最小值是dAB,所以物種AB首先組合成一組(AB),聚類以后,需要更新距離矩陣,計(jì)算新組(
AB)和物種C和D之間的距離:d(AB)C
=1/2(
dAC+dBC),d(AB)D
=1/2(
dAD+dBD)然后再將新的矩陣中距離最近的物種再次合成一個(gè)復(fù)合物種組,如此反復(fù),直到把所有物種都聚為一類。
例:兩兩矩陣之間的不匹配的核苷酸數(shù)目物種ABCDB9C811D121510E15181351020304050A:GTGCTGCACGGCTCAGTATAGCATTTACCCTTCCATCTTCAGATCCTGAAB:ACGCTGCACGGCTCAGTGCGGTGCTTACCCTCCCATCTTCAGATCCTGAAC:GTGCTCGCAGGCTCGGCGCAGCATTTACCCTCCCATCTTCAGATCCTATCD:GTATCACACGACTCAGCGCAGCATTTGCCCTCCCGTCTCCAGATCCTAAAE:CTATCACATAGCTCAGCGCAGCATTTGCCCTCCCGTCTTCAGATCTAAAA最小將物種D和E聚成一類,然后再計(jì)算新的距離矩陣
將物種D和E聚成一類,然后再計(jì)算新的距離矩陣物種ABCB9C811DE物種ABCDB9C811D121510E1518135=1/2(dAD+dAE)13.516.511.5=1/2(dBD+dBE)=1/2(dCD+dCE)
將物種A和C聚成一類,然后再計(jì)算新的距離矩陣物種BACACDE16.5物種ABCB9C811DE13.516.511.510=1/2(dAB+dBC)12.5=1/2(dA(DE)+dC(DE))用UPGMA法重建系統(tǒng)發(fā)生樹(shù)DE(D,E)ACDE(A,C),(D,E)ACBDE(((A,C),B),(D,E))物種BACAC10DE16.512.54.4.2分支長(zhǎng)度的估計(jì)系統(tǒng)發(fā)生樹(shù)的拓?fù)浣Y(jié)構(gòu)除了描述序列之間的關(guān)系,還可以表達(dá)有關(guān)序列的分歧程度的信息。標(biāo)度樹(shù)能夠表達(dá)這樣的信息,通常稱為進(jìn)化分支圖,它的分支長(zhǎng)度對(duì)應(yīng)于推斷出的序列獨(dú)立積累替換的時(shí)間。確定進(jìn)化分支圖中每一條分支的相對(duì)長(zhǎng)度,只要利用距離矩陣中的信息進(jìn)行簡(jiǎn)單的計(jì)算。如果假設(shè)所有家系的進(jìn)化速率不變,那么內(nèi)部節(jié)點(diǎn)將置于與分叉樹(shù)上相對(duì)應(yīng)的兩個(gè)物種距離相等的地方。
例:兩兩矩陣之間的不匹配的核苷酸數(shù)目物種ABCDB9C811D121510E15181351020304050A:GTGCTGCACGGCTCAGTATAGCATTTACCCTTCCATCTTCAGATCCTGAAB:ACGCTGCACGGCTCAGTGCGGTGCTTACCCTCCCATCTTCAGATCCTGAAC:GTGCTCGCAGGCTCGGCGCAGCATTTACCCTCCCATCTTCAGATCCTATCD:GTATCACACGACTCAGCGCAGCATTTGCCCTCCCGTCTCCAGATCCTAAAE:CTATCACATAGCTCAGCGCAGCATTTGCCCTCCCGTCTTCAGATCTAAAA4.4.2分支長(zhǎng)度的估計(jì)例:A(A,C)(D,E)CDE442.52.56.256.25這個(gè)簡(jiǎn)單的估計(jì)分支長(zhǎng)度的方法使得UPGMA成為能構(gòu)造有根系統(tǒng)發(fā)生樹(shù)的少數(shù)幾種方法之一。dDE=5dAC=8
如果假設(shè)所有家系的進(jìn)化速率不變,那么內(nèi)部節(jié)點(diǎn)將置于與分叉樹(shù)上相對(duì)應(yīng)的兩個(gè)物種距離相等的地方。描述4個(gè)物種的標(biāo)度樹(shù)4.4.2分支長(zhǎng)度的估計(jì)當(dāng)不同的家系有不同的進(jìn)化速率時(shí),確定標(biāo)度樹(shù)的分支長(zhǎng)度變得略微復(fù)雜些BACχуzdAC=χ
+у
dAB=χ
+zdBC=у
+z對(duì)上面的等式進(jìn)行簡(jiǎn)單的代數(shù)變換,分支長(zhǎng)度就可以用兩兩距離矩陣中的數(shù)值表示:χ=(dAB
+dAC
–dBC)/2у
=(dAC
+dBC
–dAB)/2z
=(dAB
+dBC
–dAC
)/2最簡(jiǎn)單的樹(shù)(3個(gè)物種,1個(gè)分支點(diǎn))4.4.2分支長(zhǎng)度的估計(jì)對(duì)于更復(fù)雜的樹(shù)(多于一個(gè)分支點(diǎn)的樹(shù))的分支長(zhǎng)度的估計(jì),可以一次考慮3個(gè)分支。例:在一組5個(gè)物種(1,2,3,4和5)的距離矩陣中,用UPGMA首先將物種1和物種2聚到一組,前面等式中的dAC和dBC就是這兩個(gè)物種和其他所有物種之間距離的平均值:dAC=(d13+d14+d15
)/3
dBC=(d23+d24+d25
)/3BAC’χуz123451、先考慮圓圈里的分支2、由于這里不再是三個(gè)物種,
C’所表示的含義不同于三
個(gè)物種的系統(tǒng)樹(shù),它代表除1、2之外的所有物種。3、計(jì)算dAC’、dBC’dAC’=(d13+d14+d15)/3dBC’=(d23+d24+d25)/34、用新計(jì)算出的dAC’
、dBC’替換三個(gè)物種系統(tǒng)樹(shù)公式中的dAC和dBC,得到公式χ=(dAB
+dAC’
–dBC’)/2у
=(dAC’
+dBC’
–dAB)/2z
=(dAB
+dBC’
–dAC’
)/25、解出x、z之后再考慮下一個(gè)分支,最終解出全部的距離4.4.3距離變換法距離矩陣法的一個(gè)優(yōu)點(diǎn)是對(duì)于表型數(shù)據(jù)和分子數(shù)據(jù),甚至是兩者的結(jié)合,都很適用。它考慮了具體分析中所有可能獲得的數(shù)據(jù),而在第5章中介紹另一種算法——簡(jiǎn)約法則忽略所謂的非信息位點(diǎn)。UPGMA算法的一個(gè)缺陷是假定所有家系的進(jìn)化速率是相同的,但是相對(duì)速率測(cè)試表明情況并不總是這樣。替換速率的變化對(duì)UPGMA方法來(lái)說(shuō)是很重要的問(wèn)題,極易導(dǎo)致它產(chǎn)生錯(cuò)誤的拓?fù)浣Y(jié)構(gòu)的樹(shù)。4.4.3距離變換法除UPGMA法外,其他的一些基于距離矩陣的方法考慮了不同的家系有不同的進(jìn)化速率,其中最簡(jiǎn)單的最早的算法是距離變換法。這種方法充分利用了外群或外部參考物種——先于其他所有被考慮的物種[內(nèi)群或內(nèi)部物種]
從它們的共同祖先中分化出來(lái)的那些物種。UPGMA距離矩陣系統(tǒng)發(fā)生樹(shù)外部種群距離變換4.4.3距離變換法假定D為外部參考物種,變換式如下:d’ij=(dij-diD-djD)/2+dDd’ij是物種i和j之間變換后的距離,dD是外部參考物種與全體內(nèi)部物種之間的平均距離。dD=ΣdiD/(n-1)物種ABCB9C811D121510--四個(gè)物種兩兩進(jìn)化距離(假設(shè)樹(shù)可加)-ABCD362316四個(gè)物種之間真實(shí)系統(tǒng)發(fā)生關(guān)系以及分支長(zhǎng)度物種ABCB9C811D121510dD=(dAD+dBD+dCD)/3
=(12+15+10)/3=37/3-物種ABBCd’AB=(dAB-dAD-dBD)/2+dD=(9-12-15)/2+37/3=10/3-10/3d’BC=(dBC-dBD-dCD)/2+dD=(11-15-10)/2+37/3=16/3d’AC=(dAC-dAD-dCD)/2+dD=(8-12-10)/2+37/3=16/3--16/316/34.4.3距離變換法d’ij=(dij-diD-djD)/2+dDd’ij是物種i和j之間變換后的距離,dD是外部參考物種與全體內(nèi)部物種之間的平均距離。dD=ΣdiD/(n-1)物種ABCB9C811D121510--物種ABB10/3C16/316/3四個(gè)物種兩兩進(jìn)化距離(假設(shè)樹(shù)可加)3個(gè)物種為內(nèi)部物種,D為外部物種時(shí)的距離矩陣-引入dD只是為了確保所有變換后的距離為正值,因?yàn)閺倪M(jìn)化的角度看,負(fù)值是不可能的距離變化法的優(yōu)勢(shì)體現(xiàn)在那些很簡(jiǎn)單卻容易被忽略的方面內(nèi)部物種只是在分化發(fā)生后進(jìn)化分離出來(lái)的,所以它們積累的替換數(shù)目一定是從那以后才有了差異外部參考物種為比較它們替換速率提供了客觀參考的框架上述例子中,距離變換法在確定樹(shù)的正確拓?fù)浣Y(jié)構(gòu)上優(yōu)于單獨(dú)使用UPGMA法。當(dāng)然,當(dāng)不能獨(dú)立確定哪些物種是外部參考物種時(shí),UPGMA法還是可行的。任意一個(gè)內(nèi)部物種也能提供時(shí)候變換距離的參考框架,而使用外部參考物種的最大優(yōu)點(diǎn)是使得系統(tǒng)發(fā)生樹(shù)能有一個(gè)根-4.4.4近鄰關(guān)系法近鄰關(guān)系法是由UPGMA法演變出的另一種常用的方法,強(qiáng)調(diào)配對(duì)物種,由此構(gòu)造一棵分支長(zhǎng)度總和最小的樹(shù)(針對(duì)4個(gè)物種,無(wú)根樹(shù))。近鄰:任意一棵無(wú)根樹(shù)中,僅被一個(gè)內(nèi)部節(jié)點(diǎn)分隔的一對(duì)物種稱為近鄰。DABCabcde四個(gè)物種(A,B,C,D)之間進(jìn)化關(guān)系的通用系統(tǒng)發(fā)生樹(shù)上圖中的系統(tǒng)發(fā)生樹(shù)的拓?fù)浣Y(jié)構(gòu)給出了一些近鄰間有用的代數(shù)關(guān)系,由于樹(shù)是正確的且可加和,則下面的等式成立:
dAC+dBD=
dAD+dBC=
a+b+c+d+2e=dAB+
dCD+
2e下面的不等式也是成立的(四點(diǎn)條件):
a+b+c+d=dAB+
dCD<
dAC+dBD=a+b+c+d+2ea+b+c+d=dAB+
dCD<
dAD+dBC=a+b+c+d+2e考慮4個(gè)物種間所有可能物種對(duì)的排列(3對(duì)),然后確定哪一個(gè)滿足四點(diǎn)不等式。四點(diǎn)不等式的一個(gè)重要假設(shè)是,系統(tǒng)發(fā)生樹(shù)的分支長(zhǎng)度是可加的。由于它對(duì)不符合假設(shè)的情況不敏感,所以不可加的數(shù)據(jù)集會(huì)導(dǎo)致這種算法產(chǎn)生錯(cuò)誤拓?fù)浣Y(jié)構(gòu)的樹(shù)dAB+dCD<dAC+dBDdAB+dCD<dAD+dBC物種ABCB1C43D321ABCD1133241977年,S.Sattath和A.Tversky提出了一種用近鄰關(guān)系法構(gòu)建多于4個(gè)物種的樹(shù)的方法。他們建立了一個(gè)距離矩陣,用矩陣中的值計(jì)算出針對(duì)前4個(gè)物種的3個(gè)數(shù)值:⑴dAB+dCD⑵dAC+dBD
⑶dAD+dBC。取和最小的兩個(gè)配對(duì)打分為1,而其他的4個(gè)配對(duì)打分為0。對(duì)數(shù)據(jù)集中所有可能的4個(gè)物種的組合(Cn4
)都重復(fù)以上的步驟,不斷累計(jì)得分。最后得分最高的一對(duì)物種聚為一組,即這兩個(gè)物種是近鄰,就像UPMGA法一樣,得到一個(gè)新的距離矩陣,用新的距離矩陣開(kāi)始新一輪的打分過(guò)程,直到只剩下3個(gè)物種(此時(shí),樹(shù)的拓?fù)浣Y(jié)構(gòu)已經(jīng)明確確定了)。
例:假定有5個(gè)物種,A,B,C,D,E構(gòu)成的距離矩陣要做C54
=5次比較,每次取4個(gè)物種ABCD、ABCE、ABDE、ACDE、BCDE每次比較對(duì)C42
=6個(gè)物種對(duì)賦值(0或1)總計(jì)C52
=10個(gè)物種對(duì)A-BA-CA-DA-EB-CB-DB-EC-DC-ED-E第一次XXXXXX第二次XXXXXX第三次XXXXXX第四次XXXXXX第五次XXXXXX總計(jì)4.4.5鄰近歸并法鄰近歸并法是對(duì)上面的方法做了一些改動(dòng)。這類算法首先是由一棵星狀樹(shù)開(kāi)始,不管數(shù)目多少,所有的物種都從一個(gè)中心節(jié)點(diǎn)出發(fā),然后通過(guò)最小化樹(shù)的分支長(zhǎng)度和,相繼找到近鄰。計(jì)算分支長(zhǎng)度和公式:
1987年N.Saitou和M.Nei提出
樹(shù)的1和2的位置可以使其中任何一對(duì)物種, N是距離矩陣中物種的數(shù)目
k是引入外部參考物種, dij是物種i和j之間的距離;
1988年,J.Studier和K.Keppler提出一種快速算法:
Q12=(N-2)d12-
∑d1i-∑d2i
在每一輪過(guò)程中考慮所有可能的物種對(duì)(Cn2),把能使樹(shù)的整個(gè)分支長(zhǎng)度最?。⊿或Q最?。┑奈锓N對(duì)聚為一組,從而產(chǎn)生新的距離矩陣S和Q標(biāo)準(zhǔn)在理論上是相關(guān)的。上面所述的鄰近歸并法和近鄰關(guān)系法在理論上也是等價(jià)的,因?yàn)樗鼈兌蓟谒狞c(diǎn)不等式和可加和的假設(shè)。所以,鄰近歸并法和近鄰關(guān)系法產(chǎn)生的樹(shù)的拓?fù)浣Y(jié)構(gòu),即使不完全一致,也是十分相似的。4.5最大似然法最大似然法是另外一類完全基于統(tǒng)計(jì)的系統(tǒng)發(fā)生樹(shù)重建方法的代表。該法在每組序列比對(duì)中考慮了每個(gè)核苷酸替換的概率。例如,在第3章中我們已經(jīng)知道,轉(zhuǎn)換出現(xiàn)的概率大約是顛換的3倍。在一個(gè)三序列的比對(duì)中,發(fā)現(xiàn)其中有一列為一個(gè)C、一個(gè)T和一個(gè)G,有理由認(rèn)為,C和T
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 化解小孩打架協(xié)議書
- 病理冰凍快速協(xié)議書
- 工地欄桿安裝合同協(xié)議
- 人生傷亡賠償協(xié)議書
- 購(gòu)房過(guò)戶合同協(xié)議
- 放樣測(cè)量合同協(xié)議
- 房開(kāi)代建合同協(xié)議
- 電梯清潔合同協(xié)議
- 2025聯(lián)營(yíng)店鋪的轉(zhuǎn)讓合同
- 2025海外獨(dú)立云服務(wù)器租用合同協(xié)議
- 初中生物重要識(shí)圖填空速記54個(gè)-2025年中考生物一輪復(fù)習(xí)知識(shí)清單
- 2025年度國(guó)人飲水電器白皮書-TMIC天貓新品創(chuàng)新中心
- 合作合同范本 英文
- 2025年浙江國(guó)企溫州快鹿集團(tuán)有限公司招聘筆試參考題庫(kù)含答案解析
- 新疆維吾爾自治區(qū)粘土磚瓦及建筑砌塊制造行業(yè)企業(yè)排名統(tǒng)計(jì)報(bào)告
- 湘教版七年級(jí)下冊(cè)地理期中試卷及答案
- 【培優(yōu)卷】同步分層練習(xí):四年級(jí)下冊(cè)語(yǔ)文第26課《寶葫蘆的秘密》(含答案)
- 2025年中國(guó)腰果行業(yè)市場(chǎng)深度分析及發(fā)展前景預(yù)測(cè)報(bào)告
- 2025年全球及中國(guó)包裹接收和追蹤軟件行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 工業(yè)機(jī)器人集成應(yīng)用(ABB) 高級(jí) 課件 1.2.3 PLC設(shè)備選型方法與工作站PLC選型
- 新國(guó)際物流知識(shí)培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論