第七章分子系統(tǒng)發(fā)育分析進(jìn)化樹優(yōu)質(zhì)課件_第1頁
第七章分子系統(tǒng)發(fā)育分析進(jìn)化樹優(yōu)質(zhì)課件_第2頁
第七章分子系統(tǒng)發(fā)育分析進(jìn)化樹優(yōu)質(zhì)課件_第3頁
第七章分子系統(tǒng)發(fā)育分析進(jìn)化樹優(yōu)質(zhì)課件_第4頁
第七章分子系統(tǒng)發(fā)育分析進(jìn)化樹優(yōu)質(zhì)課件_第5頁
已閱讀5頁,還剩221頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第七章分子系統(tǒng)發(fā)育分析進(jìn)化樹第七章分子系統(tǒng)發(fā)育分析進(jìn)化樹1本章內(nèi)容引言生物進(jìn)化的分子機(jī)制系統(tǒng)進(jìn)化樹及其構(gòu)建分子系統(tǒng)發(fā)育分析軟件及應(yīng)用本章內(nèi)容引言2引言生物學(xué)家Wehaveadream…TreeofLife:重建所有生物的進(jìn)化歷史并以系統(tǒng)樹的形式加以描述引言生物學(xué)家Wehaveadream…3引言夢想走進(jìn)現(xiàn)實How?最理想的方法化石!——零散、不完整引言夢想走進(jìn)現(xiàn)實How?4引言夢想走進(jìn)現(xiàn)實How?比較形態(tài)學(xué)和比較生理學(xué)確定大致的進(jìn)化框架——細(xì)節(jié)存很多的爭議引言夢想走進(jìn)現(xiàn)實How?5引言夢想走進(jìn)現(xiàn)實How?第三種方案分子進(jìn)化1964年,美國進(jìn)化生物學(xué)家E.Zuckerkandl和量子化學(xué)家LinusPauling提出分子進(jìn)化理論基本假設(shè)核酸和蛋白質(zhì)序列中含有生物進(jìn)化歷史的全部信息理論分子進(jìn)化速率恒定。分子鐘物種的同源基因之間的差異程度與它們的共同祖先的存在時間(即兩者的分歧時間)有一定的數(shù)量關(guān)系。發(fā)生在分子層面的進(jìn)化過程DNA,RNA和蛋白質(zhì)分子引言夢想走進(jìn)現(xiàn)實How?6引言分子鐘成立的證據(jù)1、至少某些生物大分子(如珠蛋白)的進(jìn)化速率在相當(dāng)長的地質(zhì)時間內(nèi)的相對穩(wěn)定、均勻;2、許多不同物種的多種同源大分子在相當(dāng)長時間內(nèi)的平均進(jìn)化速率近似恒定。引言分子鐘成立的證據(jù)7建立分子鐘的大致步驟1、選擇所要比較的生物大分子種類根據(jù)具體研究目標(biāo)和已掌握的資料,選擇進(jìn)化速率相對恒定、速率大小合適、分布范圍能涵蓋各待比較物種的生物大分子。2、選擇所要比較的物種,確定各比較組合及其所代表的進(jìn)化事件3、獲得生物大分子一級結(jié)構(gòu)的資料4、獲得有關(guān)的代表性進(jìn)化事件發(fā)生的地質(zhì)時間數(shù)據(jù)5、通過比較大分子一級結(jié)構(gòu),選擇合適的數(shù)學(xué)模型,計算得到進(jìn)化產(chǎn)生的分子差異d,通過回歸分析等統(tǒng)計方法得到大分子的進(jìn)化速率r(t)6、由此可以推斷未知進(jìn)化事件的發(fā)生時間建立分子鐘的大致步驟8Example:Molecularclockfor17mammalspeciesInferredpairwisenucleotidesubstitutionsamong17mammalspeciesfromsevengeneproducts,asestimatedfromproteinstudies,plottedagainstdateofdivergence,asestimatedfromthefossilrecord.Thelineisdrawnfromtheoriginthroughtheoldestpoint(marsupial/placentaldivergenceat125MYBP).Thestronglinearrelationshipsuggeststhatmoleculardifferencesbetweenpairsofspeciesareproportionaltothetimeoftheirseparation,ratherthanthedegreeoforganismaldifference.

Therefore,measuresofgeneticdivergencecanbeusedtodatethetimeofdivergenceforspeciespairsforwhichnofossildataareavailable:genesfunctionasMolecularClocks.

(fromA.C.Wilson1976)Example:Molecularclockfor19關(guān)于分子鐘的討論和爭議1、對長期進(jìn)化而言,不存在以恒定速率替換的生物大分子一級結(jié)構(gòu);(基因功能的改變、基因數(shù)目的增加)2、不存在通用的分子鐘;3、爭議:分子鐘的準(zhǔn)確性中性理論(分子鐘成立的基礎(chǔ))第七章分子系統(tǒng)發(fā)育分析進(jìn)化樹優(yōu)質(zhì)課件10第一節(jié)生物進(jìn)化的分子機(jī)制分子途經(jīng)研究生物進(jìn)化的可行性分子進(jìn)化的模式分子進(jìn)化的特點研究分子進(jìn)化的作用第一節(jié)生物進(jìn)化的分子機(jī)制分子途經(jīng)研究生物進(jìn)化的可行性11分子途徑研究生物進(jìn)化的可行性普適性由4種核酸組成分子水平的進(jìn)化表現(xiàn)為DNA序列的演化、氨基酸序列演化、蛋白質(zhì)結(jié)構(gòu)及功能的演化可比較性比較不同物種的有關(guān)DNA序列建立DNA序列的演化模型、氨基酸序列的演化模型蛋白質(zhì)結(jié)構(gòu)的演化模型基因組包含豐富的編碼信息與形態(tài)、性狀包含的信息相比,基因組序列、蛋白質(zhì)序列包含更多、更復(fù)雜的信息結(jié)構(gòu)分子途徑研究生物進(jìn)化的可行性普適性12基因變異1、核苷酸替代、插入/缺失、重組2、基因復(fù)制固定在生物個體以及物種內(nèi)遺傳漂變自然選擇傳遞給后代產(chǎn)生新的形態(tài)、性狀分子進(jìn)化的模式基因變異1、核苷酸替代、插入/缺失、重組固定在生物個體遺傳漂13分子進(jìn)化的模式1.DNA突變替代,插入,缺失,倒位核苷酸替代轉(zhuǎn)換(Transition)&顛換(Transversion)2.基因復(fù)制多基因家族的產(chǎn)生以及偽基因的產(chǎn)生A.單個基因復(fù)制–重組或者逆轉(zhuǎn)錄B.染色體片斷復(fù)制C.基因組復(fù)制分子進(jìn)化的模式1.DNA突變替代,插入,缺失,倒位14ThrTyrLeuLeuACCTATTTGCTGACCTCTTTGCTGThrSerLeuLeu替代ThrTyrLeuLeuACCTATTTGCTGACCTACTTTGCTGThrTyrPheAla插入ThrTyrLeuLeuACCTATTTGCTGACCTATTGCTG-ThrTyrCys-缺失ThrTyrLeuLeuACCTATTTGCTGACCTTTATGCTGThrPheMetLeu倒位(1)DNA突變ThrTyrLeuLeuACCTCT15ThrTyrLeuLeu系統(tǒng)進(jìn)化樹/生物進(jìn)化樹/系統(tǒng)發(fā)育樹/系統(tǒng)發(fā)生樹/系統(tǒng)樹/進(jìn)化樹/演化樹phylogenetictree/evolutionarytreephylogenetictree/evolutionarytree常用分子系統(tǒng)發(fā)育分析軟件由進(jìn)化距離構(gòu)建進(jìn)化樹的方法有很多,常見有是在一個復(fù)雜的空間中進(jìn)行搜索的通用技術(shù),搜索空間以從一個分層樹的根節(jié)點至葉節(jié)點的一系列路徑表示。功能上重要的大分子或大分子的局部在進(jìn)化速率上明顯低于那些在功能上不重要的大分子或者大分子局部。1自舉檢驗(bootstraptest)不斷重復(fù)這個過程,直到某一輪通過剪枝和嫁接無法產(chǎn)生與前一輪等長或更短的樹。Nu=(2n5)!/2n3(n3)!2畫出4個物種的3棵不同的無根樹??捎糜谌魏蜗嚓P(guān)序列集合物種樹:代表一個物種或群體進(jìn)化歷史的系統(tǒng)進(jìn)化樹,兩個物種分歧的時間為兩個物種發(fā)生生殖隔離的時間第三節(jié)分子系統(tǒng)發(fā)育分析軟件及應(yīng)用L的值可以是隨機(jī)選擇的任何一棵描述被研究物種之間關(guān)系的樹的長度。長插入和長刪除比短插入和短刪除少見;外圍支可以輔助定位樹根其他基因的序列,包括5S核糖體RNA、大核糖體RNA和編碼一些很重要的蛋白質(zhì)的基因,都強(qiáng)烈支持該觀點——這三個主要的進(jìn)化類的劃分法是最好的。對大于20條序列的多序列進(jìn)行比對必須采用近似的更為有效的算法。核苷酸替代轉(zhuǎn)換&顛換1.轉(zhuǎn)換嘌呤被嘌呤替代,或者嘧啶被嘧啶替代2.顛換嘌呤被嘧啶替代,或者嘧啶被嘌呤替代ThrTyrLeuLeu核苷酸替代轉(zhuǎn)換&16(2)基因復(fù)制單個基因復(fù)制重組逆轉(zhuǎn)錄(2)基因復(fù)制單個基因復(fù)制重組逆轉(zhuǎn)錄17(2)基因復(fù)制染色體片段復(fù)制人狒狒(2)基因復(fù)制染色體片段復(fù)制人狒狒18(2)基因復(fù)制基因組復(fù)制S.Cerevisiae(釀酒酵母)K.Waltii(克魯雄酵母)研究結(jié)果:克魯雄酵母中的同源基因數(shù)量與釀酒酵母相比為1:2(2)基因復(fù)制基因組復(fù)制S.Cerevisiae(釀酒酵19分子進(jìn)化的特點生物大分子進(jìn)化速率相對恒定分子進(jìn)化速率

生物大分子隨時間的改變而變化,主要表現(xiàn)為核苷酸、蛋白質(zhì)的一級結(jié)構(gòu)的改變,即分子序列中核苷酸、氨基酸的替換不同物種同源大分子的分子進(jìn)化速率大體相同

例子:比較不同物種血紅蛋白氨基酸序列差異

人、馬——0.810-9/AA.a人、鯉魚——0.610-9/AA.a分子進(jìn)化速率遠(yuǎn)遠(yuǎn)比表型進(jìn)化速率穩(wěn)定分子進(jìn)化的特點生物大分子進(jìn)化速率相對恒定20生物大分子進(jìn)化的保守性保守性

功能上重要的大分子或大分子的局部在進(jìn)化速率上明顯低于那些在功能上不重要的大分子或者大分子局部。(引起表型發(fā)生顯著改變的突變發(fā)生的頻率要低于無明顯表型發(fā)生顯著改變得突變發(fā)生的頻率。)氨基酸

例:血紅蛋白分子的外區(qū)的功能要次于內(nèi)區(qū)的功能,外區(qū)的進(jìn)化速率是內(nèi)區(qū)進(jìn)化速率的10倍。核苷酸

例:DNA密碼子的同義替代頻率高于非同義替代頻率;內(nèi)含子上的核苷酸替代頻率較高。GTTGTCGTAGTGCGTCGC脯氨酸P組氨酸HTGGTGC色氨酸W半胱氨酸C生物大分子進(jìn)化的保守性GTTGTCGTAGTGCGTCGC脯21研究分子進(jìn)化的作用從物種的一些分子特性出發(fā),構(gòu)建系統(tǒng)發(fā)育樹,進(jìn)而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系——treeoflife;物種分類大分子功能與結(jié)構(gòu)的分析同一家族的大分子,具有相似的三級結(jié)構(gòu)及生化功能,通過序列同源性分析,構(gòu)建系統(tǒng)發(fā)育樹,進(jìn)行相關(guān)分析;功能預(yù)測進(jìn)化速率分析例如,HIV的高突變性;哪些位點易發(fā)生突變?研究分子進(jìn)化的作用從物種的一些分子特性出發(fā),構(gòu)建系統(tǒng)發(fā)育樹,22研究分子進(jìn)化的作用TreeofLife:16SrRNA研究分子進(jìn)化的作用TreeofLife:16SrRN23研究分子進(jìn)化的作用OutofAfrica53個人的線粒體基因組(16,587bp)人類遷移的路線研究分子進(jìn)化的作用OutofAfrica53個人的線粒體24第二節(jié)系統(tǒng)進(jìn)化樹及其構(gòu)建系統(tǒng)進(jìn)化樹的概念系統(tǒng)進(jìn)化樹的種類系統(tǒng)進(jìn)化樹的構(gòu)建第二節(jié)系統(tǒng)進(jìn)化樹及其構(gòu)建系統(tǒng)進(jìn)化樹的概念25系統(tǒng)進(jìn)化樹的概念所有生物都可以追溯到共同的祖先,生物的產(chǎn)生和分化就像樹一樣生長、分叉,以樹的形式來表示生物之間的進(jìn)化關(guān)系是非常自然的事。系統(tǒng)進(jìn)化樹的概念所有生物都可以追溯到共同的祖先,生物的產(chǎn)生和26系統(tǒng)進(jìn)化樹的概念phylogenetictree/evolutionarytree系統(tǒng)進(jìn)化樹/生物進(jìn)化樹/系統(tǒng)發(fā)育樹/系統(tǒng)發(fā)生樹/系統(tǒng)樹/進(jìn)化樹/演化樹是表明被認(rèn)為具有共同祖先的各物種相互間進(jìn)化關(guān)系的樹形圖。系統(tǒng)進(jìn)化樹的概念phylogenetictree/evol27系統(tǒng)進(jìn)化樹的概念——術(shù)語祖先節(jié)點/樹根內(nèi)部節(jié)點/分歧點,該分支可能的祖先節(jié)點分支/世系:長度對應(yīng)演化距離(如估計的演化時間)

末端節(jié)點:代表最終分類,可以是物種,群體,或者蛋白質(zhì)、DNA、RNA分子等

ABCDE系統(tǒng)進(jìn)化樹的概念——術(shù)語祖先節(jié)點/樹根內(nèi)部節(jié)點/分歧點,該分28bacteriaoutgroup有4個信息位點,28個不變位點距離數(shù)據(jù)基于距離的系統(tǒng)發(fā)生分析計算結(jié)果MPtree的最優(yōu)結(jié)果為tree1ACCTATTTGCTG同分支約束法一樣,如果初始樹很接近于最簡約樹(例如UPGMA產(chǎn)生的樹),啟發(fā)式搜索會更有效。是在一個復(fù)雜的空間中進(jìn)行搜索的通用技術(shù),搜索空間以從一個分層樹的根節(jié)點至葉節(jié)點的一系列路徑表示?!巴蛔兪呛币娛录睂⑺型蛔兛闯墒堑葍r的,但之前的學(xué)習(xí)已經(jīng)告訴我們插入和刪除比替換可能性?。辉诟鱾€自舉樹中都有出現(xiàn)或大量出現(xiàn)的那些部分將具有較高的置信度。(2)即使是同源基因,對功能的重要性也因不同的基因、它們在表型方面的進(jìn)化并不明顯,化石記錄也毫無幫助。對大于20條序列的多序列進(jìn)行比對必須采用近似的更為有效的算法。最大似然法(maximumlikelihood,ML)第五章:基于特征的系統(tǒng)發(fā)生分析2、許多不同物種的多種同源大分子在相當(dāng)長時間內(nèi)的平均進(jìn)化速率近似恒定。Bacterium3在一個三條序列的比對中,如果發(fā)現(xiàn)其中有一列為一個C,一個T和一個G,我們就認(rèn)為,C和T所在的序列之間的關(guān)系很有可能更接近。Wilson1976)總規(guī)則如果用截然不同的距離矩陣法和簡約法分析一個數(shù)據(jù)集能夠產(chǎn)生相似的系統(tǒng)發(fā)生樹,則這棵樹相當(dāng)可靠。系統(tǒng)進(jìn)化樹/生物進(jìn)化樹/系統(tǒng)發(fā)育樹/系統(tǒng)發(fā)生樹/系統(tǒng)樹/進(jìn)化樹/演化樹能將所有可能的樹區(qū)別出來的位點。系統(tǒng)進(jìn)化樹的概念進(jìn)化樹分支的圖像稱為進(jìn)化的拓?fù)浣Y(jié)構(gòu)理論上,一個DNA序列在物種形成或基因復(fù)制時,分裂成兩個子序列,因此系統(tǒng)進(jìn)化樹一般是二歧的。ABCDE?FGFGCDE?ABbacteriaoutgroup系統(tǒng)進(jìn)化樹的概念進(jìn)化樹分支29系統(tǒng)進(jìn)化樹的概念直系同源(orthologs):同源的基因是由于共同的祖先基因進(jìn)化而產(chǎn)生的。旁系同源(paralogs):同源的基因是由于基因復(fù)制產(chǎn)生的。用于分子進(jìn)化分析中的序列必須是直系同源的,才能真實反映進(jìn)化過程。旁系同源直系同源系統(tǒng)進(jìn)化樹的概念直系同源(orthologs):同源的基因30拓?fù)浣Y(jié)構(gòu):有根樹:反映時間順序無根樹:反映距離系統(tǒng)進(jìn)化樹的種類

——有根樹、無根樹archaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotearchaeabacteriaoutgrouprooteukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外圍支拓?fù)浣Y(jié)構(gòu):系統(tǒng)進(jìn)化樹的種類archaeaarchaeaeuk31abcdabcdabcdadbcbacdcabddabcacbdbcadcbaddbacadbcbaaccdabdcab考慮4個分類群時,共有15種可能的有根樹abcdabcdabcdadbcbacdcabddabcac32abcdacbdadbc考慮4個分類群時,共有3種可能的無根樹abcdacbdadbc考慮4個分類群時,共有3種可能的無根33#Taxa無根樹有根樹31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增多,計算量急劇增加,選出真實樹的拓?fù)浣Y(jié)構(gòu)十分困難,因此,目前算法都為優(yōu)化算法,不能保證最優(yōu)解。系統(tǒng)進(jìn)化樹的種類

——有根樹、無根樹#Taxa無根樹34系統(tǒng)進(jìn)化樹的種類

——標(biāo)度樹、非標(biāo)度樹標(biāo)度樹分支的長度表示變化的程度非標(biāo)度樹分支只表示進(jìn)化關(guān)系,支長無意義Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2一個單位系統(tǒng)進(jìn)化樹的種類

——35abcdef基因分裂基因分裂基因分裂物種分裂系統(tǒng)進(jìn)化樹的種類

——物種樹、基因樹物種樹:代表一個物種或群體進(jìn)化歷史的系統(tǒng)進(jìn)化樹,兩個物種分歧的時間為兩個物種發(fā)生生殖隔離的時間基因樹:由來自各個物種的一個基因構(gòu)建的系統(tǒng)進(jìn)化樹(不完全等同于物種樹),表示基因分離的時間。abcdef基因分裂基因分裂基因分裂物種分裂系統(tǒng)進(jìn)化樹的種類36系統(tǒng)進(jìn)化樹的構(gòu)建構(gòu)建系統(tǒng)進(jìn)化樹的步驟構(gòu)建系統(tǒng)進(jìn)化樹的方法構(gòu)建進(jìn)化樹的一般原則系統(tǒng)進(jìn)化樹的構(gòu)建構(gòu)建系統(tǒng)進(jìn)化樹的步驟37構(gòu)建系統(tǒng)進(jìn)化樹的步驟多序列比對(自動比對,手工校正)選擇建樹方法以及替代模型建立進(jìn)化樹進(jìn)化樹評估構(gòu)建系統(tǒng)進(jìn)化樹的步驟多序列比對(自動比對,手工校正)選擇建樹38構(gòu)建系統(tǒng)進(jìn)化樹的方法1.最大簡約法(maximumparsimony,MP)適用序列有很高相似性時2.距離法(distance)適用序列有較高相似性時3.最大似然法(maximumlikelihood,ML)可用于任何相關(guān)序列集合計算速度距離法>最大簡約法>最大似然法構(gòu)建系統(tǒng)進(jìn)化樹的方法1.最大簡約法(maximumpa39第三節(jié)分子系統(tǒng)發(fā)育分析軟件及應(yīng)用用簡約法和距離矩陣法處理16SrRNA基因序列數(shù)據(jù),得到了無根“生命之樹”。不斷重復(fù)這個過程,直到某一輪通過剪枝和嫁接無法產(chǎn)生與前一輪等長或更短的樹。進(jìn)化速率分析例如,HIV的高突變性;6105945L的值可以是隨機(jī)選擇的任何一棵描述被研究物種之間關(guān)系的樹的長度。2、不存在通用的分子鐘;ThrTyrLeuLeunet/software/mac5/缺點費(fèi)時,每個步驟都要考慮內(nèi)部節(jié)點的所有可能性中性理論(分子鐘成立的基礎(chǔ))分成三組:C,DE,以及ABDNA突變替代,插入,缺失,倒位如果插入后得到的樹的長度大于原來的樹,例如B3,舍棄該樹。樹的長度(length)當(dāng)一棵樹在信息位點和非信息位點的替換數(shù)的總和是一個確定的數(shù)值時,這個數(shù)值就是指樹的長度。最大似然法(maximumlikelihood,ML)最大簡約法(maximumparsimony,MP)分子系統(tǒng)發(fā)生分析主要分成三個步驟構(gòu)建系統(tǒng)進(jìn)化樹的方法

——最大簡約法(MP)理論基礎(chǔ)為奧卡姆(Ockham)原則計算所需替代數(shù)最小的那個拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹在分析的序列位點上沒有回復(fù)突變或平行突變,且被檢驗的序列位點數(shù)很大的時候,最大簡約法能夠推導(dǎo)獲得一個很好的進(jìn)化樹缺點分析序列上存在較多的回復(fù)突變或平行突變,而被檢驗的序列位點數(shù)又比較少的時候,可能會給出一個不合理的或者錯誤的進(jìn)化樹推導(dǎo)結(jié)果第三節(jié)分子系統(tǒng)發(fā)育分析軟件及應(yīng)用構(gòu)建系統(tǒng)進(jìn)化樹的方法

40信息位點能將所有可能的樹區(qū)別出來的位點。至少存在2個不同堿基/氨基酸且每個不同堿基/氨基酸至少出現(xiàn)兩次的位點。構(gòu)建系統(tǒng)進(jìn)化樹的方法

——最大簡約法(MP)信息位點構(gòu)建系統(tǒng)進(jìn)化樹的方法

41第七章分子系統(tǒng)發(fā)育分析進(jìn)化樹優(yōu)質(zhì)課件42上例1.Position5,7,9為信息位點2.基于position5的三個MP樹:Tree1長度1,Tree2&3長度23.Tree1更為簡約總長4Tree2長5;Tree3長64.計算結(jié)果MPtree的最優(yōu)結(jié)果為tree1上例1.Position5,7,9為信息位點43構(gòu)建系統(tǒng)進(jìn)化樹的方法

——距離法又稱距離矩陣法,首先通過各個物種之間的比較,根據(jù)一定的假設(shè)(進(jìn)化距離模型)推導(dǎo)得出分類群之間的進(jìn)化距離,構(gòu)建一個進(jìn)化距離矩陣。進(jìn)化樹的構(gòu)建則是基于這個矩陣中的進(jìn)化距離關(guān)系。構(gòu)建系統(tǒng)進(jìn)化樹的方法

——距44構(gòu)建系統(tǒng)進(jìn)化樹的方法

——距離法簡單的距離矩陣構(gòu)建系統(tǒng)進(jìn)化樹的方法

——距45由進(jìn)化距離構(gòu)建進(jìn)化樹的方法有很多,常見有(1)FitchMargoliashMethod(FM法):對短支長非常有效(2)NeighborJoiningMethod(NJ法/鄰接法):求最短支長,最通用的距離方法(3)NeighborsRelatonMethod(鄰居關(guān)系法)(4)UnweightedPairGroupMethod(UPGMA法/非加權(quán)組平均法)構(gòu)建系統(tǒng)進(jìn)化樹的方法

——距離法由進(jìn)化距離構(gòu)建進(jìn)化樹的方法有很多,常見有構(gòu)建系統(tǒng)進(jìn)化樹的方法46DE距離=d+e(1)D到ABC間的平均距離=d+m(2)E到ABC間的平均距離=e+m(3)(2)-(3)+(1)d=4,e=6構(gòu)建系統(tǒng)進(jìn)化樹的方法

——FM法DE距離=d+e(1)構(gòu)建系統(tǒng)進(jìn)化樹的方法

47C最接近DE!分成三組:C,DE,以及AB構(gòu)建系統(tǒng)進(jìn)化樹的方法

——FM法C最接近DE!分成三組:C,DE,以及AB構(gòu)建系統(tǒng)進(jìn)化樹48c+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)得:c=9構(gòu)建系統(tǒng)進(jìn)化樹的方法

——FM法c+g+(e+d)/2=19(1)構(gòu)建系統(tǒng)進(jìn)化樹的方法49c+g+(e+d)/2=19(e+d)/2=5,c=9,則g=5構(gòu)建系統(tǒng)進(jìn)化樹的方法

——FM法c+g+(e+d)/2=19構(gòu)建系統(tǒng)進(jìn)化樹的方法

50由:(a+b)/2+f+g+(d+e)/2=41得:f=20由:a+f+c=39得:a=10,則b=12構(gòu)建系統(tǒng)進(jìn)化樹的方法

——FM法由:(a+b)/2+f+g+(d+e)/2=41得:f=2511.最大似然法(maximumlikelihood,ML):最早應(yīng)用于對基因頻率數(shù)據(jù)的分析上2.選取一個特定的替代模型來分析給定的一組序列數(shù)據(jù),在每組序列比對中考慮每個核苷酸替換的概率。例如,轉(zhuǎn)換出現(xiàn)的概率大約是顛換的三倍。在一個三條序列的比對中,如果發(fā)現(xiàn)其中有一列為一個C,一個T和一個G,我們就認(rèn)為,C和T所在的序列之間的關(guān)系很有可能更接近。3.計算表示序列關(guān)系的每棵可能的樹的概率。概率總和最大的那棵樹最有可能是反映真實情況的系統(tǒng)發(fā)生樹。4.缺點費(fèi)時,每個步驟都要考慮內(nèi)部節(jié)點的所有可能性5.改進(jìn)啟發(fā)式算法構(gòu)建系統(tǒng)進(jìn)化樹的方法

——最大似然法(ML)1.最大似然法(maximumlikelihood,M52構(gòu)建系統(tǒng)進(jìn)化樹的原則構(gòu)建系統(tǒng)進(jìn)化樹的原則531.可靠的待分析數(shù)據(jù)2.準(zhǔn)確的多序列比對3.選擇合適的建樹方法A.序列相似程度高,MP首先B.序列相似程度較低,ML首先C.序列相似程度太低,無意義4.一般采用兩種及以上方法構(gòu)建進(jìn)化樹,無顯著區(qū)別可接受構(gòu)建系統(tǒng)進(jìn)化樹的原則1.可靠的待分析數(shù)據(jù)構(gòu)建系統(tǒng)進(jìn)化樹的原則541.選擇一個或多個已知與分析序列關(guān)系較遠(yuǎn)的序列作為外圍支2.外圍支可以輔助定位樹根3.外圍支序列必須與剩余序列關(guān)系較近,但外圍支序列與其他序列間的差異必須比其他序列之間的差異更顯著構(gòu)建系統(tǒng)進(jìn)化樹的原則選擇外圍支bacteriaoutgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外類群1.選擇一個或多個已知與分析序列關(guān)系較遠(yuǎn)的序列作為外圍支構(gòu)55進(jìn)化樹的可靠性分析單純由預(yù)先獲得的多序列比對結(jié)果數(shù)據(jù)所推導(dǎo)出的進(jìn)化樹有時并不一定可靠。改進(jìn)辦法引進(jìn)一些統(tǒng)計分析來尋找更優(yōu)的進(jìn)化樹,檢驗結(jié)果的可靠性。最常見的就是bootstrap評估。進(jìn)化樹的可靠性分析單純由預(yù)先獲得的多序列比對結(jié)果數(shù)據(jù)所推導(dǎo)出56從排列的多序列中隨機(jī)有放回的抽取某一列,構(gòu)成相同長度的新的排列序列;重復(fù)上面的過程,得到多組新的序列;對這些新的序列進(jìn)行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性。至少進(jìn)行100次重復(fù)取樣。進(jìn)化樹的可靠性分析自舉法(BootstrapMethod)從排列的多序列中隨機(jī)有放回的抽取某一列,構(gòu)成相同長度的新的排57進(jìn)化樹的可靠性分析

自舉法(BootstrapMethod)原始數(shù)據(jù)多序列比對結(jié)果對序列中每個位置重復(fù)抽樣,基于原比對結(jié)果生成多個樣本進(jìn)化樹的可靠性分析

自舉法(BootstrapMethod58第七章分子系統(tǒng)發(fā)育分析進(jìn)化樹優(yōu)質(zhì)課件59第三節(jié)分子系統(tǒng)發(fā)育分析軟件及應(yīng)用常用分子系統(tǒng)發(fā)育分析軟件分子系統(tǒng)發(fā)育分析實例(實驗三)第三節(jié)分子系統(tǒng)發(fā)育分析軟件及應(yīng)用常用分子系統(tǒng)發(fā)育分析軟60軟件說明PHYLIP免費(fèi)的、集成的進(jìn)化分析工具/phylip.htmlMEGA圖形化、集成的進(jìn)化分析工具,不包括ML/

PAUP商業(yè)軟件,集成的進(jìn)化分析工具

/PHYML最快的ML建樹工具h(yuǎn)ttp://atgc.lirmm.fr/phyml/MrBayes基于貝葉斯方法的建樹工具/MAC5基于貝葉斯方法的建樹工具/software/mac5/常用分子系統(tǒng)發(fā)育分析軟件軟件說明PHYLIP免費(fèi)的、集成的進(jìn)化分析工具M(jìn)EGA圖形化61常用分子系統(tǒng)發(fā)育分析軟件軟件說明ClustalX圖形化的多序列比對工具;構(gòu)建N-J系統(tǒng)樹http://bips.u-strasbg.fr/fr/Documentation/ClustalX//GeneDoc多序列比對結(jié)果的美化工具(可以導(dǎo)入fasta格式的文件,作圖可用于發(fā)表)/biomed/genedoc/

BioEdit序列分析的綜合工具

/BioEdit/bioedit.html

TreeView進(jìn)化樹顯示工具h(yuǎn)ttp://taxonomy.zoology.gla.ac.uk/rod/treeview.html

常用分子系統(tǒng)發(fā)育分析軟件軟件說明ClustalX圖形化的多序62常用分子系統(tǒng)發(fā)育分析軟件進(jìn)化分析軟件PHYLIP由華盛頓大學(xué)遺傳學(xué)系開發(fā),是一個免費(fèi)的系統(tǒng)發(fā)育分析軟件包,可以通過以下地址下載,目前已更新至3.69版。/phylip.htmlPhylip包含了35個獨立的程序,這些獨立的程序都實現(xiàn)特定的功能,這些程序基本上包括了系統(tǒng)發(fā)生分析的所有方面。常用分子系統(tǒng)發(fā)育分析軟件進(jìn)化分析軟件63分子系統(tǒng)發(fā)育分析實例(實驗三)分子系統(tǒng)發(fā)育分析實例(實驗三)64第五章:基于特征的系統(tǒng)發(fā)生分析

第五章:基于特征的系統(tǒng)發(fā)生分析

65分子系統(tǒng)發(fā)生分析主要分成三個步驟(1)分子序列或特征數(shù)據(jù)的分析;(2)系統(tǒng)發(fā)生樹的構(gòu)造;(3)結(jié)果的檢驗。其中,第一步的作用是通過分析,產(chǎn)生距離或特征數(shù)據(jù),為建立系統(tǒng)發(fā)生樹提供依據(jù)。分子系統(tǒng)發(fā)生分析主要分成三個步驟66

構(gòu)成系統(tǒng)發(fā)生樹的分子數(shù)據(jù)特征數(shù)據(jù)基于特征的系統(tǒng)發(fā)生分析距離數(shù)據(jù)基于距離的系統(tǒng)發(fā)生分析關(guān)于進(jìn)化關(guān)系的結(jié)論的一致性可以看作是對一棵系統(tǒng)發(fā)生樹的正確性的積極認(rèn)可。構(gòu)成系統(tǒng)發(fā)生樹的分子數(shù)據(jù)675.1簡約法在生物學(xué)中,描述按照進(jìn)化途徑中突變事件最少的標(biāo)準(zhǔn)來優(yōu)先選擇一個進(jìn)化途徑的過程。兩個簡單假設(shè)(1)突變是罕見事件;(2)一個模型引發(fā)了越不合理的事件,這個模型就越不可能是正確的。因此,突變最少的進(jìn)化關(guān)系就越有可能是物種之間真實的進(jìn)化關(guān)系。5.1簡約法在生物學(xué)中,描述按照進(jìn)化途徑中突變事件最少的標(biāo)684個物種三種可能的無根樹1234132414234個物種三種可能的無根樹123413241423695.1.1信息位點和非信息位點根據(jù)信息內(nèi)容可以分為信息位點(informative):含有信息的位點信息位點就是指能由位點產(chǎn)生的突變數(shù)目把一棵樹與其它樹區(qū)分開來的位點;非信息位點(uninformative):不含有信息的位點不變位點(invariant):屬于非信息位點,比較的所有序列都有同樣的核苷酸。即每一棵描述所有序列間進(jìn)化關(guān)系的樹都有相同的突變數(shù)目(0)。5.1.1信息位點和非信息位點根據(jù)信息內(nèi)容可以分為70((1,2)(3,4))((1,3)(2,4))((1,4)(2,3))序列位點1位點2位點3位點4位點5位點61GGGGGG2GGGAGT3GGATAG4GATCAT

圖5.1

4條同源序列的比對(每條序列有6個核苷酸)6個位點構(gòu)造4個物種之間進(jìn)化關(guān)系的可能無根樹不變位點((1,2)(3,4))((1,3)(2,4))((1,4)71序列位點1位點2位點3位點4位點5位點61GGGGGG2GGGAGT3GGATAG4GATCAT((1,2)(3,4))((1,3)(2,4))((1,4)(2,3))不變位點非信息位點序列位點1位點2位點3位點4位點5位點61GGGGGG2GG72序列位點1位點2位點3位點4位點5位點61GGGGGG2GGGAGT3GGATAG4GATCAT不變位點非信息位點非信息位點((1,2)(3,4))((1,3)(2,4))((1,4)(2,3))序列位點1位點2位點3位點4位點5位點61GGGGGG2GG73序列位點1位點2位點3位點4位點5位點61GGGGGG2GGGAGT3GGATAG4GATCAT不變位點非信息位點非信息位點非信息位點((1,2)(3,4))((1,3)(2,4))((1,4)(2,3))序列位點1位點2位點3位點4位點5位點61GGGGGG2GG74序列位點1位點2位點3位點4位點5位點61GGGGGG2GGGAGT3GGATAG4GATCAT不變位點非信息位點非信息位點非信息位點信息位點((1,2)(3,4))((1,3)(2,4))((1,4)(2,3))序列位點1位點2位點3位點4位點5位點61GGGGGG2GG75序列位點1位點2位點3位點4位點5位點61GGGGGG2GGGAGT3GGATAG4GATCAT不變位點非信息位點非信息位點非信息位點信息位點信息位點((1,2)(3,4))((1,4)(2,3))((1,3)(2,4))T序列位點1位點2位點3位點4位點5位點61GGGGGG2GG76信息位點的共同特征

如果一個位點是信息位點,那么它(1)至少有兩種不同的核苷酸,并且(2)這些核苷酸至少出現(xiàn)兩次。信息位點的共同特征775.1.2無權(quán)簡約法最簡約樹考慮每個信息位點所有可能的樹,分別給每棵樹進(jìn)行打分,統(tǒng)計每個位點的核苷酸最小替換數(shù)目。所有簡約信息位點最小核苷酸替換數(shù)的總和最小的樹記為最簡約樹。4條序列比對的例子可能是最簡單的例子在只包含4條序列的分析中,每個信息位點只能支持3棵可能的樹中的1棵,含有最多信息位點的樹就是最簡約樹。5.1.2無權(quán)簡約法785條或更多序列數(shù)據(jù)集的計算復(fù)雜得多。原因在于⑴隨序列數(shù)增加,無根樹數(shù)目也增加;⑵每個信息位點可能有多棵樹,整個數(shù)據(jù)集的最大簡約樹不一定是含最多信息位點的樹;⑶每棵樹的核苷酸替換數(shù)目的計算更加困難。n個物種可能得到無根系統(tǒng)發(fā)生樹(Nu)數(shù)目Nu=(2n5)!/2n3(n3)!5條或更多序列數(shù)據(jù)集的計算復(fù)雜得多。原因在于79下圖是描述5條不同序列之間關(guān)系的15棵可能無根樹中的3棵。這3棵無根樹有相同的簡約度,它們的最小替換數(shù)都是2。由簡約規(guī)則,推斷出的祖先的候選核苷酸分別列在每個內(nèi)部節(jié)點的旁邊。T512346789GGAAGA(GA)(GAT)(a)A123456789GGTAGA(GT)(GTA)(b)123456789GTGAAGGA(GA)(c)計算祖先核苷酸位置的算法:如果一個內(nèi)部節(jié)點的兩個直接后代節(jié)點上的核苷酸的交集非空,那么這個節(jié)點的最可能的候選核苷酸集就是這個交集;否則為它的兩個后代節(jié)點上的核苷酸集的并集。下圖是描述5條不同序列之間關(guān)系的15棵可能無根樹中的3棵。這80上述方法只適用于信息位點,不適用于非信息位點。非信息位點的最小替換數(shù)外部節(jié)點上不同核苷酸數(shù)目減去1(與樹的拓?fù)浣Y(jié)構(gòu)無關(guān))例如5條序列的比對中,有一個位置上的核苷酸是G、G、A、G和T,則最小替換數(shù)就是31=2。非信息位點對所有可能的樹的貢獻(xiàn)都是等價的,在簡約分析中往往被完全排除。樹的長度(length)當(dāng)一棵樹在信息位點和非信息位點的替換數(shù)的總和是一個確定的數(shù)值時,這個數(shù)值就是指樹的長度。上述方法只適用于信息位點,不適用于非信息位點。815.1.3加權(quán)簡約法賦值的必要性“突變是罕見事件”將所有突變看成是等價的,但之前的學(xué)習(xí)已經(jīng)告訴我們插入和刪除比替換可能性??;長插入和長刪除比短插入和短刪除少見;轉(zhuǎn)換概率大于顛換;功能相關(guān)的突變比無關(guān)的突變發(fā)生的概率小……因此,我們給各種突變賦予相對概率值,在簡約算法中可將這些值轉(zhuǎn)化為權(quán)值。5.1.3加權(quán)簡約法賦值的必要性82我們無法得到一組適用于所有數(shù)據(jù)集的權(quán)值,原因有三:(1)一些序列比其他序列更容易插入和刪除;(2)即使是同源基因,對功能的重要性也因不同的基因、不同的物種而有所差別;(3)不同的基因和物種有不同的替換偏好。因此,最佳的權(quán)值通常來自對實驗數(shù)據(jù)集的分析,可獲得的最佳實驗數(shù)據(jù)集是實際分析過的數(shù)據(jù)集。例如:假如轉(zhuǎn)換出現(xiàn)頻率為顛換的3倍,那么對同一序列集的簡約分析就可以給所有的轉(zhuǎn)換替換賦權(quán)值1,給所有的顛換替換賦權(quán)值0.33。我們無法得到一組適用于所有數(shù)據(jù)集的權(quán)值,原因有三:835.2推斷出的祖先序列簡約法最值得注意的副產(chǎn)品是分析過程中產(chǎn)生的推斷出的祖先序列,即使這些祖先可能在數(shù)億年前就已經(jīng)滅絕。推斷出的樹中的內(nèi)部分支的信息位點稱作共源性狀(synapomorphies,幾個物種共有的遺傳狀態(tài))。其他信息位點稱作同形性狀(homoplasies,),它是通過趨同進(jìn)化、平行進(jìn)化和逆轉(zhuǎn)進(jìn)化,由物種獨立發(fā)展出來的特征,而不是從共同祖先遺傳得到的。5.2推斷出的祖先序列簡約法最值得注意的副產(chǎn)品是分析過程中84哺乳動物嚙齒動物例如同形性狀共源性狀應(yīng)用進(jìn)化論對創(chuàng)世論的反駁利用簡約分析推斷出祖先,不僅填補(bǔ)了分子進(jìn)化研究中空白,還能從現(xiàn)存后代序列中推斷出中間狀態(tài);哺乳動物嚙齒動物例如同形性狀共源性狀應(yīng)用進(jìn)化論對創(chuàng)世論的855.3快速搜索策略即使信息位點的數(shù)目較少,用未改進(jìn)的簡約法對較多序列的比對進(jìn)行手工計算也是不現(xiàn)實。分析10條序列需要考慮200萬棵樹。由于數(shù)據(jù)集十分龐大,計算困難,因此研究出一些改進(jìn)的算法,不用考慮所有可能的樹就能夠方便可靠地確定最簡約樹。分支約束法啟發(fā)式搜索5.3快速搜索策略即使信息位點的數(shù)目較少,用未改進(jìn)的簡約法865.3.1分支約束法分支約束法(BranchandBoundMethod)是在一個復(fù)雜的空間中進(jìn)行搜索的通用技術(shù),搜索空間以從一個分層樹的根節(jié)點至葉節(jié)點的一系列路徑表示。步驟⑴為最簡約樹的長度確定一個上限L。L的值可以是隨機(jī)選擇的任何一棵描述被研究物種之間關(guān)系的樹的長度。但是如果用近似最簡約的樹(例如UPGMA產(chǎn)生的樹)來建立上限更有效。⑵樹的生長過程,即在描述部分序列之間關(guān)系的樹中每次增加一個分支。5.3.1分支約束法分支約束法(BranchandBo87這個方法的原理是:由數(shù)據(jù)子集得到的任何一棵樹,如果它的替換數(shù)大于L,那么當(dāng)剩下的序列加入后,總的分支長度必定變得更大,那么原先的長度為L的樹為最簡約樹。如果在分析過程中,如果發(fā)現(xiàn)比初始建立的上限為L的樹替換數(shù)更少的樹,那么L的值將隨之修正,這樣余下的數(shù)據(jù)集的分析將更為有效。這個方法的原理是:88分支約束法搜索最簡約樹的過程表示3個物種(A,B,C)之間關(guān)系的無根樹只有1棵(A1);用這棵樹作為起始點,將第4個物種(D)插入到樹A1中,得到四個物種的3種無根樹(B1,B2,B3);如果插入后得到的樹的長度大于原來的樹,例如B3,舍棄該樹。繼續(xù)插入第5個物種,重復(fù)上述步驟,直到所有待分析物種都被插入到樹中。下圖是用分支約束法搜索簡約樹的過程分支約束法搜索最簡約樹的過程表示3個物種(A,B,C89BACA1STOPABCDB3ABCDB2ABCDB1ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEC2.1C2.2C2.3C2.4C2.5STOPSTOPSTOPSTOPSTOPC1.1C1.2C1.3C1.4C1.5圖5.4用分支約束法搜索最簡約樹的過程BACA1STOPABCDB3ABCDB2ABCDB1ABC90分支約束法快速搜索策略的優(yōu)缺點優(yōu)點分支約束法保證在分析完成時沒有遺漏更簡約的樹,具有比窮舉法搜索快幾個數(shù)量級的優(yōu)點;能分析多達(dá)20條序列。缺點對于多于1×1021可能的無根樹的分析,計算量還是太大。分支約束法快速搜索策略的優(yōu)缺點優(yōu)點915.3.2啟發(fā)式搜索對大于20條序列的多序列進(jìn)行比對必須采用近似的更為有效的算法。啟發(fā)式方法的假設(shè)各個可能的樹并不總是相互獨立的。最簡約數(shù)和次簡約數(shù)拓?fù)浣Y(jié)構(gòu)相似,因此首先構(gòu)建一棵初始樹,從它開始尋找更短的樹。因此啟發(fā)式搜索通過子樹分支交換,把它們嫁接到該步分析中找到的最好的那棵樹的其他位置上,從而產(chǎn)生一棵拓?fù)浣Y(jié)構(gòu)和初始樹相似的樹。同分支約束法一樣,如果初始樹很接近于最簡約樹(例如UPGMA產(chǎn)生的樹),啟發(fā)式搜索會更有效。5.3.2啟發(fā)式搜索對大于20條序列的多序列進(jìn)行比對必須采92圖5.5分支交換再接1234567剪除1245673第一輪分析中,由初始樹產(chǎn)生出上百棵新樹,其中所有比初始樹短的新樹都在第二輪分析中被剪枝和嫁接。不斷重復(fù)這個過程,直到某一輪通過剪枝和嫁接無法產(chǎn)生與前一輪等長或更短的樹。圖5.5分支交換再接1234567剪除1245673第93大量序列比對的可能的無根樹的數(shù)目是一個天文數(shù)字,這種比對深度對計算造成了很大困難,把多個序列比對分成幾個較少序列的比對可以較好的解決這一問題。例如同源哺乳動物序列靈長類序列嚙齒類序列部分偶蹄、兔類、靈長、嚙齒探知樹中靈長類所在樹干的末段之間的關(guān)系確定樹中嚙齒類所在樹干的末段之間的關(guān)系檢驗更早的分支、更具體的靈長類樹干和嚙齒類樹干的最后位置大量序列比對的可能的無根樹的數(shù)目是一個天文數(shù)字,這種比對深度945.4一致樹簡約法產(chǎn)生多棵等價的簡約數(shù)是很常見的。此時最簡單的方法是用一個一致樹(consensustree)作為代表來概括所有等價的簡約樹。方法如下(1)在所有樹中都一致的分支點在一致樹中表示成二叉分支點。(2)不一致的分支點蛻變成連接三個或更多后代分支的內(nèi)部節(jié)點。5.4一致樹簡約法產(chǎn)生多棵等價的簡約數(shù)是很常見的。95嚴(yán)格一致樹(strictconsensustree):只要有一棵簡約樹與其他不同,對所有不一致的分支點都進(jìn)行相同的處理。過半截定一致(50%majority-ruleconsensus)

:只要有至少一半的樹符合條件,這個內(nèi)部節(jié)點在一致樹中就可以表示成二叉節(jié)點,而少于一半的樹符合條件的內(nèi)部節(jié)點表示為多叉節(jié)點。不一致性閾值是一個參數(shù),可以取0~100%的任意值。嚴(yán)格一致樹(strictconsensustree):96由一個數(shù)據(jù)集推斷出的3棵樹7712345612345612345671234567過半截定一致原則1234567嚴(yán)格一致原則由一個數(shù)據(jù)集推斷出的3棵樹77123456123456123975.5樹的置信度所有的系統(tǒng)發(fā)生樹都是關(guān)于組成數(shù)據(jù)集的序列的進(jìn)化歷史的假設(shè)。系統(tǒng)發(fā)生樹的可靠性?問題(1)整棵樹和它的組成部分(分支)的置信度是多少?(2)這樣得到正確的樹的可能性比隨機(jī)選出一棵是正確的樹的可能性大多少?解決方法自舉檢驗——解決問題(1)參數(shù)檢驗——解決問題(2)5.5樹的置信度985.5.1自舉檢驗(bootstraptest)自舉檢驗是一種重采樣技術(shù),能粗略地量化這些置信度水平。

自舉檢驗的基本方法是(1)從原數(shù)據(jù)集中抽?。ㄍ瑫r替換)部分?jǐn)?shù)據(jù)組成新的數(shù)據(jù)集。(2)用這個新的數(shù)據(jù)集推斷系統(tǒng)發(fā)生樹。重復(fù)上述過程,產(chǎn)生成百上千的重采樣數(shù)據(jù)集,并同時生成對應(yīng)的自舉樹,進(jìn)而檢驗自舉樹對最終系統(tǒng)發(fā)生樹各個分支的支持率。在各個自舉樹中都有出現(xiàn)或大量出現(xiàn)的那些部分將具有較高的置信度。產(chǎn)生相同分組的自舉樹的數(shù)目常常標(biāo)注在系統(tǒng)發(fā)生樹相應(yīng)節(jié)點的旁邊,表示樹中每個部分的相對置信度。5.5.1自舉檢驗(bootstraptest)99系統(tǒng)發(fā)生樹的自舉檢驗序列Ⅳ位置ⅠⅡⅢⅤ推斷樹ⅠⅡⅢⅣⅤ自舉樹1ⅠⅡⅢⅣⅤ自舉樹2ⅠⅡⅢⅣⅤ自舉樹3ⅠⅡⅢⅣⅤ(a)(b)自舉樹ⅠⅡⅢⅣⅤ(c)

為3個重采樣數(shù)據(jù)集的一致樹7567GGGGGGGAAAGGGAGGGAAAGGGTAAAAATGAACAAAGGTGTTCAAAAAT12245557710GGGGGGATTTGGGATTATTTAAATGGACCCTTTCTTGTTTTTTCTTATTT3334667888GGGGGGGCCCGGGGGGTCCCGGAAAAGAAAGGTAAATAAAGGTAAATCCC1135556999GGGGGGATCAGGGAGTATCAGGATAGACATGATCATGTATGTTCATATCT12345678910系統(tǒng)發(fā)生樹的自舉檢驗序列Ⅳ位置ⅠⅡⅢⅤ推斷樹ⅠⅡⅢⅣⅤ自舉樹1005.5.2參數(shù)檢驗是否一棵有10,000個替換的樹比另一棵有10,001個替換的樹更有可能描述序列間真實進(jìn)化關(guān)系?比起先前提出的另一棵描述物種間進(jìn)化關(guān)系的樹,最簡約樹是真實樹的概率會大多少?

5.5.2參數(shù)檢驗101H.Kishino和M.Hasegawa假設(shè)比對中的各個信息位點彼此獨立而且等價,并用兩棵樹的最小替換數(shù)之差D作為檢驗統(tǒng)計量。分別考慮每一個信息位點,按下式計算反映D變化程度的V值

其中n是信息位點的數(shù)目,Di為兩棵樹中各個信息位點替換數(shù)的差值。n–1個自由度的t檢驗可以用來檢驗空假設(shè),即兩棵樹的替換數(shù)相等的情況H.Kishino和M.Hasegawa假設(shè)比對中1025.6各種系統(tǒng)發(fā)生分析方法的比較無論是基于距離的系統(tǒng)發(fā)生樹重建方法,還是基于特征的系統(tǒng)發(fā)生樹重建方法,都不能保證一定能夠得到一棵描述比對序列進(jìn)化歷史的真實的樹。一般的,對于某個數(shù)據(jù)集,如果用一種方法能推斷出正確的系統(tǒng)發(fā)生關(guān)系,那么用其他流行的方法也能得到好的結(jié)果。但是,如果模擬數(shù)據(jù)集中序列變化很大,或不同的分支變化速率不同,則沒有一種方法十分可靠??傄?guī)則如果用截然不同的距離矩陣法和簡約法分析一個數(shù)據(jù)集能夠產(chǎn)生相似的系統(tǒng)發(fā)生樹,則這棵樹相當(dāng)可靠。5.6各種系統(tǒng)發(fā)生分析方法的比較無論是基于距離的系統(tǒng)發(fā)生1035.7分子系統(tǒng)發(fā)生分析5.7.1生命之樹序列分析提供了關(guān)于進(jìn)化關(guān)系的新信息,其中最具影響力的是我們對于生命分化本質(zhì)的理解。過去30年中涌現(xiàn)了無數(shù)用序列分析解開進(jìn)化關(guān)系之謎的有趣而重要的例子。這樣的研究往往對醫(yī)學(xué)、農(nóng)業(yè)和自然保護(hù)有重要的意義。例如對一種傳染病治療有效的藥物可能對其他相關(guān)生物體引起的傳染病也有效;抗病因子通常容易在近緣關(guān)系的物種之間進(jìn)行傳遞;一個生物體種群是否足以成為一個獨立的物種而值得特別保護(hù)。5.7分子系統(tǒng)發(fā)生分析5.7.1生命之樹1045.7.1生命之樹很多年前,生物學(xué)家將所有生命分成植物和動物這兩個主要的類。隨著越來越多生物體的發(fā)現(xiàn),后來在細(xì)胞結(jié)構(gòu)的基礎(chǔ)上,人們把生物體分成了原核生物和真核生物。再后來,人們又提出了一些生命的基本分類,例如Whittaker的五界學(xué)說(原核生物、原生生物、植物、真菌和動物)。20世紀(jì)70年代后期開始,DNA和RNA序列被用來解開物種之間進(jìn)化歷史的主線。5.7.1生命之樹很多年前,生物學(xué)家將所有生命分成植物和動1055.7.1生命之樹真核生物真細(xì)菌古細(xì)菌廣域古生界嗜泉古生界內(nèi)阿米巴蟲粘液菌動物真菌植物纖毛蟲鞭毛蟲毛滴蟲雙滴蟲小孢子蟲綠色無硫細(xì)菌革蘭氏陽性細(xì)菌嗜熱菌黃質(zhì)菌藍(lán)細(xì)菌紫色細(xì)菌圖5.8無根“生命之樹”用簡約法和距離矩陣法處理16SrRNA基因序列數(shù)據(jù),得到了無根“生命之樹”。3個主要分支分別是:真核生物、真細(xì)菌和古細(xì)菌。5.7.1生命之樹真核生物真細(xì)菌古細(xì)菌廣域古生界嗜泉古生界1065.7.1生命之樹古細(xì)菌和細(xì)菌,雖然由于它們都沒有內(nèi)膜而都被認(rèn)為是原核生物,但是它們在遺傳上的差異程度就像細(xì)菌和真核一樣。它們在表型方面的進(jìn)化并不明顯,化石記錄也毫無幫助。只有把它們的核苷酸序列進(jìn)行比較,才可以看出明顯差別。其他基因的序列,包括5S核糖體RNA、大核糖體RNA和編碼一些很重要的蛋白質(zhì)的基因,都強(qiáng)烈支持該觀點——這三個主要的進(jìn)化類的劃分法是最好的。5.7.1生命之樹古細(xì)菌和細(xì)菌,雖然由于它們都沒有內(nèi)膜而都1075.7分子系統(tǒng)發(fā)生分析5.6.2人類起源用DNA序列來研究進(jìn)化關(guān)系的另一個領(lǐng)域是人類進(jìn)化。與人類在大小、身體形狀、面部特征、皮膚顏色等方面的的顯著差異性相比,基因上的差異相對較小。線粒體DNA序列的分析表明兩種人群之間序列的平均差異約為0.33%,而其他的靈長類動物則表現(xiàn)出更大的差異性。例如,猩猩的兩個亞種之間的差異為5%。這表明所有的人種之間的親緣關(guān)系很近。盡管如此,不同的人群之間確實存在一些基因上的差異。5.7分子系統(tǒng)發(fā)生分析5.6.2人類起源1085.7分子系統(tǒng)發(fā)生分析“現(xiàn)代人走出非洲理論”在非洲的人群之間的差異比居住在不同大陸的人群之間的差異還要大,因此很多專家認(rèn)為人類起源于非洲,并在非洲進(jìn)行了早期的進(jìn)化分歧。當(dāng)不同基因的人群在非洲進(jìn)化后,一小部分人可能遷移出非洲并且發(fā)展成為其他的人群。來自線粒體DNA和Y染色體(雄性染色體)的序列數(shù)據(jù)和這個猜想是一致的。5.7分子系統(tǒng)發(fā)生分析1095.7分子系統(tǒng)發(fā)生分析線粒體夏娃

通過追蹤線粒體基因的譜系,發(fā)現(xiàn)在大約20萬年前出現(xiàn)了交叉點,表明現(xiàn)存所有人的線粒體基因都傳自20萬年前的一名女性。她被形象地稱為“線粒體夏娃”。

Y染色體亞當(dāng)通過比較各個個體之間Y染色體序列的差異,我們也可以計算出現(xiàn)在所有人的Y染色體都來自大約20萬年前的一名男性。他被稱為“Y染色體亞當(dāng)”。

5.7分子系統(tǒng)發(fā)生分析線粒體夏娃通過追蹤線粒體110本章小結(jié)基于特征的系統(tǒng)發(fā)生樹重建方法是以簡約原則為基礎(chǔ)的,具有最小替換數(shù)的系統(tǒng)發(fā)生關(guān)系可能反映被考慮序列之間真實的進(jìn)化關(guān)系。簡約法除發(fā)現(xiàn)序列之間進(jìn)化關(guān)系外,還能推斷出滅絕很久的祖先序列。20條或更多條序列的多序列比對計算量相當(dāng)大,需要用改進(jìn)的算法——分支約束法、啟發(fā)式搜索。一致樹可以總結(jié)為幾棵簡約度相同的樹。自舉檢驗和參數(shù)檢驗用來確定簡約樹的可靠性。本章小結(jié)基于特征的系統(tǒng)發(fā)生樹重建方法是以簡約原則為基礎(chǔ)的,具111課堂練習(xí)5.1下面的比對中哪些位點在簡約分析中是信息位點?有多少位點是不變位點?1.GAATGCTGATATTCCATAAGTCACGAGTCAAAAGTACTCG2.GGATGGTGATACTTCGTAAGTCCCGAGTCGAAAGTACTCG3.GGATGATGATACTTCATAAGTCTCAAATCAAAGGTACTTG4.GGATGCTGACACTTCATAAGTCGCGAGTCAAAAGTACTTG5.GGATGCTGACACTCCGTAAGTCCCGAGTCAAATGTACTCG有4個信息位點,28個不變位點課堂練習(xí)5.1下面的比對中哪些位點在簡約分析中是信息位點?112課堂練習(xí)5.2畫出4個物種的3棵不同的無根樹。這4個物種在某位置上的核苷酸分別是T、T、C、和C,為每個內(nèi)部節(jié)點推斷出的祖先序列標(biāo)出最可能的候選核苷酸。5.3上面的問題中,3棵可能的無根樹中有幾棵是一樣簡約的(因為它們有最小替換數(shù))?有幾棵樹的替換數(shù)是2?有大于2個替換的樹嗎?TTTCCCTTT(C)T(C)CCTTT(C)T(C)CC課堂練習(xí)5.2畫出4個物種的3棵不同的無根樹。這4個物113第七章分子系統(tǒng)發(fā)育分析進(jìn)化樹第七章分子系統(tǒng)發(fā)育分析進(jìn)化樹114本章內(nèi)容引言生物進(jìn)化的分子機(jī)制系統(tǒng)進(jìn)化樹及其構(gòu)建分子系統(tǒng)發(fā)育分析軟件及應(yīng)用本章內(nèi)容引言115引言生物學(xué)家Wehaveadream…TreeofLife:重建所有生物的進(jìn)化歷史并以系統(tǒng)樹的形式加以描述引言生物學(xué)家Wehaveadream…116引言夢想走進(jìn)現(xiàn)實How?最理想的方法化石!——零散、不完整引言夢想走進(jìn)現(xiàn)實How?117引言夢想走進(jìn)現(xiàn)實How?比較形態(tài)學(xué)和比較生理學(xué)確定大致的進(jìn)化框架——細(xì)節(jié)存很多的爭議引言夢想走進(jìn)現(xiàn)實How?118引言夢想走進(jìn)現(xiàn)實How?第三種方案分子進(jìn)化1964年,美國進(jìn)化生物學(xué)家E.Zuckerkandl和量子化學(xué)家LinusPauling提出分子進(jìn)化理論基本假設(shè)核酸和蛋白質(zhì)序列中含有生物進(jìn)化歷史的全部信息理論分子進(jìn)化速率恒定。分子鐘物種的同源基因之間的差異程度與它們的共同祖先的存在時間(即兩者的分歧時間)有一定的數(shù)量關(guān)系。發(fā)生在分子層面的進(jìn)化過程DNA,RNA和蛋白質(zhì)分子引言夢想走進(jìn)現(xiàn)實How?119引言分子鐘成立的證據(jù)1、至少某些生物大分子(如珠蛋白)的進(jìn)化速率在相當(dāng)長的地質(zhì)時間內(nèi)的相對穩(wěn)定、均勻;2、許多不同物種的多種同源大分子在相當(dāng)長時間內(nèi)的平均進(jìn)化速率近似恒定。引言分子鐘成立的證據(jù)120建立分子鐘的大致步驟1、選擇所要比較的生物大分子種類根據(jù)具體研究目標(biāo)和已掌握的資料,選擇進(jìn)化速率相對恒定、速率大小合適、分布范圍能涵蓋各待比較物種的生物大分子。2、選擇所要比較的物種,確定各比較組合及其所代表的進(jìn)化事件3、獲得生物大分子一級結(jié)構(gòu)的資料4、獲得有關(guān)的代表性進(jìn)化事件發(fā)生的地質(zhì)時間數(shù)據(jù)5、通過比較大分子一級結(jié)構(gòu),選擇合適的數(shù)學(xué)模型,計算得到進(jìn)化產(chǎn)生的分子差異d,通過回歸分析等統(tǒng)計方法得到大分子的進(jìn)化速率r(t)6、由此可以推斷未知進(jìn)化事件的發(fā)生時間建立分子鐘的大致步驟121Example:Molecularclockfor17mammalspeciesInferredpairwisenucleotidesubstitutionsamong17mammalspeciesfromsevengeneproducts,asestimatedfromproteinstudies,plottedagainstdateofdivergence,asestimatedfromthefossilrecord.Thelineisdrawnfromtheoriginthroughtheoldestpoint(marsupial/placentaldivergenceat125MYBP).Thestronglinearrelationshipsuggeststhatmoleculardifferencesbetweenpairsofspeciesareproportionaltothetimeoftheirseparation,ratherthanthedegreeoforganismaldifference.

Therefore,measuresofgeneticdivergencecanbeusedtodatethetimeofdivergenceforspeciespairsforwhichnofossildataareavailable:genesfunctionasMolecularClocks.

(fromA.C.Wilson1976)Example:Molecularclockfor1122關(guān)于分子鐘的討論和爭議1、對長期進(jìn)化而言,不存在以恒定速率替換的生物大分子一級結(jié)構(gòu);(基因功能的改變、基因數(shù)目的增加)2、不存在通用的分子鐘;3、爭議:分子鐘的準(zhǔn)確性中性理論(分子鐘成立的基礎(chǔ))第七章分子系統(tǒng)發(fā)育分析進(jìn)化樹優(yōu)質(zhì)課件123第一節(jié)生物進(jìn)化的分子機(jī)制分子途經(jīng)研究生物進(jìn)化的可行性分子進(jìn)化的模式分子進(jìn)化的特點研究分子進(jìn)化的作用第一節(jié)生物進(jìn)化的分子機(jī)制分子途經(jīng)研究生物進(jìn)化的可行性124分子途徑研究生物進(jìn)化的可行性普適性由4種核酸組成分子水平的進(jìn)化表現(xiàn)為DNA序列的演化、氨基酸序列演化、蛋白質(zhì)結(jié)構(gòu)及功能的演化可比較性比較不同物種的有關(guān)DNA序列建立DNA序列的演化模型、氨基酸序列的演化模型蛋白質(zhì)結(jié)構(gòu)的演化模型基因組包含豐富的編碼信息與形態(tài)、性狀包含的信息相比,基因組序列、蛋白質(zhì)序列包含更多、更復(fù)雜的信息結(jié)構(gòu)分子途徑研究生物進(jìn)化的可行性普適性125基因變異1、核苷酸替代、插入/缺失、重組2、基因復(fù)制固定在生物個體以及物種內(nèi)遺傳漂變自然選擇傳遞給后代產(chǎn)生新的形態(tài)、性狀分子進(jìn)化的模式基因變異1、核苷酸替代、插入/缺失、重組固定在生物個體遺傳漂126分子進(jìn)化的模式1.DNA突變替代,插入,缺失,倒位核苷酸替代轉(zhuǎn)換(Transition)&顛換(Transversion)2.基因復(fù)制多基因家族的產(chǎn)生以及偽基因的產(chǎn)生A.單個基因復(fù)制–重組或者逆轉(zhuǎn)錄B.染色體片斷復(fù)制C.基因組復(fù)制分子進(jìn)化的模式1.DNA突變替代,插入,缺失,倒位127ThrTyrLeuLeuACCTATTTGCTGACCTCTTTGCTGThrSerLeuLeu替代ThrTyrLeuLeuACCTATTTGCTGACCTACTTTGCTGThrTyrPheAla插入ThrTyrLeuLeuACCTATTTGCTGACCTATTGCTG-ThrTyrCys-缺失ThrTyrLeuLeuACCTATTTGCTGACCTTTATGCTGThrPheMetLeu倒位(1)DNA突變ThrTyrLeuLeuACCTCT128ThrTyrLeuLeu系統(tǒng)進(jìn)化樹/生物進(jìn)化樹/系統(tǒng)發(fā)育樹/系統(tǒng)發(fā)生樹/系統(tǒng)樹/進(jìn)化樹/演化樹phylogenetictree/evolutionarytreephylogenetictree/evolutionarytree常用分子系統(tǒng)發(fā)育分析軟件由進(jìn)化距離構(gòu)建進(jìn)化樹的方法有很多,常見有是在一個復(fù)雜的空間中進(jìn)行搜索的通用技術(shù),搜索空間以從一個分層樹的根節(jié)點至葉節(jié)點的一系列路徑表示。功能上重要的大分子或大分子的局部在進(jìn)化速率上明顯低于那些在功能上不重要的大分子或者大分子局部。1自舉檢驗(bootstraptest)不斷重復(fù)這個過程,直到某一輪通過剪枝和嫁接無法產(chǎn)生與前一輪等長或更短的樹。Nu=(2n5)!/2n3(n3)!2畫出4個物種的3棵不同的無根樹??捎糜谌魏蜗嚓P(guān)序列集合物種樹:代表一個物種或群體進(jìn)化歷史的系統(tǒng)進(jìn)化樹,兩個物種分歧的時間為兩個物種發(fā)生生殖隔離的時間第三節(jié)分子系統(tǒng)發(fā)育分析軟件及應(yīng)用L的值可以是隨機(jī)選擇的任何一棵描述被研究物種之間關(guān)系的樹的長度。長插入和長刪除比短插入和短刪除少見;外圍支可以輔助定位樹根其他基因的序列,包括5S核糖體RNA、大核糖體RNA和編碼一些很重要的蛋白質(zhì)的基因,都強(qiáng)烈支持該觀點——這三個主要的進(jìn)化類的劃分法是最好的。對大于20條序列的多序列進(jìn)行比對必須采用近似的更為有效的算法。核苷酸替代轉(zhuǎn)換&顛換1.轉(zhuǎn)換嘌呤被嘌呤替代,或者嘧啶被嘧啶替代2.顛換嘌呤被嘧啶替代,或者嘧啶被嘌呤替代ThrTyrLeuLeu核苷酸替代轉(zhuǎn)換&129(2)基因復(fù)制單個基因復(fù)制重組逆轉(zhuǎn)錄(2)基因復(fù)制單個基因復(fù)制重組逆轉(zhuǎn)錄130(2)基因復(fù)制染色體片段復(fù)制人狒狒(2)基因復(fù)制染色體片段復(fù)制人狒狒131(2)基因復(fù)制基因組復(fù)制S.Cerevisiae(釀酒酵母)K.Waltii(克魯雄酵母)研究結(jié)果:克魯雄酵母中的同源基因數(shù)量與釀酒酵母相比為1:2(2)基因復(fù)制基因組復(fù)制S.Cerevisiae(釀酒酵132分子進(jìn)化的特點生物大分子進(jìn)化速率相對恒定分子進(jìn)化速率

生物大分子隨時間的改變而變化,主要表現(xiàn)為核苷酸、蛋白質(zhì)的一級結(jié)構(gòu)的改變,即分子序列中核苷酸、氨基酸的替換不同物種同源大分子的分子進(jìn)化速率大體相同

例子:比較不同物種血紅蛋白氨基酸序列差異

人、馬——0.810-9/AA.a人、鯉魚——0.610-9/AA.a分子進(jìn)化速率遠(yuǎn)遠(yuǎn)比表型進(jìn)化速率穩(wěn)定分子進(jìn)化的特點生物大分子進(jìn)化速率相對恒定133生物大分子進(jìn)化的保守性保守性

功能上重要的大分子或大分子的局部在進(jìn)化速率上明顯低于那些在功能上不重要的大分子或者大分子局部。(引起表型發(fā)生顯著改變的突變發(fā)生的頻率要低于無明顯表型發(fā)生顯著改變得突變發(fā)生的頻率。)氨基酸

例:血紅蛋白分子的外區(qū)的功能要次于內(nèi)區(qū)的功能,外區(qū)的進(jìn)化速率是內(nèi)區(qū)進(jìn)化速率的10倍。核苷酸

例:DNA密碼子的同義替代頻率高于非同義替代頻率;內(nèi)含子上的核苷酸替代頻率較高。GTTGTCGTAGTGCGTCGC脯氨酸P組氨酸HTGGTGC色氨酸W半胱氨酸C生物大分子進(jìn)化的保守性GTTGTCGTAGTGCGTCGC脯134研究分子進(jìn)化的作用從物種的一些分子特性出發(fā),構(gòu)建系統(tǒng)發(fā)育樹,進(jìn)而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系——treeoflife;物種分類大分子功能與結(jié)構(gòu)的分析同一家族的大分子,具有相似的三級結(jié)構(gòu)及生化功能,通過序列同源性分析,構(gòu)建系統(tǒng)發(fā)育樹,進(jìn)行相關(guān)分析;功能預(yù)測進(jìn)化速率分析例如,HIV的高突變性;哪些位點易發(fā)生突變?研究分子進(jìn)化的作用從物種的一些分子特性出發(fā),構(gòu)建系統(tǒng)發(fā)育樹,135研究分子進(jìn)化的作用TreeofLife:16SrRNA研究分子進(jìn)化的作用TreeofLife:16SrRN136研究分子進(jìn)化的作用OutofAfrica53個人的線粒體基因組(16,587bp)人類遷移的路線研究分子進(jìn)化的作用OutofAfrica53個人的線粒體137第二節(jié)系統(tǒng)進(jìn)化樹及其構(gòu)建系統(tǒng)進(jìn)化樹的概念系統(tǒng)進(jìn)化樹的種類系統(tǒng)進(jìn)化樹的構(gòu)建第二節(jié)系統(tǒng)進(jìn)化樹及其構(gòu)建系統(tǒng)進(jìn)化樹的概念138系統(tǒng)進(jìn)化樹的概念所有生物都可以追溯到共同的祖先,生物的產(chǎn)生和分化就像樹一樣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論