第五章系統(tǒng)發(fā)生分析_第1頁(yè)
第五章系統(tǒng)發(fā)生分析_第2頁(yè)
第五章系統(tǒng)發(fā)生分析_第3頁(yè)
第五章系統(tǒng)發(fā)生分析_第4頁(yè)
第五章系統(tǒng)發(fā)生分析_第5頁(yè)
已閱讀5頁(yè),還剩60頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第第五五章章 系統(tǒng)發(fā)育分析系統(tǒng)發(fā)育分析 是指從田野考古發(fā)掘中出土的古代人是指從田野考古發(fā)掘中出土的古代人類和動(dòng)物遺骸以及古生物化石中提取的古代生物分類和動(dòng)物遺骸以及古生物化石中提取的古代生物分子。隨著現(xiàn)代生物技術(shù)、有機(jī)地球化學(xué)理論和實(shí)驗(yàn)子。隨著現(xiàn)代生物技術(shù)、有機(jī)地球化學(xué)理論和實(shí)驗(yàn)技術(shù)的不斷發(fā)展,人們對(duì)古代技術(shù)的不斷發(fā)展,人們對(duì)古代dna的研究也不斷深的研究也不斷深入。入。 把古代把古代dna數(shù)據(jù)與現(xiàn)代基因庫(kù)中的數(shù)據(jù)資料相數(shù)據(jù)與現(xiàn)代基因庫(kù)中的數(shù)據(jù)資料相結(jié)合,便可以構(gòu)建出某一生物門類的系統(tǒng)發(fā)育樹,結(jié)合,便可以構(gòu)建出某一生物門類的系統(tǒng)發(fā)育樹,從而進(jìn)一步探討人類的演化與遷移等重大問(wèn)題。從而進(jìn)一步探討人

2、類的演化與遷移等重大問(wèn)題。古生物遺體、化石保存的三種信息:古生物遺體、化石保存的三種信息:1、形態(tài)學(xué)信息、形態(tài)學(xué)信息2、化學(xué)信息、化學(xué)信息(生物的代謝產(chǎn)物和一般的生物化學(xué)分子)(生物的代謝產(chǎn)物和一般的生物化學(xué)分子)3、遺傳信息、遺傳信息(保存的一級(jí)結(jié)構(gòu)生物大分子保存的一級(jí)結(jié)構(gòu)生物大分子,即基因產(chǎn)物和基因片段即基因產(chǎn)物和基因片段)(molecular systematics):從生物大分子(氨):從生物大分子(氨基酸、核苷酸)的遺傳信息推斷生物進(jìn)化的歷史,并以系統(tǒng)基酸、核苷酸)的遺傳信息推斷生物進(jìn)化的歷史,并以系統(tǒng)樹(譜系)的形式表達(dá)出來(lái)。樹(譜系)的形式表達(dá)出來(lái)。:利用古代:利用古代dna保留

3、的遺傳信息進(jìn)行分子系統(tǒng)保留的遺傳信息進(jìn)行分子系統(tǒng)學(xué)研究學(xué)研究 (fossil) (comparative morphology) (comparative physiology)經(jīng)典的進(jìn)化研究方法經(jīng)典的進(jìn)化研究方法 (comparative morphology) 由由4種核酸組成種核酸組成 分子水平的進(jìn)化表現(xiàn)為:分子水平的進(jìn)化表現(xiàn)為:dna序列的演序列的演化、氨基酸序列演化、蛋白質(zhì)結(jié)構(gòu)的演化化、氨基酸序列演化、蛋白質(zhì)結(jié)構(gòu)的演化 比較不同物種的有關(guān)比較不同物種的有關(guān)dna序列序列 建立建立dna序列的演化模序列的演化模型、氨基酸序列的演化模型(數(shù)學(xué)模型)型、氨基酸序列的演化模型(數(shù)學(xué)模型) 蛋

4、白質(zhì)結(jié)構(gòu)的演化模型蛋白質(zhì)結(jié)構(gòu)的演化模型 (形態(tài)、性狀的演化模型?)(形態(tài)、性狀的演化模型?) 與形態(tài)、性狀包含的信息相比,基因組序列包含更多、更與形態(tài)、性狀包含的信息相比,基因組序列包含更多、更復(fù)雜的信息結(jié)構(gòu)復(fù)雜的信息結(jié)構(gòu)進(jìn)化學(xué)的分子途徑進(jìn)化學(xué)的分子途徑:源于同一祖先源于同一祖先dna/氨基酸序列的兩條氨基酸序列的兩條dna/氨基酸氨基酸序列,考察二者的差異。序列,考察二者的差異。:進(jìn)化過(guò)程中分子突變的痕跡進(jìn)化過(guò)程中分子突變的痕跡:以累計(jì)在:以累計(jì)在dna/氨基酸分子上的歷史信息為基礎(chǔ),氨基酸分子上的歷史信息為基礎(chǔ),研究分子水平的生物進(jìn)化過(guò)程和機(jī)制。研究分子水平的生物進(jìn)化過(guò)程和機(jī)制。分子系統(tǒng)學(xué)

5、為生物分類問(wèn)題提供了許多嶄新的見(jiàn)解。分子系統(tǒng)學(xué)為生物分類問(wèn)題提供了許多嶄新的見(jiàn)解?;蛲蛔兓蛲蛔?、核苷酸替代、插入/缺失、重組2、基因轉(zhuǎn)換固定在生物個(gè)體固定在生物個(gè)體以及物種內(nèi)以及物種內(nèi)遺傳漂變遺傳漂變自然選擇自然選擇傳遞給后代傳遞給后代產(chǎn)生新的形態(tài)、性狀產(chǎn)生新的形態(tài)、性狀分子系統(tǒng)學(xué)是研究進(jìn)化機(jī)制的一個(gè)重要工具。分子系統(tǒng)學(xué)是研究進(jìn)化機(jī)制的一個(gè)重要工具。生物進(jìn)化的分子機(jī)制生物進(jìn)化的分子機(jī)制性狀改變性狀改變dna分子的改變分子的改變核苷酸替代substitution核苷酸缺失deletion核苷酸插入insertion核苷酸倒位invertion thr tyr leu leuacc tat

6、ttg ctgacc tct ttg ctg thr ser leu leu替代替代 thr tyr leu leuacc tat ttg ctgacc tac ttt gct g thr tyr phe ala插入插入 thr tyr leu leuacc tat ttg ctgacc tat tgc tg- thr tyr cys -缺失缺失 thr tyr leu leuacc tat ttg ctgacc ttt atg ctg thr phe met leu倒位倒位(transition)嘌呤嘌呤 嘌呤嘌呤嘧啶嘧啶 嘧啶嘧啶(transvertion)嘌呤嘌呤 嘧啶嘧啶嘧啶嘧啶 嘌呤

7、嘌呤胞嘧啶胞嘧啶腺嘌呤腺嘌呤胸腺嘧啶胸腺嘧啶鳥嘌呤鳥嘌呤在大多數(shù)在大多數(shù)dna片段中,轉(zhuǎn)換出現(xiàn)的概率高于顛換出現(xiàn)的概率。片段中,轉(zhuǎn)換出現(xiàn)的概率高于顛換出現(xiàn)的概率。仍然為同義密碼子的核苷酸替代仍然為同義密碼子的核苷酸替代如:如: tat tac tyr tyr導(dǎo)致產(chǎn)生非同義密碼子的核苷酸替代導(dǎo)致產(chǎn)生非同義密碼子的核苷酸替代如:如: tat aat tyr asn導(dǎo)致產(chǎn)生終止密碼子的核苷酸突變導(dǎo)致產(chǎn)生終止密碼子的核苷酸突變?nèi)纾喝纾?tat taa tyr stp問(wèn)題:假設(shè)所有密碼子以同一概率出現(xiàn),上述三種突變的比例問(wèn)題:假設(shè)所有密碼子以同一概率出現(xiàn),上述三種突變的比例 25%,71%,4%:編碼同

8、一個(gè)氨基酸的多個(gè)同義密碼子具有不同的使用頻率。編碼同一個(gè)氨基酸的多個(gè)同義密碼子具有不同的使用頻率?;蛘呋蛘吣骋晃锓N或某一基因通常傾向于使用一種或幾種特定的某一物種或某一基因通常傾向于使用一種或幾種特定的同義密碼子,這些密碼子被稱為最優(yōu)密碼子同義密碼子,這些密碼子被稱為最優(yōu)密碼子(optimal codon),此現(xiàn)象被稱為密碼子偏好性此現(xiàn)象被稱為密碼子偏好性(codon usage bias)。 e. coli的的rna聚合酶聚合酶 纈氨酸纈氨酸val gtt gtc gta gtg 55 21 34 34 精氨酸精氨酸arg cgu cgc cga cgg 89 46 1 0為什么會(huì)出現(xiàn)密碼子

9、使用頻率的偏倚性?為什么會(huì)出現(xiàn)密碼子使用頻率的偏倚性? 與同功能與同功能trna的豐度有關(guān)?的豐度有關(guān)? 突變壓力與凈化選擇雙重控制?突變壓力與凈化選擇雙重控制? open problem第一節(jié)第一節(jié) 基本概念基本概念 基本概念:基本概念: 系統(tǒng)發(fā)生(系統(tǒng)發(fā)生(phylogeny)是指生物形成或進(jìn)化的是指生物形成或進(jìn)化的歷史;歷史; 系統(tǒng)發(fā)生學(xué)系統(tǒng)發(fā)生學(xué)(phylogenetics)研究物種研究物種(遺傳學(xué)特遺傳學(xué)特征征)之間的進(jìn)化關(guān)系之間的進(jìn)化關(guān)系,認(rèn)為特征相似的物種在遺傳學(xué)認(rèn)為特征相似的物種在遺傳學(xué)上接近上接近.系統(tǒng)發(fā)生的結(jié)果常以系統(tǒng)發(fā)生樹表示系統(tǒng)發(fā)生的結(jié)果常以系統(tǒng)發(fā)生樹表示; 系統(tǒng)發(fā)生樹

10、(系統(tǒng)發(fā)生樹(phylogenetic tree)表示形式,描表示形式,描述物種述物種(遺傳學(xué)特征遺傳學(xué)特征: 形態(tài)形態(tài), 基因序列基因序列, 蛋白質(zhì)序列等蛋白質(zhì)序列等等等) 之間進(jìn)化關(guān)系之間進(jìn)化關(guān)系 的樹,又叫的樹,又叫系統(tǒng)發(fā)育樹、系統(tǒng)演化系統(tǒng)發(fā)育樹、系統(tǒng)演化樹、系統(tǒng)進(jìn)化樹、種系發(fā)生樹、演化樹、進(jìn)化樹、系統(tǒng)樹、系統(tǒng)進(jìn)化樹、種系發(fā)生樹、演化樹、進(jìn)化樹、系統(tǒng)樹樹 。系統(tǒng)發(fā)生樹系統(tǒng)發(fā)生樹: 物種物種(遺傳特征遺傳特征)之間的關(guān)之間的關(guān)系系;進(jìn)化樹進(jìn)化樹: 從低等到高等從低等到高等, 有始有終有始有終 經(jīng)典系統(tǒng)發(fā)生學(xué)經(jīng)典系統(tǒng)發(fā)生學(xué)主要是物理或表型特征主要是物理或表型特征如生物體的大小、顏色、觸角個(gè)數(shù)

11、如生物體的大小、顏色、觸角個(gè)數(shù)即通過(guò)表型比較來(lái)推斷生物體的基因型即通過(guò)表型比較來(lái)推斷生物體的基因型(genotype),研究物種之間的進(jìn)化關(guān)系研究物種之間的進(jìn)化關(guān)系.有時(shí)候親緣關(guān)系遠(yuǎn)的物種也能進(jìn)化出相似的表有時(shí)候親緣關(guān)系遠(yuǎn)的物種也能進(jìn)化出相似的表型,所謂的型,所謂的趨同進(jìn)化趨同進(jìn)化(convergent evolution)。所。所以表型為依據(jù)的進(jìn)化分析有時(shí)候并不正確。以表型為依據(jù)的進(jìn)化分析有時(shí)候并不正確。如是否有眼睛?如是否有眼睛? 現(xiàn)代系統(tǒng)發(fā)生學(xué)現(xiàn)代系統(tǒng)發(fā)生學(xué)利用從遺傳物質(zhì)中提取的信息作為物種特征利用從遺傳物質(zhì)中提取的信息作為物種特征具體地說(shuō)就是核酸序列或蛋白質(zhì)分子具體地說(shuō)就是核酸序列或蛋

12、白質(zhì)分子 根據(jù)現(xiàn)有生物基因或物種多樣性根據(jù)現(xiàn)有生物基因或物種多樣性重建生物的進(jìn)重建生物的進(jìn)化史化史是一個(gè)非常重要的問(wèn)題。根據(jù)核酸和蛋白是一個(gè)非常重要的問(wèn)題。根據(jù)核酸和蛋白質(zhì)的序列信息,可以推斷物種之間的系統(tǒng)發(fā)生質(zhì)的序列信息,可以推斷物種之間的系統(tǒng)發(fā)生關(guān)系。關(guān)系?;驹恚夯驹恚?從一條序列變?yōu)榱硪粭l序列所需要從一條序列變?yōu)榱硪粭l序列所需要的變換越多,兩條序列的相關(guān)性就越小的變換越多,兩條序列的相關(guān)性就越小,從共同從共同祖先分歧的時(shí)間越早,進(jìn)化距離越大;反之,祖先分歧的時(shí)間越早,進(jìn)化距離越大;反之,兩個(gè)序列越相似,它們之間的進(jìn)化距離可能越兩個(gè)序列越相似,它們之間的進(jìn)化距離可能越小。小。 所有

13、的生物都可以追溯到共同的祖先所有的生物都可以追溯到共同的祖先, ,生物的生物的產(chǎn)生和分化就象數(shù)一樣地生長(zhǎng)產(chǎn)生和分化就象數(shù)一樣地生長(zhǎng), ,分叉分叉, , 以樹的以樹的形式來(lái)表示生物之間的進(jìn)化關(guān)系是非常自然的形式來(lái)表示生物之間的進(jìn)化關(guān)系是非常自然的事。事。系統(tǒng)發(fā)生樹是一種系統(tǒng)發(fā)生樹是一種二叉樹二叉樹(每個(gè)節(jié)點(diǎn)最多有兩每個(gè)節(jié)點(diǎn)最多有兩個(gè)子節(jié)點(diǎn)個(gè)子節(jié)點(diǎn)),由一系列的節(jié)點(diǎn),由一系列的節(jié)點(diǎn)(nodes)和分支和分支(branches)組成,每個(gè)節(jié)點(diǎn)代表一個(gè)分類單元組成,每個(gè)節(jié)點(diǎn)代表一個(gè)分類單元(物種或序列物種或序列), 節(jié)點(diǎn)之間的連線表示物種之間的節(jié)點(diǎn)之間的連線表示物種之間的進(jìn)化關(guān)系。進(jìn)化關(guān)系。 枝長(zhǎng)枝長(zhǎng)

14、branch length 通常代表在該通常代表在該分枝中曾發(fā)生過(guò)的變化數(shù)。分枝中曾發(fā)生過(guò)的變化數(shù)。系統(tǒng)樹可以是有根的系統(tǒng)樹可以是有根的rooted 也可以是無(wú)根的也可以是無(wú)根的(unrooted). 在有根樹中存在一個(gè)被稱為根特殊節(jié)點(diǎn)由此導(dǎo)向在有根樹中存在一個(gè)被稱為根特殊節(jié)點(diǎn)由此導(dǎo)向任何別的節(jié)點(diǎn)都只有唯一圖。任何別的節(jié)點(diǎn)都只有唯一圖。 每一途徑中的方每一途徑中的方向與進(jìn)化時(shí)間和變異頻率相對(duì)應(yīng)。向與進(jìn)化時(shí)間和變異頻率相對(duì)應(yīng)。而根則是所有而根則是所有正被研究的的共同祖先。正被研究的的共同祖先。無(wú)根樹是一種只將各間無(wú)根樹是一種只將各間的關(guān)系具體化而未定義進(jìn)化途徑的樹圖。的關(guān)系具體化而未定義進(jìn)化途徑

15、的樹圖。 系統(tǒng)發(fā)生樹性質(zhì):系統(tǒng)發(fā)生樹性質(zhì): (1 1)如果是一棵有根樹,則樹根代表在進(jìn))如果是一棵有根樹,則樹根代表在進(jìn)化歷史上是最早的、并且與其它所有分類單元化歷史上是最早的、并且與其它所有分類單元都有聯(lián)系的分類單元;都有聯(lián)系的分類單元; (2 2)如果找不到可以作為樹根的單元,則)如果找不到可以作為樹根的單元,則系統(tǒng)發(fā)生樹是無(wú)根樹;系統(tǒng)發(fā)生樹是無(wú)根樹; (3 3)從根節(jié)點(diǎn)出發(fā)到任何一個(gè)節(jié)點(diǎn)的路徑)從根節(jié)點(diǎn)出發(fā)到任何一個(gè)節(jié)點(diǎn)的路徑指明進(jìn)化時(shí)間或者進(jìn)化距離。指明進(jìn)化時(shí)間或者進(jìn)化距離。 直系同源直系同源( (orthologsorthologs): ): 同源的基因是同源的基因是由于共同的祖先基

16、因進(jìn)化而產(chǎn)生的由于共同的祖先基因進(jìn)化而產(chǎn)生的. . 旁系同源旁系同源( (paralogsparalogs): ): 同源的基因是由同源的基因是由于基因復(fù)制產(chǎn)生的于基因復(fù)制產(chǎn)生的. .直系同源與旁系同源直系同源與旁系同源paralogs(旁系(旁系)orthologs(直系)(直系)paralogs旁系旁系orthologs直系直系bacterium 1bacterium 3bacterium 2eukaryote 1eukaryote 4eukaryote 3eukaryote 2bacterium 1bacterium 3bacterium 2eukaryote 1eukaryote 4e

17、ukaryote 3eukaryote 2phylograms show branch order and branch lengths進(jìn)化樹,有分支和支長(zhǎng)信息進(jìn)化分支圖,進(jìn)化樹進(jìn)化分支圖,進(jìn)化樹cladograms show branching order - branch lengths are meaningless進(jìn)化分支圖,只用分支信息,無(wú)支長(zhǎng)信息。rooted by outgrouparchaeaarchaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotebacteria outgrouprooteukaryoteeukaryoteeukar

18、yoteeukaryote無(wú)根樹無(wú)根樹archaeaarchaeaarchaea有根樹,無(wú)根樹,外圍群有根樹,無(wú)根樹,外圍群有根樹有根樹外圍群外圍群 : 代表一個(gè)物種或群體代表一個(gè)物種或群體進(jìn)化歷史的系統(tǒng)發(fā)育樹進(jìn)化歷史的系統(tǒng)發(fā)育樹 兩個(gè)物種分歧的時(shí)間:兩個(gè)物種分歧的時(shí)間:兩個(gè)物種發(fā)生生殖隔離的兩個(gè)物種發(fā)生生殖隔離的時(shí)間時(shí)間 : 由來(lái)自各個(gè)物種的一由來(lái)自各個(gè)物種的一個(gè)基因構(gòu)建的系統(tǒng)發(fā)育樹個(gè)基因構(gòu)建的系統(tǒng)發(fā)育樹(不完全等同于物種樹),(不完全等同于物種樹),表示基因分離的時(shí)間。表示基因分離的時(shí)間。abcdef基因分裂基因分裂基因分裂基因分裂基因分裂基因分裂物種分裂物種分裂: 一個(gè)用無(wú)限長(zhǎng)的序列或每

19、一一個(gè)用無(wú)限長(zhǎng)的序列或每一分支的期望替代數(shù)構(gòu)建的樹分支的期望替代數(shù)構(gòu)建的樹假設(shè)所研究的序列無(wú)限假設(shè)所研究的序列無(wú)限長(zhǎng),從中隨機(jī)抽樣進(jìn)行長(zhǎng),從中隨機(jī)抽樣進(jìn)行統(tǒng)計(jì)分析。統(tǒng)計(jì)分析。所研究的序列是短序列,所研究的序列是短序列,統(tǒng)計(jì)得到的替代數(shù)目存統(tǒng)計(jì)得到的替代數(shù)目存在大量隨機(jī)誤差。在大量隨機(jī)誤差。: 建立在實(shí)際替代數(shù)基礎(chǔ)上建立在實(shí)際替代數(shù)基礎(chǔ)上的樹的樹構(gòu)樹方法構(gòu)樹方法(1 1)序列比對(duì))序列比對(duì)(2 2)確定替換模型)確定替換模型(3 3)構(gòu)建系統(tǒng)發(fā)生樹)構(gòu)建系統(tǒng)發(fā)生樹(4 4)評(píng)價(jià)所建立的樹)評(píng)價(jià)所建立的樹 兩類數(shù)據(jù):距離:距離:離散特征離散特征 離散特征數(shù)據(jù)可分為離散特征數(shù)據(jù)可分為 二態(tài)特征二態(tài)特

20、征例如:例如:dnadna序列上的某個(gè)位序列上的某個(gè)位置如果是剪切位點(diǎn)置如果是剪切位點(diǎn) 多態(tài)特征多態(tài)特征例如:某一位置可能的堿例如:某一位置可能的堿基有、或基有、或 系統(tǒng)發(fā)生樹的構(gòu)建方法分為兩大類:系統(tǒng)發(fā)生樹的構(gòu)建方法分為兩大類:基于距離的構(gòu)建方法基于距離的構(gòu)建方法非加權(quán)組平均法非加權(quán)組平均法 鄰近歸并法鄰近歸并法 fitch-margoliashfitch-margoliash法法 最小進(jìn)化方法最小進(jìn)化方法 基于離散特征的構(gòu)建方法基于離散特征的構(gòu)建方法最大簡(jiǎn)約法最大簡(jiǎn)約法 最大似然法最大似然法 進(jìn)化簡(jiǎn)約法進(jìn)化簡(jiǎn)約法 相容性方法相容性方法 基于離散特征的構(gòu)建方法基于離散特征的構(gòu)建方法-最大簡(jiǎn)約

21、法(最大簡(jiǎn)約法(mpmp)最大簡(jiǎn)約法最大簡(jiǎn)約法(maximum parsimony,mp(maximum parsimony,mp) )最最早源于形態(tài)性狀研究,現(xiàn)在已經(jīng)推廣到分子早源于形態(tài)性狀研究,現(xiàn)在已經(jīng)推廣到分子序列的進(jìn)化分析中。最大簡(jiǎn)約法的理論基礎(chǔ)序列的進(jìn)化分析中。最大簡(jiǎn)約法的理論基礎(chǔ)是奧卡姆(是奧卡姆(ockhamockham)哲學(xué)原則,這個(gè)原則認(rèn))哲學(xué)原則,這個(gè)原則認(rèn)為:解釋一個(gè)過(guò)程的最好理論是所需假設(shè)數(shù)為:解釋一個(gè)過(guò)程的最好理論是所需假設(shè)數(shù)目最少的那一個(gè)。目最少的那一個(gè)。對(duì)所有可能的拓?fù)浣Y(jié)構(gòu)進(jìn)對(duì)所有可能的拓?fù)浣Y(jié)構(gòu)進(jìn)行計(jì)算,并計(jì)算出所需替代數(shù)最小的那個(gè)拓行計(jì)算,并計(jì)算出所需替代數(shù)最小

22、的那個(gè)拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹。撲結(jié)構(gòu),作為最優(yōu)樹。 最大簡(jiǎn)約法利用存在序列之間的差異的位點(diǎn)最大簡(jiǎn)約法利用存在序列之間的差異的位點(diǎn), ,即即信息位點(diǎn)信息位點(diǎn):由位點(diǎn)產(chǎn)生的突變數(shù)目把一棵樹與另一棵樹區(qū)分開來(lái)的位點(diǎn)。由位點(diǎn)產(chǎn)生的突變數(shù)目把一棵樹與另一棵樹區(qū)分開來(lái)的位點(diǎn)。對(duì)于一個(gè)信息位點(diǎn)要求至少有兩種不同的序列對(duì)于一個(gè)信息位點(diǎn)要求至少有兩種不同的序列, ,而且每個(gè)序而且每個(gè)序列至少出現(xiàn)列至少出現(xiàn)2 2次。次。最大簡(jiǎn)約法就是尋找長(zhǎng)度最小,代價(jià)最小最大簡(jiǎn)約法就是尋找長(zhǎng)度最小,代價(jià)最小( (替換的替換的次數(shù)最少次數(shù)最少) )的樹。的樹。 我們只考慮信息位點(diǎn)。我們只考慮信息位點(diǎn)。( (以以5 5為例為例) )

23、trytry基于距離的構(gòu)建方法基于距離的構(gòu)建方法距離法又稱距離矩陣法,首先通過(guò)各個(gè)距離法又稱距離矩陣法,首先通過(guò)各個(gè)物種之間的比較,物種之間的比較,根據(jù)一定的假設(shè)(進(jìn)化距根據(jù)一定的假設(shè)(進(jìn)化距離模型)推導(dǎo)得出分類群之間的進(jìn)化距離,離模型)推導(dǎo)得出分類群之間的進(jìn)化距離,構(gòu)建一個(gè)進(jìn)化距離矩陣。構(gòu)建一個(gè)進(jìn)化距離矩陣。進(jìn)化樹的構(gòu)建則是進(jìn)化樹的構(gòu)建則是基于這個(gè)矩陣中的進(jìn)化距離關(guān)系基于這個(gè)矩陣中的進(jìn)化距離關(guān)系 。10條核酸序列的距離矩陣 例,如果有三個(gè)物種,例,如果有三個(gè)物種,其兩兩距離如下:其兩兩距離如下: dab = 0.5 dac = 0.9 dbc = 0.9通過(guò)求解方程,得到通過(guò)求解方程,得到如

24、圖所示的一棵樹如圖所示的一棵樹。 uvabc0.20.250.250.45一種簡(jiǎn)單的距離矩陣一種簡(jiǎn)單的距離矩陣由進(jìn)化距離構(gòu)建進(jìn)化樹的方法有很多,常見(jiàn)有:由進(jìn)化距離構(gòu)建進(jìn)化樹的方法有很多,常見(jiàn)有:1.fitch-margoliash method(fm法)法)2. neighbor-joining method (nj法法/鄰接法鄰接法)3. neighbors relaton method(鄰居關(guān)系法鄰居關(guān)系法)4.unweighted pair group method (upgma法法)通過(guò)矩陣建樹的方法通過(guò)矩陣建樹的方法距離法之距離法之非加權(quán)分組平均法非加權(quán)分組平均法(unweighte

25、dunweighted pair group method with arithmetic pair group method with arithmetic mean, upgmamean, upgma) 在非加權(quán)分組平均法中,在計(jì)算新分類到其在非加權(quán)分組平均法中,在計(jì)算新分類到其它分類之間的平均距離時(shí)按照各分類中分類它分類之間的平均距離時(shí)按照各分類中分類單元的數(shù)目進(jìn)行加權(quán)處理。單元的數(shù)目進(jìn)行加權(quán)處理。 upgma法d=e=10/2=5c=19/2=9.5g=c-d=9.5-5=4.5d(de)a=(ae+ad)/2=(41+39)/2=40a=b=22/2=11ab(cde)a-2239.

26、5b-41.5(cde)-d(cde)a=(ae+ad+ac)/3=(41+39+39)/3=39.5(ab)(cde)(ab)-40.5(cde)-f1+a=f2+c=40.5/2=20.25f1=9.25 , f2=11.75選擇外類群(outgroup)選擇一個(gè)或多個(gè)已知與分析序列關(guān)系較選擇一個(gè)或多個(gè)已知與分析序列關(guān)系較遠(yuǎn)的序列作為外類群遠(yuǎn)的序列作為外類群外類群可以輔助定位樹根外類群可以輔助定位樹根外類群序列必須與剩余序列關(guān)系較近,外類群序列必須與剩余序列關(guān)系較近,但外類群序列與其他序列間的差異必須但外類群序列與其他序列間的差異必須比其他序列之間的差異更顯著。比其他序列之間的差異更顯著。

27、bacteria outgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外圍群外圍群可靠性分析可靠性分析自展法自展法 通過(guò)系統(tǒng)發(fā)生分析推斷出來(lái)的樹的不同部通過(guò)系統(tǒng)發(fā)生分析推斷出來(lái)的樹的不同部分可能有不同的置信度分可能有不同的置信度, , 造成統(tǒng)計(jì)誤差的一個(gè)造成統(tǒng)計(jì)誤差的一個(gè)原因是數(shù)據(jù)采樣誤差。因此對(duì)分析的對(duì)象多次原因是數(shù)據(jù)采樣誤差。因此對(duì)分析的對(duì)象多次采樣采樣, ,比較不同樣本得到的估計(jì)值。比較不同樣本得到的估計(jì)值。具體做法具體做法: :從原始數(shù)據(jù)中采集部分?jǐn)?shù)據(jù)組新的數(shù)據(jù)集從原始數(shù)據(jù)中采集部分?jǐn)?shù)據(jù)組新的數(shù)據(jù)集, , 構(gòu)

28、構(gòu)建系統(tǒng)發(fā)生樹建系統(tǒng)發(fā)生樹, ,重復(fù)該過(guò)程重復(fù)該過(guò)程, ,產(chǎn)生千百的重采樣產(chǎn)生千百的重采樣數(shù)據(jù)集數(shù)據(jù)集, ,并同時(shí)生成對(duì)應(yīng)的自展樹并同時(shí)生成對(duì)應(yīng)的自展樹, , 檢驗(yàn)自展樹檢驗(yàn)自展樹對(duì)最終系統(tǒng)發(fā)生樹各分支的支持率。對(duì)最終系統(tǒng)發(fā)生樹各分支的支持率。最后計(jì)算最后計(jì)算出來(lái)的數(shù)值為自展值出來(lái)的數(shù)值為自展值( (bootstrap value)。進(jìn)化樹的可靠性分析進(jìn)化樹的可靠性分析自展法(bootstrap method)將最終系統(tǒng)樹與各個(gè)自展樹進(jìn)行比較,其中在將最終系統(tǒng)樹與各個(gè)自展樹進(jìn)行比較,其中在各個(gè)自展樹中都出現(xiàn)或大量出現(xiàn)的那些部分將各個(gè)自展樹中都出現(xiàn)或大量出現(xiàn)的那些部分將具有高的置信度具有高的置信

29、度.比較耗時(shí)。比較耗時(shí)。課堂練習(xí):1) 下列哪些位點(diǎn)是信息位點(diǎn)下列哪些位點(diǎn)是信息位點(diǎn)? 位點(diǎn)1 2 3 4 5 6序列1 c a g g t a序列2 c a g a c a序列3 c g g c t a序列4 t g g t c g課堂練習(xí):2) 下列系統(tǒng)發(fā)生樹建立的方法中,基于序列特下列系統(tǒng)發(fā)生樹建立的方法中,基于序列特征分析的是征分析的是? 基于距離的是基于距離的是?a. neighbor-joining methodb. upgmac.maximum parismonyd.maximum likelihood課堂練習(xí):3)給定一個(gè)距離距陣給定一個(gè)距離距陣, 請(qǐng)用請(qǐng)用upgma法構(gòu)建系統(tǒng)

30、法構(gòu)建系統(tǒng)發(fā)生樹發(fā)生樹.a b c d ea - 8 4 6 8b - - 8 8 4c - - - 6 8d - - - - 8 假設(shè)序列假設(shè)序列a-e如下如下:a: aagcttactgaatgggca: aagcttactgaatgggcb: aagcatactgaatcggcb: aagcatactgaatcggcc: aatcatactgaatgccgc: aatcatactgaatgccgd: aatcatactgtttgccgd: aatcatactgtttgccge: tttcatagtcaatgccae: tttcatagtcaatgcca 假設(shè)序列之間的距離為序列轉(zhuǎn)換假設(shè)序

31、列之間的距離為序列轉(zhuǎn)換需要的堿基替換次數(shù)。需要的堿基替換次數(shù)。試用試用upgmaupgma法繪法繪制樹。制樹。常用系統(tǒng)發(fā)生樹軟件常用系統(tǒng)發(fā)生樹軟件: clustalw/x, philip , mega , dnastar查看軟件查看軟件:treeview, mega專業(yè)軟件專業(yè)軟件系統(tǒng)樹構(gòu)建流程選擇一組相關(guān)序列對(duì)序列進(jìn)行多重比對(duì)相似性是否高?最多簡(jiǎn)約法是否是否有清晰可辨別的相似性是距離法否最大似然法分析數(shù)據(jù)對(duì)預(yù)測(cè)支持程度1)流程流程: 1)clustalx多序列比較多序列比較; 2)用用clustalx程序直接繪制程序直接繪制nj樹樹; 3)用用treeview程序打開程序打開.2)流程流程:1)clustalx多序列比較多序列比較; 2)用用mega程序轉(zhuǎn)換格式程序轉(zhuǎn)換格式; 3)選擇構(gòu)建方法選擇構(gòu)建方法; 4)mega查看查看.for sequences:ossrz1mnrkpgdwdcracqhlnfsrrdlcqrcggprgaadr

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論