版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
系統(tǒng)發(fā)生分析第1頁(yè)/共141頁(yè)編號(hào)名稱學(xué)時(shí)第一章生物信息學(xué)引論2第二章生物信息學(xué)的生物學(xué)基礎(chǔ)2第三章生物信息學(xué)數(shù)據(jù)庫(kù)資源及應(yīng)用6第四章DNA和蛋白質(zhì)序列分析4第五章系統(tǒng)發(fā)生分析4第六章基因組學(xué)與基因預(yù)測(cè)6第七章蛋白質(zhì)結(jié)構(gòu)域功能預(yù)測(cè)4第八章電子克隆的原理和應(yīng)用4第2頁(yè)/共141頁(yè)第3頁(yè)/共141頁(yè)SpeciesPhylogenyOrangutanGorillaChimpanzeeHumanFromtheTreeoftheLifeWebsite,
UniversityofArizona第4頁(yè)/共141頁(yè)GlobalPhylogenyofFullySequencedOrganismsScience.2006;311(5765):1283-7Towardautomaticreconstructionofahighlyresolvedtreeoflife
第5頁(yè)/共141頁(yè)生物學(xué)家:Wehaveadream…TreeofLife:重建所有生物的進(jìn)化歷史并以系統(tǒng)樹的形式加以描述第6頁(yè)/共141頁(yè)夢(mèng)想走進(jìn)現(xiàn)實(shí):How?最理想的方法:化石!——零散、不完整比較形態(tài)學(xué)和比較生理學(xué):確定大致的進(jìn)化框架——細(xì)節(jié)存很多的爭(zhēng)議第7頁(yè)/共141頁(yè)比較形態(tài)學(xué)證據(jù)
(Comparativemorphology)第8頁(yè)/共141頁(yè)
普適性
由4種核酸組成分子水平的進(jìn)化表現(xiàn)為:DNA序列的演化、氨基酸序列演化、蛋白質(zhì)結(jié)構(gòu)的演化
可比較性
比較不同物種的有關(guān)DNA序列建立DNA序列的演化模型、氨基酸序列的演化模型(數(shù)學(xué)模型)蛋白質(zhì)結(jié)構(gòu)的演化模型(形態(tài)、性狀的演化模型?)
基因組編碼信息的豐富
與形態(tài)、性狀包含的信息相比,基因組序列包含更多、更復(fù)雜的信息結(jié)構(gòu)第三種方案進(jìn)化學(xué)的分子途徑第9頁(yè)/共141頁(yè)分子系統(tǒng)發(fā)育學(xué)MolecularPhylogenetics分子系統(tǒng)學(xué)MolecularSystematicsWhatcanwedoformolecularevolution?序列比較:源于同一祖先DNA/氨基酸序列的兩條DNA/氨基酸序列,考察二者的差異。序列差異:進(jìn)化過程中分子突變的痕跡分子進(jìn)化:以累計(jì)在DNA/氨基酸分子上的歷史信息為基礎(chǔ),研究分子水平的生物進(jìn)化過程和機(jī)制。分子系統(tǒng)學(xué)為生物分類問題提供了許多嶄新的見解。第10頁(yè)/共141頁(yè)基因突變1、核苷酸替代、插入/缺失、重組2、基因轉(zhuǎn)換固定在生物個(gè)體以及物種內(nèi)遺傳漂變自然選擇傳遞給后代產(chǎn)生新的形態(tài)、性狀分子系統(tǒng)學(xué)是研究進(jìn)化機(jī)制的一個(gè)重要工具。生物進(jìn)化的分子機(jī)制第11頁(yè)/共141頁(yè)性狀改變DNA分子的改變核苷酸替代substitution核苷酸缺失deletion核苷酸插入insertion核苷酸倒位invertionDNA序列的突變第12頁(yè)/共141頁(yè)從物種的一些分子特性出發(fā),構(gòu)建系統(tǒng)發(fā)育樹,進(jìn)而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系——treeoflife;物種分類大分子功能與結(jié)構(gòu)的分析:同一家族的大分子,具有相似的三級(jí)結(jié)構(gòu)及生化功能,通過序列同源性分析,構(gòu)建系統(tǒng)發(fā)育樹,進(jìn)行相關(guān)分析;功能預(yù)測(cè)進(jìn)化速率分析:例如,HIV的高突變性;哪些位點(diǎn)易發(fā)生突變?分子進(jìn)化研究的目的第13頁(yè)/共141頁(yè)TsarNicholasIIEstablishingtheidentityofAnnaAndersonManahanAnnaAndersonAnastasia?《真假公主》——1917年俄國(guó)末代王朝被推翻,貴族與侍衛(wèi)全部逃走,而沙皇可憐的兒子老少一個(gè)都沒走脫,并于1918年被全部處決。但民間卻流傳著沙皇的小女兒死里逃生,遠(yuǎn)走他鄉(xiāng)的故事。為了得到俄國(guó)沙皇的一千萬遺產(chǎn),許多人絞盡腦汁尋找安娜公主,終無所獲。俄國(guó)貴族后裔布丁將軍終于找到一位外貌氣質(zhì)酷似安娜公主的女子,于是訓(xùn)練她皇室的各種禮儀及相關(guān)的人和事,安娜公主過關(guān)斬將。順利和皇太后相認(rèn),就在太后要宣布安娜公主為遺產(chǎn)繼承人并與保羅定婚時(shí),安娜公主與布丁悄然消失,結(jié)局出人意料……第14頁(yè)/共141頁(yè)Contents第1節(jié)基本概念第2節(jié)距離法第3節(jié)常用分子進(jìn)化與系統(tǒng)發(fā)育分析的軟件第4節(jié)生物進(jìn)化理論與分子進(jìn)化的討論第15頁(yè)/共141頁(yè)第一節(jié)基本概念基本概念:系統(tǒng)發(fā)生(phylogeny)——是指生物形成或進(jìn)化的歷史系統(tǒng)發(fā)生學(xué)(phylogenetics)——研究物種(遺傳學(xué)特征)之間的進(jìn)化關(guān)系,認(rèn)為特征相似的物種在遺傳學(xué)上接近.系統(tǒng)發(fā)生的結(jié)果常以系統(tǒng)發(fā)生樹表示;系統(tǒng)發(fā)生樹(phylogenetictree)——表示形式,描述物種(遺傳學(xué)特征:形態(tài),基因序列,蛋白質(zhì)序列等等)之間進(jìn)化關(guān)系第16頁(yè)/共141頁(yè)系統(tǒng)發(fā)生樹:物種(遺傳特征)之間的關(guān)系;進(jìn)化樹:從低等到高等,有始有終第17頁(yè)/共141頁(yè)
經(jīng)典系統(tǒng)發(fā)生學(xué)主要是物理或表型特征如生物體的大小、顏色、觸角個(gè)數(shù)即通過表型比較來推斷生物體的基因型(genotype),研究物種之間的進(jìn)化關(guān)系.有時(shí)候親緣關(guān)系遠(yuǎn)的物種也能進(jìn)化出相似的表型,所謂的趨同進(jìn)化(convergentevolution).所以表型為依據(jù)的進(jìn)化分析有時(shí)候并不正確.如是否有眼睛?第18頁(yè)/共141頁(yè)現(xiàn)代系統(tǒng)發(fā)生學(xué)利用從遺傳物質(zhì)中提取的信息作為物種特征具體地說就是核酸序列或蛋白質(zhì)分子第19頁(yè)/共141頁(yè)
根據(jù)現(xiàn)有生物基因或物種多樣性重建生物的進(jìn)化史是一個(gè)非常重要的問題。根據(jù)核酸和蛋白質(zhì)的序列信息,可以推斷物種之間的系統(tǒng)發(fā)生關(guān)系.基本原理:
從一條序列變?yōu)榱硪粭l序列所需要的變換越多,兩條序列的相關(guān)性就越小,從共同祖先分歧的時(shí)間越早,進(jìn)化距離越大;反之,兩個(gè)序列越相似,它們之間的進(jìn)化距離可能越小.第20頁(yè)/共141頁(yè)
所有的生物都可以追溯到共同的祖先,生物的產(chǎn)生和分化就象數(shù)一樣地生長(zhǎng),分叉,以樹的形式來表示生物之間的進(jìn)化關(guān)系是非常自然的事.
第21頁(yè)/共141頁(yè)系統(tǒng)發(fā)生樹是一種二叉樹(每個(gè)節(jié)點(diǎn)最多有兩個(gè)子節(jié)點(diǎn)),由一系列的節(jié)點(diǎn)(nodes)和分支(branches)組成,每個(gè)節(jié)點(diǎn)代表一個(gè)分類單元(物種或序列),節(jié)點(diǎn)之間的連線表示物種之間的進(jìn)化關(guān)系。枝長(zhǎng)branchlength通常代表在該分枝中曾發(fā)生過的變化數(shù)。第22頁(yè)/共141頁(yè)系統(tǒng)樹可以是有根的rooted也可以是無根的(unrooted).在有根樹中存在一個(gè)被稱為根特殊節(jié)點(diǎn)由此導(dǎo)向任何別的節(jié)點(diǎn)都只有唯一圖.每一途徑中的方向與進(jìn)化時(shí)間相對(duì)應(yīng).而根則是所有正被研究的的共同祖先.
無根樹是一種只將各間的關(guān)系具體化而未定義進(jìn)化途徑的樹圖.第23頁(yè)/共141頁(yè)第24頁(yè)/共141頁(yè)
系統(tǒng)發(fā)生樹性質(zhì):(1)如果是一棵有根樹,則樹根代表在進(jìn)化歷史上是最早的、并且與其它所有分類單元都有聯(lián)系的分類單元;(2)如果找不到可以作為樹根的單元,則系統(tǒng)發(fā)生樹是無根樹;(3)從根節(jié)點(diǎn)出發(fā)到任何一個(gè)節(jié)點(diǎn)的路徑指明進(jìn)化時(shí)間或者進(jìn)化距離。第25頁(yè)/共141頁(yè)直系同源(orthologs):同源的基因是由于共同的祖先基因進(jìn)化而產(chǎn)生的.旁系同源(paralogs):同源的基因是由于基因復(fù)制產(chǎn)生的.直系同源與旁系同源必須了解的概念:第26頁(yè)/共141頁(yè)paralogsorthologs第27頁(yè)/共141頁(yè)paralogsorthologs第28頁(yè)/共141頁(yè)思考:用于分子進(jìn)化的序列必須是直系or旁系同源才能真實(shí)反映進(jìn)化過程?
第29頁(yè)/共141頁(yè)Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Phylogramsshowbranchorderandbranchlengths進(jìn)化樹,有分支和支長(zhǎng)信息進(jìn)化分支圖,進(jìn)化樹Cladogramsshowbranchingorder-branchlengthsaremeaningless進(jìn)化分支圖,只用分支信息,無支長(zhǎng)信息。第30頁(yè)/共141頁(yè)Rootedbyoutgrouparchaeaarchaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotebacteriaoutgrouprooteukaryoteeukaryoteeukaryoteeukaryote無根樹archaeaarchaeaarchaea有根樹,無根樹,外圍群有根樹外圍群第31頁(yè)/共141頁(yè)abcdacbdadbc考慮4個(gè)分類群時(shí),共有3種可能的無根樹第32頁(yè)/共141頁(yè)考察類群數(shù)為m(m
3)的系統(tǒng)樹,其可能的拓?fù)浣Y(jié)構(gòu)數(shù)目為:有根樹無根樹m=10:34,459,425種m=10:2,027,025種當(dāng)m較大時(shí),選出真實(shí)樹的拓?fù)浣Y(jié)構(gòu)十分困難。第33頁(yè)/共141頁(yè)分支數(shù)目:有根樹無根樹內(nèi)部分支數(shù)目:有根樹無根樹內(nèi)部節(jié)點(diǎn)數(shù)目:有根樹無根樹第34頁(yè)/共141頁(yè)無根樹和有根樹:潛在的數(shù)目#Taxa無根樹有根樹31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增多,計(jì)算量急劇增加,因此,目前算法都為優(yōu)化算法,不能保證最優(yōu)解第35頁(yè)/共141頁(yè)
物種樹:
代表一個(gè)物種或群體進(jìn)化歷史的系統(tǒng)發(fā)育樹兩個(gè)物種分歧的時(shí)間:兩個(gè)物種發(fā)生生殖隔離的時(shí)間
基因樹:
由來自各個(gè)物種的一個(gè)基因構(gòu)建的系統(tǒng)發(fā)育樹(不完全等同于物種樹),表示基因分離的時(shí)間。abcdef基因分裂基因分裂基因分裂物種分裂系統(tǒng)發(fā)育樹的種類——基因樹、物種樹第36頁(yè)/共141頁(yè)期望樹:
一個(gè)用無限長(zhǎng)的序列或每一分支的期望替代數(shù)構(gòu)建的樹理論上:假設(shè)所研究的序列無限長(zhǎng),從中隨機(jī)抽樣進(jìn)行統(tǒng)計(jì)分析。實(shí)際情況:所研究的序列是短序列,統(tǒng)計(jì)得到的替代數(shù)目存在大量隨機(jī)誤差。現(xiàn)實(shí)樹:
建立在實(shí)際替代數(shù)基礎(chǔ)上的樹重建樹構(gòu)樹方法系統(tǒng)發(fā)育樹的種類——期望樹、現(xiàn)實(shí)樹和重建樹第37頁(yè)/共141頁(yè)構(gòu)建系統(tǒng)發(fā)育樹的數(shù)據(jù)1、特征數(shù)據(jù)(characterdata):提供了基因、個(gè)體、群體或物種的信息2、距離數(shù)據(jù)(distancedata)或相似性數(shù)據(jù)(similaritydata):涉及的則是成對(duì)基因、個(gè)體、群體或物種的信息。
距離矩陣距離數(shù)據(jù)可以由特征數(shù)據(jù)計(jì)算得到。反之?系統(tǒng)發(fā)育樹的構(gòu)建第38頁(yè)/共141頁(yè)構(gòu)造系統(tǒng)發(fā)育樹的主要方法基于距離的構(gòu)建方法
Fitch-Margoliash法鄰接法(NeighborJoiningMethod)非加權(quán)組平均法 最小進(jìn)化方法基于離散特征的構(gòu)建方法最大簡(jiǎn)約法最大似然法進(jìn)化簡(jiǎn)約法相容性方法第39頁(yè)/共141頁(yè)構(gòu)建系統(tǒng)發(fā)育樹的主要過程拓?fù)浣Y(jié)構(gòu)的判別(從大量的拓?fù)浣Y(jié)構(gòu)中搜尋、判別)一個(gè)既定拓?fù)浣Y(jié)構(gòu)的分支長(zhǎng)度的估計(jì)最優(yōu)原則第40頁(yè)/共141頁(yè)構(gòu)建進(jìn)化樹的一般原則第41頁(yè)/共141頁(yè)第二節(jié)系統(tǒng)發(fā)育樹的構(gòu)建方法之一
距離法1Fitch-Margoliash方法(FM法)2鄰接法(NeighborJoiningMethod)3非加權(quán)分組平均法(UnweightedPairGroupMethodwithArithmeticmean,UPGMA)3最大簡(jiǎn)約法(MaximumParsimonyMethod)4最大似然法(MaximumLikelihoodMethod)第42頁(yè)/共141頁(yè)首先要獲得所有分類群之間的進(jìn)化距離。系統(tǒng)發(fā)育樹的構(gòu)建是基于進(jìn)化距離之間的關(guān)系。如何獲得所有分類群之間的進(jìn)化距離選定分類群共同的特征序列——氨基酸序列、核苷酸序列例:人、馬、牛、袋鼠、蠑螈、鯉魚的血紅蛋白鏈的氨基酸序列(140aa);人、獼猴、黑猩猩的線粒體DNA中細(xì)胞色素b基因的核苷酸序列(1,125bp);比較兩兩序列之間的差異p
(序列比對(duì)算法)第43頁(yè)/共141頁(yè)根據(jù)不同的概率統(tǒng)計(jì)模型,由兩條序列的差異p值構(gòu)建它們的進(jìn)化距離氨基酸序列:PC(Poisson校正)距離、距離核苷酸序列:Jukes-Cantor模型、Kimura模型、HKY模型等……PC距離p距離時(shí)間單位:千萬年第44頁(yè)/共141頁(yè)簡(jiǎn)單的距離矩陣第45頁(yè)/共141頁(yè)1.Fitch-Margoliash方法(FM法)第46頁(yè)/共141頁(yè)D和E最接近!分成三組:D,E,以及ABC第47頁(yè)/共141頁(yè)DE距離=d+e(1)D到ABC間的平均距離=d+m(2)E到ABC間的平均距離=e+m(3)(2)-(3)+(1)d=4,e=6第48頁(yè)/共141頁(yè)C最接近DE!分成三組:C,DE,以及AB第49頁(yè)/共141頁(yè)c+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)得:c=9第50頁(yè)/共141頁(yè)c+g+(e+d)/2=19(e+d)/2=5,c=9,則g=5第51頁(yè)/共141頁(yè)由:(a+b)/2+f+g+(d+e)/2=41得:f=20由:a+f+c=39得:a=10,則b=12第52頁(yè)/共141頁(yè)2.鄰接法(NeighborJoiningMethod)最小進(jìn)化(ME)思想:在所有可能的拓?fù)浣Y(jié)構(gòu)中,選擇分支長(zhǎng)度和S最小作為最優(yōu)樹。(全局優(yōu)化思想)(Edwards&Cavalli-Sforza,1963)Saitou&Nei(1987):在每一階段應(yīng)用最小進(jìn)化原理,是ME方法的簡(jiǎn)化。ACDB123456(1)(2)(3)(4)(1)(2)(2)(6)(7)S:所有分支長(zhǎng)度總和其中X為連接類群i,j的節(jié)點(diǎn),LiX為類群i到X的分支長(zhǎng)度。第53頁(yè)/共141頁(yè)定義:鄰居(neighbors)無根樹中,一個(gè)節(jié)點(diǎn)所連接的兩個(gè)分類群互為鄰居
(1,2);(5,6);(1-2,3);(1-2-3,4)……其中X為連接互為鄰居的類群i,j的內(nèi)部節(jié)點(diǎn),LiX為類群i到X的分支長(zhǎng)度。ACDB123456(1)(2)(3)(4)(1)(2)(2)(6)(7)S:所有分支長(zhǎng)度總和第54頁(yè)/共141頁(yè)例子已知距離矩陣:
6個(gè)分類群的距離矩陣dijdij123456109121520162071015113051064011750860第55頁(yè)/共141頁(yè)3X12645S0=32.4123645XYS1=29.5123645YAX(2)(7)S2=28.3123645YAXB(2)(7)(2)(6)S3=28.0第56頁(yè)/共141頁(yè)123645AB(2)(7)(2)(6)C(4)(1)S4=28.0123645AB(2)(7)(2)(6)C(4)(1)D(1)(2)(3)S5=28.0第57頁(yè)/共141頁(yè)初始系統(tǒng)樹的拓?fù)浣Y(jié)構(gòu)為星狀樹,其分支長(zhǎng)度總和為:X123645S0=32.4已知m個(gè)分類群,以及它們的距離矩陣dij(mm)第58頁(yè)/共141頁(yè)123645XY定義:Sij表示類群i和j為鄰居時(shí)的分支長(zhǎng)度總和。如其中:S12=29.5第59頁(yè)/共141頁(yè)Sij的計(jì)算公式:其中:分支長(zhǎng)度的計(jì)算公式:第60頁(yè)/共141頁(yè)確定一個(gè)內(nèi)部節(jié)點(diǎn)A(連接鄰居i,j)后,計(jì)算A與其它分類群k距離:得到新的距離矩陣(維數(shù)減1)……第61頁(yè)/共141頁(yè)CommentsNJ法本質(zhì)上是一種尋找最優(yōu)拓?fù)浣Y(jié)構(gòu)的譜系聚類算法。同時(shí)給出系統(tǒng)發(fā)育樹的拓?fù)浣Y(jié)構(gòu)以及分支的長(zhǎng)度。優(yōu)點(diǎn):1、可以較快地構(gòu)建系統(tǒng)樹;2、適用于分析較大的數(shù)據(jù)集;3、能夠較方便地進(jìn)行自展(Bootstrap)檢驗(yàn)。第62頁(yè)/共141頁(yè)NJ/鄰接法與FM方法非常類似,保證總的支長(zhǎng)最短總支長(zhǎng):a+b+c+d+e=314/4=78.5第63頁(yè)/共141頁(yè)找到距離最近的兩個(gè)點(diǎn)1.任意兩個(gè)節(jié)點(diǎn)選為相鄰序列的總支長(zhǎng)計(jì)算公式:2.計(jì)算SAB,SBC,SCD,SDE…等所有可能的組合數(shù)值3.該例中,SAB最小第64頁(yè)/共141頁(yè)把A、B看成一個(gè)新的復(fù)合序列,構(gòu)建一個(gè)新的距離表,重復(fù)以上過程計(jì)算A,B的分支長(zhǎng)度第65頁(yè)/共141頁(yè)AB組合出現(xiàn)3次,DE組合出現(xiàn)3次,CD、AC、BC組合各一次,則AB和DE各為兩對(duì)關(guān)系最近的鄰居。(關(guān)系最近的鄰居作為鄰居的次數(shù)最多),將鄰居看成一個(gè)新的復(fù)合序列,重復(fù)這個(gè)過程第66頁(yè)/共141頁(yè)3非加權(quán)分組平均法
(UnweightedPairGroupMethodwithArithmeticmean,UPGMA)
在非加權(quán)分組平均法中,在計(jì)算新分類到其它分類之間的平均距離時(shí)按照各分類中分類單元的數(shù)目進(jìn)行加權(quán)處理。
方法原理:譜系聚類第67頁(yè)/共141頁(yè)譜系聚類法的基本步驟首先將t個(gè)樣本各自視為一類:得到初始的分類G(1)(含有t類),計(jì)算t個(gè)樣本兩兩之間的距離,它們等價(jià)于初始的類間距離,得到初始的距離矩陣D(1)
;將距離最近的兩類合并為一新類,得到新的分類G(2)(含有t-1類),并計(jì)算新類與其它類的類間距離,得到新的類間距離矩陣D(2)
,再按照最小距離準(zhǔn)則并類,得到G(3)(含有t-2類)、D(3),…。直到所有樣本都并成一類;畫出譜系聚類圖,決定分類的個(gè)數(shù)及各類的成員。第68頁(yè)/共141頁(yè)譜系聚類結(jié)果示意圖:X(1)X(2)X(3)X(4)X(5)1230GibbonSymphalangusHumanGorillaChimpanzee第69頁(yè)/共141頁(yè)在基因替代速率恒定假設(shè)成立時(shí),UPGMA方法比較適用;UPGMA方法適用于具有較小變異系數(shù)的距離測(cè)度;UPGMA是一種既構(gòu)建拓?fù)浣Y(jié)構(gòu)又計(jì)算分支長(zhǎng)度的方法;UPGMA方法既可以得到有根樹,也可以得到無根樹。第70頁(yè)/共141頁(yè)d=e=10/2=5UPGMA法第71頁(yè)/共141頁(yè)c=19/2=9.5g=c-d=9.5-5=4.5第72頁(yè)/共141頁(yè)a=b=22/2=11AB(CDE)A-2239.5B--41.5(CDE)---第73頁(yè)/共141頁(yè)(AB)(CDE)(AB)-40.5(CDE)--f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75第74頁(yè)/共141頁(yè)選擇外類群
(Outgroup)選擇一個(gè)或多個(gè)已知與分析序列關(guān)系較遠(yuǎn)的序列作為外類群外類群可以輔助定位樹根外類群序列必須與剩余序列關(guān)系較近,但外類群序列與其他序列間的差異必須比其他序列之間的差異更顯著。bacteriaoutgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外圍群第75頁(yè)/共141頁(yè)可靠性分析自展法
通過系統(tǒng)發(fā)生分析推斷出來的樹的不同部分可能有不同的置信度,造成統(tǒng)計(jì)誤差的一個(gè)原因是數(shù)據(jù)采樣誤差.因此對(duì)分析的對(duì)象多次采樣,比較不同樣本得到的估計(jì)值.具體做法:從原始數(shù)據(jù)中采集部分?jǐn)?shù)據(jù)組新的數(shù)據(jù)集,構(gòu)建系統(tǒng)發(fā)生樹,重復(fù)該過程,產(chǎn)生千百的重采樣數(shù)據(jù)集,并同時(shí)生成對(duì)應(yīng)的自展樹,檢驗(yàn)自展樹對(duì)最終系統(tǒng)發(fā)生樹各分支的支持率.最后計(jì)算出來的數(shù)值為自展值(Bootstrapvalue).第76頁(yè)/共141頁(yè)進(jìn)化樹的可靠性分析自展法(BootstrapMethod)將最終系統(tǒng)樹與各個(gè)自展樹進(jìn)行比較,其中在各個(gè)自展樹中都出現(xiàn)或大量出現(xiàn)的那些部分將具有高的置信度.比較耗時(shí).第77頁(yè)/共141頁(yè)4最大簡(jiǎn)約法(MaximumParsimonyMethod)第78頁(yè)/共141頁(yè)MP算法基本思想(Fitch,1971;Hartigan,1973)考慮m個(gè)核苷酸(或氨基酸)序列(m4),假定4種核苷酸(或20種氨基酸)可突變?yōu)榕c自身不同的任何一種。1)對(duì)于任一給定的拓?fù)浣Y(jié)構(gòu),可以推斷每個(gè)位點(diǎn)的祖先狀態(tài);2)對(duì)于該拓?fù)浣Y(jié)構(gòu),可以計(jì)算出用來解釋整個(gè)進(jìn)化過程所需的核苷酸(或氨基酸)的最小替代數(shù)目;3)對(duì)所有可能正確的拓?fù)浣Y(jié)構(gòu)計(jì)算它們的最小替代數(shù)目,選擇其中最小的作為最優(yōu)拓?fù)浣Y(jié)構(gòu)。第79頁(yè)/共141頁(yè)1)對(duì)于任一給定的拓?fù)浣Y(jié)構(gòu),計(jì)算它的樹長(zhǎng)(即所有位點(diǎn)的最小替代數(shù)目之和)L;2)選取具有最短樹長(zhǎng)的拓?fù)浣Y(jié)構(gòu)為最大簡(jiǎn)約樹。不變位點(diǎn):在所有分類群中相同核苷酸或氨基酸的位點(diǎn)。不變位點(diǎn)不提供任何信息。計(jì)算所有結(jié)構(gòu)樹并選取最短樹長(zhǎng)信息位點(diǎn)、趨同進(jìn)化進(jìn)化通徑:考慮任意兩個(gè)密碼子之間變換的可能路徑第80頁(yè)/共141頁(yè)MP法決定系統(tǒng)樹的分支長(zhǎng)度進(jìn)化通徑:考慮任意兩個(gè)密碼子之間變換的可能路徑分支長(zhǎng)度估計(jì)通過考慮每個(gè)非不變位點(diǎn)的所有進(jìn)化通徑,并計(jì)算每個(gè)內(nèi)部分支或外部分支的平均替代數(shù)來估計(jì)MP樹的分支長(zhǎng)度。(具體算法略)第81頁(yè)/共141頁(yè)1.信息位點(diǎn),必須在至少2個(gè)taxa中具有相同的序列性狀2.信息位點(diǎn)是指那些至少存在2個(gè)不同堿基/氨基酸且每個(gè)不同堿基/氨基酸至少出現(xiàn)兩次的位點(diǎn)信息位點(diǎn)(Sitesareinformative)第82頁(yè)/共141頁(yè)第83頁(yè)/共141頁(yè)上例1.Position5,7,9為信息位點(diǎn)2.基于position5的三個(gè)MP樹:Tree1長(zhǎng)度1,Tree2&3長(zhǎng)度23.Tree1更為簡(jiǎn)約:總長(zhǎng):4
Tree2長(zhǎng)5;Tree3長(zhǎng)64.計(jì)算結(jié)果:MPtree的最優(yōu)結(jié)果為tree1第84頁(yè)/共141頁(yè)MP法評(píng)述MP法適用的問題理論基礎(chǔ)為奧卡姆剃刀(Ockham)原則:計(jì)算所需替代數(shù)最小的那個(gè)拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹在分析的序列位點(diǎn)上沒有回復(fù)突變或平行突變,且被檢驗(yàn)的序列位點(diǎn)數(shù)很大的時(shí)候,最大簡(jiǎn)約法能夠推導(dǎo)獲得一個(gè)很好的進(jìn)化樹優(yōu)點(diǎn):不需要在處理核苷酸或者氨基酸替代的時(shí)候引入假設(shè)(替代模型)缺點(diǎn):分析序列上存在較多的回復(fù)突變或平行突變,而被檢驗(yàn)的序列位點(diǎn)數(shù)又比較少的時(shí)候,可能會(huì)給出一個(gè)不合理的或者錯(cuò)誤的進(jìn)化樹推導(dǎo)結(jié)果第85頁(yè)/共141頁(yè)5最大似然法(MaximumLikelihoodMethod)第86頁(yè)/共141頁(yè)ML算法基本思想(Felsenstein,1981;Kishino,1990)以一個(gè)特定的替代模型分析一組給定的核苷酸(或氨基酸)序列數(shù)據(jù),使獲得的每一個(gè)拓?fù)浣Y(jié)構(gòu)的似然率均為最大,挑選其中最大似然率最大的拓?fù)浣Y(jié)構(gòu),選為最終系統(tǒng)樹。ML法考察的既可以是拓?fù)浣Y(jié)構(gòu),也可以是既定拓?fù)浣Y(jié)構(gòu)的分支長(zhǎng)度。ML法采用了標(biāo)準(zhǔn)的統(tǒng)計(jì)方法,以建立進(jìn)化的概率模型。計(jì)算量非常大。詳細(xì)內(nèi)容請(qǐng)參考《分子進(jìn)化與系統(tǒng)發(fā)育》(高等教育出版社)第87頁(yè)/共141頁(yè)最大似然法(ML)1.最大似然法(maximumlikelihood,ML):最早應(yīng)用于對(duì)基因頻率數(shù)據(jù)的分析上2.選取一個(gè)特定的替代模型來分析給定的一組序列數(shù)據(jù),使得獲得的每一個(gè)拓?fù)浣Y(jié)構(gòu)的似然率都為最大值,然后再挑出其中似然率最大的拓?fù)浣Y(jié)構(gòu)作為最優(yōu)樹3.在最大似然法的分析中,所考慮的參數(shù)并不是拓?fù)浣Y(jié)構(gòu)而是每個(gè)拓?fù)浣Y(jié)構(gòu)的枝長(zhǎng),并對(duì)似然率求最大值來估計(jì)枝長(zhǎng)4.缺點(diǎn):費(fèi)時(shí),每個(gè)步驟都要考慮內(nèi)部節(jié)點(diǎn)的所有可能性5.改進(jìn):?jiǎn)l(fā)式算法第88頁(yè)/共141頁(yè)第3節(jié)常用分子進(jìn)化與系統(tǒng)發(fā)育分析的軟件第89頁(yè)/共141頁(yè)軟件名稱網(wǎng)址說明PHYLIP/phylip.htmlItincludesprogramstocarryoutparsimony,distancematrixmethods,maximumlikelihood,andothermethodsonavarietyoftypesofdata,includingDNAandRNAsequences,proteinsequences,restrictionsites,0/1discretecharactersdata,genefrequencies,continuouscharactersanddistancematrices.PAUP/Itincludesparsimony,distancematrix,invariants,andmaximumlikelihoodmethodsandmanyindicesandstatisticaltests.TreeofLife/tree/program/program.htmlArizona大學(xué)開發(fā)的軟件MEGA美國(guó)賓州州立大學(xué)MasatoshiNei開發(fā)(Itcarriesoutparsimony,distancematrixandlikelihoodmethodsformoleculardata.)第90頁(yè)/共141頁(yè)軟件名稱網(wǎng)址說明MOLPHYhttp://www.ism.ac.jp/software/ismlib/softother.e.html#molphy日本國(guó)立統(tǒng)計(jì)數(shù)理研究所開發(fā)。(Carryingoutmaximumlikelihoodinferenceofphylogeniesforeithernucleotidesequencesorproteinsequences.)PAMLhttp://abacus.gene.ucl.ac.uk/software/paml.html英國(guó)倫敦學(xué)院Z.H.YANG開發(fā)。(ApackageofprogramsfortheMLanalysisofnucleotideorproteinsequences.)PUZZLEftp://fx.zi.biologie.uni-muenchen.de/pub/puzzle應(yīng)用Quarterpuzzling方法(一種最大簡(jiǎn)約法)構(gòu)建系統(tǒng)發(fā)育樹TreeViewhttp://taxonomy.zoology.gla.ac.uk/rod/treeview.htmlAprogramfordisplayingtreesonAppleMacsandWindowsPCs.Itcandrawrootedandunrootedtrees,displaybootstrapvalues,andsupportsthenativefontandgraphicsfileformatsofbothMacsandPCs.phylogenyhttp://www.ebi.ac.uk/biocat/phylogeny.htmlEBI的系統(tǒng)發(fā)育樹分析軟件第91頁(yè)/共141頁(yè)第92頁(yè)/共141頁(yè)MEGA軟件的使用MEGA5.0:/第93頁(yè)/共141頁(yè)例1流程:1)ClustalX多序列比較;2)用ClustalX程序直接繪制NJ樹;3)用Treeview程序打開.第94頁(yè)/共141頁(yè)例2流程:1)ClustalX多序列比較;2)用MEGA程序轉(zhuǎn)換格式;3)選擇構(gòu)建方法;4)MEGA查看.第95頁(yè)/共141頁(yè)Forsequences:>OsSRZ1MNRKPGDWDCRACQHLNFSRRDLCQRCGGPRGAADRGSGGGGDYANFGGRGGSSFGGGFGTGSDVRPGDWYCNCGAHNFASRSSCFKCAAFKDDAAVNSGGAGAFDGGDMSRSRGYGFGSGAVRASRPGWKSGDWICTRSGCNEHNFASRMECFRCNAPRDSGTEV>OsSRZ2MNIQRKPGDWNCKSCQHLNFSRRDYCQRCHTPRQDLPLGDGYVPGGVLSSLDIRPGDWYCNCGYHNFASRASCFKCGAIVKDLPAGQGGGVANGDFARALDSSAVRAGWKAGDWICTRPGCNVHNFASRIECYRCNAPREAGNVK>OsSRZ3METKAAAMAMRKPGDWSCRSCQYVNFCKREACQRCGEAKLGVERTDYAAMGGGWEVKPGDWCCRCCAVNNYASRGSCFKCGAAKNDSAAAVAQGWGFSVASQAGWKNGDWICPRMECNVQNYANRTECFRCNFPRYYVD>AtSRZ1MSRPGDWNCRSCSHLNFQRRDSCQRCGDSRSGPGGVGGLDFGNFGGRAMSVFGFTTGSDVRPGDWYCTVGNCGTHNFASRSTCFKCGTFKDETGAGGGGGGIGGPAMFDADIMRSRVPGNGGRSSWKSGDWICTRIGCNEHNFASRMECFRCNAPRDFSNRTSF>AtSRZ2MNRPGDWNCRLCSHLNFQRRDSCQRCREPRPGGISTDLLSGFGGRPVSSSFGFNTGPDVRPGDWYCNLGDCGTHNFANRSSCFKCGAAKDEFSCSSAAATTGFMDMNVGPRRGLFGFGGSSSGGGGTGRSPWKSGDWICPRSGCNEHNFASRSECFRCNAPKELATEPPY>AtSRZ3MSWTGGDWLCGACQHANFKKRESCQKCGYPKFGGVDVSTYLYNRTEVMAGDWYCGALNCGSHNYASRTSCYRCGMIKVEYTEQYYGAQMVAYGNDGAACPPGWKTGDWVCPRVGCGVHNYASRAECFKCKTTRDYGGVStepOK?第96頁(yè)/共141頁(yè)StepOK?第97頁(yè)/共141頁(yè)StepOK?第98頁(yè)/共141頁(yè)生成.phb文件第99頁(yè)/共141頁(yè)第100頁(yè)/共141頁(yè)操作….第101頁(yè)/共141頁(yè)P(yáng)artII流程:1)ClustalX多序列比較;2)用MEGA程序轉(zhuǎn)換格式;3)選擇構(gòu)建方法;4)MEGA查看.Forexample…第102頁(yè)/共141頁(yè)方法(2)仍然進(jìn)行多序列比對(duì),獲得.aln文件第103頁(yè)/共141頁(yè)方法(2)生成.MEG文件第104頁(yè)/共141頁(yè)方法(2)第105頁(yè)/共141頁(yè)方法(2)第106頁(yè)/共141頁(yè)方法(2)第107頁(yè)/共141頁(yè)方法(2)第108頁(yè)/共141頁(yè)方法(2)第109頁(yè)/共141頁(yè)程序流程:1)獲得FASTA格式文件
2)ClustalX多序列比較;3)用ClustalX程序直接繪制NJ樹;4)用Treeview程序打開.第110頁(yè)/共141頁(yè)II流程:1)獲得FASTA格式文件
2)ClustalX多序列比較;3)用MEGA程序轉(zhuǎn)換格式;4)選擇構(gòu)建方法;5)MEGA查看.第111頁(yè)/共141頁(yè)Forsequences:>OsSRZ1MNRKPGDWDCRACQHLNFSRRDLCQRCGGPRGAADRGSGGGGDYANFGGRGGSSFGGGFGTGSDVRPGDWYCNCGAHNFASRSSCFKCAAFKDDAAVNSGGAGAFDGGDMSRSRGYGFGSGAVRASRPGWKSGDWICTRSGCNEHNFASRMECFRCNAPRDSGTEV>OsSRZ2MNIQRKPGDWNCKSCQHLNFSRRDYCQRCHTPRQDLPLGDGYVPGGVLSSLDIRPGDWYCNCGYHNFASRASCFKCGAIVKDLPAGQGGGVANGDFARALDSSAVRAGWKAGDWICTRPGCNVHNFASRIECYRCNAPREAGNVK>OsSRZ3METKAAAMAMRKPGDWSCRSCQYVNFCKREACQRCGEAKLGVERTDYAAMGGGWEVKPGDWCCRCCAVNNYASRGSCFKCGAAKNDSAAAVAQGWGFSVASQAGWKNGDWICPRMECNVQNYANRTECFRCNFPRYYVD>AtSRZ1MSRPGDWNCRSCSHLNFQRRDSCQRCGDSRSGPGGVGGLDFGNFGGRAMSVFGFTTGSDVRPGDWYCTVGNCGTHNFASRSTCFKCGTFKDETGAGGGGGGIGGPAMFDADIMRSRVPGNGGRSSWKSGDWICTRIGCNEHNFASRMECFRCNAPRDFSNRTSF>AtSRZ2MNRPGDWNCRLCSHLNFQRRDSCQRCREPRPGGISTDLLSGFGGRPVSSSFGFNTGPDVRPGDWYCNLGDCGTHNFANRSSCFKCGAAKDEFSCSSAAATTGFMDMNVGPRRGLFGFGGSSSGGGGTGRSPWKSGDWICPRSGCNEHNFASRSECFRCNAPKELATEPPY>AtSRZ3MSWTGGDWLCGACQHANFKKRESCQKCGYPKFGGVDVSTYLYNRTEVMAGDWYCGALNCGSHNYASRTSCYRCGMIKVEYTEQYYGAQMVAYGNDGAACPPGWKTGDWVCPRVGCGVHNYASRAECFKCKTTRDYGGV第112頁(yè)/共141頁(yè)StepOK?第113頁(yè)/共141頁(yè)自動(dòng)生成.aln文件第114頁(yè)/共141頁(yè)打開MEGA軟件第115頁(yè)/共141頁(yè)仍然進(jìn)行多序列比對(duì),獲得.aln文件第116頁(yè)/共141頁(yè)生成.MEG文件注意:一定要保存第117頁(yè)/共141頁(yè)第118頁(yè)/共141頁(yè)第119頁(yè)/共141頁(yè)第120頁(yè)/共141頁(yè)第121頁(yè)/共141頁(yè)第122頁(yè)/共141頁(yè)第123頁(yè)/共141頁(yè)第124頁(yè)/共141頁(yè)第4節(jié)生物進(jìn)化理論與分子進(jìn)化的討論第125頁(yè)/共141頁(yè)1、分子進(jìn)化的兩個(gè)特點(diǎn)生物大分子進(jìn)化速率的相對(duì)恒定分子進(jìn)化速率
生物大分子隨時(shí)間的改變主要表現(xiàn)為核苷酸、蛋白質(zhì)的一級(jí)結(jié)構(gòu)的改變,即分子序列中核苷酸、氨基酸的替換不同物種同源大分子的分子進(jìn)化速率大體相同
例子:比較不同物種血紅蛋白氨基酸序列差異人、馬——0.810-9/AA.a
人、鯉魚——0.610-9/AA.a分子進(jìn)化速率遠(yuǎn)遠(yuǎn)比表型進(jìn)化速率穩(wěn)定原因?
序列的核苷酸或氨基酸替換是否隨機(jī)過程?…第126頁(yè)/共141頁(yè)生物大分子進(jìn)化的保守性保守性
功能上重要的大分子或大分子的局部在進(jìn)化速率上明顯低于那些在功能上不重要的大分子或者大分子局部。(引起表型發(fā)生顯著改變的突變發(fā)生的頻率要低于無明顯表型發(fā)生顯著改變得突變發(fā)生的頻率。)氨基酸
例:血紅蛋白分子的外區(qū)的功能要次于內(nèi)區(qū)的功能,外區(qū)的進(jìn)化速率是內(nèi)區(qū)進(jìn)化速率的10倍。核苷酸
例:DNA密碼子的同義替代頻率高于非同義替代頻率;內(nèi)含子上的核苷酸替代頻率較高。生物大分子進(jìn)化并非完全隨機(jī)
存在某種制約因素,存在某種機(jī)制……?第127頁(yè)/共141頁(yè)2、分子進(jìn)化中性論Neutraltheoryofmolecularevolution(Kimura&Ohta,1968,1971)(King&Jukes,1969)提出分子層次上的“non-Darwinianevolution”“在生物分子層次上的進(jìn)化改變不是由自然選擇作用于有利突變而引起的,而是在連續(xù)的突變壓之下由選擇中性或非常接近中性的突變的隨機(jī)固定造成的。中性突變是指對(duì)當(dāng)前適應(yīng)度無影響的突變。”中性突變、連續(xù)突變壓、隨機(jī)固定否認(rèn)自然選擇在分子進(jìn)化中的作用,認(rèn)為生物大分子的進(jìn)化主要因素是機(jī)會(huì)和突變壓力。第128頁(yè)/共141頁(yè)分子進(jìn)化中性論的若干依據(jù)分子層次上的大多數(shù)變異是選擇中性的
蛋白質(zhì)和核苷酸分子的進(jìn)化速率高且相對(duì)恒定
突變壓在分子進(jìn)化中的作用得到研究證實(shí)按照群體遺傳學(xué)的數(shù)學(xué)模型,自然選擇的代價(jià)太高
第129頁(yè)/共141頁(yè)分子進(jìn)化中性論的討論1、中性論是解釋分子層次的進(jìn)化現(xiàn)象
自然選擇只作用于表型,并不直接作用于分子。衡量尺度的區(qū)別:分子的顯著性改變并不意味著表型的顯著性改變。中性論只涉及生物大分子一級(jí)結(jié)構(gòu)單元的替換,并不包含和解釋分子層次的全部改變(如蛋白質(zhì)三級(jí)結(jié)構(gòu)、功能的改變)2、分子進(jìn)化的保守性表明選擇仍然起作用
可能之一——負(fù)選擇的存在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年配套測(cè)控設(shè)備項(xiàng)目可行性研究報(bào)告
- 2025年度屋頂綠化系統(tǒng)設(shè)計(jì)、施工與維護(hù)服務(wù)合同4篇
- 二零二五年度工地食堂員工培訓(xùn)經(jīng)費(fèi)合同4篇
- 二零二五年度新型城鎮(zhèn)化建設(shè)項(xiàng)目承包合作協(xié)議書4篇
- 2025年度環(huán)保包裝材料生產(chǎn)承包協(xié)議4篇
- 二零二五年度夜間公交客運(yùn)服務(wù)合同書-夜間出行保障服務(wù)合作協(xié)議4篇
- 二零二五版鄉(xiāng)村旅游麻石步道建設(shè)協(xié)議4篇
- 二零二五年度旅游行業(yè)標(biāo)準(zhǔn)化建設(shè)合作協(xié)議3篇
- 2025年度大棚農(nóng)業(yè)節(jié)水灌溉系統(tǒng)采購(gòu)合同4篇
- 2025年度公共場(chǎng)所空氣凈化除塵器采購(gòu)合同范本4篇
- GB/T 304.3-2002關(guān)節(jié)軸承配合
- 漆畫漆藝 第三章
- CB/T 615-1995船底吸入格柵
- 光伏逆變器一課件
- 貨物供應(yīng)、運(yùn)輸、包裝說明方案
- (完整版)英語高頻詞匯800詞
- 《基礎(chǔ)馬來語》課程標(biāo)準(zhǔn)(高職)
- IEC61850研討交流之四-服務(wù)影射
- 《兒科學(xué)》新生兒窒息課件
- 材料力學(xué)壓桿穩(wěn)定
- 人教版小升初英語知識(shí)點(diǎn)匯總
評(píng)論
0/150
提交評(píng)論