




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、生物信息軟件綜合實(shí)踐第五章多序列對位排列和進(jìn)化分析多序列對位排列Multiple Sequence Alignment (MSA)chicken xenopus human monkey dog hamster bovineguinea pigPLVSS-PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCS ALVSG-PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCS LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICS PQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICS LQVRDVELAGAPGE
2、GGLQPLALEGALQKRGIVEQCCTSICS PQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICS PQVGALELAGGPGAGGLEGPPQKRGIVEQCCASVCSPQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTN S N N NNESBring the greatest number of similar characters into the same column of the alignmentYCN YCN YCN YCN YCN YCN NYCNYCNLYQLE LFQLE LYQLE LYQLE L
3、YQLE LYQLE LYQLRHQLQ為什么要做MSA?用于描述一組序列之間的相似性關(guān)系,以便了解一個(gè)基因 的基本特征,尋找motif,保守區(qū)域等。用于預(yù)測新序列的二級和三級結(jié)構(gòu),進(jìn)而推測其生物學(xué)功能。Human Hox genes為什么要做MSA?Nature 423, 241-254不同種的酵母Gal1和Gal10 啟動子區(qū)MSA為什么要做MSA?用于描述同源序列之間的親緣關(guān)系的遠(yuǎn)近,應(yīng)用到分子進(jìn)化分析中。是構(gòu)建分子進(jìn)化樹的基礎(chǔ)。AaSpecies treeGene treeBbCcWe often assume that gene trees give us species trees
4、注意概念:Paralogy(旁系同源/并系同源)& Orthology(直系同源)Paralogy(旁系同源/并系同源)& Orthology(直系同源)Orthologs:物種形成過程中源自同一祖先,通常功能保守Paralogs:基因組內(nèi)基因復(fù)制產(chǎn)生,較易發(fā)生功能分化為什么要做MSA?不同物種基因組范圍的MSA能分析基因組結(jié)構(gòu)變異和共線性Nature 423, 241-254為什么要做MSA?Contig assembly怎么做MSA? 動態(tài)規(guī)劃算法(dynamic programming):MSA 改進(jìn)算法(啟發(fā)式算法):1. 漸進(jìn)法(progressive methods):Clusta
5、l, T-Coffee,MUSCLE2. 迭代法(iterative methods):PRRP, DIALIGN3. 其它算法:Partial Order Algorithm、profile HMM、meta-methods (MAFFT)/wiki/List_of_sequence_alignment_softwareCurrent Opinion in Structural Biology 2006, 16:368373兩條及三條序列的動態(tài)規(guī)劃算法SAAN SVSNSStartVSN S SNAS A五條長度為200-250aa的蛋白質(zhì)序列使用
6、動態(tài)規(guī)劃比對需要運(yùn)算超過12小時(shí)Clustal使用方法u Clustal:目前被最廣泛應(yīng)用的MSA 方法u 可在線分析u 可在本地計(jì)算機(jī)運(yùn)行u 序列輸入、輸出格式InputFASTANBRF/PIR EMBL/SWISSPROT ALNGCG/MSF GCG9/RSF GDEOutputALN NBRF/PIR GCG/MSF PHYLIP NEXUS GDE/FASTAsequence 1ATTGCAGTTCGCA sequence 2 ATAGCACATCGCAsequence 3 ATGCCACTCCGCCClustal W/X算法基礎(chǔ)兩 兩 比 對 構(gòu)建距離矩陣構(gòu)建指導(dǎo)樹(guide
7、tree)將距離最近的兩條序列用動態(tài)規(guī)劃的算法進(jìn)行比對;“漸進(jìn)”的加上其他的序列“漸進(jìn)”比對(Progressive alignment)粘貼或上載序列u Clustal在線分析方法(ClustalW)EBI的ClustalW分析網(wǎng)頁http:/www.ebi.ac.uk/Tools/msa/clustalw2/幫助文檔 http:/www.ebi.ac.uk/Tools/msa/clustalw2/help/調(diào)整參數(shù)u Clustal在線分析方法(ClustalW)u Clustal離線分析方法(ClustalX) 下載安裝自帶Help文件Using ClustalX for multipl
8、e sequence alignmentby Jarno Tuimala兩種工作模式: Multiple Alignment Profile Alignment第一步:輸入序列FileLoad sequences注意:該軟件不能識別中文。因此序列不能位于XP系統(tǒng)的桌面, 應(yīng)放于C:或D:等純英文路徑下。 第二步:設(shè)定比對參數(shù)第三步:進(jìn)行序列比對第四步:比對完成,選擇結(jié)果文件的保存格式conserved residuesconservation profileu 可進(jìn)一步對排列好的序列進(jìn)行修飾(1)Boxshade突出相同或相似位點(diǎn)(/softwar
9、e/BOX_form.html)在EBI ClustalW結(jié)果網(wǎng)頁復(fù)制序列比對結(jié)果在“Boxshade”網(wǎng)頁粘貼序列,在“Input sequence format”欄目選擇“ALN”,在“Output format”欄目選擇“RTF_new”在結(jié)果網(wǎng)頁點(diǎn)擊“here is your output number 1” 修飾過的排列結(jié)果u 可進(jìn)一步對排列好的序列進(jìn)行修飾(2)ESPript多種修飾 功能,突出相同或相似位點(diǎn)http:/espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi在EBI ClustalW結(jié)果網(wǎng)頁下載“Alignment file”(ALN
10、文件)在ESPript分析網(wǎng)頁“Aligned Sequences”欄上載ALN文件在“Output layout”和“Output file or device”欄選擇 修飾后的比對結(jié)果u 可進(jìn)一步對排列好的序列進(jìn)行修飾(3)GeneDoc/gfx/genedocFile Import選擇輸入文件的格式(如ALN)修飾排列結(jié)果2. 系統(tǒng)發(fā)生分析(Phylogenetic analysis)u 分析基因或蛋白質(zhì)的進(jìn)化關(guān)系u 系統(tǒng)發(fā)生(進(jìn)化)樹(phylogenetic tree)A tree showing the evolutionary relatio
11、nships among various biological species or other entities that are believed to have a common ancestor.研究系統(tǒng)發(fā)生的方法經(jīng)典進(jìn)化生物學(xué):比較:形態(tài)、生理結(jié)構(gòu)、化石分子進(jìn)化生物學(xué):比較DNA和蛋白質(zhì)序列An Alignment is an hypothesis of positional homology between bases/Amino AcidsResidues that are lined up in different sequences are considered to sha
12、re a common ancestry (i.e., they are derived from a common ancestral residue).Easyonly with substitutionsDifficultalso with indels系統(tǒng)發(fā)生樹術(shù)語末端節(jié)點(diǎn)分支BranchA可以是物種,群體,或者蛋白質(zhì)、DNA、RNA分子等OTUB節(jié)點(diǎn)NodeCD祖先節(jié)點(diǎn)/ 樹根RootE內(nèi)部節(jié)點(diǎn)/分歧點(diǎn)該分支可能的祖先HTU= (A, (B,C), (D, E)Newick format系統(tǒng)發(fā)生樹術(shù)語A clade(進(jìn)化支) is a group of organisms thati
13、ncludes an ancestor and all descendents of that ancestor.分支樹Cladogram時(shí)間度量樹Ultrametric tree進(jìn)化樹Phylogram6Taxon BTaxon BTaxon CTaxon BTaxon C11Taxon C31Taxon ATaxon ATaxon A5Taxon DTaxon DTaxon Dgenetic changeno meaningtime系統(tǒng)發(fā)生樹術(shù)語進(jìn)化樹分支的長度Scaled branches : the length of the branch is proportional to the
14、 number of changes.The distance between 2 species is the sum of the length of all branches connecting them.系統(tǒng)發(fā)生樹術(shù)語Rooted tree vs. Unrooted tree無根樹AC有根樹DBtwo major ways to root trees:By midpoint or distanced (A,D) = 10 + 3 + 5 = 18Midpoint = 18 / 2 = 9A10C322BD5outgroup外群、外圍支系統(tǒng)發(fā)育樹構(gòu)建步驟多UPGMA最大簡約法(maxi
15、mum parsimony, MP)鄰近法距離法(distance)最大似然法(Neighbor-joining, NJ)最小進(jìn)化法(minimum evolution)(maximum likelihood, ML)貝葉斯法(Bayesian inference)統(tǒng)計(jì)分析BootstrapLikelihood Ratio Test進(jìn)化樹評估建立進(jìn)化樹選擇建樹方法(替代模型)序列比對(自動比對、手工校正) 距離法距離法又稱距離矩陣法,首先通過各個(gè)序列之間的比較,根據(jù)一定的假設(shè)(進(jìn)化距離模型)推導(dǎo)得出分類群之間的進(jìn)化距離,構(gòu)建一個(gè)進(jìn)化距離矩陣。進(jìn)化樹的構(gòu)建則是基于這個(gè)矩陣中的進(jìn)化距離關(guān)系 。計(jì)算
16、序列的距離,建立距離矩陣Rat通過距離矩陣建進(jìn)化樹CowCatCatDogRat21 1DogRat34524Cow676DogStep1. 計(jì)算序列的距離,建立距離矩陣對位排列, 去除空格(選擇替代模型)Uncorrected “p” distance(=observed percent sequence difference)Kimura 2-parameter distance(estimate of the true number of substitutions between taxa)Step2. 通過矩陣建樹由進(jìn)化距離構(gòu)建進(jìn)化樹的方法有很多,常見有:1. Unweighted
17、Pair Group Method with Arithmetic mean (UPGMA)2. Neighbor-Joining Method (NJ法/鄰位連接法)3.Minimum Evolution (MP法/最小進(jìn)化法)最大簡約法 (Maximum Parsimony)最大簡約法(MP)最早源于形態(tài)性狀研究,現(xiàn)在已經(jīng)推廣到分子序列的進(jìn)化分析中。最大簡約法的理論基礎(chǔ)是奧卡姆(Ockham)哲學(xué)原則,對所有可能的拓?fù)浣Y(jié)構(gòu)進(jìn)行計(jì)算,找出所需替代數(shù)最小的那個(gè)拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹。Find the tree that explains the observed sequences with a
18、 minimal number of substitutionsMP法建樹流程PositionT T AAG A GAC C GGSequence1 Sequence2 Sequence3Sequence4If 1 and 2 are grouped a total of four changes are needed.If 1 and 3 are grouped a total of fivechanges are needed.If 1 and 4 are grouped a total of six changes are needed.Position 3(1,2): 1 change
19、;(1,3) or (1,4): 2 changesPosition 2(1,3): 1 change;(1,2) or (1,4): 2 changesPosition 1(1,2): 1 change;(1,3) or (1,4): 2 changes123MP法建樹步驟654BEST 最大似然法 (Maximum Likelihood)最大似然法(ML) 最早應(yīng)用于對基因頻率數(shù)據(jù)的分析上。其原理為選取一個(gè)特定的替代模型來分析給定的一組序列數(shù)據(jù),使得獲得的每一個(gè)拓?fù)浣Y(jié)構(gòu)的似然率都為最大值,然后再挑出其中似然率最大的拓?fù)浣Y(jié)構(gòu)作為最優(yōu)樹。CCAGATATGCGCML法建樹流程Inferring
20、 the maximum likelihood treePick an Evolutionary ModelFor each position, Generate all possible tree structuresBased on the Evolutionary Model, calculate Likelihood of these Trees and Sum them to get the Column Likelihood for each OTU cluster.Calculate Tree Likelihood by multiplying the likelihood fo
21、r each positionChoose Tree with Greatest Likelihood構(gòu)建進(jìn)化樹的新方法貝葉斯推斷(Bayesian inference)Holder&Lewis (2003) Nature Reviews Genetics 4, 275-284Bayesian inference:Maximum Likelihood:What is the probability that the model/theory is correct given the observed data?What is the probability of seeing the obse
22、rved data (D) given a model/theory (T)?Pr(T|D)Pr(D|T)與ML相比,BI的優(yōu)勢: Speed No need for bootstrappingComparison of MethodsDistanceMaximumparsimonyMaximum likelihoodUses only pairwise distancesUses only shared derived charactersUses all dataMinimizes distance between nearest neighborsMinimizes totaldista
23、nceMaximizes tree likelihood given specific parameter valuesVery fastSlowVery slowEasily trapped in local optimaAssumptions fail when evolution is rapidHighly dependent on assumed evolution modelGood for generating tentative tree, or choosing among multiple treesBest option when tractable (30 taxa,
24、homoplasy rare)Good for very small data sets and for testing trees built using other methodsChoosing a Method for Phylogenetic PredictionMolecular Biology and Evolution2005 22(3):792-802Bioinformatics: Sequence and Genome Analysis, 2nd edition, by David W. Mount./cgi/cont
25、ent/full/2008/5/pdb.ip49p254 評估進(jìn)化樹的可靠性自展法(bootstrapping method)A statistical technique that uses intensive random resampling of data to estimate a statistic whose underlying distribution is unknown. 從排列的多序列中隨機(jī)有放回的抽取某一列, 構(gòu)成相同長度的新的排列序列 重復(fù)上面的過程,得到多組新的序列 對這些新的序列進(jìn)行建樹,再觀察這些樹與原始樹是否有差異,以此評價(jià)建樹的可靠性The Bootstr
26、ap Computational method to estimate the confidence level of a certain phylogenetic tree.Pseudo sample 10011222345Sample0123456789GAGGCTTATCrat human turtle fruitfly oakduckweedGGAAGGGGCT GGTTGGGGCT GGTTGGGCCC CCTTCCCGCC AATTCCCGCTAATTCCCCCTrathuman turtle fruitfly oakduckweedGTGGCTTATC GTGCCCTATG CT
27、CGCCTTTG ATCGCTCTTGATCCCTCCGGPseudo sample 24455567778CCTTTTAAATCCTTTTAAATrathumanrat human turtle fruit fly oakduckweedturtle fruitfly oakduckweedCCCCCTAAAT CCCCCTTTTT CCTTTCTTTTCCTTTCCCCGMore replicates (between 100 -1000)Inferred tree自展法檢驗(yàn)流程Bootstrapping doesnt reallyassess the accuracy of a tree
28、,only indicates the consistency othe data對ML法而言,自展法太耗時(shí),可用aLRT法檢驗(yàn)進(jìn)化樹的可靠性Anisimova&Gascuel (2006)Syst. Biol. 55(4):539-552u 看圖工具TreeView進(jìn)化樹編輯打印軟件(在http:/taxonomy.zoology.gla.ac.uk/rod/treeview.html)EBI的ClustalW2-phylogeny分析網(wǎng)頁輸入比對后的序列(或上載ALN文件)下載“Phylip tree file”(ph文件)用TreeView軟件打開上述文件可以不同格式展示進(jìn)化樹(1、2、
29、3)分子進(jìn)化分析軟件PHYLIP/phylip.html免費(fèi)的集成進(jìn)化分析工具PAUP/商業(yè)軟件,集成的進(jìn)化分析工具M(jìn)EGA/免費(fèi)的圖形化集成進(jìn)化分析工具,最新版包括了MLPHYMLhttp:/atgc.lirmm.fr/phyml/最快的ML建樹工具PAMLhttp:/abacus.gene.ucl.ac.uk/software/paml.htmlML建樹工具Tree-puzzlehttp:/www.tree-puzz
30、le.de/較快的ML建樹工具M(jìn)rBayes/基于貝葉斯方法的建樹工具更多工具/phylip/software.htmlu 分子進(jìn)化樹構(gòu)建方法/提供最大似然法(ML)、最大簡約法(MP)和距離法三種建樹方法。其中距離法包括鄰接法(NJ)、最小進(jìn)化法(ME)和UPGMA三種算法。優(yōu)點(diǎn):圖形界面,集序列查詢、比對、進(jìn)化樹構(gòu)建為一體,幫助文件詳盡,免費(fèi)缺點(diǎn):ML法較慢(如序列較多可考慮用PHYML)最新版本(MEGA6)Pig gi
31、|218855168|gb|ACL12051.1| FAD24 pr9298Cattle gi|146186885|gb|AAI40653.1| NOC3L100Human gi|18389433|dbj|BAB84194.1| AD24 HMouse gi|18389431|dbj|BAB84193.1| AD24 MChicken gi|118092837|ref|XP 421670.2| PRZebrafish gi|50838808|ref|NP 001002863.10.02OsDR10OsDR10-O.rufipogonA分析舉例87 OsDR10-9311AOsDR10-Nipp
32、onbareAOsDR10-O.rufipogonB91OsDR10-Nackdong OsDR10-9311BOsDR10-NipponbareB5289OsDR10-O.punctataOsDR10-O.latifolia95OsDR10-O.australiensisOsDR10-L.tisserantii95OsDR10-L.JX0.005Phylogenetic analysis of the coding regions of OsDR10 and its homologs from different species. The tree was constructed by ne
33、ighbour-joining method. The numbers for interior branches indicate the bootstrap values (%) for 1,000 replications. The scale at the bottom is in units of number of nucleotide substitutions per site.Xiao et al. PLoS ONE 4:e4603 (2009)MSA是構(gòu)建分子進(jìn)化樹的關(guān)鍵步驟MSA程序可對任何序列進(jìn)行比對,選擇什么樣的序列進(jìn)行比對非常重要!用于構(gòu)建進(jìn)化樹的序列必須是同源序列
34、3.上機(jī)操作1. 在基因重組人胰島素面市之前,糖尿病患者所需胰島素主要來 自屠宰場的動物胰臟。請分析來源自豬、牛和羊的胰島素哪一種最適于人使用,說明理由。四種蛋白的注冊號分別是AAA59172(人), AAQ00954(豬),AAA30722(牛)和P01318(羊)。2. Keratin是一種微管蛋白,有type I 和 type II兩種類型,在染色體上成簇分布,對上皮細(xì)胞的正常結(jié)構(gòu)十分重要。請根據(jù)人類type II keratin 2p(CAD91891)對NCBI Homo sapiens RefSeqprotein序列數(shù)據(jù)庫的BLASTP檢索結(jié)果(/Blast.cgi?CMD=Get&RID=HH241 XTA014),下載人
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 ISO/TR 24935:2025 EN Road vehicles - Software update over the air using mobile cellular network
- 江蘇蘇州昆山部分學(xué)校2023~2024學(xué)年高二下冊綜合能力測評數(shù)學(xué)試題學(xué)生卷
- 植物固醇在健康脂肪攝入中的作用考核試卷
- 印刷設(shè)備操作安全操作規(guī)程實(shí)施效果評估考核試卷
- 民族音樂教學(xué)實(shí)踐考核試卷
- 低溫倉儲生態(tài)設(shè)計(jì)理念探索考核試卷
- 仿古瓷器培訓(xùn)課件
- 2025年中國PVC密封膠條數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025年中國H型鋼生產(chǎn)設(shè)備數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025年中國D-氨基葡萄鹽酸鹽數(shù)據(jù)監(jiān)測報(bào)告
- 病理科生物安全培訓(xùn)
- 2025年立普妥行業(yè)深度研究分析報(bào)告-20241226-185650
- 家庭教育中的創(chuàng)客教育與孩子創(chuàng)新思維
- 葫蘆絲社團(tuán)活動總結(jié)3篇
- 固體廢棄物課程設(shè)計(jì) 垃圾填埋場設(shè)計(jì)
- 光伏項(xiàng)目運(yùn)維服務(wù)承包合同5篇
- 流產(chǎn)的中西醫(yī)結(jié)合治療
- 陣發(fā)性室上性心動過速 護(hù)理查房
- 湖南省永州市2023-2024學(xué)年高一下學(xué)期7月期末質(zhì)量監(jiān)測數(shù)學(xué)試卷
- 五育并舉-立德樹人始于行潤品育心成于思
- 安全策略優(yōu)化
評論
0/150
提交評論