![基因結(jié)構(gòu)及基因預(yù)測(cè)課件_第1頁(yè)](http://file4.renrendoc.com/view/8ff6e1b234eb2260441e6a0826c61497/8ff6e1b234eb2260441e6a0826c614971.gif)
![基因結(jié)構(gòu)及基因預(yù)測(cè)課件_第2頁(yè)](http://file4.renrendoc.com/view/8ff6e1b234eb2260441e6a0826c61497/8ff6e1b234eb2260441e6a0826c614972.gif)
![基因結(jié)構(gòu)及基因預(yù)測(cè)課件_第3頁(yè)](http://file4.renrendoc.com/view/8ff6e1b234eb2260441e6a0826c61497/8ff6e1b234eb2260441e6a0826c614973.gif)
![基因結(jié)構(gòu)及基因預(yù)測(cè)課件_第4頁(yè)](http://file4.renrendoc.com/view/8ff6e1b234eb2260441e6a0826c61497/8ff6e1b234eb2260441e6a0826c614974.gif)
![基因結(jié)構(gòu)及基因預(yù)測(cè)課件_第5頁(yè)](http://file4.renrendoc.com/view/8ff6e1b234eb2260441e6a0826c61497/8ff6e1b234eb2260441e6a0826c614975.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第六講基因結(jié)構(gòu)與基因預(yù)測(cè)6.1高等真核生物基因結(jié)構(gòu)與基因預(yù)測(cè)簡(jiǎn)介1 基因(gene)的概念基因的概念隨著科學(xué)的發(fā)展而不斷發(fā)展,迄今為止,仍有各種說法。Today when we speak of a gene for some malady, a regulatory gene, a structural gene, or a gene frequency, it is entirely possible that we are deploying different gene concepts even though we are using the same term. M. R. Die
2、trich,2000從分子生物學(xué)的角度而言,一般認(rèn)為基因是負(fù)載特定生物遺傳信息的DNA分子片段,基因在一定條件下能夠表達(dá)這種遺傳信息,產(chǎn)生特定的生命功能。6.1.1 真核生物的基因結(jié)構(gòu)2 基因的分類按功能分為:(1)、結(jié)構(gòu)基因(可被轉(zhuǎn)錄形成mRNA,并進(jìn)而翻譯成多肽鏈,構(gòu)成各種結(jié)構(gòu)蛋白質(zhì)、催化各種生化反應(yīng)的酶和激素等)(2)、調(diào)控基因(可調(diào)節(jié)控制結(jié)構(gòu)基因表達(dá)的基因)(3)、只轉(zhuǎn)錄而不翻譯的基因(如rRNA基因、tRNA基因)3 人類基因的結(jié)構(gòu)ORF(Open Reading Frame):在DNA鏈上,由蛋白質(zhì)合成的起始密碼開始,到終止密碼子為止的一個(gè)連續(xù)編碼序列。人類結(jié)構(gòu)基因的結(jié)構(gòu)包括4個(gè)區(qū)
3、域:(1)、外顯子;(2)、內(nèi)含子;(3)、前導(dǎo)區(qū)(位于編碼區(qū)上游,相當(dāng)于mRNA5端非編碼區(qū)(非翻譯區(qū));(4)、調(diào)節(jié)區(qū)(包括啟動(dòng)子和增強(qiáng)子等基因編碼區(qū)的兩側(cè),也稱為側(cè)翼序列);人類結(jié)構(gòu)基因的結(jié)構(gòu)示意圖人類結(jié)構(gòu)基因的結(jié)構(gòu)示意圖Contig 3 of Ch21 (Total length: 3,450,497 Bp)Gene:“TRPC7” (Total length: 62,668 Bp)Coding: 3,345 bp (1,115 AA) 25 Exons: 48354 bpIntergenic regionGeneExonIntron(1)、人類細(xì)胞核基因組中編碼序列不到2,約含3萬左
4、右不同的基因,且有近1/3為多拷貝;(2)、結(jié)構(gòu)基因大多含有插入序列。即大部分基因?yàn)閿嗔鸦颍╥nterrupted gene);(3)、外顯子(exon)一般不長(zhǎng)于800bp,內(nèi)含子(intron)則在30bp數(shù)十kb不等;(4)、mRNA剪接位點(diǎn)(Splice sites)的識(shí)別信號(hào):每個(gè)外顯子和內(nèi)含子接頭區(qū)都有一段高度保守序列(consensus sequence),即內(nèi)含子5端大多數(shù)是GT(稱為donor site)開始,3端大多數(shù)是AG(稱為acceptor site)結(jié)束,稱為GTAG法則;人類基因組結(jié)構(gòu)的特點(diǎn)(5)、盡管擁有相同的一套基因組,不同的分化細(xì)胞中所表達(dá)的基因也不同,每
5、個(gè)細(xì)胞只表達(dá)一部分基因(例如:人腦細(xì)胞的基因表達(dá)百分比最高,為22);(6)、轉(zhuǎn)錄在細(xì)胞核內(nèi)進(jìn)行,翻譯在細(xì)胞質(zhì)核糖體中進(jìn)行,二者在時(shí)間空間上是分開的。4 假基因假基因:與功能性基因密切相關(guān)的DNA系列,但由于缺失、插入和無義突變失去閱讀框架而不能編碼蛋白質(zhì)產(chǎn)物。有些人類假基因可以轉(zhuǎn)錄但不能翻譯成蛋白質(zhì)。假基因的兩種類型:(1)、由于一種基因的加倍而不能表達(dá),但保留原來親本基因的外顯子及內(nèi)含子;(2)、僅含有親本基因的外顯子,源于mRNA并通過逆轉(zhuǎn)錄而重新整合進(jìn)基因組的。5 重復(fù)序列超過90為重復(fù)序列,不編碼mRNA前體或其它RNA。 (個(gè)體間的重復(fù)序列有巨大差異 DNA指紋)重復(fù)序列分為3類:
6、高度重復(fù)序列、中等重復(fù)序列、低重復(fù)序列。目前的一些認(rèn)識(shí):(1)、GC含量低,AT含量高。(AT的氫鍵弱);(2)、3端和5端有直接重復(fù)序列的存在。有利于形成環(huán)狀結(jié)構(gòu)。6 與轉(zhuǎn)錄有關(guān)的調(diào)控信號(hào)(1)、啟動(dòng)子(promoter)(2)、增強(qiáng)子(enhancer)(3)、負(fù)性調(diào)節(jié)元件(4)、LCR(Locus control regions)(基因座調(diào)控區(qū))(5)、轉(zhuǎn)錄因子(6)、與轉(zhuǎn)錄終止有關(guān)的序列:(7)、mRNA的剪接7 內(nèi)含子外顯子結(jié)構(gòu)的統(tǒng)計(jì)研究10種真核生物的外顯子和內(nèi)含子數(shù)目及長(zhǎng)度的統(tǒng)計(jì)結(jié)果比較(Deutsch & Long,1999)(外顯子的長(zhǎng)度單位是氨基酸,內(nèi)含子的長(zhǎng)度單位是核苷酸
7、)平均每個(gè)基因包含外顯子4.1個(gè), 內(nèi)含子3.1個(gè);基因中每1kb長(zhǎng)的編碼蛋白質(zhì)區(qū)域(也稱為CDS,Coding Sequence)平均包含3.7個(gè)內(nèi)含子.10種真核生物的外顯子和內(nèi)含子長(zhǎng)度的統(tǒng)計(jì)分布(Deutsch & Long,1999)(外顯子長(zhǎng)度的單位為氨基酸,內(nèi)含子長(zhǎng)度的單位為核苷酸;圖中橫坐標(biāo)表示長(zhǎng)度,縱坐標(biāo)表示頻率。)外顯子長(zhǎng)度概率分布曲線的山峰處于3040個(gè)氨基酸長(zhǎng)度的地方,且山峰比較緊湊,而內(nèi)含子的長(zhǎng)度則大多數(shù)為40125個(gè)核苷酸,山峰相對(duì)平緩。人(Homo sapiens)的基因組:平均每個(gè)基因包含內(nèi)含子4.0個(gè)(最多的是116個(gè)),外顯子5.0個(gè),每1kb的CDS平均含有
8、5.3個(gè)內(nèi)含子,是這10種真核生物中內(nèi)含子數(shù)目最多、長(zhǎng)度最大的。內(nèi)含子的平均長(zhǎng)度為3413.1bp,其中大多數(shù)為75150bp,已知最長(zhǎng)的內(nèi)含子要大于100kb。每1kb的CDS所包含的內(nèi)含子長(zhǎng)度為6825bp。同樣地,人類基因組外顯子長(zhǎng)度的概率分布要比內(nèi)含子的概率分布要緊湊得多。人類基因組的外顯子和內(nèi)含子數(shù)目及長(zhǎng)度的統(tǒng)計(jì)結(jié)果比較(Deutsch & Long,1999)(外顯子的長(zhǎng)度單位是氨基酸,內(nèi)含子的長(zhǎng)度單位是核苷酸)人類基因組外顯子和內(nèi)含子長(zhǎng)度的統(tǒng)計(jì)分布圖(Deutsch & Long,1999)(外顯子長(zhǎng)度的單位為氨基酸,內(nèi)含子長(zhǎng)度的單位為核苷酸;圖中橫坐標(biāo)表示長(zhǎng)度,縱坐標(biāo)表示頻率。
9、)同樣地,人類基因組外顯子長(zhǎng)度的概率分布要比內(nèi)含子的概率分布要緊湊得多?;蝾A(yù)測(cè):早期指預(yù)測(cè)DNA序列中編碼蛋白質(zhì)的部分,即外顯子部分;現(xiàn)在指整個(gè)基因結(jié)構(gòu)的預(yù)測(cè),綜合各種外顯子預(yù)測(cè)的算法及對(duì)基因結(jié)構(gòu)信號(hào)的認(rèn)識(shí),預(yù)測(cè)出可能的完整基因?;蝾A(yù)測(cè)(Gene Prediction)基因識(shí)別(Gene Identification)基因?qū)ふ遥℅ene Finding)基因注釋(Gene Annotation)Computational Gene Identification、Computational Gene Prediction(基因注釋:描述基因組,并通過計(jì)算分析,輔以生物數(shù)據(jù)庫(kù)和生物學(xué)知識(shí),將原
10、始的基因組序列數(shù)據(jù)轉(zhuǎn)換成有用的生物學(xué)信息。)6.1.2 真核基因預(yù)測(cè)研究概況基因預(yù)測(cè)的主要目的抓住如下特征:(1)、編碼蛋白質(zhì)基因的區(qū)域信息;(2)、編碼蛋白質(zhì)基因的結(jié)構(gòu)信息(包括非翻譯區(qū)和調(diào)控元,以及所有與轉(zhuǎn)錄有關(guān)的外顯子、內(nèi)含子);(3)、每一轉(zhuǎn)錄所對(duì)應(yīng)的所有可能翻譯成蛋白質(zhì)產(chǎn)物的翻譯;(4)、重復(fù)序列的區(qū)域及其特征;(5)、編碼非編碼RNA的基因的區(qū)域。基因預(yù)測(cè)的主要內(nèi)容啟動(dòng)子的識(shí)別翻譯起始位點(diǎn)的識(shí)別剪接位點(diǎn)的識(shí)別多腺苷化信號(hào)的識(shí)別蛋白編碼區(qū)的識(shí)別內(nèi)含子的識(shí)別Burset和Guigo(1996)分三個(gè)層次來評(píng)估:編碼核苷酸、外顯子結(jié)構(gòu)、蛋白質(zhì)產(chǎn)物。(1)從編碼核苷酸的水平指對(duì)于每個(gè)單個(gè)的
11、核苷酸,將預(yù)測(cè)的狀態(tài)與其真正的狀態(tài)相比較,進(jìn)而考察預(yù)測(cè)的效果。1、基因預(yù)測(cè)效果的評(píng)估TP(true positive):實(shí)際編碼區(qū)的核酸中被成功預(yù)測(cè)的核酸數(shù)目;TN(true negative):實(shí)際非編碼區(qū)的核酸中被成功預(yù)測(cè)的核酸數(shù)目;FN(false negative):實(shí)際編碼區(qū)的核酸中被誤測(cè)為非編碼的核酸數(shù)目;FP(false positive):實(shí)際非編碼區(qū)的核酸中被誤測(cè)為編碼的核酸數(shù)目。TPTNFNFPREALITYcodingnoncodingcodingnoncodingPREDICTIONTP+FNFP+TNTP+FPFN+TN基于TP、TN、FP、FN,主要引進(jìn)四個(gè)參數(shù):S
12、n、Sp、CC、AC。敏感性(sensitivity,Sn):特異性(specificity,Sp):Sn:實(shí)際編碼區(qū)核酸序列中被成功預(yù)測(cè)的比例;Sp:預(yù)測(cè)為編碼核酸序列中被成功預(yù)測(cè)的比例。條件概率:x:某個(gè)核酸的狀態(tài)(即編碼或非編碼),F(xiàn)(x):該核酸被預(yù)測(cè)的狀態(tài),c:編碼狀態(tài),n:非編碼狀態(tài)相關(guān)系數(shù)CC(Correlation Coefficient):更全面地衡量基因預(yù)測(cè)的效果CC:取值范圍-1,1,不僅包含P(F(x)=c|x=c)和P(x=c|F(x)=c)的信息,而且也包含了P(F(x)=n|x=n)和P(x=n|F(x)=n)的信息。缺陷:不允許分母中TP+FN、TN+FP、TP
13、+FP和TN+FN中任何一項(xiàng)為零。 近似相關(guān)AC(Approximation Correlation):來作為評(píng)估基因預(yù)測(cè)的效果AC:對(duì)P(F(x)=c|x=c)、P(x=c|F(x)=c)、 P(F(x)=n|x=n)和P(x=n|F(x)=n)四種條件概率的等權(quán)平均,取值范圍-1,1 。|AC|=|CC|(2)從外顯子結(jié)構(gòu)的水平沿著DNA序列鏈,對(duì)預(yù)測(cè)出的外顯子結(jié)構(gòu)與實(shí)際的外顯子結(jié)構(gòu)進(jìn)行比較。(比較的標(biāo)準(zhǔn)尚未統(tǒng)一,但目前用得較多的比較標(biāo)準(zhǔn)是:只有當(dāng)預(yù)測(cè)的外顯子結(jié)構(gòu)與實(shí)際的外顯子結(jié)構(gòu)完全吻合(包括剪接位點(diǎn)的信息),才認(rèn)為預(yù)測(cè)是成功的。)外顯子預(yù)測(cè)的評(píng)估同樣可以引進(jìn)敏感性(Sn)和特異性(Sp
14、)兩個(gè)參數(shù):Sn:DNA鏈上實(shí)際的外顯子中被成功預(yù)測(cè)到的比例;Sp:DNA鏈上被預(yù)測(cè)為外顯子中被成功預(yù)測(cè)到的比例。引入ME(Missing Exons)和WE(Wrong Exons)ME:實(shí)際的外顯子中完全沒有預(yù)測(cè)到(即二者沒有重疊的部分)的比例;WE:所預(yù)測(cè)的外顯子中完全沒有預(yù)測(cè)到的比例。(3)從蛋白質(zhì)產(chǎn)物的水平將預(yù)測(cè)的基因所編碼的蛋白質(zhì)產(chǎn)物與實(shí)際的基因編碼的蛋白質(zhì)產(chǎn)物作比較。預(yù)測(cè)結(jié)果的評(píng)估目前尚無公認(rèn)的統(tǒng)一標(biāo)準(zhǔn)。有的標(biāo)準(zhǔn)是考察被準(zhǔn)確預(yù)測(cè)到的氨基酸序列的比例,以及被錯(cuò)誤預(yù)測(cè)的氨基酸比例?;趦?nèi)容檢測(cè)的方法(search by content或content sensors)基于信號(hào)檢測(cè)的方
15、法(search by signal或signal sensors) 基于相似性比較的方法(search by similarity comparison)2、基因預(yù)測(cè)方法簡(jiǎn)介基于內(nèi)容檢測(cè)的方法原理:DNA序列中的編碼蛋白質(zhì)區(qū)域的字符的上下文特征與非編碼的區(qū)域是有區(qū)別的。由于蛋白質(zhì)產(chǎn)物對(duì)氨基酸和同義密碼子的選擇的偏倚性,因此也決定了編碼區(qū)序列的核苷酸組成的特性,如周期性(periodicities)、短程相關(guān)性(short-range correlations)、寡核苷酸(oligonucleatide)使用的偏倚性等?;趦?nèi)容檢測(cè)的方法信號(hào)檢測(cè)的方法就是根據(jù)人們目前對(duì)基因組結(jié)構(gòu)的一些相關(guān)的位
16、點(diǎn)信號(hào)的認(rèn)識(shí)來識(shí)別基因。這些信號(hào)包括剪接信號(hào)、起始密碼子信號(hào)、終止密碼子信號(hào)、啟動(dòng)子信號(hào)、轉(zhuǎn)錄終止信號(hào)、分支點(diǎn)(branch point)等。 對(duì)于真核生物的基因識(shí)別,目前應(yīng)用比較廣泛的軟件一般都是結(jié)合上述兩種方法來設(shè)計(jì) 。除上述兩類方法外,還有的方法結(jié)合了序列相似性數(shù)據(jù)庫(kù)搜尋(sequence similarity searches)技術(shù),即對(duì)已知序列數(shù)據(jù)庫(kù)的相似性比較。 常用算法(1)長(zhǎng)ORF方法 在低等生物(細(xì)菌)基因組中,蛋白質(zhì)編碼的基因是從起始密碼ATG開始,到終止密碼平均有1000bp,而長(zhǎng)于300bp的ORF平均每36kb才出現(xiàn)一次。因此,只要找出序列中最長(zhǎng)的ORF(300bp)
17、就能相當(dāng)準(zhǔn)確地預(yù)測(cè)出基因。只對(duì)基因結(jié)構(gòu)比較簡(jiǎn)單的生物基因組有效;(Claverie,1997)(2)詞匯統(tǒng)計(jì)算法 對(duì)核苷酸序列(Nucleotide Words)中詞匯選用頻率的統(tǒng)計(jì)研究。由于序列中的編碼部分與非編碼部分在核苷酸、密碼子的選用、周期特性等存在差異性,因此可以用來區(qū)別編碼區(qū)和非編碼區(qū);(Claverie & Bougueleret,1986;Bechmann, 1986(3)同源比較算法將未知序列通過對(duì)已知EST (Expressed Sequence Tag,表達(dá)序列標(biāo)簽)數(shù)據(jù)庫(kù)的相似性比較,也可以比較有效地找到基因。許多有名的基因預(yù)測(cè)軟件(如GRAIL )都已結(jié)合了同源比較算
18、法;(Claverie,1993;Green,1993)(4)HMM(Hidden Markov Model)算法 將核苷酸序列看成一個(gè)隨機(jī)序列,DNA序列的編碼部分與非編碼部分在核苷酸的選用頻率上對(duì)應(yīng)著不同的Markov模型。由于這些Markov模型的統(tǒng)計(jì)規(guī)律是未知的,而HMM能夠自動(dòng)尋找出它們隱藏的統(tǒng)計(jì)規(guī)律。對(duì)于高等生物這樣復(fù)雜的DNA序列,HMM必須學(xué)習(xí)不同的基因結(jié)構(gòu)的信號(hào)。典型的基于HMM的基因預(yù)測(cè)系統(tǒng)VEIL (John Hopkins University)HMMgene (Technical University of Denmark)GeneMark.hmm (Georgia
19、Institute of Tech)Genie (UC Santa Cruz & UC Berkeley)GENSCAN (Stanford)GenScan的HMM模型GENSCAN對(duì)某個(gè)基因的預(yù)測(cè)結(jié)果示意圖:常見的HMM模型(5)動(dòng)態(tài)規(guī)劃算法(Dynamic Programming) 將預(yù)測(cè)出的各個(gè)可能的外顯子和內(nèi)含子進(jìn)行拼接,組成完整的基因。并對(duì)各種可能的拼接進(jìn)行計(jì)分,從而得出最可能的基因結(jié)構(gòu);(Gelfang & Roytberg,1993)(6)法則系統(tǒng)(Rule-based System)算法(Guigo,1992)(7)語言學(xué)方法(Linguistic)(Dong & Searls
20、,1994);(8)人工神經(jīng)網(wǎng)絡(luò)方法(ANN)(9)LDA方法(Linear Discriminate Analysis)(Fickett & Tung,1992);(10)決策樹(Decision Tree)算法(Salzberg,1995);(11)Fourier分析(Tiwari,1997)。 常用真核基因預(yù)測(cè)軟件(1)、FGENEH作者:Solovyev等,1995所用算法:LDA(Linear Discriminant Analysis)方法(2)、GeneID作者:Guigo等,1992所用算法:法則系統(tǒng)(Rule-based System)算法(3)、GeneParser作者:S
21、nyder和Stormo,1993所用算法:動(dòng)態(tài)規(guī)劃算法(Dynamic Programming)(4)、Genie作者:Henderson等,1997所用算法:廣義隱Markov模型(Generalized Hidden Markov Model)方法、動(dòng)態(tài)規(guī)劃算法(5)、GenLang作者:Dong和Searls,1994所用算法:語言學(xué)方法(Linguistic)(6)、GENESCAN作者:Burge和Karlin,1997所用算法:隱Markov模型(Hidden Markov Model)方法、動(dòng)態(tài)規(guī)劃算法(7)、HEXON作者:Solovyev等,1994所用算法:LDA(Lin
22、ear Discriminant Analysis)方法、動(dòng)態(tài)規(guī)劃算法(8)、VEIL作者:Krogh等,1994所用算法:隱Markov模型(Hidden Markov Model)方法、動(dòng)態(tài)規(guī)劃算法 目前常用軟件的基因預(yù)測(cè)結(jié)果評(píng)估(Claverie,1997) 目前常用軟件的基因預(yù)測(cè)結(jié)果評(píng)估(Rogic等,2001)目前的各種算法還存在許多缺陷需進(jìn)一步改進(jìn),主要表現(xiàn)在以下兩點(diǎn):(1)、這些算法對(duì)基因中的非編碼區(qū)(即內(nèi)含子)和基因間的序列不加任何區(qū)別,所以預(yù)測(cè)出的基因是不完全的,而對(duì)5和3非翻譯區(qū)(UTR)的預(yù)測(cè)基本上還是空白;(2)、這些算法的學(xué)習(xí)依賴性較強(qiáng)。如同源比較算法是完全依賴于已知
23、的基因序列,而HMM之類的算法都需要對(duì)已知的基因結(jié)構(gòu)信號(hào)進(jìn)行學(xué)習(xí)或訓(xùn)練。 6.2原核基因預(yù)測(cè)方法簡(jiǎn)介原核生物基因組結(jié)構(gòu)的特點(diǎn)1、原核生物基因組一般比真核生物基因組小得多 E. coli的基因組(4.6Mb)約為酵母基因組(12.1Mb)的2/52、絕大部分原核生物基因組由一個(gè)單一的環(huán)狀DNA分子組成3、原核生物的基因通常比真核生物的少E. coli:4000多個(gè)基因,人:30000個(gè)4、原核生物的基因絕大多數(shù)是連續(xù)基因,不含間隔的內(nèi)含子;基因組結(jié)構(gòu)緊密,重復(fù)序列遠(yuǎn)少于真核生物的基因組。原核生物基因組的操縱子與基因群結(jié)構(gòu)原核生物的基因結(jié)構(gòu)STOPATGATGCCC TCGAAGC ATGTran
24、scriptionInitiation MotifCoding ORFTranslationInitiation MotifUpstream regionTexts from coding/noncoding regions in DNA sequenceGTGAGGGATCGTGGGCATATTTCACAAACTTACTTTTAAAACCATACAACGAAGAAGCGGCCATAATGAACGACTCTTTACAGAATACGGATCTCATTTCACACTTCTCACATCCATTTTAGTTGGAAACACATGAAAGTGAGACCATCAGTTAAACCAATCTGCGAAAAAT
25、GTAAAGTTATTTCGCAGAAAAGGAAAAGTAATGGTGATCTGTGAAAATCCAAAGCATAAACAAAAACAAGGATAAGGTTATATAAATGAAAAGATTTCTGATTGGCGCAGGCGTCGCAGCGGTGATTTTATCAGGTTTGGTTTATTGCGGACCATCAAACCCACTCACAGGAAATGAAAGTCGCTGAGAAAATGATTGGATAAGAGATTATTGATGAAAATCAGCCGGATTCTATTGGCAGCAGTGATTTTAAGTAGTGTATTTTTCAATAACTTATTTGCAAAGTGATCATAATACTGA
26、AATTAAAGTTGCTGCAGATCGGGTAGGGGCATAGGTGAGTTTGTATGAAATTGAAGTCTAAACTATTACTCTCTTGTCTGGCTCTAAGCACTGTGGTTCGTGGCAACAACTATTGCAAATGCACCTACACACCAAATTGAAGTTGCACAACGAGGAATGATTTAAAGCCCTCTCGATGGAAAAGATCCCTTGCTTCGCGGAGGAATTGATTATAGGCCTCTCTATCCTGGGGCCGCAAATATTCAAAGTCGAAATGAATGTCACGGAAGCCATATCTTCTGGCATTCTCGACTAGCACGG
27、GACATATGATGGCTTGCAGGTCTTTTAAAGAGACAGCGGCGGTTTGTGACAAGTCAATCAGAAATCCTTCACCCGAGCGCTGCCGGCTGTTCATTTTCCGAAATGCTTCTATGTCTTTTTCATTCTGACGCCTGAAATATGGTCCGCGTGAAGATGTGTATCAAATACGTGAGTAATCGTTGCACCCTTCCCCTTCGCAAAATCTATAAAGAAATTCACCATACGTGTCGCATCAATAATTGCTGCTTCACCATTTGAAAAGCCAAAAATGATCGACACAGCTATGAAATCGGAGAAGAA
28、ATCATGCTTCCGAGTGAAACACGCATGGGCAGAAGGGCCAGCTTTTTTGATTTTTTTAAACTGCGCCCTTTCAAAATGGGGATTTTGATATATGTAATATGTATGAATTCTTGATTGATGATCGTATCATCAGTTATTTCAATTGCCTCAACGTCAAACTCTTGTTGCAGCGCTTTGACAAACCTTTTTACATTTCCTGTTTTACTCTCATATGTAATTAACAATGTCCCTATGAAAATACTGCCCTCTGTCCCGATCACCTCCGCCCGGATGTCATGTCCGTATGGAGAGGTTCTGCTT
29、GCCTCGACGTCCCCCGCTGCGCCCGAGTCAAATTCAATATACGTCAGCTGAStart codonStop codonATGGTGTTGTAATAGTGAProtein coding genesNoncoding sequences原核生物基因組的研究意義1、揭示生命活動(dòng)的基本規(guī)律導(dǎo)致現(xiàn)代分子遺傳學(xué)的許多重大發(fā)現(xiàn)染色體、DNA雙螺旋、遺傳密碼、DNA復(fù)制、中心法則原核生物基因組的研究意義2、揭示生命起源與進(jìn)化的奧秘2、進(jìn)行分子遺傳學(xué)的良好材料3、在農(nóng)業(yè)、工業(yè)和生物制藥工程上的應(yīng)用十分廣泛作為微生物基因工程的反應(yīng)器,直接運(yùn)用于干擾素、人胰島素、生長(zhǎng)激素、乙型肝炎疫苗等現(xiàn)
30、代基因工程產(chǎn)品的生產(chǎn)。 原核生物基因組研究的主要方法1、原核基因組的測(cè)序 獲得所研究生物的全基因組DNA序列 測(cè)序方法:鏈終止法。 一次測(cè)序反映只能測(cè)幾百個(gè)堿基對(duì)。 序列的拼接方法。2、原核基因組的序列解讀 通過結(jié)合計(jì)算機(jī)分析、試驗(yàn)驗(yàn)證等手段,初步定位基因及其調(diào)控區(qū)并闡明基因的功能。 發(fā)展原核基因組的基因識(shí)別算法是基因組的計(jì)算機(jī)分析的重要目標(biāo)。當(dāng)前著名的原核基因預(yù)測(cè)軟件1、GeneMark系列軟件(包括最新版本GeneMarkS) Borodovsky等,19932001Besemer, J., Lomsadze, A. and Borodovsky, M. (2001) GeneMarkS:
31、 a self-training method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions. Nucleic Acids Res., 29: 2607-2618. 2、Glimmer 2.02 (Salzberg等,1999)Delcher, A. L., Harmon, D., Kasif, S., White, O., and Salzberg, S. L. (1999) Improved microbia
32、l gene identification with GLIMMER. Nucleic Acids Res., 27, 4636-4641原核基因預(yù)測(cè)算法的研究現(xiàn)狀3、ZCURVE 1.0 張春霆等, 1991-2003其它:如 EasyGene (Larsen and Krogh, 2003) ORPHUS (Frishman et al., 1998)基本方法1、Markov模型方法: 用非均勻Markov模型刻畫DNA序列g(shù)ive an estimate of the probability for a local segment (such as a k-tuples) to belo
33、ng to the class of protein coding sequences 如:GeneMark、Glimmer 2.02 2、其它方法,如Z-curve方法如:ZCURVE 1.03、結(jié)合HMM方法與蛋白質(zhì)相似比較的方法如:EasyGene (Larsen and Krogh, 2003) 原核基因預(yù)測(cè)軟件被廣泛應(yīng)用于原核基因組研究,提供了許多物種的基因組GenBank注釋基因位點(diǎn)的計(jì)算預(yù)測(cè)。當(dāng)前原核基因預(yù)測(cè)存在的主要問題1、GenBank數(shù)據(jù)庫(kù)提供的原核基因注釋信息(基因位點(diǎn)、功能等)只有部分經(jīng)過實(shí)驗(yàn)確認(rèn),其它部分只有計(jì)算預(yù)測(cè)或未實(shí)驗(yàn)證實(shí)的注釋信息。2、GenBank數(shù)據(jù)庫(kù)的注
34、釋信息存在系統(tǒng)性的錯(cuò)誤,處于不斷的修正之中。Pseudo short genesGene starts功能信息的錯(cuò)誤注釋眾說紛紜(如H. inf, 148 amendments by different authors )3、基因翻譯起始位點(diǎn)的精確預(yù)測(cè)原核基因轉(zhuǎn)錄和翻譯起始機(jī)制的認(rèn)識(shí)多樣性、復(fù)雜性4、短基因的預(yù)測(cè)短于100AA統(tǒng)計(jì)模型對(duì)短基因刻畫的困難短基因的生物學(xué)意義?(功能、進(jìn)化歷程)5、原核基因結(jié)構(gòu)的數(shù)學(xué)模型缺乏綜合的理解缺乏良好的模型評(píng) 論1、與真核生物基因預(yù)測(cè)的研究相比,原核生物基因預(yù)測(cè)的研究走在更前面2、原核生物基因預(yù)測(cè)的方法和結(jié)果為人類基因組計(jì)劃和模式生物基因組計(jì)劃做出了很大的貢
35、獻(xiàn),但也帶來一定的后果3、原核基因的復(fù)雜結(jié)構(gòu)還沒有真正被了解4、原核基因的預(yù)測(cè)還有很多沒有解決的問題6.3原核基因結(jié)構(gòu)的統(tǒng)計(jì)模型及基因預(yù)測(cè)新方法(2004-2006)基因預(yù)測(cè)研究的總體思路ModelPredictUnderstand對(duì)基因復(fù)雜結(jié)構(gòu)信息進(jìn)行統(tǒng)計(jì)分析,并建立合理的數(shù)學(xué)物理模型進(jìn)行刻畫(包括對(duì)模型的檢驗(yàn))。根據(jù)模型,對(duì)新測(cè)序的基因組序列,有效預(yù)測(cè)其基因結(jié)構(gòu)。為基因組實(shí)驗(yàn)研究提供理論指導(dǎo)。綜合實(shí)驗(yàn)和理論結(jié)果,探索模型揭示的生物學(xué)意義,深刻理解生物復(fù)雜系統(tǒng)。兩段取自E.coli (Escherichia coli K-12 MG1655)的DNA序列ATGAAACGCATTAGCACCA
36、CCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA190255 gene=“thrL” (Amino acid biosynthesis : Threonine)ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA3098 non-coding ORF6.3.1 原核基因結(jié)構(gòu)的EDP模型取自E. coli的兩段ORF的假想氨基酸序列:Coding sequence (Gene “thrL”) ATGAAACGCATTAGCACCACCATTACCACCACCATC
37、M K R I S T T I T T T I ACCATTACCACAGGTAACGGTGCGGGCTGA T I T T G N G A G ZNon-coding sequence ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATA M S L C G L K K E C L I GCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA A A S E L V T C R E Z DNA序列假想翻譯序列遺傳密碼表基于一段DNA序列的假想氨基酸序列,引入它的熵密度分布(Entropy Density Profile, EDP) Si :i : Index o
38、f 20 amino acidpi : Frequency of the ith amino acidShannon entropy:對(duì)于任一有限長(zhǎng)的DNA序列,都可得到它的EDP Si ,對(duì)應(yīng)于20維相空間上唯一的一點(diǎn)。EDP: a set of multivariate parametersDNA序列的EDP表現(xiàn)出編碼/非編碼的聚類性。在EDP的相空間上定義歐氏距離來刻畫兩類DNA序列(編碼、非編碼)的編碼性:也可定義相對(duì)熵距離:500條基因和500條非編碼ORF的EDP距離(取自E. coli)基于EDP思想的基因識(shí)別算法 原核生物編碼ORF與非編碼ORF的平均EDP在相空間上的普適性
39、構(gòu)造具有普適性的編碼、非編碼EDP中心; 基于普適的編碼與非編碼EDP中心,得到該基因組的編碼與非編碼ORF中心; 設(shè)計(jì)迭代算法,求得該基因組的編碼、非編碼“根”序列(root ORFs); 根據(jù)root ORFs,識(shí)別所有ORF的編碼性。EDP gene finding algorithmRoot coding ORFsEDPsRepresentative coding-EDPs EDPsRoot non-coding ORFsRepresentative non-coding-EDPs ClusteringClusteringSearch forall ORFsunknown set of
40、 ORFEDPD_cD_ncD_c D_ncD_nc D_cCoding ORFNon-coding ORFEDP模型的評(píng)論 描述ORF序列的整體特性,是序列編碼性與相似性的統(tǒng)一 難以實(shí)現(xiàn)對(duì)序列局部功能信號(hào)的刻畫 作為基因預(yù)測(cè)算法,有局限性: 基因起始位點(diǎn)的預(yù)測(cè)精度較差 短基因的預(yù)測(cè)精度較差當(dāng)前的原核基因預(yù)測(cè)算法對(duì)基因起始位點(diǎn)的預(yù)測(cè)精度要遠(yuǎn)遠(yuǎn)低于基因終止位點(diǎn)的預(yù)測(cè)精度Detect a gene as an open reading frame (ORF) just with an open start; 例子: 對(duì)E. coli 的195條實(shí)驗(yàn)確認(rèn)基因的預(yù)測(cè)水平:預(yù)測(cè)軟件終止位點(diǎn)預(yù)測(cè)精度起始、
41、終止位點(diǎn)同時(shí)預(yù)測(cè)的精度ORPHEUS (1998)92.8%75.9%GLIMMER 2.02 (1999)100%74.9%MED 1.0 (2004)100%68.2%6.3.2 原核基因結(jié)構(gòu)的RBS模型精確預(yù)測(cè)基因的重要性: 有助于研究基因表達(dá)的產(chǎn)物(蛋白質(zhì)、功能RNA) 有助于認(rèn)識(shí)基因轉(zhuǎn)錄和翻譯的機(jī)制提高基因翻譯起始位點(diǎn)的預(yù)測(cè)精度是精確預(yù)測(cè)基因的關(guān)鍵原核基因起始位點(diǎn)預(yù)測(cè)的困難缺乏用于學(xué)習(xí)的數(shù)據(jù)集 具有實(shí)驗(yàn)確認(rèn)起始位點(diǎn)的基因數(shù)據(jù)遠(yuǎn)遠(yuǎn)不夠與基因翻譯起始相關(guān)的序列特征并不強(qiáng) 翻譯起始機(jī)制的多樣性、復(fù)雜性 序列信號(hào)的模糊性基因起始位點(diǎn)(TIS)預(yù)測(cè)方法 RBSfinder (Salzberg
42、et al., 2001) : inputs an entire genomic sequence and first-pass annotation to train a probabilistic model that scores candidate RBS surrounding previously annotated start codons. GS-finder (Zhang et al., 2004) : Introduced six recognition variables to describe the consensus signals (e.g., the SD se
43、quences) in the vicinity of gene starts, the coding potential of DNA sequences near the start codon, the start codon itself and the distance from the leftmost start codon to the candidate start codon, respectively. The former four variables were derived based on the Z-curve method, while the latter
44、two variables were given as empirical constants or formulas. MED-Start: Accuracy Improvement for Identifying TIS in Microbial Genomes(Zhu et al., 2004) Protein Synthesis in BacteriaFigure: Ribosome-binding sites on mRNA can be recovered from initiation complexes. They include the upstream Shine-Dalg
45、arno sequence and the initiation codon.(From Gene VIII)構(gòu)造刻畫原核基因TIS的4元統(tǒng)計(jì)模型: P1: the correlation between translation terminate site and TIS of genes P2: the sequence content around the start codon P3: the sequence content of the consensus signal related to RBS P4: the correlation between TIS and the u
46、pstream consensus signal ATGATGP1P2P3P4STPCCC TCGAAGC ATGAACAGGAGGATT AGGATT 自學(xué)習(xí)迭代系統(tǒng)MED-StartMED-Start算法的實(shí)現(xiàn)(1). Finding candidate motifs in upstream regions of predicted coding ORFs Motif (l, d): Motif: a sub-sequence that is well preserved over several sequences, and the occurrences of the motif in
47、 those sequences are called instances. The motifs in DNA or protein sequences may indicate functional connections, such as the transcription factor binding sites in non-coding regions of genes, as well as RBS in prokaryotes. We use the term, (l, d) motif, to refer to the situation where a consensus
48、string of length l, without wildcards, and the instances must differ in at most d positions from the consensus. Assume that the SD signal should be found in the upstream region of the leftmost start codons The SD signal tends to be a preserved feature in the upstream regions of bacterial gene starts
49、 Most of the start codons of the longest ORF are real gene starts. Reliable data set EcoGene dataset Link dataset Bsub1248Number of genes 8541951248Number of genes with 5-most start codons 537 (62.9%)133 (68.2%)786 (63.0%)Table: Numbers of genes whose starts are leftmost start codon for a set of rel
50、iable data We first search for (l, d) string within L bps upstream of the start codon of the longest ORF in the original annotation (the default values are l=5, d=0, L=20) In order to remove many false positive cases, the initial search is restricted to ORFs longer than 300bp. For instance, a (5, 0)
51、 string is a word of 5 alphabets with zero variation that appears in many sequences within 20 bp upstream of the start codons. We select several strings with the highest frequency of occurrence as the candidate motifs. In the next iteration step, the search for candidate motifs will be conducted wit
52、hin L bps upstream regions of the adjusted start sites that may not be the start codon of the longest ORFs. The training sequences, i.e. L bps long upstream regions of start sites of all the training ORFs are updated constantly until the iteration reaches convergence. (2). Determining hit motifs and
53、 their alignment weight matrix For each candidate motif, search for its (l, 1) instances. They are regarded as candidates for SD signal-like substring. Calculate the distribution of the location of the occurred instance to the start codon, which will be referred to as the spacer distribution. Choose
54、 the one having highest , to be so-called hit motif . Use deviation of spacer distribution to characterize each candidate motif. If there exists more than one candidate motif having nearly the same to the highest one, the algorithm will select all of them, but at most three motifs, as the hit motifs
55、. After hit motifs are determined, compute the positional weight matrix of each hit motif, by a multiple alignment of all its (l, 1) instances occurred within training sequences. By the assumption that the hit motifs should be similar to a substring of SD sequence, the algorithm calculates the align
56、ment weight matrix of 3+l+2 bp size of window around the hit motif. To detect the context feature of start codon fragments around starts. Calculate the positional probability within the alignment windows around start codon with length of (4+3+15) bp. We may represent the weight matrix by wSD(k)(bi,
57、i) for biA, C, G, T, where (k) means the kth iterative step and i means position within these alignment windows and (4+3+15) i 1. Despite the difficulty of unknown true start codons, we can reach an approximation through this weight matrix, because nucleotides occur more randomly around the false st
58、art codons.(3). Weight matrix for start codon context(4). Weights for potential start codons behind the leftmost start codon Not all the start codons have equal possibility to be selected as true gene start, different weights should be assigned to different start codons when they are investigated wh
59、ether to be true translation initiation sites Note m is the index of start codons, define wm(k) as the weight of the mth start codon being true gene start site, k is the iterative step. Describes the likelihood for a start codon of order m counting from the left most one to be a true start site. For
60、 k=1, i.e. in the first iterative step, as the initial condition, we set an equal weight 1.0 to each wm(k) , i.e. w1(1) = w2(1) =1.0. (5). RBS score for start codon and the most-likely start codon ATGATGP1P2P3P4STPCCC TCGAAGC ATGAACAGGAGGATT AGGATT Each of the above four measurements translates to a
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度數(shù)據(jù)中心機(jī)柜散熱系統(tǒng)升級(jí)改造合同
- 2025年中國(guó)辦公用紙行業(yè)市場(chǎng)深度分析及發(fā)展戰(zhàn)略規(guī)劃報(bào)告
- 天然林保護(hù)修復(fù)中的生態(tài)補(bǔ)償機(jī)制
- 2025年度企業(yè)社會(huì)責(zé)任捐贈(zèng)協(xié)議書范本
- 2025年中國(guó)長(zhǎng)江經(jīng)濟(jì)帶建設(shè)市場(chǎng)發(fā)展前景預(yù)測(cè)及投資戰(zhàn)略咨詢報(bào)告
- 2025年度商業(yè)貸款合同模板
- 2025年度家具品牌代理銷售合作協(xié)議
- 2025年度家政服務(wù)企業(yè)勞動(dòng)合同范本
- 2019-2025年中國(guó)肝速康膠囊行業(yè)市場(chǎng)調(diào)查研究及投資前景預(yù)測(cè)報(bào)告
- 2025年度寵物店加盟店合同范本標(biāo)準(zhǔn)版
- 2024年包頭市水務(wù)(集團(tuán))有限公司招聘筆試沖刺題(帶答案解析)
- 知識(shí)庫(kù)管理規(guī)范大全
- 2024年贛州民晟城市運(yùn)營(yíng)服務(wù)有限公司招聘筆試參考題庫(kù)附帶答案詳解
- 領(lǐng)導(dǎo)干部報(bào)告?zhèn)€人事項(xiàng)
- 9這點(diǎn)挫折算什么(課件)-五年級(jí)上冊(cè)生命與健康
- 價(jià)格監(jiān)督檢查知識(shí)培訓(xùn)課件
- 駐場(chǎng)保潔方案
- 中國(guó)心理衛(wèi)生協(xié)會(huì)家庭教育指導(dǎo)師參考試題庫(kù)及答案
- 智能廣告投放技術(shù)方案
- 知識(shí)產(chǎn)權(quán)保護(hù)執(zhí)法
- 高質(zhì)量社區(qū)建設(shè)的路徑與探索
評(píng)論
0/150
提交評(píng)論