基因識別專題知識講座_第1頁
基因識別專題知識講座_第2頁
基因識別專題知識講座_第3頁
基因識別專題知識講座_第4頁
基因識別專題知識講座_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基因識別專題知識講座基因識別專題知識講座第1頁基因識別基因識別是生物信息學領域里一個主要研究內容基因識別問題,在近幾年受到廣泛重視當人類基因組研究進入一個系統(tǒng)測序階段時,急需可靠自動基因組序列翻譯解釋技術,以處理大量已測定但未知功效或未經注釋DNA序列基因識別專題知識講座第2頁原核基因識別 重點在于識別編碼區(qū)域基因識別專題知識講座第3頁非翻譯區(qū)域(untranslatedregions,UTR)編碼區(qū)域兩端DNA,有一個別被轉錄,不過不被翻譯,這一個別稱為非翻譯區(qū)域

5’UTR---基因上游區(qū)域非翻譯區(qū)域3’UTR---基因下游區(qū)域非翻譯區(qū)域基因識別專題知識講座第4頁對于任何給定核酸序列(單鏈DNA或mRNA),依據密碼子起始位置,能夠按照三種方式進行解釋。比如,序列ATTCGATCGCAA這三種閱讀次序稱為閱讀框(readingframes)CAA

A

ATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)基因識別專題知識講座第5頁一個開放閱讀框(ORF,openreadingframe)是一個沒有終止編碼密碼子序列。原核基因識別任務重點是識別開放閱讀框,或者說識別長編碼區(qū)域。基因識別專題知識講座第6頁基于基因密碼子特征識別方法區(qū)分編碼區(qū)域與非編碼區(qū)域一個方法是檢驗終止密碼子出現(xiàn)頻率終止密碼子出現(xiàn)期望次數為:每21個(64/3)密碼子出現(xiàn)一次終止密碼子

基因識別專題知識講座第7頁基礎思想:假如能夠找到一個比較長序列,其對應密碼子序列不含終止密碼子,則這段序列可能就是編碼區(qū)域?;A算法:掃描給定DNA序列,在三個不一樣閱讀框中尋找較長ORF。碰到終止密碼子以后,回頭尋找起始密碼子。這種算法過于簡單,不適合于處理短ORF或者交疊ORF?;蜃R別專題知識講座第8頁識別編碼區(qū)域另一個方法是分析各種密碼子出現(xiàn)頻率

將一個隨機均勻分布DNA序列翻譯成氨基酸序列,則在氨基酸序列中上述3種氨基酸出現(xiàn)百分比應該為6:4:1比如,亮氨酸、丙氨酸、色氨酸分別有6個、4個和1個密碼子不過在真實氨基酸序列中,上述百分比并不正確這說明DNA編碼區(qū)域并非隨機基因識別專題知識講座第9頁假設在一條DNA序列中已經找到全部ORF,那么能夠利用密碼子頻率深入區(qū)分編碼ORF和非編碼ORF馬爾柯夫鏈模型利用這種方法,能夠計算一個ORF成為編碼區(qū)域可能性?;蜃R別專題知識講座第10頁一個簡單統(tǒng)計模型

假設相繼密碼子是獨立,不存在前后依賴關系。

令fabc代表密碼子abc在編碼區(qū)域出現(xiàn)頻率 給定序列

a1,b1,c1,a2,b2,c2,…,an+1,bn+1

從密碼子a1b1c1開始閱讀框,其n個密碼子出現(xiàn)概率為基因識別專題知識講座第11頁第二種和第三種閱讀框n個密碼子出現(xiàn)概率分別為基因識別專題知識講座第12頁第i個閱讀框成為編碼閱讀框概率 計算:算法: 在序列上移動長度為n窗口,計算Pi

依據Pi值識別編碼閱讀框基因識別專題知識講座第13頁基于編碼區(qū)域堿基組成特征識別方法編碼序列與非編碼序列在堿基組成上有區(qū)分單個堿基組成百分比多個堿基組成經過統(tǒng)計分析識別編碼序列基因識別專題知識講座第14頁分析實例基因識別專題知識講座第15頁基因識別專題知識講座第16頁2、真核基因識別問題

真核基因遠比原核基因復雜:首先,真核基因編碼區(qū)域是非連續(xù),編碼區(qū)域被分割為若干個小片段。另首先,真核基因含有愈加豐富基因調控信息,這些信息主要分布在基因上游區(qū)域。基因識別專題知識講座第17頁基因識別專題知識講座第18頁基因識別專題知識講座第19頁基因識別基礎思緒

找出基因兩端功效區(qū)域:

轉錄開啟區(qū)終止區(qū)在開啟區(qū)下游位置尋找翻譯起始密碼子識別轉錄剪切位點剪切給體位點剪切接收體位點基因識別專題知識講座第20頁各種不一樣方法有不一樣適應面,而不一樣方法有時能夠結合起來以提升基因識別準確率。關鍵問題是怎樣提升一個識別算法敏感性(sensitivity,Sn)和特異性(specificity,Sp)。

基因識別專題知識講座第21頁3、基因識別主要方法兩大類識別方法:從頭算方法(或基于統(tǒng)計方法)依據蛋白質編碼基因普通性質和特征進行識別,經過統(tǒng)計值區(qū)分外顯子、內含子及基因間區(qū)域

基于同源序列比較方法利用數據庫中現(xiàn)有與基因相關信息(如EST序列、蛋白質序列),經過同源比較,幫助發(fā)覺新基因。最理想方法是綜合兩大類方法優(yōu)點,開發(fā)混合算法?;蜃R別專題知識講座第22頁基因識別方法有:(1)基于規(guī)則系統(tǒng)(2)語義學方法(3)線性區(qū)分分析(LDA)(4)決議樹

(5)動態(tài)規(guī)劃

(6)隱馬爾柯夫模型

(7)剪切對比排列(splicedalignment)基因識別專題知識講座第23頁4、編碼區(qū)域識別兩類方法:基于特征信號識別內部外顯子 剪切位點5’端外顯子一定在關鍵開啟子下游3’端外顯子下游包含多聚A信號和終止編碼基于統(tǒng)計度量方法依據密碼子使用傾向雙聯(lián)密碼統(tǒng)計度量等基因識別專題知識講座第24頁

在一個基因中,第i個(i=1,64)密碼子相對使用傾向RSCUi定義以下:Obsi是該基因中第i個密碼子實際出現(xiàn)次數

Expi是對應密碼子期望出現(xiàn)次數

aai是統(tǒng)計第i個密碼子出現(xiàn)次數 syni是全部與第i個密碼子同義密碼子出現(xiàn)次數RSCU大于1表示對應密碼子出現(xiàn)次數比期望次數高,而小于1則表示出現(xiàn)次數相對較少。(5-66)(5-65)

密碼子使用傾向基因識別專題知識講座第25頁設一段DNA序列為S,從S第i位到第j位雙聯(lián)密碼統(tǒng)計度量IF6(i,j)定義為:

fk是從第k位開始雙聯(lián)密碼頻率

Fk是該雙聯(lián)密碼隨機出現(xiàn)頻率(5-67)雙聯(lián)密碼統(tǒng)計度量基因識別專題知識講座第26頁經過相同搜索發(fā)覺編碼區(qū)域或者外顯子EST(ExpressedSequenceTags)cDNA蛋白質序列基因識別專題知識講座第27頁當前大多數預測程序都將數據庫相同性搜索信息結合進基因預測過程同時考慮序列特征信號和統(tǒng)計度量

GRAIL

用人工神經網絡識別編碼區(qū)域基因識別專題知識講座第28頁輸入是一系列反應功效位點信號特征和序列編碼統(tǒng)計特征參數輸出就是對一段DNA序列是否是編碼區(qū)域判別結果神經網絡含有非線性映射能力,能夠發(fā)覺輸入和輸出之間高階相關性基因識別專題知識講座第29頁5、構建基因模型基因識別最終任務是建立完整基因結構模型一個理想基因識別程序應該能夠發(fā)覺完整基因結構 (…,e1,i1,…,in-1,en,

…)ATG-外顯子1內含子外顯子外顯子n-UAG基因識別專題知識講座第30頁基因剪切位點剪切給體(donor)位點-“gt”

接收體(acceptor)位點-“ag”基因識別專題知識講座第31頁基因可變剪切基因識別專題知識講座第32頁geneA基因可變剪切示意基因識別專題知識講座第33頁構建基因模型方法

剪切位點形成外顯子和內含子邊界

搜集候選外顯子→候選基因基因識別專題知識講座第34頁基因識別專題知識講座第35頁候選基因是一條非相交外顯子和內含子鏈,表示為(i0,e1,i1,…,en,in)

其中ij代表內含子(0jn)

el代表外顯子(1ln)

i0和in并非真實內含子,它們分別代表基因兩側非編碼序列基因識別專題知識講座第36頁候選基因位于給定DNA序列,并滿足以下一致性條件:(1)全部外顯子加起來長度是3整數倍;(2)在各個外顯子內部(除最終一個外顯子最終一個密碼子),沒有終止編碼;(3)第一個內含子-外顯子邊界(i0,e1)是翻譯起始編碼,而最終一個外顯子-內含子邊界(en,in)是終止編碼?;蜃R別專題知識講座第37頁位點圖(分層標注剪切位點)另設兩個特殊頂點,即起點(source)和終點(sink)。從起點到終點任何一條路徑代表一個可能基因結構。基因識別專題知識講座第38頁比如:位點圖上路徑基因識別專題知識講座第39頁候選基因所對應道路圖中路徑基因識別專題知識講座第40頁求最優(yōu)路徑每一條弧附加一個權值 外顯子、內含子度量每個節(jié)點附加權值

剪切位點度量

綜合評價

基因識別專題知識講座第41頁6、用于基因識別HMM模型隱馬爾柯夫模型HMM是一條狀態(tài)不可見馬爾柯夫鏈,其當前狀態(tài)輸出是可見。每個狀態(tài)按照一定概率分布隨機地從字母表中取出字符并釋放。擴展隱藏馬爾柯夫模型(GHMMs)對HMM深入抽象,產生更普通馬爾柯夫模型,以分析復雜脊椎動物基因。基因識別專題知識講座第42頁(1)信號傳感器模型將剪切位點、起始編碼區(qū)域或者終止編碼區(qū)域看成是DNA序列上功效位點或者信號位點,用HMM來進行分析

基因識別專題知識講座第43頁內含子區(qū)域

外顯子區(qū)域

保守位點

依據對比排列,形成含有19狀態(tài)HMM模型?;蜃R別專題知識講座第44頁對前一節(jié)所介紹HMM模型進行修改,能夠處理雙聯(lián)核苷酸問題,即將4種概率分布擴展為16種。假設一段序列為ACTGTC…,則P(ACTGTC…)=p1(A)p2(CA)p3(TC)p4(GT)p5(TG)p6(CT)…

其中p1是狀態(tài)1對于4種核苷酸概率,p2(xy)狀態(tài)2條件概率?;蜃R別專題知識講座第45頁(2)編碼區(qū)模型基因識別專題知識講座第46頁因為密碼子長度為3,所以密碼子模型最終一個狀態(tài)應該最少為2階。對于2階狀態(tài),含有64種概率分布,可依據已知編碼區(qū)域進行統(tǒng)計計算而得到64種分布。比如:

p(ACA)=c(CAA)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]p(CCA)=c(CAC)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]p(GCA)=c(CAG)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]p(TCA)=c(CAT)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]

其中,c(xyz)是密碼子xyz計數。這么模型能夠檢測無結束編碼區(qū)域,因為對應于三個結束編碼TAA、TAG和TGAp(ATA)、p(GTA)和p(ATG)自動為0?;蜃R別專題知識講座第47頁(3)組合模型基因識別專題知識講座第48頁將上述模型擴展,使之能夠識別含有多個外顯子基因。改進后模型見下列圖基因識別專題知識講座第49頁基因識別專題知識講座第50頁7、基于剪切比正確基因識別方法基礎思想是:利用數據庫中同源信息進行基因識別,包含DNA、RNA和蛋白質數據庫。其方法是:首先經過分析全部可能剪切接收體位點和剪切給體位點,構建一組候選外顯子。然后深入分析候選外顯子,探查全部可能外顯子組合,尋找一個與已知目標蛋白質或其它表示序列最匹配組合基因識別專題知識講座第51頁一個半自動綜合方法識別基因過程:(1)選擇全部長度大于50bp并介于保守剪切接收位點和給體位點之間ORF,作為候選外顯子;

預選(2)對于候選外顯子計算其6目編碼度量值,并從大到小將它們排列起來;

減小搜索范圍(3)對照蛋白質序列數據庫進行搜索,尋找相同體。

搜索,篩選基因識別專題知識講座第52頁8、基因識別程序介紹表5.7基因識別程序及訪問地址(HP—主頁;ES—E-mail服務器;WS—web服務器;CL—客戶/服務器協(xié)議;EX—有可執(zhí)行代碼;SC—有源代碼)基因識別專題知識講座第53頁表5.8各程序性能比較(敏感性(1)—被預測出真實編碼核酸%;敏感性(2)—被正確識別出編碼外顯子%;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論