MATLAB在生物信息學分析中的應用_第1頁
MATLAB在生物信息學分析中的應用_第2頁
MATLAB在生物信息學分析中的應用_第3頁
MATLAB在生物信息學分析中的應用_第4頁
MATLAB在生物信息學分析中的應用_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

MATLAB在生物序列信息分析中的應用生物技術(生物制藥方向09)楊清松0909501162摘要:MATLAB生物信息工具箱為廣大用戶提供了一個用于基因組和蛋白質組分析的綜合環(huán)境,它利用數(shù)據(jù)庫資源,使科學研究事半功倍,在工具箱提供的開放環(huán)境里,用戶甚至可以按照自己的目的來設計和利用分析工具。本文主要介紹MATLAB生物信息工具箱在基因序列分析中的應用,包括確定核背酸組成,密碼子組成,氛基酸轉化和組成等,所有操作簡便高效,結果可視化程度高。尖鍵詞:MATLAB,序列分析,序列比對,ORF,密碼子生物信息學是生物學和信息技術的結合,是現(xiàn)代科學的又一個分支學科,它利用計算機對大量生物數(shù)據(jù)進行分析處理。生物信息學把用于存儲和搜索數(shù)據(jù)的數(shù)據(jù)庫開發(fā),與用于分析和確定大分子序列、結構、表達模式和生化途徑等生物數(shù)據(jù)集之間的尖系的統(tǒng)計工具和算法的開發(fā)結合在一起m。人類基因組測序工作完成后,我們在后基因組時代面臨的一個重要問題,即如何處理越來越多的數(shù)據(jù),進而分析基因組序列的意義,研究尚不清楚的結構和功能等。這對生物信息學的工具提出了新的挑戰(zhàn)。在國際學術界,MATLAB已經被公認為準確、可靠的科學計算標準軟件。從MATLAB6。5。1首次增加了引人注目的生物信息學工具箱以來,如今的版本生物信息學工具箱的數(shù)據(jù)處理能力得到了極大的提升-。目前,MATLAB可以進行序列分析,系統(tǒng)發(fā)生分析,芯片數(shù)據(jù)分析,可視化等,并可以在互聯(lián)網上獲取數(shù)據(jù)庫資料。最新版本的工具箱則強化了質譜分析和統(tǒng)計推論與預測功能,包括基線校正、平滑、排比和重新取樣等。能讓研究人員執(zhí)行質譜儀資料分析、統(tǒng)計推論與預測、繪圖及處理大量基因組和蛋白質體序列分析等工作。文章主要介紹當前在基因序列分析、序列比對中的應用。1基因序列分析序列分析是利用計算機方法來尋找有尖核背酸或氨基酸。序列的信息序列分析的一般工作是基因識別,確定兩個基因的相似性,確定一個基因的蛋白質編碼以及研究另一相似基因的功能。在分析完一段序列時,首要任務就是研究序列中的核莒酸組成。下面是序列分析的主要內容和相應函數(shù)。1.1確定核背酸的組成可以使用序列統(tǒng)計函數(shù)確定這個序列是否含有蛋白質編碼域的特征。1.2繪制密度圖可用ntdensity函數(shù)繪制單體密度和聯(lián)合體密度圖。1-3計算核背酸數(shù)目可用basecount函數(shù)計算鏈中的核背酸數(shù)目。1.4計算互補核昔酸數(shù)目顯示核背酸分布可用seqrecomplement函數(shù)顯示核背酸的分布。1.5餅狀圖可用basecount函數(shù)顯示餅狀圖。1.6計算二聚體個數(shù)可用dimercount函數(shù)計算一個序列中的二聚體個數(shù),并在一個條形圖中顯示出來。1.7確定密碼子組成三核背酸密碼子編碼一個氨基酸,在一個核昔酸序列中有個可能的密碼子。知道序列中密碼子的百分比有助于用戶假設密碼子的排列情況。1.8計算密碼子數(shù)目可用函數(shù)計算一個核背酸序列中的密碼子數(shù)目。1.9繪制熱紅外分布圖可用繪圖程序繪制熱紅外分布圖顯。1.10顯示密碼子示出個閱讀框中的所有的個密碼子。1.11確定密碼子分布運用codecount函數(shù)。1.12氨基酸轉化和組成確定蛋白質相矢的氨基酸組成可以提供給用戶蛋白質特征圖譜。1-13確定氨基酸組成和分子量可用atomiccomp函數(shù)和molweight函數(shù)確定蛋自質的氨基酸組成和分子量。2序列比對序列比對是生物信息學的重要基礎。進行序列比對的目的之一是判斷兩個序列之間是否具有足夠的相似性,從而判定二者之間是否具有同源性。序列比對的基本算法主要有兩個, 一是用于全局比對的Needleman-wunsch算法,另一個是主要用于局部比對的Smith-waterman算法,而后者又是在前者的基礎上發(fā)展起來的冏。在MATLAB生物信息工具箱中,序列比對主要用這兩種算法。運用MATLAB進行序列比對的一般步驟如下:2.1查找序列信息2.1.1查找目的基因在NCBI中查詢并獲得目的基因序列。2.1.2讀入序列數(shù)據(jù)用getgenebank函數(shù)可將基因信息被以結構列表的形式導人MATLAB工作區(qū)。2.1.3讀入另一序列的信息導入另一可能有同源性的基因序列,如果用戶能夠在數(shù)據(jù)庫中定位一個未知的基因,那么這個未知基因和已知基因的功能和特征很可能是相同的w°2.2確定蛋白質編碼序列2.2.1查找目的基因的ORFORF即開放閱讀框,指可以連續(xù)編碼蛋白的核酸序列。利用seqshowORFs函數(shù)的輸出結果給出了人類的所有閱讀框中ORF中起始和終止密碼子的位置。2.2.2查找另一參比基因的ORF2.3比較氨基酸序列2.3.1將ORF轉換為氨基酸序列2.3.2繪制散點圖用Seqdotplot可繪制散點圖。2.3.3比對這兩個氨基酸序列用nwalign函數(shù)可比對兩序列。2.3.4截短序列2.3.5比對被截短的氨基酸序列2.3.6局部比對兩氨基酸序列Matlab生物信息學工具箱提供了生物信息學中常用的函數(shù),由于這些函數(shù)均經過嚴格測試,穩(wěn)健性可以得到保證,免去我們自己設計這些函數(shù)的不便。Matlab生物信息學工具箱可用于計算生物學和設計新算法,創(chuàng)建可獨立運行應用程序并得到可視化結果,使研究人員更專注于生物信息算法。目前,此工具箱還不能提供核酸和蛋白質高級結構的分析功能,這也為大家提供了改進的空間。以后Matlab會設計更好的算法,可重用的軟件模塊,改進數(shù)據(jù)庫和不同數(shù)據(jù)類型的可視化顯示,改進知識系統(tǒng),以及用于闡述環(huán)境和遺傳與環(huán)境相互作用對健康和疾病的影響。應用程序設計者可以用Matlab提供的工具設計生物技

術和藥學軟件。Matlab將在藥物發(fā)現(xiàn),基因組和蛋白質組學研究中有廣泛的應用⑸。Reference:[1]CollinsFS5GreenED,GuttmacherAE,etal.Avisionforthefutureofgenomicsresearch[J].Nature,2003,422:⑵TheMathWorks.BioinformaticstoolboxforusewithMATLAB[M].TheMathWorksInc,2005.1-2.[3]唐玉榮?生物信息學中的序列比對算法[J]計算機工程與

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論