實驗四 基于Matlab的序列比對分析3-25.doc_第1頁
實驗四 基于Matlab的序列比對分析3-25.doc_第2頁
實驗四 基于Matlab的序列比對分析3-25.doc_第3頁
實驗四 基于Matlab的序列比對分析3-25.doc_第4頁
實驗四 基于Matlab的序列比對分析3-25.doc_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

實驗四 基于Matlab的序列比對分析實驗?zāi)康? 了解MATLAB7.x生物信息工具箱中的序列比對方法;2 熟悉從數(shù)據(jù)庫獲取序列信息, 查找序列的開放閱讀框, 將核普酸序列轉(zhuǎn)換為氨基酸序列, 繪制比較兩氨基酸序列的散點圖, 用Needleman-wunsch算法和Smith-Waterman算法進(jìn)行比對, 以及計算兩序列的同一性的方法;3 熟悉與序列比對相關(guān)的生物信息學(xué)函數(shù)。所需軟件MATLAB 7.0或MATLAB 7.0以上的版本實驗內(nèi)容序列比對是生物信息學(xué)的重要基礎(chǔ)。進(jìn)行序列比對的目的之一是判斷兩個序列之間是否具有足夠的相似性,從而判定二者之間是否具有同源性。序列比對的基本算法主要有兩個,一個是用于全局比對的Needleman-Wunsch算法,另一個是主要用于局部比對的Smith-Waterman算法,而后者又是在前者的基礎(chǔ)上發(fā)展起來的。在MATLAB生物信息工具箱中,序列比對主要用這兩種算法。確定兩個序列的相似性是生物信息學(xué)的基礎(chǔ)工作,通過序列比對(又稱序列聯(lián)配),可以確定兩個序列是否具有同源性。 1. 查找序列信息 Tay-Sachs癥是一種由于缺乏-氨基已糖苷酶A(Hex A)而導(dǎo)致的常染色體隱性遺傳疾病。這種酶能分解大腦和神經(jīng)細(xì)胞中的神經(jīng)節(jié)苷脂(GM2)?;騂EXA編碼該酶的亞基,而第三個基因GM2A編碼活化劑蛋白質(zhì)GM2。1.1 查找目的基因Tay-Sachs在NCBI()上查找信息,在Search列表中選擇Nucleotide,在for框中輸入Tay-Sachs, 點擊Go。1.2 讀入序列數(shù)據(jù)查找結(jié)果返回編碼酶HexA的和亞基的基因和編碼活化劑酶的相關(guān)頁面。NCBI中人類基因HEXA的登錄號是NM_000520。用fastaread或genbankread函數(shù)可將基因信息被以結(jié)構(gòu)列表的形式導(dǎo)入MATLAB工作區(qū)。方式1:HumanHEXA = fastaread(NM_000520.fasta);humanHEXA=getfield(HumanHEXA,Sequence);方式2:HumanHEXA = genbankread(NM_000520.gb);humanHEXA=getfield(HumanHEXA,Sequence)1.3 讀入另一序列的信息mouseHEXA許多基因的序列和功能通過同源基因在進(jìn)化過程中被保留下來。同源基因就是有共同祖先或是相似序列的基因。查找公共數(shù)據(jù)庫的目的之一就是找出相似的基因。如果用戶能在數(shù)據(jù)庫中定位一個未知的基因,那么這個未知基因和已知基因的功能和特征很可能是相同的。用fastaread或genbankread函數(shù)可將鼠類HEXA基因信息被以結(jié)構(gòu)列表的形式導(dǎo)入MATLAB工作區(qū)(NCBI中鼠類基因HEXA的序列號是AK080777)。方式1: MouseHEXA = fastaread(AK080777.fasta);mouseHEXA=getfield(MouseHEXA, Sequence)方式2: MouseHEXA = genbankread(AK080777.gb);mouseHEXA=getfield(MouseHEXA, Sequence)2 確定蛋白質(zhì)編碼序列 一個核苷酸序列在蛋白質(zhì)編碼段的前后都包含了調(diào)控序列。通過分析這個序列,可以確定在編碼最終蛋白質(zhì)中亞氨基酸的核苷酸。2.1 查找人類HEXA的ORF使用seqshoworfs函數(shù)輸出人類HEXA的所有閱讀框中ORF中起始和終止密碼子的位置。humanORFs = seqshoworfs(humanHEXA)結(jié)果顯示了三個閱讀框的ORF, 分別以藍(lán)色、紅色和綠色標(biāo)記, 其中最長的ORF在第1個閱讀框。閱讀框部分省略閱讀框部分省略閱讀框部分省略2.2確定鼠類HEXA的ORF使用seqshoworfs函數(shù)輸出人類HEXA的所有閱讀框中ORF中起始和終止密碼子的位置。mouseORFs = seqshoworfs(mouseHEXA)結(jié)果得到三個閱讀框的ORF, 分別以藍(lán)色、紅色和綠色標(biāo)記, 其中最長的ORF在第一個閱讀框。 Frame 1 閱讀框部分省略閱讀框部分省略閱讀框部分省略3. 比較氨基酸序列 在確定核苷酸序列中的ORF之后,就可以將核苷酸序列的蛋白質(zhì)編碼段轉(zhuǎn)換為相應(yīng)的氨基酸序列。并使用比對功能來確定兩序列的相似性。3.1 將ORF轉(zhuǎn)換為氨基酸序列mouseProtein = nt2aa(mouseHEXA);由于人類的ORF在第一個閱讀框, 所以需要指出其位置humanProtein = nt2aa(humanHEXA,Frame,1);3.2 繪制散點圖比較人類和鼠類的氨基酸序列。seqdotplot(humanProtein,mouseProtein,4,1)ylabel(Human hexosaminidase A);xlabel(Mouse hexosaminidase A);散點圖是確定兩序列相似性最簡單的方法之一。圖中對角線平直連續(xù), 表示這兩個序列相似性較好。3.3 比對這兩個氨基酸序列下面nwalign函數(shù)有目的地比對兩序列。采用的是Needleman-wunsch算法, 可返回全局比對的計算統(tǒng)計量。globalscore, globalAlignment = nwalign(humanProtein,mouseProtein)showalignment(globalAlignment);Identities = 486/753 (65%), Positives = 570/753 (76%) 3.4 截短序列尋找終點:humanStops = find(humanProtein = *)mouseStops = find(mouseProtein = *)下面將序列截短至只含第一個甲硫氨酸至第一個停止符,進(jìn)行局部比對。截短序列至只包含蛋白質(zhì)的氨基酸序列和停止符。humanSeq = humanProtein(70:humanStops(2);humanSeqFormatted = seqdisp(humanSeq)mouseSeq = mouseProtein(11:mouseStops(1);mouseSeqFormatted = seqdisp(mouseSeq)3.5 比對被截短的氨基酸序列g(shù)lobalscore, globalalignment = nwalign(humanSeq,mouseSeq);showalignment(globalalignment);Identities = 450/540 (83%), Positives = 507/540 (94%)3.6 局部比對兩氨基酸序列下面swalign函數(shù)有目的地比對兩序列。采用的是Smith-Waterman算法, 可返回局部比對的計算統(tǒng)計量。localscore, localAlignment = swalign(humanProtein,mouseProtein);showalignment(localAlignment);Identities = 454/547 (83%), Positives = 514/547 (94%) 作業(yè)1進(jìn)入NCBI任意搜索兩條細(xì)菌條斑病

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論