


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、實(shí)驗(yàn)七 核酸序列分析(附加部分)1、 發(fā)現(xiàn)核酸序列中的蛋白質(zhì)編碼區(qū)域。1) 利用NCBI ORF Finder。 A、 在NCBI上查找AC號(hào)為AE008569的核酸記錄,思考:1、這個(gè)序列的名稱?2、這個(gè)序列所屬的生物學(xué)分類?B、 進(jìn)入OFR Finder,首先在頁(yè)面下方的Genetic codes 下拉菜單中瀏覽現(xiàn)有的22種遺傳密碼選擇項(xiàng)(這里我們只使用默認(rèn)的standard code),利用AC號(hào)或其裸序列(想一想怎么能得到)進(jìn)行ORF finding。C、 在結(jié)果顯示頁(yè)面中,按照序列的正向+1、+2、+3以及反向的-1、-2、-3進(jìn)行的六框翻譯結(jié)果以圖形的方式顯示在頁(yè)面中。利用默認(rèn)的1
2、00bp閾值所發(fā)現(xiàn)的各框內(nèi)的ORF以綠色條狀顯示。同時(shí),按照六框內(nèi)所有發(fā)現(xiàn)的ORF的大小順序,在頁(yè)面的右側(cè)有一個(gè)列表,分別顯示了ORF的翻譯框、在基因組上的位置以及ORF的長(zhǎng)度。你可以改變ORF鑒別中的長(zhǎng)度閾值(50,100,300),點(diǎn)擊Redraw重新進(jìn)行計(jì)算。D、 點(diǎn)擊圖形上的綠色條框,就可以對(duì)這個(gè)ORF進(jìn)行檢查(當(dāng)然也可以點(diǎn)擊右側(cè)的ORF列表),頁(yè)面上會(huì)顯示預(yù)測(cè)的氨基酸序列,同時(shí)頁(yè)面上還嵌入了BLAST程序以及NCBI的有關(guān)序列數(shù)據(jù)庫(kù)以便于發(fā)現(xiàn)與此ORF相似的庫(kù)記錄。非常方便!E、 SixFrames是以另外一種方法計(jì)算并顯示結(jié)果,點(diǎn)擊SixFrames,結(jié)果中各框上邊拉下的綠色短線表
3、示為一個(gè)起始密碼子,而各框下方的粉色短線表示為一個(gè)終止密碼子。F、 如果你擁有一個(gè)高等生物的cDNA時(shí),可以利用ORF finder這個(gè)簡(jiǎn)單的工具來(lái)找到你的蛋白編碼區(qū)域。因?yàn)閏DNA不含有intron,因此可擁有與微生物相似的ORF結(jié)構(gòu)。G、 ORF finder可以正確地鑒定85%左右的蛋白編碼區(qū),但要發(fā)現(xiàn)一些很短的蛋白序列,shadow gene或使用了非常用遺傳密碼子的基因,則需要使用那些包含了密碼子使用頻率及使用偏好等統(tǒng)計(jì)學(xué)特性的程序,如GeneMark。這里給出兩個(gè)GeneMark網(wǎng)址: , 。2) 發(fā)現(xiàn)真核生物基因組(如脊椎動(dòng)物)序列中的蛋白質(zhì)編碼區(qū)域。A、 剪切位點(diǎn)(splice
4、 site)的預(yù)測(cè)。脊椎動(dòng)物的外顯子很?。ㄆ骄?50bp),它們的剪切位點(diǎn)還有一定的變化。因此發(fā)現(xiàn)外顯子要比利用ORF finder或GeneMark發(fā)現(xiàn)ORF困難得多。下面是一種外顯子預(yù)測(cè)程序:MZEF。點(diǎn)擊/ ,這是位于冷泉港實(shí)驗(yàn)室Michae Q. Zhangs的主頁(yè),點(diǎn)擊左側(cè)的databases and Software Tools,進(jìn)入的頁(yè)面中包含了多個(gè)物種的啟動(dòng)子數(shù)據(jù)庫(kù)、外顯子發(fā)現(xiàn)工具等,點(diǎn)擊頁(yè)面中間的Gene Finding (public)連接,則進(jìn)入了MZEF頁(yè)面( )。程序的相關(guān)說(shuō)明文件在頁(yè)面下方的 For more information about MZE
5、F行的here鏈接中,事先閱讀一下此文件,有助于程序的使用以及對(duì)輸出結(jié)果的理解( ),你也可以閱讀實(shí)驗(yàn)數(shù)據(jù)-實(shí)驗(yàn)七中的MZEFexample.PDF文件,這一文件也可以從Michae Q. Zhangs的數(shù)據(jù)庫(kù)及軟件工具頁(yè)面上找到()?;氐組ZEF主頁(yè),點(diǎn)擊Human 鏈接(finder/human.htm ),進(jìn)入由先前統(tǒng)計(jì)數(shù)據(jù)校準(zhǔn)的人類編碼外顯子預(yù)測(cè)MZEF程序頁(yè)面。在NCBI上找到一條AC號(hào)為AF018429的人類核酸記錄,這是一個(gè)包含了外顯子1和外顯子2的dUTPase基因(注意一下這兩個(gè)外顯子在基因上的位置)。將FASTA格式的序列粘貼到人類MZEF程序頁(yè)面的檢索框中,點(diǎn)擊submi
6、t。程序很快給你返回結(jié)果。它發(fā)現(xiàn)了在1056-1172間的一個(gè)外顯子(通過(guò)幫助文件理解結(jié)果中各項(xiàng)的含義)。預(yù)測(cè)的正確性有1/2(漏掉了一個(gè)exon)。而且,預(yù)測(cè)到的外顯子的真實(shí)起始位點(diǎn)也不在1056。這樣的正確率(1/2,不完全吻合)在外顯子發(fā)現(xiàn)程序中并不少見(jiàn)。下面兩個(gè)網(wǎng)址則將MZEF與其它的方法綜合在一起進(jìn)行外顯子預(yù)測(cè):EBI的MZEF-SPC ()以及Michigan Tech的AAT( )。B、 真核生物基因組的完全基因分析如果你在進(jìn)行基因組測(cè)序,那么所需要的就是那些最高水平的復(fù)雜的計(jì)算機(jī)輔助注釋工具:基因組剖析軟件(genome-parsing software)。這些軟件程序是為一次
7、處理一個(gè)基因組的大片段序列(10萬(wàn)到幾百萬(wàn)bp)的注釋而設(shè)計(jì)的,它們對(duì)序列中所有基因的具體外顯子/內(nèi)含子結(jié)構(gòu)進(jìn)行預(yù)測(cè)。與MZEF類似,這些程序也有數(shù)模結(jié)構(gòu)(modular structure),每一個(gè)數(shù)模都為識(shí)別一個(gè)特定的基因組分(如編碼外顯子,第一個(gè)/最后一個(gè)外顯子,啟動(dòng)子區(qū)域,多聚腺苷酸化位點(diǎn)等)而設(shè)計(jì)。這些相對(duì)獨(dú)立的數(shù)模所產(chǎn)生的結(jié)果被拼合成連續(xù)的基因結(jié)構(gòu)預(yù)測(cè)(比如將預(yù)測(cè)的外顯子區(qū)域邊界粘接形成閱讀框)。這些預(yù)測(cè)結(jié)構(gòu)最后會(huì)根據(jù)與理想基因模型的相似度大小而進(jìn)行記分。馬可夫模型(Markov Models)以及動(dòng)態(tài)規(guī)化優(yōu)化是這些程序的基礎(chǔ)核心概念。大多數(shù)的基因組剖析軟件(比如我們下面要用到的G
8、enomeScan)也考慮了蛋白質(zhì)序列的相似性。(注意:并不是所有的外顯子都可被發(fā)現(xiàn)!大多數(shù)的外顯子預(yù)測(cè)程序只限于內(nèi)部外顯子,而那些與5或3不翻譯的轉(zhuǎn)錄區(qū)域(UTR) 相連的編碼外顯子,比如第一或最后一個(gè)密碼子,通常不會(huì)被程序發(fā)現(xiàn)。)盡管這些程序的算法越來(lái)越復(fù)雜,但使用起來(lái)卻很容易。你只要將序列粘貼到輸入窗口,點(diǎn)擊個(gè)執(zhí)行鍵,就可以得到剖析后的基因了!現(xiàn)在我們就利用GenomeScan 剖析軟件程序進(jìn)行一個(gè)大于100000bp(且至少包含有一個(gè)完整的基因)的人類基因組序列大片段上的基因進(jìn)行預(yù)測(cè)(我們使用的是GenomeScan站點(diǎn)上的示范DNA序列)。同時(shí),我們還需要那些與你的DNA序列所預(yù)測(cè)的
9、編碼區(qū)域有顯著相似性的蛋白質(zhì)序列。這些蛋白質(zhì)序列可通過(guò)將你的序列對(duì)已知的蛋白質(zhì)序列數(shù)據(jù)庫(kù)進(jìn)行blastx而得到。(當(dāng)然,我們這里使用的還是GenomeScan站點(diǎn)上的示范蛋白質(zhì)序列。注意,不論蛋白質(zhì)序列還是DNA序列都要以FASTA格式進(jìn)行比較。)進(jìn)入GenomeScan主頁(yè)(),點(diǎn)擊GenomeScan WebServer,從物種選擇下拉菜單中選擇Vertebrate(即選擇由相應(yīng)物種的編碼區(qū)域統(tǒng)計(jì)值進(jìn)行校正后的程序進(jìn)行預(yù)測(cè)),將DNA testfile的序列(FASTA格式)粘在DNA Sequence input box中,將protein file中的蛋白序列(FASTA格式)粘在Pr
10、otein Sequence input box中,點(diǎn)擊Run GenomeScan。輸出的結(jié)果是一個(gè)非常長(zhǎng)的列表,列出了每一個(gè)預(yù)測(cè)基因的所有組成成分,它們所在的位置以及相關(guān)的質(zhì)量評(píng)估值。在進(jìn)行大規(guī)模的測(cè)序項(xiàng)目及自動(dòng)注釋這一連續(xù)的過(guò)程中,這一結(jié)果是計(jì)算機(jī)程序所必需的。好在GenomeScan同時(shí)也提供了非常好的圖形輸出結(jié)果,這一圖形結(jié)果以PDF及PostScript圖像形式保存。在本例分析所得到的圖中,預(yù)測(cè)的基因及外顯子以紅色箭頭及紅色方塊表示,而通過(guò)blastx相似性所得到的蛋白質(zhì)支持證據(jù)則以綠色方塊表示。在這條100000bp的脊椎動(dòng)物基因組長(zhǎng)序列中,總共包含了5個(gè)預(yù)測(cè)基因。2、 序列片段
11、的拼裝(assembling)目前的測(cè)序機(jī)器一次只能產(chǎn)生500到1000bp的核苷酸序列,因此只要你的序列比較長(zhǎng),就可能需要將短的重疊片段進(jìn)行拼裝。當(dāng)進(jìn)行大規(guī)模的測(cè)序項(xiàng)目時(shí),以一個(gè)典型的的微生物基因組為例,得到其4MB的基因組序列就需要對(duì)超過(guò)50000條測(cè)序小片段(我們稱之為reads)進(jìn)行縫合。這些基因組測(cè)序項(xiàng)目所使用的組裝軟件的數(shù)據(jù)直接來(lái)源于測(cè)序機(jī)器所產(chǎn)生的色譜圖(chromatograms or traces)。色譜圖即是由復(fù)雜的峰值及谷值熒光值所組成的,它揭示了測(cè)序小片段中每一個(gè)位置的核苷順序。這些程序中還包含了能夠計(jì)算每一個(gè)測(cè)序片段每一個(gè)位置每一個(gè)核苷的質(zhì)量記分的堿基讀取系統(tǒng)(bas
12、e-calling system),數(shù)據(jù)管理系統(tǒng)以及交互式的編輯與顯示工具。這些復(fù)雜的完整基因組測(cè)序軟件包不能通過(guò)網(wǎng)絡(luò)提供服務(wù),你必須把它們下載到本地并安裝到專門的高性能計(jì)算機(jī)上使用。常用的公共測(cè)序軟件包有 Staden pakage, Phred/Phrap等。即使不做這些基因組測(cè)序項(xiàng)目,日常工作中一樣會(huì)遇到序列拼裝的問(wèn)題。比如,你的cDNA包含在多個(gè)PCR片段中,或者你有一些表達(dá)序列標(biāo)簽(EST),想知道能否由這些EST推導(dǎo)出一條完整的cDNA。或者你想用從數(shù)據(jù)庫(kù)中提取的EST序列進(jìn)行拼裝等等。這時(shí)你就會(huì)希望利用一個(gè)簡(jiǎn)單的能夠識(shí)別出你的序列集中顯著的重疊區(qū)并將它們拼裝成一條序列(我們稱之為contig)。下面我們利用IFOM(FIRC Institute of Molecular Oncology in Milano)的EST assembler進(jìn)行序列的拼裝。點(diǎn)擊http:/bio.ifom-firc.it/ASSEMBLY/assemble.html ,將實(shí)驗(yàn)數(shù)據(jù)-實(shí)驗(yàn)七中的EST assembling文件上載到服務(wù)器的文件輸入框中或?qū)⑵渲械男蛄衅渭訤ASTA格式粘到序列輸入框中。(注意,不需要考慮提供序列的方向性問(wèn)題,因?yàn)槌绦驎?huì)自動(dòng)在兩個(gè)方向上進(jìn)行查找)。針對(duì)不同的情況,可對(duì)頁(yè)面下部的一些參數(shù)進(jìn)行修改,比如最
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度藝術(shù)品抵押借款合同協(xié)議
- 二零二五年度汽車零部件制造廠房產(chǎn)權(quán)移交合同
- 二零二五年度瑜伽舞蹈工作室店鋪鋪面租賃協(xié)議
- 發(fā)言稿組織委員
- 2025年安徽貨運(yùn)從業(yè)資格考試題目大全答案
- 老母親遺留房產(chǎn)轉(zhuǎn)讓合同
- 2014年飯店轉(zhuǎn)讓協(xié)議
- 高一新生會(huì)發(fā)言稿
- 2025年上海貨運(yùn)從業(yè)資格證考試新規(guī)
- 高中家長(zhǎng)會(huì) 穩(wěn)舵揚(yáng)帆逐夢(mèng)再起航課件-高三七班期末班會(huì)家長(zhǎng)會(huì)
- 遠(yuǎn)程醫(yī)療創(chuàng)業(yè)計(jì)劃書(shū)
- 初中生心理健康教育講座課件
- 廣東省廣州市白云區(qū)2023-2024學(xué)年八年級(jí)上學(xué)期期末英語(yǔ)試題(答案)
- 洞庫(kù)安全隱患
- 2024-2025年第一學(xué)期小學(xué)德育工作總結(jié):點(diǎn)亮德育燈塔引領(lǐng)小學(xué)生全面成長(zhǎng)的逐夢(mèng)之旅
- 2024解析:第二章聲現(xiàn)象-基礎(chǔ)練(解析版)
- 整體法蘭強(qiáng)度校核計(jì)算表(設(shè)計(jì):zxg)
- 《供配電技術(shù)》課件第1章
- 建筑垃圾清理及運(yùn)輸方案
- 2024年甘肅省公務(wù)員錄用考試《行測(cè)》真題卷及答案解析
- 2024版Visio入門到精通完整教程
評(píng)論
0/150
提交評(píng)論