開放閱讀框與基因識別_第1頁
開放閱讀框與基因識別_第2頁
開放閱讀框與基因識別_第3頁
開放閱讀框與基因識別_第4頁
開放閱讀框與基因識別_第5頁
已閱讀5頁,還剩32頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、06生信 黃鑫章2006062114開放閱讀框(ORF, frame)基本思路 實現(xiàn)方法舉例open readingORF蛙ORF(open reading frame)是一個沒有終止編碼的密碼子序列。對于任何給定的核酸序列(單鏈DNA或 mRNA),根據(jù)密碼子的起始位置,可以按照 3種方式解釋。例如,對于序列ATTCGATCGCAA,一種可 能的密碼子閱讀順序為ATT、CGA、TCG、CAA,另外兩種可能的密碼子閱讀 順序分別為A、TTC、GAT、CGC、AA和 AT、TCG、ATC、GCA、A。這三種順序 被稱為閱讀框(ORFQpen reading frame)基本思路姦找到一比較長的序

2、列,其相應(yīng)的密碼子序 列不含終止密碼子,那么這段序列可能就 是編碼區(qū)域?qū)崿F(xiàn)方法 掃描給定的DNA序列,在3個不同的閱讀 框屮尋找較長的ORF當(dāng)遇到終止密碼子后,回頭尋找起始密碼 子,以確定完整的編碼區(qū)域舉例胰島素由A、B兩個肽鏈組成。人胰島素(Insulin Human)A鏈有11種21個氨基酸,B 鏈有15種30個氨基酸,共16種51個氨基酸 組成 NM 000207Homo sapiens insulin (INS). mRNAComment F的tures SeQuenceLOCUS BJ00207469 bp mRJIA linear PRI 28-5EP-2009DEFINITION

3、 Hobo sapiens insulin (INS) 9 1PNA.ACCESSION UHJ00207VERSIONNHJ00207.2 GI: 109148525REWORDS"SOURCE Homo sapiens (huian)ORGANISM Homo sguiensEukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostoii; Kanmalia; Eutheria; Euarchontoglires; Primes; Haplorrhini; Catarrhim; Houmdae; Homo.PEFEP

4、ENCE 1 (bases 1 to 469)AUTHORS Brennan,I.M.# Feltrin,K.L., Nair,N.S.; HauskenzT.# LittleJ.J.;GentilcoieD.,JoneS/K.L.# Horowitz,H. andFeinle-Bisset;C.ORIGIN1 agccctccag gacaggctgc atcagaagag gccatcaagc agatcactgt ccttctgcca61 tggccctgtg gatgcgcctc ctgcccctgc tggcgctgct ggccctctgg ggacctgacc 121 cagcc

5、gcagc ctttgtgaac caacacctgt gcggctcaca cctggtggaa gctctctacc 181 tagtgtgcgg ggaacgaggc ttcttctaca cacccaagac ccgccgggag gcagaggacc 241 tgcaggtggg gcaggtggag ctgggcgggg gccctggtgc aggcagcctg cagcccttgg 301 ccctggaggg gtccctgcag aagcgtggca ttgtggaaca atgctgtacc agcatctgct 361 ccctctacca gctggagaac tad

6、gcaact agacgcagcc cgcaggcagc cccacacccg 421 ccgcctcctg caccgagaga gatggaataa agcccttgaa ccagcaaaa/Tools for data miningGenBank sequence submission support and softreFTP site download data arid softwareTools for data miningGenBank sequence submission support and softreFTP site download data arid soft

7、wareORF Finder (Open Reading Frame Finder)ErrfrezBLASTOMIMTaxonomyPie ORF Finder (Open Reading Frame Finder) is a graphical analysis tool which finds all open reading frames of s sequence or in a sequence already in the database.This tool identifies all open reading frames using the standard or alte

8、mabve genetic codes The deduced amino aci and searched against the sequence database using the WM BLAST server. The ORF Finder should be helpful ir submissions It is also packaged with the Sequin sequence submission softwareEnter Gl or ACCESSION 麗而S I 斷咄 | 畫or sequence in FASTA format2 NCBIORF Finde

9、r (Open Reading Frame Finder)PubMedEntrezBLASTOMIMTaxonomyStructureHomo sapiens insulin (INS), mRNA| Viewy GenBank “ 丨 Redraw W 匕空価怕級訂-222.468447+360.3923333180.467288-1:>06.355150-31.143143+11 .138138+2:肖 1.468129+22.118117Frame &om to LengthView 1 GenBankyRedraw 103 ySixFranesAccpt (Length.

10、 148 aaAlternative Initiation CodonsFrame from to Length-2 22.468 447+3 Q 60.392333-3CH 80467288-1口206355150口 1143143+1o 1.138138+2 341.468129+2 口 2.118117468 vttgccggctcaQgggccctattccat.ccctctcggcgcaggag FAGSRALFHLSRCRR423 cggcgggcgcggggctgcctgcgggccgcgtctagtcgcagtagt RRVUGCLRAASSCSS378 tctccagezgg

11、tagagggagcagatgetggtacagcattgttccaSPAGRGSRCWYS I V P333 caatgccacgcctctgcagggacccctccagggccaagggctgcQ QCHASAGTPPGPRAi288 ggccgcccgcaccagggcccccgcccagccccacccgccccacccGCLHQGPRPAPPAPP243 gcaggtc亡匕utguutuuuggugggtu匕t:gggt.gtgt:agAag&Ag亡XGPLPPGGSWVCRRS198 ctcorcccccgcacactaggtagaaagcctccaccQggtgtgag

12、cLVPRTLGRELPPGVS153 cgcacaggcgLcggcvcacaaaggccQcggccgggvcaggccccc RTGVGSQPLRLGQVP108 agagggacagcagcgccagcaggggcaggaggcgcatccacagggRGPAAPAGAGGASTG63 cccco仃ua仃dacjQdcaQ匕cjdcctoc匕匕Qdcaycccc匕匕c j - 22 PUQKDSDLLDGLF *ORF預(yù)測的可靠性密碼子第3堿基趨向于相同的幾率是否遠(yuǎn)大 于僅僅由隨即產(chǎn)生的幾率分析ORF中的密碼子是否與那些用于同一 生物其他基因中的密碼子相一致將ORF翻譯成氨基酸序列,然

13、后將結(jié)果序 列與序列數(shù)據(jù)進(jìn)行比較,如果發(fā)現(xiàn)1個或多 個顯著相似序列,則所預(yù)測ORF的可信度 較高Pro用am bbstp " DatabaseHomo sapiens insulin (INS), mRNAnf7 : ELAST 0 with parameters Cognitor |Anonynous(148 letters)No hitsQuery= Anonymous(148 letters)Database: xyva108, 091 sequences: 33,061,072 total letters No hits found *Database: xyvaPosted

14、 date: Feb 14, 20031:48 PMNumber of letters in database: 33# 061$ 072Number of sequences in database: 108,091View 1 GenBank 町展加* 103 v I SixFranesAccqX Length: 110 aaAlterriatrvG Initiation CodonsFrame from to Leng2 B 22 468 447+3 60. 392 3333 180.467 288-1 3 206.35515031143143+11138138+2s 31468129+

15、2B211211760 . gccctgtgg. cgcctcctgcccctgctggcqctgctggcc nALUMBLLPLLALLA 105 ctctggggacct gacccagecrgcagcc111 gtgaaccaacacetg LVGPDP1AAFVNQHL 150 tacaactcacacctaatgaaaactctctftcctftatotacaaacra CG3HLVEALYLVCGE195 cgaggcttcttctacacacccaagacccgccgggaqgcagaggacRGFFYTPKTRREAED240 ctgcaggtggggcaggtggagetg

16、ggcgggggccctggtgcaggc LQVGQVELGGGPGAGZ85 ageergcagcccztggccc-ggagjggtccctgc:agaagcgtggcSLQPLALEG3LQKRG 330 actgtggaacsacgctQcaccaacaccLQccccctCLaccaacca IVEQCCTSICSLYQL 375 gagoactactgcexacte 392Anonynous (110 letters)10 related COG (3 6eTs) - HELP節(jié)core: 0110 letters5T ->11117835 m -血 1066- OT (5

17、42) - CTO?51 ->K®8 (343) M3:>>117835Length = 467Score = 26.6 bits (57), Expect 二&2Identities = 12/22 (54%), Positives = 14/22 (63幻 rQuery: 61 LQVGQVELGGGPGAGSLQPLAL 82L EL GG GAG+ QP LSbjct: 427 LPLGSEELAGGIGAGAFQPTEL 448>ML2410Length = 542tS Score = 266 bits (57), Expect 二&

18、2Identities = 13/25 (52%), Positives = 18/25 (72%), Gaps = 1/25 (4%)9Query: 54 TRREAEDLQTC-QVELGGGKAGSL 77»T+ + +LQ G QV LG GPGAfiXSbjet: 413 TKEKRVNLQAGEQVRLGQGPGACTV 437 f >BH0548*Length = 343ft Score = 26.6 bits (57), Expect 二& 2» Identities = 16/39 (4IX), Positives = 21/39 (53%)

19、t» Query: 53 KTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGI 91»KT卄 AE+ +V QV L GG A ALE + K It Sbjct: 259 KTKKAAEEYKVRQVLLAGGVAAXKGLRTALEEAFFKEPI 297proinsulin precursor Homo sapiensCommentLOCUS DEFINITION ACCESSION VERSION DBSOURCE REWORDS SOURCEORGANISMFeatures SeauenceNP_000198110 aaproinsulin

20、 precursor Hono sapiens NP_000198NP_000198.1 GI:4557671PEFSEQ: accession KM_00020? 2Homo sapiens (hunan)Homo saui皀nslinear PRI ll-OCT-2009ORIGIN161/malwrllpl lallalwgpd pa&afvnqhl cgshlvealy lvcgergffy tpktrreaed lqpzgqvelgg gpgagslqpl alegslqkrg iveqcctsic slyqlenycn胰島素由A、B兩個肽鏈組成。人胰島素 (Insulin

21、Human)A鏈有笛種21個氨基酸,B 鏈有15種30個氨基酸,共16種51個氨基酸 組成其中A7(Cys)B7(Cys)、A20(Cys)-B19(Cys) 四個半胱氨酸中的疏基形成兩個二硫鍵, 使A、B兩鏈連接起來。此外A鏈中A6(Cys) 與A11 (Cys)之間也存在一個二硫鍵。在B細(xì)胞的細(xì)胞核中,第“對染色體短臂上胰島 素基因區(qū)DNA向mRNA轉(zhuǎn)錄,mRNA從細(xì)胞核移 向細(xì)胞漿的內(nèi)質(zhì)網(wǎng),轉(zhuǎn)譯成氨基酸相連的長 月太前胰島素原(Poinsulin),前胰島素原經(jīng)過蛋白水解作用除其前肽,生成胰島素原。胰島 素原隨細(xì)胞漿中的微泡進(jìn)入高爾基體,由86(84) 個氨基酸組成的長肽鏈胰島素原在高爾

22、基體 中經(jīng)蛋白酶水解生成胰島素及C肽,分泌到B細(xì)胞 夕卜,進(jìn)入血液循環(huán)中。未經(jīng)過蛋白酶水解的胰島 素原,一小部分隨著胰島素進(jìn)入血液循環(huán),胰島 素原的生物活性僅及胰島素的5%。Genomic regions, transcripts, and products(minus strand) Go to 號fersncwis卑ewe更m $毗J000119V2L&為孕»1_W2(7.2I - “腳? f5oh | - w忖畑 r-fr=dnGenomic contextchromosome: 11; Location: llpl5.S2H胖愴»H19«-GF2【GF2IGF£ftSTn our riQw gQmncQ Viqm4刃機加9a洌中燈*”c 宓?®LS IM$ in M,pVigyr2滋叭«C12I呎 THHomo sapiens insulin (INS), mRNAProgram blastpv Database | nri wdi parameters Cognitor |1 GenBankVRedraw100SixFraroesView Length S8 aaAccept Al仙n合砸 Initiation CodonsFrame from to Length2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論