版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)庫系統(tǒng)專題Advanced Topics on Database Systems第七章 生物信息處理技術(shù)本章主要內(nèi)容遺傳信息的結(jié)構(gòu)和功能生物數(shù)據(jù)庫序列比對后綴樹基因表達數(shù)據(jù)分析數(shù)據(jù)庫專題講義遺傳信息的結(jié)構(gòu)和功能DNA分子結(jié)構(gòu)基因的結(jié)構(gòu)基因表達數(shù)據(jù)庫專題講義DNA分子結(jié)構(gòu)四種核苷酸 嘌呤: 腺嘌呤(adenine A) 鳥嘌呤(guanine G) 嘧啶:胞嘧啶(cytosine C) 胸腺嘧啶(thymine T)DNA分子的雙螺旋結(jié)構(gòu)數(shù)據(jù)庫專題講義DNA分子結(jié)構(gòu)DNA分子的堿基序列儲存和編碼了大量遺傳信息DNA分子的雙螺旋互補結(jié)構(gòu)直接表明了遺傳 信息復(fù)制和傳遞的機制DNA分子的雙螺旋互補
2、結(jié)構(gòu)為DNA損傷造成的遺傳信息丟失提供了保護措施DNA雙鏈的互補性是DNA分析研究的理論基礎(chǔ)數(shù)據(jù)庫專題講義基因的結(jié)構(gòu)大多數(shù)真核細胞基因的顯著特征是有非編碼的插入序列,稱為內(nèi)含子(intron)內(nèi)含子能夠轉(zhuǎn)錄成RNA,在翻譯成蛋白質(zhì)之前被加工剪接,因此不包含在mRNA序列中被內(nèi)含子隔開的編碼序列為外顯子(exon),剪接后連在一起形成成熟的mRNA,參與指導(dǎo)蛋白質(zhì)合成不同基因的內(nèi)含子和外顯子數(shù)目和大小不同,一般基因越大,外顯子越多。內(nèi)含子可能遠遠大于外顯子,也可能內(nèi)含子中包含其他基因的編碼序列,即基因內(nèi)基因數(shù)據(jù)庫專題講義基因的結(jié)構(gòu)啟動子(promoter) 一般位于基因轉(zhuǎn)錄啟始點上游100-20
3、0bp范圍,是能與DNA聚合酶和轉(zhuǎn)錄因子相互作用的核苷酸序列,包含一些DNA序列元件TATA框:人類許多基因在轉(zhuǎn)錄啟始點5端上游25-30bp處有一段高度保守序列,由7個堿基組成,TATAA/TAA/T,其中兩個堿基可以變化。 TATA框能與轉(zhuǎn)錄因子TFII結(jié)合,再與RNA聚合酶II形成復(fù)合物,準確識別轉(zhuǎn)錄啟始點,啟動基因轉(zhuǎn)錄數(shù)據(jù)庫專題講義基因的結(jié)構(gòu)增強子(enchancer):是一個短序列元件,結(jié)合于轉(zhuǎn)錄因子,能增強基因的轉(zhuǎn)錄活性??晌挥诨虻娜魏挝恢?,其功能與位置和序列方向無關(guān)。結(jié)合增強子的蛋白可和結(jié)合啟動子的蛋白相互作用,增強基因表達終止子(terminater):是由AATAAA和一段
4、回文序列組成,AATAAA是多聚腺苷酸(polyA)的附加信號,回文序列轉(zhuǎn)錄后形成發(fā)夾結(jié)構(gòu),阻礙RNA聚合酶繼續(xù)移動,轉(zhuǎn)錄終止數(shù)據(jù)庫專題講義基因表達中心法則DNA序列所蘊藏的遺傳信息,經(jīng)過轉(zhuǎn)錄和翻譯,實現(xiàn)信息傳遞和指導(dǎo)蛋白質(zhì)合成,這一過程稱為基因表達基因表達成共線性,即DNA的先行核苷酸序列轉(zhuǎn)錄為RNA的線性核苷酸序列,RNA三連體密碼子轉(zhuǎn)譯成特定多肽的線性氨基酸序列這種DNA-RNA-蛋白質(zhì)的信息傳遞原則稱之為中心法則數(shù)據(jù)庫專題講義基因表達轉(zhuǎn)錄(transcription) - DNARNA的過程以DNA雙鏈中的一條作為模板,ATP、CTP、GTP、UTP作為前體RNA,在RNA聚合酶催化下
5、,按堿基互補方式合成RNA單鏈的過程。轉(zhuǎn)錄在細胞核中進行,轉(zhuǎn)錄后的RNA堿基序列與DNA模板序列互補,同非模板鏈一致,只是把T換成了U數(shù)據(jù)庫專題講義基因表達轉(zhuǎn)錄過程外顯子1外顯子2外顯子3GT - AGGT - AG內(nèi)含子1內(nèi)含子2E1E2E3GU - AGGU - AG基因啟動子原始RNA轉(zhuǎn)錄E1E2E3GU - AGGU - AG原始RNA加工剪切成熟mRNA數(shù)據(jù)庫專題講義基因表達翻譯翻譯是指將mRNA轉(zhuǎn)譯成氨基酸序列的過程。成熟的mRNA從細胞核進入細胞質(zhì),由核糖體和其他成分閱讀mRNA所攜帶的信息,指導(dǎo)多肽合成遺傳密碼表三個堿基組成一個遺傳密碼,對應(yīng)一個氨基酸數(shù)據(jù)庫專題講義基因表達fi
6、rst第二個核苷酸U C A GthirdUUUU 苯丙UUC 苯丙UUA 亮氨酸UUG 亮氨酸UCU 絲氨酸UCC 絲氨酸UCA 絲氨酸UCG 絲氨酸UAU 酪氨酸UAC 酪氨酸UAA 終止UAG 終止UGU 半胱UGC半胱UGA 終止UGG 色氨酸UCAGCCUU 亮氨酸CUC 亮氨酸CUA 亮氨酸CUG 亮氨酸CCU 脯氨酸CCC 脯氨酸CCA 脯氨酸CCG 脯氨酸CAU 組氨酸CAC 組氨酸CAA 谷酰CAG 谷酰CGU 精氨酸CGC 精氨酸CGA 精氨酸CGG 精氨酸UCAG數(shù)據(jù)庫專題講義基因表達first第二個核苷酸U C A GthirdAAUU 異亮AUC異亮AUA異亮AUG
7、蛋 起始ACU 蘇氨酸ACC蘇氨酸ACA蘇氨酸ACG蘇氨酸AAU 天酰AAC天酰AAA 賴氨酸AAG 賴氨酸AGU 絲氨酸AGC 絲氨酸AGA 精氨酸AGG 精氨酸UCAGGGUU 纈氨酸GUC 纈氨酸GUA 纈氨酸GUG 纈氨酸GCU 丙氨酸GCC丙氨酸GCA丙氨酸GCG丙氨酸GAU 天冬GAC 天冬GAA 谷氨酸GAG 谷氨酸GGU 甘氨酸GGC甘氨酸GGA甘氨酸GGG甘氨酸UCAG數(shù)據(jù)庫專題講義基因表達翻譯過程首先識別mRNA的AUG起始密碼子每三個連續(xù)核苷酸編碼一個氨基酸直到終止密碼子出現(xiàn)(UAA, UAG, UGA)數(shù)據(jù)庫專題講義生物數(shù)據(jù)庫隨著基因測序技術(shù)快速發(fā)展,在Internet
8、上積累的大量的生物序列數(shù)據(jù),主要包括兩種類型DNA序列蛋白質(zhì)序列數(shù)據(jù)庫專題講義生物數(shù)據(jù)庫生物序列數(shù)據(jù)的積累成爆炸性增長數(shù)據(jù)庫專題講義生物數(shù)據(jù)庫主要生物數(shù)據(jù)庫 Bank EntriesGenbank 18,197,000Swissprot 115,106PDB 18,881數(shù)據(jù)庫專題講義生物數(shù)據(jù)庫基因測試完成情況 19940 19951 2002109 eukaryotes (真核細胞基因) bacteria (細菌基因) archaea (?)108316數(shù)據(jù)庫專題講義生物數(shù)據(jù)庫生物數(shù)據(jù)庫的種類序列數(shù)據(jù)庫結(jié)構(gòu)數(shù)據(jù)庫Generalspecial Genbank, embl PromotersPI
9、R, SwissprotGenomes GeneralSpecialPDBSpecific protein familiesfolds數(shù)據(jù)庫專題講義生物數(shù)據(jù)庫WWW資源NCBI: National Center of Biotechnology information (updated databases)search tool: ENTREZ數(shù)據(jù)庫專題講義序列比對序列比對的意義功能相似的基因具有相似的結(jié)構(gòu)結(jié)構(gòu)相似的基因具有相似的序列序列相似是生物信息學(xué)中的一種最基本的研究手段序列相似性可能意味著結(jié)構(gòu)和功能相似性同源序列是相似的,但相似序列可能是同源的數(shù)據(jù)庫專題講義序列比對全局比對局部比對AT
10、TGCAGTG-TCGAGCGTCAGGCTATTGCGTCGATCGCAC-GCACGCTCATATTGCAGTGGTCCCGCGTCAGGCTTAAATTGCGT-GGTCGCACTGCACGCT數(shù)據(jù)庫專題講義序列比對 - 兩兩比對ATTGCAGTGATCGATTGCGTCGATCGSolution 1:ATTGCAGTGATCG| |ATTGCGTCGATCGSolution 2:ATTGCAGT-GATCG| | | ATTGC-GTCGATCG數(shù)據(jù)庫專題講義序列比對 - 如何評價Solution 1:ATTGCAGTGATCG| |ATTGCGTCGATCGSolution 2:AT
11、TGCAGT-GATCG| | | ATTGC-GTCGATCG12 matches+2 gaps10 matches+ 3 mismatches數(shù)據(jù)庫專題講義序列比對 - 計分模式Match:+1Mismatch:-1Gap:-2Solution 1:ATTGCAGTGATCG| |ATTGCGTCGATCGSolution 2:ATTGCAGT-GATCG| | | ATTGC-GTCGATCGScore = 7Score = 8數(shù)據(jù)庫專題講義序列比對如何找到分值最高的比對結(jié)果動態(tài)規(guī)劃(Dynamical Programming)主要思路是將一個復(fù)雜的問題分解成若干個子問題,利用局部優(yōu)化來
12、不斷地找到全局優(yōu)化的過程數(shù)據(jù)庫專題講義序列比對 - 動態(tài)規(guī)劃Seq 1) A G CSeq 2) A A A CNeedelman-Wunsch algorithm (1970)數(shù)據(jù)庫專題講義序列比對 - 動態(tài)規(guī)劃先計算第0行與第0列A G CA A A Cmatch=1mismatch=-1indel=-2數(shù)據(jù)庫專題講義序列比對 - 動態(tài)規(guī)劃 -中間單元的計算思想F(i-1,j-1)F(i,j)F(i,j-1)F(i-1,j)S(Xi,Yj)-d-d字符串 2字符串1第i-1位第 i位第j-1位第j位數(shù)據(jù)庫專題講義序列比對 - 動態(tài)規(guī)劃 - 計算公式 F (i-1, j-1) + s(xi,
13、 yj)F(i,j)= max F (i-1, j) - d F (i, j-1) - d數(shù)據(jù)庫專題講義序列比對 - 動態(tài)規(guī)劃A G CA A A Cmatch=1mismatch=-1indel=-2-1-3數(shù)據(jù)庫專題講義序列比對 - 動態(tài)規(guī)劃找最佳比對結(jié)果 0A 1A 2-4-10-2A 3-6-3-2-1C 4-8-5-4-10A1G2C30-2-4-6-21-1-3數(shù)據(jù)庫專題講義序列比對 - 動態(tài)規(guī)劃找最佳比對結(jié)果 0A 1A 2-4-10-2A 3-6-3-2-1C 4-8-5-4-10A1G2C30-2-4-6-21-1-3A G - CA A A CScore = -1數(shù)據(jù)庫專題
14、講義序列比對 - 動態(tài)規(guī)劃找最佳比對結(jié)果 0A 1A 2-4-10-2A 3-6-3-2-1C 4-8-5-4-10A1G2C30-2-4-6-21-1-3A - G CA A A CScore = -1數(shù)據(jù)庫專題講義序列比對 - 動態(tài)規(guī)劃找最佳比對結(jié)果 0A 1A 2-4-10-2A 3-6-3-2-1C 4-8-5-4-10A1G2C30-2-4-6-21-1-3- A G CA A A CScore = -1數(shù)據(jù)庫專題講義序列比對 - Local AlignmentF (i-1, j-1) + s(xi, yi)F(i,j)= max F (i-1, j) - dF (i, j-1) d
15、0數(shù)據(jù)庫專題講義序列比對 - Local AlignmentATCTAATAATASmith-Waterman algorithm, 1981數(shù)據(jù)庫專題講義序列比對 - Local Alignment初始狀態(tài)TCATAATAATA數(shù)據(jù)庫專題講義序列比對 - Local AlignmentTCATAATAATA數(shù)據(jù)庫專題講義序列比對 - Local AlignmentTACTAA TAATAScore = 3數(shù)據(jù)庫專題講義序列比對 - Local AlignmentTACTAATAATAScore = 3數(shù)據(jù)庫專題講義基因表達數(shù)據(jù)分析基因的表達指從DNARNA蛋白質(zhì)合成的全過程基因表達的最終產(chǎn)物
16、是蛋白DNARNA(轉(zhuǎn)錄)以DNA的反編碼鏈為模板,在啟動子的控制下以堿基互補的方式,合成一個RNA分子。RNA蛋白質(zhì)(翻譯)三個堿基編碼一個密碼子,一個密碼子對應(yīng)一種氨基酸。20種氨基酸是構(gòu)成蛋白質(zhì)的基本單位。數(shù)據(jù)庫專題講義基因表達數(shù)據(jù)分析基因通過表達控制著特定的蛋白質(zhì)組成(如血紅蛋白)所有的體細胞都含有同樣的基因但在細胞逐步分化后,往往有些基因表達,有些不表達,或僅在胚胎期或病理情況下表達數(shù)據(jù)庫專題講義基因表達數(shù)據(jù)分析基因表達數(shù)據(jù)通過對基因表達的實驗研究,得到的相關(guān)數(shù)示例:酵母菌中部分基因的表達矩陣(后圖)目前流行的獲取基因表達數(shù)據(jù)的方法生物芯片數(shù)據(jù)庫專題講義基因表達數(shù)據(jù)分析數(shù)據(jù)庫專題講義基因表達數(shù)據(jù)分析生物芯片(Biochips)包括DNA芯片有時也被稱為基因芯片、或微陣列(Microarrays )組織芯片蛋白質(zhì)芯片細胞芯片 數(shù)據(jù)庫專題講義基因表達
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年簡化版貨車運送服務(wù)協(xié)議樣例版B版
- 2024年石家莊汽車租賃經(jīng)營權(quán)轉(zhuǎn)讓合同3篇
- 2025年度林業(yè)科研成果轉(zhuǎn)化承包合同3篇
- 2024機械設(shè)備租賃合同經(jīng)典
- 2025版綠色農(nóng)業(yè)項目支付擔保協(xié)議3篇
- 2024年版教育機構(gòu)講座場地租用條款3篇
- 2025年度SPF豬飼養(yǎng)疫病防控與獸醫(yī)服務(wù)合同3篇
- 2024年適用餐飲管理業(yè)務(wù)合作合同樣本版
- 2025年度學(xué)校圖書館古籍保護與數(shù)字化修復(fù)合同3篇
- 2024年簡易住宅交易合同樣本
- 2024初中數(shù)學(xué)競賽真題訓(xùn)練(學(xué)生版+解析版)(共6個)
- 江蘇省南通市崇川區(qū)2023-2024學(xué)年八上期末數(shù)學(xué)試題(原卷版)
- 河南省鄭州市2023-2024學(xué)年高二上學(xué)期期末考試歷史試題(解析版)
- 遼寧省沈陽市沈河區(qū)2024-2025學(xué)年九年級上學(xué)期期末道德與法治試題(含答案)
- 江西省贛州市南康區(qū)2023-2024學(xué)年八年級上學(xué)期期末考試數(shù)學(xué)試卷(含答案)
- 《制造業(yè)成本核算》課件
- 2024項目經(jīng)理講安全課
- 中國共產(chǎn)主義青年團團章
- 采購原材料年終總結(jié)
- 2024-2030年中國隧道建設(shè)行業(yè)前景展望及投資規(guī)劃分析報告
- 2024-2025學(xué)年人教版初中物理九年級全一冊期中復(fù)習(易錯60題)(解析版)
評論
0/150
提交評論