結(jié)構(gòu)生物信息學(xué)基礎(chǔ)知識和基本處理方法_第1頁
結(jié)構(gòu)生物信息學(xué)基礎(chǔ)知識和基本處理方法_第2頁
結(jié)構(gòu)生物信息學(xué)基礎(chǔ)知識和基本處理方法_第3頁
結(jié)構(gòu)生物信息學(xué)基礎(chǔ)知識和基本處理方法_第4頁
結(jié)構(gòu)生物信息學(xué)基礎(chǔ)知識和基本處理方法_第5頁
已閱讀5頁,還剩44頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、結(jié)構(gòu)生物信息學(xué)基礎(chǔ)知識和基本處理方法Outline生物學(xué)基本知識常用的生物數(shù)據(jù)及數(shù)據(jù)庫處理生物數(shù)據(jù)的基本處理方法生物學(xué)兩種主要信息載體核酸分子 與 蛋白質(zhì)分子生物基礎(chǔ)核酸分子核酸的基本單元式核苷酸。核苷酸有一個磷酸基團(tuán)、一個糖基團(tuán)和一個含有氮原子的堿基基團(tuán)構(gòu)成。根據(jù)糖基不同,核苷酸可分為:脫氧核糖核苷酸核糖核苷酸生物基礎(chǔ)堿基糖基磷酸DNA(脫氧核糖核酸)RNA(核糖核酸)核苷 + 磷酸堿基+糖基核苷酸核酸聚合核酸分子 DNA和RNADNA的磷酸基團(tuán)和糖基團(tuán)都相同,堿基分為4種類型:腺嘌呤 - A鳥嘌呤 - G胞嘧啶 - C胸腺嘧啶 - T生物基礎(chǔ)A只能與T配對C只能與G配對ACGT核酸分子 D

2、NA和RNA多個脫氧核苷酸通過5和3形成磷酸二酯鍵連接而成的長DNA單鏈。通過堿基互補(bǔ)配對形成互補(bǔ)鏈,兩條相互平行的DNA單鏈形成雙螺旋結(jié)構(gòu)。生物基礎(chǔ)A - UC - GG - URNA通常是單鏈形式。RNA只有尿嘧啶(U)而沒有胸腺嘧啶(T)DNA主要存在于細(xì)胞核內(nèi),RAN在細(xì)胞核外也存在。配對原則:蛋白質(zhì)分子 生命活動的執(zhí)行者蛋白質(zhì)是由氨基酸通過肽鍵相鏈接形成的聚合物。氨基酸-蛋白質(zhì)的基本組成單位,存在自然界中的氨基酸有300余種,但組成人體蛋白質(zhì)的氨基酸僅有20種。生物基礎(chǔ)氨基酸有一個位于中心的碳原子(C)以及用共價鍵相連的四個基團(tuán)組成。氨基酸的通式RC氨基羧基側(cè)鏈甘氨酸HCH3丙氨酸氨

3、基酸之間的差異主要體現(xiàn)在側(cè)鏈部分蛋白質(zhì)分子 生命活動的執(zhí)行者20種標(biāo)準(zhǔn)氨基酸生物基礎(chǔ)氨基酸名稱英文縮寫簡 寫氨基酸名稱英文縮寫簡 寫甘氨酸GlyG絲氨酸SerS丙氨酸AlaA蘇氨酸ThrT纈氨酸ValV天冬酰胺AsnN異亮氨酸IleI谷酰胺GlnQ亮氨酸LeuL酪氨酸TyrY苯丙氨酸PheF組氨酸HisH脯氨酸ProP天冬氨酸AspD甲硫氨酸MetM谷氨酸GluE色氨酸TrpW賴氨酸LysK半胱氨酸CysC精氨酸ArgR蛋白質(zhì)分子 生命活動的執(zhí)行者生物基礎(chǔ)氨基酸之間的差異主要體現(xiàn)在側(cè)鏈部分氨基酸的側(cè)鏈決定了不同氨基酸的物理化學(xué)性質(zhì)RC氨基羧基側(cè)鏈蛋白質(zhì)分子 生命活動的執(zhí)行者氨基酸的分類生物基礎(chǔ)

4、堿性氨基酸酸性氨基酸極性中性氨基酸非極性疏水氨基酸蛋白質(zhì)分子的結(jié)構(gòu)生物基礎(chǔ)蛋白質(zhì)分子的結(jié)構(gòu)蛋白質(zhì)的一級結(jié)構(gòu)生物基礎(chǔ)定義:蛋白質(zhì)的一級結(jié)構(gòu)指多肽鏈中氨基酸的排列順序。主要化學(xué)鍵:肽鍵一級結(jié)構(gòu)是蛋白質(zhì)空間構(gòu)象和特異生物功能的基礎(chǔ)。胰島素的一級結(jié)構(gòu)蛋白質(zhì)分子的結(jié)構(gòu)蛋白質(zhì)的二級結(jié)構(gòu)生物基礎(chǔ)定義:蛋白質(zhì)分子中某一段肽鏈的局部空間結(jié)構(gòu),即該段肽鏈主鏈骨架原子的相對空間位置,并不涉及氨基酸殘基側(cè)鏈的構(gòu)象。主要化學(xué)鍵:氫鍵HHHH肽單元(peptide unit)蛋白質(zhì)分子的結(jié)構(gòu)肽平面及二面角生物基礎(chǔ)蛋白質(zhì)分子的結(jié)構(gòu)二級結(jié)構(gòu)主要有以下幾種形式:生物基礎(chǔ)螺旋 ( -helix) 折疊 ( -sheet)轉(zhuǎn)角 (

5、 -turn)無規(guī)卷曲 (coil)多肽鏈中有60%的區(qū)段為螺旋和折疊蛋白質(zhì)分子的結(jié)構(gòu)-螺旋生物基礎(chǔ)多肽鏈主鏈圍繞中心軸形成右手螺旋狀結(jié)構(gòu),側(cè)鏈伸向螺旋外側(cè)每個氨基酸殘基(第n個)的羰基與多肽鏈 C 端方向的第4個殘基(第4+n個)的酰胺氮形成氫鍵蛋白質(zhì)分子的結(jié)構(gòu) -折疊生物基礎(chǔ)多肽鏈充分伸展,相鄰肽單元之間折疊成鋸齒狀結(jié)構(gòu),側(cè)鏈位于鋸齒結(jié)構(gòu)的上下方兩段以上的 -折疊結(jié)構(gòu)平行排列 ,兩鏈間可順向平行,也可反向平行兩鏈間的肽鍵之間形成氫鍵,以穩(wěn)固 -折疊結(jié)構(gòu)。氫鍵與螺旋長軸垂直。蛋白質(zhì)分子的結(jié)構(gòu) -轉(zhuǎn)角生物基礎(chǔ)含4個氨基酸殘基,第一個殘基的 CO 基團(tuán)和第四個殘基的 NH基團(tuán)之間形成氫鍵,使多肽

6、鏈的方向發(fā)生“U”形改變。蛋白質(zhì)分子的結(jié)構(gòu)超二級結(jié)構(gòu)生物基礎(chǔ)在蛋白質(zhì)分子中,特別是球狀蛋白質(zhì)中,由若干相鄰的二級結(jié)構(gòu)單元(即-螺旋、-折疊和-轉(zhuǎn)角等)彼此相互作用組合在一起,形成有規(guī)則、在空間上能辨認(rèn)的二級結(jié)構(gòu)組合體,充當(dāng)三級結(jié)構(gòu)的構(gòu)件單元,稱超二級結(jié)構(gòu)。蛋白質(zhì)分子的結(jié)構(gòu)蛋白質(zhì)三級結(jié)構(gòu)生物基礎(chǔ)在二級結(jié)構(gòu)基礎(chǔ)上的肽鏈再折疊形成的構(gòu)象。整條肽鏈中全部氨基酸殘基的相對空間位置,即肽鏈中所有原子在三維空間的排布位置。蛋白質(zhì)分子的結(jié)構(gòu)結(jié)構(gòu)域(domain)生物基礎(chǔ)多肽鏈在超二級結(jié)構(gòu)基礎(chǔ)上進(jìn)一步繞曲折疊而成的相對獨(dú)立的三維實(shí)體稱結(jié)構(gòu)域蛋白質(zhì)結(jié)構(gòu)中具有特異結(jié)構(gòu)和獨(dú)立功能的區(qū)域。蛋白質(zhì)分子的結(jié)構(gòu)結(jié)構(gòu)域(dom

7、ain)生物基礎(chǔ)蛋白質(zhì)分子的結(jié)構(gòu)肌紅蛋白的三級結(jié)構(gòu)生物基礎(chǔ)分子中多肽主鏈由長短不等的8段直的螺旋組成最大的螺旋含23個殘基最短的7個殘基,分子中幾乎80%的氨基酸殘基都處于螺旋區(qū)中。拐彎是由18個殘基組成的無規(guī)則卷曲。蛋白質(zhì)分子的結(jié)構(gòu)蛋白質(zhì)四級結(jié)構(gòu)生物基礎(chǔ)每條完整三級結(jié)構(gòu)的多肽鏈,稱為亞基 (subunit)蛋白質(zhì)分子中各亞基的空間排布及亞基接觸部位的布局和相互作用,稱為蛋白質(zhì)的四級結(jié)構(gòu)。Outline生物學(xué)基本知識常用的生物數(shù)據(jù)及數(shù)據(jù)庫處理生物數(shù)據(jù)的基本處理方法生物信息學(xué)數(shù)據(jù)庫Background生物分子數(shù)據(jù)高速增長 分子生物學(xué)及相關(guān)領(lǐng)域研究人員迅速獲得最新實(shí)驗(yàn)數(shù)據(jù) 建立生物分子數(shù)據(jù)庫 生物

8、信息學(xué)數(shù)據(jù)庫Background應(yīng)滿足5個方面的主要需求:(1)時間性(2)注釋 (3)支撐數(shù)據(jù) (4)數(shù)據(jù)質(zhì)量 (5)集成性生物信息學(xué)數(shù)據(jù)庫Background生物信息數(shù)據(jù)庫具備的幾個明顯特征:數(shù)據(jù)庫的更新速度不斷加快數(shù)據(jù)庫使用頻率增長更快數(shù)據(jù)庫的復(fù)雜程度不斷增加 數(shù)據(jù)庫網(wǎng)絡(luò)化 面向應(yīng)用先進(jìn)的軟硬件配置蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫BackgroundPDB ( Protein Data Bank)是目前最主要的蛋白質(zhì)分子結(jié)構(gòu)數(shù)據(jù)庫。1970由美國Brookhaven國家實(shí)驗(yàn)室建立,1988年,由美國RCSB(research collaboratory for structural biology)管理

9、;含有通過實(shí)驗(yàn)(X射線晶體衍射,核磁共振NMR,冷凍電子顯微鏡)測定的生物大分子(蛋白質(zhì)、核酸、糖類、復(fù)合物)的三維結(jié)構(gòu)。以文本格式存放數(shù)據(jù),包括原子坐標(biāo)、物種來源、測定方法、提交者信息、一級結(jié)構(gòu)、二級結(jié)構(gòu)等; 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫BackgroundPDB ( Protein Data Bank)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫BackgroundPDB ( Protein Data Bank)Jan 08, 2013蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫BackgroundPDB的文件格式物種來源、測定方法、提交者信息、蛋白質(zhì)序列 一級結(jié)構(gòu)蛋白質(zhì)二級結(jié)構(gòu)構(gòu)成蛋白質(zhì)的氨基酸的每個原子的三維坐標(biāo)蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫Background

10、SCOP (Structural Classification of Proteins)提供已知結(jié)構(gòu)的蛋白質(zhì)之間結(jié)構(gòu)和進(jìn)化關(guān)系的詳細(xì)描述。按結(jié)構(gòu)和進(jìn)化關(guān)系對蛋白質(zhì)分類,分類結(jié)果是一個具有層次結(jié)構(gòu)的樹,其主要的層次是家族、超家族和折疊:家族:具有明顯的進(jìn)化關(guān)系超家族:具有遠(yuǎn)源進(jìn)化關(guān)系,具有共同的進(jìn)化源折疊類:主要結(jié)構(gòu)相似ROOT(根) CLASS(類) FOLD(折疊) SUPERFAMILY (超家族) FAMILY(家族)PROTEIN(蛋白)SPECIES(種)蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫BackgroundSCOP (Structural Classification of Proteins)蛋

11、白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫BackgroundCATH (Class, Architecture, Topology, Homology)CATH數(shù)據(jù)庫的分類基礎(chǔ)是蛋白質(zhì)結(jié)構(gòu)域。與SCOP不同的是,CATH把蛋白質(zhì)分為4類,即a主類、b主類,a-b類(a/b型和a+b型)和低二級結(jié)構(gòu)類。 類型(Clase):二級結(jié)構(gòu)構(gòu)架(Architecture):超二級結(jié)構(gòu)排列方式拓?fù)浣Y(jié)構(gòu)(Topology):二級結(jié)構(gòu)的形狀和二級結(jié)構(gòu)間的聯(lián)系同源性(Homology):序列同源性O(shè)utline生物學(xué)基本知識常用的生物數(shù)據(jù)及數(shù)據(jù)庫處理生物數(shù)據(jù)的基本處理方法生物數(shù)據(jù)的基本處理方法Method生物信息學(xué)所用的方法和技術(shù):

12、數(shù)學(xué)統(tǒng)計(jì)方法 動態(tài)規(guī)劃方法 機(jī)器學(xué)習(xí)與模式識別技術(shù) 數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘 人工神經(jīng)網(wǎng)絡(luò)技術(shù)分子模型化技術(shù)量子力學(xué)和分子力學(xué)計(jì)算 生物分子的計(jì)算機(jī)模擬因特網(wǎng)(Internet)技術(shù) 生物數(shù)據(jù)的基本處理方法數(shù)學(xué)統(tǒng)計(jì)方法:生物活動常常以大量、重復(fù)的形式出現(xiàn),既受到內(nèi)在因素的制約,又受到外界環(huán)境的隨機(jī)干擾。因此概率論和數(shù)學(xué)統(tǒng)計(jì)是現(xiàn)代生物學(xué)研究中一種常用的分析方法 數(shù)據(jù)統(tǒng)計(jì)、因素分析、多元回歸分析是生物學(xué)研究必備的工具隱馬爾科夫模型(Hidden Markov Models)在序列分析方面有著重要的應(yīng)用。與隱馬爾科夫模型相關(guān)的技術(shù)是馬爾科夫鏈(Markov Chain)數(shù)學(xué)統(tǒng)計(jì)方法Method生物數(shù)據(jù)的

13、基本處理方法2. 動態(tài)規(guī)劃方法 :動態(tài)規(guī)劃(Dynamic Programming)是一種解決多階段決策過程的最優(yōu)化方法或復(fù)雜空間的優(yōu)化搜索方法 動態(tài)規(guī)劃解決問題的基本過程是:將一個問題的全局解分解為局部解,逆序遞推求出局部最優(yōu)解,隨著執(zhí)行過程的推進(jìn),“局部”逐漸接近“全局”,最終獲得全局最優(yōu)解 Method生物數(shù)據(jù)的基本處理方法3. 機(jī)器學(xué)習(xí)與模式識別技術(shù) :機(jī)器學(xué)習(xí):模擬人類的學(xué)習(xí)過程,以計(jì)算機(jī)為工具獲取知識、積累經(jīng)驗(yàn) 遺傳算法采用隨機(jī)搜索方法,具有自適應(yīng)能力和便于并行計(jì)算神經(jīng)網(wǎng)絡(luò)的理論是基于人腦的結(jié)構(gòu),其目的是揭示一個系統(tǒng)是如何向環(huán)境學(xué)習(xí)的,這一種方法被稱為聯(lián)接主義 模式識別:機(jī)器學(xué)習(xí)的

14、一個主要任務(wù)。模式是對感興趣客體定量的或者結(jié)構(gòu)的描述,而模式識別就是利用計(jì)算機(jī)對客體進(jìn)行鑒別,將相同或者相似的客體歸入同種類別中。模式識別主要有兩種方法:根據(jù)對象的統(tǒng)計(jì)特征進(jìn)行識別根據(jù)對象的結(jié)構(gòu)特征進(jìn)行識別Method生物數(shù)據(jù)的基本處理方法3. 機(jī)器學(xué)習(xí)與模式識別技術(shù) :環(huán)境知識庫執(zhí)行反 饋學(xué)習(xí)Method生物數(shù)據(jù)的基本處理方法4.數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘 :數(shù)據(jù)庫技術(shù) 數(shù)據(jù)倉庫 虛擬數(shù)據(jù)庫技術(shù)(Virtual Database,簡稱 VDB) 數(shù)據(jù)挖掘(data mining) 又稱作數(shù)據(jù)庫中的知識發(fā)現(xiàn) (Knowledge Discovery in Database),它是從數(shù)據(jù)庫或數(shù)據(jù)倉庫中

15、發(fā)現(xiàn)并提取隱藏在其中的信息的一種新技術(shù),它能自動分析數(shù)據(jù),對它們進(jìn)行歸納性推理和聯(lián)想,尋找數(shù)據(jù)間內(nèi)在的某些關(guān)聯(lián),從中發(fā)掘出潛在的、對信息預(yù)測和決策行為起著十分重要作用的模式 數(shù)據(jù)挖掘過程一般分為4個基本步驟:數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和結(jié)果分析 Method生物數(shù)據(jù)的基本處理方法5.人工神經(jīng)網(wǎng)絡(luò)技術(shù):人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, 簡稱ANN)是通過模擬神經(jīng)元的特性以及腦的大規(guī)模并行結(jié)構(gòu)、信息的分布式和并行處理等機(jī)制建立的一種數(shù)學(xué)模型 在生物信息學(xué)中,使用得最多的是反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,簡稱BP網(wǎng)

16、)。BP網(wǎng)被認(rèn)為是穩(wěn)定性和魯棒性較強(qiáng)的人工神經(jīng)網(wǎng)絡(luò)之一,而且屬于有監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)模型。標(biāo)準(zhǔn)的BP網(wǎng)由三層神經(jīng)元組成:輸入層、隱藏層和輸出層 Method生物數(shù)據(jù)的基本處理方法5.人工神經(jīng)網(wǎng)絡(luò)技術(shù):輸入層隱藏層輸出層反向傳播神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意Method生物數(shù)據(jù)的基本處理方法6.分子模型化技術(shù):分子模型化(Molecular modeling)是利用計(jì)算機(jī)模擬分子結(jié)構(gòu)、研究分子之間相互作用的一種技術(shù)分子模型化是進(jìn)行分子設(shè)計(jì)的基礎(chǔ)。分子圖形學(xué)(Molecular Graphics)是進(jìn)行分子模型化的一項(xiàng)重要技術(shù),正是由于分子圖形學(xué)和其它計(jì)算化學(xué)方法(如分子力學(xué)、分子動力學(xué))的相互結(jié)合,才使得分子模型

17、化方法取得成功Method生物數(shù)據(jù)的基本處理方法7.量子力學(xué)和分子力學(xué)計(jì)算:量子力學(xué)主要研究原子、分子、凝聚態(tài)物質(zhì)、以及原子核和基本粒子的結(jié)構(gòu)、性質(zhì)的基礎(chǔ)理論,在化學(xué)等有關(guān)學(xué)科中得到了廣泛的應(yīng)用 分子力學(xué)(Molecular Mechanics)方法是一種非量子力學(xué)的計(jì)算分子結(jié)構(gòu)、能量與性質(zhì)的方法,該方法應(yīng)用經(jīng)驗(yàn)勢能函數(shù),即經(jīng)驗(yàn)力場方法模擬分子的結(jié)構(gòu),計(jì)算分子的性質(zhì) 在進(jìn)行分子結(jié)構(gòu)分析、構(gòu)象優(yōu)化、分子間相互作用研究及分子模擬時需要應(yīng)用量子力學(xué)或分子力學(xué) Method生物數(shù)據(jù)的基本處理方法8.生物分子的計(jì)算機(jī)模擬:所謂生物分子的計(jì)算機(jī)模擬就是從分子或者原子水平上的相互作用出發(fā),建立分子體系的數(shù)學(xué)模型,利用計(jì)算機(jī)進(jìn)行模擬實(shí)驗(yàn),預(yù)測生物分子的結(jié)構(gòu)和功能,預(yù)測動力學(xué)及熱力學(xué)等方面的性質(zhì)分子動力學(xué)和蒙特卡羅(Monte Carlo)方法是兩種最常用的技術(shù),另一種模擬方法是模擬退火方法 實(shí) 驗(yàn)實(shí)驗(yàn)現(xiàn)象

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論