基于神經(jīng)網(wǎng)絡(luò)與遺傳算法的蛋白質(zhì)結(jié)構(gòu)的研究匯總_第1頁(yè)
基于神經(jīng)網(wǎng)絡(luò)與遺傳算法的蛋白質(zhì)結(jié)構(gòu)的研究匯總_第2頁(yè)
基于神經(jīng)網(wǎng)絡(luò)與遺傳算法的蛋白質(zhì)結(jié)構(gòu)的研究匯總_第3頁(yè)
基于神經(jīng)網(wǎng)絡(luò)與遺傳算法的蛋白質(zhì)結(jié)構(gòu)的研究匯總_第4頁(yè)
基于神經(jīng)網(wǎng)絡(luò)與遺傳算法的蛋白質(zhì)結(jié)構(gòu)的研究匯總_第5頁(yè)
已閱讀5頁(yè),還剩80頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、華中科技大學(xué)碩士學(xué)位論文基于神經(jīng)網(wǎng)絡(luò)與遺傳算法的蛋白質(zhì)結(jié)構(gòu)的研究姓名:王華偉申請(qǐng)學(xué)位級(jí)別:碩士專(zhuān)業(yè):系統(tǒng)工程指導(dǎo)教師:許進(jìn)2003.4.8華中科技大學(xué)碩士學(xué)位論文本文研究了神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)和用遺傳算法來(lái)進(jìn)行蛋白質(zhì)折疊模擬 的各種模型,并且在前人的基礎(chǔ)上對(duì)這些算法進(jìn)行了一定改進(jìn)。首先,對(duì)于本文的立論、研究目的和研究意義進(jìn)行了論述。綜述了蛋白質(zhì)結(jié)構(gòu) 預(yù)測(cè)問(wèn)題的研究概況和用神經(jīng)網(wǎng)絡(luò)和遺傳算法進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的各種研究模型 和方法。(蛋白質(zhì)折疊問(wèn)題是當(dāng)今生物研究的重要課題,通過(guò)對(duì)已知空間結(jié)構(gòu)的蛋白質(zhì)分 子的研究和分析,人們發(fā)現(xiàn)盡管一條多肽鏈可能采取的構(gòu)象數(shù)目是相當(dāng)大的,但是 在蛋白質(zhì)分子中

2、,由二級(jí)結(jié)構(gòu)組裝而形成一定的空間結(jié)構(gòu)的方式卻是有限的。因此, 蛋白質(zhì)的二級(jí)結(jié)構(gòu)預(yù)測(cè)就成為解決由蛋白質(zhì)的一級(jí)序列預(yù)測(cè)其空間結(jié)構(gòu)這一問(wèn)題的 最關(guān)鍵的步驟。人們已經(jīng)用很多方法探索過(guò)這個(gè)問(wèn)題。用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白質(zhì)二級(jí) 結(jié)構(gòu)是在1988年提出的,對(duì)預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的三種狀態(tài):螺旋、折疊和卷曲預(yù)測(cè)總的正確率與之前的其他各種方法比較,正確率是比較高,。一本文將對(duì)原有的利用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的方法進(jìn)行改進(jìn),考慮距離對(duì)結(jié)構(gòu)的影響,從神經(jīng)網(wǎng)絡(luò)的輸入層著手,添加反映殘基和預(yù)測(cè)中心位置距離的單 元。i(早在50年代anfmsen等人就已用實(shí)驗(yàn)證明:某些蛋白質(zhì)在體外的一定條件下解 聚失活后可以自動(dòng)折疊而恢復(fù)其

3、原有高級(jí)結(jié)構(gòu)與活性。這就意味著蛋白質(zhì)折疊的全 部信息蘊(yùn)藏在蛋白質(zhì)的一級(jí)結(jié)構(gòu)中。蛋白質(zhì)一級(jí)結(jié)構(gòu)決定其高級(jí)結(jié)構(gòu)是用各種方法 來(lái)進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的理論基礎(chǔ)。l/二本文也對(duì)蛋白質(zhì)二維折疊模擬作了探討。在利用monte-carl。方法和單純遺傳算法對(duì)二維晶格模型作模擬計(jì)算的基礎(chǔ)上,研究了適用于蛋白質(zhì)二維折疊模擬的混合 遺傳算法。而且為了改進(jìn)蛋白質(zhì)折疊模擬,采取一種新的基于遺傳算法的系統(tǒng)交叉 構(gòu)象搜索方法。關(guān)鍵詞:蛋白質(zhì)二級(jí)結(jié)構(gòu),蛋白質(zhì)折疊;神經(jīng)網(wǎng)絡(luò)$ 卷遺傳算法, - - - , 一r _abstracta research is made in this dissertation about som

4、e models of neural network for protein secondary structure prediction and genetic algorithms fbr protein folding simulations, and improved some models base on the others research.in the first, the theme, aim and meaning of the research are clarified. a survey is presented on protein structure predic

5、tion problem and all the method about protein structure prediction using neural network and genetic algorithms.protein folding problem is an important problem in biology research today through researching and analyzing the protein molecule that has known the space structure, people found that despit

6、e the large number of possible conformations of a amino acid sequence, but in a protein molecule, the means of assembling and forming the space structure from secondary structure are limited. then protein secondary structure prediction becomes tlie most important step of predicting the space conform

7、ation from protein molecule. people have researched this problem in many ways. in 1988, neural network have been employed fbr protein secondary structure prediction. for predicting the protein secondary structure such as helix, sheet and coil it is found that the neural network is superior to other

8、methods.in this dissertation, the traditional neural network for protein secondary structure prediction is improved. considering the influence of distance, commencing with input layer of neural network, a unit is added to reflect the distance between residues and the predicting centerin the 1950s, i

9、t was proved by anfinsen that some polymerized and inactivity protein in some condition could be folded automatically and restore the original structure and activity it means that all the information of protein folding consist in the amino acid sequence. the amino acid sequence determining its senio

10、r structure is theoretical basis of various methods applying to protein structure prediction.a research on the protein two-dimensional folding is also made in this dissertation-based on the method of monte-carlo and simple genetic algorithms for protein folding on two-dimensional lattice model, a me

11、thod of hybrid genetic algorithms for protein folding is researched, lb improve the protein folding simulation, i investigated a new search strategy in combination with the simple genetic algorithms, which is named systematic crossover.keywords: protein secondary structure protein folding neural net

12、workhybrid genetic algorithm two-dimension lattice model search strategyin1緒論摘要 本章將給出本文立論的來(lái)源、目的和意義,介紹蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題的研究概況,特別是基于神經(jīng)網(wǎng)絡(luò)與遺傳算法的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的研究進(jìn)展,并介紹 全文研究的內(nèi)容和結(jié)構(gòu)安排。1.1蛋白質(zhì)結(jié)構(gòu)研究的意義20世紀(jì)生命科學(xué)的巨大進(jìn)展在于基本完成了從對(duì)生命現(xiàn)象的外觀描述逐步進(jìn)入 到認(rèn)識(shí)生命現(xiàn)象本質(zhì)的轉(zhuǎn)變,這是人類(lèi)認(rèn)識(shí)自然以及認(rèn)識(shí)自我的一大飛躍。這一轉(zhuǎn) 變是數(shù)理科學(xué)廣泛而深入地滲入生物學(xué)的結(jié)果,其標(biāo)志是50年代初運(yùn)用x射線(xiàn)衍射 技術(shù)探明了生命遺傳物質(zhì)脫氧核糖

13、核酸(dna)分子的空間結(jié)構(gòu),即雙螺旋結(jié)構(gòu)。dna雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)闡明了遺傳的本質(zhì),揭示了生物體世代相傳現(xiàn)象的分子基礎(chǔ),從 現(xiàn)是經(jīng)典生物學(xué)轉(zhuǎn)變成近代生物學(xué)的里程碑。盡管自然界的生物物種千千萬(wàn)萬(wàn),生 命現(xiàn)象繁雜紛飛,在分子水平研究生命,使我們認(rèn)識(shí)到各種生命現(xiàn)象的基本原理卻 是高度一致的!從最簡(jiǎn)單的單細(xì)胞生物到最高等的人類(lèi),它們最基本最重要的組成 物質(zhì)都是蛋白質(zhì)和核酸。核酸是生物體遺傳信息的攜帶者,所有生物體能世代相傳, 就是依靠核酸分子可以精確復(fù)制的性質(zhì)。蛋白質(zhì)則是生命活動(dòng)的主要承擔(dān)者。所有 的生命活動(dòng),呼吸、運(yùn)動(dòng)、消化、甚至感知、思維和學(xué)習(xí),無(wú)一例外是依靠蛋白質(zhì) 來(lái)完成的陽(yáng)。而開(kāi)創(chuàng)了在分子水平

14、上認(rèn)識(shí)生命現(xiàn)象的新學(xué)科分子生物學(xué)”司。分子生物學(xué)的出二十世紀(jì)生物學(xué)領(lǐng)域最重要的成就之一,是繼dna雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)總結(jié)出分子生物學(xué)的中心法則,揭示生命遺傳信息傳遞的方向和途徑。近半個(gè)世紀(jì)以來(lái)對(duì)闡 明中心法則有關(guān)問(wèn)題有杰出貢獻(xiàn)而獲得諾貝爾獎(jiǎng)的學(xué)者先后多達(dá)34位。分子生物學(xué) 的中心法則簡(jiǎn)單表達(dá)如下(圖l1):分子生物學(xué)的中心法則中,dna和核糖核酸 (rna)的復(fù)制、dna轉(zhuǎn)錄成rna、rna逆轉(zhuǎn)錄成dna以及以信使rna為模板 翻譯成多肽鏈的過(guò)程和機(jī)制基本上已經(jīng)闡明?,F(xiàn)在的問(wèn)題是,這一過(guò)程是怎樣得 到調(diào)節(jié)控制以適應(yīng)生物體在不同發(fā)育階段和不同環(huán)境下的需要的。這不但是細(xì)胞發(fā)育分化的基礎(chǔ),也和生物體與

15、各種環(huán)境因素的相互作用有密切關(guān)系。另一個(gè)問(wèn)題是, 蛋白質(zhì)分子除有一定的氨基酸順序外,還必須有一定的空間結(jié)構(gòu)才能體現(xiàn)其生物功 能。因此,在核糖體上合成出來(lái)具有一定氨基酸順序排列的多肽鏈,也就是新生肽, 怎樣生成有一定空間結(jié)構(gòu)的蛋白質(zhì),即新生肽鏈的折疊問(wèn)題,也是屬于分子生物學(xué) 中心法則范疇但目前還沒(méi)有解決的問(wèn)題。當(dāng)前,通過(guò)遺傳工程或蛋白工程得到的多 肽鏈不能自發(fā)折疊卷曲生成有一定空間結(jié)構(gòu)并具有完整生物功能的蛋白質(zhì)。蛋白質(zhì) 的三維空間結(jié)構(gòu)異常,就會(huì)產(chǎn)生各種“折疊病”。瘋牛病、老年性癡呆癥、囊性纖維 病變、家族性高膽固醇癥、家族性淀粉樣蛋白癥、某些腫瘤、白內(nèi)障等等都是“折 疊病”。這種三維空間結(jié)構(gòu)異常

16、是由于致病蛋白質(zhì)分子通過(guò)分子間作用感染正常蛋白 質(zhì)而造成的。致病蛋白質(zhì)分子與正常蛋白質(zhì)分子的構(gòu)成完全相同,只是空間結(jié)構(gòu)不 同。基因突變?cè)斐傻鞍踪|(zhì)分子中僅僅一個(gè)氨基酸殘基的變化就會(huì)引起疾病,即所謂“分子病”,如地中海鐮刀狀紅血球貧血癥就是因?yàn)檠t蛋白分子中第六位的谷氨酸 突變成了頡氨酸。現(xiàn)在發(fā)現(xiàn)蛋白質(zhì)分子的氨基酸序列沒(méi)有改變,只是其結(jié)構(gòu)或者說(shuō) 構(gòu)象有所改變。因此,研究蛋白質(zhì)的折疊問(wèn)題不僅具有重大的科學(xué)意義,而且在醫(yī) 學(xué)和在生物工程領(lǐng)域具有極大的應(yīng)用價(jià)值。除此之外,在生物工程上也有極大的應(yīng)轉(zhuǎn)錄反轉(zhuǎn)錄翻譯用價(jià)值26-叫基因工程和蛋白工程已經(jīng)逐漸發(fā)展成為產(chǎn)值以數(shù)十億美元計(jì)的大產(chǎn)業(yè), 進(jìn)入21世紀(jì)后,還

17、將會(huì)有更大的發(fā)展。但是當(dāng)前經(jīng)常遇到的困難,是在簡(jiǎn)單的微生 物細(xì)胞內(nèi)引入異體dna后所合成的多肽鏈往往不能正確折疊成為有生物活性的蛋 白質(zhì)而形成不溶解的包含體或被降解。這一“瓶頸”問(wèn)題的徹底解決有待于對(duì)新生肽 鏈折疊更多的認(rèn)識(shí)。dna蛋白質(zhì)圖1.1遺傳信息的中心法則l2關(guān)于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題的研究概況蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)主要問(wèn)題是:如何根據(jù)蛋白質(zhì)的氨基酸組成和順序預(yù)測(cè)蛋白質(zhì) 華中科技大學(xué)碩士學(xué)位論文的折疊類(lèi)型,如何根據(jù)一個(gè)多肽鏈的氨基酸順序預(yù)測(cè)其二級(jí)結(jié)構(gòu),不同的二級(jí)結(jié)構(gòu) 又組成特定的三級(jí)結(jié)構(gòu),亞基又組裝成完整分子。蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的理論預(yù)測(cè)方法 可分為三大類(lèi),比較建模法,反向折疊法和從頭預(yù)測(cè)法。比較建模

18、法主要是同源結(jié)構(gòu)預(yù)測(cè)。反向折疊法是把未知蛋白質(zhì)的序列和已知的這種結(jié)構(gòu)進(jìn)行匹配,找出一種 或幾種匹配最好的結(jié)構(gòu)作為未知蛋白質(zhì)的預(yù)測(cè)結(jié)構(gòu),它的局限性是假定的蛋白質(zhì)折 疊類(lèi)型是有限的。從頭預(yù)測(cè)法是根據(jù)蛋白質(zhì)的氨基酸序列來(lái)預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu) 和高級(jí)結(jié)構(gòu)。從頭預(yù)測(cè)法又分為以下幾種:二級(jí)結(jié)構(gòu)預(yù)測(cè)、超二級(jí)結(jié)構(gòu)預(yù)測(cè)、結(jié)構(gòu) 類(lèi)型的預(yù)測(cè)、三級(jí)結(jié)構(gòu)的預(yù)測(cè)等值3盡管一條多肽鏈的能采取的構(gòu)象的數(shù)目是相當(dāng)大的,但在蛋白質(zhì)分子中,由二 級(jí)結(jié)構(gòu)組裝而形成一定的空間結(jié)構(gòu)的方式卻是有限的,因此蛋白質(zhì)的二級(jí)結(jié)構(gòu)預(yù)測(cè) 就成為解決蛋白質(zhì)的一級(jí)序列預(yù)測(cè)其空間結(jié)構(gòu)這一問(wèn)題的最關(guān)鍵的步驟。二級(jí)結(jié)構(gòu) 預(yù)測(cè)成功率可以達(dá)到80%的話(huà),就可以基本

19、準(zhǔn)確的預(yù)測(cè)一個(gè)蛋白質(zhì)分子的三維結(jié)構(gòu)。以前幾乎所有這些預(yù)測(cè)蛋白質(zhì)三級(jí)結(jié)構(gòu)的方法都假定蛋白質(zhì)的二級(jí)結(jié)構(gòu)主要是由鄰 近殘基間的短程相互作用所決定的,然后通過(guò)對(duì)一些已知空間結(jié)構(gòu)的蛋白質(zhì)分子進(jìn) 行分析,歸納,制定出一套預(yù)測(cè)規(guī)則,并根據(jù)這些規(guī)則對(duì)其他一致或未知結(jié)構(gòu)的蛋 白質(zhì)分子的二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測(cè),這些都可以歸類(lèi)于已有知識(shí)的預(yù)測(cè)方法。有三種常 用的二級(jí)結(jié)構(gòu)預(yù)測(cè)的方法,chou-fasman方法,gor方法和lim方法。choufasman 方法是統(tǒng)計(jì)學(xué)的方法,統(tǒng)計(jì)出20種氨基酸出現(xiàn)在a螺旋,力折疊,以及無(wú)規(guī)卷曲三 種構(gòu)象中的頻率然后計(jì)算出每種氨基酸出現(xiàn)在上述三種構(gòu)象中的構(gòu)象參數(shù)外,某個(gè) 殘基的構(gòu)象參數(shù)定義為

20、凡毛)/(乃(x=a螺旋,尸折疊,無(wú)視卷曲)其中/) 為整個(gè)數(shù)據(jù)庫(kù)中構(gòu)象x出現(xiàn)的頻率,八%)位殘基i中x出現(xiàn)的頻率。構(gòu)象參數(shù)值得 大小反映了該種殘基出現(xiàn)在某一構(gòu)象傾向性的大小,chou和fasman制定出一套a螺 旋的成核延伸和終止規(guī)則,用于對(duì)一個(gè)已知序列的多肽鏈進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)。此方 法的優(yōu)點(diǎn)是構(gòu)象參數(shù)的物理意義明確,方法中二級(jí)結(jié)構(gòu)的成核,延伸和中止規(guī)則可 能正確的反映了真實(shí)蛋白質(zhì)中二級(jí)結(jié)構(gòu)形成的過(guò)程。此方法簡(jiǎn)便,但是成功率僅為50%,是最低的預(yù)測(cè)方法。gor方法是以信息論為基礎(chǔ)的,本質(zhì)仍屬于統(tǒng)計(jì)學(xué)的方 法。這種方法不僅考慮了被預(yù)測(cè)位置本身氨基酸殘基種類(lèi)的影響,而且考慮了相鄰 殘基種類(lèi)對(duì)該位

21、置構(gòu)象的影響。假定相鄰片斷所含的信息可以近似表示為若干個(gè)直 接信息量的簡(jiǎn)單相加,根據(jù)這一公式和相應(yīng)的直接信息量表,就可以對(duì)一條肽鏈中 任意位置殘基的構(gòu)象進(jìn)行預(yù)測(cè)。預(yù)測(cè)的成功率可以達(dá)到63%0這種方法的優(yōu)點(diǎn)是物 理意義清楚明確,數(shù)學(xué)上比較嚴(yán)格,很容易寫(xiě)出相應(yīng)的計(jì)算機(jī)程序,但是表達(dá)式復(fù) 雜。lim方法是物理化學(xué)的方法。它考慮了氨基酸殘基的物理和化學(xué)性質(zhì),如親水 性,疏水性,帶電性以及體積大小,同時(shí)考慮了鄰近殘基間的相互作用,從而制定 出一套預(yù)測(cè)規(guī)則。lim方法是這三種方法中預(yù)測(cè)成功率最高的,對(duì)無(wú)規(guī)則卷曲的預(yù) 測(cè)過(guò)多,對(duì)b折疊預(yù)測(cè)不足。對(duì)于序列長(zhǎng)度小于50個(gè)氨基酸殘基的多肽鏈,其預(yù)測(cè) 準(zhǔn)確率高達(dá)73

22、%。經(jīng)常使用的二級(jí)結(jié)構(gòu)預(yù)測(cè)方法還有cohen方法,模式識(shí)別,神經(jīng) 網(wǎng)絡(luò)方法川叫超二級(jí)結(jié)構(gòu)預(yù)測(cè)是比二級(jí)結(jié)構(gòu)的結(jié)構(gòu)層次更高的結(jié)構(gòu)預(yù)測(cè),它實(shí)際上己經(jīng)是局 域的空間結(jié)構(gòu)預(yù)測(cè)問(wèn)題。蛋白質(zhì)結(jié)構(gòu)類(lèi)型的預(yù)測(cè)是指預(yù)測(cè)未知蛋白質(zhì)的結(jié)構(gòu)屬于全a蛋白質(zhì)(主要由螺旋組成的蛋白質(zhì)),全月類(lèi)蛋白質(zhì)(主要由折疊組成的蛋白質(zhì)),還是a/2類(lèi)(由a螺旋和折疊交替排列組成的蛋白質(zhì)),或a+夕類(lèi)(由分開(kāi)的a螺旋和折疊組成,其中折疊一般為平行結(jié)構(gòu))。結(jié)構(gòu)類(lèi)型預(yù)測(cè)出可以讓人們了解蛋白質(zhì)結(jié)構(gòu)折疊的 大致情況外,對(duì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)也很有幫助【。蛋白質(zhì)的三維結(jié)構(gòu)預(yù)測(cè)主要分為兩個(gè)大的方向:一是根據(jù)二級(jí)結(jié)構(gòu)預(yù)測(cè)的結(jié)果以及蛋白質(zhì)結(jié)構(gòu)類(lèi)型和折疊類(lèi)型預(yù)測(cè)

23、的結(jié)果,考慮到結(jié)構(gòu)間的立體化學(xué)性質(zhì),親疏 水性質(zhì),氫鍵以及靜電相互作用,把可信度較高的二級(jí)結(jié)構(gòu)進(jìn)一步組裝,搭建出最 后的蛋白質(zhì)空間結(jié)構(gòu)。二是不依賴(lài)二級(jí)結(jié)構(gòu)預(yù)測(cè)的結(jié)果,直接預(yù)測(cè)三維結(jié)構(gòu)的方法。最原始的方法是借用成功的應(yīng)用小分子構(gòu)象研究的分子動(dòng)力學(xué)和分子熱力學(xué)方法。對(duì)整個(gè)構(gòu)象空間進(jìn)行搜索,然后找出能量最低的構(gòu)象作為最后的預(yù)測(cè)構(gòu)象?,F(xiàn)在三 維結(jié)構(gòu)預(yù)測(cè)已經(jīng)轉(zhuǎn)變?yōu)槿绾斡行У乃阉鳂?gòu)象空間和如何區(qū)分天然結(jié)構(gòu)和錯(cuò)誤結(jié)構(gòu)的 問(wèn)題。在構(gòu)象搜索空間方面,現(xiàn)在主要的發(fā)展有兩個(gè)方向:一是把常規(guī)的構(gòu)象搜索 技術(shù)和根據(jù)蛋白質(zhì)結(jié)構(gòu)特點(diǎn)相結(jié)合的算法。如系統(tǒng)搜索算法,monto-carlo方法,遺 傳算法,模擬退火方法,晶格模型

24、,限制空間搜索。二是對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行合理的 簡(jiǎn)化 口9一28。5華中科技大學(xué)碩士學(xué)位論文1.3 基于神經(jīng)網(wǎng)絡(luò)與遺傳算法的蛋白質(zhì)二級(jí)結(jié)構(gòu)的研究進(jìn)展目前,有關(guān)蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)可由一些數(shù)據(jù)庫(kù)提供,這些數(shù)據(jù)包括x射線(xiàn)及 nmr測(cè)試結(jié)果。在結(jié)構(gòu)數(shù)據(jù)的基礎(chǔ)上,采用人工神經(jīng)網(wǎng)絡(luò)可對(duì)蛋白質(zhì)的模式或特征進(jìn)行預(yù)測(cè)。先驅(qū)工作是qian和scjnowski對(duì)二級(jí)結(jié)構(gòu)的預(yù)測(cè),其后的研究就很快開(kāi) 展起來(lái)了。用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的方法主要是根據(jù)構(gòu)成蛋白質(zhì)的氨基酸 種類(lèi)及其排列順序來(lái)判斷蛋白質(zhì)的二級(jí)結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的典型 結(jié)構(gòu)為三層,即輸入層、隱蔽層和輸出層。運(yùn)用這類(lèi)神經(jīng)網(wǎng)結(jié)構(gòu),80年代后期其預(yù) 測(cè)準(zhǔn)

25、確率僅達(dá)64%。后來(lái)人們?cè)噲D改善神經(jīng)網(wǎng)絡(luò)的性能,如除了氨基酸的組成外, 同時(shí)引入其它物理化學(xué)性質(zhì),如疏水性等。還有人運(yùn)用二神經(jīng)網(wǎng)絡(luò),即第一神經(jīng)網(wǎng) 絡(luò)的輸出作為第二神經(jīng)網(wǎng)絡(luò)的輸入以期改進(jìn)所得結(jié)果收3%過(guò)去幾年中,用遺傳算法進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)也作了許多研究工作。盡管如此, 由于這個(gè)方法可以應(yīng)用于不同層次的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),而且,從不同評(píng)估函數(shù)的效 率來(lái)區(qū)別搜索性質(zhì)也存在一定困難,因此,建立實(shí)用的遺傳算法的進(jìn)展開(kāi)始變得緩 慢起來(lái)未】。casp(critical assessment of structure prediction)是上一個(gè)大型蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)評(píng)比活動(dòng)(http:predictioncec

26、ter.llnl.eov/),它代表著蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的世界前沿水 平。1994年由馬里蘭大學(xué)生物技術(shù)研究所的john moult等倡議組織了第一次casp, 此后每?jī)赡昱e辦一次。組織者將這一活動(dòng)作為一種大規(guī)模的實(shí)驗(yàn),旨在對(duì)當(dāng)時(shí)的蛋 白質(zhì)結(jié)構(gòu)預(yù)測(cè)技術(shù)水平有一個(gè)深入客觀的了解,掌握當(dāng)前的方法能夠做什么,存在 的困難以及將來(lái)的發(fā)展方向。casp主要包括三部分內(nèi)容:目標(biāo)蛋白質(zhì)序列的收集, 來(lái)自結(jié)構(gòu)測(cè)定者提供的屆時(shí)將完成x射線(xiàn)晶體結(jié)構(gòu)或nmr結(jié)構(gòu)測(cè)定的蛋白質(zhì),或 者是己經(jīng)測(cè)定但還沒(méi)有公布的蛋白質(zhì)。由于目標(biāo)蛋白質(zhì)的結(jié)構(gòu)是未知的,所以實(shí)驗(yàn) 是全盲預(yù)測(cè)。蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型的收集。對(duì)于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的工

27、作者來(lái) 說(shuō)。這是一次預(yù)測(cè)技術(shù)競(jìng)賽,它對(duì)所有人開(kāi)放,世界各地的參賽者可以從互聯(lián)網(wǎng)上 注冊(cè),獲取目標(biāo)蛋白質(zhì)序列和提交預(yù)測(cè)模型。1994年的casp1有35個(gè)參賽組提交 了 135個(gè)預(yù)測(cè)模型,發(fā)展到2000年的casp4已經(jīng)上升到160個(gè)參賽組提交了 11000 多個(gè)預(yù)測(cè)模型。蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型及方法的評(píng)估,組織會(huì)議公布和討論結(jié)果。 由于在casp中所提交的很多預(yù)測(cè)模型,尤其是比較好的預(yù)測(cè)模型很大程度上依賴(lài) 華中科技大學(xué)碩士學(xué)位論文于專(zhuān)家知識(shí)的參與,而要處理那些迅速增長(zhǎng)的基因組序列,要求快速而且自動(dòng)化的 預(yù)測(cè)方法,所以 fischer (http:www.cs.bgu.ac.il/dfscher/c

28、afasp2)等組織了 cafasp (critical assessment of fully automated structure prediction),對(duì)完全自動(dòng)化的蛋白質(zhì)結(jié) 構(gòu)預(yù)測(cè)方法進(jìn)行評(píng)價(jià),cafasp2已經(jīng)成為casp4的一個(gè)組成部分四】。1.4 本文研究?jī)?nèi)容介紹本文的主要目的是利用一些智能化的優(yōu)化方法來(lái)研究蛋白質(zhì)的二級(jí)結(jié)構(gòu)預(yù)測(cè)。研究蛋白質(zhì)的折疊問(wèn)題不僅具有重大的科學(xué)意義,而且在醫(yī)學(xué)和在生物工程領(lǐng)域具 有極大的應(yīng)用價(jià)值。本文在前人的基礎(chǔ)上,對(duì)用人工神經(jīng)網(wǎng)絡(luò)、遺傳算法預(yù)測(cè)蛋白 質(zhì)二級(jí)結(jié)構(gòu)的算法進(jìn)行了研究。首先,在第二章,我們研究了蛋白質(zhì),和蛋白質(zhì)的 二級(jí)結(jié)構(gòu),介紹了人工神經(jīng)網(wǎng)絡(luò)

29、和遺傳算法的基本概念,工作原理,和實(shí)施步驟。對(duì)人工神經(jīng)網(wǎng)絡(luò)和遺傳算法有了比較深入的了解。然后在第三章,我們?cè)谇叭怂?的工作的基礎(chǔ)上,對(duì)常規(guī)的人工神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了改進(jìn),考慮了蛋白質(zhì)二級(jí)結(jié)構(gòu) 預(yù)測(cè)的時(shí)候其相鄰殘基的影響作用,然后用這種方法對(duì)已知的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)中 的一些結(jié)構(gòu)數(shù)據(jù)進(jìn)行了預(yù)測(cè)。在第四章,我們對(duì)遺傳算法在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)中 的應(yīng)用進(jìn)行了研究。最后一章是全文的總結(jié),總結(jié)了本文中的人工神經(jīng)網(wǎng)絡(luò)算法和 遺傳算法在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)中的成功率,并且對(duì)這些算法在應(yīng)用在蛋白質(zhì)結(jié)構(gòu) 預(yù)測(cè)中進(jìn)行了展望。6華中科技大學(xué)碩士學(xué)位論文2蛋白質(zhì)結(jié)構(gòu)與蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)2.1蛋白質(zhì)結(jié)構(gòu)蛋白質(zhì)是一種生物大分子,

30、是生命活動(dòng)的主要承擔(dān)者,一切生命活動(dòng)都與蛋白 質(zhì)有關(guān)。有機(jī)界中蛋白質(zhì)種類(lèi)數(shù)在10210數(shù)量級(jí)。盡管如此,從細(xì)菌到人類(lèi)的所 有物種的蛋白質(zhì)主要由20種常見(jiàn)氨基酸組成。它們都有一個(gè)中心a-/原子(q), ,與一個(gè)氫原子(h), 一個(gè)氨基(nh.、一個(gè)瘦基(cooh)和一個(gè)被稱(chēng)為側(cè) 鏈的r基團(tuán)相連。20種氨基酸的差別在于與相連的側(cè)鏈基團(tuán)我的不同。圖2.1氮基酸分子結(jié)構(gòu)在蛋白質(zhì)分子中,一個(gè)氨基酸的a-蝮基與另一個(gè)氨基酸的a-氨基縮合脫去一分 子水而形成酰氨鍵(也成肽鍵)。多個(gè)氨基酸由肽鍵相連形成多肽鏈,它是一個(gè)沒(méi)有 分支的鏈。多肽鏈中由一個(gè)氨基,一個(gè)a-碳原子以及一個(gè)瘦基(c =。)的重復(fù)單 位構(gòu)成主

31、鏈,也成為骨架;與相連的r基團(tuán)稱(chēng)為側(cè)鏈;主鏈中從氨基的氮原子(n) 到埃基的碳原子(c)的一個(gè)單位成為殘基。多肽鏈的構(gòu)造單位兩端不同,因此, 多肽鏈有方向,一般按n為起始端,向c端延伸。多肽鏈的氨基酸序列是從氨基端 殘基開(kāi)始的。蛋白質(zhì)中氨基酸殘基的排列次序成為蛋白質(zhì)的一級(jí)結(jié)構(gòu),它由帶有遺 傳信息的rna序列的三聯(lián)密碼決定。肽鏈中從一個(gè)a-碳原子到相鄰a-碳原子之間 的結(jié)構(gòu)成為肽單位。a-碳原子與銀基之間形成純碎的單鍵,可以自由轉(zhuǎn)動(dòng),用”表 示。a-碳原子與氮原子間也是可以自由轉(zhuǎn)動(dòng)的單鍵,用伊表示。如果蛋白質(zhì)中每個(gè)華中科技大學(xué) 碩士學(xué) 位論文rr2卜卜| | u0 i,jhk -chco oh

32、+h hn ch80k二 坨n 一3一conh-ph-cooh圖2.2肽鍵的形成h2n chconh ch-co-nh chco- nh ch-co-nh- ch- cooh,基末段基末常留2.3多肽鏈結(jié)構(gòu)氨基酸殘基的“、3角已知,多肽鏈的構(gòu)象就完全確定。在本文中,我們表示20種 氨基酸的方法是通過(guò)簡(jiǎn)寫(xiě)符號(hào)表示的。下表中,列出了 20種氨基酸的簡(jiǎn)寫(xiě)符號(hào)。表1氨基酸的簡(jiǎn)寫(xiě)符號(hào)名稱(chēng)三字母 游單?母胞名稱(chēng)m母 灣單?母 濤(alarire)alaaoeucme)leul(agiwie)aigrbsk(aaragre)asnn38 (mefticnine)mam天冬氨酸apertcxid)aspdha

33、afarire)phef半膚氨酸(cysteire)cpiop(gjutarine)ghq(serine)sersmj (gjutanicacid)que另差酸(threonine)hrtttw(gfcre)gtyg(tryffcjhan)lipw組氨酸(hstidre)(&hs88qk (tyrosine)立y(fiohuone)lei燧酸(voire)mdv2.1.1蛋白質(zhì)的二級(jí)結(jié)構(gòu)蛋白質(zhì)是在水溶液的環(huán)境中行使其生物功能,為減小其疏水側(cè)鏈與水介質(zhì)的相 互作用,蛋白質(zhì)形成空間結(jié)構(gòu)必須遵循的重要原則是:將疏水側(cè)掛埋入分子內(nèi)部, 將親水側(cè)鏈暴露在表面。自然界在進(jìn)化過(guò)程中,選擇的策略是在分子內(nèi)部形

34、成二級(jí)華中科技大學(xué)碩士學(xué)位論文一 _ l 15%,夕力15%,并且多數(shù)(多于60%)折登鏈平行 排列。華中科技大學(xué)碩上學(xué)位論文2.1.3 蛋白質(zhì)的三級(jí)結(jié)構(gòu)和結(jié)構(gòu)域在肽鏈局部的肽段形成二級(jí)結(jié)構(gòu)以及它們之間進(jìn)一步相互作用成為超二級(jí)結(jié)構(gòu) 后仍有一些肽段中的單鍵在不斷的運(yùn)動(dòng)旋轉(zhuǎn),臺(tái)聯(lián)中的各個(gè)部分,包括已經(jīng)相對(duì)穩(wěn) 定的超二級(jí)結(jié)構(gòu)以及還未鍵合的部分,繼續(xù)相互作用,使整個(gè)肽段的內(nèi)能進(jìn)一步降 低,分子變得更為穩(wěn)定。由二級(jí)結(jié)構(gòu)向三級(jí)結(jié)構(gòu)過(guò)渡的過(guò)程中,目前認(rèn)為有一種成 為熔球態(tài)的中間狀態(tài)。在熔球態(tài)中,一些二級(jí)結(jié)構(gòu)的構(gòu)象單元已形成一定方式的立 體結(jié)構(gòu),但是和天然的構(gòu)象還不盡相同,經(jīng)過(guò)適當(dāng)?shù)恼{(diào)整后,才轉(zhuǎn)變成為具有生物

35、 功能的立體結(jié)構(gòu)。蛋白質(zhì)結(jié)構(gòu)就過(guò)渡到了更高的層次,三級(jí)結(jié)構(gòu)。三級(jí)結(jié)構(gòu)可以定 義為,蛋白質(zhì)的肽鏈中所由肽鍵和殘基間的相對(duì)位置,這些相對(duì)的位置可以用肽鍵 的兩面角和一些原子間的距離定量的加以描述。穩(wěn)定的三級(jí)結(jié)構(gòu)主要是依靠各種共 價(jià)鍵和疏水作用,二硫健對(duì)蛋白質(zhì)的穩(wěn)定和三級(jí)結(jié)構(gòu)的形成也起到相當(dāng)重要的作用。 在蛋白質(zhì)分子結(jié)構(gòu)中,幾個(gè)或多個(gè)超二級(jí)結(jié)構(gòu)在組合成復(fù)雜超二級(jí)結(jié)構(gòu)之后,常常 與一些二級(jí)結(jié)構(gòu)進(jìn)一步組合,形成緊密的球形結(jié)構(gòu),稱(chēng)之為結(jié)構(gòu)域。結(jié)構(gòu)域是由二 級(jí)結(jié)構(gòu)單元。螺旋,0折疊,無(wú)規(guī)卷曲和超二級(jí)結(jié)構(gòu)的不同組合而成的高級(jí)結(jié)構(gòu)。 結(jié)構(gòu)域是蛋白質(zhì)整體結(jié)構(gòu)中具有相對(duì)獨(dú)立的區(qū)域,是蛋白質(zhì)形式生物功能的基本單 位。

36、對(duì)大分子量的多個(gè)結(jié)構(gòu)域的球狀蛋白質(zhì)而言,整個(gè)蛋白質(zhì)的三級(jí)結(jié)構(gòu)是幾個(gè)結(jié) 構(gòu)域空間排列組合的結(jié)果,小分子量的單個(gè)結(jié)構(gòu)域的球狀蛋白質(zhì)的三級(jí)結(jié)構(gòu)也就是 結(jié)構(gòu)域的三級(jí)結(jié)構(gòu)。目前將結(jié)構(gòu)域分為6種不同類(lèi)型:a型蛋白,是以a螺旋這種 二級(jí)結(jié)構(gòu)為主,有的甚至只含有a螺旋:尸型蛋白,有相當(dāng)部分只含有夕折疊,或者其中夕折變的含量遠(yuǎn)遠(yuǎn)多于a螺旋(夕折疊15%, a螺旋10%); a與6分離型 蛋白(a+),同時(shí)含有夕折疊和a螺旋兩種二級(jí)結(jié)構(gòu)構(gòu)想單元(尸折疊15%, a 螺旋10%),但是這兩者構(gòu)象單元分別聚集和分布在不同的區(qū)域;a與小相間型蛋 白(a/夕),同時(shí)含有折便和a螺旋,(各自含量都10%),而且這兩種構(gòu)象單

37、元 在肽鏈中是交替出現(xiàn):“無(wú)規(guī)”卷曲型蛋白,一些分子量較小、二硫鍵含量有較高 的蛋白質(zhì)大多屬于這樣類(lèi)型;還有其他類(lèi)型。結(jié)構(gòu)域的組合可歸屬于三種類(lèi)型:含 有序列類(lèi)似的結(jié)構(gòu)域的蛋白質(zhì);含有兩種不同結(jié)構(gòu)域的蛋白質(zhì);多結(jié)構(gòu)域蛋白質(zhì)。華中科技大學(xué)碩士學(xué)位論文下圖為肌紅蛋白和丙糖磷酸異構(gòu)酶的三級(jí)結(jié)構(gòu)圖。圖2.7肌紅蛋白的三級(jí)結(jié)構(gòu)和丙糖磷酸異構(gòu)酶的三級(jí)結(jié)構(gòu)2.1.4 蛋白質(zhì)的四級(jí)結(jié)構(gòu)蛋白質(zhì)的四級(jí)結(jié)構(gòu)是一些特定三級(jí)結(jié)構(gòu)的肽鏈通過(guò)非共價(jià)鍵而形成的大分子體系時(shí)的組合方式,作為蛋白質(zhì)四級(jí)結(jié)構(gòu)組分的肽鏈被定義為亞基,亞基間的相互作 用都是非共價(jià)鍵。根據(jù)不同的原則,蛋白質(zhì)的四級(jí)結(jié)構(gòu)可以有不同的分類(lèi)方法和類(lèi) 型:按亞基的

38、種類(lèi)分類(lèi),一些具有四級(jí)結(jié)構(gòu)的蛋白質(zhì)根據(jù)亞基的組成可分為有相 同亞基和不同亞基構(gòu)成的兩大類(lèi)型。按亞基的數(shù)目分類(lèi),可將具有四級(jí)結(jié)構(gòu)的蛋 白質(zhì)分為低聚體和多聚體兩大類(lèi)。成纖維狀的蛋白質(zhì)聚集體。按裝配過(guò)程分類(lèi), 按裝配的機(jī)制可分為隨即裝配和成核裝配。其他類(lèi)型和有關(guān)反應(yīng)。蛋白質(zhì)四級(jí)結(jié) 構(gòu)的一個(gè)重要特征是亞基的有序排列,具有四級(jí)結(jié)構(gòu)的蛋白質(zhì)中的各亞基是按一定 的幾何形狀有規(guī)則地排列的。2.2蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)自然界存在的蛋白質(zhì)的總數(shù)雖然很大,但根據(jù)他們?cè)谛蛄猩系南嗨菩院瓦M(jìn)化 上的同源性,可以歸為總數(shù)不是很大的蛋白質(zhì)家族,并從它們所含二級(jí)結(jié)構(gòu)又可 以歸為有限數(shù)目的折疊類(lèi)型。對(duì)于自然界存在的蛋白質(zhì)折疊類(lèi)型總數(shù)估計(jì)

39、不到 1000種,這就使認(rèn)識(shí)全部蛋白質(zhì)三維空間結(jié)構(gòu)的任務(wù)大大簡(jiǎn)化。蛋白質(zhì)三維空間16華中科技大學(xué)碩士學(xué)位論文結(jié)構(gòu)預(yù)測(cè)的目的就是認(rèn)識(shí)氨基酸序列和蛋白質(zhì)空間結(jié)構(gòu)的對(duì)應(yīng)關(guān)系,就是解決第 二遺傳密碼。當(dāng)前國(guó)際上對(duì)蛋白質(zhì)在體內(nèi)外的折疊過(guò)程已有一定的了解,已取得 的結(jié)果說(shuō)明第二遺傳密碼是存在且可以被認(rèn)識(shí)的。解決這一問(wèn)題要從理論上研究 蛋白質(zhì)的氨基酸序列如何決定其空間結(jié)構(gòu),即蛋白質(zhì)空間結(jié)構(gòu)預(yù)測(cè)0在實(shí)驗(yàn)上研究 變性蛋白如何重新折疊恢復(fù)其天然構(gòu)象,以及新生肽鏈如何折疊成完整蛋白質(zhì)分子 的全部過(guò)程。如果說(shuō)“三聯(lián)密碼”已被破譯而實(shí)際上己成為明碼,那么破譯“第二遺傳密碼正是“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)從理論上最直接地去解決蛋白質(zhì)

40、的折疊問(wèn)題,這是蛋白質(zhì)研究最 后幾個(gè)尚未揭示的奧秘之一。“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)”屬于理論方面的熱力學(xué)問(wèn)題c就是 根據(jù)測(cè)得的蛋白質(zhì)的一級(jí)序列預(yù)測(cè)由anfinsen原理決定的特定的空間結(jié)構(gòu)。蛋白質(zhì) 氨基酸序列,特別是編碼蛋白質(zhì)的核甘酸序列的測(cè)定現(xiàn)在幾乎已經(jīng)成為常規(guī)技術(shù), 從互補(bǔ)dna (cdna)序列可以根據(jù)“三聯(lián)密碼推定氨基酸序列,這些在上一世紀(jì) 獲得重大突破的分子生物學(xué)技術(shù),大大加速了蛋白質(zhì)一級(jí)結(jié)構(gòu)的測(cè)定。目前蛋白質(zhì) 數(shù)據(jù)庫(kù)中已經(jīng)存有大約17萬(wàn)個(gè)蛋白的一級(jí)結(jié)構(gòu),但是測(cè)定了空間結(jié)構(gòu)的蛋白大約只 有l(wèi)2萬(wàn)個(gè),這中間有許多是很相似的同源蛋白,而真正不同的蛋白只有1000多個(gè)。隨著人類(lèi)基因組計(jì)劃的勝利完成,

41、解讀了人類(lèi)dna的全序列,蛋白質(zhì)一級(jí)結(jié)構(gòu)的數(shù) 據(jù)增長(zhǎng)必定會(huì)出現(xiàn)爆炸的態(tài)勢(shì),而空間結(jié)構(gòu)測(cè)定的速度遠(yuǎn)遠(yuǎn)滯后,因此二者之間還 會(huì)形成更大的距離,這就更需要進(jìn)行蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)。a反應(yīng)圖2.8 anfinsen原理示意圖由于蛋白質(zhì)分子結(jié)構(gòu)本身的極端復(fù)雜性決定了結(jié)構(gòu)預(yù)測(cè)不可能一蹴而就。目前結(jié)構(gòu)預(yù)測(cè)的方法大致可分為兩大類(lèi)6 一類(lèi)是假設(shè)蛋白質(zhì)分子天然構(gòu)象處于熱力學(xué)最 穩(wěn)定,能量最低狀態(tài),考慮蛋白質(zhì)分子中所有原子間的相互作用以及蛋白質(zhì)分子與 溶劑之間的相互作用,采用分子力學(xué)的能量極小化方法,計(jì)算出蛋白質(zhì)分子的天然 空間結(jié)構(gòu)。第二類(lèi)方法是找出數(shù)據(jù)庫(kù)中已有的蛋白質(zhì)的空間結(jié)構(gòu)與其一級(jí)序列之間 的聯(lián)系總結(jié)出一定的規(guī)律

42、,逐級(jí)從一級(jí)序列預(yù)測(cè)二級(jí)結(jié)構(gòu),再建立可能的三維模型, 根據(jù)總結(jié)出的空間結(jié)構(gòu)與其一級(jí)序列之間的規(guī)律,排除不合理的模型,再根據(jù)能量 最低原理得到修正的結(jié)構(gòu),這也就是所謂“基于知識(shí)的預(yù)測(cè)方法但是,第一類(lèi)方 法遇到在數(shù)學(xué)上難以解決的多重極小值問(wèn)題,而逐級(jí)預(yù)測(cè)又受到二級(jí)結(jié)構(gòu)預(yù)測(cè)精度 的限制。因此必須解決這些困難,或者發(fā)展新的方法,將基于知識(shí)的預(yù)測(cè)方法與計(jì) 算化學(xué)以及統(tǒng)計(jì)物理學(xué)結(jié)合起來(lái),才有希望能破譯“第二遺傳密碼、另一方面,和 以往只能利用存入蛋白質(zhì)數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行預(yù)測(cè)相比,人類(lèi)dna的全序列的測(cè)定給 予蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)更自然的、信息量更大得多的數(shù)據(jù)庫(kù),因此可用基于同源性的重 復(fù)循環(huán)技術(shù)非常可靠地靈敏地進(jìn)

43、行結(jié)構(gòu)預(yù)測(cè)。已經(jīng)有人根據(jù)基因組的數(shù)據(jù)用統(tǒng)計(jì)方 法重新估計(jì)了蛋白質(zhì)折疊類(lèi)型數(shù)目大約為1000種,這和早期的理論估計(jì)是一致的。顯然,人類(lèi)基因全序列的揭示必然為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)相互作用的預(yù)測(cè)以及 單核昔酸多態(tài)性的分子表型預(yù)測(cè)開(kāi)辟前所未有的廣闊天地明60年代white和anfinsen等人進(jìn)行的牛胰核糖核酸酶變性及復(fù)性的試驗(yàn)和研究理論,為從蛋白質(zhì)的氨基酸序列預(yù)測(cè)蛋白質(zhì)的三維空間結(jié)構(gòu)建立了實(shí)驗(yàn)和理論基礎(chǔ).從60年代中期以來(lái),大量的生物學(xué)家,大批理論和實(shí)驗(yàn)工作者付出艱辛的勞動(dòng),提 出了很多預(yù)測(cè)方法或方案,但是蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的就有20多種。近年來(lái),又出 現(xiàn)了許多更高層次的空間預(yù)測(cè)方法。超二級(jí)結(jié)構(gòu)的

44、預(yù)測(cè)有比二級(jí)結(jié)構(gòu)更高的預(yù)測(cè)精 度。蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)主要問(wèn)題是:如何根據(jù)蛋白質(zhì)的氨基酸組成和順序預(yù)測(cè)蛋白質(zhì) 的折疊類(lèi)型,如何根據(jù)一個(gè)多肽鏈的氨基酸順序預(yù)測(cè)其二級(jí)結(jié)構(gòu),不同的二級(jí)結(jié)構(gòu) 又組成特定的三級(jí)結(jié)構(gòu),亞基又組裝成完整分子。蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的理論預(yù)測(cè)方法可分為三大類(lèi),比較建模法,反向折疊法和從頭預(yù)測(cè)法。這些方法都是建立在氨基酸的一級(jí)結(jié)構(gòu)決定高級(jí)結(jié)構(gòu)的理論基礎(chǔ)上的。比較建模法是基于知識(shí)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法。這一方法目前主要是指同源結(jié)構(gòu)預(yù)測(cè)。它是在未知蛋白質(zhì)中有同源結(jié)構(gòu)可以參考的情況下應(yīng)用的一種技術(shù)。它可 以根據(jù)同源結(jié)構(gòu)中保守的部分搭建出未知蛋白質(zhì)的結(jié)構(gòu)骨架。它是現(xiàn)在最為成熟的 預(yù)測(cè)方法。反向折疊法它

45、可以應(yīng)用到?jīng)]有同源結(jié)構(gòu)的情況中,且不需要預(yù)測(cè)二級(jí)結(jié)構(gòu),即 可直接預(yù)測(cè)三維結(jié)構(gòu),從而可以繞過(guò)現(xiàn)階段二級(jí)結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確性不超過(guò)65%的限度, 因此是一種有潛力的預(yù)測(cè)方法。它的主要原理是把未知蛋白質(zhì)的序列和已知的這種 結(jié)構(gòu)進(jìn)行匹配,找出一種或幾種匹配最好的結(jié)構(gòu)作為未知蛋白質(zhì)的預(yù)測(cè)結(jié)構(gòu)。它的 實(shí)現(xiàn)過(guò)程是總結(jié)出已知的獨(dú)立的蛋白質(zhì)結(jié)構(gòu)模式作為未知結(jié)構(gòu)進(jìn)行匹配的模板,然 后用經(jīng)過(guò)對(duì)現(xiàn)有的數(shù)據(jù)庫(kù)的學(xué)習(xí),總結(jié)出可以區(qū)分正誤結(jié)構(gòu)的平均勢(shì)函數(shù)作為判別 標(biāo)準(zhǔn),來(lái)選擇出最佳的匹配方式。它的局限性是假定的蛋白質(zhì)折疊類(lèi)型是有限的。所以只有未知蛋白質(zhì)和已知蛋白質(zhì)結(jié)構(gòu)相像的時(shí)候,才有可能與測(cè)出未知的蛋白質(zhì) 結(jié)構(gòu)。從頭預(yù)測(cè)法從理論

46、上講是最為理想的方法。它要求方法本身可以指根據(jù)蛋白質(zhì)的氨基酸序列來(lái)預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)和高級(jí)結(jié)構(gòu),但現(xiàn)在所有的方法還不能完全 達(dá)到這個(gè)要求即心用。從頭預(yù)測(cè)法又可細(xì)分為,二級(jí)結(jié)構(gòu)預(yù)測(cè)、超二級(jí)結(jié)構(gòu)預(yù)測(cè)、蛋 白質(zhì)結(jié)構(gòu)類(lèi)型預(yù)測(cè)、蛋白質(zhì)折疊模式預(yù)測(cè)、詳細(xì)的三維結(jié)構(gòu)的直接預(yù)測(cè)等。221二級(jí)結(jié)構(gòu)預(yù)測(cè)二級(jí)結(jié)構(gòu)預(yù)測(cè)被認(rèn)為是預(yù)測(cè)三維結(jié)構(gòu)所經(jīng)過(guò)的一個(gè)階段。即首先從一級(jí)序列預(yù) 測(cè)出二級(jí)結(jié)構(gòu),然后再把二級(jí)結(jié)構(gòu)堆積成最后的三維結(jié)構(gòu)。盡管一條多肽鏈的能采 取的構(gòu)象的數(shù)目是相當(dāng)大的,但在蛋白質(zhì)分子中,由二級(jí)結(jié)構(gòu)組裝而形成一定的空 間結(jié)構(gòu)的方式卻是有限的,因此蛋白質(zhì)的二級(jí)結(jié)構(gòu)預(yù)測(cè)就成為解決蛋白質(zhì)的一級(jí)序 列預(yù)測(cè)其空間結(jié)構(gòu)這一問(wèn)題的最關(guān)鍵的步驟。二級(jí)結(jié)構(gòu)預(yù)測(cè)成功率可以達(dá)到80%的 話(huà),就可以基本準(zhǔn)確的預(yù)測(cè)一個(gè)蛋白質(zhì)分子的三維結(jié)構(gòu)。在過(guò)去的幾十年中,科學(xué) 家們已經(jīng)提出了幾十種預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的方法。幾乎所有這些預(yù)測(cè)蛋白質(zhì)三級(jí) 結(jié)構(gòu)的方法都假定蛋白質(zhì)的二級(jí)結(jié)構(gòu)主要是由鄰近殘基間的短程相互作用所決定 的,然后通過(guò)對(duì)一些己知空間結(jié)構(gòu)的蛋白質(zhì)分子進(jìn)行分析,歸納,制定出一套預(yù)測(cè) 規(guī)則,并根據(jù)這些規(guī)則對(duì)其他一致或未知結(jié)構(gòu)的蛋白質(zhì)分子的二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測(cè), 這些都可以歸類(lèi)于已有知識(shí)的預(yù)測(cè)方法。有三種常用的二級(jí)結(jié)構(gòu)預(yù)測(cè)的方法,是在70年代提出的cho*fas

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論