![蛋白質(zhì)功能預(yù)測新策略探究,生物化學論文_第1頁](http://file4.renrendoc.com/view/5c6c08ed4360019899c62e4214369352/5c6c08ed4360019899c62e42143693521.gif)
![蛋白質(zhì)功能預(yù)測新策略探究,生物化學論文_第2頁](http://file4.renrendoc.com/view/5c6c08ed4360019899c62e4214369352/5c6c08ed4360019899c62e42143693522.gif)
![蛋白質(zhì)功能預(yù)測新策略探究,生物化學論文_第3頁](http://file4.renrendoc.com/view/5c6c08ed4360019899c62e4214369352/5c6c08ed4360019899c62e42143693523.gif)
![蛋白質(zhì)功能預(yù)測新策略探究,生物化學論文_第4頁](http://file4.renrendoc.com/view/5c6c08ed4360019899c62e4214369352/5c6c08ed4360019899c62e42143693524.gif)
![蛋白質(zhì)功能預(yù)測新策略探究,生物化學論文_第5頁](http://file4.renrendoc.com/view/5c6c08ed4360019899c62e4214369352/5c6c08ed4360019899c62e42143693525.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
蛋白質(zhì)功能預(yù)測新策略探究,生物化學論文人類基因組測序計劃的完成使全基因組序列測定成為可能,分子生物學各種高通量實驗技術(shù)迅猛發(fā)展,大量生物數(shù)據(jù)急劇增長,此時揭示諸多基因在生命經(jīng)過中承當?shù)纳斫巧蔀榱巳澜缟茖W工作者的共同課題。生物信息學在基因組水平上的分析能力使其在海量數(shù)據(jù)處理上的優(yōu)勢充分表現(xiàn)出來,得到了快速發(fā)展[1].隨后,系統(tǒng)生物學研究逐步從基因組學擴展到了蛋白質(zhì)組學。蛋白質(zhì)是生命的物質(zhì)基礎(chǔ),是生命活動的主要承當者,深切進入研究一些基因的編碼蛋白,能幫助預(yù)測腫瘤的侵襲性,進而為人類戰(zhàn)勝癌癥提供契機[2].蛋白質(zhì)功能的預(yù)測已經(jīng)成為生物信息學一個重要的研究課題。要確切知道一個蛋白質(zhì)的功能,必須經(jīng)過復(fù)雜的生物學實驗來驗證,需要投入大量的人力,消耗損費宏大成本。但生物信息學技術(shù)可對待研究的蛋白質(zhì)提供預(yù)測分析,進而為生物實驗提供很好的指導作用,大大減少了實驗所需消耗損費的成本[3].一般蛋白質(zhì)功能的預(yù)測方式方法采用序列類似性比對,構(gòu)造和保守區(qū)分析等。序列類似性比對是蛋白質(zhì)功能預(yù)測的最重要方式方法,這是一類比擬成熟的預(yù)測方式方法,是將蛋白質(zhì)的氨基酸在序列中的排列位置表示出成一條含氨基酸字母的序列,通過比照這條序列預(yù)測蛋白質(zhì)功能,這類方式方法有BLAST[4]、FASTA[5]以及PSI-BLAST[6]等,然而這些方式方法僅簡單地從序列的類似比照出發(fā),準確率較難提升,而且效率低下。近年來,很多學者在傳統(tǒng)的蛋白質(zhì)序列類似性比對的基礎(chǔ)上,提出了很多新的預(yù)測功能方式方法,如基于序列改良的預(yù)測方式方法FANN[7]、DWKNN方式方法[8]和DSCP方式方法[9]等,都是基于蛋白質(zhì)序列的方式方法。比照以往傳統(tǒng)的簡單方式方法,這些新的方式方法在效率以及準確率上均有明顯的提升。但是,這些方式方法僅僅從序列的類似性比對進行研究,忽略蛋白質(zhì)之間關(guān)系的全局構(gòu)造。本文采用蛋白質(zhì)序列排列循環(huán)匹配,比對并尋找類似的蛋白質(zhì),構(gòu)建蛋白質(zhì)的關(guān)聯(lián)網(wǎng)絡(luò),并在關(guān)聯(lián)網(wǎng)絡(luò)的基礎(chǔ)上,采用數(shù)據(jù)挖掘技術(shù)的推薦算法,對蛋白質(zhì)的功能進行預(yù)測。1相關(guān)知識1.1蛋白質(zhì)的循環(huán)排列蛋白質(zhì)的循環(huán)排列也稱為蛋白質(zhì)的全局循環(huán)排列,是指將蛋白質(zhì)氨基酸序列首尾相連,從中分離出新的N-和C-端,這樣的排列能夠與另一個蛋白質(zhì)氨基酸序列進行近似匹配。從1997年起就陸續(xù)有很多蛋白質(zhì)全局循環(huán)排列的例子,這些循環(huán)排列對蛋白質(zhì)的功能、構(gòu)造具有非常重要的作用[10-11].現(xiàn)有研究主要集中在循環(huán)形式和蛋白質(zhì)功能上的關(guān)系,華而不實一些研究發(fā)現(xiàn)蛋白質(zhì)全局循環(huán)形式能夠為蛋白質(zhì)的功能提供重要幫助。如此圖1,從頭比對的兩條不相匹配的蛋白質(zhì)序列,將華而不實一條序列旋轉(zhuǎn)就能夠匹配上另一條序列[11].本文采用筆者已有成果的循環(huán)匹配算法[12],將蛋白質(zhì)的循環(huán)序列進行匹配,找出相互匹配的蛋白質(zhì),并將這種具有匹配關(guān)系的蛋白質(zhì)構(gòu)建相關(guān)聯(lián)蛋白質(zhì)數(shù)據(jù)網(wǎng)絡(luò)。構(gòu)建的蛋白質(zhì)網(wǎng)絡(luò)圖,如此圖2所示。圖中P1到P10表示網(wǎng)絡(luò)圖中的蛋白質(zhì)節(jié)點,連線表示蛋白質(zhì)之間的匹配關(guān)系。1.2推薦算法推薦算法是數(shù)據(jù)挖掘中常用的一種算法,就是利用用戶的一些行為,通過一些數(shù)學算法,揣測出用戶感興趣的物品[13].推薦算法主要分為基于內(nèi)容推薦、協(xié)同過濾推薦和基于規(guī)則推薦等多種類型。各種推薦算法都有各自的優(yōu)缺點,如基于內(nèi)容的推薦算法和協(xié)同過濾推薦算法推薦的結(jié)果直觀,容易解釋,但是無法解決新用戶的推薦問題,基于規(guī)則推薦算法能很好解決發(fā)現(xiàn)新用戶的興趣點,但是規(guī)則抽取難、耗時[14].隨著大數(shù)據(jù)時代的到來,推薦算法不斷被優(yōu)化提升[15],如今廣泛應(yīng)用于電子商務(wù)、電影網(wǎng)站以及社交網(wǎng)絡(luò)交友[16]等多個不同行業(yè)領(lǐng)域中。當前已有一些蛋白質(zhì)功能預(yù)測的算法應(yīng)用推薦算法的思想,如直接推薦注釋方式方法,這種方式方法類似于在社交網(wǎng)絡(luò)中好友興趣推薦算法,將與待預(yù)測蛋白質(zhì)相關(guān)聯(lián)的已經(jīng)知道蛋白質(zhì)通過一些序列類似算法找出來,并將功能直接推薦給未知蛋白質(zhì),這種做法通常將傳統(tǒng)的推薦算法直接使用,并沒有在這種推薦算法上做進一步的深切進入研究優(yōu)化,使之更適用于蛋白質(zhì)功能預(yù)測。本文針對蛋白質(zhì)功能預(yù)測的目的,根據(jù)推薦算法思想,提出一種基于關(guān)聯(lián)規(guī)則與功能標簽的推薦算法,相對于直接推薦注釋方式方法的預(yù)測結(jié)果有一定的提高。2推薦算法預(yù)測蛋白質(zhì)功能筆者使用的基于關(guān)聯(lián)規(guī)則與功能標簽的推薦算法,對蛋白質(zhì)功能進行預(yù)測的目的是未知功能的蛋白質(zhì)Pu.功能預(yù)測的步驟如下:第一步:序列循環(huán)匹配數(shù)據(jù)集生成推薦規(guī)則集針對每個待預(yù)測的Pu,使用1.1章節(jié)提到的蛋白質(zhì)序列循環(huán)匹配算法,生成相關(guān)聯(lián)蛋白質(zhì)數(shù)據(jù)集,將其作為關(guān)聯(lián)規(guī)則推薦的數(shù)據(jù)集,如表1所示,P1到P5為與Pu構(gòu)成匹配的已經(jīng)知道功能的蛋白質(zhì),GO1到GO6表示不同的功能標簽,同一行數(shù)據(jù)表示蛋白質(zhì)P1到P5分別對應(yīng)的功能。第二步:根據(jù)頻率最高的Top-k功能,搜索數(shù)據(jù)庫尋找具有類似的蛋白質(zhì)根據(jù)表1,計算出出現(xiàn)頻率最高的Top-k個功能取出賦給未知蛋白質(zhì),為了便于計算,取出現(xiàn)功能頻率最高的前兩個,即Top-k=2.表1出現(xiàn)頻率最高的兩個功能為GO2和GO4.搜索蛋白質(zhì)功能數(shù)據(jù)庫,查找同時具有GO2和GO4的蛋白質(zhì),查1功能個數(shù)作出預(yù)測執(zhí)行第二步驟,尋找具有包含一樣Top-k個功能的類似蛋白質(zhì),并統(tǒng)計這些類似蛋白質(zhì)的功能出現(xiàn)頻率,由高到低排列選取前N個出現(xiàn)頻率最高的功能作為待預(yù)測的未知蛋白質(zhì)的功能。使用式〔1〕進行選取前N個功能:【1】式〔1〕中,X為該功能出現(xiàn)頻度,為統(tǒng)計功能出現(xiàn)頻度的方差,x為子群中功能出現(xiàn)頻度的平均值。根據(jù)式〔1〕,通過確定z值設(shè)定閥值,選取功能出現(xiàn)頻度大于閾值設(shè)定的功能作為預(yù)測結(jié)果。3實驗分析使用這種推薦算法對蛋白質(zhì)功能進行預(yù)測,推薦結(jié)果有效性判定的常用方式方法是判定的準確率〔Precision〕和召回率〔Recall〕。準確率是衡量預(yù)測結(jié)果與被測量真值之間一致的程度,準確率公式由式〔2〕給出。召回率即覆蓋率,用來衡量預(yù)測的結(jié)果包含了全部數(shù)據(jù)庫已有功能的正確結(jié)果的程度,公式由式〔3〕給出。準確率和召回率看似并沒有直接關(guān)系,但在實際的計算經(jīng)過中往往存在一定的矛盾,準確率提高則其召回率降低,反之亦然。因而,在實際計算中,經(jīng)常選用一個綜合度量指標F1-Measure作為兩者的調(diào)和平均數(shù)來衡量,將F1-Measure作為最終的評判結(jié)果,公式由式〔4〕給出。式〔2〕至〔4〕中,參數(shù)TP為預(yù)測的功能和標準數(shù)據(jù)庫中蛋白質(zhì)對應(yīng)的功能匹配的個數(shù),F(xiàn)P為預(yù)測的功能與標準數(shù)據(jù)庫的功能不匹配的個數(shù),TN為標準庫中包含的但卻沒有被預(yù)測到的功能?!?】本文采用的功能數(shù)據(jù)來源于UniProtKB-GOA數(shù)據(jù)庫,從庫中獲取48000條蛋白質(zhì)的序列及功能信息。選取不同的z值作為閥值,通過控制z值的改變,選取預(yù)測結(jié)果功能出現(xiàn)頻度高的作為預(yù)測得到的功能。將z值選取在0.1到1.0區(qū)間內(nèi),此區(qū)間的覆蓋率和召回率變化比照明顯,波動范圍不會相差太大。改變z值從0.1到1.0,實驗結(jié)果如此圖3所示,隨著z值增大,準確率提高,召回率下降,F(xiàn)1-measure的值穩(wěn)定在0.74附近。為了驗證方式方法的有效性,將蛋白質(zhì)序列做類似匹配后,對直接將功能推薦給未知蛋白質(zhì)的方式方法〔傳統(tǒng)方式方法〕與本文方式方法的結(jié)果進行比擬,只取F1-measure作為最終比擬結(jié)果。結(jié)果比照如此圖4所示,能夠看到,本文的方式方法最終的F1-measure結(jié)果整體上要優(yōu)于傳統(tǒng)的直接推薦注釋方式方法。4總結(jié)最近幾年來,隨著生物信息學的發(fā)展,應(yīng)用計算機對蛋白質(zhì)功能進行預(yù)測技術(shù)的研究邁上了一個新臺階。本文采用的蛋白質(zhì)功能預(yù)測策略是從蛋白質(zhì)序列的角度出發(fā),采用序列循環(huán)匹配算法,訓練得到相關(guān)聯(lián)的蛋白質(zhì)數(shù)據(jù)集,提出一種適用于蛋白質(zhì)功能預(yù)測的基于關(guān)聯(lián)規(guī)則與功能標簽的推薦算法,對蛋白質(zhì)功能進行預(yù)測,并根據(jù)結(jié)果驗證所使用方式方法的有效性。這種預(yù)測方式方法的效果還有更大的提升空間,由于在根據(jù)功能標簽搜索數(shù)據(jù)庫獲取包含有提取的一樣功能標簽的蛋白質(zhì)時,還能夠進一步討論進行選取的參數(shù),采用更好的選取模型,相信在這方面繼續(xù)深切進入研究將會有更好的實驗結(jié)果。以下為參
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 13《我能行》(說課稿)-2023-2024學年統(tǒng)編版道德與法治二年級下冊
- Unit 6 How do you feel Part B Read and Write(說課稿)-2024-2025學年人教PEP版英語六年級上冊
- 6《一封信》說課稿-2024-2025學年統(tǒng)編版語文二年級上冊
- 12 低碳生活每一天 第二課時 說課稿-2023-2024學年道德與法治四年級上冊統(tǒng)編版001
- 2025城市房屋拆遷安置補償合同
- 公司轉(zhuǎn)讓工程合同范本
- 6《探訪古代文明》說課稿-2023-2024學年道德與法治六年級下冊統(tǒng)編版
- 鋁合金踢腳線施工方案
- 項目租車方案
- 住建部 認購合同范例
- 2024年國家焊工職業(yè)技能理論考試題庫(含答案)
- 特魯索綜合征
- 視頻監(jiān)控系統(tǒng)工程施工組織設(shè)計方案
- 食堂食材配送采購 投標方案(技術(shù)方案)
- 2024年山東省泰安市高考語文一模試卷
- 全國助殘日關(guān)注殘疾人主題班會課件
- TCL任職資格體系資料HR
- 《中國古代寓言》導讀(課件)2023-2024學年統(tǒng)編版語文三年級下冊
- 五年級上冊計算題大全1000題帶答案
- 工會工作制度匯編
- 工程建設(shè)行業(yè)標準內(nèi)置保溫現(xiàn)澆混凝土復(fù)合剪力墻技術(shù)規(guī)程
評論
0/150
提交評論