版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
預(yù)測蛋白質(zhì)和RNA相互作用的方法研究,生物工程論文蛋白質(zhì)與RNA的互相作用在很多生理經(jīng)過中起著重要的作用,RNA介入很多基本的細(xì)胞生理經(jīng)過,如攜帶來自DNA的遺傳信息,介入構(gòu)成核糖體、拼接體、端粒酶等很多核酸蛋白顆粒的構(gòu)造,有些RNA還具有酶活性等,幾乎所有的RNA生物功能的發(fā)揮都需要蛋白質(zhì)的共同作用。蛋白質(zhì)和RNA互相作用的研究為最終探明RNA和蛋白質(zhì)互相作用的分子機制,從本質(zhì)上認(rèn)識相關(guān)細(xì)胞生理經(jīng)過起著不可忽視的重要作用。采用實驗的方式方法預(yù)測蛋白質(zhì)和RNA的互相作用有很大的局限性,或因?qū)嶒灢襟E太多,既耗時又費力,也增加了實驗結(jié)果的不穩(wěn)定性。因而,利用計算的方式方法預(yù)測蛋白質(zhì)和RNA互相作用成為當(dāng)下的一大趨勢。近年來,由于RNA本身的復(fù)雜性導(dǎo)致蛋白質(zhì)和RNA互相作用的研究一直處于滯后狀態(tài)。但是隨著實驗獲取的RNA數(shù)據(jù)以及蛋白質(zhì)和RNA復(fù)合物數(shù)據(jù)的增加,蛋白質(zhì)和RNA互相作用的預(yù)測方式方法研究成為當(dāng)前非常緊迫的一項重要課題。2018年,Pancaldi和Bahler[1]初次提出了一種預(yù)測蛋白質(zhì)和RNA互相作用的方式方法,選取100多種顯著性較高的特征〔包括GeneOntology條款,基因和蛋白質(zhì)的物理性質(zhì),mRNA性質(zhì),蛋白質(zhì)的二級構(gòu)造以及基因的互相作用geneticinteractions等〕構(gòu)建特征向量。然而,由于該文中用到的特征種類較多,有些特征不易獲取,所以這種方式方法具有一定的局限性。同年,Bellucci等人[2]提出一種新的預(yù)測蛋白質(zhì)-RNA互相作用的方式方法catRAPID,考慮存在于氨基酸鏈和核苷酸鏈中的幾乎所有關(guān)聯(lián),從中選取了傾向性較高的二級構(gòu)造、氫鍵和范德華這三種性質(zhì),并基于此計算每個RNA和蛋白質(zhì)對的互相作用傾向性,用于預(yù)測蛋白質(zhì)和NRA的互相作用。以上兩種方式方法均考慮了蛋白質(zhì)和RNA多種性質(zhì)特征。對于現(xiàn)有的蛋白質(zhì)-RNA數(shù)據(jù)而言,都有著一定的局限性。于是在2018年和2020年,文獻(xiàn)[3-4]主要基于蛋白質(zhì)和RNA序列信息,即氨基酸和核苷酸的成分特征,構(gòu)建機器學(xué)習(xí)模型。在研究[4]中,基于蛋白質(zhì)序列中氨基酸組成成分以及RNA序列中核苷酸組成成分,通過特征選取的方式方法提取有效特征構(gòu)建向量,進(jìn)而構(gòu)建預(yù)測模型。通過對多組數(shù)據(jù)的預(yù)測,證實了特征選取方式方法以及預(yù)測模型的有效性。但是,特征選取方式方法也存在一個弊端,即被選取的特征在某種程度上依靠于樣本數(shù)據(jù)。本文基于蛋白質(zhì)和RNA序列,提出了一種新的預(yù)測蛋白質(zhì)-RNA互相作用的方式方法。本文只考慮了氨基酸三聯(lián)體和核苷酸的組成成分,利用其成分比率以及氨基酸三聯(lián)體-核苷酸互相作用傾向性構(gòu)建了一種新的用于衡量蛋白質(zhì)和RNA序列對個體的三聯(lián)體-核苷酸傾向性度量,并利用該傾向性以及氨基酸三聯(lián)體和核苷酸的成分特征構(gòu)建支持向量機〔supportvectormachine,SVM〕模型,預(yù)測其互相作用。1預(yù)測模型和算法1.1氨基酸三聯(lián)體-核苷酸的互相作用傾向性氨基酸三聯(lián)體[5]指的是三個連續(xù)的氨基酸構(gòu)成的一個整體。蛋白質(zhì)序列有20種氨基酸,則三聯(lián)體的總個數(shù)為202020=8000個;RNA序列中有4種核苷酸,因此共有80004=32000個氨基酸三聯(lián)體-核苷酸組合。在文獻(xiàn)[6]中,針對一組來自于蛋白質(zhì)數(shù)據(jù)庫〔PDB〕的3149個具有互相作用的蛋白質(zhì)-RNA對,利用文獻(xiàn)[6]中氨基酸三聯(lián)體-核苷酸的互相作用傾向性度量,即文獻(xiàn)[6]中式〔1〕,計算得到了氨基酸三聯(lián)體-核苷酸的互相作用傾向性值,見附表1.附表1中出示了32000個三聯(lián)體-核苷酸組合的傾向性值,這些值是針對來自PDB的3149個蛋白質(zhì)-RNA序列對這個整體數(shù)據(jù)集而言,氨基酸三聯(lián)體-核苷酸的互相作用傾向性,在這里稱之為整體三聯(lián)體-核苷酸傾向性。蛋白質(zhì)和RNA能否互相作用主要取決于氨基酸和核苷酸位點的結(jié)合上。因而本文試圖利用氨基酸三聯(lián)體-核苷酸的傾向性這一性質(zhì)構(gòu)建特征向量。為了更好地度量每一對蛋白質(zhì)-RNA序列個體對中三聯(lián)體-核苷酸的互相作用傾向性,我們重新定義了一個權(quán)重傾向性度量,可以稱為個體三聯(lián)體-核苷酸傾向性度量,如下:PRIPtb=IPtbNtNPNbNR〔1〕華而不實,P表示蛋白質(zhì)序列;R表示RNA序列;t表示蛋白質(zhì)序列P中的氨基酸三聯(lián)體;b表示RNA序列R中的核苷酸;Nt,Nb分別表示蛋白質(zhì)序列P中氨基酸三聯(lián)體t的數(shù)量和RNA序列中核苷酸b的數(shù)量;NP,NR表示蛋白質(zhì)序列P中所有氨基酸三聯(lián)體的數(shù)量和RNA序列中所有核苷酸的數(shù)量;IPtb表示由文獻(xiàn)[6]中整體三聯(lián)體-核苷酸傾向性度量公式〔1〕計算得到的三聯(lián)體t和核苷酸b的互相作用傾向性值,它表示的是三聯(lián)體t和核苷酸b的整體傾向性,而本文中式〔1〕計算的PRIPtb值表示的是一對蛋白質(zhì)-RNA序列個體中三聯(lián)體t和核苷酸b的互相作用傾向性。下面均用三聯(lián)體-核苷酸的整體傾向性表示來自于文獻(xiàn)[6]中的度量公式〔1〕計算得到的傾向性,即IPtb;用三聯(lián)體-核苷酸的個體傾向性表示由本文中的權(quán)重傾向性度量公式〔1〕計算得到的傾向性,即PRIPtb.1.2構(gòu)建特征向量為了預(yù)測一對蛋白質(zhì)-RNA序列能否互相作用,利用氨基酸三聯(lián)體-核苷酸的個體傾向性編譯特征向量。首先,根據(jù)極性和側(cè)鏈容積等性質(zhì),把20種氨基酸分成7類[5],依次是:{A,G,V},{I,L,F,P},{Y,M,T,S},{H,N,Q,W},{R,K},{D,E},{C}.在文獻(xiàn)[5]中,作者利用氨基酸三聯(lián)體有效地預(yù)測蛋白質(zhì)-蛋白質(zhì)互相作用。本文中也同樣使用三聯(lián)體特征。20種氨基酸被分成7類,此時三聯(lián)體共有777=343類,依次能夠計算出三聯(lián)體-核苷酸的組合個數(shù)為3434=1372.給定一對蛋白質(zhì)-RNA序列,構(gòu)造如下特征向量:1.2.1個體氨基酸三聯(lián)體-核苷酸傾向性第一,利用整體傾向性度量公式[6]分別計算出所有32000個三聯(lián)體-核苷酸組合的互相作用傾向性值IPtb;第二,基于32000個整體傾向性IPtb,計算每類三聯(lián)體-核苷酸傾向性的均值,用來表示這類三聯(lián)體-核苷酸的傾向性值,共有3434=1372個傾向性;第三,針對每一對蛋白質(zhì)-RNA序列,利用權(quán)重傾向性度量公式〔1〕計算這對序列中每類三聯(lián)體-核苷酸的個體傾向性,并以此作為特征向量。此時式〔1〕中的IPtb表示的是由第二步計算得到的每類三聯(lián)體-核苷酸傾向性均值,Nt表示的是蛋白質(zhì)序列中每類三聯(lián)體的數(shù)量;第四,考慮到組合特征的冗余性,從中選擇具有較高傾向性的三聯(lián)體-核苷酸組合,并以這些三聯(lián)體-核苷酸組合為基礎(chǔ)建立特征向量。1.2.2氨基酸三聯(lián)體和核苷酸成分特征第一,對于一個蛋白質(zhì)序列,計算343類三聯(lián)體的成分比率;第二,對于一個RNA序列,計算4種核苷酸的成分比率。1.3樣本數(shù)據(jù)為了證明預(yù)測的有效性,本文主要針對兩組不同種類的數(shù)據(jù)集進(jìn)行預(yù)測:一組是來自NPInter數(shù)據(jù)庫〔/NPInter〕的367對長鏈非編碼RNA〔簡稱ncRNA〕和蛋白質(zhì)互相作用的數(shù)據(jù)集PRI367,見表1;另一組是來自PRIDB[7]的非冗余數(shù)據(jù)集PRI369[2],見表2.PRIDB是一個從PDB[8]里提取的一個綜合的蛋白質(zhì)和RNA復(fù)合物的數(shù)據(jù)庫。【1】負(fù)樣本數(shù)據(jù)的選取我們采納大多數(shù)文獻(xiàn)中的方式方法,即隨機選取與正樣本數(shù)據(jù)一樣數(shù)量的蛋白質(zhì)和RNA序列對作為負(fù)樣本數(shù)據(jù)集,但是前提是排除那些已經(jīng)知道有互相作用的蛋白質(zhì)-RNA對。1.4預(yù)測模型和算法支持向量機〔SVM〕是Vapnik等人提出的一類新型機器學(xué)習(xí)方式方法,是基于統(tǒng)計學(xué)習(xí)理論、根據(jù)構(gòu)造風(fēng)險最小化原理而推導(dǎo)出來的。由于SVM出色的學(xué)習(xí)能力,普遍應(yīng)用于生物信息學(xué)研究中,很多生物信息學(xué)中的分類問題都是利用SVM進(jìn)行分類的。本文也采用SVM對蛋白質(zhì)-RNA能否有互相作用進(jìn)行分類預(yù)測。這里簡單地介紹一下支持向量分類機的模型:對于一個給定的訓(xùn)練集T={〔x1,c1〕,〔x2,c2〕,,〔xl,cl〕}華而不實,xi=〔xi1,xi2,,xin〕TRn是輸入〔input〕,表示第i個輸入樣本的n個特征;ci{-1,+1}是輸出〔output〕,表示第i個樣本所屬的分類。引入從輸入空間到Hilbert空間的映射:RnH.支持向量機就是為了尋找一個Hilbert空間的超平面〔〔x〕〕+b=0,使得在最大間隔的基礎(chǔ)上將樣本盡可能的分開。通過使用核函數(shù)替代樣本在Hilbert空間中的內(nèi)積,來判別樣本所屬類別??紤]到RBF核函數(shù)優(yōu)于其他核函數(shù),本文使用RBF核函數(shù)。本文利用公開軟件LibSVM〔version3.18〕訓(xùn)練SVM中的C-SVC,其性能依靠于參數(shù)的選擇,所需選擇的參數(shù)為:C和gamma.華而不實C是懲罰參數(shù),是對錯分點的懲罰;gamma是RBF核函數(shù)中的參數(shù),它決定向量機的推廣能力。2計算結(jié)果及討論在計算中,參數(shù)C=200和gamma=0.1.使用10折穿插驗證程序評價我們的預(yù)測算法,預(yù)測結(jié)果的有效性主要考慮了下面幾個指標(biāo):ACC=〔TP+TN〕/〔TP+FP+TN+FN〕SE=TP/〔TP+FN〕SP=TN/〔TN+FP〕PRE=TP/〔TP+FP〕華而不實,TP表示真的正樣本〔truepositives〕;TN表示真的負(fù)樣本〔truenegatives〕;FP表示假的正樣本〔falsepositives〕和FN表示假的負(fù)樣本〔falsenegatives〕;ACC〔正確率〕,SE〔靈敏度〕,SP〔特指度〕和PRE〔精度〕。針對兩組數(shù)據(jù)集PRI367和PRI369,分別取100,500,1000個三聯(lián)體-核苷酸組合特征建立特征向量進(jìn)行計算,結(jié)果見表1和表2.華而不實N-feature表示所選取的三聯(lián)體-核苷酸傾向性的個數(shù)。由計算結(jié)果能夠看出,隨著所選特征的增加,RPI369的正確率有一定的提高,而RPI367的正確率反而降低了。當(dāng)特征個數(shù)增加到1000時,正確率沒有太大的變化。而在當(dāng)前僅僅基于序列預(yù)測蛋白質(zhì)-RNA互相作用的工作[3]中,對RPI369數(shù)據(jù)集使用兩種分類方式方法〔RF和SVM〕施行10折穿插驗證,正確率分別為76.2%和72.8%.在以前的研究工作中,基于NaveBayes-ian的分類方式方法對RPI367和RPI369進(jìn)行10折穿插驗證,正確率僅僅到達(dá)77.6%和75.0%.通過比擬,能夠看出本文的計算結(jié)果更好一些。氨基酸三聯(lián)體和核苷酸的互相作用傾向性被用于預(yù)測RNA結(jié)合位點得到了很好的預(yù)測結(jié)果,于是我們試圖把它運用到蛋白質(zhì)-RNA互相作用的預(yù)測中。考慮到每對蛋白質(zhì)-RNA序列中三聯(lián)體-核苷酸的傾向性的差異不同,重新定義了一個權(quán)重傾向性度量,然后利用此度量計算每類三聯(lián)體-核苷酸的傾向性。計算結(jié)果證實了本文所選特征的有效性,同時也講明了三聯(lián)體-核苷酸的互相作用傾向性在蛋白質(zhì)-RNA互相作用預(yù)測中起著不可忽視的重要作用。以下為參考文獻(xiàn):[1]PANCALDIV,BAHLERJ.InsilicocharacterizationandpredictionofglobalproteinRNAinteractionsinyeast[J].NucleicAcidsRes.,2018,39:5826-5836.[2]BELLUCCIM,AGOSTINIF,MASINM,etal.Predic-tingproteinassociationswithlongnoncodingRNAs[J].Nat.Methods,2018〔8〕:444-445.[3]MUPPIRALAUK,HONAVARVG,DOBBSD.Predic-tingRNA-proteininteractionsusingonlysequenceinfor-mation[J].BMCBioinformatics,2018,12:489.[4]WANGY,CHENXW,LIUZP,etal.Denovopredic
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 動態(tài)心電圖目前最需要解決的問題教學(xué)課件
- 【大學(xué)課件】國際新興服務(wù)貿(mào)易產(chǎn)業(yè)
- 【物理課件】運動快慢的描述 速度課件
- DB32T-長江河道疏浚采砂項目施工質(zhì)量驗收規(guī)范編制說明
- 信息與通信射頻電路與天線課件
- 《電梯安全經(jīng)驗分享》課件
- 現(xiàn)在完成時復(fù)習(xí)課件
- 單位人力資源管理制度集粹選集十篇
- 固收定期報告:資金面均衡偏松年末票據(jù)利率上行
- 單位管理制度品讀選集【人力資源管理】
- 零碳智慧園區(qū)解決方案
- 2025年林權(quán)抵押合同范本
- 服務(wù)推廣合同協(xié)議(2025年)
- 2024年北師大版四年級數(shù)學(xué)上學(xué)期學(xué)業(yè)水平測試 期末卷(含答案)
- 2024年高考物理一輪復(fù)習(xí)講義(新人教版):第七章動量守恒定律
- 浙江省寧波市慈溪市2023-2024學(xué)年高三上學(xué)期語文期末測試試卷
- 草學(xué)類專業(yè)生涯發(fā)展展示
- 法理學(xué)課件馬工程
- 《玉米種植技術(shù)》課件
- 第47屆世界技能大賽江蘇省選拔賽計算機軟件測試項目技術(shù)工作文件
- 2023年湖北省公務(wù)員錄用考試《行測》答案解析
評論
0/150
提交評論