預(yù)測蛋白質(zhì)和RNA相互作用的方法研究,生物工程論文

上傳人：天*** IP屬地：北京上傳時間：2023-02-28 格式：DOCX 頁數(shù)：10 大?。?1.31KB 積分：13.8 舉報 版權(quán)申訴

已閱讀5頁，還剩5頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

預(yù)測蛋白質(zhì)和RNA相互作用的方法研究,生物工程論文蛋白質(zhì)與RNA的互相作用在很多生理經(jīng)過中起著重要的作用，RNA介入很多基本的細(xì)胞生理經(jīng)過，如攜帶來自DNA的遺傳信息，介入構(gòu)成核糖體、拼接體、端粒酶等很多核酸蛋白顆粒的構(gòu)造，有些RNA還具有酶活性等，幾乎所有的RNA生物功能的發(fā)揮都需要蛋白質(zhì)的共同作用。蛋白質(zhì)和RNA互相作用的研究為最終探明RNA和蛋白質(zhì)互相作用的分子機制，從本質(zhì)上認(rèn)識相關(guān)細(xì)胞生理經(jīng)過起著不可忽視的重要作用。采用實驗的方式方法預(yù)測蛋白質(zhì)和RNA的互相作用有很大的局限性，或因?qū)嶒灢襟E太多，既耗時又費力，也增加了實驗結(jié)果的不穩(wěn)定性。因而，利用計算的方式方法預(yù)測蛋白質(zhì)和RNA互相作用成為當(dāng)下的一大趨勢。近年來，由于RNA本身的復(fù)雜性導(dǎo)致蛋白質(zhì)和RNA互相作用的研究一直處于滯后狀態(tài)。但是隨著實驗獲取的RNA數(shù)據(jù)以及蛋白質(zhì)和RNA復(fù)合物數(shù)據(jù)的增加，蛋白質(zhì)和RNA互相作用的預(yù)測方式方法研究成為當(dāng)前非常緊迫的一項重要課題。2018年，Pancaldi和Bahler[1]初次提出了一種預(yù)測蛋白質(zhì)和RNA互相作用的方式方法，選取100多種顯著性較高的特征〔包括GeneOntology條款，基因和蛋白質(zhì)的物理性質(zhì)，mRNA性質(zhì)，蛋白質(zhì)的二級構(gòu)造以及基因的互相作用geneticinteractions等〕構(gòu)建特征向量。然而，由于該文中用到的特征種類較多，有些特征不易獲取，所以這種方式方法具有一定的局限性。同年，Bellucci等人[2]提出一種新的預(yù)測蛋白質(zhì)-RNA互相作用的方式方法catRAPID,考慮存在于氨基酸鏈和核苷酸鏈中的幾乎所有關(guān)聯(lián)，從中選取了傾向性較高的二級構(gòu)造、氫鍵和范德華這三種性質(zhì)，并基于此計算每個RNA和蛋白質(zhì)對的互相作用傾向性，用于預(yù)測蛋白質(zhì)和NRA的互相作用。以上兩種方式方法均考慮了蛋白質(zhì)和RNA多種性質(zhì)特征。對于現(xiàn)有的蛋白質(zhì)-RNA數(shù)據(jù)而言，都有著一定的局限性。于是在2018年和2020年，文獻(xiàn)[3-4]主要基于蛋白質(zhì)和RNA序列信息，即氨基酸和核苷酸的成分特征，構(gòu)建機器學(xué)習(xí)模型。在研究[4]中，基于蛋白質(zhì)序列中氨基酸組成成分以及RNA序列中核苷酸組成成分，通過特征選取的方式方法提取有效特征構(gòu)建向量，進(jìn)而構(gòu)建預(yù)測模型。通過對多組數(shù)據(jù)的預(yù)測，證實了特征選取方式方法以及預(yù)測模型的有效性。但是，特征選取方式方法也存在一個弊端，即被選取的特征在某種程度上依靠于樣本數(shù)據(jù)。本文基于蛋白質(zhì)和RNA序列，提出了一種新的預(yù)測蛋白質(zhì)-RNA互相作用的方式方法。本文只考慮了氨基酸三聯(lián)體和核苷酸的組成成分，利用其成分比率以及氨基酸三聯(lián)體-核苷酸互相作用傾向性構(gòu)建了一種新的用于衡量蛋白質(zhì)和RNA序列對個體的三聯(lián)體-核苷酸傾向性度量，并利用該傾向性以及氨基酸三聯(lián)體和核苷酸的成分特征構(gòu)建支持向量機〔supportvectormachine,SVM〕模型，預(yù)測其互相作用。1預(yù)測模型和算法1.1氨基酸三聯(lián)體-核苷酸的互相作用傾向性氨基酸三聯(lián)體[5]指的是三個連續(xù)的氨基酸構(gòu)成的一個整體。蛋白質(zhì)序列有20種氨基酸，則三聯(lián)體的總個數(shù)為202020=8000個；RNA序列中有4種核苷酸，因此共有80004=32000個氨基酸三聯(lián)體-核苷酸組合。在文獻(xiàn)[6]中，針對一組來自于蛋白質(zhì)數(shù)據(jù)庫〔PDB〕的3149個具有互相作用的蛋白質(zhì)-RNA對，利用文獻(xiàn)[6]中氨基酸三聯(lián)體-核苷酸的互相作用傾向性度量，即文獻(xiàn)[6]中式〔1〕，計算得到了氨基酸三聯(lián)體-核苷酸的互相作用傾向性值，見附表1.附表1中出示了32000個三聯(lián)體-核苷酸組合的傾向性值，這些值是針對來自PDB的3149個蛋白質(zhì)-RNA序列對這個整體數(shù)據(jù)集而言，氨基酸三聯(lián)體-核苷酸的互相作用傾向性，在這里稱之為整體三聯(lián)體-核苷酸傾向性。蛋白質(zhì)和RNA能否互相作用主要取決于氨基酸和核苷酸位點的結(jié)合上。因而本文試圖利用氨基酸三聯(lián)體-核苷酸的傾向性這一性質(zhì)構(gòu)建特征向量。為了更好地度量每一對蛋白質(zhì)-RNA序列個體對中三聯(lián)體-核苷酸的互相作用傾向性，我們重新定義了一個權(quán)重傾向性度量，可以稱為個體三聯(lián)體-核苷酸傾向性度量，如下：PRIPtb=IPtbNtNPNbNR〔1〕華而不實，P表示蛋白質(zhì)序列；R表示RNA序列；t表示蛋白質(zhì)序列P中的氨基酸三聯(lián)體；b表示RNA序列R中的核苷酸；Nt,Nb分別表示蛋白質(zhì)序列P中氨基酸三聯(lián)體t的數(shù)量和RNA序列中核苷酸b的數(shù)量；NP,NR表示蛋白質(zhì)序列P中所有氨基酸三聯(lián)體的數(shù)量和RNA序列中所有核苷酸的數(shù)量；IPtb表示由文獻(xiàn)[6]中整體三聯(lián)體-核苷酸傾向性度量公式〔1〕計算得到的三聯(lián)體t和核苷酸b的互相作用傾向性值，它表示的是三聯(lián)體t和核苷酸b的整體傾向性，而本文中式〔1〕計算的PRIPtb值表示的是一對蛋白質(zhì)-RNA序列個體中三聯(lián)體t和核苷酸b的互相作用傾向性。下面均用三聯(lián)體-核苷酸的整體傾向性表示來自于文獻(xiàn)[6]中的度量公式〔1〕計算得到的傾向性，即IPtb;用三聯(lián)體-核苷酸的個體傾向性表示由本文中的權(quán)重傾向性度量公式〔1〕計算得到的傾向性，即PRIPtb.1.2構(gòu)建特征向量為了預(yù)測一對蛋白質(zhì)-RNA序列能否互相作用，利用氨基酸三聯(lián)體-核苷酸的個體傾向性編譯特征向量。首先，根據(jù)極性和側(cè)鏈容積等性質(zhì)，把20種氨基酸分成7類[5],依次是：{A,G,V},{I,L,F,P},{Y,M,T,S},{H,N,Q,W},{R,K},{D,E},{C}.在文獻(xiàn)[5]中，作者利用氨基酸三聯(lián)體有效地預(yù)測蛋白質(zhì)-蛋白質(zhì)互相作用。本文中也同樣使用三聯(lián)體特征。20種氨基酸被分成7類，此時三聯(lián)體共有777=343類，依次能夠計算出三聯(lián)體-核苷酸的組合個數(shù)為3434=1372.給定一對蛋白質(zhì)-RNA序列，構(gòu)造如下特征向量：1.2.1個體氨基酸三聯(lián)體-核苷酸傾向性第一，利用整體傾向性度量公式[6]分別計算出所有32000個三聯(lián)體-核苷酸組合的互相作用傾向性值IPtb;第二，基于32000個整體傾向性IPtb,計算每類三聯(lián)體-核苷酸傾向性的均值，用來表示這類三聯(lián)體-核苷酸的傾向性值，共有3434=1372個傾向性；第三，針對每一對蛋白質(zhì)-RNA序列，利用權(quán)重傾向性度量公式〔1〕計算這對序列中每類三聯(lián)體-核苷酸的個體傾向性，并以此作為特征向量。此時式〔1〕中的IPtb表示的是由第二步計算得到的每類三聯(lián)體-核苷酸傾向性均值，Nt表示的是蛋白質(zhì)序列中每類三聯(lián)體的數(shù)量；第四，考慮到組合特征的冗余性，從中選擇具有較高傾向性的三聯(lián)體-核苷酸組合，并以這些三聯(lián)體-核苷酸組合為基礎(chǔ)建立特征向量。1.2.2氨基酸三聯(lián)體和核苷酸成分特征第一，對于一個蛋白質(zhì)序列，計算343類三聯(lián)體的成分比率；第二，對于一個RNA序列，計算4種核苷酸的成分比率。1.3樣本數(shù)據(jù)為了證明預(yù)測的有效性，本文主要針對兩組不同種類的數(shù)據(jù)集進(jìn)行預(yù)測：一組是來自NPInter數(shù)據(jù)庫〔/NPInter〕的367對長鏈非編碼RNA〔簡稱ncRNA〕和蛋白質(zhì)互相作用的數(shù)據(jù)集PRI367,見表1;另一組是來自PRIDB[7]的非冗余數(shù)據(jù)集PRI369[2],見表2.PRIDB是一個從PDB[8]里提取的一個綜合的蛋白質(zhì)和RNA復(fù)合物的數(shù)據(jù)庫。【1】負(fù)樣本數(shù)據(jù)的選取我們采納大多數(shù)文獻(xiàn)中的方式方法，即隨機選取與正樣本數(shù)據(jù)一樣數(shù)量的蛋白質(zhì)和RNA序列對作為負(fù)樣本數(shù)據(jù)集，但是前提是排除那些已經(jīng)知道有互相作用的蛋白質(zhì)-RNA對。1.4預(yù)測模型和算法支持向量機〔SVM〕是Vapnik等人提出的一類新型機器學(xué)習(xí)方式方法，是基于統(tǒng)計學(xué)習(xí)理論、根據(jù)構(gòu)造風(fēng)險最小化原理而推導(dǎo)出來的。由于SVM出色的學(xué)習(xí)能力，普遍應(yīng)用于生物信息學(xué)研究中，很多生物信息學(xué)中的分類問題都是利用SVM進(jìn)行分類的。本文也采用SVM對蛋白質(zhì)-RNA能否有互相作用進(jìn)行分類預(yù)測。這里簡單地介紹一下支持向量分類機的模型：對于一個給定的訓(xùn)練集T={〔x1,c1〕，〔x2,c2〕，，〔xl,cl〕}華而不實，xi=〔xi1,xi2,,xin〕TRn是輸入〔input〕，表示第i個輸入樣本的n個特征；ci{-1,+1}是輸出〔output〕，表示第i個樣本所屬的分類。引入從輸入空間到Hilbert空間的映射：RnH.支持向量機就是為了尋找一個Hilbert空間的超平面〔〔x〕〕+b=0,使得在最大間隔的基礎(chǔ)上將樣本盡可能的分開。通過使用核函數(shù)替代樣本在Hilbert空間中的內(nèi)積，來判別樣本所屬類別?？紤]到RBF核函數(shù)優(yōu)于其他核函數(shù)，本文使用RBF核函數(shù)。本文利用公開軟件LibSVM〔version3.18〕訓(xùn)練SVM中的C-SVC,其性能依靠于參數(shù)的選擇，所需選擇的參數(shù)為：C和gamma.華而不實C是懲罰參數(shù)，是對錯分點的懲罰；gamma是RBF核函數(shù)中的參數(shù)，它決定向量機的推廣能力。2計算結(jié)果及討論在計算中，參數(shù)C=200和gamma=0.1.使用10折穿插驗證程序評價我們的預(yù)測算法，預(yù)測結(jié)果的有效性主要考慮了下面幾個指標(biāo)：ACC=〔TP+TN〕/〔TP+FP+TN+FN〕SE=TP/〔TP+FN〕SP=TN/〔TN+FP〕PRE=TP/〔TP+FP〕華而不實，TP表示真的正樣本〔truepositives〕；TN表示真的負(fù)樣本〔truenegatives〕；FP表示假的正樣本〔falsepositives〕和FN表示假的負(fù)樣本〔falsenegatives〕；ACC〔正確率〕，SE〔靈敏度〕，SP〔特指度〕和PRE〔精度〕。針對兩組數(shù)據(jù)集PRI367和PRI369,分別取100,500,1000個三聯(lián)體-核苷酸組合特征建立特征向量進(jìn)行計算，結(jié)果見表1和表2.華而不實N-feature表示所選取的三聯(lián)體-核苷酸傾向性的個數(shù)。由計算結(jié)果能夠看出，隨著所選特征的增加，RPI369的正確率有一定的提高，而RPI367的正確率反而降低了。當(dāng)特征個數(shù)增加到1000時，正確率沒有太大的變化。而在當(dāng)前僅僅基于序列預(yù)測蛋白質(zhì)-RNA互相作用的工作[3]中，對RPI369數(shù)據(jù)集使用兩種分類方式方法〔RF和SVM〕施行10折穿插驗證，正確率分別為76.2%和72.8%.在以前的研究工作中，基于NaveBayes-ian的分類方式方法對RPI367和RPI369進(jìn)行10折穿插驗證，正確率僅僅到達(dá)77.6%和75.0%.通過比擬，能夠看出本文的計算結(jié)果更好一些。氨基酸三聯(lián)體和核苷酸的互相作用傾向性被用于預(yù)測RNA結(jié)合位點得到了很好的預(yù)測結(jié)果，于是我們試圖把它運用到蛋白質(zhì)-RNA互相作用的預(yù)測中。考慮到每對蛋白質(zhì)-RNA序列中三聯(lián)體-核苷酸的傾向性的差異不同，重新定義了一個權(quán)重傾向性度量，然后利用此度量計算每類三聯(lián)體-核苷酸的傾向性。計算結(jié)果證實了本文所選特征的有效性，同時也講明了三聯(lián)體-核苷酸的互相作用傾向性在蛋白質(zhì)-RNA互相作用預(yù)測中起著不可忽視的重要作用。以下為參考文獻(xiàn)：[1]PANCALDIV,BAHLERJ.InsilicocharacterizationandpredictionofglobalproteinRNAinteractionsinyeast[J].NucleicAcidsRes.,2018,39:5826-5836.[2]BELLUCCIM,AGOSTINIF,MASINM,etal.Predic-tingproteinassociationswithlongnoncodingRNAs[J].Nat.Methods,2018〔8〕：444-445.[3]MUPPIRALAUK,HONAVARVG,DOBBSD.Predic-tingRNA-proteininteractionsusingonlysequenceinfor-mation[J].BMCBioinformatics,2018,12:489.[4]WANGY,CHENXW,LIUZP,etal.Denovopredic

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

預(yù)測蛋白質(zhì)和RNA相互作用的方法研究,生物工程論文

文檔簡介

溫馨提示

最新文檔

評論

預(yù)測蛋白質(zhì)和RNA相互作用的方法研究,生物工程論文

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔