![基于離散增量結合二次判別分析法的蛋白質相互作用預測_第1頁](http://file4.renrendoc.com/view/539119265110ae433b2224536d6a8c78/539119265110ae433b2224536d6a8c781.gif)
![基于離散增量結合二次判別分析法的蛋白質相互作用預測_第2頁](http://file4.renrendoc.com/view/539119265110ae433b2224536d6a8c78/539119265110ae433b2224536d6a8c782.gif)
![基于離散增量結合二次判別分析法的蛋白質相互作用預測_第3頁](http://file4.renrendoc.com/view/539119265110ae433b2224536d6a8c78/539119265110ae433b2224536d6a8c783.gif)
![基于離散增量結合二次判別分析法的蛋白質相互作用預測_第4頁](http://file4.renrendoc.com/view/539119265110ae433b2224536d6a8c78/539119265110ae433b2224536d6a8c784.gif)
![基于離散增量結合二次判別分析法的蛋白質相互作用預測_第5頁](http://file4.renrendoc.com/view/539119265110ae433b2224536d6a8c78/539119265110ae433b2224536d6a8c785.gif)
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于離散增量結合二次判別分析法的蛋白質相互作用預測
0idqd算法用于pp預測的理論研究蛋白質相互作用(iu)是遺傳因素復制、遺傳因素調節(jié)、細胞代謝、信號調節(jié)和通信等許多生命活動的過程。雖然有許多傳統(tǒng)的實驗方法,但它們對人類疾病的分子機制的研究和藥物開發(fā)也具有重要的理論意義。雖然有許多關于蛋白質相互作用的傳統(tǒng)方法,如化學交聯(lián)法、免疫共沉淀法和雙殼素聯(lián)合技術等。然而,這些實驗方法需要很長時間,成本高。提出了遺傳因素融合法、基因附近法、種系輪廓發(fā)生法等理論方法,以及支持向量機(svm)和貝葉斯評估算法等機器學習算法來預測蛋白質相互作用。隨著系統(tǒng)生物學的快速發(fā)展,人們越來越意識到從系統(tǒng)和網(wǎng)絡的角度研究蛋白質功能的新理論,并探索新的理論方法對蛋白質功能的研究具有重要價值。作為一種相對成熟的數(shù)據(jù)分類理論方法之一,分散擴散法(id)和二次評價分析表明了qd(qd)方法(qd)的引入和成功應用。在這項工作中,我們第一次將idqd方法應用于模型預測,并將人類蛋白質相互作用數(shù)據(jù)作為研究對象。根據(jù)蛋白質一的結構序列特征,利用idqd方法預測蛋白質相互作用,取得了良好的結果。結果表明,idqd算法可以用于預測填充數(shù)據(jù)。1材料和方法1.1ds特點(1)離散量和離散增量離散量(diversitymeasure)是對狀態(tài)空間的信息描述,也是對樣本整體不確定性的度量.對于狀態(tài)空間X:{x1,x2,…,xd},每一個性狀出現(xiàn)的頻數(shù)分別是n1,n2,…,nd,則其離散量定義為:一般來說,樣本本身的整體不確定性程度需要和標準源比較來確定,即由樣本特征的離散分布D(X)和標準源特征的離散分布D(S)的比較來確定.定義標準源S的離散源為S:[m1,m2,…,md]對于兩個離散源:X:[n1,n2,…,nd]和[m1,m2,…,md],離散增量(incrementofdiversity,ID)定義為:假設對一個樣本可以提取r組特征,每組特征可由上式給出其ID描述.將r個ID構成一個r維二次判別向量R(ID1,ID2,…,IDr),則判別其分類歸屬的二次判別函數(shù)由下面的公式給出:這里δi=(R-μi)T(Ci)-1(R-μi),i=1,2.其中Ni是訓練集(i=1,2,分別代表陽性訓練集和陰性訓練集)的樣本總數(shù),即先驗概率,δi(i=1,2)是第i類別的R與μi之間的馬氏距離,μi(i=1,2)是第i類別的訓練集中R的平均向量,Ci(i=1,2)是第i類別的r×r維協(xié)方差矩陣,|Ci|是矩陣Ci的行列式值.兩類樣本的協(xié)方差矩陣為:上述判別函數(shù)由Bayes理論導出,這里是陽性集和陰性集后驗概率比的自然對數(shù).如果特征選的合適,陽性集和陰性集可在ξ空間的0附近區(qū)分開.不過,由于陰陽集樣本數(shù)的有限性,并且可能對正態(tài)分布有偏離,這時兩個集合在空間的分界點不一定是0,最佳分界值往往由經(jīng)驗確定.1.2非蛋白質相互作用對為了評價IDQD算法識別結果的準確性,定義了以下幾個指標:敏感性Sn,特異性Sp,總體準確度TA,相關系數(shù)CC.其中,TP為真陽性樣本數(shù),表示預測正確的蛋白質相互作用對;FN為假陰性樣本數(shù),表示預測為無相互作用的蛋白質相互作用對;TN為真陰性樣本數(shù),表示預測正確的非蛋白質相互作用對;FP為假陽性樣本數(shù),表示預測為有相互作用的非蛋白質相互作用對.ROC(ReceiverOperatingCharacteristics)曲線常用來評價某一算法的優(yōu)劣或對幾種分類器的預測能力進行比較.ROC曲線是在分類器取不同閾值的情況下描點繪制成的二維曲線圖.通常以假陽性率(falsepositiverate,FPR=1-Sp)為橫坐標,以真陽性率(Sn)為縱坐標繪制ROC曲線.目前對預測模型的檢驗方式主要有三類:自洽檢驗,k-fold交叉檢驗和jack-knife檢驗.通常對所研究的樣本進行自洽檢驗和jack-knife檢驗的結果都會優(yōu)于k-fold交叉檢驗的結果,然而k-fold交叉檢驗更符合實際的需要.本文采用自洽檢驗和3-fold交叉檢驗結合上述四個指標和ROC曲線來評價IDQD算法的預測能力.1.3陽性數(shù)據(jù)集和陰性數(shù)據(jù)集的構建人類蛋白質相互作用數(shù)據(jù)、注釋信息及蛋白質的一級序列數(shù)據(jù)均來自DIP(DatabaseofInteractingProteins)數(shù)據(jù)庫,版本號為Hsapi_20090126,包括2171個相互作用蛋白對,涉及1815個蛋白.首先將原始數(shù)據(jù)中注釋信息標識可信程度不高的相互作用對及缺少序列信息的數(shù)據(jù)去除,進一步剔除非物理相互作用蛋白對,最后將蛋白自身相互作用的情況過濾掉.經(jīng)過以上篩選過程,最終獲得由1962個蛋白質相互作用對(共涉及1703個蛋白)構成的陽性數(shù)據(jù)集.陰性數(shù)據(jù)集是由沒有相互作用的蛋白對構成的.本工作首先將陽性數(shù)據(jù)集涉及的蛋白隨機組對,并去除陽性集中出現(xiàn)的相互作用蛋白對.這里不考慮蛋白質相互作用的方向性,即認為A-B與B-A是同等的,因此,只保留一對即可.經(jīng)上述去冗余處理后保留下來的組對認為都是沒有相互作用的蛋白對.從此數(shù)據(jù)集中隨機抽取與陽性數(shù)據(jù)量相當?shù)臄?shù)據(jù)構成陰性數(shù)據(jù)集.1.4氨基酸的分類氨基酸是蛋白質的基本組成單位,雖然自然界中存在許多種氨基酸,但是蛋白質中常見的氨基酸只有20種,這20種氨基酸的側鏈在形狀、大小、所帶電荷、形成氫鍵的能力以及化學活性等方面都存在著差異.依據(jù)這些差異,可以從不同的角度對氨基酸進行分類.本文依據(jù)R基團的體積和極性將氨基酸約化為7類,見表1所示.基于這樣的約化,蛋白質序列中的每一個氨基酸都被其所在的分類號取代,進而形成新的符號序列.例如序列“MTDNPQKRAC...”就被轉化為“3364245517...”.依據(jù)氨基酸的化學特性,氨基酸同時又可以約化為8類,如表2所示.2蛋白質與蛋白質相互作用的預測2.1氨基酸約化和待測蛋白的增加考慮到蛋白質的組分特征和空間結構與相互作用的密切聯(lián)系,我們選取蛋白質緊鄰氨基酸多聯(lián)體,即緊鄰k-mer出現(xiàn)的頻數(shù)作為IDQD分類的離散源.若直接統(tǒng)計20種氨基酸的k聯(lián)體頻次,對于每一個蛋白質就可構成20k維的離散源.當k=4時,離散源的維數(shù)便是160000.這樣高的維數(shù)會使計算量急劇增加,所以我們按照氨基酸的物理化學性質對其進行約化以降低計算維數(shù).結合1.4節(jié)中提到的氨基酸約化的兩種方式,我們選擇了兩組參數(shù),第一組參數(shù)選取氨基酸約化為7類時的5-mer出現(xiàn)頻數(shù),每對蛋白質構成2×8575維向量X1(合并倒序重復,如13456與65431被認為是一種組成形式).第二組參數(shù)選取氨基酸約化為8類時的5-mer出現(xiàn)頻數(shù),每對蛋白質構成2×16640維向量X2(同樣合并倒序重復).X1和X2構成待測蛋白對的2個離散源.類似地,由訓練陽性集和陰性集分別建立2個陽性集和2個陰性集標準源.通過式(1,2)計算得到待測蛋白對與陽性集標準源和陰性集標準源之間的4個離散增量ID1、ID2、ID3和ID4,構成待測蛋白對的4維二次判別參數(shù),利用公式(3),(4)計算ξ,依據(jù)最佳閾值進行分類判別.2.2單氨基酸、2-mer檢測文章基于上述特征使用IDQD算法對人類的PPI進行了預測,我們同時采取自洽檢驗和3-fold交叉檢驗對預測結果進行評價.在取最佳閾值ξ0時,預測結果見表3,其ROC曲線見圖1.由表3可知,在最佳閾值時進行預測的自洽檢驗結果為:Sn=76.04%,Sp=75.74%,TA=75.89%,CC=0.52;3-fold交叉檢驗的結果為:Sn=64.22%,Sp=64.68%,TA=64.45%,CC=0.29.在圖1中,曲線1指自洽檢驗的ROC曲線,曲線2指3折交叉檢驗的ROC曲線.作為比較,我們分別以蛋白對的單氨基酸、2-mer頻數(shù);氨基酸按照功能特性約化為4類時蛋白對的3-mer、5-mer頻數(shù);氨基酸根據(jù)R基團的體積和極性約化為7類時蛋白對的5-mer頻數(shù)以及氨基酸依據(jù)自身的化學特性約化為8類時蛋白對的5-mer頻數(shù)作為離散源進行IDQD預測,自洽檢驗的預測結果如表4所示,ROC曲線見圖2.類型1、2分別指以蛋白對的單氨基酸和2-mer出現(xiàn)頻數(shù)為特征;類型3、4各指以氨基酸約化為4類時蛋白對的3-mer、5-mer頻數(shù)為特征;類型5指以氨基酸約化為7類時蛋白對的5-mer出現(xiàn)頻數(shù)為特征;類型6指以氨基酸約化為8類時蛋白對的5-mer出現(xiàn)頻數(shù)為特征;類型7指以氨基酸約化為7類和8類時蛋白對的5-mer出現(xiàn)頻數(shù)為特征的ROC曲線.表4和圖2表明,使用IDQD算法對人類PPI進行預測時,以氨基酸約化為7類和8類時蛋白對的5-mer頻數(shù)為特征的預測結果明顯優(yōu)于選取其它特征參數(shù)時的預測結果.3idqd預測精度預測的未來研究方向由表3數(shù)據(jù)可以看出,整合7分類與8分類5-mer頻數(shù)為特征時,自洽檢驗與交叉檢驗預測總體準確度分別達到75.89%和64.45%,這說明,該IDQD模型預測PPI具有一定的區(qū)分度.表4顯示,單獨以約化為7類時蛋白對的5-mer頻數(shù)和單獨以約化為8類時蛋白對的5-mer頻數(shù)為特征的預測結果明顯高于其它特征下的結果,這表明這兩種特征更能夠反映PPI形成過程的機理.R基團的體積和極性,氨基酸的化學性質以及氨基酸的空間位置在蛋白質相互作用中起著重要的作用.使用我們的IDQD模型對PPI進行預測時,既能反映蛋白質相互作用區(qū)域氨基酸殘基的性質,同時又包含空間上距離比較近的殘基特性,所以可達到有意義的預測效果.比較表3和表4,可以看出結合兩種5-mer特征參數(shù)的預測結果處于單獨約化為7類和8類的之間,這進一步表明PPI與這兩種特征參數(shù)都相關,但又不是完全獨立相關.為了進一步說明預測結果的精度并比較幾種檢驗的差異性,本文也繪制了各自的ROC曲線.由圖2可知,類型6最好,以兩種5-mer頻數(shù)為特征的ROC曲線次之,類型5居第三,而以兩種5-mer頻數(shù)為特征的ROC曲線更接近于類型6,這表明基于約化為8類時蛋白對的5-mer頻數(shù)是PPI形成過程中的更重要因素.特征信息的準確提取,加上高維信息空間映射函數(shù)ID和非線性判別函數(shù)QD的結合,是IDQD算法成功的重要保證.本工作首次將IDQD算法用于蛋白質相互作用的預測研究,并在蛋白氨基酸序列不同特征的統(tǒng)計分析基礎上,對蛋白質一級結構的組分特征進行比較與探討,得到了有價值的預測效果,這對進一步理解蛋白質結構與其相互作用的關系有一定的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度海上鉆井平臺聘用駕駛員安全服務合同
- 2025年度汽車駕駛員勞動合同續(xù)簽與交通違法行為責任協(xié)議
- 2025年度綠色交通基礎設施建設融資協(xié)議書
- 施工單位關于施工方案調整的工作聯(lián)系函
- 遠程教育技術在小學教育中的應用
- 高處墜落機械傷害搶救應急預案格式
- 二手車質押貸款合同范文
- 不履行租賃合同起訴書范本
- 臨時聘請合同書
- 上海市糧食買賣合同參考樣本
- 2025年常德職業(yè)技術學院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 政治-湖北省湖部分名校(云學名校聯(lián)盟)2025屆高三1月聯(lián)考試題和答案
- 行政單位會計核算職責(4篇)
- 《義務教育道德與法治課程標準》解讀
- 2025年春新滬科版物理八年級下冊全冊教學課件
- 2025年國家廣播電視總局監(jiān)管中心招聘5人高頻重點提升(共500題)附帶答案詳解
- 2025年中國私域電商行業(yè)市場運行態(tài)勢、市場規(guī)模及發(fā)展趨勢研究報告
- 財務核算管理制度
- 2024年山東省淄博市中考英語試題(含答案)
- 五十鈴、豐田全球化研究
- 升降柱建設方案
評論
0/150
提交評論