版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
行分析和處理,使人們能夠從分子層面上了解的發(fā)病機(jī)制,從而更加準(zhǔn)確地進(jìn)行的診斷,引起了人們極大的。針對(duì)傳統(tǒng)排序聚合方法可能忽視單次排序中得分較高的以及所產(chǎn)生的基的前TopK個(gè)中選擇具有代表性的、互不關(guān)聯(lián)的用于表達(dá)數(shù)據(jù)分類。在7個(gè)常用的表達(dá)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明本文方法在相同個(gè)數(shù)針對(duì)表達(dá)數(shù)據(jù)分析時(shí)通常選擇一個(gè)子集用于分類可能造成信息損失分組中采用隨機(jī)選擇的方式選擇一條生成子集重復(fù)多次得到多個(gè)基分類器最后采用多數(shù)投票進(jìn)行融合集成在7個(gè)表達(dá)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明方法分類誤差較低,分類性能穩(wěn)定,可擴(kuò)展性好。:表達(dá)數(shù)據(jù);特征選擇;近鄰聚類;集成學(xué)EnsembleLearningBasedGeneSelectionandSampleThegenechiptechnologyprovidesanewmethodfordiseasediagnosis,treatmentandthedevelopmentofnewdrugs.Meanwhile,lotsofdisease-associatedgeneexpressiondatasetsaregenerated.Itmakespeopleunderstandthepathogenesisofcancerfromthemolecularlevelyzingandprocessingthiskindofdatasets,andinspiredgreatEnsemblelearninghasbeenwidelyappliedtomanyareasofmachinelearning,includinggeneexpressiondata.Comparingwithsinglemodel,lotsofprocessorsareusedtosolveoneproblemintheensemblelearningmodel,anditprovidesmorerobustandaccurateclassification.Whenensemblelearningmethodsareusedtoyzethedisease-associatedgeneexpressiondatasets,thetestsampleswillbeaccurayclassified.Therefore,employingensemblelearningmethodtoyzecancer-associatedgeneexpressiondatasetsisthemaincontentsofourpaper.Rankingaggregationmethodcanprovidesmorerobustandaccurategenesubset,butitmayignoresomegeneswhichhavehighscoresinsinglerankandtheobtainedgenesubsetmaycontainanyredundantgenes.Tosolvetheseproblems,affinitypropagationclusteringisapplied,asitcanselectrepresentativeandunrelatedgenesfromtheprimariesgenesubsetwhichcontainsthegeneswithhighscoreinsinglerank.Experimentalresultsonsevengeneexpressiondatasetsshowthattheproposedmethodcanselectmorerobustgenesubsetwithstrongerdistinguishabilityforsamplesandbetterclassificationeffect.Asonlyonegenesubsetisselectedforclassificationingeneexpressiondataysis,itmayresultinlossofinformation.Drawtheideasofensemblefeatureselectionmethod,weproposedanewensemblelearningmethod,whichbasedonthegenesranking,selectionandgrou.Firstly,manygenesubsetsareproducedbyrandomlyselectingagenefromenchgenegroupandcombiningthem.Secondly,basicclassifiersaretrainedinfeaturesubspacecorrespondingtogenesubsets.Finally,theresultsoftestdatausingthesebasicclassifierscanbeintegratedbymajorityvote.Experimentalresultsonsevengeneexpressiondatasetsshowthattheproposedmethodhaslowclassificationerror,stableperformanceandexcellent
:EnsembleLearning;Classification;GeneMicroarray;Affinity 緒 研究背景與意 研究現(xiàn) 本文的研究內(nèi)容及結(jié) 相關(guān)生物學(xué)數(shù)據(jù)分析與處 miRNA及其和聚簇?cái)?shù) miRNA靶預(yù)測工具的選 蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù) 蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù) 蛋白質(zhì)相互作用網(wǎng)絡(luò)權(quán)重計(jì)算方 GeneOntology相關(guān)數(shù) GeneOntology相關(guān)知 GeneOntology相關(guān)應(yīng) 本章小 基于PPIN和圖算法的miRNA功能相似性計(jì) miRNA功能相似性計(jì)算的整體框 權(quán)重蛋白質(zhì)相互作用網(wǎng)絡(luò)的構(gòu) 蛋白質(zhì)相互作用網(wǎng)絡(luò)的集 蛋白質(zhì)相互作用網(wǎng)絡(luò)權(quán)重計(jì) 靶間功能相似性計(jì) 網(wǎng)絡(luò)最短路徑相關(guān)算 靶功能相似性計(jì) miRNA功能相似性計(jì) 實(shí)驗(yàn)結(jié)果與分 本章小 基于功能相似網(wǎng)絡(luò)和直推式多分類算法的miRNA功能預(yù) miRNA功能預(yù)測的整體框 基于聚類系數(shù)的miRNA功能相似網(wǎng)絡(luò)構(gòu) 研究背景與意增殖機(jī)制失常而引起的疾病,于2011年超過心臟病,成為全球第一大原因,而且年新增病例每年都在增加。2014年2月發(fā)布的《WorldCancerReport病例還將增加50%,達(dá)到每年2160萬人。中國的新增病例前景堪憂。報(bào)告中2012年確診的新增病例有近一半出現(xiàn)在亞洲,其中大部分,而整個(gè)歐洲的新增病例才接近1/4,美洲約占1/5,非洲和中東則剛剛超過8%,如圖1.1所示。因此,對(duì)的診斷和治療進(jìn)行研究分析具有十分重要的現(xiàn)實(shí)意義。中中拉丁美大洋百分比50地圖 Fig. Thedistributionofworld’snewcancercasesin技術(shù)為診斷研究提供了高效客觀的研究方法[2]GeneChip)技術(shù),又稱DNA微陣列(DNAMicroarray)技術(shù),是20世紀(jì)90年物cDNA4種核苷進(jìn)而獲得待測樣本的表達(dá)信息。這使研究者們能夠同時(shí)獲得研究對(duì)象在任意條件、任意時(shí)間下成千上萬的表達(dá)模式,從分子層面上研究的產(chǎn)生與發(fā)展,為了解、預(yù)防、診斷以及遴選抗癌藥物等提供了更加快捷、準(zhǔn)確的方法。自1999年Golub[3]等在Science雜志上題為《MolecularClassificationofCancerClassDiscoveryandClassPredictionbyGeneExpressionMonitoring》的文章以來,采用技術(shù)研究診斷問題引起了研究者們的極大,并逐漸發(fā)展成為了生物信息學(xué)領(lǐng)域的研究熱點(diǎn)之一?;诩夹g(shù)的診斷研究可以看成是對(duì)相關(guān)的表達(dá)數(shù)據(jù)的分類NearestNeighbors,KNN)、支持向量機(jī)[5](SupportVectorMachine,SVM)、貝葉斯(Na?veBayesNB)、決策樹[7](DecisionTree,DT)Fisher線性判別分析[8](Linear更好的集成學(xué)習(xí)[9](EnsembleLearning)方法成為表達(dá)數(shù)據(jù)分類的重要研究內(nèi)容。20年來機(jī)器學(xué)習(xí)研究的熱點(diǎn)內(nèi)容,通過采用多個(gè)學(xué)習(xí)器對(duì)同一個(gè)問效的充要條件是學(xué)習(xí)器的精度高(所有學(xué)習(xí)器錯(cuò)誤率都應(yīng)當(dāng)?shù)陀?.5)而且是個(gè)研究領(lǐng)域,尤其是表達(dá)數(shù)據(jù)分析領(lǐng)域。采用集成學(xué)習(xí)方法對(duì)相關(guān)的表達(dá)數(shù)據(jù)進(jìn)行研究具有以下意義提高診斷準(zhǔn)確性。在診斷研究中,如何對(duì)測試樣本給予一個(gè)精確的夠降低診斷模型受這些因素的影響,在的應(yīng)用當(dāng)中獲得穩(wěn)定的預(yù)測結(jié)果。降低高維度的對(duì)分類的影響。在表達(dá)數(shù)據(jù)分類時(shí),高維度問題困擾了很多分類算法,在分類前通常需要進(jìn)行特征()選擇,而且其選擇的好壞也關(guān)系到分類效果的好壞。許多選擇方法通常選擇少量的、類標(biāo)記關(guān)聯(lián)緊密的、彼此之間互不冗余的組成子集用于分類,然而一個(gè)子集的分類能力是有限的,同時(shí)一個(gè)與類標(biāo)記有關(guān)聯(lián)的、與已選相互冗余的對(duì)分類也會(huì)產(chǎn)生行融合,避免選擇導(dǎo)致的分類信息損失帶來的影響,提高模型的預(yù)測性能。研究現(xiàn)(1)選擇方面。選擇少量的合適的能夠獲得較好的樣本分類效果。然而,對(duì)同一個(gè)數(shù)據(jù)集采用不同的選擇方法或采用同一個(gè)選擇方法對(duì)進(jìn)行小樣本”的表達(dá)數(shù)據(jù)中,顯得尤為突出。為了獲得一個(gè)穩(wěn)定的、準(zhǔn)確的子集用于后續(xù)分析,Saeys[13]等人采用集成學(xué)習(xí)的思想,通過執(zhí)行多次排序,并把多個(gè)排序結(jié)果按照某一方式融合起來從中選擇,得到一個(gè)更為穩(wěn)定的子集。BoulesteixSlawski[14]對(duì)這類方法進(jìn)行了歸納和總結(jié)。Wald[15]把這類方法稱(2)分類模型設(shè)計(jì)方面。集成學(xué)習(xí)方法在降低數(shù)據(jù)集“高維度、小樣本、類不平衡”對(duì)分類模型影響方面具有很強(qiáng)的優(yōu)勢,同時(shí)還能夠降低分類模型對(duì)訓(xùn)練數(shù)據(jù)“過擬合”現(xiàn)象的發(fā)生可能性,能夠提高樣本分類的準(zhǔn)確度,對(duì)診斷研究具有十分重要的意義。目前,圍繞表達(dá)數(shù)據(jù)集成分類模型設(shè)計(jì),學(xué)者們提出了很多方法[16-29],主要集中在三個(gè)方面:①把經(jīng)典的集成學(xué)習(xí)方法(Bagging和Boosting方法)應(yīng)用到表達(dá)數(shù)據(jù)領(lǐng)域,Dettling[16,17]2003年成功將Boosting方法成功應(yīng)用到表示數(shù)據(jù)分析,此后2004年又將Bagging與Boosting相結(jié)合,將Bagging方法方法作為Boosting方法的一個(gè)模塊,提出了性能更優(yōu)的BagBoosting方法。②構(gòu)建基于特征選擇的集成學(xué)習(xí)。表達(dá)數(shù)據(jù)的高維度使得很多傳統(tǒng)的學(xué)習(xí)方法難以適應(yīng),在分類前通常需要進(jìn)行選擇,通常選擇一個(gè)較優(yōu)的子集用于分類,能夠有效提高分類模型的分類性能。然而在被剔除的中間,也存在與樣本分類相關(guān)的具有很強(qiáng)區(qū)分能力的,于是選擇方法就有可能造成分類信息的損失?;谔卣鬟x擇的集成學(xué)習(xí)方法通過生成多個(gè)存在差異的特征子集,在各自對(duì)應(yīng)的特征子空間中分別訓(xùn)練分類器構(gòu)建集成分類器,能夠有效避免選擇帶來的分類信息損失,提高分類模型的效能。rtoni等[18]將o[19]隨機(jī)子空間集成(RandomSubspaceMethod,RSM)法成功應(yīng)用于表達(dá)數(shù)據(jù)分類領(lǐng)域,并取得了比單分類器更好的識(shí)別效果;Hu等[20]選擇完全不同的來構(gòu)造多個(gè)C4.5分類器,增加了集成學(xué)習(xí)間的差異,但忽視了子集的樣本區(qū)分能力的不同,使獲得的訓(xùn)練基分類器,提出了一種源于隨機(jī)劃分的集成分類方法(ClassificationbyEnsemblesfromRandomPartitions,CERP)方法,適合高維數(shù)據(jù)分類,并用于。Liu[22]基于快速關(guān)聯(lián)過濾(FastCorrelated-BasedFilter,F(xiàn)CBF)提出了一種簡單、高性能、便于實(shí)現(xiàn)的分組集成選擇(EnsembleGeneSelectionbyGrou,EGSG)方法,該方法運(yùn)用近似MarkovBlanket進(jìn)行分組,使同組內(nèi)的相互關(guān)聯(lián),在此基礎(chǔ)上,從每個(gè)分組的前t個(gè)與類標(biāo)記關(guān)聯(lián)緊密的中運(yùn)用隨機(jī)方法選擇一條生成子集,在對(duì)應(yīng)的特征子空間中訓(xùn)練基分類器進(jìn)行集成,在表達(dá)數(shù)據(jù)分類中獲得了較高的③選擇集成方法研究。有研究表明[23-25]:選擇部分優(yōu)化后的基分類器子集進(jìn)行集成比使用所有基分類器集成效果要好。Png[23]采用mens聚類的方法將判別空間相似的分類器進(jìn)行分到一組,然后在從每個(gè)分組中挑選出一性的基分類器進(jìn)行集成,從而提高了用于集成的基分類器之間差異,獲得了較好的集成學(xué)習(xí)效果,同時(shí)減少了計(jì)算的開銷。文獻(xiàn)[24,25]均采用優(yōu)化算法(如遺傳算法[24]或粒子群算法[25])對(duì)產(chǎn)生大量的基分類器進(jìn)行優(yōu)選,從中選出最優(yōu)的組合來進(jìn)行集成,這類方法在提高集成效果的同時(shí),增加了時(shí)間復(fù)雜度,而且容易產(chǎn)生過擬合問題。④類不平衡問題。類不平衡問題是近年來機(jī)器學(xué)習(xí)研究的熱點(diǎn)內(nèi)容,關(guān)注的是數(shù)據(jù)樣本類不平衡或未被充分表達(dá)情況下學(xué)習(xí)算法的性能,主要采取的是通過抽樣技術(shù)使訓(xùn)練數(shù)據(jù)集的類重新平衡,或引入代價(jià)敏感技術(shù)使得分類算法適應(yīng)類不平衡數(shù)據(jù)。集成學(xué)類不平衡數(shù)據(jù)分類中具有以下優(yōu)勢[26]:一方面基分類器的構(gòu)建與抽樣技術(shù)結(jié)合在一起,使得基分類器的訓(xùn)練數(shù)據(jù)類平衡,在不增加計(jì)算代價(jià)的基礎(chǔ)上有效應(yīng)對(duì)類不平衡問題;另一方面多個(gè)分類器集成能夠在一定程度上提高分類模型應(yīng)對(duì)各種的能力,避免過擬合問題。lagus和us[27-29]圍繞類不平衡的表達(dá)數(shù)據(jù)的分類,研究了選擇,分類算法、抽樣技術(shù)等對(duì)分類的影響,結(jié)果表明:高維度加劇了類不平衡數(shù)據(jù)分類的;STE方法在低維數(shù)據(jù)中表現(xiàn)良好,在高維數(shù)據(jù)分類中表現(xiàn)欠佳,結(jié)合選擇方法后相比結(jié)合之前在一定程度上能夠提高分類性能;A算法在類不平衡問題不太激烈時(shí)能夠勝過大多數(shù)分類算法獲得較好的分類性能;同時(shí)基于欠抽樣技術(shù)的集成方法,比單個(gè)欠抽樣方法和過抽樣方法更適合類不平衡數(shù)據(jù)分類。inhn[12]lagus和ua研究的基礎(chǔ)上,對(duì)不平衡比率(Imblanertio)、類分離與覆蓋(Smalldijunctsndovrlapomplxity)、數(shù)據(jù)缺與選擇(kofdtandftureletion)對(duì)表達(dá)數(shù)據(jù)分類的影響進(jìn)行了進(jìn)一步的總結(jié),研究發(fā)現(xiàn)影響類不平衡數(shù)據(jù)中少數(shù)類分類準(zhǔn)確性的主要因素是數(shù)據(jù)缺乏;當(dāng)數(shù)據(jù)集類不平衡狀況不太SM,基于決策閾值調(diào)整的S(SMthrholddjutmnt,ST)方法能夠獲得了較好的分類效果。本文的研究內(nèi)容及結(jié)本文首先介紹了表達(dá)數(shù)據(jù)分類的相關(guān)技術(shù),包括表達(dá)數(shù)據(jù)的表示、基因選擇和分類方法。針對(duì)選擇,介紹了幾種常用排序方法,詳細(xì)介紹了集SVM分類方法,同時(shí)還介紹了不平衡數(shù)據(jù)對(duì)傳統(tǒng)的基于數(shù)據(jù)擾動(dòng)的排序聚合技術(shù)進(jìn)行了改進(jìn)針對(duì)獲得的子集中存在冗余以及最終選擇的子集可能忽視單次排序得分較高的部分的問題提出了基于融合聚類的改進(jìn)方法對(duì)所單次排序的合并后放入初選子集,然后以bicor系數(shù)為關(guān)聯(lián)衡量標(biāo)準(zhǔn),利用近鄰聚類算法進(jìn)行聚類,從中選擇具有代表性的互不關(guān)聯(lián)的作為最終的子集并通過實(shí)驗(yàn)驗(yàn)證了方法的有效性。在選擇的基礎(chǔ)上,針對(duì)冗余的、與樣本分類相關(guān)的也具有很強(qiáng)區(qū)分能力的問題,借鑒集成特征選擇方法的思想,在基于近鄰聚類的融合選擇的基礎(chǔ)上,從聚類獲得各個(gè)分組中隨機(jī)選擇一條,生成子集并用于訓(xùn)練分類器,重復(fù)的表達(dá)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了方法的正確性和良好分類性能。第二章介紹了表達(dá)數(shù)據(jù)的表示、分類流程,對(duì)當(dāng)前常用的選擇方法做了一衡數(shù)據(jù)分類的SVM改進(jìn)方法,最后還介紹了類不平衡數(shù)據(jù)分類的一些評(píng)價(jià)標(biāo)準(zhǔn)。第三章介紹了近鄰聚類算法的技術(shù)原理以及一種對(duì)噪聲不敏感的關(guān)聯(lián)度量標(biāo)準(zhǔn),對(duì)排序聚合技術(shù)所選子集存在冗余以及可能漏掉一些有用的問題采用近鄰聚類方法從所有單次排序的中選擇具有代表性的從而獲得更具區(qū)分能力的子集。選擇方法,然后借鑒分組集成選擇方法的思想,對(duì)第三章基于近鄰聚類子集的方式構(gòu)建集成特征選擇方法,實(shí)驗(yàn)驗(yàn)證的結(jié)果表明方法正確性和有效基于SVM的植物miRNA序列預(yù)植物miRNA預(yù)測模型的構(gòu)建框SVM的集成分類器,并且被命名為mirPlantPreMat。mirPlantPreMat不僅可以用來分類真假植物miRNA前首先,我們從miRNA數(shù)據(jù)庫miRBase(版本19)[]中全部植物miRNA前體序列,保留具有單一莖環(huán)結(jié)構(gòu)的前體序列,并且去除重復(fù)的前體序列,最終我們3126條非冗余且具有單一莖環(huán)結(jié)構(gòu)的植物前體miRNAmiRNAmiRNA體序列,這些植物miRNA前體序列作為負(fù)數(shù)據(jù)集。這個(gè)模型構(gòu)建過程分為如下幾部:(1)從正負(fù)數(shù)據(jù)集中分別隨機(jī)選取2000條數(shù)據(jù)用來訓(xùn)練mirPlantPreMatmiRNAmirPlantPre;(2)miRNA152(3B-SVM-RFE47個(gè)特征;(4)47個(gè)特征訓(xùn)練前體分類模型mirPlantPre;(5)3126條來自miRBase中的實(shí)驗(yàn)證實(shí)的植物miRNA3835條序列片段,即從miRNA成熟體序列的開始位置,一直擴(kuò)展到miRNA*序列的結(jié)束位置,既可能從5’端開始,也可能從3’端開始,將這些序列作為正數(shù)據(jù)集;(6)miRNA前體序列中抽39428條序列片段,這些序列不在上一步獲得的正數(shù)據(jù)集序列中,并且長度55nt和具有莖環(huán)結(jié)構(gòu),將這些序列作為負(fù)數(shù)據(jù)集;(7)1000條正集5000SMOTE算法[]對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,保證正負(fù)數(shù)1:1訓(xùn)練該模型時(shí)使用通過B-SVM-RFE63維特征(8mirPlantPre和mirPlantMat結(jié)合在一起來構(gòu)建集成分類模型mirPlantPreMat。正負(fù)數(shù)據(jù)集選一個(gè)有效的植物miRNA前體和成熟體分類器應(yīng)該能夠?qū)⑻撉绑w和成熟體響分類的準(zhǔn)確率。我們所采用的正集是由已知的實(shí)驗(yàn)證實(shí)的植物前體和成熟體miRNA序列數(shù)據(jù),而負(fù)集是由虛番茄、大豆和擬南芥數(shù)據(jù)組成。,miRBase數(shù)據(jù)庫(19版本)6378miRNA成熟體Vienna[]工具包中的RNAfold預(yù)測出這些序列的二級(jí)結(jié)構(gòu)。在這些前體miRNA序列中3126條非冗余且具有單一莖環(huán)結(jié)構(gòu)的序列作為訓(xùn)練mirPlantPremiRNA序,53nt938ntmiRNA序列具有更加復(fù)雜的二級(jí)miRNA序列上成熟體miRNA和miRNA*的位置。在本研究中,真實(shí)的植物前體miRNA在其已公布的成熟體miRNA的位置處截?cái)?,該位置既可能?’端,也可能在3’端,截?cái)嗪蟮那绑wmiRNA序列作為訓(xùn)練模型mirPlantMat的真實(shí)的數(shù)據(jù)樣本。進(jìn)而,體miRNA序列上除了真實(shí)成熟體miRNA的位置外的其他任何位置截?cái)嗨玫那绑wmiRNA序列都可以作為虛數(shù)據(jù)樣miRNA序列將展現(xiàn)出較小的長度范圍,并且前體上每個(gè)區(qū)域的結(jié)構(gòu)幾乎所有被公布的miRNA的位置是分布在非轉(zhuǎn)錄區(qū)域或者是間隔區(qū)域。在組miRNA序列相似的莖環(huán)結(jié)構(gòu),但卻沒miRNA序列公布出來。因?yàn)橛?xùn)練出的分類模型是要用來正確區(qū)分相似的真假前體miRNAmiRNA上的CDSsmiRNA120nt左右,因此,我60nt150nt中選取滑動(dòng)窗口,并用該滑動(dòng)窗口在CDSs上掃描,進(jìn)而5種條件,即發(fā)卡結(jié)構(gòu)上的堿基對(duì)數(shù)目,%G+C,MFEImiRNA序列的互補(bǔ)堿基配對(duì)和涉及到MFE率的前體miRNAmiRNA序列來19個(gè)堿基對(duì),%G+C0.2420.825,MFEI0.522,1.39miRNA序列與其互補(bǔ)序列中存在最多不37p-value0.01和37℃下計(jì)算所有前體序列的二級(jí)結(jié)構(gòu)。對(duì)于MFE的頻率分布和經(jīng)驗(yàn)分布,我們采用改進(jìn)的S型函數(shù)進(jìn)行建模。xMFElengthf(x)
blength代表前體miRNAa1.339e12b2.7783e13和c45.843f(xf(x)4.42。最終,我們獲得8494條虛前體miRNA序列作為負(fù)集數(shù)據(jù)。在訓(xùn)練分類模型mirPlantMatmiRNA序列上獲取不在成miRNAmiRNA*序列所在位置剪切的序列片段,然后將這些mirPlantMat的負(fù)集數(shù)據(jù)。這些序列片mirPlantMat的訓(xùn)練集中正集樣本,或是被正集樣本包含。在虛假前體miRNA的莖區(qū)序列上,一個(gè)堿基與其所在鏈的對(duì)立鏈上的另一個(gè)堿基配對(duì),我們類不平衡問題及SMOTEmiRNA60nt150nt,而每一條前體序列只包含一個(gè)成熟體miRNA,因此,從一條前體序列上將能獲得遠(yuǎn)不止一個(gè)虛假的成熟體miRNAmirPlantPre時(shí)所采用的正負(fù)訓(xùn)練集比例應(yīng)用于訓(xùn)練mirPlantMat,勢必會(huì)導(dǎo)致大量的負(fù)集樣本缺失,進(jìn)而這些缺失的負(fù)樣本所攜1:5,即如果我們選擇一個(gè)正訓(xùn)練集樣本,那么同時(shí)要高的假負(fù)率出現(xiàn)。為了解決該不平衡分類問題,我們采用了SMOTE算法對(duì)正負(fù)訓(xùn)2002年,Chawla首次提t(yī)echniqueSMOTE算法屬于過抽樣方法,它的主要思想是通過在少數(shù)類樣本集中,向一些位樣本,因此在一定程度上可以解決分類器過擬合問題。SMOTE算法的實(shí)現(xiàn)步驟如Nx的k樣本,并在這個(gè)k個(gè)最緊鄰樣本中隨機(jī)選擇N個(gè)樣本,記作y1, yN;在少數(shù)xyi(i12,Nzirand(0,1表示(0,1特征提取及特征選擇植物miRNAmiRNA的序列及其二級(jí)結(jié)構(gòu)的許多特征對(duì)分類首先,我們引入了Triplet-SVM[]3232維的結(jié)構(gòu)特征定義為:”C(((“,”A(.(“,…,”U…”,其中左括號(hào)”(”表示體miRNA3‘端鏈上的相應(yīng)堿基使用右括號(hào)”)”表示。一個(gè)圓點(diǎn)”.”表示一個(gè)堿基不與其在相對(duì)鏈miPred[]29維的序列及其二級(jí)結(jié)構(gòu)相關(guān)特征。16個(gè)堿基對(duì)的出現(xiàn)頻率,即%XYX,YA,C,U,G。%XYXY(L1)100XYXYL關(guān)的特征是%GC,表示體miRNA序列中鳥嘌呤G與胞嘧啶C的含量之和%(GC)(GC)L100GC表示其在該序列中的出現(xiàn)次數(shù)。該分類器所采用的二級(jí)結(jié)構(gòu)相關(guān)特征是通過RNAfold計(jì)算得到的,其中p-value設(shè)為0.01,溫度為37℃,所得的最小自由能為MFE,最終獲得如下特征:(1)標(biāo)準(zhǔn)化的最小自由能dGMFEL[]。(2)最小自由MFEI1dG%(GC與MFEI2dGn_stems,其中n_stems表示在預(yù)測得到的前體miRNA二級(jí)結(jié)構(gòu)中莖的數(shù)目,包含三個(gè)連續(xù)堿基對(duì)的結(jié)構(gòu)稱為一個(gè)莖[]。(3)標(biāo)準(zhǔn)化的堿基對(duì)傾向dPtot_basesL,其中tot_bases是前體miRNA二級(jí)結(jié)構(gòu)中的所有P(SeE
ZZ
eERTSS(x)
ESR8.31451Jmol1K1T表示溫度310.15K(37℃)。堿基ijp
),如果堿基ij是一個(gè)堿基對(duì),則1,否則0
dQ
。ijpijlog2(pij)。 (
p2dD
i
L
[]。(6)第二(菲爾德)特征值dF可以通過一個(gè)樹圖GRNA二級(jí)結(jié)構(gòu)SL(G是樹圖GL(G)的第二特征值dFdF[L(dF[L(G)]可以用作RNA二級(jí)結(jié)構(gòu)的相似性度量(6結(jié)構(gòu)特征dG,dP,dQ,和dFzGzPzQzDzFdX Z(dX)
;
(dXidX)RR其中dX和dX是特征dX的樣本均值和樣本方差,是基于來自原始序列隨機(jī)產(chǎn)生的RR103。microPred[]RNAfoldMFEI3dGn_loops和MFEI4MFEtot_bases,其中n_loops是二級(jí)結(jié)構(gòu)的數(shù)目;標(biāo)準(zhǔn)化集成自由能NEFEEFEL,其中EFERTln(Z[]Freqe(EFEMFE)RT[];機(jī)構(gòu)差異性(堿基i,對(duì)距離)Diversityi,
pij(1pij
MFE
LMfolddS,標(biāo)準(zhǔn)化的結(jié)構(gòu)熵dSL,結(jié)構(gòu)焓dH,標(biāo)準(zhǔn)化結(jié)構(gòu)焓dHL,結(jié)構(gòu)的熔化能Tm100dHdS,標(biāo)準(zhǔn)化的結(jié)構(gòu)熔化能TmL,以上這些熱力學(xué)相關(guān)特征都是由Mfold服務(wù)包中的UNAfold程序計(jì)算得到的[];新的堿A
L,G
LG
LX
XY%(A
第四組特征是PlantMiRNAPred[]MFEI5MFE%(GC_SMFEI6MFEstem_tot_bases%(GC_S莖中的堿基GC所占比例,stem_tot_bases是莖中堿基對(duì)的數(shù)目;每21nt長的序最后一組是我們?cè)诒狙芯恐行乱氲?9個(gè)特征,包括最小自由能索引MFEI7MFE%(GC_Begin_n_21ntsMFEI8MFE%(GC_End_n_21nts和MFEI9MFEAvg_mis_num,其中%(GC)_Begin_n_21nts是前21個(gè)堿基堿基GC所占比例,%(GC)_End_n_21nts是后21個(gè)堿基中堿基GC所占比例;莖的前21個(gè)堿基中錯(cuò)配數(shù)Mis_num_begin和后21個(gè)堿基中的錯(cuò)配數(shù)Mis_num_end;從miRNA 前體序列的前和后分別提取的Triplet-SVM 中的特征G(((_begin_SA(.(_begin_S和C(((_end_SG(.._end_S。改進(jìn)的SVM-RFE該算法的流程描述如下:(1)輸入訓(xùn)練樣本集
0x1,x2
xT及其相應(yīng)的 nyy1y2 y;(2)s12,152和排列好的特征列表rnnTns為止;(3)s中的特征在訓(xùn)練樣本上計(jì)算相應(yīng)的特征值XX0sSVM分類器SVMtrainX,y;(4)數(shù)為length(swyx;(5)對(duì)于所有的i計(jì)算排列索引cw)2kk k
argmin(c,然后更新特征排列列表rsfrss(1:f1,f1length(s(8確定最終的分類器重計(jì)算。因?yàn)槊看螀⑴c訓(xùn)練的特征數(shù)目不同,進(jìn)而訓(xùn)練的SVM分類器也不同,最終導(dǎo)基于信息增益[]的有放回的SVM-RFE算法,即B-SVM-RFE算法。該算法相較于SVM-RFE算法的改進(jìn)在于,當(dāng)排列完所有屬性的權(quán)值并且更新了s和r后,如果在r中sr中具有最高信息增益的屬性s中,然后重新訓(xùn)練SVM分類器。如果這時(shí)的交叉驗(yàn)證錯(cuò)誤率好于前一次ss中形成新的特征子集,否則,將該屬性從s中刪除重新放回r中。B-SVM-RFE算法的具體流程如圖所示。5折交叉檢驗(yàn)錯(cuò)誤識(shí)別率(LooErrorRate)試錯(cuò)誤識(shí)別率(TestErrorRate)5折交叉檢驗(yàn)分類器性能分SESP
TP FPAccGm
TPFPFNSESP其中,TP表示預(yù)測結(jié)果的真正率,即在預(yù)測為真的結(jié)果中確實(shí)為真的結(jié)果所占比例。TN表示預(yù)測結(jié)果的真負(fù)率,即在預(yù)測為結(jié)果中有多大比例的結(jié)果確實(shí)為假。FP表示預(yù)測結(jié)果的假正率,即在預(yù)測結(jié)果為真的樣本中預(yù)測錯(cuò)誤的樣本所占比例。FN表示預(yù)測結(jié)果的假負(fù)率,即在預(yù)測為樣本中錯(cuò)誤預(yù)測的樣本所占比例。為了體現(xiàn)我們mirPlantPreMat具有很好的推廣能力,mirPlantPre和mirPlantMat基于mirPlantPreMat的擬南芥miRNA預(yù)一些研究已經(jīng)表明,miRNAmiRNA在不同物種間體現(xiàn)出了保守的進(jìn)化關(guān)系[]miRNA,一個(gè)是我們可以通過序列和結(jié)構(gòu)相似性識(shí)別同源片段,另一個(gè)是可以使用已知的miRNA來識(shí)別未知的miRNA[]。到目前為止,miRBase(21版本)427條擬南芥成熟體miRNA,來自于47個(gè)。大量物種可能包含相同的miRNA,在本部分的研究中,我們采用已知的植物miRNA成熟體序列去識(shí)別未知的擬南芥成熟體miRNA。miRNAmiRBase(21版本)得到,總共包括8069條成熟體miRNA序列。為了找到擬南芥未知miRNA,需要通過已知的其他植物miRNA成熟體序列比對(duì)到擬南芥組序列上,發(fā)現(xiàn)具有相似性的序列,進(jìn)而預(yù)測擬南芥的miRNA,所以,我們還需要擬南芥的基因組數(shù)據(jù),這些數(shù)據(jù)我們從擬南芥數(shù)據(jù)庫TAIR[]。擬南芥成熟體miRNA基于其他植物的成熟體miRNA序列以及擬南芥組數(shù)據(jù),并通過我們預(yù)測模型預(yù)測擬南芥未知的miRNA序列,首先需要將其他植物的成熟體miRNA序列比對(duì)到擬南芥組的每條序列上,依據(jù)一些條件來選擇比對(duì)位點(diǎn),基于比對(duì)的結(jié)果在序列上截取待預(yù)測的擬南芥前體miRNA序列,最后,通過我們分類模型對(duì)這些前體miRNAmiRNA序列上的其他植物的成熟體miRNA就可能是擬南芥的未知成熟體miRNA,否則不是擬南芥的未知成熟體miRNA。是相似的,我們?cè)趯?shí)驗(yàn)中也遵循這個(gè)條件。在本研究中,基于SEED算法[]KMP算法,我們提出了一個(gè)新的序列比對(duì)算法。首先,已知的成熟體miRNA序列分為列片段。如果其中有一段是完全匹配的,則將其他段比對(duì)到組上,若是少于3個(gè)堿miRNARNAfold計(jì)算這些前體的二級(jí)結(jié)構(gòu)及最小自由能。最后,我們選擇那些滿足如下指標(biāo)的前體miRNA序列作為最終的待預(yù)測數(shù)據(jù)。這些指標(biāo)包括,在miRNA19個(gè),G+C0.2420.825之間,最小37個(gè)堿基的錯(cuò)配,并且沒有未知堿基“N”存在。最終4318個(gè)待預(yù)測的前體miRNA序列。將以上獲得的待預(yù)測前體miRNA序列輸入到我們的mirPlantPreMat預(yù)測模型中,744個(gè)潛在的擬南芥成熟體miRNA序列。本章小miRNA序列的預(yù)測。提出了一個(gè)新的基于SVM的分類器,可以很好的識(shí)別出真假前體miRNA及其成熟體miRNA152個(gè)序列結(jié)構(gòu)相關(guān)的特征集,并通過改進(jìn)的特征選擇算法B-SVM-RFE152個(gè)特征進(jìn)行選擇。最終,我們實(shí)現(xiàn)了一個(gè)集成的預(yù)測工具mirPlantPreMat,包含有兩個(gè)預(yù)測工具mirPlantPre和mirPlantMat,miRNAmiRNA序列預(yù)測問題。使用幾個(gè)植物物種的測試,我們分類模型能夠獲得大約90%的準(zhǔn)確率,同時(shí)也證明了我們的miRNA的預(yù)測中,744miRNA,證明了我們的分類器能夠很好的應(yīng)用于許多研究表明,miRNA在生物的生命進(jìn)程中起著至關(guān)重要的調(diào)控作用,并且很多miRNAmiRNA具有相同或相似的功能。我們已miRNA的序列和結(jié)構(gòu)相關(guān)特征,并通過這些特征成功的預(yù)測出了未知miRNAmiRNAmiRNA的功能,即它miRNA功能的研究主要是依靠生物實(shí)驗(yàn)的方法。這種方法能夠非常準(zhǔn)miRNAmiRNA的miRNA功能的發(fā)現(xiàn)。所以,我們想要找到一種計(jì)算方法來預(yù)測miRNA的功能。目前,已有一些關(guān)于計(jì)算預(yù)測miRNA功能的研究,miRNA與未知功能的miRNA之間的功能相似性,進(jìn)而預(yù)測出未知功能的miRNA的功能。本部分就是關(guān)于miRNA間功能相似性計(jì)算方法的研究,通過構(gòu)建一個(gè)權(quán)重蛋白質(zhì)相互作用網(wǎng)絡(luò)來計(jì)算miRNA間的功能相似性,并且實(shí)現(xiàn)了一個(gè)公共可用的計(jì)算工具PPImiRFS。miRNA功能相似性計(jì)算的整體由于miRNA的功能是通過調(diào)控其靶向的靶抑制或降現(xiàn)的。所以,我們通過計(jì)算出miRNA靶向的靶集間的功能相似性來計(jì)算miRNA間的功能相似性。該miRNA功能相似性計(jì)算方法的整體框架如圖所示。首先,將多個(gè)來自不同數(shù)據(jù)庫的蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行集成,通過計(jì)算蛋白質(zhì)間的本體輪(GeneOntology,GO)語義相似性為集成的相互作用網(wǎng)絡(luò),獲得一個(gè)帶有GO語義相似性權(quán)重的集通過兩個(gè)常用的植物靶預(yù)測工具(psRNATarget和Targetfinder,參數(shù)使用它們的默認(rèn)參數(shù))預(yù)測miRNA的靶,獲得每個(gè)miRNA的靶集。最后,基于構(gòu)建的權(quán)重蛋白質(zhì)相互作用網(wǎng)絡(luò)及改進(jìn)的廣度優(yōu)先搜索算法計(jì)算一對(duì)miRNA的靶集中任意兩個(gè)靶間的功能相似性得到一個(gè)功能相似性矩陣進(jìn)而通過平均最佳匹配方(theaveragebest-matched,ABM)及該功能相似性矩陣計(jì)算出兩個(gè)miRNA的靶集間的功能相似性,即這兩個(gè)miRNA間的功能相似性。權(quán)重蛋白質(zhì)相互作用網(wǎng)絡(luò)的目前,已有很多機(jī)構(gòu)和發(fā)布了蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù),但是,這些數(shù)據(jù)從規(guī)使最終的計(jì)算結(jié)果的問題,為了解決這個(gè)問題,很多研究人員都采用了將多個(gè)的問題。在本部分研究中,我們從5個(gè)廣泛被使用的數(shù)據(jù)庫中擬南芥蛋白質(zhì)相互作AtPI( 由于每個(gè)蛋白質(zhì)都具有與其功能相對(duì)應(yīng)的語義注釋,即GO注釋,所以,通過計(jì)算任意兩個(gè)蛋白質(zhì)間的GO注釋的語義相似性,就可以得到這兩個(gè)蛋白質(zhì)間的功能相似性。我們就是通過這個(gè)方法,對(duì)前一部分獲得的集成蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行。本體論,即GO,是為了跨所有物種統(tǒng)一化表示及產(chǎn)物屬性而元素活動(dòng);生物進(jìn)程(biologicalprocess,BP),即帶有特定開始和結(jié)束,與集成生命我們采用一款R語言工具包,GOSemSimGO19個(gè)物種,分別為擬南芥、人類、老鼠、酵母等。在本研究中,我們使用的是該軟件包中的geneSim程序,具體算法選擇其中的基于圖的語義相似性計(jì)算方法。實(shí)驗(yàn)中所使用的GO數(shù)據(jù)集是由GOSemSim2.14.0GOCC,MFBPGO語義相似性權(quán)重,最終,構(gòu)建集成的蛋白質(zhì)相互作用網(wǎng)絡(luò)。靶間功能相似性計(jì)在這個(gè)網(wǎng)絡(luò)上計(jì)算任意靶間的功能相似性。在這部分中,我們假設(shè)兩個(gè)靶在該迪杰斯特拉算法是由計(jì)算機(jī)科學(xué)家迪杰斯特拉于1956年,該算法目前存在廣度優(yōu)先搜索算法(Breadth-firstsearch,BFS)主要應(yīng)用在有向無權(quán)圖中尋找最短路徑問題,該算法是在1950年由E.F.摩爾,他采用這個(gè)算法找到了走出迷宮的弗洛伊德算法是一種尋找?guī)в姓蜇?fù)邊權(quán)值但沒有負(fù)環(huán)的圖中所有點(diǎn)對(duì)間的1962年提出了該算法該算法的思想是由圖的帶權(quán)鄰接矩陣開始通過一個(gè)狀態(tài)轉(zhuǎn)移n中任意兩點(diǎn)間的最短距離及路徑,但時(shí)間復(fù)雜度較高,不適合于大量數(shù)據(jù)的計(jì)算。但傳統(tǒng)的廣度優(yōu)先搜索算法只適合于無權(quán)網(wǎng)絡(luò)而我們的問題是針對(duì)網(wǎng)絡(luò)的所以,靶間功能相似性計(jì)為了計(jì)算miRNA間的功能相似性,我們首先需要計(jì)算出這兩個(gè)miRNA的靶
genei和genej,基于構(gòu)建好的蛋白質(zhì)相互作用網(wǎng)絡(luò)及改的廣度優(yōu)先搜索算法獲得genei和genej間的最短路徑,采用最佳平均累積權(quán)重方法 Fi,jmax
weight(e) 其中,函數(shù)max(x)表示,當(dāng)在蛋白質(zhì)相互作用網(wǎng)絡(luò)中g(shù)enei和genej間存在不只一條最短路徑時(shí),F(xiàn)i,j是其中累積權(quán)重的最大值。如果genei和genej相等,即是同一個(gè),F(xiàn)i,j1。miRNA功能相似性計(jì)給定兩個(gè)miRNA,miRNAi和miRNAj,它們的靶集分別包含m和n個(gè),一個(gè)mn維的功能相似性矩陣。基于這個(gè)靶集間的功能相似性矩陣和改進(jìn)的ABM方法,計(jì)算出miRNAi和miRNAjABM方法如下所示, maxFx,y
maxFx,yFSTarSeti,
mm'nn其中,n’和m’是兩個(gè)靶集中不包括在蛋白質(zhì)相互作用網(wǎng)絡(luò)中的靶數(shù)目實(shí)驗(yàn)結(jié)果與分我們的實(shí)驗(yàn)是針對(duì)擬南芥進(jìn)行的,所以,需要擬南芥的成熟體miRNA序列及其mRNA序列。我們從miRBase(21版本)到全部擬南芥成熟體miRNA序列,包括427條序列,成員數(shù)不小于1的有47個(gè),可以聚成30個(gè)簇(對(duì)于兩個(gè)miRNA基10kb,則這兩個(gè)miRNA被聚到一個(gè)簇中)。擬南芥mRNA自擬南芥數(shù)據(jù)庫TAIR,即其中的所有轉(zhuǎn)錄序列(版本10)。為了驗(yàn)證我們所提出方法的性能優(yōu)劣,需要已知功能相似的miRNA數(shù)據(jù),這里我們選擇那些對(duì)相同脅迫具有反應(yīng)的miRNA作為功能相似的miRNA。由于,目前沒有擬126個(gè)實(shí)驗(yàn)證實(shí)的擬南芥脅迫反應(yīng)相關(guān)數(shù)據(jù)其中包括了12種非生物脅迫和3中生物脅,屬于相同的成熟體miRNA普遍表現(xiàn)出序列相似性和完全一致的區(qū)域,該區(qū)域是miRNA靶識(shí)別時(shí)的區(qū)域。因此,相較于不同的miRNA,內(nèi)的miRNA可能具有更高的功能相似性,目前已有很多研究支持了這種觀點(diǎn)。為了評(píng)估由PPImiRFS計(jì)算所得功能相似性分?jǐn)?shù)的可靠性首先擬南芥成熟體miRNA分為三類:內(nèi)、間和隨機(jī)選擇的miRNA對(duì),其中隨機(jī)選擇的miRNA對(duì)既不包括內(nèi)的,也不包括間的miRNA對(duì)。然后,用PPImiRFS分別針對(duì)這三類miRNA計(jì)算功能相似性得分,由于WPPINsGO的三個(gè)分支構(gòu)建的,所以,應(yīng)該分別在這三個(gè)WPPINsBP、CCMF三個(gè)分支計(jì)算得到的功能相似性得分如圖所示。我們進(jìn)一步研究三類miRNA對(duì)的功能相似性得分,發(fā)現(xiàn)他們之間間功能相似性得分顯著高于間和隨機(jī)選擇的miRNA組(威爾克森秩和檢驗(yàn),結(jié)果,許多成熟體miRNA在組上的位置是極為接近的,進(jìn)而形成一個(gè)聚簇。之前已有研究表明,處于相同聚簇內(nèi)的miRNA通常處于同一個(gè)多順反子和表現(xiàn)出相同的表達(dá)模式,這些可以進(jìn)一步表明,同一聚簇內(nèi)的miRNA的功能可能是一致的或是相似的。因此,我們也采用聚簇miRNA數(shù)據(jù)測試PPImiRFS的性能,實(shí)驗(yàn)方法與采用數(shù)據(jù)BP、CCMF三個(gè)分支上的結(jié)果如圖所示。統(tǒng)計(jì)分析的結(jié)果表明,miRNA間的功能相似性得分具有顯著差異(克魯斯卡爾-沃利上的和聚簇?cái)?shù)據(jù),獲得的結(jié)果分別顯示在圖中,與我們的方法得到的結(jié)果相類似,結(jié)果的統(tǒng)計(jì)分析分別列在表中。最后,這兩個(gè)方法的結(jié)果很好的驗(yàn)證了PPImiRFS的真在本研究中,我們假設(shè)針對(duì)一致的生物或非生物脅迫產(chǎn)生反應(yīng)的miRNA,它們間324條成熟體miRNA,它們反應(yīng)于一致的生物或非生物脅迫;另一類是負(fù)測試數(shù)324條不反應(yīng)于一致的生物或非生物脅迫的成熟體miRNA。為了獲得更客觀50組負(fù)測試數(shù)據(jù),然后采用PPImiRFS計(jì)算這些數(shù)據(jù)中miRNA間設(shè),即參與一致生物或非生物脅迫反應(yīng)的miRNA具有更高的功能相似性得分。PPImiRFS為了評(píng)估PPImiRFS在計(jì)算miRNA功能相似性得分上的性能,我們采用已證實(shí)的miRNA脅迫反應(yīng)關(guān)系數(shù)據(jù)測試我們方法的計(jì)算性能。首先,從中整理好126個(gè)高質(zhì)量的實(shí)驗(yàn)證實(shí)的miRNA脅迫反應(yīng)關(guān)系數(shù)據(jù),其中參與同一脅迫反應(yīng)的不同miRNAmiRNA中任意兩個(gè)不同miRNA形成一對(duì),共產(chǎn)生90951個(gè)miRNA對(duì)。在這些miRNA對(duì)中排除掉處于同一、同一聚簇和參與同一脅迫反應(yīng)的miRNA對(duì),剩余的miRNA對(duì)作為負(fù)測試數(shù)據(jù)集。對(duì)于每一個(gè)正測99PPImiRFS計(jì)算這100個(gè)測試樣本的功能相似性得分。接下來,我們排列每一個(gè)正測試樣本與其負(fù)測試樣100個(gè)miRNA324324個(gè)排列列表,我們分別針對(duì)不同閾值計(jì)算真正率和假正率。真正率(也叫敏感性或是受試者工作特征曲線(ROC),并計(jì)算出曲線下方面積(AUC)。AUC值作為PPImiRFSAUC=100%AUC值越高,則表示PPImiRFSBP、CCMF三個(gè)分支構(gòu)建的WPPINs計(jì)算得到的AUC值分別為84.15%、79.49%和79.07%。評(píng)估結(jié)果表明,我們方法PPImiRFS能重新找回參與同一生物或非生物脅迫反應(yīng)的miRNA化miRNABP分支構(gòu)建的WPPIN上得到的PPImiRFS要比基于CCMF分支獲得更優(yōu)的性能?;谌齻€(gè)分支所獲得的ROC曲線顯示在圖,最近,已經(jīng)有一些計(jì)算miRNA功能相似性的方法提出,在這部分實(shí)驗(yàn)中,我們選(miRFunSimGOSemSim)PPImiRFSmiRFunSim是2013年由哈爾濱醫(yī)學(xué)一個(gè)研究小組,它主要依靠無權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò)和靶在網(wǎng)絡(luò)中的最短路徑數(shù)計(jì)算miRNA間的功能相似性,該方法只是利用了PPI網(wǎng)絡(luò)的機(jī)構(gòu)特征。一項(xiàng)研究已經(jīng)發(fā)現(xiàn)蛋白質(zhì)相互作用網(wǎng)絡(luò)比無權(quán)的更加有效。所以,我們的方法選擇了的PPI網(wǎng)絡(luò)。因?yàn)镚O數(shù)據(jù)目前還不是很完整,導(dǎo)致GOSemSim在計(jì)算功能相似性時(shí)會(huì)產(chǎn)生很多空值,對(duì)計(jì)算結(jié)果的正確性產(chǎn)生一定的影響。而PPImiRFS不只考慮了PPIGO語義相似性權(quán)重結(jié)合進(jìn),我們通過分析ROCAUC值來對(duì)比三個(gè)方法的性能。miRFunSimGOSemSim的ROCAUC值的計(jì)算方法與上一部分PPImiRFS所用數(shù)據(jù)也是同樣的數(shù)據(jù),miRFunSimGOSemSimAUC81.23%和73.38%,都比PPImiRFS84.15%小,ROC曲線的對(duì)比結(jié)果如圖所示?;谏厦嫣岬降娜齻€(gè)方法計(jì)算得到的miRNA功能相似性得分,我們可以使用不同的聚類算法對(duì)427條成熟體miRNA序列進(jìn)行聚類并用47個(gè)作為標(biāo)準(zhǔn)聚簇對(duì)聚類PPImiRFSmiRFunSimGOSemSim427個(gè)miRNAs90951個(gè)miRNA對(duì)計(jì)算功能相似性得分。然后,基于得到的功能相似性得分構(gòu)建三個(gè)miRNA功能相似性網(wǎng)絡(luò)。通過對(duì)clusterMaker中的8個(gè)聚類算法(AffinityPropagationcluster,AutoSOMEnetworkclustering,ClusterFuzzifier,ConnectedComponentsCluster,FuzzyC-MeansCluster,MCLCluster,SCPSClusterandTransitivityClusteringClusterONE和ConnectedComponentscluster能獲得更好的結(jié)果,所以,最終選擇這兩個(gè)聚類算法對(duì)427個(gè)miRNAs聚類。ClusterONE的基本參數(shù)中,針對(duì)PPImiRFS和miRFunSim基于PPImiRFS、miRFunSimGOSemSim計(jì)算得到的功能相似性得分和ClusterONE,57、7775。針對(duì)PPImiRFS、miRFunSimGOSemSim三個(gè)方法,ConnectedComponentscluster0.4、0.550.9,所獲得50516評(píng)估,該評(píng)估矩陣由精度、率、F-measure、敏感性、陽性預(yù)測值和準(zhǔn)確率。對(duì)ClusterONE和ConnectedComponentscluster的評(píng)估結(jié)果顯示在圖中。圖顯示使用ClusterONE聚類下,PPImiRFS與其余兩個(gè)方法的比較結(jié)果,表明PPImiRFSConnectedComponentclusterGOSemSim構(gòu)建的網(wǎng)絡(luò)獲得了更高的精度和敏感性393個(gè)miRNAs的不正常高的敏感性;其他聚簇中的miRNAs大多出現(xiàn)在相同中,這就使得精度相對(duì)較高。GOSemSim計(jì)算得到的網(wǎng)絡(luò)不如PPImiRFS和miRFunSim得到的網(wǎng)在這一部分,我們采用PPImiRFS計(jì)算參與高鹽脅迫反應(yīng)(非生物性)和TMV-Cg脅迫反應(yīng)(生物性)的miRNAs間的功能相似性。首先,參與TMV-Cg脅迫反應(yīng)的miRNAs分為兩個(gè)部分:miRNAs和測試miRNAs。測試miRNAs與剩余的擬南芥miRNAs結(jié)合(排除參與TMV-Cg脅迫反應(yīng)后的miRNAs)作為最終的測試最后,我們根據(jù)得到的值將這些miRNA對(duì)進(jìn)行排序。當(dāng)閾值設(shè)為0.5時(shí),我們重新找回了大多數(shù)的miRNAs(miR823以外)。我們也預(yù)測到了幾個(gè)新的,可能參與TMV-Cg脅迫反應(yīng)的miRNAsmiR165miR156miR418miR160和miR393。針對(duì)參與高鹽脅迫反應(yīng)的miRNAs0.5時(shí),我們重新找回了所有的miRNAs,同時(shí)也預(yù)測到了一些可能的,參與高鹽脅迫反應(yīng)的miRNAmiR418、miR166、miR160、miR841和miR169。雖然還沒有關(guān)于這些miRNAs參與TMV-Cg和高鹽脅迫反應(yīng)的但是已有文章公布了它們中的一些參與本章小miRNA間功能相似性的計(jì)算參與一致生物或非生物脅迫反應(yīng)的miRNAs間的功能比參與不一致脅迫反應(yīng)的miRNAs更相似。通過計(jì)算內(nèi)、間和隨機(jī)選取的miRNAs,以及簇內(nèi)、簇間和隨機(jī)選取的miRNAs間的功能相似性值,我們發(fā)現(xiàn),在相同和聚簇中的miRNAs具有更高的功能相似性。這些結(jié)果也表明,我們的方法能夠正確識(shí)別不同miRNAs間的相似性和差異性。在于其他相似計(jì)算方法的對(duì)比中,我們的方法獲得了更加有效和可靠的性能。我們的方法,在量化miRNAs間的功能相似性是,是基于PPI網(wǎng)絡(luò)和預(yù)測的靶集。由于植物PPI網(wǎng)絡(luò)目前的覆蓋率較低,并且通常伴隨著較高的假正率和假負(fù)率同時(shí)預(yù)測得到的靶通常也具有較高的假正率因此,隨著PPI網(wǎng)絡(luò)質(zhì)量的不斷提高和性能更好的靶預(yù)測工具的出現(xiàn),我們的方法將能獲PPIGO數(shù)據(jù)可用,PPImiRFS也可以很好的應(yīng)用于miRNA功能的方法復(fù)雜耗時(shí)、通量低,以及目前miRNA功能預(yù)測方法不適用于植物等問題。所以,我們基于之前有關(guān)miRNAmiRNA功能miRNA功能預(yù)測的整體miRNA間的功能相似性,這部分采用我們之前的研究成果,即提出的miRNA功能相似性計(jì)算方法PPImiRFS;然后,通過基于聚類系數(shù)的閾值選擇方法構(gòu)建miRNA功能相似網(wǎng)絡(luò);最后,在該網(wǎng)絡(luò)上應(yīng)用直推式多分類算法預(yù)測miRNA功能。基于聚類系數(shù)的miRNA功能相似網(wǎng)絡(luò)構(gòu)在網(wǎng)絡(luò)中,節(jié)點(diǎn)i的聚類系數(shù)CiCi
kiki1ni表示節(jié)點(diǎn)i前ki個(gè)鄰居間邊的數(shù)目,如果ki1,則定義Ci0。最后,該網(wǎng)絡(luò)i,C1Ni,NNN0,定義C0miRNA功能相似網(wǎng)絡(luò)。miRNA功能相似網(wǎng)絡(luò)的構(gòu)建可以看作是通過逐步提高功能相似性閾值的方法,將針對(duì)每個(gè)閾值tmiRNA功能相似網(wǎng)絡(luò)。在系統(tǒng)生物學(xué)中,一個(gè)真實(shí)的生物學(xué)網(wǎng)絡(luò)應(yīng)該是無規(guī)模的和高模塊化的,因此,它的聚類系數(shù)ct應(yīng)該比隨機(jī)網(wǎng)絡(luò)的聚類系數(shù)crt明顯更高。定義ct和crt之間的差值為ctctcrt最大的t
ct0連續(xù)增加到t將這個(gè)過程視作離散優(yōu)化問題,即在閾值t01的過程中,臨界閾值應(yīng)該是第一個(gè)使得ct0.01ct0的那個(gè)閾值t。數(shù),所以,采用統(tǒng)計(jì)學(xué)方法計(jì)算隨機(jī)網(wǎng)絡(luò)的聚類系數(shù)。在使用閾值t構(gòu)建的網(wǎng)絡(luò)中,假NKi是節(jié)點(diǎn)i的度,那么隨機(jī)網(wǎng)絡(luò)的聚類系數(shù)crt能用以下公crt
k2k,kk
NN
和k2
NNk2。最終,利用得到的閾值Tt,構(gòu)建出1i1i功能相似性網(wǎng)絡(luò)。該網(wǎng)絡(luò)表示為GVE,W,T,其中,VmiR1miR2,miRN1i1i絡(luò)中包含的節(jié)點(diǎn)Eeij
|FSmiRmiRimiRjT表示功能相似性值大或等于閾值T的miRNA對(duì)之間的邊,其中,WFSmiRmiRimiRj表示相連兩基于直推式多分類算法的miRNA功能預(yù)直推式學(xué)習(xí)是由Vapnik在1998年直推式學(xué)習(xí)將所有無數(shù)據(jù)視為測試多分注釋等。本文所研究的miRNA功能預(yù)測也屬于多分類的范疇。直推式多分類算通過與其他多分類算法比較分析,最終采用在2011年直推式多標(biāo)簽分類算法預(yù)測miRNA功能。該算法基于全體樣本(包括有和無樣本)無樣本最優(yōu)組成的公式,如下所示。 niUj
iji
0,
jijjijijiL.其中,U表示無樣本的索引集,L表示有樣本的索引集,Ni表示樣本xi的個(gè)最近鄰的索引集,Wiz表示樣本xi和xz之間的相似性權(quán)重,并且保證zWiz i , ,T表示樣本 i
li在其組mm中所占比例,并且保證ij1。由于在 j組成,所以,假定被標(biāo)記的類擁有相同的權(quán)重,即ij,其定義如下所示,,
ifli
iL.,
其中Yi表示樣本xi的集。將公式(7)經(jīng)過一系列的簡化和推導(dǎo)變換,最終得到如 AjAj0. UL UU其中AIW,I為單位矩陣,W為樣本間相似矩陣,并且A ALU。由 UULjLj2數(shù)量。因此,與公式(7)類似,可以得到如下評(píng)估無樣本功能數(shù)量的公21,
iWizz s.t.iYiiL.AUUUAULL其中
L nT nTU實(shí)驗(yàn)結(jié)果與分實(shí)驗(yàn)中采用的擬南芥miRNA數(shù)據(jù)自miRNA數(shù)據(jù)庫miRBase(版本21,2014年6月發(fā)布)。該版本包含427條擬南芥成熟體miRNA序列。擬南芥mRNA數(shù)據(jù)自擬南芥數(shù)據(jù)庫TAIR(10),33602條擬南芥mRNA序列數(shù)據(jù)。擬南芥擬南芥mRNA的GO數(shù)據(jù)自擬南芥數(shù)據(jù)庫TAIR,總共包含28397條mRNA與5322條GO間的329133對(duì)mRNA-GO數(shù)據(jù),其中BP、CC和MF三個(gè)分支分別 和83468對(duì)mRNA-GO數(shù)據(jù)。將的擬南芥mRNA數(shù)據(jù)與集成的PPIN數(shù)據(jù)進(jìn)行對(duì)比,將PPIN中不存在的mRNAmiRNA功能相似矩陣和miRNA功能標(biāo)0的行和列去除,同時(shí)要保證兩個(gè)矩陣一致。RankingLossAveragePrecision和Coverage,假定測試集為,xn,,xn,
RankingLoss(排序損失)評(píng)估不相關(guān)類標(biāo)相比于相關(guān)類標(biāo)排序更高的平均比例,D1D1,Yi |{(y,y)Yi 其中Yii個(gè)樣本的
向量,Yi為Yi的補(bǔ)集,即第i個(gè)樣本沒有的GO量。RankingLoss0,1RankingLoss0,則性能AveragePrecision(平均精度)AvePrecf,Duy'1y' 1coverage(f) max p
其中rankf(,)來源于真實(shí)值函數(shù)f(,),即針對(duì)于任意的yYall,將函數(shù)f(xi,y)的輸出比對(duì)到1,2, ,Q上。例如,如果f(xi,y1)f(xi,y2),那么rankf(xi,y1)rankf(xi,y2)。這里Yall和Q分別是所有可能的GO的向量和數(shù)目。本文所研究的基于miRNAmiRNA功能的方法,本質(zhì)上就是基法,即直推式多分類(TRAM、有重啟的隨機(jī)(RandomWalker和多K最近鄰(MLKNNmiRNA功能相似網(wǎng)絡(luò)和miRNA-GO功能網(wǎng)絡(luò),通過對(duì)比三種方法的各項(xiàng)性能指標(biāo),最終選擇最適合miRNA功能預(yù)測的算法。有重啟的RandomWalker算法中存在一個(gè)表示粒子每步時(shí)的重啟概率,所0.050.950.05為步長連續(xù)取不同的值進(jìn)行實(shí)驗(yàn),最終選出性能最好的MLKNNs和最近鄰個(gè)數(shù)k,實(shí)驗(yàn)中分別對(duì)其賦值為s1和k10105折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn)。由于在GO的三個(gè)分支上分別構(gòu)建了miRNA-GO功能矩陣,因此,分別在這三個(gè)矩陣上進(jìn)行實(shí)驗(yàn)。三種算法在三個(gè)miRNA-GO功能矩陣上的實(shí)驗(yàn)結(jié)234所示。表格中每個(gè)指標(biāo)后面的符號(hào)“↑”表示該指標(biāo)的值越大,算本章miRNAPPIN數(shù)據(jù)和相關(guān)圖算法計(jì)算miRNA間的功能相似性并采用基于聚類系數(shù)的閾值選擇算法構(gòu)建miRNA功能相似性網(wǎng)絡(luò),最后將直推式多分類算法應(yīng)用于該網(wǎng)絡(luò)上對(duì)miRNA的功能進(jìn)行預(yù)測。將該方法應(yīng)用于擬南芥數(shù)據(jù),獲得了十分滿意的性能。由于該方法中的miRNAPPIN數(shù)據(jù)構(gòu)建的,而目前植物中只有擬南芥有相對(duì)足夠的數(shù)據(jù),miRNA功能相似網(wǎng)絡(luò)。所以,該功能PPIN數(shù)據(jù)足夠時(shí),也可以很好 用近鄰聚類方法解決集成學(xué)習(xí)方法在相關(guān)的表達(dá)數(shù)據(jù)分類中遇到的選擇和分類方法。針對(duì)選擇方法,介紹了幾種常用排序方法,詳細(xì)介紹了SVM分類方法,同時(shí)還介紹了不平然后對(duì)傳統(tǒng)的基于數(shù)據(jù)擾動(dòng)的排序聚合技術(shù)進(jìn)行了改進(jìn)針對(duì)獲得的子集存在冗余以及最終選擇的子集可能忽視單次排序的部分的問題對(duì)所有單次排序的TopK個(gè)以bior系數(shù)為關(guān)聯(lián)衡量標(biāo)準(zhǔn)利用近鄰聚類算法進(jìn)行聚類分組從各組中選擇具有代表性的互不關(guān)聯(lián)的作為最終的子集,并通過實(shí)驗(yàn)驗(yàn)證了方法的有效性接著在選擇的基礎(chǔ)上針對(duì)單個(gè)自己分類性能有限冗余的與樣本分類相關(guān)的也具有很強(qiáng)區(qū)分能力的問題,借鑒分組集成選擇方法的思想在基于近鄰聚類的融合選擇的基礎(chǔ)上從聚類獲得的各個(gè)分組中采用隨機(jī)選擇的方式,構(gòu)建多個(gè)存在差異性的子集用于訓(xùn)練基分類器進(jìn)行集成在7個(gè)表達(dá)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明方法分類誤差較低分類性能穩(wěn)定,可擴(kuò)展性好。Top_K值是今后研究的一個(gè)方向;本文第四章集成特征選擇方法重點(diǎn)關(guān)注的是多樣性基分類器的生STEWARTBW,WILDCP.WorldCancerReport2014.WorldHealthOrganization,LUY,HANJ.Cancerclassificationusinggeneexpressiondata[J].InformationSystems,2003,28(4):243-268.GOLUBTR,SLONIMDK,TAMAYOP,etal.Molecularclassificationofcancer:classdiscoveryandclasspredictionbygeneexpressionmonitoring[J].science,1999,286(5439):531-537.PANF,WANGB,HUX,etal.Comprehensiveverticalsample-basedKNN/LSVM2004,37(4):240-248.KRS.MicroarrayDataClassificationUsingSupportVectorMachine[J].InternationalJournalofBiometricsandBioinformatics(IJBB),2011,5(1):10.KELEMENA,ZHOUH,LAWHEADP,etal.NaiveBayesianclassifierformicroarraydata[C]//NeuralNetworks,2003.ProceedingsoftheInternationalJointConferenceon.IEEE,2003,3:1769-1773.HORNGJT,WULC,LIUBJ,etal.Anexpertsystemtoclassifymicroarraygeneexpressiondatausinggeneselectionbydecisiontree[J].ExpertSystemswithApplications,2009,36(5):9072-9081.CHOJH,LEED,PARKJH,etal.Geneselectionandclassificationfrommicroarraydatausingkernelmachine[J].FEBSletters,2004,571(1):93-98.TANAC,GILBERTD.Ensemblemachinelearningongeneexpressiondataforcancerclassification[J].2003.DIETTERICHTG.Ensemblemethodsinmachinelearning[M]//Multipleclassifiersystems.SpringerBerlinHeidelberg,2000:1-15.OPITZDW.Featureselectionforensembles[C]//AAAI/IAAI.1999:379-LINWJ,CHENJJ.Class-imbalancedclassifiersforhigh-dimensionaldata[J].Briefingsinbioinformatics,2013,14(1):13-26.SAEYSY,ABEELT,VANdePeerY.Robustfeatureselectionusingensemblefeatureselectiontechniques[M]//Machinelearningandknowledgediscoveryindatabases.SpringerBerlinHeidelberg,2008:313-325.BOULESTEIXAL,SLAWSKIM.Stabilityandaggregationofrankedgenelists[J].Briefingsinbioinformatics,2009,10(5):556-568.WALDR,KHOSHGOFTAARTM,DITTMAND,etal.Anextensivecomparisonoffeaturerankingaggregationtechniquesinbioinformatics[C]//InformationReuseandIntegration(IRI),2012IEEE13thInternationalConferenceon.IEEE,2012:377-DETTLINGM,BüHLMANNP.Boostingfortumorclassificationwithgeneexpressiondata[J].Bioinformatics,2003,19(9):1061-1069.DETTLINGM.BagBoostingfortumorclassificationwithgeneexpressiondata[J].Bioinformatics,2004,20(18):3583-3593.BERTONIA,FOLGIERIR,VALENTINIG.Bio-molecularcancerpredictionwithrandomsubspaceensemblesofsupportvectormachines[J]. puting,2005,63:HOTK.Therandomsubspacemethodforconstructingdecisionforests[J].PatternysisandMachineInligence,IEEETransactionson,1998,20(8):832-844.HUH,LIJ,WANGH,etal.A formicroarraydataclassification[C]//Proceedingsofthe2006workshoponInligentsystemsforbioinformatics-Volume73.AustralianComputerSociety,Inc.,2006:35-38.AHNH,MOONH,FAZZARIMJ,etal.Classificationbyensemblesfromrandompartitionsofhigh-dimensionaldata[J].ComputationalStatistics&Dataysis,2007,51(12):6166-6179.LIUH,LIUL,ZHANGH.Ensemblegeneselectionbygrouformicroarraydataclassification[J].Journalofbiomedicalinformatics,2010,43(1):81-8
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇省2024-2025學(xué)年高一上學(xué)期百校聯(lián)考語文試卷及答案
- 瘢痕的臨床護(hù)理
- 《計(jì)算機(jī)的存儲(chǔ)系統(tǒng)》課件
- 肛門及肛周皰疹性疾病的臨床護(hù)理
- 《供用電技術(shù)管理》課件
- 孕期子宮內(nèi)膜脫落的健康宣教
- 《機(jī)械制造基礎(chǔ)》課件-05篇 第七單元 數(shù)控高速切削
- 《隊(duì)列訓(xùn)練教程》課件
- 甲狀旁腺功能亢進(jìn)的臨床護(hù)理
- JJF(陜) 109-2023 直流換流閥試驗(yàn)裝置校準(zhǔn)規(guī)范
- 鋼板切割施工方案
- 有創(chuàng)機(jī)械通氣與無創(chuàng)機(jī)械通氣比較
- SWITCH暗黑破壞神3超級(jí)金手指修改 版本號(hào):2.7.4.84040
- 廣東省廣州市黃埔區(qū)2023-2024學(xué)年數(shù)學(xué)四年級(jí)第一學(xué)期期末達(dá)標(biāo)檢測試題含答案
- 控制計(jì)劃(空白)
- 菜鳥驛站轉(zhuǎn)讓合同協(xié)議
- 國開大學(xué)2023年01月11836《會(huì)計(jì)制度設(shè)計(jì)》期末考試答案
- 《汽車機(jī)械基礎(chǔ)與識(shí)圖》期末考試試卷及答案
- 浙江省消防技術(shù)規(guī)范難點(diǎn)問題操作技術(shù)指南(2020版)
- 國家開放大學(xué)《供應(yīng)鏈管理》形考作業(yè)1-4參考答案
- 量具使用方法的培訓(xùn)
評(píng)論
0/150
提交評(píng)論