基于深度學(xué)習(xí)的miRNA靶位點(diǎn)預(yù)測研究綜述_第1頁
基于深度學(xué)習(xí)的miRNA靶位點(diǎn)預(yù)測研究綜述_第2頁
基于深度學(xué)習(xí)的miRNA靶位點(diǎn)預(yù)測研究綜述_第3頁
基于深度學(xué)習(xí)的miRNA靶位點(diǎn)預(yù)測研究綜述_第4頁
基于深度學(xué)習(xí)的miRNA靶位點(diǎn)預(yù)測研究綜述_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于深度學(xué)習(xí)的miRNA靶位點(diǎn)預(yù)測研究綜述摘要 MicroRNAs(miRNAs)是一類長約22 23堿基(nt)的單鏈非編碼RNG,在生物進(jìn)化方面有著重要意義$成熟的 miRNA會通過其種子序列(5%第27 8位核昔酸)與message RNAs(mRNAs)的3% UTR區(qū)域靶位點(diǎn)進(jìn)行完全或不完全配對,實(shí) 現(xiàn)切割mRNA及抑制mRNA翻譯等功能$由于miRNA結(jié)合mRNA靶位點(diǎn)的 機(jī)制仍 未明確,因此預(yù)測miRNA靶位點(diǎn)的工 作一直是miRNA研究領(lǐng)域的一大挑戰(zhàn)和難題$實(shí)驗(yàn)方法雖然準(zhǔn)確,但耗時長且昂貴$在生物信息領(lǐng)域,基于規(guī)則匹配的常規(guī) 計(jì)算方法雖然能進(jìn)行靶位點(diǎn)的預(yù)測,但存在著準(zhǔn)確率偏低的

2、問題$隨著深度學(xué)習(xí)的興起及實(shí)驗(yàn)驗(yàn)證數(shù)據(jù)及具體靶位點(diǎn)信息的 豐富,基于深度學(xué)習(xí)的方法成為了 miRNA靶位點(diǎn)預(yù)測領(lǐng)域的研究熱點(diǎn)$首先介紹了常用的miRNA預(yù)測數(shù)據(jù)集、預(yù)測類型和 常見特征;之后對預(yù)測研究中常用的深度學(xué)習(xí)模型進(jìn)行闡述接著介紹了常規(guī)的預(yù)測方法及基于深度學(xué)習(xí)的預(yù)測方法,并對這 些方法進(jìn)行了分類總結(jié)和性能的對比分析最后對使用深度學(xué)習(xí)的預(yù)測工作當(dāng)前存在的問題及未來的發(fā)展進(jìn)行了探討$ 關(guān)鍵詞:miRNA;靶位點(diǎn)預(yù)測卷積神經(jīng)網(wǎng)絡(luò);循環(huán)神經(jīng)網(wǎng)絡(luò);自動編碼器Survey on Target Site Prediction of Human m iRNA Based on Deep Learning

3、Abstract MicroRNAs(miRNAs) are 2223nt small non-coding RNAs that play an important role in biological evolution. Mature miRNA will completely or mcompletely pair with the target site in 3)UTR region of message RNAs(mRNAs) through its seed region,to acheve the function of cleavage and translatonal re

4、pression so on. As the mechansm of miRNA binding to mRNA target sites is still unclear,the prediction of miRNA target sites has been a major challenge and problem in the field of miRNA re7 search. Although the experimental method is accurate,it is time-consuming and expensive. In Bioinformatics,alth

5、ough the calcula7 tion method based on rule matchng can predict the target site,it has the problem of low accuracy. With the development of deep Pearning and the abundance of experimenta data , the method based on deep Pearninghas become a researchhotspot in the fied of miRNA target prediction. Firs

6、tly, this paper i ntroduces the commonly used data sets, pred i ct ion types and common feature of m RNA predcton , then explans the commonly used deep learnng model Hn predcton research.Next, the conventonal predcton methods and prediction methods based on deep learning are introduced. Meanwhile, t

7、hese methods are classified and summarized. Fnally, the current problems and future development of usng deep learnng to predct m RNAtarget are dscussed.Keywords m iRNA, Target site prediction, Convolutional neural network, Recurrent neural network, Autoencoder1引言miRNAs是一類長約22 nt的單鏈小RNA,由細(xì)胞內(nèi)源 產(chǎn)生的發(fā)卡結(jié)構(gòu)

8、轉(zhuǎn)錄本加工而來*0+。動物miRNA是一類在 進(jìn)化過程中非常保守的基因,55%的線蟲miRNAs在人體內(nèi) 有同源分子,表明miRNA在進(jìn)化方面有著重要意義,并且具 有重要的生物學(xué)功能*2+& miRNA的功能涉及各種生理病理 過程,包括發(fā)育過程調(diào)節(jié)、抵抗病毒入侵、免疫功能調(diào)節(jié)、影響 各器官/系統(tǒng)疾病及腫瘤的產(chǎn)生&成熟的miRNA主要通過其種子序列(5)第2-8位核苷 酸)識別并配對靶基因 mRNA 3)UTR ( Untranslated Re- gon) 上的結(jié)合位點(diǎn),通過切割、降解mRNA及抑制mRNA 翻譯等形式*3-5+發(fā)揮其基因表達(dá)調(diào)控的作用據(jù)估計(jì), miRNA能調(diào)節(jié)人類近1/3的基

9、因而一個基因往往受到 數(shù)個甚至數(shù)百個miRNA的調(diào)控&如果考慮不同的結(jié)合序列 和結(jié)合位點(diǎn),則可能情況會更多&不同miRNA間的相互配 合又可以強(qiáng)化這種效果。這種調(diào)控機(jī)制使得某個特定miR- NG對具體靶位點(diǎn)的影響變得很小2#。miRNG復(fù)雜的調(diào)控機(jī)制和多樣的匹配位點(diǎn)及規(guī)則,導(dǎo)致 實(shí)驗(yàn)方法雖然能得到有效的靶位點(diǎn)基因,但存在耗時長、花費(fèi) 高等問題。在生物信息領(lǐng)域,常規(guī)方法主要通過規(guī)則匹配的 方式進(jìn)行預(yù)測,此后又有基于先驗(yàn)特征的機(jī)器學(xué)習(xí)方法用于 預(yù)測。近年來,深度學(xué)習(xí)憑借其優(yōu)秀的性能,已經(jīng)成為生物信息 領(lǐng)域的常用方法9T5#。本文對近年來基于深度學(xué)習(xí)的miR- NG靶位點(diǎn)預(yù)測相關(guān)研究做了總結(jié),描述了

10、使用公開可用的 數(shù)據(jù)構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集的步驟,并對各類方法進(jìn)行了分類和比 較&然后對當(dāng)前領(lǐng)域研究中存在的問題及未來發(fā)展進(jìn)行了 探討!2常規(guī)方法、問題闡述及數(shù)據(jù)準(zhǔn)備miRNA靶位點(diǎn)數(shù)據(jù)集隨著CLIP-Seq等高通量測序技術(shù)的發(fā)展,大量實(shí)驗(yàn)驗(yàn)證 的miRNG-mRNG相互作用數(shù)據(jù)集被記錄。到目前為止,研 究者們已經(jīng)構(gòu)建了如表1所列的4類常用數(shù)據(jù)集。Tar- Base13# 作為最全面的公開數(shù)據(jù)集,包含3 000多個經(jīng)實(shí)驗(yàn)驗(yàn) 證的miRNA-mRNA交互負(fù)樣本。MirTarBase14#中所記錄的 422 517條數(shù)據(jù)均為正樣本。CLASH15#的數(shù)據(jù)數(shù)量較前兩者 少,但每條數(shù)據(jù)均包含明確的結(jié)合位置,這

11、也為提高miRNA 靶位點(diǎn)預(yù)測精度提供了更好的數(shù)據(jù)支持。PAR-CLIP16#數(shù)據(jù) 盡管不含確切的靶位點(diǎn)信息,但也將靶位點(diǎn)限制為長約40nt 的短序列片段,因此也常被用于miRNA靶位點(diǎn)預(yù)測的研究中。表1 miRNA-mRNA相互作用數(shù)據(jù)集Table 1 Dataset lor miRNA-mRNA interactionsDatasetInteractionsURLTarBase444301htlp : diana. imis. athenainnovation. gr/ DanaTools/MirTarBase422517http: / / mirtarbase. mbc. nctu. e

12、du. tw/CLASH18514https: /doi. org/10. 1016/j. cell. 2013. 03. 043PAR-Ciip17000+https:/doi. org/10. 1371/journal. pbio.00300852.2預(yù)測問題的定義2. 2. 1 位點(diǎn)級別的預(yù)測分類miRNA與mRNA的相互作用可被看作一類具有兩種結(jié) 果的事件:與候選靶位點(diǎn)(Candidate Target Site,CTS)結(jié)合, 該區(qū)域?yàn)榘形稽c(diǎn);不與候選靶位點(diǎn)結(jié)合,該區(qū)域?yàn)榉前形稽c(diǎn)。 樣本標(biāo)簽表示miRNA與該CTS序列是否發(fā)生相互作用?;?于此,我們可以訓(xùn)練一個二分類模型來進(jìn)行miR

13、NA靶位點(diǎn) 的預(yù)測,模型的輸入為miRNA-CTS雙鏈序列的相關(guān)特征。 對于每一個miRNA序列初,及其對應(yīng)的CTS序列c,模型的 輸出TS可以表示如下:1, if # target cTS(m,c)= *(1)一1, else2. 2. 2 UTR級別的預(yù)測分類由于miRNA可以與mRNA 3 + UTR區(qū)域中的多個靶位 點(diǎn)發(fā)生結(jié)合,因此UTR序列可以由多個候選靶位點(diǎn)表示,如 式(2)所示。樣本的標(biāo)簽表示miRNA與mRNA 3UTR序列 是否發(fā)生相互作用,因此在位點(diǎn)級別預(yù)測的基礎(chǔ)上,miRNA 序列#與UTR序列g(shù)的預(yù)測結(jié)果可以如式(3)定義。CS= C0C1 c+ -(2)CST(#,g

14、)= V TS(m,c+)(3)+ -02.3數(shù)據(jù)準(zhǔn)備miRNA靶位點(diǎn)預(yù)測主要使用兩類數(shù)據(jù):結(jié)構(gòu)數(shù)據(jù)和序列 數(shù)據(jù)。2. 3. 1 結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)主要有以下幾類。序列的組成信息:miRNA種子區(qū)域序列與mRNA靶 位點(diǎn)序列的配對特征(通常會考慮配對區(qū)域外的上下游序 列)、配對計(jì)數(shù)特征,以及序列A,C,G,U 4類核苷酸的統(tǒng)計(jì) 情況。種子匹配:miRNA與其靶位點(diǎn)之間的 Watson-Crick (AU配對、CG配對,以下均稱W-C)匹配。根據(jù)種子區(qū)域匹 配的多樣性,表2列出了主要的匹配規(guī)則類型,以Seed_ match_8merA1類型為例,表示miRNA與靶位點(diǎn)種子區(qū)域序 列的第一位至第8位

15、堿基W-C匹配,且種子區(qū)域第一位堿基 為A。其中GU指序列對應(yīng)位點(diǎn)形成GU匹配。雙鏈自由能:描述了 miRNA與mRNA相互作用時 的雙鏈結(jié)構(gòu)穩(wěn)定性,一般使用ViennaRNA package17#的duplex 及fold方法計(jì)算獲得。位點(diǎn)可達(dá)性:描述了 mRNA序列中局部穩(wěn)定的二級 結(jié)構(gòu)的平均配對概率,可以通過ViennaRNA package17#的 duplex及fold方法計(jì)算獲得。表2種子區(qū)域匹配的規(guī)則Table 2 Rule of Seed MatchTypeExplainSeed _match_8merp1-p8 W-C matchSeed_match_8merA1p2-p8

16、W-C match with ASeed _match _7mer1p1-p7 W-C matchSeed _match _7mer2p2-p8 W-C matchSeed _match _7merA1p2-p7 W-C match with #A at p1Seed _match _6mer1p1-p6 W-C matchSeed _match _6mer2p2-p7 W-C matchSeed match 6merxGUyx-:1,2,3:,-:1,2,3,4,5,6:位點(diǎn)保守性:描述了 mRNA序列中的某些位點(diǎn)在不 同物種間的一致性。保守位點(diǎn)及序列往往在基因表達(dá)等方面 發(fā)揮著重要作用,如

17、靶位點(diǎn)序列??梢酝ㄟ^UCSC18#基因組 瀏覽器計(jì)算獲取序列的保守性分?jǐn)?shù),也可以通過BLAST19# 獲取相似的保守序列,并進(jìn)一步計(jì)算保守性特征等。2. 3.2 序列數(shù)據(jù)深度學(xué)習(xí)模型可以從原始的高維序列信息中學(xué)習(xí)高度抽 象的特征。序列數(shù)據(jù)通常指mRNA:CTS雙鏈序列。在將序 列輸入模型前,需要將其編碼為數(shù)值型向量。基因序列的編 碼方式較多,常見的有One-hot編碼、K-mer頻次編碼等。One-hot編碼根據(jù)序列的每個位置處核苷酸A,C,G,U 和Empty的5種不同狀態(tài)對序列進(jìn)行編碼,即對于長度為L 的序列,可以將其編碼成為一個LX5的矩陣形式。Onbhot 編碼的編碼形式如表3所列!表

18、3 One-hot編碼Table 3 One-hot encodingNucleotideBinarizationA0001C0010G0100U1000Empty0000K-mer指將基因序列分成長度為K的字符串。若序列 長度為L,K-mer長度為K,則該條序列的K-mer數(shù)量為L K+1。假設(shè)K = 4,則共有256種可能的4-mer,可以表示為 AA, AAAC, AAAU,,UUUU。因此,每條序列可以表 示為一個256位的特征向量,每一維度的值表示該維度的4- mer的計(jì)數(shù)。由于miRNA的長度僅為22 nt左右,即使在加入上下游 序列的情況下,雙鏈長度通常也不會超過100 nt,因

19、此常用 One-hot編碼進(jìn)行轉(zhuǎn)換。2. 3. 3負(fù)樣本數(shù)據(jù)在miRNA靶位點(diǎn)預(yù)測中,實(shí)驗(yàn)驗(yàn)證的負(fù)樣本數(shù)據(jù)較少 為了保證訓(xùn)練樣本的正負(fù)均衡,多采用MocF2。22的方式生 成負(fù)樣本,主要使用Fisher-Yates&23算法隨機(jī)置換生成在已 知數(shù)據(jù)集中不存在的miRNA序列,在滿足靶位點(diǎn)匹配規(guī)則 的前體下,構(gòu)建miRNA:CTS的負(fù)樣本數(shù)據(jù)由于模型使用 的負(fù)樣本通過模擬生成,因此預(yù)測結(jié)果的假陽性始終是無法 避免的問題。3深度學(xué)習(xí)方法自2006年Hinton等&24提出深度信念網(wǎng)絡(luò)(Deep Belief Nets,DBN)以來,深度學(xué)習(xí)就被成功地應(yīng)用于許多研究領(lǐng)域, 包括圖像識別&25、自然語

20、言處理&26、生物信息學(xué)等不同 于傳統(tǒng)的機(jī)器學(xué)習(xí)模型,深度學(xué)習(xí)模型一般具有深層結(jié)構(gòu),強(qiáng) 調(diào)使用數(shù)據(jù)來學(xué)習(xí)特征,而非過多地依賴于人工構(gòu)建特征 大部分神經(jīng)網(wǎng)絡(luò)模型與支持向量機(jī)(Support Vector Ma- chine,SVM)&22和隨機(jī)森林(Random Forests,RF)&29類似,如 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)30、循 環(huán)神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)&31 等,基于帶 有標(biāo)簽的訓(xùn)練樣本進(jìn)行有監(jiān)督的學(xué)習(xí),獲取隱藏在數(shù)據(jù)中的 抽象特征,從而進(jìn)行預(yù)測和分類;同時也有部分通過非監(jiān)督學(xué) 習(xí)的模型

21、,如棧式自編碼器(Stacked Denoising AutoEncoder, SdA)&32等 目前,SdA&33 ,CNN34和RNN&35等被廣泛應(yīng)用于生物 數(shù)據(jù)的相關(guān)研究和分析中。棧式自編碼器可以在保留盡可能 多的信息的前提下進(jìn)行特征的學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)則可以從 原始序列中學(xué)習(xí)到高度抽象的特征循環(huán)神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí) 序列中的依賴性關(guān)系3.1棧式自編碼器自編碼器是棧式自編碼的基礎(chǔ),是一種可以從輸入數(shù)據(jù) 中學(xué)習(xí)特征表示的非監(jiān)督模型單個自編碼器由一個編碼器 和一個解碼器組成,結(jié)構(gòu)如圖1(a)所示編碼器將輸入d映 射成特征表示),如式(4)所示:y = s(Wx + b)(4)表示層的維度選擇與自

22、編碼器實(shí)現(xiàn)的功能相關(guān)當(dāng)表示 層維度小于輸入數(shù)據(jù)維度時,編碼器進(jìn)行降維操作,同時網(wǎng)絡(luò) 嘗試在盡量不丟失數(shù)據(jù)信息的基礎(chǔ)上,通過更低的維度來描 述數(shù)據(jù)當(dāng)表示層維度大于輸入數(shù)據(jù)維度時,通常表示層中 的部分神經(jīng)元將失活,此時自編碼器即為稀疏自編碼器&36 稀疏自編碼器通過“稀疏”的操作,嘗試在輸入數(shù)據(jù)的大量維 度中選擇盡可能重要的特征解碼器將映射結(jié)果H還原成與輸入d大小相同的Z,如 式(5)所示:z = s(y+b)(5)根據(jù)輸入數(shù)據(jù)的分布D與z間的重建誤差可以由多種 衡量指標(biāo)來測量,常用交叉嫡(Cross Entropy)作為衡量指標(biāo)InputHidden Outputlayer layer laye

23、rEncoder Decoder圖1棧式自編碼器的結(jié)構(gòu)Fig. 1 Structure of stacked AutoEncoder棧式自編碼器是自編碼的延伸,除了最頂部的輸出層外, 每兩個相鄰的層構(gòu)成一個自編碼器,前一個自編碼器的表示 層作為當(dāng)前自編碼器的輸入層,最后一個自編碼器的表示層 與頂部輸出層組成邏輯回歸網(wǎng)絡(luò),如圖1(b)所示棧式自編 碼器通過無監(jiān)督的逐層預(yù)訓(xùn)練來獲取高維抽象的特征表示棧式自編碼器逐層的預(yù)訓(xùn)練過程可以提取原始序列中的 高位抽象特征,使隱層神經(jīng)元的權(quán)重和偏置接近實(shí)際數(shù)據(jù)的 分布,進(jìn)而提高模型預(yù)測精度。但自編碼器也存在缺點(diǎn):預(yù)訓(xùn) 練過程是逐層貪婪的,對數(shù)據(jù)量的要求較大,且

24、無法保證獲得 全局的優(yōu)化;相對于常規(guī)的監(jiān)督學(xué)習(xí),增加了預(yù)訓(xùn)練過程,因 此性能會減弱。3.2 卷積神經(jīng)網(wǎng)絡(luò)(CNN)常規(guī)的CNN 一般包含卷積層、池化層和全連接層,如 圖2所示Convolution Layerl圖5 CNN的結(jié)構(gòu)Fig. 2 Structure +Q CNN卷積層計(jì)算輸入矩陣與卷積過濾器的點(diǎn)積。卷積通過稀 疏連接、權(quán)值共享和等效表示3種方法有效提高了算法的計(jì) 算速度。池化層通過池化函數(shù)能夠保留上個卷積層獲取的主 要特征,即使輸入存在一些平移、旋轉(zhuǎn)和伸縮,大部分輸出也 能保持不變常用的CNN有1ACNN和2-7CNN等。1D CNN主要適用于單個維度的序列數(shù)據(jù) 2D-CNN主要用

25、于 圖片識別,經(jīng)過One-hot編碼后的序列也可以使用2D-CNN 進(jìn)行訓(xùn)練與其他深度學(xué)習(xí)模型相比,CNN可以分析數(shù)據(jù)中 隱藏的空間結(jié)構(gòu),Convolution Layerl圖5 CNN的結(jié)構(gòu)Fig. 2 Structure +Q CNNmotif是生物序列中具有特定功能和結(jié)構(gòu)的一段短序列, 將序列數(shù)據(jù)以R-mer或Onbhot編碼后輸入CNN,可以將卷 積核設(shè)置為motif序列的大小,卷積核在計(jì)算過程中記錄了 motif序列中每個位置堿基出現(xiàn)的權(quán)重,進(jìn)而實(shí)現(xiàn)對編碼序列 中motif的提取對于結(jié)構(gòu)數(shù)據(jù)來說,編碼后的各類結(jié)構(gòu)數(shù) 據(jù)在經(jīng)過串聯(lián)、維度變化和歸一化后,以圖譜的形式輸入 CNN中,也可以

26、通過卷積操作提取高維抽象特征在miR- NG靶位點(diǎn)預(yù)測的研究中,靶位點(diǎn)序列與miRNG序列為一對 一的關(guān)系,且明確知道結(jié)合位置位于種子區(qū)域卷積核的特 征提取作用不大,而之后的池化操作反而會造成有效特征的 缺失,進(jìn)而影響模型的預(yù)測精度3.3 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN是一類適合處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)與CNN相 比,RNN的網(wǎng)絡(luò)結(jié)構(gòu)相對簡單,主要由輸入層、隱藏層和輸出 層構(gòu)成 RNN以序列數(shù)據(jù)為輸入,在序列的演進(jìn)方向進(jìn)行遞 歸 RNN在計(jì)算過程中的一個顯著特點(diǎn)是序列的當(dāng)前輸出 不僅與當(dāng)前輸入有關(guān),還與之前的輸出有關(guān),具體表現(xiàn)為網(wǎng)絡(luò) 會對之前的信息進(jìn)行記憶和保留并將其應(yīng)用在當(dāng)前輸出的計(jì) 算中,即隱

27、藏層間的各個節(jié)點(diǎn)是有連接的RNN受短時記憶的影響,當(dāng)序列數(shù)據(jù)過長時,其會遺漏 較早的信息在實(shí)際研究中,通常使用長短期記憶網(wǎng)絡(luò) (Long Short-Term Memory,LSTM)&3:和門控循環(huán)單元(Gated Recurrent Unit,GRU)&32來解決該問題 LSTM (見圖 3(a)通過遺忘門、輸入門和輸出門以及細(xì)胞轉(zhuǎn)臺對序列信息 進(jìn)行篩選,使得較早的信息也能被攜帶至后續(xù)的計(jì)算中 GRU(見圖3(b)是LSTM的變體,該模型值包含更新門和 重置門,同時舍棄了細(xì)胞狀態(tài),使用隱藏狀態(tài)進(jìn)行信息的傳 遞在基于長序列的motif預(yù)測中,RNN具有一定優(yōu)勢序 列通常存在多個motif序列

28、,同時上下游序列對motif也存在 一定影響 RNN中的記憶單元可以記錄上下游位置的信息, 獲取motif與上下游間的依賴關(guān)系,進(jìn)而提高模型的預(yù)測精 度對于miRNG靶位點(diǎn)預(yù)測來說,由于其涉及的序列較短, 靶位點(diǎn)序列及miRNG序列均不超過40 nt,即使增加上下游 序列,仍可以認(rèn)定其為短序列,RNN的記憶單元反而會增加 模型的計(jì)算復(fù)雜度forget gate input gateoutput gate(a) LSTMreset gateupdate gate(b)GRU圖3 RNN結(jié)構(gòu)Fg.3 Structure of RNN3.4模型訓(xùn)練方法與深度學(xué)習(xí)框架3. 4. 1 模型訓(xùn)練方法梯度下

29、降法,如隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD)、批量梯度下降法、Momentum RMSProp 和 Adam 等均是深度學(xué)習(xí)模型中常用的優(yōu)化算法隨著網(wǎng)絡(luò)層數(shù)的不 斷增加,梯度爆炸和梯度消失成了影響網(wǎng)絡(luò)訓(xùn)練的重要問題, 如深度殘差網(wǎng)絡(luò)&33等則能緩解因過深層的網(wǎng)絡(luò)結(jié)構(gòu)帶來的 這些問題過擬合也是網(wǎng)絡(luò)訓(xùn)練中經(jīng)常出現(xiàn)的問題,許多解 決過擬合問題的方法也相繼出現(xiàn),如dropout】40,early stopping 和batch normalization】41等同時,為了搜索學(xué)習(xí)率和 迭代次數(shù)等超參數(shù),一般可以使用網(wǎng)格搜索、隨機(jī)搜索、貝葉 斯優(yōu)化等方法3.

30、4.2 深度學(xué)習(xí)框架目前可用的開源深度學(xué)習(xí)框架很多,常用的有Tensor- Flow&42,PyTorch】43,Reras 和 Theano】44等 這些開源框架 都提供了較為全面的API,在使用過程中可以根據(jù)自身數(shù)據(jù) 及具體任務(wù)選擇相應(yīng)的框架進(jìn)行模型構(gòu)建4深度學(xué)習(xí)模型的評價(jià)miRNA靶位點(diǎn)預(yù)測方法以miRNA序列及mRNA的 3(UTR序列或CTS序列的相關(guān)特征(包括序列特征及結(jié)構(gòu) 特征)作為輸入,訓(xùn)練模型以達(dá)到預(yù)測分類的目的,輸出表示 候選靶位點(diǎn)是否會和miRNA發(fā)生相互作用4. 1常規(guī)的miRNA靶位點(diǎn)預(yù)測方法常規(guī)方法根據(jù)方法內(nèi)部的作用機(jī)制,主要可以分為基于規(guī)則匹配的啟發(fā)式方法g和基于

31、先驗(yàn)特征的機(jī)器學(xué)習(xí) 方法齊。4. 1. 1 基于規(guī)則匹配的啟發(fā)式算法此類方法主要使用篩選算法,沿miRNA序列的種子區(qū) 域及mRNA的3%UTR區(qū)域進(jìn)行搜索,根據(jù)W-C配對和擺動 尋找候選靶位點(diǎn),并使用評分函數(shù)來過濾目標(biāo)位置# Tji- getScan!46首次提出了“種子匹配的概念,并在考慮保守性的 基礎(chǔ)上進(jìn)行靶位點(diǎn)基因的預(yù)測# miRanda!5。算法利用特定的 位置規(guī)則對序列的互補(bǔ)性進(jìn)行優(yōu)化匹配,并且依賴于序列的 保守性要求# RNAhybrid!4:使用動態(tài)規(guī)范算法預(yù)測靶基因, 并考慮了靶基因結(jié)合自由能對預(yù)測結(jié)果的影響# PITA!4引 入了位點(diǎn)可達(dá)性因素,計(jì)算了從micr+RNA-靶

32、雙鏈形成過程 中獲得的自由能與使靶子能被miRNA訪問的能量成本之間 的差異#基于規(guī)則的匹配方法計(jì)算簡單且快捷,因此上述方法大 多提供了在線預(yù)測的功能,但由于其過度依賴匹配規(guī)則,因此 存在準(zhǔn)確率差和假陽性高等問題#4. 1. 2 基于先驗(yàn)特征的機(jī)器學(xué)習(xí)方法這類方法主要通過序列組成、種子區(qū)域序列、結(jié)合自由 能、物種保守性、位點(diǎn)可達(dá)性等人工提取的特征,并結(jié)合支持 向量機(jī)、隨機(jī)森林等機(jī)器學(xué)習(xí)方法進(jìn)行miRNA靶基因的預(yù) 測# TargetSpy!49使用上述類型的特征,擴(kuò)展種子區(qū)域的匹 配規(guī)則,同時放寬對序列保守性的限制,來進(jìn)行目標(biāo)位點(diǎn)基因 的預(yù)測# TargetMiner!6。考慮了 miRNA數(shù)

33、據(jù)中因負(fù)樣本缺 少而使得預(yù)測結(jié)果假陽性率高的問題,結(jié)合包括miRNAs和 mRNAs的表達(dá)譜、miRN A-mRNA的結(jié)構(gòu)相互作用和種子- 位點(diǎn)保護(hù)等特征,確定了 300多個miRNA組織特異性的負(fù) 樣本。mirMark!22以實(shí)驗(yàn)驗(yàn)證的miRec+rd和mirTarBase中 的miRNA目標(biāo)為訓(xùn)練集,提取并考慮了 151個特征,用于進(jìn) 行位點(diǎn)級別和UTR級別的靶基因分類# TarPmiR!51結(jié)合了 CLASH數(shù)據(jù)集,為研究miRNA靶位點(diǎn)的特性和改進(jìn)miRNA 靶位點(diǎn)預(yù)測方法提供了很好的參考#機(jī)器學(xué)習(xí)方法相較于規(guī)則匹配方法,在預(yù)測精度上有了一 定的提升,但由于其受限于特征的選擇,且特征的

34、提取依賴于 領(lǐng)域的先驗(yàn)知識,從而為模型預(yù)測精度的提高帶來了一定阻礙?;谏疃葘W(xué)習(xí)的miRNA靶位點(diǎn)預(yù)測方法自深度學(xué)習(xí)興起以來,許多基于深度學(xué)習(xí)的方法開始應(yīng) 用于miRNA靶位點(diǎn)預(yù)測的研究中#基于深度學(xué)習(xí)的預(yù)測方 法的總體流程如圖4所示,研究者在數(shù)據(jù)及模型上各有創(chuàng)新#/ Train Set /Test SetNegative miRNAimRNA Dataset圖4 基于深度學(xué)習(xí)的miRNA/ Train Set /Test SetNegative miRNAimRNA Dataset圖4 基于深度學(xué)習(xí)的miRNA靶位點(diǎn)預(yù)測方法流程Fig. 4 Flow lor miRNA target pre

35、diction based on deep learningPositivemiRNA:mRNATrainDeep Network ModelmiRTDL!52使用CNN進(jìn)行位點(diǎn)的預(yù)測,使用從TarBase 中選取的數(shù)據(jù)進(jìn)行模型訓(xùn)練#在特征選擇步驟中,選擇了 20 個有意義的特征,涉及9個miRNA-靶雙鏈種子匹配特征、3 個保守性特征和 個位點(diǎn)可達(dá)性特征,這3種類型的特征被 廣泛認(rèn)為是影響miRNA-靶相互作用強(qiáng)度的因素#由于樣本 總體數(shù)據(jù)量較少,且其中經(jīng)實(shí)驗(yàn)驗(yàn)證的負(fù)樣本僅占一小部分, 為了保證分類器的準(zhǔn)確預(yù)測,miRTDL使用約束松弛方法構(gòu) 造了 4類平衡數(shù)據(jù)集,以彌補(bǔ)不平衡數(shù)據(jù)集的缺點(diǎn)#

36、結(jié)果表 明,該模型優(yōu)于傳統(tǒng)的預(yù)測方法#deepTarget!53使用了基于位點(diǎn)級別和UTR級別的數(shù)據(jù) 集,將自編碼器與RNN結(jié)合,自動提取序列特征并達(dá)到分類 預(yù)測的效果#輸入層連接到兩個自動編碼器的編碼層,以分 別對miRNA和mRNA序列進(jìn)行建模#第二層是RNN層, 用于模擬miRNA和mRNA序列之間的相互作用,且使用 GRU作為門結(jié)構(gòu)的效果優(yōu)于LSTM#頂層RNN層的輸出 被饋入完全連接的輸出層,該輸出層包含用于分類目標(biāo)和非 目標(biāo)的兩個單元#網(wǎng)絡(luò)使用了純序列數(shù)據(jù),結(jié)合非監(jiān)督的預(yù) 訓(xùn)練方法及有監(jiān)督的分類訓(xùn)練方法,結(jié)果較傳統(tǒng)的機(jī)器學(xué)習(xí) 方法有了大幅提升#DeepMirTar!54則在mirM

37、ark的基礎(chǔ)上,除使用了位點(diǎn) 保守性、可達(dá)性、自由能等傳統(tǒng)特征以外,還將CTS的原始序 列作為新特征,使用棧式去噪自編碼作為網(wǎng)絡(luò)模型,對網(wǎng)絡(luò)的 每個隱層進(jìn)行預(yù)訓(xùn)練,同時也比較了 CNN在該數(shù)據(jù)集下的 預(yù)測表現(xiàn)#由于使用的特征種類較多,模型中特征的重要性 也有所區(qū)別,通過隨機(jī)森林對特征的重要性進(jìn)行打分,發(fā)現(xiàn)原 始序列及序列組成這兩類特征的重要性高于自由能、保守性、 可達(dá)性等人工提取特征的重要性#miRAW!55的輸入數(shù)據(jù)均為原始序列,減少了序列組成、 保守性、可達(dá)性、自由能等傳統(tǒng)的人為定義特征#為了通過深 度學(xué)習(xí)模型獲取更多抽象特征,除常規(guī)的miRNA 5 %2-8位核 苷酸與mRNA候選位點(diǎn)的

38、匹配的情況外,將miRNA 5 % 1-10 位核苷酸與mRNA候選位點(diǎn)的匹配情況也作為新的匹配規(guī) 則,以增加候選位點(diǎn)的數(shù)量#模型使用棧式自編碼器,并在最 后的輸出層增加了后驗(yàn)過濾器,通過計(jì)算miRNA-CTS的可 達(dá)性對預(yù)測結(jié)果進(jìn)行篩選,在一定程度上減少了假陽性問題# 4.3模型性能的評價(jià)miRNA靶位點(diǎn)預(yù)測作為一個分類問題,常用準(zhǔn)確率 )Accuracy,ACC)和 AUC)Area Under Curve)等性能指標(biāo)來 判斷其性能的優(yōu)劣# ACC的定義如式(6)所示,其中TP表 示 True Positive,TN 表示 True negative,F(xiàn)P 表示 False Posi ti

39、ve,GN 表示 False Negative。ACC= (T3+TN)/(TP+TN+F3+FN)6)各預(yù)測工具及方法的性能如表3所列。其中,Tar- getScan,miRanda,RNAhybrid,PITA 和 TarPmiR 的測試結(jié) 果使用了 PAR-CLIP數(shù)據(jù),結(jié)果來自DeepMirTar ;miMark和 deepTarget使用的數(shù)據(jù)來自MirTarBase, MiRTDL的數(shù)據(jù)來 自TarBase,而miRAW的數(shù)據(jù)則結(jié)合了第2節(jié)中涉及的4種 數(shù)據(jù)。從表3中的對比可知,基于深度學(xué)習(xí)的預(yù)測方法的 ACC及AUC高于常規(guī)預(yù)測方法。同時,通過對比基于深度 學(xué)習(xí)的預(yù)測方法發(fā)現(xiàn),基

40、于棧式自編碼及序列數(shù)據(jù)的模型預(yù) 測性能更為出色。TypeMethodInputModelReQACCAUCmHRandaSequenceScoreSVRJohn,et al. ,20040.65920.6874Rule MatchngBasedRNAhybridSequenceScoreRehmsmeer , et al. , 20040.69880.758 5P/TATypeMethodInputModelReQACCAUCmHRandaSequenceScoreSVRJohn,et al. ,20040.65920.6874Rule MatchngBasedRNAhybridSequenc

41、eScoreRehmsmeer , et al. , 20040.69880.758 5P/TASequenceScoreKertesz,et al. ,20070.4981TargetScanSequenceScoreAgarwal , et al. , 20150.58010.6725表3 miRNA靶位點(diǎn)預(yù)測方法的性能比較Table 3 Performance comparison +Q miRNA target prediction methodsMuliiBoosiSturm,et al. ,2010TargetSpySequenceMachineStructureSVMStruct

42、ureRFLearnngBasedTargetMnermirMarkBandyopadhyay,et al. ,2009Menor,et al. ,2014deepTargetLSTMLee , et al. ,20160.83690.8750SequenceGRUAESequenceStructureSdAE0.93480.9793DeepMrTar1D-CNNWen, et al. , 20180.88860.95052D-CNN0.87650.941 0rniRAWSequenceSAEPla A , et al. , 20180.96000.9200TarPmiRStructureRFMiRTDLStructureCNN0. 8998Deep Learnng Based0.74460.8021Ding,et al. ,2016Cheng , et al. , 20165. 1深度學(xué)習(xí)方法存在的問題相比常規(guī)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論