![蛋白質(zhì)生物功能的機(jī)器學(xué)習(xí)方法研究_第1頁(yè)](http://file4.renrendoc.com/view/d67a5dfa62b3393550e76e3ce82defd7/d67a5dfa62b3393550e76e3ce82defd71.gif)
![蛋白質(zhì)生物功能的機(jī)器學(xué)習(xí)方法研究_第2頁(yè)](http://file4.renrendoc.com/view/d67a5dfa62b3393550e76e3ce82defd7/d67a5dfa62b3393550e76e3ce82defd72.gif)
![蛋白質(zhì)生物功能的機(jī)器學(xué)習(xí)方法研究_第3頁(yè)](http://file4.renrendoc.com/view/d67a5dfa62b3393550e76e3ce82defd7/d67a5dfa62b3393550e76e3ce82defd73.gif)
![蛋白質(zhì)生物功能的機(jī)器學(xué)習(xí)方法研究_第4頁(yè)](http://file4.renrendoc.com/view/d67a5dfa62b3393550e76e3ce82defd7/d67a5dfa62b3393550e76e3ce82defd74.gif)
![蛋白質(zhì)生物功能的機(jī)器學(xué)習(xí)方法研究_第5頁(yè)](http://file4.renrendoc.com/view/d67a5dfa62b3393550e76e3ce82defd7/d67a5dfa62b3393550e76e3ce82defd75.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
上海大學(xué)碩士學(xué)位論文20**年5月PAGEPAGE73中圖分類(lèi)號(hào):?jiǎn)挝淮?hào):10280密級(jí):學(xué)號(hào):07720212碩士學(xué)位論文SHANGHAIMASTERDISSERTATION題目蛋白質(zhì)生物功能的機(jī)器學(xué)習(xí)方法研究作者學(xué)科專(zhuān)業(yè)物理化學(xué)導(dǎo)師教授完成日期ADissertationSubmittedtoShanghaiUniversityfortheMaster’sDegreeinScienceUsingMachineLearningMethodsInInvesigationofProtein’sBiologicalFunctionsM.D.Candidate:ZhuYubeiSupervisor:Prof.LuWencongMajor:PhysicalChemistryScienceCollege,ShanghaiMay,20**
摘要近些年來(lái),隨著信息技術(shù)和生物檢測(cè)手段的不斷發(fā)展,生命科學(xué)的數(shù)據(jù)資源急劇膨脹。實(shí)驗(yàn)工作者在產(chǎn)生大量數(shù)據(jù)的同時(shí),也對(duì)理論研究者提出了更多的難題。利用機(jī)器學(xué)習(xí)這一方法來(lái)分析這些數(shù)據(jù),我們可以從中找出隱含的規(guī)律和模式,從而進(jìn)一步加深對(duì)事物的認(rèn)識(shí)。本文就是采取這一研究方法,對(duì)蛋白質(zhì)的生物功能進(jìn)行建模和預(yù)報(bào)。在本文的工作中,我們使用了機(jī)器學(xué)習(xí)方法來(lái)對(duì)蛋白質(zhì)和小分子的相互作用、蛋白質(zhì)糖基化位點(diǎn)的識(shí)別進(jìn)行建模和預(yù)報(bào)。另外我們還探討了一系蛋白質(zhì)列生物功能在線預(yù)報(bào)系統(tǒng)的建設(shè)和優(yōu)化。本文的主體工作分為三個(gè)部分:用集成學(xué)習(xí)算法對(duì)蛋白質(zhì)和小分子的相互作用進(jìn)行研究。我們針對(duì)代謝途徑下的酶和底物之間的相關(guān)作用,建立了相互作用預(yù)報(bào)模型。通過(guò)對(duì)數(shù)據(jù)集的變量篩選和降維的評(píng)價(jià),我們保留了原有的變量集合。在后續(xù)的建模過(guò)程中分別用AdaBoost,Bagging,SVM,KNN,決策樹(shù)對(duì)酶和底物進(jìn)行建模。10組交叉驗(yàn)證和獨(dú)力測(cè)試集的結(jié)構(gòu)顯示,集成學(xué)習(xí)方法AdaBoost,Bagging的分類(lèi)能力最好,都達(dá)到了71%以上。而我們接著又把不同的分類(lèi)器組合集成后發(fā)現(xiàn),前2個(gè)性能最好的集成學(xué)習(xí)算法和KNN組合后的體系具有最好的推廣能力,其獨(dú)立測(cè)試集中正樣本的正確率又在原先最好的結(jié)果下提高了近4%,而其總體正確率也達(dá)到了84.6%。結(jié)果證明,多重集成學(xué)習(xí)算法可以用來(lái)研究蛋白質(zhì)和小分子相互作用,所得到的模型有很好的預(yù)測(cè)性能。此外,我們根據(jù)所建立的酶和底物相互作用的預(yù)測(cè)模型,同時(shí)開(kāi)發(fā)了相應(yīng)的在線預(yù)報(bào)系統(tǒng)。用CFS-Wrapper篩選變量法結(jié)合AdaBoost集成方法對(duì)蛋白質(zhì)O端糖基化位點(diǎn)進(jìn)行研究。在許多的生化過(guò)程中都需要有O-端糖鏈的參與。然而糖基化是一個(gè)復(fù)雜的過(guò)程,迄今為止還未得出一個(gè)固定的模式。我們對(duì)收集到的糖基化和非糖基化肽段,并用肽段中殘基的物化參數(shù),以AAIndex庫(kù)中的數(shù)據(jù)進(jìn)行表征。分別嘗試了CFS方法以及PCA主成分變換進(jìn)行變量篩選。在進(jìn)行初步的變量篩選后,分別用SVM、KNN、C4.5、AdaBoost、Bagging對(duì)不同的變量篩選方法進(jìn)行多組交叉驗(yàn)證和獨(dú)立測(cè)試集的評(píng)價(jià)。接著確定以AdaBoost建模和CFS變量篩選結(jié)果為基礎(chǔ),做進(jìn)一步的Wrapper篩選。最終篩選出23個(gè)變量的子集。其十組交叉驗(yàn)證正確率在88.1%、獨(dú)立測(cè)試集正確率在87.5%。根據(jù)該模型,我們開(kāi)發(fā)了蛋白質(zhì)糖基化點(diǎn)位的在線預(yù)報(bào)系統(tǒng)。利用Java網(wǎng)頁(yè)技術(shù)、weka軟件、第三方開(kāi)發(fā)包等工具開(kāi)發(fā)出了一系列蛋白質(zhì)生物功能在線預(yù)報(bào)系統(tǒng)。我們分別從設(shè)計(jì)原理,實(shí)現(xiàn)方法以及優(yōu)化手段等提出了自己的看法和見(jiàn)解。這些在線預(yù)報(bào)系統(tǒng)涉及到亞細(xì)胞定位、翻譯后修飾、蛋白質(zhì)相互作用、酶和底物作用等方面的內(nèi)容。其中采取MVC的設(shè)計(jì)模式簡(jiǎn)化了構(gòu)建在線預(yù)報(bào)服務(wù)的實(shí)現(xiàn)工作,提高了工作效率。并且在諸如weka、httpclient、多線程等技術(shù)的使用下使我們的預(yù)報(bào)系統(tǒng)具有更好的用戶(hù)體驗(yàn)。關(guān)鍵詞:蛋白質(zhì)生物功能、機(jī)器學(xué)習(xí),集成學(xué)習(xí),組合分類(lèi)器,酶和底物,O端糖基化,AdaBoost,CFS,在線預(yù)報(bào)服務(wù)器
AbstractInrecentyears,dataresourcesofbiologyaregrowingrapidlyforthedevelopmentsinITanddetectiontechnology.Whentheexperimentalscientistsgettheirresearchdata,theyalsocreatemanyproblemstothetheoreticalscientists.Usingmachinelearningmethodstoexploreandprocessthedata,wecanrevealtherulesandpatternsbehindthedataandobtainfurtherunderstandingsoftheresearchobjects.So,weusedthemachinelearningmethodstomodelandpredictsomebiologicalfunctionsofproteins.Inourthesis,severalmachinelearningalgorithmswereusedforthepredictionofinteractionbetweenproteins–smallmoleculesandtheO-glycosylationsitesofproteins.Alsowebuiltaseriesofonlinepredictionservicesofprotein’sbiologicalfunctionsanddiscussedthewayofconstructionandoptimizationoftheseservices.Themainworkofthisthesiscontainsthreeparts:Ensemblelearningmethodswereusedtoinvestigatetheinteractionbetweenproteinsandsmallmolecules.Thepredictionmodelwasbuiltbytheinteractionsinmetabolicpathways.Bycomparingwiththeresultsoffeatureselection,wekeeptheoriginaldatasets.Inthefurtherprocess,AdaBoost,Bagging,SVM,KNN,Decisiontreewereusedtomodeltheinteractionsbetweenenzymesandcompounds.Accordingtotheevaluationresultof10crossvalidationandindependenttest,ensemblemethods,AdaBoostandBaggingoutperformotherclassifiers.Thenthecombinationsystemsofmultipleclassifiersweretakentomodelthedata.Theresultsof10-cvandindependenttestconcludethatthecombinationof2goodensembleclassifiersandKNNshowsthebestgeneralizationability.Thetruepredictionrateinindependenttestwas75.5%,almost4%betterthanprevious2ensembleclassifier.Whiletheoverallpredictionratestillashighas84.6%.Itcouldbeconcludedthemultipleensemblesystemisagoodmodelonpredictingtheinteractionbetweensmallmoleculesandenzymes.Anonlinepredictionserviceofourmodelbasedonthisresearchhasbeenbuiltandavailabletopublic.Correlation-basedfeaturesubset(CfsSubset)selectionandwrappermethodswithAdaBoostwereappliedtostudythesiteofO-glycosylationinproteins.TheO-glycosylationinvolveinmanybiologicalprocesses.However,themechanismofO-glycosylationissohardtorecognizethatthepatternsofO-glycosylationarestillunsure.HeresomepeptidescontainO-glycosylationsitesornon-O-glycosylationsiteswerecollectedandencodedwiththephyschemicalparametersinAAIndexdatabases.CFSandPCAwereusedinthefeatureselection.Afterthefirststepfeatureselection,SVM、KNN、C4.5、AdaBoost、Baggingwereusedtoevaluatethesubsetswith10-cvandindependenttestset.ThenthewrapperselectionwithAdaBoostwasconductedonthesubsetfromCFS.Asaresult,twenty-threebiochemistryfeatureswerefoundbasedonjackknifetest.Thepredictionmodelobtainsaccuracyrateof88.1%forjackknifetestand87.5%forindependentsettest.ByusingJavawebtechnology、wekaandthirdpartydeveloppackage,aseriesofonlinepredictionservicewerebuilttopredictthebiologicalfunctionsofproteins.Designtheory,implementmethodsandoptimizationideasweredisscusedhere.Theseonlineservicesdealwithsubcelllocation,PTM,proteininteraction,interactionbetweenenzymeandsmallmolecule.TheMVCpatternisusedinbuildingtheonlineserverwhichmakesourworkclearandefficient.Theuseofweak,httpclient,multithreadensurethebetteruserexperiencesofourservices.Keywords:biologicalfunctionofprotein,machinelearning,ensemblelearning,combiningclassifiers,enzymeandcompound,O-glycosylation,AdaBoost,CFS,onlinepredictionservice
目錄摘要 VAbstract VII目錄 IX第一章 緒論 11.1 機(jī)器學(xué)習(xí)方法概述 11.2 蛋白質(zhì)的生物學(xué)基礎(chǔ) 21.3 機(jī)器學(xué)習(xí)在蛋白質(zhì)生物功能注釋中的應(yīng)用 31.3.1 表征手段 31.3.2 算法應(yīng)用 41.4 生物在線Web預(yù)報(bào)系統(tǒng)簡(jiǎn)介 51.5 論文的主要內(nèi)容 6第二章 機(jī)器學(xué)習(xí)算法原理 72.1 基本學(xué)習(xí)算法 72.1.1 人工神經(jīng)網(wǎng)絡(luò)算法 72.1.2 SVM算法 72.1.3 決策樹(shù)分類(lèi)算法 82.1.4 最近鄰算法 92.2 集成學(xué)習(xí)算法 102.2.1 投票算法Voting 102.2.2 AdaBoost算法 102.2.3 Bagging算法 122.3 變量壓縮/篩選算法 132.3.1 主成分變換 132.3.2 CFS算法 142.4 本章小結(jié) 15第三章 蛋白質(zhì)-小分子相互作用預(yù)報(bào)的集成學(xué)習(xí)研究 163.1 引言 163.2 數(shù)據(jù)來(lái)源與表征 163.2.1 數(shù)據(jù)來(lái)源 163.2.2 數(shù)據(jù)表征 173.3 結(jié)果與討論 213.3.1 試驗(yàn)方法的選擇 213.3.2 變量篩選結(jié)果 223.3.3 建模與分析 233.4 本章小結(jié) 28第四章蛋白質(zhì)糖基化位點(diǎn)預(yù)報(bào)的數(shù)據(jù)挖掘研究 304.1 引言 304.2 數(shù)據(jù)來(lái)源與表征 314.2.1 數(shù)據(jù)來(lái)源 314.2.2 數(shù)據(jù)表征 314.3 結(jié)果與討論 334.3.1 試驗(yàn)方法的選擇 334.3.2 初步變量篩選 334.3.3 Wrapper變量篩選 354.3.4 建模與分析 354.4 本章小結(jié) 39第五章蛋白質(zhì)生物功能在線Web預(yù)報(bào)系統(tǒng)的建設(shè) 405.1 引言 405.2 在線Web預(yù)報(bào)系統(tǒng)設(shè)計(jì)架構(gòu)與原理 415.2.1 在線預(yù)報(bào)系統(tǒng)設(shè)計(jì)架構(gòu) 415.2.2 在線預(yù)報(bào)系統(tǒng)設(shè)計(jì)原理 435.3 在線預(yù)報(bào)服務(wù)器的實(shí)現(xiàn)以及優(yōu)化 445.3.1 蛋白質(zhì)間相互作用分類(lèi)在線預(yù)報(bào)系統(tǒng) 445.3.2 蛋白質(zhì)翻譯后修飾sumo位點(diǎn)的在線預(yù)報(bào)系統(tǒng) 465.3.3 蛋白質(zhì)和小分子相互作用的在線預(yù)報(bào)系統(tǒng) 485.4 本章小結(jié) 50第六章總結(jié)與展望 526.1 全文總結(jié) 526.2 工作展望 53參考文獻(xiàn) 54作者在攻讀碩士學(xué)位期間公開(kāi)發(fā)表的論文和專(zhuān)利 61致謝 62第一章 緒論1.1 機(jī)器學(xué)習(xí)方法概述機(jī)器學(xué)習(xí)是人工智能領(lǐng)域中與算法相關(guān)的一個(gè)子領(lǐng)域,其研究主旨是使用計(jì)算機(jī)模擬人類(lèi)的學(xué)習(xí)活動(dòng),也就是說(shuō)如何使機(jī)器不斷地進(jìn)行學(xué)習(xí),當(dāng)然,這里的學(xué)習(xí)是指從數(shù)據(jù)中學(xué)習(xí)ADDINEN.CITE<EndNote><Cite><Author>Theodoridis</Author><Year>2021</Year><RecNum>832</RecNum><record><rec-number>832</rec-number><ref-typename="Book">6</ref-type><contributors><authors><author>Theodoridis,Sergios</author><author>Koutroumbas,Konstantinos</author></authors></contributors><titles><title>PatternRecognition,ThirdEdition</title></titles><pages>181</pages><keywords><keyword>pattern_recognition</keyword></keywords><dates><year>2021</year></dates><publisher>AcademicPress</publisher><isbn>0123695317</isbn><accession-num>citeulike:680034</accession-num><urls><related-urls><url>citeulike-article-id:680034</url><url>http://www.amazon.ca/exec/obidos/redirect?tag=citeulike09-20&path=ASIN/0123695317</url></related-urls></urls></record></Cite></EndNote>[1]。這就相當(dāng)于將一組數(shù)據(jù)傳遞給算法,然后去由這些算法預(yù)報(bào)出和這些數(shù)據(jù)相關(guān)的一些屬性和信息。其重點(diǎn)在于對(duì)未知的數(shù)據(jù)進(jìn)行預(yù)報(bào)。機(jī)器學(xué)習(xí)之所有這種作用,是因?yàn)樵谕恢黝}的大量數(shù)據(jù)中一般都含有某些模式,通過(guò)對(duì)數(shù)據(jù)的學(xué)習(xí),可以對(duì)這些隱含的模式進(jìn)行歸納和整理,以此得到一個(gè)模型。而做出預(yù)報(bào)的就是這個(gè)學(xué)習(xí)后的模型ADDINEN.CITE<EndNote><Cite><Author>Mitchell</Author><Year>2021</Year><RecNum>773</RecNum><record><rec-number>773</rec-number><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Mitchell</author></authors></contributors><titles><title><styleface="normal"font="default"charset="134"size="100%">機(jī)器學(xué)習(xí)</style></title><secondary-title><styleface="normal"font="default"charset="134"size="100%">北京:機(jī)械工業(yè)出版社</style></secondary-title></titles><pages><styleface="normal"font="default"charset="134"size="100%">154</style></pages><section><styleface="normal"font="default"charset="134"size="100%">38</style></section><dates><year>2021</year></dates><urls></urls></record></Cite></EndNote>[2]。在機(jī)器學(xué)習(xí)領(lǐng)域中有許多不同的算法,從宏觀上可以把這些算法分成有人監(jiān)督學(xué)習(xí)、無(wú)人監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等。應(yīng)該說(shuō)所有算法都各有千秋、各有所長(zhǎng),并適應(yīng)于不用的問(wèn)題,有些算法直觀明了,比如決策樹(shù)。而有的算法比如人工神經(jīng)網(wǎng)絡(luò)其學(xué)習(xí)過(guò)程則是一個(gè)黑箱。應(yīng)該說(shuō)機(jī)器學(xué)習(xí)仍然是一門(mén)高速發(fā)展的學(xué)科,我們也要看到其缺點(diǎn)和限制。大部分的方法受限在大規(guī)模樣本的學(xué)習(xí)情況,而對(duì)于小樣本數(shù)據(jù)集的學(xué)習(xí)可能會(huì)產(chǎn)生錯(cuò)誤的學(xué)習(xí)和理解。然而在進(jìn)行大規(guī)模數(shù)據(jù)處理的時(shí)候控制計(jì)算復(fù)雜度、缺失值的處理和分析、非均衡樣本的分類(lèi)界限等課題都迫切地需要有效地解決。對(duì)于機(jī)器學(xué)習(xí)這一迷人的方法,我們應(yīng)抱著辯證的角度去看。機(jī)器學(xué)習(xí)的結(jié)果更應(yīng)該被視作為一種獲取新信息、新知識(shí)的途徑。從模型中我們提取有益的信息并利用之。對(duì)于機(jī)器學(xué)習(xí)的結(jié)果進(jìn)行分析和解釋是非常重要的環(huán)節(jié)。人類(lèi)擁有的學(xué)習(xí)能力要遠(yuǎn)遠(yuǎn)大于機(jī)器,因此從某種角度說(shuō)我們?nèi)祟?lèi)也是某種機(jī)器??偟恼f(shuō)來(lái),機(jī)器學(xué)習(xí)應(yīng)該成為一名科研工作者的工具,正確使用它可以有效降低工作量、提高工作質(zhì)量。1.2 蛋白質(zhì)的生物學(xué)基礎(chǔ)蛋白質(zhì)是由20種常見(jiàn)氨基酸組成的生物大分子。對(duì)于兩兩氨基酸來(lái)說(shuō)可以通過(guò)羧基與氨基的縮合形成酰胺鍵,也叫肽鍵。多個(gè)氨基酸通過(guò)肽鍵連接形成了多肽鏈。從另一個(gè)角度來(lái)說(shuō)蛋白質(zhì)就是通過(guò)肽鍵把氨基酸聚合起來(lái)的多肽鏈大分子。而由于氨基酸之間的脫水反應(yīng),所以在蛋白質(zhì)中的氨基酸又被稱(chēng)作殘基。在后文我們的研究對(duì)象一般針對(duì)蛋白質(zhì),所以我們會(huì)交替使用氨基酸和殘基這2個(gè)名字來(lái)稱(chēng)呼多肽鏈中的氨基酸。就蛋白質(zhì)的結(jié)構(gòu)來(lái)說(shuō),可以分為一、二、三、四級(jí)結(jié)構(gòu)。蛋白質(zhì)的一級(jí)結(jié)構(gòu)是指構(gòu)成蛋白質(zhì)大分子的殘基的排列順序。一級(jí)結(jié)構(gòu)是蛋白質(zhì)結(jié)構(gòu)的基礎(chǔ),它影響著蛋白質(zhì)更高層次的結(jié)構(gòu)。每種蛋白質(zhì)都具有特定的一級(jí)結(jié)構(gòu)。但是一些彼此相關(guān)的蛋白質(zhì),其一級(jí)結(jié)構(gòu)具有不同程度的相似性ADDINEN.CITE<EndNote><Cite><Author>梁毅</Author><Year>2021</Year><RecNum>925</RecNum><record><rec-number>925</rec-number><ref-typename="Book">6</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">梁毅</style></author></authors></contributors><titles><title><styleface="normal"font="default"charset="134"size="100%">結(jié)構(gòu)生物學(xué)</style></title></titles><dates><year>2021</year></dates><pub-location><styleface="normal"font="default"charset="134"size="100%">中國(guó)</style></pub-location><publisher><styleface="normal"font="default"charset="134"size="100%">科學(xué)出版社</style></publisher><urls></urls></record></Cite></EndNote>[3]。蛋白質(zhì)的一級(jí)結(jié)構(gòu)派生出二級(jí)結(jié)構(gòu)。它是指多肽鏈沿一維方向排列成為具有周期性結(jié)構(gòu)的構(gòu)象。二級(jí)結(jié)構(gòu)其實(shí)指的是多肽鏈的局部構(gòu)象,其基本的類(lèi)型有α螺旋、β折疊以及回折ADDINEN.CITE<EndNote><Cite><Author>梁毅</Author><Year>2021</Year><RecNum>925</RecNum><record><rec-number>925</rec-number><ref-typename="Book">6</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">梁毅</style></author></authors></contributors><titles><title><styleface="normal"font="default"charset="134"size="100%">結(jié)構(gòu)生物學(xué)</style></title></titles><dates><year>2021</year></dates><pub-location><styleface="normal"font="default"charset="134"size="100%">中國(guó)</style></pub-location><publisher><styleface="normal"font="default"charset="134"size="100%">科學(xué)出版社</style></publisher><urls></urls></record></Cite></EndNote>[3]。α螺旋是很常見(jiàn)的二級(jí)結(jié)構(gòu),也很容易進(jìn)行識(shí)別。其特征是:每圈含有3.6個(gè)殘基,螺距為0.54nm,殘基高度0.15nm,螺旋半徑是0.23nm,相鄰螺旋間形成氫鍵,取向與螺旋軸幾乎平行。β折疊也在蛋白質(zhì)中普遍的存在著。每個(gè)β折疊的平均長(zhǎng)度約相當(dāng)于6.5個(gè)殘基。一般來(lái)說(shuō),單個(gè)的β折疊很難形成肽鍵,所以不太穩(wěn)定。只有通過(guò)肽鏈之間的氫鍵使多個(gè)β折疊形成一組β折疊才可以比較穩(wěn)定。這樣的一組β折疊叫β折疊片ADDINEN.CITE<EndNote><Cite><Author>惠特福德</Author><Year>2021</Year><RecNum>926</RecNum><record><rec-number>926</rec-number><ref-typename="Book">6</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">惠特福德</style></author></authors><subsidiary-authors><author><styleface="normal"font="default"charset="134"size="100%">魏群</style></author></subsidiary-authors></contributors><titles><title><styleface="normal"font="default"charset="134"size="100%">蛋白質(zhì)--結(jié)構(gòu)與功能</style></title></titles><dates><year><styleface="normal"font="default"charset="134"size="100%">2021</style></year></dates><pub-location><styleface="normal"font="default"charset="134"size="100%">中國(guó)北京</style></pub-location><publisher><styleface="normal"font="default"charset="134"size="100%">科學(xué)出版社</style></publisher><urls></urls></record></Cite></EndNote>[4]。而回折結(jié)構(gòu)指的是多肽鏈發(fā)生180°的結(jié)構(gòu)轉(zhuǎn)彎。這樣的回折并非像α螺旋那樣是一種周期性扭轉(zhuǎn)?;卣壑饕譃?種:β轉(zhuǎn)角和γ轉(zhuǎn)角。前者是由4個(gè)連續(xù)的殘基構(gòu)成的,其中首個(gè)殘基中的羰基會(huì)和第4個(gè)殘基的亞氨基產(chǎn)生氫鍵作用。而γ轉(zhuǎn)角則由3個(gè)連續(xù)的氨基酸組成,并也會(huì)形成氫鍵,只不過(guò)是由第一個(gè)和第三個(gè)來(lái)形成ADDINEN.CITE<EndNote><Cite><Author>楊銘</Author><Year>2021</Year><RecNum>927</RecNum><record><rec-number>927</rec-number><ref-typename="Book">6</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">楊銘</style></author></authors></contributors><titles><title><styleface="normal"font="default"charset="134"size="100%">結(jié)構(gòu)生物學(xué)與藥學(xué)研究</style></title></titles><dates><year>2021</year></dates><pub-location><styleface="normal"font="default"charset="134"size="100%">中國(guó)北京</style></pub-location><publisher><styleface="normal"font="default"charset="134"size="100%">科學(xué)出版社</style></publisher><urls></urls></record></Cite></EndNote>[5]。蛋白質(zhì)的結(jié)構(gòu)還可進(jìn)一步分成三級(jí)結(jié)構(gòu)和四級(jí)結(jié)構(gòu),這里就不詳細(xì)加以描述了。1.3 機(jī)器學(xué)習(xí)在蛋白質(zhì)生物功能注釋中的應(yīng)用蛋白質(zhì)相關(guān)數(shù)據(jù)的不斷膨脹給機(jī)器學(xué)習(xí)在這一領(lǐng)域的應(yīng)用做好了鋪墊ADDINEN.CITE<EndNote><Cite><Author>張陽(yáng)德</Author><Year>2021</Year><RecNum>54</RecNum><record><rec-number>54</rec-number><ref-typename="Book">6</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">張陽(yáng)德</style></author></authors></contributors><titles><title><styleface="normal"font="default"charset="134"size="100%">生物信息學(xué)</style></title></titles><dates><year>2021</year></dates><pub-location><styleface="normal"font="default"charset="134"size="100%">北京</style></pub-location><publisher><styleface="normal"font="default"charset="134"size="100%">科學(xué)出版社</style></publisher><urls></urls></record></Cite></EndNote>[6]。各大主流生物數(shù)據(jù)庫(kù)更是收集了海量的生物學(xué)數(shù)據(jù)。所以把機(jī)器學(xué)習(xí)算法用在和蛋白質(zhì)相關(guān)信息的建模和預(yù)報(bào)上是非常合適的。近年來(lái),蛋白質(zhì)的生物功能的研究逐漸得到重視。機(jī)器學(xué)習(xí)方法在蛋白質(zhì)和核酸、蛋白質(zhì)和蛋白質(zhì)、蛋白質(zhì)和小分子相互作用、蛋白質(zhì)亞細(xì)胞定位以及蛋白質(zhì)翻譯后修飾等領(lǐng)域的研究都有很多的報(bào)道ADDINEN.CITE<EndNote><Cite><Author>張曉龍</Author><Year>2021</Year><RecNum>37</RecNum><record><rec-number>37</rec-number><ref-typename="JournalArticle">17</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">張曉龍</style></author><author><styleface="normal"font="default"charset="134"size="100%">楊艷霞</style></author></authors></contributors><titles><title><styleface="normal"font="default"charset="134"size="100%">機(jī)器學(xué)習(xí)在生物信息學(xué)中的應(yīng)用</style></title><secondary-title><styleface="normal"font="default"charset="134"size="100%">武漢科技大學(xué)學(xué)報(bào)(自然科學(xué)版)</style></secondary-title></titles><pages><styleface="normal"font="default"charset="134"size="100%">201-204</style></pages><volume><styleface="normal"font="default"charset="134"size="100%">28</style></volume><dates><year><styleface="normal"font="default"charset="134"size="100%">2021</style></year></dates><urls></urls></record></Cite></EndNote>[7]。我們下面分別從表征手段和方法應(yīng)用予以介紹。1.3.1 表征手段 氨基酸組成在前面的小節(jié)中我們介紹了蛋白質(zhì)是由20種常見(jiàn)氨基酸組成的生物大分子。所以把蛋白質(zhì)序列中氨基酸組成含量來(lái)表征序列是一個(gè)直接又基本的方法。它反映了序列的全局屬性。在這樣的方法的表示下,整個(gè)序列成為了一個(gè)20維的向量。Nakashima用氨基酸組成的方法來(lái)預(yù)報(bào)蛋白質(zhì)類(lèi)型ADDINEN.CITE<EndNote><Cite><Author>Nakashima</Author><Year>1986</Year><RecNum>196</RecNum><record><rec-number>196</rec-number><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Nakashima,H.</author><author>Nishikawa,K.</author><author>Ooi,T.</author></authors></contributors><titles><title>Thefoldingtypeofaproteinisrelevanttotheaminoacidcomposition</title><secondary-title>JournalofBiochemistry</secondary-title></titles><pages><styleface="normal"font="default"size="100%">152</style><styleface="normal"font="default"charset="134"size="100%">–162</style></pages><volume>99</volume><dates><year>1986</year></dates><urls></urls></record></Cite></EndNote>[8]。Stawiski等用氨基酸組成等變量預(yù)測(cè)蛋白質(zhì)與核酸之間的作用ADDINEN.CITE<EndNote><Cite><Author>Stawiski</Author><Year>2021</Year><RecNum>756</RecNum><record><rec-number>756</rec-number><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Stawiski,E.W.</author><author>Gregoret,L.M.</author><author>Mandel-Gutfreund,Y.</author></authors></contributors><auth-address>Gregoret,LM UnivCalifSantaCruz,DeptChem&Biochem,SantaCruz,CA95064USA UnivCalifSantaCruz,DeptChem&Biochem,SantaCruz,CA95064USA UnivCalifSantaCruz,DeptMolCell&DevBiol,SantaCruz,CA95064USA</auth-address><titles><title>Annotatingnucleicacid-bindingfunctionbasedonproteinstructure</title><secondary-title>JournalofMolecularBiology</secondary-title></titles><periodical><full-title>JournalofMolecularBiology</full-title></periodical><pages>1065-1079</pages><volume>326</volume><number>4</number><keywords><keyword>structuralgenomics</keyword><keyword>nucleicacidbinding</keyword><keyword>functionprediction</keyword><keyword>electrostatics</keyword><keyword>surfacepatches</keyword><keyword>3dcoordinatetemplates</keyword><keyword>transcriptionfactors</keyword><keyword>secondarystructure</keyword><keyword>interactionsites</keyword><keyword>DNAinteractions</keyword><keyword>recognition</keyword><keyword>prediction</keyword><keyword>surfaces</keyword><keyword>common</keyword><keyword>database</keyword></keywords><dates><year>2021</year><pub-dates><date>Feb28</date></pub-dates></dates><isbn>0022-2836</isbn><accession-num>ISI:000181401900009</accession-num><urls><related-urls><url><GotoISI>://000181401900009</url></related-urls><pdf-urls><url>internal-pdf://AnnotatingNucleicAcid-BindingFunctionBasedon-0354259968/AnnotatingNucleicAcid-BindingFunctionBasedon.pdf</url></pdf-urls></urls><language>English</language></record></Cite></EndNote>[9]。Chou用氨基酸組成來(lái)表征蛋白質(zhì)以預(yù)報(bào)其結(jié)構(gòu)的分類(lèi)ADDINEN.CITE<EndNote><Cite><Author>Chou</Author><Year>1989</Year><RecNum>781</RecNum><record><rec-number>781</rec-number><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Chou,P.Y</author></authors></contributors><titles><title>Predictionofproteinstructuralclassedfromaminoacidcompositon.</title><secondary-title>InPredictionofProteinStructureandthePrinciplesofProteinConformation.G.D.Fasman,editor.PlenumPress,NewYork</secondary-title></titles><pages>37</pages><section>549</section><dates><year>1989</year></dates><urls></urls></record></Cite></EndNote>[10]。 擬氨基酸組成在氨基酸組成的基礎(chǔ)上,Chou等提出了擬氨基酸組成ADDINEN.CITE<EndNote><Cite><Author>Chou</Author><Year>2021</Year><RecNum>296</RecNum><record><rec-number>296</rec-number><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Chou,K.C.</author></authors></contributors><titles><title>Predictionofproteincellularattributesusingpseudo-aminoacidcomposition</title><secondary-title>Proteins-StructureFunctionandGenetics</secondary-title></titles><periodical><full-title>Proteins-StructureFunctionandGenetics</full-title></periodical><pages>246-255</pages><volume>43</volume><dates><year>2021</year><pub-dates><date>Jul</date></pub-dates></dates><isbn>0887-3585</isbn><accession-num>ISI:000169067000008</accession-num><urls><related-urls><url><GotoISI>://000169067000008</url></related-urls></urls></record></Cite></EndNote>[11]。它被定義為一個(gè)(20+λ)維的向量,前20維元素代表前面提到過(guò)的氨基酸組成。而后λ維元素則表示序列相關(guān)因子,該因子可以根據(jù)殘基的疏水指數(shù)、親水指數(shù)和側(cè)鏈分子量等性質(zhì)計(jì)算得到。由于擬氨基酸組成進(jìn)一步加入了氨基酸的物化性質(zhì),而且該方法加入了可以擴(kuò)展的物化性質(zhì)參數(shù),所以預(yù)報(bào)正確率有所提高。Chou和Cai發(fā)展了基于連續(xù)模式的擬氨基酸組成ADDINEN.CITE<EndNote><Cite><Author>Chou</Author><Year>2021</Year><RecNum>333</RecNum><record><rec-number>333</rec-number><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Chou,K.C.</author><author>Cai,Y.D.</author></authors></contributors><titles><title>Predictionandclassificationofproteinsubcellularlocation-Sequence-ordereffectandpseudoaminoacidcomposition</title><secondary-title>JournalofCellularBiochemistry</secondary-title></titles><pages>1250-1260</pages><volume>90</volume><number>6</number><dates><year>2021</year><pub-dates><date>Dec</date></pub-dates></dates><isbn>0730-2312</isbn><accession-num>ISI:000186843900015</accession-num><urls><related-urls><url><GotoISI>://000186843900015</url></related-urls></urls></record></Cite></EndNote>[12]。Fang等用擬氨基酸組成研究了蛋白質(zhì)與DNA相互作用分類(lèi)體系,取得了比較好的推廣效果ADDINEN.CITE<EndNote><Cite><Author>Fang</Author><Year>2021</Year><RecNum>558</RecNum><record><rec-number>558</rec-number><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Fang,Y.</author><author>Guo,Y.</author><author>Feng,Y.</author><author>Li,M.</author></authors></contributors><titles><title>PredictingDNA-bindingproteins:approachedfromChou'spseudoaminoacidcompositionandotherspecificsequencefeatures</title><secondary-title>AminoAcids</secondary-title></titles><pages>103-109</pages><volume>34</volume><dates><year>2021</year></dates><accession-num>WOS:000252274400011</accession-num><urls><related-urls><url><GotoISI>://WOS:000252274400011</url></related-urls></urls><electronic-resource-num>10.1007/s00726-007-0568-2|ISSN0939-4451</electronic-resource-num></record></Cite></EndNote>[13]。 物化性質(zhì)表征用物化參數(shù)來(lái)表征蛋白質(zhì)序列也是一種很成熟的表征手段。應(yīng)該說(shuō)在前面提到的擬氨基酸組成中已經(jīng)引入了部分物化性質(zhì)。而我們這里主要介紹利用AAIndex氨基酸索引數(shù)據(jù)庫(kù)來(lái)表征蛋白質(zhì)序列。AAIndex收集了大量常見(jiàn)氨基酸的各種物化性質(zhì)參數(shù)ADDINEN.CITE<EndNote><Cite><Author>Kawashima</Author><Year>2021</Year><RecNum>184</RecNum><record><rec-number>184</rec-number><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Kawashima,S.</author><author>Kanehisa,M.</author></authors></contributors><titles><title>AAindex:aminoacidindexdatabase.</title><secondary-title>NucleicAcidsRes.</secondary-title></titles><periodical><full-title>NucleicAcidsRes.</full-title></periodical><pages>374</pages><volume>28</volume><dates><year>2021</year></dates><urls></urls></record></Cite></EndNote>[14]。它包括了疏水性指數(shù)、電負(fù)性、酸堿性、結(jié)構(gòu)性、溶劑可及性等各種參數(shù)。一般來(lái)說(shuō)用AAIndex的表征方法不會(huì)對(duì)整個(gè)蛋白質(zhì)序列進(jìn)行表征,而是和指定長(zhǎng)度的肽段結(jié)合起來(lái)進(jìn)行。Lu等用AAIndex和mRMR篩選相結(jié)合,研究了糖基化位點(diǎn)的預(yù)報(bào)ADDINEN.CITE<EndNote><Cite><Author>Lu</Author><Year>2021</Year><RecNum>857</RecNum><record><rec-number>857</rec-number><ref-typename="Book">6</ref-type><contributors><authors><author>Lu,Lin</author><author>Shi,Xiao-He</author><author>Li,Su-Jun</author><author>Xie,Zhi-Qun</author><author>Feng,Yong-Li</author><author>Lu,Wen-Cong</author><author>Li,Yi-Xue</author><author>Li,Haipeng</author><author>Cai,Yu-Dong</author></authors></contributors><titles><title>Proteinsumoylationsitespredictionbasedontwo-stagefeatureselection</title></titles><pages>81-6</pages><volume>14</volume><number>1</number><dates><year>2021</year></dates><isbn>1573-501X</isbn><urls></urls></record></Cite></EndNote>[15]。Guan等選用了93個(gè)AAIndex參數(shù)研究了肽段和蛋白質(zhì)之間的相互作用ADDINEN.CITE<EndNote><Cite><Author>Guan</Author><Year>2021</Year><RecNum>858</RecNum><record><rec-number>858</rec-number><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Guan,Pingping</author><author>Doytchinova,IriniA.</author><author>Walshe,ValerieA.</author><author>Borrow,Persephone</author><author>Flower,DarrenR.</author></authors></contributors><titles><title>AnalysisofPeptide-ProteinBindingUsingAminoAcidDescriptors:PredictionandExperimentalVerificationforHumanHistocompatibilityComplexHLA-A*0201</title><secondary-title>JournalofMedicinalChemistry</secondary-title></titles><periodical><full-title>JournalofMedicinalChemistry</full-title></periodical><pages>7418-7425</pages><volume>48</volume><number>23</number><dates><year>2021</year></dates><publisher>AmericanChemicalSociety</publisher><urls><related-urls><url>/10.1021/jm0505258</url></related-urls></urls></record></Cite></EndNote>[16]。1.3.2 算法應(yīng)用研究蛋白質(zhì)及其作用對(duì)象是一個(gè)既重要又具有挑戰(zhàn)的課題。通過(guò)研究小分子與蛋白質(zhì)ADDINEN.CITE<EndNote><Cite><Author>Sarah</Author><Year>2021</Year><RecNum>581</RecNum><record><rec-number>581</rec-number><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Sarah,A.Teichmann</author><author>Stuart,C.G.Rison</author><author>Janet,M.Thornton</author><author>Monica,Riley</author><author>Julian,Gough</author><author><styleface="normal"font
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年專(zhuān)業(yè)經(jīng)銷(xiāo)住宅合同
- 2025年住宅購(gòu)買(mǎi)居間合同標(biāo)準(zhǔn)文本
- 2025年船舶涂料項(xiàng)目規(guī)劃申請(qǐng)報(bào)告模板
- 2025年加工鹽項(xiàng)目規(guī)劃申請(qǐng)報(bào)告模式
- 2025年水利設(shè)施開(kāi)發(fā)管理服務(wù)項(xiàng)目提案報(bào)告模板
- 2025年專(zhuān)業(yè)軟件技術(shù)支持合同示范文本
- 2025年石膏行業(yè)誠(chéng)信購(gòu)銷(xiāo)協(xié)議
- 2025年絕緣材料:絕緣套管項(xiàng)目提案報(bào)告模稿
- 2025年人才發(fā)展合作框架協(xié)議
- 2025年兒童監(jiān)護(hù)權(quán)放棄協(xié)議范例
- (一模)烏魯木齊地區(qū)2025年高三年級(jí)第一次質(zhì)量語(yǔ)文試卷(含答案)
- 2024年第四季度 國(guó)家電網(wǎng)工程設(shè)備材料信息參考價(jià)
- 1.北京的春節(jié) 練習(xí)題(含答案)
- 抗震支架安裝工程施工方案范文
- 2025年中煤科工集團(tuán)北京華宇工程限公司中層干部公開(kāi)招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- GB/T 17145-2024廢礦物油回收與再生利用導(dǎo)則
- 人教版小學(xué)英語(yǔ)單詞表(按首字母排列)
- GB/T 45006-2024風(fēng)電葉片用纖維增強(qiáng)復(fù)合材料拉擠板材
- 婦科常見(jiàn)病的護(hù)理常規(guī)
- 《銀行案件防控培訓(xùn)》課件
- 炎癥性腸病共識(shí)2024
評(píng)論
0/150
提交評(píng)論