



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于特征提取的酶識別問題研究【關鍵詞】酶識別;支持向量機;特征提取;自檢法;留一法;【英文關鍵詞】enzymeidentification;supportvectormachine;featureselection;self-consistencytest;leave-one-outtest;【中文摘要】在生物信息學中,將酶從蛋白質識別出來一直是對酶進行進一步研究的一個前提。其研究方法都是將已知的酶作為研究對象,找出一種對已知酶進行準確識別的方法,然后推廣到對未知酶識別的應用中。傳統(tǒng)的酶識別方法多是采用序列比對的方法,雖然后人對這種方法有不斷地改進,但是仍需要較大的存儲空間與比對時間。近些年,機器學習的方法也開始的應用到這個領域中。支持向量機SupportVectorMachine,SVM) 一種基于統(tǒng)計學理論的機器學習方法借助自己的無局部最小點和防止過適應等優(yōu)點,迅速成為研究的熱點并且在酶識別領域表現出不錯的效果。為了得到好的機器學習效果,機器學習需要研究者根據實際問題的不同提出一套完整的機器學習方案。本文以支持向量機為基礎,采用了一種基于特征提取的機器學習方案,通過選取合適數量的特征作為訓練數據形成分類精度最高的酶識別器。之所以選用特征提取的方法主要是因為:在實驗中,蛋白質的功能域被看做它的特征,并不是所有的功能域都對形成準確的分類器起到好的作用,并且我們推測這些功能域特征中存在噪聲,因此應該剔除其中一些起到反作用的特征。基于以上的原因,文中選用了1-rule法和信息增益法兩種...【英文摘要】Inbioinformatics,identifyingenzymesfromproteinsisaprerequisiteforfurtherresearchinenzymes.Itsmethodofresearchisthattakingknownenzymesasresearchobjectandfindingamethodcouldidentifyenzymeswithhighaccuracy,thenapplyinginidentifyingunknownenzymes.Thetraditionalmethodusedinenzymesidentificationisalignment.Althoughmanyscientistsdolotsofworktoimprovealignment,themethodstillneedsbigstoragespaceandcomputingtime.Inrecentyears,machinelearningh...摘要5-6Abstract6第1章緒論9-141.1研究的背景、目的及意義9-101.2國內外研究現狀及評價10-121.3本文的內容和章節(jié)安排12-131.4本文的創(chuàng)新點13-14第2章基礎理論14-242.1支持向量機的理論知識14-17線性可分14-162.1.2線性不可分16-172.2特征提取的原因17-182.2.1什么是特征17原因17-182.3幾種特征提取方法18-241-rule18-202.3.2信息增益法20-24第3章實驗步驟24-323.1實驗數據24-253.1.1蛋白質酶的獲取243.1.2非酶蛋白質的獲取24-253.2實驗數據的篩選253.3基于功能結構域組成的蛋白質數字化表示25-27Pfam數據庫25-263.3.2數字化表示26-273.4特征信息計算27-281-rule法特征信息計算27-283.4.2信息增益法特征信息計算283.5學習機的選擇28-293.6訓練數據的選擇與測試29-313.7實驗過程流程圖31-32第4章實驗結果分析32-394.1誤差率32自檢法32-334.3留一法334.4實驗結果33-361-rule法實驗結果33-354.4.2信息增益法實
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CHTS 10042-2021小客車專用高速公路工程技術指南
- T/CHSDA 0001-2024公路工程建設期碳排放計算標準
- T/CHC 2001-2020生殖健康咨詢服務規(guī)范
- T/CECS 10370-2024給水用不銹鋼溝槽式管件
- T/CECS 10319-2023鋼渣透水混凝土磚
- T/CECS 10192-2022聚合物微水泥
- T/CECS 10057-2019綠色建材評價建筑用閥門
- T/CCPITCSC 095-2022數字化人力資源服務分類及通用要求
- T/CCMA 0106-2020塔式起重機司機室
- T/CBMMA 2-2019輥壓機用減速機在線監(jiān)測系統(tǒng)與功能規(guī)范
- GB/T 462-2023紙、紙板和紙漿分析試樣水分的測定
- 回轉窯回轉滾筒干燥機使用說明書
- 2023年四川省成都市中考歷史試卷附答案解析
- 第四節(jié) 石油資源與國家安全
- 2023年廣東初中學業(yè)水平考試生物試卷真題(含答案)
- 2023年全國統(tǒng)一高考政治試卷(新課標ⅰ)(含解析版)
- 新課程標準2022版綜合實踐
- 2023年浙江夏季世界少年思維研學“丁一杯”五年級數學模擬卷(一)含答案
- 260噸(t)吊車性能參數
- 超星學習通中華傳統(tǒng)文化之文學瑰寶(同濟大學)章節(jié)答案
- 國家電網(公共與行業(yè)知識)考試高分通關題庫資料800題(附答案)
評論
0/150
提交評論