




已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于上下文環(huán)境和句法分析的蛋白質(zhì)關(guān)系抽取摘要:針對(duì)蛋白質(zhì)交互作用關(guān)系(ppi)抽取方法中特征利用的片面性問題,提出了一種從上下文環(huán)境和句法結(jié)構(gòu)中抽取特征的方法。該方法抽取詞法特征、位置特征、距離特征、依存句法特征和深層句法特征等豐富特征構(gòu)成特征集,并且使用支持向量機(jī)(svm)分類器進(jìn)行ppi抽取。方法在5個(gè)公開的ppi語(yǔ)料上進(jìn)行了評(píng)估。實(shí)驗(yàn)結(jié)果表明,豐富特征有效地利用了更為全面的信息,避免丟失重要特征的危險(xiǎn),得到了較好的ppi抽取性能。即在aimed語(yǔ)料上的實(shí)驗(yàn)取得了59.2%的f值和85.6%的曲線下面積(auc)值。關(guān)鍵詞:信息抽??;自然語(yǔ)言處理;蛋白質(zhì)關(guān)系抽取;特征;支持向量機(jī) tein interaction extraction based on contextual and syntactic featureswang jian*, ji ming.hui, lin hong.fei, yang zhi.haoschool of computer science and technology, dalian university of technology, dalian liaoning 116024, chinaabstract:considering one-sidedness of features used in many protein-protein interaction (ppi) extraction methods. a novel approach is proposed to extract rich features from context information and syntax structure for ppi extraction. various features, such as lexical, position, distance, dependency syntax and deep syntax features are extracts, and the support vector machine (svm) classifier is used for ppi extraction. experimental evaluation on multiple ppi corpora reveals that the rich features can utilize more comprehensive information to reduce the danger of missing some important features. this method achieves state-of-the-art performance with respect to comparable evaluations, with 59.2% f-score and 85.6% auc on the aimed corpus.considering the one.sidedness of features used in many tein interaction (ppi) extraction methods, a new approach was proposed to extract rich features from context information and syntax structure for ppi extraction. various features, such as lexicon, position, distance, dependency syntax and deep syntax features constitute feature set, and the support vector machine (svm) classifier was used for ppi extraction. the experimental evaluation on multiple ppi corpora reveals that the rich features can utilize more comprehensive information to reduce the risk of missing some important features. this method achieves state.of.the.art performance with respect to comparable evaluations, with 59.2% f.score and 85.6% area under curve (auc) on the aimed corpus.key words:information extraction; natural language processing; tein interaction (ppi) extraction; feature; support vector machine (svm)0 引言生物醫(yī)學(xué)文獻(xiàn)中的蛋白質(zhì)交互作用關(guān)系(tein interaction, ppi)對(duì)于蛋白質(zhì)知識(shí)網(wǎng)絡(luò)的構(gòu)建、藥物的研制、疾病的診斷等具有重要意義。目前,生物醫(yī)學(xué)專家建立了很多有統(tǒng)一格式的蛋白質(zhì)關(guān)系數(shù)據(jù)庫(kù)來存儲(chǔ)這些重要信息,例如:mint1,bind2 和 dip3。然而,隨著醫(yī)學(xué)文獻(xiàn)數(shù)量的急劇增加,很難依靠人工從海量文獻(xiàn)中獲取有價(jià)值的信息。因此,從生物文獻(xiàn)中自動(dòng)地抽取蛋白質(zhì)關(guān)系成為一項(xiàng)重要的研究任務(wù)。從生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)抽取蛋白質(zhì)關(guān)系的方法有多種,如基于詞共現(xiàn)的方法、基于模板匹配的方法和基于機(jī)器學(xué)習(xí)的方法?;谠~共現(xiàn)的方法簡(jiǎn)單統(tǒng)計(jì)兩個(gè)蛋白質(zhì)在句子中的共現(xiàn)次數(shù),根據(jù)統(tǒng)計(jì)學(xué)原理判斷它們是否存在關(guān)系4?;谀0迤ヅ涞姆椒ò汛袆e數(shù)據(jù)與已有的模板進(jìn)行匹配,從而達(dá)到蛋白質(zhì)關(guān)系抽取的目的5。機(jī)器學(xué)習(xí)的方法近幾年來興起并且得到迅速發(fā)展,其中基于特征的方法在ppi抽取任務(wù)中得到了廣泛的應(yīng)用。文獻(xiàn)6使用上下文特征進(jìn)行蛋白質(zhì)關(guān)系抽取,該方法沒有使用任何句法信息,在biocreative語(yǔ)料上得到較高的召回率,但精確值相對(duì)較低。文獻(xiàn)7評(píng)估多個(gè)不同的句法分析器對(duì)ppi抽取的貢獻(xiàn),結(jié)果表明詞與詞之間的句法關(guān)系,能夠有效地提高ppi抽取的性能。但是這些方法通常只考慮了句子及其句法結(jié)構(gòu)的部分信息,而忽略了其他方面的有用信息。機(jī)器學(xué)習(xí)領(lǐng)域的另一個(gè)熱點(diǎn)話題是核函數(shù)的研究和使用?;诤撕瘮?shù)的方法把句法結(jié)構(gòu)作為處理對(duì)象,在依存圖或句法樹上定義不同的核函數(shù)進(jìn)行蛋白質(zhì)關(guān)系抽取,如圖核、樹核和路徑核等8-11?;诤撕瘮?shù)的方法能夠得到較好的抽取性能,但是受制于計(jì)算復(fù)雜度,該方法通常不能直接應(yīng)用到實(shí)際的ppi抽取系統(tǒng)中。針對(duì)以上問題,本文提出了一種基于上下文環(huán)境和句法分析的ppi抽取方法。該方法融合了更加全面重要的信息,不僅使用了詞的上下文環(huán)境,并且考慮了蛋白質(zhì)之間的句子距離和謂詞參數(shù)結(jié)構(gòu)中不同子結(jié)構(gòu)對(duì)關(guān)系抽取的影響,同時(shí)避免了核函數(shù)的復(fù)雜計(jì)算。本文在5個(gè)公開的 ppi 語(yǔ)料上實(shí)驗(yàn),詳細(xì)分析不同特征對(duì) ppi 抽取的影響,并且與其他方法的性能進(jìn)行了比較。1 基于特征的ppi抽取方法基于特征的ppi抽取任務(wù)可以看作是一個(gè)分類問題。首先,提取語(yǔ)料句子中的蛋白質(zhì)對(duì),得到蛋白質(zhì)關(guān)系實(shí)例;然后從語(yǔ)料中提取特征,并且把每個(gè)實(shí)例都映射到一個(gè)n維的特征向量;接著訓(xùn)練一個(gè)分類模型;最后使用分類模型判斷未標(biāo)注實(shí)例所屬的類別,即判斷蛋白質(zhì)對(duì)之間是否存在關(guān)系?;谔卣鞯膒pi抽取系統(tǒng)框架如圖1所示,系統(tǒng)的輸入為原始的xml文本,輸出為最終的分類結(jié)果。首先通過預(yù)處理模塊得到關(guān)系實(shí)例;接著是句法分析模塊;然后是從關(guān)系實(shí)例和句法結(jié)構(gòu)中提取特征,構(gòu)建特征向量;最后是支持向量機(jī)(support vector machine, svm)分類及預(yù)測(cè)模塊。本文使用的語(yǔ)料已經(jīng)識(shí)別出蛋白質(zhì)實(shí)體名稱,在實(shí)驗(yàn)中我們主要關(guān)注至少存在兩個(gè)蛋白質(zhì)名句子,判斷該句子中的蛋白質(zhì)之間是否存在交互作用關(guān)系。如果一個(gè)句子中存在m(m2)個(gè)蛋白質(zhì),那么這個(gè)句子中包含有c2m個(gè)不同的蛋白質(zhì)對(duì)。本文對(duì)每個(gè)這樣的蛋白質(zhì)對(duì)拷貝一個(gè)句子的副本,作為該蛋白質(zhì)對(duì)的一個(gè)實(shí)例。實(shí)驗(yàn)使用的數(shù)據(jù)集就是由這些實(shí)例組成,例如,句子“the binding of htafii28p0 and htafii30p1 requires distinct domains of htafii18p2.”,表示一個(gè)存在蛋白質(zhì)關(guān)系的實(shí)例,其中“htafii30”和“htafii18”是需要判斷關(guān)系的兩個(gè)目標(biāo)蛋白質(zhì)。2 特征提取和特征向量表示基于特征的蛋白質(zhì)關(guān)系抽取方法的核心工作是特征的選取。選取特征的好壞直接影響最終的分類精度。為了發(fā)掘更多有效的特征,使用更加全面的信息,本文從上下文環(huán)境和句子的句法結(jié)構(gòu)中選取多種特征。在從上下文選擇特征的過程中不僅考慮了詞法特征,還考慮了詞距離特征,同時(shí)將詞法特征在句子中的位置信息也加入到特征向量中。此外,還有兩類句法特征也加入到特征集中,分別是依存圖上的句子距離特征和謂詞參數(shù)路徑特征。2.1 上下文特征1)詞特征(bag of words)。本文對(duì)詞特征的選取范圍進(jìn)行限制,即從左起第一個(gè)蛋白質(zhì)的前n個(gè)詞,兩個(gè)蛋白質(zhì)之間的所有詞,第二個(gè)蛋白質(zhì)的后n詞為止。經(jīng)過多次實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)n=5時(shí)效果最佳,所以在本文中將n賦值為5,把上述范圍中去掉停用詞之后的詞作為特征。3)位置特征(positions)。詞特征和n元詞特征相對(duì)于兩個(gè)蛋白質(zhì)的位置信息也能夠?qū)Φ鞍踪|(zhì)之間是否存在關(guān)系起作用。因此,如果這兩類特征出現(xiàn)在第一個(gè)蛋白質(zhì)之前,用“p1_left_特征”表示;出現(xiàn)在兩個(gè)蛋白質(zhì)之間,用“p1_right_特征”,“p2_left_特征”表示;出現(xiàn)在第二個(gè)蛋白質(zhì)之后用“p2_right_特征”表示。4)具體位置特征(specific positions)。本文把詞特征和n元詞特征相對(duì)于兩個(gè)蛋白質(zhì)的具體位置也作為特征。定義如下:sp = n1_p1_特征, n2_p2_特征 | n1 = i - i1, n2 = i - i2, ii1-5, i1-1i1+1, i2-1i2+1,i2+5,i1和i2分別是蛋白質(zhì)1和蛋白質(zhì)2在句子中的位置,i是當(dāng)前特征在句子中的位置。5)詞距離特征(word distance)。兩個(gè)蛋白質(zhì)之間的距離越長(zhǎng)(距離用間隔詞的個(gè)數(shù)衡量),存在關(guān)系的可能性越小,因此,蛋白質(zhì)之間的距離被加入到特征集中。2.2 句法特征句法結(jié)構(gòu)能夠描述句子的句法和語(yǔ)義信息,不同的句法結(jié)構(gòu)反映了句子不同方面的有用信息。本文主要從依存圖和謂詞參數(shù)結(jié)構(gòu)中提取句法特征。1)句子距離特征(sentence distance)。依存句法結(jié)構(gòu)是句子語(yǔ)義關(guān)系的有效近似,并且能夠清晰地表達(dá)句子的主謂結(jié)構(gòu)。如果兩個(gè)蛋白質(zhì)名能在一個(gè)簡(jiǎn)單句中出現(xiàn),那么它們之間就很有可能存在關(guān)系。因此,如果依存圖中兩個(gè)蛋白質(zhì)之間的最短路徑上只有一個(gè)謂語(yǔ)動(dòng)詞出現(xiàn),表示這兩個(gè)蛋白質(zhì)之間存在關(guān)系,則該特征值設(shè)為1。本文使用gdep依存分析器12輸出依存圖結(jié)構(gòu),如圖2所示。圖中實(shí)線表示邊在兩個(gè)蛋白質(zhì)之間的最短路徑上,虛線表示邊不在最短路徑上。2)謂詞參數(shù)路徑(predicate argument path)。謂詞參數(shù)結(jié)構(gòu)以圖的形式表示,與依存分析類似,它表示詞與詞之間深層句法和語(yǔ)義關(guān)系。謂詞參數(shù)結(jié)構(gòu)中兩個(gè)蛋白質(zhì)之間最短路徑上的不同子結(jié)構(gòu)表達(dá)了不同的句法語(yǔ)義信息。因此,在最短路徑上選擇兩類walk特征,分別是v.walk和e.walk11,加入到特征集中。從v.walk中可以直接得到兩個(gè)節(jié)點(diǎn)(詞/詞性)的句法和語(yǔ)義關(guān)系。在e.walk中描述了一個(gè)節(jié)點(diǎn)和兩個(gè)與它直接相鄰的關(guān)系,當(dāng)這個(gè)節(jié)點(diǎn)是一個(gè)謂詞的時(shí)候,e.walk比v.walk更能反映句子的謂詞.參數(shù)的信息。并且v.walk和e.walk中存在連續(xù)和不連續(xù)的情況,連續(xù)的walk更能反映詞之間的直接關(guān)系。因此,在設(shè)置特征值的時(shí)候,給連續(xù)的e.walk設(shè)為3,連續(xù)的v.walk設(shè)為2,其他不連續(xù)的walk設(shè)為1。本文使用enju分析器輸出謂詞參數(shù)結(jié)構(gòu),如圖3所示。圖中實(shí)線表示邊在兩個(gè)蛋白質(zhì)之間的最短路徑上,虛線表示邊不在最短路徑上。2.3 特征表示上述特征中除明確說明特征值外,其余特征值都使用布爾值,即出現(xiàn)為1,不出現(xiàn)為0。為了清楚地描述特征表示,表1詳細(xì)地描述了一個(gè)蛋白質(zhì)關(guān)系實(shí)例的特征表示,根據(jù)這個(gè)表可以很容易理解上述特征的含義。詞是語(yǔ)言的基本組成單位,詞特征能夠重現(xiàn)文本的語(yǔ)言表達(dá)信息,許多分類及關(guān)系抽取系統(tǒng)把它作為基本特征,能夠得到較高的召回率。n元詞特征豐富了詞特征的表達(dá),與詞特征共同表達(dá)原文的語(yǔ)言描述信息。加入n元詞特征能夠有效地提高系統(tǒng)的性能(表3的第2組實(shí)驗(yàn)所示)。位置特征(f4+f5)與詞法特征(f1+f2)的組合,共同表達(dá)了詞法特征在句子中線性順序,明確了語(yǔ)言的組織形式,能夠有效地改善蛋白質(zhì)關(guān)系抽取的性能(表3的第4組實(shí)驗(yàn)所示)。依存分析能夠表達(dá)長(zhǎng)距離的依存關(guān)系,句子距離特征有助于判斷兩個(gè)蛋白質(zhì)在句法結(jié)構(gòu)上的距離。謂詞參數(shù)路徑特征表達(dá)詞與詞之間的深層關(guān)系,在謂詞參數(shù)路徑上選擇walk特征,并且根據(jù)不同的子結(jié)構(gòu)分配不同的權(quán)值,能夠有效利用各類子結(jié)構(gòu)的優(yōu)勢(shì),有助于蛋白質(zhì)關(guān)系抽取性能的提高。表3中的實(shí)驗(yàn)結(jié)果表明,上下文特征可以全面檢索原文的語(yǔ)言表達(dá)信息,得到了最高的r值64.1%,但p值相對(duì)較低。句法特征能夠更準(zhǔn)確地表達(dá)句子的句法和語(yǔ)義信息,在保持r值下降不明顯的前提下,對(duì)p值有顯著性的提高。結(jié)合上下文特征和句法特征能夠利用句子不同層次的信息,有效地改善了蛋白質(zhì)關(guān)系抽取的性能。4.2.2 與其他方法的比較表4是本文方法與其他方法在aimed語(yǔ)料上的性能比較。文獻(xiàn)13是基于規(guī)則的方法5,文獻(xiàn)9和文獻(xiàn)11分別是圖核和路徑加權(quán)子序列核的方法。從表4中可以看出,與前3種方法相比,本文方法在aimed語(yǔ)料上的r值、f值和auc值都有所提高,p值達(dá)到了57.6%,僅次于文獻(xiàn)11。文獻(xiàn)10使用了多核和多分析器融合的方法,獲得了較高的性能。使用本文的方法,f值為59.2%,與文獻(xiàn)10只相差了1.6%。由此可見,本方法可以達(dá)到與核方法類似的效果,同時(shí)也避免了核函數(shù)的復(fù)雜計(jì)算。為了測(cè)試本文方法在生物醫(yī)學(xué)語(yǔ)料庫(kù)上的泛化性能,在bioinfer、hprd50、iepa和lll 4個(gè)ppi語(yǔ)料庫(kù)上用同樣的方法進(jìn)行了實(shí)驗(yàn)。表5顯示了本文方法與其他方法在5個(gè)語(yǔ)料上的性能比較。在5個(gè)語(yǔ)料上本文方法的性能較前3種方法有明顯的提高。在hprd50、iepa、lll 3個(gè)數(shù)據(jù)集上,本文方法得到的f值較文獻(xiàn)10有較大幅度的提高;在aimed和bioinfer語(yǔ)料上的f值較低,原因主要是這兩個(gè)語(yǔ)料存在著大量的復(fù)雜句,這對(duì)分析器來說是一個(gè)很大的挑戰(zhàn);另一方面,這兩個(gè)語(yǔ)料的正負(fù)例比例非常不平衡(如表2所示),也是導(dǎo)致結(jié)果較低的一個(gè)原因。5 結(jié)語(yǔ)本文使用基于上下文信息和句法信息的豐富特征進(jìn)行ppi抽取,著重分析各類不同特征對(duì)ppi抽取的影響。上下文特征能夠有效地表達(dá)原文信息,得到較高的召回率;句法特征有助于更好地理解句子的句法和語(yǔ)義信息,有助于提高ppi抽取的精確度。本文以svm為分類器,在5個(gè)公開的ppi語(yǔ)料上實(shí)驗(yàn)。結(jié)果表明,我們所選取的豐富特征有效地融合了不同層次的特征,覆蓋了更加全面的信息,在ppi抽取任務(wù)中取得了較好的性能。參考文獻(xiàn):1zanzoni a, montecchi.palazzi l, quondam m, et al.mint: a molecular interaction databasej. febs letters, 2002, 513(1):135-140.2bader g, betel d, hogue c. bindthe biomolecular interaction network databasej. nucleic acids research, 2003, 31(1):248-250.3xenarios i, rich d w, salwinski l, et al.dip: the database of interacting proteinsj. nucleic acids research, 2000, 28(1):289-291.4bunescu r, mooney r, ramani a. integrating co.occurrence statistics with information extraction for robust retrieval of protein interactions from medlinec/ bionlp06: proceedings of the workshop on linking natural language processing and biology: towards deeper biological literature analysis. stroudsburg: association for computational linguistics, 2006:49-56.5fundel k, kuffer r, zimmer r. relex.relation extraction using dependency parse treesj. bioinformatics, 2006, 23(3):365371.6nielsen l a. extracting tein interactions using simple contextual featuresc/ bionlp06: proceedings of the workshop on linking natural language processing and biology: towards deeper biological literature analysis. stroudsburg: association for computational linguistics, 2006:120-121.7miyao y, saetre r, sagae k, et al. task.oriented evaluation of syntactic parsers and their representationseb/ol.2011-05-01. /anthology.new/p/p08/p08-1006.pdf.8bunescu r c, mooney r j. a shortest path dependency kernel for relation extractionc/ hlt05: proceedings of the conference on human language technology and empirical methods in natural language processing. strouds
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- DB36-T1596-2022-綠色食品稻鰍生產(chǎn)技術(shù)規(guī)程-江西省
- 財(cái)務(wù)成本管理中的績(jī)效反饋機(jī)制試題及答案
- 團(tuán)章考試題庫(kù)及答案2024年版
- 護(hù)理質(zhì)控工作實(shí)施要點(diǎn)
- 螺紋的基礎(chǔ)知識(shí)
- 放射醫(yī)學(xué)影像圖文介紹
- 保教知識(shí)與能力(幼兒園)2025年教師資格證真題密卷實(shí)戰(zhàn)演練解析
- 2025年教師招聘音樂學(xué)科樂理知識(shí)專項(xiàng)卷(易錯(cuò)題型解析)附五線譜視唱題
- 常見錯(cuò)誤醫(yī)囑護(hù)理要點(diǎn)解析
- 廣東省深圳市2024-2025學(xué)年高一下學(xué)期期末調(diào)研考試+物理試卷含答案
- 家長(zhǎng)會(huì)課件:初三迎接中考家長(zhǎng)會(huì)課件
- 企業(yè)網(wǎng)絡(luò)安全咨詢服務(wù)項(xiàng)目
- 基于苦味產(chǎn)生機(jī)制的掩味策略與評(píng)價(jià)
- 金屬非金屬地下礦山安全避險(xiǎn)“六大系統(tǒng)”課件
- 會(huì)計(jì)原始憑證說課公開課一等獎(jiǎng)市優(yōu)質(zhì)課賽課獲獎(jiǎng)?wù)n件
- 下腔靜脈濾器置入與取出術(shù)
- 伍德密封強(qiáng)度計(jì)算
- 重度子癇前期子癇急救演練
- 產(chǎn)婦可以吃蛹蟲草嗎:哺乳期婦女可以吃蛹蟲草嗎
- 《化工原理》課程思政教學(xué)案例(一等獎(jiǎng))
- 國(guó)家統(tǒng)一法律職業(yè)資格官方題庫(kù):刑事訴訟法-考試題庫(kù)(含答案)
評(píng)論
0/150
提交評(píng)論