一種用于專利實體的實體消歧方法教案資料_第1頁
一種用于專利實體的實體消歧方法教案資料_第2頁
一種用于專利實體的實體消歧方法教案資料_第3頁
一種用于專利實體的實體消歧方法教案資料_第4頁
一種用于專利實體的實體消歧方法教案資料_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、Good is good, but better carries it.精益求精,善益求善。一種用于專利實體的實體消歧方法-文章編號:XXXX一種用于專利實體的實體消歧方法王琰炎,王裴巖,蔡東風(fēng)(沈陽航空航天大學(xué)知識工程與人機(jī)交互研究中心,沈陽,110136)摘要:專利實體是用以表述專利、實用新型或外觀設(shè)計的具有實際意義的實體,作為專利文本的核心內(nèi)容,專利實體是專利文本中最值得實體搜索用戶關(guān)注的焦點(diǎn)。專利實體搜索是專利技術(shù)方案信息抽取的第一步,而專利實體消歧是專利實體搜索中最重要的操作,是將具有領(lǐng)域歧義性的專利實體相關(guān)詞,按照實體不同的領(lǐng)域含義,劃分為不同類別的過程。將實體搜索技術(shù)應(yīng)用于中文專

2、利摘要文本,并在實體搜索過程中使用了實體消歧技術(shù),得到用戶最關(guān)注的實體相關(guān)信息。本文在充分分析了專利摘要文本的特點(diǎn)的基礎(chǔ)上,提出一種面向?qū)@麑嶓w的消歧方法。本文使用基于IPC和向量空間模型的詞向量表示法,結(jié)合凝聚式層次聚類算法,得到專利實體消歧結(jié)果。根據(jù)對比實驗的結(jié)果能夠得出結(jié)論,本方法能夠?qū)崿F(xiàn)準(zhǔn)確的實體消歧,評測結(jié)果高達(dá)78.9%。關(guān)鍵詞:專利實體、實體搜索、實體消歧、IPC、凝聚式層次聚類中圖分類號:TP391.1文獻(xiàn)標(biāo)識碼:AAnEntityDisambiguationMethodforPatentEntityWANGYan-yan,WANGPei-yan,CAIDong-feng(Kn

3、owledgeEngineeringResearchCenter,ShenyangAerospaceUniversity,Shenyang110136)Abstract:PatentEntityisasignificantentitythatusedtoexpresspatents,utilitymodels,andappearancedesign,asthekernelofpatenttext,patententityistheabsolutefocusofentitysearchusers.PatentEntitySearchisthefirststepofPatentInformatio

4、nExtraction,andtheentitydisambiguationofpatentisthemostimportantoperationofPatentEntitySearch,whichisdividerelativewordstodifferenttypesaccordingtodifferentdomains.ApplyentitysearchtechnologytotheabstracttextofChinesepatent,makeuseofthetechnologyofentitydisambiguation,whichcangettherelativeinformati

5、onthattheuserconcerned.Thispaperproposeadisambiguationmethodonthebasisofanalyzingthefeatureoftheabstracttextofpatentadequately.CombinedwithHAC,thispaperhavegottentheresultofdisambiguationbyusingthewordvectorrepresentationonthebasisofIPCandVectorSpaceModel,combinedwithHAC.Accordingtotheparallelexperi

6、ments,wecometotheconclusionthatthemethodcoulddisambiguateaccuratelywiththemeasurevalueof78.9percent.Keywords:PatentEntity,EntitySearch,EntityDisambiguation,IPC,HAC專利文本是集技術(shù)情報、法律情報和經(jīng)濟(jì)情報于一體的實用知識載體,是極為重要的科技信息來源1。專利實體作為專利文本中的核心對象,研究價值較高。專利實體的消歧是專利實體搜索的核心步驟,目標(biāo)是解決專利實體搜索中同名實體的歧義問題,幫助用戶準(zhǔn)確定位目標(biāo)信息。在專利文本的基礎(chǔ)上進(jìn)行實體

7、消歧,就是將具有領(lǐng)域歧義的實體相關(guān)詞按照不同的領(lǐng)域含義劃分為不同的類別。因此,專利實體上的歧義消解實際上就是目標(biāo)詞的聚類過程,消歧結(jié)果的好壞就取決于聚類中目標(biāo)詞向量的原始特征選擇。本文嘗試了三種不同的特征選取方法,將目標(biāo)詞表示成特征向量,再進(jìn)行類別劃分。經(jīng)過實驗驗證,使用基于IPC分類的特征生成目標(biāo)詞向量的方法取得了更好的效果。本文共分為5部分內(nèi)容,第1部分介紹了國內(nèi)外的相關(guān)研究,第2部分介紹了本文提出的三種相關(guān)詞特征向量表示方法,第3部分介紹了使用聚類算法進(jìn)行專利實體消歧的過程,第4部分則是實驗和分析,最后一部分是本文得出的結(jié)論與展望。1相關(guān)研究實體消歧問題是當(dāng)下比較熱點(diǎn)的研究問題,國內(nèi)外的

8、大多熟研究從兩個角度解決實體歧義造成的影響,分別是通過尋求更高質(zhì)量的特征和引入外部資源輔助消解。在特征選取方面,何正焱2利用DNN(深度神經(jīng)網(wǎng)絡(luò))方法,提出了一種文檔和實體的相似度為框架的消歧模型;姜麗麗3提出了一種基于帶權(quán)圖結(jié)構(gòu)的框架來實現(xiàn)人物實體的消歧工作,并使用實體標(biāo)簽對每個人物實體進(jìn)行標(biāo)注;Bagga和Baldwin4將不同文檔間上下文的相似度作為特征實現(xiàn)實體消歧的;R.Bekkerman和A.McCallum5則結(jié)合了社交網(wǎng)絡(luò)的鏈接信息和聚類兩種非監(jiān)督的框架對社交網(wǎng)絡(luò)中的人物實體進(jìn)行消歧。給定的文檔集中所包含的被査詢?nèi)说男畔⑼欠浅S邢薜?,因此網(wǎng)絡(luò)公共資源經(jīng)常被用來挖掘更多的信息以

9、提高同名消歧質(zhì)量。其中,中科院的韓先培6使用了在線知識庫信息來輔助解決實體歧義的,D.Bollegara7通過擴(kuò)展查詢詞來對Web搜索引擎中的同名人物實體進(jìn)行消歧;R.Bunescu8嘗試使用在線百科全書(Wikipedia)的部分錨文本信息來擴(kuò)充文檔集,從而完成信息檢測和同名消歧的任務(wù)。這些方法能夠非常出色的完成實體消歧的任務(wù),但是由于其需要花費(fèi)大量的時間進(jìn)行在線信息采集,因此更適合于服務(wù)器端的應(yīng)用?,F(xiàn)在階段的實體消歧研究集中在通用文本上,而專利文本上的實體,又與通用文本中的實體有本質(zhì)的區(qū)別。因此,本文需要充分利用專利文本及專利實體的特點(diǎn),并在通用的實體消歧方法的基礎(chǔ)上進(jìn)行優(yōu)化。2特征向量表

10、示方式實體消歧的目標(biāo)是對專利相關(guān)詞解析并分類,利用向量空間模型(VSM)的思想,將相關(guān)詞表示成特征向量的形式,再對它們進(jìn)行消歧。本文嘗試了三種特征向量的表示方式,分別是利用基于TF-IDF的文檔特征表示法、Word2vec詞向量表示法,以及基于IPC分類的輔助表示法。2.1TF-IDF特征表示法TF-IDF是一種利用詞語的詞頻(TF)和反文檔頻率(IDF)特征的統(tǒng)計方法,主要思想在于,如果某個詞在一篇專利文檔中出現(xiàn)的頻率TF高,而在其他文檔中出現(xiàn)較少,則認(rèn)為此詞具有很好的類別區(qū)分能力?;赥F-IDF的特征權(quán)值選取方法,使每個特征維度代表一篇相關(guān)文檔,將每個目標(biāo)詞在每篇對應(yīng)文檔中的TD-IDF

11、值作為對應(yīng)維度上的特征值,表示形式如下。其中,表示的是目標(biāo)詞w在專利文本中的詞頻,idf表示w在文本集上的反文檔頻率,N表示專利文本集中的文本總數(shù),則表示w在文本集中的文檔頻率。由于考慮到專利文本的長度對目標(biāo)詞在不同專利文本中的權(quán)重值影響較大,需要進(jìn)行的向量的歸一化操作。2.2Word2vec詞向量表示法本文使用了由Google的TomasMikolov1011團(tuán)隊研發(fā)的Word2vec詞向量生成工具,生成指定維度的目標(biāo)詞向量。Word2vec工具是基于DeepLearning和神經(jīng)網(wǎng)絡(luò)模型,利用深度神經(jīng)網(wǎng)絡(luò)(DNN)的思想,通過上下文的分析,自動選取特征,并通過用戶指定的參數(shù),經(jīng)過多次的迭代

12、,訓(xùn)練出詞向量。Word2vec常用的參數(shù)包含上下文窗口大?。╓indow)、向量維度(size)、訓(xùn)練架構(gòu)選擇(cbow)以及最低訓(xùn)練詞頻(min-count)等。本文先利用分詞工具和命名實體識別工具,將相關(guān)文檔集進(jìn)行分詞和實體識別操作,并將經(jīng)過分詞和識別之后的文檔作為word2vec工具的訓(xùn)練語料,進(jìn)行詞向量的訓(xùn)練。2.3IPC向量表示法IPC(國際專利分類)是目前國際上唯一通用的專利文獻(xiàn)分類和檢索工具12,是一個復(fù)雜的層次結(jié)構(gòu)分類系統(tǒng),分為部、大類、小類、主組和分組5個層次13。例如,篇專利文本的IPC分類編號是A47B1/02,可按照IPC體系做如下分解。表1專利文本的IPC編號分解舉

13、例分解片段IPC層次含義A部(最外層)人類生活需要A47大類家具A47B小類桌子、寫字臺、抽屜、櫥柜等A47B1/00主組可伸展的桌子A47B1/02分組(最內(nèi)層)有可插入的活板和固定框架的桌子基于IPC的特征選取方法是利用IPC體系中每個層次的類別特征,將實體相關(guān)詞詞表示成特征向量的形式?;贗PC的特征向量表示方法是利用IPC的5個不同層次的IPC類別作為特征。以IPC的最外層(部)為例,IPC的部有AH類的8種特征,如下表所示。表2IPC的部的層次特征介紹標(biāo)識表示含義舉例說明A類人類生活需要A01:農(nóng)業(yè);A41:服裝;A63:運(yùn)動娛樂B類作業(yè)、運(yùn)輸B27:木材;B64:航空、飛行器C類化

14、學(xué)、冶金C01:無機(jī)化學(xué);C10:石油、煤氣;C21:煉鐵D類紡織、造紙D03:織造;D21:造紙E類固定構(gòu)造E02:水利工程;E04:建筑物;E05:門窗、鑰匙F類機(jī)械工程、照明、加熱F02:燃?xì)鈾C(jī);F21:照明;F23:燃燒設(shè)備G類物理G02:光學(xué);G11:信息貯存;G21:核物理、核工程H類電學(xué)H01:基本電氣元件;H04:電子通信技術(shù)其中,AH類的每個特征向量的維度都是8,此時對于目標(biāo)詞w,其特征向量的形式是,向量的8個特征權(quán)值分別表示目標(biāo)詞w的上表中的8個類別上的權(quán)重值。使用類似于基于詞語的TF-IDF的特征權(quán)值表示法,將基于單篇文檔的特征更改為基于8種部的特征,將基于N篇專利文檔的

15、特征進(jìn)行降維,從而將基于文檔的特征映射到基于IPC的8種部的特征。于是權(quán)值的表示形式為:其中,表示目標(biāo)詞在類文本中的詞頻,N是相關(guān)文檔集大小,表示的是目標(biāo)詞w在類文本中的文檔頻率。同理,在IPC分類體系的大類和小類的層面上進(jìn)行相同的特征選擇,得到不同層次下的特征向量。本文在前三個層次的特征進(jìn)行了實驗,其中大類和小類的特征數(shù)目是123和629。3聚類分析3.1凝聚式層次聚類實體消歧中對于實體相關(guān)詞的劃分,使用的是聚類的思想,將實體相關(guān)詞利用VSM表示成特征向量之后,對這些目標(biāo)向量進(jìn)行聚類分析。由于對于聚類結(jié)果缺乏預(yù)知,無法預(yù)測目標(biāo)詞會分為幾類,因此本文使用層次聚類來實現(xiàn)專利實體的消歧。根據(jù)層次分

16、解的順序是自下向上的還是自上向下的,分為凝聚的層次聚類算法和分裂的層次聚類算法14,本文使用的是前者。HAC是一個自底向上的層次聚類過程,一開始將每個目標(biāo)詞都看做一個由單個詞組成的小聚簇,然后不斷地對簇進(jìn)行兩兩合并的操作,直到所有聚簇都合并成一個類為止。實體的歧義消解過程中,將每個目標(biāo)詞作為聚類的對象,每個目標(biāo)詞用特征向量的形式表示,對這些目標(biāo)詞進(jìn)行聚類的過程就是對這些特征向量聚類的過程,其中向量之間的距離衡量公式使用的是歐氏距離。3.2聚類終止條件控制HAC的聚類過程需要通過閾值控制聚類的終止。本文選取6個不同的簇內(nèi)相似度值水平k進(jìn)行閾值控制,分別是0.5、0.3、0.1、0.001、1e-

17、9和0,分別對應(yīng)聚類終止控制策略的16層。對于一個歧義實體,以這6個相似度作為層次聚類的終止條件得到6種聚類結(jié)果,分別采集每種聚類結(jié)果的詳細(xì)記錄,其表示形式如下:其中,表示第i層聚類結(jié)果的聚簇數(shù)目,是第i層聚類結(jié)果的F評價值;而則表示第i層的詳細(xì)聚類結(jié)果記錄,詳細(xì)記錄了每個聚簇包含的相關(guān)詞數(shù)目以及簇內(nèi)對象的相似度平均值,表示形式如下:隨著層數(shù)的增加,相似度閾值逐層降低,聚簇數(shù)目逐層減少,每個聚簇內(nèi)詞語間的平均相似度值也逐層衰減,本文就是通過相似度的衰減程度來控制聚類的終止,本文嘗試了幾種衰減策略來控制,即最大值衰減、最小值衰減、平均值衰減,以及它們之間的融合衰減方法。3.2.1衰減程度首先計算

18、每個相似度水平k下的聚類結(jié)果中除1外的類內(nèi)的目標(biāo)相似度值。從第二層的相似度水平k=0.3開始,根據(jù)本層的類內(nèi)相似度值和上一層的相似度值,計算衰減程度,第i層的衰減程度的表示形式如下:其中,和表示當(dāng)前層和上一層的目標(biāo)相似度值,可以表示當(dāng)前聚類結(jié)果中簇內(nèi)相似度的最大值、最小值或平均值。于是得到每一層的的三個衰減度、和。再通過實驗選取合適的衰減閾值,當(dāng)在第i層的衰減度大于該閾值時終止聚類,并將上一層的聚類結(jié)果作為最終的消歧結(jié)果。3.2.2衰減融合策略將三種衰減度中的兩種以上加以融合,形成新的衰減策略,即衰減融合策略。共存在如表2的4種衰減策略。表2四種融合衰減策略融合策略策略說明RMax+Min同時

19、使用最大值策略、最小值策略RMax+Avg同時使用最大值策略、平均值策略RMin+Avg同時使用最小值策略、平均值策略RAll同時使用三種策略例如,在表2所示的聚類結(jié)果中使用RMax+Min的融合策略,此融合策略要求在每層的聚類結(jié)果中,兩個衰減度和需同時滿足和,若條件之一不滿足就終止聚類。其他三種融合策略的應(yīng)用方法與RMax+Min方法相似,只是使用的衰減度類型不同。通過實驗分別驗證這四種融合策略對于實體消歧的有效性,并與前一節(jié)提及的三種使用單獨(dú)的衰減度的策略進(jìn)行對比,找出最佳的衰減策略應(yīng)用于專利實體的消歧。4實驗與分析4.1實驗設(shè)置本文使用的實驗語料為來源于不同領(lǐng)域的2009-2010年的中

20、文專利摘要,共92萬篇。本實驗使用了10個具有領(lǐng)域歧義性的查詢詞,每個查詢詞通過相關(guān)詞檢索和篩選,得到50個最相關(guān)的目標(biāo)詞語。每個查詢(Query)都含有至少兩個領(lǐng)域含義例如,領(lǐng)域概念“載體”具有3個領(lǐng)域含義,將實體相關(guān)詞映射到“載體”的3種不同的領(lǐng)域含義上,并按照不同的領(lǐng)域含義對標(biāo)注這些目標(biāo)詞,從而實現(xiàn)專利實體的歧義消解,標(biāo)準(zhǔn)的消歧結(jié)果如下表所示。表3“載體”的實體相關(guān)詞的標(biāo)注結(jié)果相關(guān)詞標(biāo)注結(jié)果備注說明抗體DNA基因數(shù)據(jù)載體信道導(dǎo)體POC金屬載體1112233生物醫(yī)藥類載體生物醫(yī)藥類載體生物醫(yī)藥類載體數(shù)據(jù)通信類載體數(shù)據(jù)通信類載體工業(yè)領(lǐng)域載體工業(yè)領(lǐng)域載體4.2評價指標(biāo)專利實體消歧的目標(biāo)是將實體

21、相關(guān)詞利用層次聚類的方法劃分為不同的類別,因而使用聚類技術(shù)的評價方法評價實體消歧的有效性,本文使用的評價方法是基于人工判定的F-Measure值。已知實體相關(guān)詞標(biāo)注結(jié)果和聚類結(jié)果集,其中表示標(biāo)注結(jié)果中包含s個類別,表示聚類結(jié)果中包含的聚簇數(shù)目是m。計算每個標(biāo)注類別在不同聚簇下的準(zhǔn)確率(Precision)、召回率(Recall)和聚類F值,其中聚類準(zhǔn)確率、召回率和F值的計算公式如下:,從中挑選最優(yōu)指標(biāo)值以及與其對應(yīng)的簇,并以該最優(yōu)的指標(biāo)值來判定的質(zhì)量,每個標(biāo)注類別的F值表示為。本次聚類結(jié)果的最終F值的表示為:4.3實驗結(jié)果與分析=1*GB2*MERGEFORMAT聚類終止條件的閾值控制由于實體

22、消歧的過程就是層次聚類的過程,需要控制聚類的終止條件得到最終的消歧結(jié)果。本文使用了3種單獨(dú)的衰減方式(最大值衰減、最小值衰減、平均值衰減)以及它們之間相互融合的4種衰減方式,以控制了層次聚類的終止。7種衰減方式的聚類結(jié)果評價如下表所示。表4聚類終止條件控制結(jié)果展示RMaxRMinRAvgRMax+MinRMax+AvgRMin+AvgRAll0.67240.62880.65860.63210.62970.63040.7565從表中數(shù)據(jù)可得出結(jié)論,使用三種衰減方式相融合的衰減方式RAll得到最優(yōu)的聚類結(jié)果。在此基礎(chǔ)上,本文選取了4個候選的衰減度閾值0.2、0.3、0.4和0.5,分別在這4個閾值

23、的基礎(chǔ)上得出聚類的評測結(jié)果,如下表所示。表5不同衰減度水平的評價結(jié)果0.50.71010.74850.76180.7887從實驗結(jié)果中可以看出,本文在使用三種衰減度融合的基礎(chǔ)上,并使用衰減度閾值為0.5的情況下,得到最優(yōu)的結(jié)果。=2*GB2*MERGEFORMAT消歧評測結(jié)果本文提出的專利實體消歧方法是基于IPC分類體系結(jié)合VSM生成相關(guān)詞的特征向量,并利用HAC算法進(jìn)行聚類分析的過程,因而本文提出方法的評價指標(biāo)采用的是層次聚類的評價方法F-Measure。將TF-IDF的特征表示法作為Baseline;在word2vec的詞向量表示法方面,使用了三種維度的特征向量表示;而在

24、基于IPC的特征表示法方法則使用了IPC的三個層次進(jìn)行特征向量的輔助生成。作為對比實驗,本文引用了姜麗麗3的基于文檔的詞語相似度方法。本文在十個查詢中的結(jié)果如表6所示。表6十個查詢詞的F值查詢詞Baselineword2vec方法共現(xiàn)度方法IPC方法size=200size=250size=300PBCSC病毒0.72480.75710.75710.75710.91110.98430.9921緩沖器0.37110.65990.64610.64610.65890.61220.61220.569引擎0.38820.55680.55680.55680.35150.75910.75420.7941接口

25、0.63850.69890.69890.69890.65350.68580.68580.6858種子0.54880.68840.77930.77930.9230.93890.93420.9389粉碎機(jī)0.45880.52770.52770.52770.60350.68170.74810.6986過濾器0.53040.43550.46270.46270.55870.63270.69930.6549散熱器0.41280.45310.45310.45310.49590.72030.76830.752牽引器0.48220.41220.41220.41220.57920.76250.83260.7915

26、載體0.52170.63570.63570.63570.68050.82130.86090.7936Avg0.50770.58250.5930.5930.64160.760.78870.7678從實驗結(jié)果可以看出,基于IPC的特征向量表示方法的聚類效果明顯優(yōu)于其他方法,且在IPC的3個層次上都獲得了較好的歧義消解結(jié)果??傮w上看,此方法在大類的層次上獲得了最好的評價結(jié)果,因為在部的層次上,相關(guān)詞的特征向量維度是8,在低維空間上較稠密,不利于實體的歧義消解;而在小類層次上,特征向量又比較稀疏,使一些具有較高領(lǐng)域相關(guān)度的詞對,由于在很多特征維度上沒有交集,使它們的相關(guān)度較低,未被聚到一起,而影響最終

27、的消歧結(jié)果?;赥F-IDF的方法能夠反映的實體信息有限,大部分實體相關(guān)詞都是專利術(shù)語,其對應(yīng)的特征向量較稀疏,而特征向量的維度較大,在聚類過程中不利于形成明顯的聚簇,使聚類的準(zhǔn)確率降低。使用Word2vec工具生成的詞向量,能夠在一定程度上引入語義信息,但這種語義信息只是集中于一定范圍的上下文中,對于信息較為分散的專利文本,并沒有生成對歧義消解有幫助的特征向量。使用文檔共現(xiàn)度的信息表示法取得了不錯的效果,但對于專利相關(guān)詞之間的關(guān)系,文檔共現(xiàn)信息不能完全體現(xiàn)詞對的相關(guān)性。5結(jié)論與展望本文提出了一種用于專利實體的實體消歧方法,在充分分析和利用專利文本特點(diǎn)的基礎(chǔ)上,利用IPC分類體系對專利實體進(jìn)行

28、消歧分析。充分利用IPC分類編號的特點(diǎn),按照領(lǐng)域的歧義性,對實體相關(guān)詞進(jìn)行類別的劃分。本文在IPC體系的三個層次上分別利用詞頻、文檔頻率以及類別頻率等特征,得到能夠表達(dá)詞語領(lǐng)域標(biāo)識性的特征向量,再利用HAC算法對這些特征向量進(jìn)行聚類,得到的聚類結(jié)果就是實體消歧的結(jié)果。同時,為了驗證本方法的有效性,本文還引入了其他三種方法做對比,分別是基于TF-IDF的向量表示法、Word2vec詞向量表示法以及文檔共現(xiàn)度信息表示法。結(jié)果表明,本文提出的方法能夠有效地實現(xiàn)專利實體的消歧。下一步的工作中,將嘗試在不同的IPC層次下的特征在領(lǐng)域不同上進(jìn)行混合和篩選。例如,在IPC的部的層次上,G類和H類都是與物理工

29、業(yè)相關(guān)的領(lǐng)域,可以考慮將二者合并;A類是“人類日常生活類”,其中包含的領(lǐng)域較復(fù)雜,可以考慮將A類特征按照不同領(lǐng)域進(jìn)行分解等。這樣,在新的IPC層次上進(jìn)行實驗,以期獲得更好的效果。參考文獻(xiàn)(References)1鄧要武.科技報告、專利文獻(xiàn)和標(biāo)準(zhǔn)文獻(xiàn)資源檢索與利用.圖書館工作與研究J.2008(7):71-7412ZhengyanHe,ShujiLiu,MuLietal.LearningEntityRepresentationforEntityDisambiguationC.InproceedingsofAssociationofComputationalLanguage,2013:30-343

30、姜麗麗.實體搜索與實體解析方法研究D.蘭州:蘭州大學(xué),2012.4A.Bagga,B.Baldwin.Entity-basedcross-documentcoreferencingusingthevectorspacemodelC.InProceedingsofthe36thAnnualMeetingoftheAssociationforComputationalLinguisticsandthe17thInternationalConferenceonComputationalLinguistics(COLING-ACL),1998:79-85.5R.Bekkerman,A.McCallum.Disambiguatingweb

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論