




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于知網(wǎng)的詞匯集聚分析
【分類(lèi)號(hào)】TP391詞匯集聚就是將文本中相關(guān)的詞構(gòu)成詞鏈,使得這些詞保持詞義上的連貫性。詞鏈與文本結(jié)構(gòu)有一種對(duì)應(yīng)關(guān)系,因而可以通過(guò)計(jì)算詞鏈確定文本結(jié)構(gòu)。詞匯集聚分析在信息檢索[1]、問(wèn)答系統(tǒng)[2]、自動(dòng)文摘生成[3]以及主題分析[4,5]等領(lǐng)域都有極為重要的應(yīng)用。詞匯集聚最初由Morris和Hirst[6]提出,采用Roget'sThesaurus義類(lèi)詞典作為分析工具。后來(lái),Harabagiu[7]以WordNet替換Roget'sThesaurus,嘗試以推理的方式實(shí)現(xiàn)集聚性的計(jì)算。本文以知網(wǎng)作為依托,利用概念語(yǔ)義網(wǎng)絡(luò)將知網(wǎng)的常識(shí)性知識(shí)表示出來(lái),通過(guò)搜索具有特定詞匯關(guān)系的語(yǔ)義路徑獲取詞匯鏈,為主題間關(guān)系的剖析奠定基礎(chǔ)。1知識(shí)表示本文對(duì)于詞匯集聚的分析通過(guò)知網(wǎng)的推理實(shí)現(xiàn),而推理在很大程度上依賴于知識(shí)庫(kù)及知識(shí)表示,最適合于知網(wǎng)的知識(shí)表示莫過(guò)于概念語(yǔ)義網(wǎng)絡(luò)[8]。本文介紹的方法即基于語(yǔ)義網(wǎng)絡(luò),其形式化表示為KB=(C,D,R),C是代表概念的節(jié)點(diǎn)集合,D是代表概念節(jié)點(diǎn)的定義集合,R是代表概念間以及概念與其定義間語(yǔ)義、詞匯關(guān)系的集合(見(jiàn)文獻(xiàn)[5])。1.1概念定義的網(wǎng)絡(luò)表示簡(jiǎn)單概念:通常情況下指一個(gè)明確的事件、實(shí)體、屬性或?qū)傩灾担诟拍钪胁话魏纹渌煞?。事件?lèi)復(fù)雜概念:以事件為中心,除了事件中心本身以外還有一個(gè)或一個(gè)以上的動(dòng)態(tài)角色。實(shí)體類(lèi)復(fù)雜概念:具有多種屬性,常常與一個(gè)或幾個(gè)事件具有一定的關(guān)聯(lián)。對(duì)于非義原概念,根據(jù)詞典定義形成有向非循環(huán)圖,其方法如下:(1)如果是簡(jiǎn)單概念節(jié)點(diǎn),將定義義原作為該節(jié)點(diǎn)的上位,通過(guò)Hypernym關(guān)系直接與其定義義原節(jié)點(diǎn)連結(jié)。(2)如果是事件類(lèi)復(fù)雜概念節(jié)點(diǎn),首先通過(guò)Definition關(guān)系與其定義第一義原節(jié)點(diǎn)連結(jié),然后將第一義原的動(dòng)態(tài)角色值節(jié)點(diǎn)連結(jié)到該義原節(jié)點(diǎn)上,構(gòu)成復(fù)合節(jié)點(diǎn),如果動(dòng)態(tài)角色值是一個(gè)復(fù)雜概念,則按照本方法的第(2)、(3)步予以構(gòu)建,只是無(wú)需增加Definition關(guān)系。(3)如果是實(shí)體類(lèi)復(fù)雜概念節(jié)點(diǎn),首先將定義第一義原作為該復(fù)雜概念節(jié)點(diǎn)的上位節(jié)點(diǎn),以Hypernym有向弧連結(jié):①當(dāng)定義中沒(méi)有直接利用事件義原對(duì)第一義原進(jìn)行描述時(shí),通過(guò)Definition關(guān)系將被定義概念節(jié)點(diǎn)直接與其第一義原節(jié)點(diǎn)連結(jié),再將動(dòng)態(tài)角色與特征值節(jié)點(diǎn)連結(jié)到該第一義原節(jié)點(diǎn),構(gòu)成復(fù)合節(jié)點(diǎn)。如果動(dòng)態(tài)角色及特征值是一個(gè)復(fù)雜概念,則按照本方法的第(2)、(3)步予以構(gòu)建,但無(wú)需增加Definition關(guān)系。②當(dāng)定義中利用事件義原對(duì)第一義原進(jìn)行描述并且該事件義原唯一時(shí),通過(guò)Definition關(guān)系將被定義概念節(jié)點(diǎn)與該事件義原節(jié)點(diǎn)直接連結(jié)。如果動(dòng)態(tài)角色及特征值是一個(gè)復(fù)雜概念,則按照本方法的第(2)、(3)步予以構(gòu)建,但無(wú)需增加Definition關(guān)系。③當(dāng)定義并列利用多個(gè)事件義原對(duì)第一義原進(jìn)行描述時(shí),通過(guò)Definition關(guān)系將被定義概念節(jié)點(diǎn)與第一事件義原節(jié)點(diǎn)直接連結(jié),其他并列事件義原節(jié)點(diǎn)以and關(guān)系按序連結(jié)。如果動(dòng)態(tài)角色及特征值是一個(gè)復(fù)雜概念,則按照本方法的第(2)、(3)步予以構(gòu)建,但無(wú)需增加Definition關(guān)系。④當(dāng)定義并列利用多個(gè)義原直接對(duì)原概念進(jìn)行描述時(shí),通過(guò)Definition關(guān)系將被定義概念節(jié)點(diǎn)與第一義原節(jié)點(diǎn)直接連結(jié),其他并列義原節(jié)點(diǎn)以and關(guān)系按序連結(jié)。如果動(dòng)態(tài)角色及特征值是一個(gè)復(fù)雜概念,則按照本方法的第(2)、(3)步予以構(gòu)建,但無(wú)需增加Definition關(guān)系。1.2語(yǔ)義網(wǎng)絡(luò)的形成對(duì)于語(yǔ)義網(wǎng)絡(luò)的形成,本文作如下規(guī)定:(1)網(wǎng)絡(luò)是有向圖,因某些關(guān)系的特殊性允許兩個(gè)相鄰節(jié)點(diǎn)間存在雙向弧;(2)網(wǎng)絡(luò)節(jié)點(diǎn)為義原、概念、概念的定義(復(fù)合節(jié)點(diǎn));(3)節(jié)點(diǎn)間的關(guān)系為知網(wǎng)規(guī)定的或者本文增加的事件角色及特征,以注明該角色及特征名稱的有向弧表示;(4)對(duì)于事件義原,考慮其框架內(nèi)容,將框架第一義原作為上位,以Hypernym關(guān)系與之連結(jié),將角色的典型事件直接連結(jié)到該基本義原,如果典型義原中涉及復(fù)雜概念,則按照參考文獻(xiàn)[5]介紹的定義網(wǎng)絡(luò)的形成方法進(jìn)行,但不出現(xiàn)Definition關(guān)系;(5)對(duì)于實(shí)體義原,將其框架內(nèi)容作為定義,按照參考文獻(xiàn)[5]介紹的網(wǎng)絡(luò)形成方法構(gòu)造其定義復(fù)合節(jié)點(diǎn);(6)對(duì)于屬性值義原,增加其屬性義原;(7)對(duì)于屬性值義原,增加與之具有反義及對(duì)義關(guān)系的概念,并以雙向弧連結(jié);(8)對(duì)于普通概念,考慮其詞典定義內(nèi)容,按照參考文獻(xiàn)[5]介紹的網(wǎng)絡(luò)形成方法構(gòu)造其定義復(fù)合節(jié)點(diǎn)。從上述介紹可見(jiàn),對(duì)于知網(wǎng)的知識(shí)結(jié)構(gòu)沒(méi)有作任何改變,只是將原有的復(fù)合文檔的形式轉(zhuǎn)化為網(wǎng)絡(luò)有向圖,并增加Definition,Hypernym,Attributevalue以及Attribute4種關(guān)系,以使網(wǎng)絡(luò)完整。2語(yǔ)義網(wǎng)絡(luò)的構(gòu)建2.1輸入表示由于漢語(yǔ)與英語(yǔ)有明顯的區(qū)別,一般漢語(yǔ)的整句較長(zhǎng),所以其輸入的轉(zhuǎn)換適合以短句進(jìn)行,短句的定義如下:短句:漢語(yǔ)文本中以標(biāo)點(diǎn)符號(hào){,。;?。浚Y(jié)尾的詞串本文單純處理基于文本推理的詞匯集聚分析,所以并不考慮詞法分析、句法分析、語(yǔ)法分析等問(wèn)題。假定輸入已經(jīng)進(jìn)行了這些方面的必要處理,包括分詞、詞性標(biāo)注、詞義消歧等。對(duì)于輸入,將其按短句逐一轉(zhuǎn)換為網(wǎng)絡(luò),形成輸入文本圖,具體方法是以節(jié)點(diǎn)表示概念(即消歧后的詞匯),以有向弧表示概念間的關(guān)系,弧上注明知網(wǎng)規(guī)定的事件角色及框架。這部分工作目前是手工完成的,以后可以考慮自動(dòng)實(shí)現(xiàn)。由于推理最終會(huì)在文本片段上進(jìn)行,所以本文構(gòu)建語(yǔ)義網(wǎng)絡(luò)時(shí)以輸入文本為基礎(chǔ),網(wǎng)絡(luò)節(jié)點(diǎn)包括文本節(jié)點(diǎn)和知識(shí)庫(kù)節(jié)點(diǎn)兩種。(1)文本節(jié)點(diǎn):語(yǔ)義網(wǎng)絡(luò)中由原始輸入形成的節(jié)點(diǎn)稱為文本節(jié)點(diǎn)。(2)知識(shí)庫(kù)節(jié)點(diǎn):語(yǔ)義網(wǎng)絡(luò)中根據(jù)知識(shí)庫(kù)中的知識(shí)建立的節(jié)點(diǎn)稱為知識(shí)庫(kù)節(jié)點(diǎn)。2.2輸入網(wǎng)絡(luò)的構(gòu)建構(gòu)建的實(shí)質(zhì)是以輸入的網(wǎng)絡(luò)文本圖為依托,根據(jù)知網(wǎng)的知識(shí)并參考文獻(xiàn)[5]中語(yǔ)義網(wǎng)絡(luò)構(gòu)建的規(guī)定,盡可能多地獲得新的概念及關(guān)系,具體實(shí)現(xiàn)時(shí)以短句為單位,步驟如下:(1)對(duì)于圖中每一個(gè)非義原簡(jiǎn)單概念節(jié)點(diǎn),利用Hypernym關(guān)系有向弧直接與其定義義原連結(jié)(見(jiàn)文獻(xiàn)[5]);(2)對(duì)于圖中每一個(gè)非義原復(fù)雜概念節(jié)點(diǎn),先將其詞典定義轉(zhuǎn)化為非循環(huán)有向圖,然后通過(guò)Definition關(guān)系有向弧連結(jié)到定義中的適當(dāng)節(jié)點(diǎn)(見(jiàn)文獻(xiàn)[5]);(3)對(duì)于圖中的每一個(gè)事件義原節(jié)點(diǎn),逐一增加其上位節(jié)點(diǎn),直至事件樹(shù)的第5層;如果存在相同的基本義原,則只對(duì)其中之一進(jìn)行此操作;(4)對(duì)于圖中的每一個(gè)實(shí)體義原節(jié)點(diǎn),逐一增加其上位節(jié)點(diǎn),直至實(shí)體樹(shù)的第3層;如果存在相同的基本義原,則只對(duì)其中之一進(jìn)行此操作;(5)對(duì)于圖中的每一個(gè)實(shí)體義原節(jié)點(diǎn),逐一增加其定義節(jié)點(diǎn),直至實(shí)體樹(shù)的第3層;如果存在相同的基本義原,則只對(duì)其中之一進(jìn)行此操作;(6)對(duì)于圖中的每一個(gè)實(shí)體、事件義原節(jié)點(diǎn),根據(jù)框架內(nèi)容增加其角色、特征值節(jié)點(diǎn);(7)對(duì)于圖中的屬性值節(jié)點(diǎn),增加其相應(yīng)的屬性節(jié)點(diǎn);(8)循環(huán)(1)至(5)步,直到不存在可以繼續(xù)操作的節(jié)點(diǎn),形成該短句完整的初級(jí)文本圖。之所以在第(3)、(4)、(5)步對(duì)基本義原上位節(jié)點(diǎn)的深度加以限制,是因?yàn)殡S著深度的減小,義原間的語(yǔ)義差別越來(lái)越大,如果允許深度為0的節(jié)點(diǎn)加入,就會(huì)出現(xiàn)許多不正確的語(yǔ)義路徑,從而使得毫無(wú)關(guān)聯(lián)的詞匯出現(xiàn)在同一個(gè)詞匯鏈,影響詞匯集聚分析的準(zhǔn)確性。基于類(lèi)似的道理,步驟(4)、(5)對(duì)實(shí)體類(lèi)義原進(jìn)行兩次操作,既將其與上位節(jié)點(diǎn)連結(jié),又與定義節(jié)點(diǎn)連結(jié),這樣做的必要之處在于區(qū)分詞匯聯(lián)系的緊密程度,也就是說(shuō),搜索構(gòu)造詞匯鏈的語(yǔ)義路徑時(shí),優(yōu)先考慮上下位關(guān)系。3發(fā)現(xiàn)語(yǔ)義路徑的搜索方式知識(shí)庫(kù)中任意兩個(gè)概念間可以通過(guò)3種方式連結(jié):簡(jiǎn)單連結(jié),僅僅通過(guò)獨(dú)立節(jié)點(diǎn)以及其間的關(guān)系連結(jié)在一起;定義連結(jié),僅僅通過(guò)定義關(guān)系及定義內(nèi)的節(jié)點(diǎn)關(guān)系連結(jié)起來(lái);混合連結(jié),可以通過(guò)任意節(jié)點(diǎn)及其間的關(guān)系連結(jié)。3種連結(jié)的方式雖然不同,但實(shí)現(xiàn)尋找的方法相同,都是從任意兩個(gè)概念節(jié)點(diǎn)出發(fā),找到所有的公共節(jié)點(diǎn)。即每條連結(jié)路徑由兩個(gè)半路徑構(gòu)成,始點(diǎn)分別是兩個(gè)概念節(jié)點(diǎn)本身,終點(diǎn)是找到的公共節(jié)點(diǎn)。(1)簡(jiǎn)單連結(jié)尋找簡(jiǎn)單連結(jié),從詞性相同的兩個(gè)概念出發(fā),沿著獨(dú)立節(jié)點(diǎn)間所允許的關(guān)系連線,直到找到公共節(jié)點(diǎn),如果不存在這樣的公共節(jié)點(diǎn)則說(shuō)明簡(jiǎn)單連結(jié)搜索失敗。(2)定義連結(jié)尋找定義連結(jié),從詞性相同的兩個(gè)概念出發(fā),沿著節(jié)點(diǎn)與其定義以及定義節(jié)點(diǎn)內(nèi)的關(guān)系連線,直到找到公共節(jié)點(diǎn),如果不存在這樣的公共節(jié)點(diǎn)則說(shuō)明定義連結(jié)搜索失敗。(3)混合連結(jié)與簡(jiǎn)單連結(jié)和定義連結(jié)非常類(lèi)似,只是允許利用所有的節(jié)點(diǎn)及關(guān)系。4推理過(guò)程4.1概念間語(yǔ)義路徑的建立文本任意兩個(gè)概念之間通過(guò)知識(shí)庫(kù)會(huì)有多條路徑存在,但其中只有某些路徑與當(dāng)前文本相關(guān),另外一些路徑在其他上下文中才有意義,因此,必須盡量刪除不相關(guān)的路徑。本文所用的方法是在鄰近概念的定義中尋找與所給文本詞匯關(guān)系相同的關(guān)系。對(duì)于給定的詞匯關(guān)系Relation(,),為關(guān)系的源概念,為關(guān)系的目標(biāo)概念,可以利用以下3種方法搜索語(yǔ)義路徑。(1)在源或目標(biāo)概念的定義中尋找給定詞匯關(guān)系Relation(,),是通過(guò)簡(jiǎn)單、定義、混合方式與連結(jié)的任一概念,該方法首先在源概念的定義中搜索關(guān)系Relation,如果不存在,就到的定義中搜索。一旦搜索成功,比如找到Relation(,),則努力尋找和之間的連結(jié)。找到這樣的連結(jié)意味著在源概念和目標(biāo)概念之間建立了合理的路徑。類(lèi)似的搜索可以從開(kāi)始。(2)在相鄰概念的定義中尋找給定詞匯關(guān)系Relationl(,)和Relation2(,),是通過(guò)簡(jiǎn)單、定義、混合方式與連結(jié)的任一個(gè)概念,該方法首先在源概念的定義中搜索關(guān)系Relation1,如果不存在,就到的定義中搜索。一旦搜索成功,比如找到Relation1(,),則努力尋找和之間的連結(jié)。找到這樣的連結(jié)意味著在源概念和目標(biāo)概念之間建立了合理的路徑。類(lèi)似的搜索可以從開(kāi)始。(3)在主題相關(guān)概念的定義中尋找給定詞匯關(guān)系Relation(,),該方法首先在所有的概念定義中搜索,并將其標(biāo)識(shí)為Definition_,是通過(guò)簡(jiǎn)單、定義、混合方式與某個(gè)Definition_連結(jié)的任一概念,如果能在的定義中搜索到Relation(,),則努力尋找和之間的連結(jié)。找到這樣的連結(jié)意味著在源概念和目標(biāo)概念之間建立了合理的路徑。類(lèi)似的搜索可以從開(kāi)始。4.2局部上下文的形成形成短句的上下文環(huán)境,其目的在于合并句內(nèi)的重復(fù)概念,消除多余的連線,將有關(guān)聯(lián)的節(jié)點(diǎn)連結(jié)起來(lái),為此設(shè)置規(guī)則如下:規(guī)則(1)、(2)主要針對(duì)節(jié)點(diǎn)的消除與合并,規(guī)則(3)側(cè)重于節(jié)點(diǎn)的連結(jié)。應(yīng)用規(guī)則(2)時(shí)應(yīng)該注意,如果在同一個(gè)概念中含有兩個(gè)共同的概念,但至少其中之一是復(fù)雜角色值的一部分,則應(yīng)以直線連結(jié),而不能合并。為了不漏掉路徑上的概念,同時(shí)又兼顧計(jì)算代價(jià)問(wèn)題,執(zhí)行規(guī)則時(shí)以路徑為單位,也就是將每一條路徑上的概念與其他路徑上的概念進(jìn)行比較。4.3句間語(yǔ)義路徑的建立短句的局部上下文建立起來(lái)以后,為了領(lǐng)會(huì)整個(gè)文本的含義,需要在短句的上下文之間建立聯(lián)系。給定兩個(gè)短句的文本圖,有3種方法可以用于尋找句間的語(yǔ)義路徑:(1)尋找本短句的動(dòng)詞通過(guò)簡(jiǎn)單、定義、混合方式與另外一個(gè)短句的動(dòng)詞之間的有效連結(jié)。(2)尋找本短句的動(dòng)詞與另外一個(gè)短句的上下文中非動(dòng)詞之間的必要聯(lián)系。(3)尋找本短句的上下文中非動(dòng)詞與另外一個(gè)短句的上下文中非動(dòng)詞之間的內(nèi)在關(guān)聯(lián)。4.4全局上下文的形成以所有短句的文本圖形成文本圖林,按照形成局部上下文的規(guī)則(1)、(2),消除句間路徑上的重復(fù)概念(不包括文本概念),然后將處理后的文本圖與各短句的局部上下文比較,進(jìn)一步消除相同概念(不包括文本概念)。對(duì)于不同短句文本圖中沒(méi)有直接連結(jié)的關(guān)聯(lián)節(jié)點(diǎn),以應(yīng)有的關(guān)系將其連結(jié)起來(lái)。經(jīng)過(guò)融合后所得到的文本圖林包含所有能夠解釋文本集聚性的概念和關(guān)系。5詞匯集聚分析5.1詞匯集聚的含義集聚性主要由詞匯間的語(yǔ)義關(guān)系體現(xiàn)出來(lái),Halliday曾基于詞匯間的依賴特性將集聚性分為5種基本類(lèi)型,如表1所示。前3種是概念的重復(fù)及變相重復(fù),包括同義詞、相同詞匯的重復(fù)使用及上下位詞匯等。后兩種體現(xiàn)文本中的詞匯搭配現(xiàn)象,指詞匯共現(xiàn)的語(yǔ)義關(guān)系,一般利用基于統(tǒng)計(jì)的方法發(fā)現(xiàn)。系統(tǒng)語(yǔ)義關(guān)系分為:反義詞;有序集合的成員詞匯或者無(wú)序集合的成員同匯;局部—整體關(guān)系。非系統(tǒng)語(yǔ)義關(guān)系是最難解決的,尤其從知識(shí)表示的角度看。具有這種搭配關(guān)系的詞匯由于描述發(fā)生在類(lèi)似情形中的事情而傾向于出現(xiàn)在類(lèi)似的詞匯環(huán)境。比如{郵局,郵票,郵寄,信封},{小汽車(chē),前燈,左轉(zhuǎn)}等,雖然這種關(guān)系不易被識(shí)別出來(lái),但它們確實(shí)存在。5.2基于知網(wǎng)分析詞匯集聚的可行性集聚性分析的第一個(gè)算法由Morris和Hirst利用Roget'sThesaurus義類(lèi)詞典基于詞匯鏈設(shè)計(jì),他們發(fā)現(xiàn)有5種類(lèi)型的關(guān)系對(duì)于詞匯鏈的建立必不可少,而知網(wǎng)同樣提供了這5種關(guān)系,如表2所示:表2與Roget'sThesaurus對(duì)應(yīng)的知網(wǎng)關(guān)系Harabagiu為了利用WordNet,曾對(duì)其進(jìn)行擴(kuò)展,增加了很多關(guān)系和概念定義。比較而言,知網(wǎng)提供了更為豐富的概念內(nèi)涵上的關(guān)聯(lián),將語(yǔ)義相關(guān)的詞匯更為緊密地聯(lián)系在一起,為集聚性分析奠定了堅(jiān)實(shí)的基礎(chǔ)?;谥W(wǎng)分析詞匯的集聚性,其代價(jià)僅限于集聚性的計(jì)算,而不涉及知網(wǎng)本身的修改或擴(kuò)展問(wèn)題。根據(jù)知網(wǎng),系統(tǒng)語(yǔ)義關(guān)系具有更多的內(nèi)容,其完整類(lèi)別如表3所示。需要特別指出的是,英語(yǔ)中不同詞性的詞匯通過(guò)相同的詞根體現(xiàn)其關(guān)聯(lián),比如Create和Creation,而漢語(yǔ)與此不同,不可能從詞形來(lái)判斷其內(nèi)在的聯(lián)系。于是,知網(wǎng)給出同源角色,用以標(biāo)識(shí)不同詞性詞匯間的顯式聯(lián)系,比如“戰(zhàn)爭(zhēng)”和“打仗”因具有相同的角色框架而語(yǔ)義相關(guān)。表3系統(tǒng)語(yǔ)義關(guān)系的類(lèi)別5.3詞匯鏈的形成從表3可見(jiàn),Morris利用5種類(lèi)型的義類(lèi)詞典關(guān)系構(gòu)建詞匯鏈,這些關(guān)系完全能夠通過(guò)基于知網(wǎng)概念間的簡(jiǎn)單、定義、混合連結(jié)獲得。語(yǔ)義路徑允許傳播在知網(wǎng)各種關(guān)系之間進(jìn)行,而Morris的詞匯鏈僅通過(guò)一種特定的方式傳播,比如,詞匯1與詞匯2相關(guān),而詞匯2已知與詞匯3相關(guān),則詞匯1與詞匯3相關(guān)。Morris假定一個(gè)詞通過(guò)同樣的關(guān)系與其他一組詞關(guān)聯(lián),這與本章設(shè)計(jì)的搜索語(yǔ)義路徑的結(jié)果類(lèi)似,一個(gè)文本詞匯通過(guò)一個(gè)短句的上下文或整個(gè)文本的上下文與其他一組文本詞匯連結(jié)。一般來(lái)講,基于路徑搜索的方法提供更豐富的詞匯集聚關(guān)系,因而也更接近人的直覺(jué)。雖然在全局上下文的形成過(guò)程中,已經(jīng)略去很多不相關(guān)的路徑,但為了有利于詞匯集聚性的分析,選擇路徑時(shí)還應(yīng)遵循如下原則:(1)路徑以簡(jiǎn)單、定義、混合方式連結(jié)兩個(gè)概念節(jié)點(diǎn);(2)路徑的起止節(jié)點(diǎn)必為文本節(jié)點(diǎn);(3)路徑的途經(jīng)節(jié)點(diǎn)必為知識(shí)庫(kù)節(jié)點(diǎn)(包括獨(dú)立節(jié)點(diǎn)和復(fù)合節(jié)點(diǎn));(4)如果兩個(gè)概念節(jié)點(diǎn)之間存在多條路徑,則選擇最短路徑;(5)優(yōu)先考慮上下位關(guān)系。6相關(guān)工作比較與測(cè)試關(guān)于詞匯集聚的研究比較典型的包括Morris和Harabagiu的工作。Morris采用Roger'sThesaurus義類(lèi)詞典作為分析工具形成詞匯鏈。Morris選擇的知識(shí)源決定其方法雖然可以捕獲系統(tǒng)或非系統(tǒng)的語(yǔ)義關(guān)系,但對(duì)于情境相關(guān)的詞匯鏈幾乎無(wú)能為力,而知網(wǎng)的知識(shí)恰好在情境相關(guān)的詞匯之間提供了豐富的語(yǔ)義路徑。Harabagiu以WordNet替換
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國(guó)高韌性管線鋼行業(yè)市場(chǎng)調(diào)查報(bào)告
- 中國(guó)液體三氯化鋁行業(yè)市場(chǎng)調(diào)查報(bào)告
- 中國(guó)混合信號(hào)片上系統(tǒng)行業(yè)市場(chǎng)深度研究及投資規(guī)劃建議報(bào)告
- 2025年中國(guó)產(chǎn)業(yè)金融行業(yè)深度研究與戰(zhàn)略咨詢報(bào)告
- 智能伸縮門(mén)行業(yè)深度研究分析報(bào)告(2024-2030版)
- 全國(guó)安全生產(chǎn)日
- 煤礦膠帶輸送機(jī)事故案例
- 安全生產(chǎn)規(guī)章制度與勞動(dòng)紀(jì)律
- 《重大生產(chǎn)安全事故隱患判定標(biāo)準(zhǔn)匯編》
- 安全員的安全生產(chǎn)責(zé)任制
- 急性肺栓塞搶救流程
- 四年級(jí)上冊(cè)數(shù)學(xué)每天20道口算、4道豎式、4道脫式、2道應(yīng)用題寒假作業(yè)剖析
- 壓鑄工藝卡片
- 生活垃圾處理收費(fèi)調(diào)研情況的匯報(bào)材料(9篇)
- 從業(yè)務(wù)骨干到管理者(ppt頁(yè))
- 標(biāo)準(zhǔn)化養(yǎng)豬可行性研究報(bào)告
- 退役士兵安置申請(qǐng)書(shū)
- GB/T 25283-2023礦產(chǎn)資源綜合勘查評(píng)價(jià)規(guī)范
- PCBA來(lái)料檢驗(yàn)標(biāo)準(zhǔn)
- 沖壓工(四級(jí))理論考試復(fù)習(xí)題庫(kù)(200多題)
- 2023年河源市源城區(qū)小升初英語(yǔ)考試模擬試題及答案解析
評(píng)論
0/150
提交評(píng)論