




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于知網(wǎng)的詞匯集聚分析
【分類號】TP391詞匯集聚就是將文本中相關(guān)的詞構(gòu)成詞鏈,使得這些詞保持詞義上的連貫性。詞鏈與文本結(jié)構(gòu)有一種對應(yīng)關(guān)系,因而可以通過計算詞鏈確定文本結(jié)構(gòu)。詞匯集聚分析在信息檢索[1]、問答系統(tǒng)[2]、自動文摘生成[3]以及主題分析[4,5]等領(lǐng)域都有極為重要的應(yīng)用。詞匯集聚最初由Morris和Hirst[6]提出,采用Roget'sThesaurus義類詞典作為分析工具。后來,Harabagiu[7]以WordNet替換Roget'sThesaurus,嘗試以推理的方式實現(xiàn)集聚性的計算。本文以知網(wǎng)作為依托,利用概念語義網(wǎng)絡(luò)將知網(wǎng)的常識性知識表示出來,通過搜索具有特定詞匯關(guān)系的語義路徑獲取詞匯鏈,為主題間關(guān)系的剖析奠定基礎(chǔ)。1知識表示本文對于詞匯集聚的分析通過知網(wǎng)的推理實現(xiàn),而推理在很大程度上依賴于知識庫及知識表示,最適合于知網(wǎng)的知識表示莫過于概念語義網(wǎng)絡(luò)[8]。本文介紹的方法即基于語義網(wǎng)絡(luò),其形式化表示為KB=(C,D,R),C是代表概念的節(jié)點集合,D是代表概念節(jié)點的定義集合,R是代表概念間以及概念與其定義間語義、詞匯關(guān)系的集合(見文獻(xiàn)[5])。1.1概念定義的網(wǎng)絡(luò)表示簡單概念:通常情況下指一個明確的事件、實體、屬性或?qū)傩灾担诟拍钪胁话魏纹渌煞?。事件類?fù)雜概念:以事件為中心,除了事件中心本身以外還有一個或一個以上的動態(tài)角色。實體類復(fù)雜概念:具有多種屬性,常常與一個或幾個事件具有一定的關(guān)聯(lián)。對于非義原概念,根據(jù)詞典定義形成有向非循環(huán)圖,其方法如下:(1)如果是簡單概念節(jié)點,將定義義原作為該節(jié)點的上位,通過Hypernym關(guān)系直接與其定義義原節(jié)點連結(jié)。(2)如果是事件類復(fù)雜概念節(jié)點,首先通過Definition關(guān)系與其定義第一義原節(jié)點連結(jié),然后將第一義原的動態(tài)角色值節(jié)點連結(jié)到該義原節(jié)點上,構(gòu)成復(fù)合節(jié)點,如果動態(tài)角色值是一個復(fù)雜概念,則按照本方法的第(2)、(3)步予以構(gòu)建,只是無需增加Definition關(guān)系。(3)如果是實體類復(fù)雜概念節(jié)點,首先將定義第一義原作為該復(fù)雜概念節(jié)點的上位節(jié)點,以Hypernym有向弧連結(jié):①當(dāng)定義中沒有直接利用事件義原對第一義原進(jìn)行描述時,通過Definition關(guān)系將被定義概念節(jié)點直接與其第一義原節(jié)點連結(jié),再將動態(tài)角色與特征值節(jié)點連結(jié)到該第一義原節(jié)點,構(gòu)成復(fù)合節(jié)點。如果動態(tài)角色及特征值是一個復(fù)雜概念,則按照本方法的第(2)、(3)步予以構(gòu)建,但無需增加Definition關(guān)系。②當(dāng)定義中利用事件義原對第一義原進(jìn)行描述并且該事件義原唯一時,通過Definition關(guān)系將被定義概念節(jié)點與該事件義原節(jié)點直接連結(jié)。如果動態(tài)角色及特征值是一個復(fù)雜概念,則按照本方法的第(2)、(3)步予以構(gòu)建,但無需增加Definition關(guān)系。③當(dāng)定義并列利用多個事件義原對第一義原進(jìn)行描述時,通過Definition關(guān)系將被定義概念節(jié)點與第一事件義原節(jié)點直接連結(jié),其他并列事件義原節(jié)點以and關(guān)系按序連結(jié)。如果動態(tài)角色及特征值是一個復(fù)雜概念,則按照本方法的第(2)、(3)步予以構(gòu)建,但無需增加Definition關(guān)系。④當(dāng)定義并列利用多個義原直接對原概念進(jìn)行描述時,通過Definition關(guān)系將被定義概念節(jié)點與第一義原節(jié)點直接連結(jié),其他并列義原節(jié)點以and關(guān)系按序連結(jié)。如果動態(tài)角色及特征值是一個復(fù)雜概念,則按照本方法的第(2)、(3)步予以構(gòu)建,但無需增加Definition關(guān)系。1.2語義網(wǎng)絡(luò)的形成對于語義網(wǎng)絡(luò)的形成,本文作如下規(guī)定:(1)網(wǎng)絡(luò)是有向圖,因某些關(guān)系的特殊性允許兩個相鄰節(jié)點間存在雙向??;(2)網(wǎng)絡(luò)節(jié)點為義原、概念、概念的定義(復(fù)合節(jié)點);(3)節(jié)點間的關(guān)系為知網(wǎng)規(guī)定的或者本文增加的事件角色及特征,以注明該角色及特征名稱的有向弧表示;(4)對于事件義原,考慮其框架內(nèi)容,將框架第一義原作為上位,以Hypernym關(guān)系與之連結(jié),將角色的典型事件直接連結(jié)到該基本義原,如果典型義原中涉及復(fù)雜概念,則按照參考文獻(xiàn)[5]介紹的定義網(wǎng)絡(luò)的形成方法進(jìn)行,但不出現(xiàn)Definition關(guān)系;(5)對于實體義原,將其框架內(nèi)容作為定義,按照參考文獻(xiàn)[5]介紹的網(wǎng)絡(luò)形成方法構(gòu)造其定義復(fù)合節(jié)點;(6)對于屬性值義原,增加其屬性義原;(7)對于屬性值義原,增加與之具有反義及對義關(guān)系的概念,并以雙向弧連結(jié);(8)對于普通概念,考慮其詞典定義內(nèi)容,按照參考文獻(xiàn)[5]介紹的網(wǎng)絡(luò)形成方法構(gòu)造其定義復(fù)合節(jié)點。從上述介紹可見,對于知網(wǎng)的知識結(jié)構(gòu)沒有作任何改變,只是將原有的復(fù)合文檔的形式轉(zhuǎn)化為網(wǎng)絡(luò)有向圖,并增加Definition,Hypernym,Attributevalue以及Attribute4種關(guān)系,以使網(wǎng)絡(luò)完整。2語義網(wǎng)絡(luò)的構(gòu)建2.1輸入表示由于漢語與英語有明顯的區(qū)別,一般漢語的整句較長,所以其輸入的轉(zhuǎn)換適合以短句進(jìn)行,短句的定義如下:短句:漢語文本中以標(biāo)點符號{,。;?。浚Y(jié)尾的詞串本文單純處理基于文本推理的詞匯集聚分析,所以并不考慮詞法分析、句法分析、語法分析等問題。假定輸入已經(jīng)進(jìn)行了這些方面的必要處理,包括分詞、詞性標(biāo)注、詞義消歧等。對于輸入,將其按短句逐一轉(zhuǎn)換為網(wǎng)絡(luò),形成輸入文本圖,具體方法是以節(jié)點表示概念(即消歧后的詞匯),以有向弧表示概念間的關(guān)系,弧上注明知網(wǎng)規(guī)定的事件角色及框架。這部分工作目前是手工完成的,以后可以考慮自動實現(xiàn)。由于推理最終會在文本片段上進(jìn)行,所以本文構(gòu)建語義網(wǎng)絡(luò)時以輸入文本為基礎(chǔ),網(wǎng)絡(luò)節(jié)點包括文本節(jié)點和知識庫節(jié)點兩種。(1)文本節(jié)點:語義網(wǎng)絡(luò)中由原始輸入形成的節(jié)點稱為文本節(jié)點。(2)知識庫節(jié)點:語義網(wǎng)絡(luò)中根據(jù)知識庫中的知識建立的節(jié)點稱為知識庫節(jié)點。2.2輸入網(wǎng)絡(luò)的構(gòu)建構(gòu)建的實質(zhì)是以輸入的網(wǎng)絡(luò)文本圖為依托,根據(jù)知網(wǎng)的知識并參考文獻(xiàn)[5]中語義網(wǎng)絡(luò)構(gòu)建的規(guī)定,盡可能多地獲得新的概念及關(guān)系,具體實現(xiàn)時以短句為單位,步驟如下:(1)對于圖中每一個非義原簡單概念節(jié)點,利用Hypernym關(guān)系有向弧直接與其定義義原連結(jié)(見文獻(xiàn)[5]);(2)對于圖中每一個非義原復(fù)雜概念節(jié)點,先將其詞典定義轉(zhuǎn)化為非循環(huán)有向圖,然后通過Definition關(guān)系有向弧連結(jié)到定義中的適當(dāng)節(jié)點(見文獻(xiàn)[5]);(3)對于圖中的每一個事件義原節(jié)點,逐一增加其上位節(jié)點,直至事件樹的第5層;如果存在相同的基本義原,則只對其中之一進(jìn)行此操作;(4)對于圖中的每一個實體義原節(jié)點,逐一增加其上位節(jié)點,直至實體樹的第3層;如果存在相同的基本義原,則只對其中之一進(jìn)行此操作;(5)對于圖中的每一個實體義原節(jié)點,逐一增加其定義節(jié)點,直至實體樹的第3層;如果存在相同的基本義原,則只對其中之一進(jìn)行此操作;(6)對于圖中的每一個實體、事件義原節(jié)點,根據(jù)框架內(nèi)容增加其角色、特征值節(jié)點;(7)對于圖中的屬性值節(jié)點,增加其相應(yīng)的屬性節(jié)點;(8)循環(huán)(1)至(5)步,直到不存在可以繼續(xù)操作的節(jié)點,形成該短句完整的初級文本圖。之所以在第(3)、(4)、(5)步對基本義原上位節(jié)點的深度加以限制,是因為隨著深度的減小,義原間的語義差別越來越大,如果允許深度為0的節(jié)點加入,就會出現(xiàn)許多不正確的語義路徑,從而使得毫無關(guān)聯(lián)的詞匯出現(xiàn)在同一個詞匯鏈,影響詞匯集聚分析的準(zhǔn)確性。基于類似的道理,步驟(4)、(5)對實體類義原進(jìn)行兩次操作,既將其與上位節(jié)點連結(jié),又與定義節(jié)點連結(jié),這樣做的必要之處在于區(qū)分詞匯聯(lián)系的緊密程度,也就是說,搜索構(gòu)造詞匯鏈的語義路徑時,優(yōu)先考慮上下位關(guān)系。3發(fā)現(xiàn)語義路徑的搜索方式知識庫中任意兩個概念間可以通過3種方式連結(jié):簡單連結(jié),僅僅通過獨立節(jié)點以及其間的關(guān)系連結(jié)在一起;定義連結(jié),僅僅通過定義關(guān)系及定義內(nèi)的節(jié)點關(guān)系連結(jié)起來;混合連結(jié),可以通過任意節(jié)點及其間的關(guān)系連結(jié)。3種連結(jié)的方式雖然不同,但實現(xiàn)尋找的方法相同,都是從任意兩個概念節(jié)點出發(fā),找到所有的公共節(jié)點。即每條連結(jié)路徑由兩個半路徑構(gòu)成,始點分別是兩個概念節(jié)點本身,終點是找到的公共節(jié)點。(1)簡單連結(jié)尋找簡單連結(jié),從詞性相同的兩個概念出發(fā),沿著獨立節(jié)點間所允許的關(guān)系連線,直到找到公共節(jié)點,如果不存在這樣的公共節(jié)點則說明簡單連結(jié)搜索失敗。(2)定義連結(jié)尋找定義連結(jié),從詞性相同的兩個概念出發(fā),沿著節(jié)點與其定義以及定義節(jié)點內(nèi)的關(guān)系連線,直到找到公共節(jié)點,如果不存在這樣的公共節(jié)點則說明定義連結(jié)搜索失敗。(3)混合連結(jié)與簡單連結(jié)和定義連結(jié)非常類似,只是允許利用所有的節(jié)點及關(guān)系。4推理過程4.1概念間語義路徑的建立文本任意兩個概念之間通過知識庫會有多條路徑存在,但其中只有某些路徑與當(dāng)前文本相關(guān),另外一些路徑在其他上下文中才有意義,因此,必須盡量刪除不相關(guān)的路徑。本文所用的方法是在鄰近概念的定義中尋找與所給文本詞匯關(guān)系相同的關(guān)系。對于給定的詞匯關(guān)系Relation(,),為關(guān)系的源概念,為關(guān)系的目標(biāo)概念,可以利用以下3種方法搜索語義路徑。(1)在源或目標(biāo)概念的定義中尋找給定詞匯關(guān)系Relation(,),是通過簡單、定義、混合方式與連結(jié)的任一概念,該方法首先在源概念的定義中搜索關(guān)系Relation,如果不存在,就到的定義中搜索。一旦搜索成功,比如找到Relation(,),則努力尋找和之間的連結(jié)。找到這樣的連結(jié)意味著在源概念和目標(biāo)概念之間建立了合理的路徑。類似的搜索可以從開始。(2)在相鄰概念的定義中尋找給定詞匯關(guān)系Relationl(,)和Relation2(,),是通過簡單、定義、混合方式與連結(jié)的任一個概念,該方法首先在源概念的定義中搜索關(guān)系Relation1,如果不存在,就到的定義中搜索。一旦搜索成功,比如找到Relation1(,),則努力尋找和之間的連結(jié)。找到這樣的連結(jié)意味著在源概念和目標(biāo)概念之間建立了合理的路徑。類似的搜索可以從開始。(3)在主題相關(guān)概念的定義中尋找給定詞匯關(guān)系Relation(,),該方法首先在所有的概念定義中搜索,并將其標(biāo)識為Definition_,是通過簡單、定義、混合方式與某個Definition_連結(jié)的任一概念,如果能在的定義中搜索到Relation(,),則努力尋找和之間的連結(jié)。找到這樣的連結(jié)意味著在源概念和目標(biāo)概念之間建立了合理的路徑。類似的搜索可以從開始。4.2局部上下文的形成形成短句的上下文環(huán)境,其目的在于合并句內(nèi)的重復(fù)概念,消除多余的連線,將有關(guān)聯(lián)的節(jié)點連結(jié)起來,為此設(shè)置規(guī)則如下:規(guī)則(1)、(2)主要針對節(jié)點的消除與合并,規(guī)則(3)側(cè)重于節(jié)點的連結(jié)。應(yīng)用規(guī)則(2)時應(yīng)該注意,如果在同一個概念中含有兩個共同的概念,但至少其中之一是復(fù)雜角色值的一部分,則應(yīng)以直線連結(jié),而不能合并。為了不漏掉路徑上的概念,同時又兼顧計算代價問題,執(zhí)行規(guī)則時以路徑為單位,也就是將每一條路徑上的概念與其他路徑上的概念進(jìn)行比較。4.3句間語義路徑的建立短句的局部上下文建立起來以后,為了領(lǐng)會整個文本的含義,需要在短句的上下文之間建立聯(lián)系。給定兩個短句的文本圖,有3種方法可以用于尋找句間的語義路徑:(1)尋找本短句的動詞通過簡單、定義、混合方式與另外一個短句的動詞之間的有效連結(jié)。(2)尋找本短句的動詞與另外一個短句的上下文中非動詞之間的必要聯(lián)系。(3)尋找本短句的上下文中非動詞與另外一個短句的上下文中非動詞之間的內(nèi)在關(guān)聯(lián)。4.4全局上下文的形成以所有短句的文本圖形成文本圖林,按照形成局部上下文的規(guī)則(1)、(2),消除句間路徑上的重復(fù)概念(不包括文本概念),然后將處理后的文本圖與各短句的局部上下文比較,進(jìn)一步消除相同概念(不包括文本概念)。對于不同短句文本圖中沒有直接連結(jié)的關(guān)聯(lián)節(jié)點,以應(yīng)有的關(guān)系將其連結(jié)起來。經(jīng)過融合后所得到的文本圖林包含所有能夠解釋文本集聚性的概念和關(guān)系。5詞匯集聚分析5.1詞匯集聚的含義集聚性主要由詞匯間的語義關(guān)系體現(xiàn)出來,Halliday曾基于詞匯間的依賴特性將集聚性分為5種基本類型,如表1所示。前3種是概念的重復(fù)及變相重復(fù),包括同義詞、相同詞匯的重復(fù)使用及上下位詞匯等。后兩種體現(xiàn)文本中的詞匯搭配現(xiàn)象,指詞匯共現(xiàn)的語義關(guān)系,一般利用基于統(tǒng)計的方法發(fā)現(xiàn)。系統(tǒng)語義關(guān)系分為:反義詞;有序集合的成員詞匯或者無序集合的成員同匯;局部—整體關(guān)系。非系統(tǒng)語義關(guān)系是最難解決的,尤其從知識表示的角度看。具有這種搭配關(guān)系的詞匯由于描述發(fā)生在類似情形中的事情而傾向于出現(xiàn)在類似的詞匯環(huán)境。比如{郵局,郵票,郵寄,信封},{小汽車,前燈,左轉(zhuǎn)}等,雖然這種關(guān)系不易被識別出來,但它們確實存在。5.2基于知網(wǎng)分析詞匯集聚的可行性集聚性分析的第一個算法由Morris和Hirst利用Roget'sThesaurus義類詞典基于詞匯鏈設(shè)計,他們發(fā)現(xiàn)有5種類型的關(guān)系對于詞匯鏈的建立必不可少,而知網(wǎng)同樣提供了這5種關(guān)系,如表2所示:表2與Roget'sThesaurus對應(yīng)的知網(wǎng)關(guān)系Harabagiu為了利用WordNet,曾對其進(jìn)行擴(kuò)展,增加了很多關(guān)系和概念定義。比較而言,知網(wǎng)提供了更為豐富的概念內(nèi)涵上的關(guān)聯(lián),將語義相關(guān)的詞匯更為緊密地聯(lián)系在一起,為集聚性分析奠定了堅實的基礎(chǔ)?;谥W(wǎng)分析詞匯的集聚性,其代價僅限于集聚性的計算,而不涉及知網(wǎng)本身的修改或擴(kuò)展問題。根據(jù)知網(wǎng),系統(tǒng)語義關(guān)系具有更多的內(nèi)容,其完整類別如表3所示。需要特別指出的是,英語中不同詞性的詞匯通過相同的詞根體現(xiàn)其關(guān)聯(lián),比如Create和Creation,而漢語與此不同,不可能從詞形來判斷其內(nèi)在的聯(lián)系。于是,知網(wǎng)給出同源角色,用以標(biāo)識不同詞性詞匯間的顯式聯(lián)系,比如“戰(zhàn)爭”和“打仗”因具有相同的角色框架而語義相關(guān)。表3系統(tǒng)語義關(guān)系的類別5.3詞匯鏈的形成從表3可見,Morris利用5種類型的義類詞典關(guān)系構(gòu)建詞匯鏈,這些關(guān)系完全能夠通過基于知網(wǎng)概念間的簡單、定義、混合連結(jié)獲得。語義路徑允許傳播在知網(wǎng)各種關(guān)系之間進(jìn)行,而Morris的詞匯鏈僅通過一種特定的方式傳播,比如,詞匯1與詞匯2相關(guān),而詞匯2已知與詞匯3相關(guān),則詞匯1與詞匯3相關(guān)。Morris假定一個詞通過同樣的關(guān)系與其他一組詞關(guān)聯(lián),這與本章設(shè)計的搜索語義路徑的結(jié)果類似,一個文本詞匯通過一個短句的上下文或整個文本的上下文與其他一組文本詞匯連結(jié)。一般來講,基于路徑搜索的方法提供更豐富的詞匯集聚關(guān)系,因而也更接近人的直覺。雖然在全局上下文的形成過程中,已經(jīng)略去很多不相關(guān)的路徑,但為了有利于詞匯集聚性的分析,選擇路徑時還應(yīng)遵循如下原則:(1)路徑以簡單、定義、混合方式連結(jié)兩個概念節(jié)點;(2)路徑的起止節(jié)點必為文本節(jié)點;(3)路徑的途經(jīng)節(jié)點必為知識庫節(jié)點(包括獨立節(jié)點和復(fù)合節(jié)點);(4)如果兩個概念節(jié)點之間存在多條路徑,則選擇最短路徑;(5)優(yōu)先考慮上下位關(guān)系。6相關(guān)工作比較與測試關(guān)于詞匯集聚的研究比較典型的包括Morris和Harabagiu的工作。Morris采用Roger'sThesaurus義類詞典作為分析工具形成詞匯鏈。Morris選擇的知識源決定其方法雖然可以捕獲系統(tǒng)或非系統(tǒng)的語義關(guān)系,但對于情境相關(guān)的詞匯鏈幾乎無能為力,而知網(wǎng)的知識恰好在情境相關(guān)的詞匯之間提供了豐富的語義路徑。Harabagiu以WordNet替換
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 批發(fā)企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 未來家園拖拉夢行業(yè)跨境出海戰(zhàn)略研究報告
- 硝酸富鋱企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 教學(xué)用品批發(fā)企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 互聯(lián)網(wǎng)零售企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 食品乳化劑企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 2025年燈具及照明裝置合作協(xié)議書
- 2025年商業(yè)、飲食、服務(wù)業(yè)專用設(shè)備項目發(fā)展計劃
- 合肥市2025年度勞動合同(含員工績效獎金分配)
- 二零二五總經(jīng)理聘任與法律風(fēng)險合同:法律合規(guī)保障合作協(xié)議
- 小區(qū)老樓電梯加裝鋼結(jié)構(gòu)工程施工方案全套
- 食堂遇特殊天氣應(yīng)急預(yù)案
- 礦山機(jī)電專業(yè)課程標(biāo)準(zhǔn)范本
- 食品風(fēng)味化學(xué)(第二版) 課件 第8、9章 風(fēng)味物質(zhì)的提取與分析、食品中風(fēng)味的釋放和穩(wěn)定化
- 變電站建設(shè)工程造價影響因素分析及控制策略研究
- 人教版道德與法治五年級下冊全冊課件(完整版)
- 角磨機(jī)施工方案
- 施耐德ATS互投柜說明書WTSA、B控制器說明書
- 勞動教育第一課 整理衣物有條理
- -《畫線段圖解決問題的策略》
- 黑龍江省鶴崗市東方紅鄉(xiāng)地?zé)豳Y源普查探礦權(quán)出讓收益評估報告
評論
0/150
提交評論