基于知網(wǎng)的詞匯集聚分析_第1頁
基于知網(wǎng)的詞匯集聚分析_第2頁
基于知網(wǎng)的詞匯集聚分析_第3頁
基于知網(wǎng)的詞匯集聚分析_第4頁
基于知網(wǎng)的詞匯集聚分析_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于知網(wǎng)的詞匯集聚分析

【分類號】TP391詞匯集聚就是將文本中相關的詞構成詞鏈,使得這些詞保持詞義上的連貫性。詞鏈與文本結構有一種對應關系,因而可以通過計算詞鏈確定文本結構。詞匯集聚分析在信息檢索[1]、問答系統(tǒng)[2]、自動文摘生成[3]以及主題分析[4,5]等領域都有極為重要的應用。詞匯集聚最初由Morris和Hirst[6]提出,采用Roget'sThesaurus義類詞典作為分析工具。后來,Harabagiu[7]以WordNet替換Roget'sThesaurus,嘗試以推理的方式實現(xiàn)集聚性的計算。本文以知網(wǎng)作為依托,利用概念語義網(wǎng)絡將知網(wǎng)的常識性知識表示出來,通過搜索具有特定詞匯關系的語義路徑獲取詞匯鏈,為主題間關系的剖析奠定基礎。1知識表示本文對于詞匯集聚的分析通過知網(wǎng)的推理實現(xiàn),而推理在很大程度上依賴于知識庫及知識表示,最適合于知網(wǎng)的知識表示莫過于概念語義網(wǎng)絡[8]。本文介紹的方法即基于語義網(wǎng)絡,其形式化表示為KB=(C,D,R),C是代表概念的節(jié)點集合,D是代表概念節(jié)點的定義集合,R是代表概念間以及概念與其定義間語義、詞匯關系的集合(見文獻[5])。1.1概念定義的網(wǎng)絡表示簡單概念:通常情況下指一個明確的事件、實體、屬性或屬性值,在概念中不包含任何其他成分。事件類復雜概念:以事件為中心,除了事件中心本身以外還有一個或一個以上的動態(tài)角色。實體類復雜概念:具有多種屬性,常常與一個或幾個事件具有一定的關聯(lián)。對于非義原概念,根據(jù)詞典定義形成有向非循環(huán)圖,其方法如下:(1)如果是簡單概念節(jié)點,將定義義原作為該節(jié)點的上位,通過Hypernym關系直接與其定義義原節(jié)點連結。(2)如果是事件類復雜概念節(jié)點,首先通過Definition關系與其定義第一義原節(jié)點連結,然后將第一義原的動態(tài)角色值節(jié)點連結到該義原節(jié)點上,構成復合節(jié)點,如果動態(tài)角色值是一個復雜概念,則按照本方法的第(2)、(3)步予以構建,只是無需增加Definition關系。(3)如果是實體類復雜概念節(jié)點,首先將定義第一義原作為該復雜概念節(jié)點的上位節(jié)點,以Hypernym有向弧連結:①當定義中沒有直接利用事件義原對第一義原進行描述時,通過Definition關系將被定義概念節(jié)點直接與其第一義原節(jié)點連結,再將動態(tài)角色與特征值節(jié)點連結到該第一義原節(jié)點,構成復合節(jié)點。如果動態(tài)角色及特征值是一個復雜概念,則按照本方法的第(2)、(3)步予以構建,但無需增加Definition關系。②當定義中利用事件義原對第一義原進行描述并且該事件義原唯一時,通過Definition關系將被定義概念節(jié)點與該事件義原節(jié)點直接連結。如果動態(tài)角色及特征值是一個復雜概念,則按照本方法的第(2)、(3)步予以構建,但無需增加Definition關系。③當定義并列利用多個事件義原對第一義原進行描述時,通過Definition關系將被定義概念節(jié)點與第一事件義原節(jié)點直接連結,其他并列事件義原節(jié)點以and關系按序連結。如果動態(tài)角色及特征值是一個復雜概念,則按照本方法的第(2)、(3)步予以構建,但無需增加Definition關系。④當定義并列利用多個義原直接對原概念進行描述時,通過Definition關系將被定義概念節(jié)點與第一義原節(jié)點直接連結,其他并列義原節(jié)點以and關系按序連結。如果動態(tài)角色及特征值是一個復雜概念,則按照本方法的第(2)、(3)步予以構建,但無需增加Definition關系。1.2語義網(wǎng)絡的形成對于語義網(wǎng)絡的形成,本文作如下規(guī)定:(1)網(wǎng)絡是有向圖,因某些關系的特殊性允許兩個相鄰節(jié)點間存在雙向??;(2)網(wǎng)絡節(jié)點為義原、概念、概念的定義(復合節(jié)點);(3)節(jié)點間的關系為知網(wǎng)規(guī)定的或者本文增加的事件角色及特征,以注明該角色及特征名稱的有向弧表示;(4)對于事件義原,考慮其框架內容,將框架第一義原作為上位,以Hypernym關系與之連結,將角色的典型事件直接連結到該基本義原,如果典型義原中涉及復雜概念,則按照參考文獻[5]介紹的定義網(wǎng)絡的形成方法進行,但不出現(xiàn)Definition關系;(5)對于實體義原,將其框架內容作為定義,按照參考文獻[5]介紹的網(wǎng)絡形成方法構造其定義復合節(jié)點;(6)對于屬性值義原,增加其屬性義原;(7)對于屬性值義原,增加與之具有反義及對義關系的概念,并以雙向弧連結;(8)對于普通概念,考慮其詞典定義內容,按照參考文獻[5]介紹的網(wǎng)絡形成方法構造其定義復合節(jié)點。從上述介紹可見,對于知網(wǎng)的知識結構沒有作任何改變,只是將原有的復合文檔的形式轉化為網(wǎng)絡有向圖,并增加Definition,Hypernym,Attributevalue以及Attribute4種關系,以使網(wǎng)絡完整。2語義網(wǎng)絡的構建2.1輸入表示由于漢語與英語有明顯的區(qū)別,一般漢語的整句較長,所以其輸入的轉換適合以短句進行,短句的定義如下:短句:漢語文本中以標點符號{,。;???}結尾的詞串本文單純處理基于文本推理的詞匯集聚分析,所以并不考慮詞法分析、句法分析、語法分析等問題。假定輸入已經(jīng)進行了這些方面的必要處理,包括分詞、詞性標注、詞義消歧等。對于輸入,將其按短句逐一轉換為網(wǎng)絡,形成輸入文本圖,具體方法是以節(jié)點表示概念(即消歧后的詞匯),以有向弧表示概念間的關系,弧上注明知網(wǎng)規(guī)定的事件角色及框架。這部分工作目前是手工完成的,以后可以考慮自動實現(xiàn)。由于推理最終會在文本片段上進行,所以本文構建語義網(wǎng)絡時以輸入文本為基礎,網(wǎng)絡節(jié)點包括文本節(jié)點和知識庫節(jié)點兩種。(1)文本節(jié)點:語義網(wǎng)絡中由原始輸入形成的節(jié)點稱為文本節(jié)點。(2)知識庫節(jié)點:語義網(wǎng)絡中根據(jù)知識庫中的知識建立的節(jié)點稱為知識庫節(jié)點。2.2輸入網(wǎng)絡的構建構建的實質是以輸入的網(wǎng)絡文本圖為依托,根據(jù)知網(wǎng)的知識并參考文獻[5]中語義網(wǎng)絡構建的規(guī)定,盡可能多地獲得新的概念及關系,具體實現(xiàn)時以短句為單位,步驟如下:(1)對于圖中每一個非義原簡單概念節(jié)點,利用Hypernym關系有向弧直接與其定義義原連結(見文獻[5]);(2)對于圖中每一個非義原復雜概念節(jié)點,先將其詞典定義轉化為非循環(huán)有向圖,然后通過Definition關系有向弧連結到定義中的適當節(jié)點(見文獻[5]);(3)對于圖中的每一個事件義原節(jié)點,逐一增加其上位節(jié)點,直至事件樹的第5層;如果存在相同的基本義原,則只對其中之一進行此操作;(4)對于圖中的每一個實體義原節(jié)點,逐一增加其上位節(jié)點,直至實體樹的第3層;如果存在相同的基本義原,則只對其中之一進行此操作;(5)對于圖中的每一個實體義原節(jié)點,逐一增加其定義節(jié)點,直至實體樹的第3層;如果存在相同的基本義原,則只對其中之一進行此操作;(6)對于圖中的每一個實體、事件義原節(jié)點,根據(jù)框架內容增加其角色、特征值節(jié)點;(7)對于圖中的屬性值節(jié)點,增加其相應的屬性節(jié)點;(8)循環(huán)(1)至(5)步,直到不存在可以繼續(xù)操作的節(jié)點,形成該短句完整的初級文本圖。之所以在第(3)、(4)、(5)步對基本義原上位節(jié)點的深度加以限制,是因為隨著深度的減小,義原間的語義差別越來越大,如果允許深度為0的節(jié)點加入,就會出現(xiàn)許多不正確的語義路徑,從而使得毫無關聯(lián)的詞匯出現(xiàn)在同一個詞匯鏈,影響詞匯集聚分析的準確性?;陬愃频牡览?,步驟(4)、(5)對實體類義原進行兩次操作,既將其與上位節(jié)點連結,又與定義節(jié)點連結,這樣做的必要之處在于區(qū)分詞匯聯(lián)系的緊密程度,也就是說,搜索構造詞匯鏈的語義路徑時,優(yōu)先考慮上下位關系。3發(fā)現(xiàn)語義路徑的搜索方式知識庫中任意兩個概念間可以通過3種方式連結:簡單連結,僅僅通過獨立節(jié)點以及其間的關系連結在一起;定義連結,僅僅通過定義關系及定義內的節(jié)點關系連結起來;混合連結,可以通過任意節(jié)點及其間的關系連結。3種連結的方式雖然不同,但實現(xiàn)尋找的方法相同,都是從任意兩個概念節(jié)點出發(fā),找到所有的公共節(jié)點。即每條連結路徑由兩個半路徑構成,始點分別是兩個概念節(jié)點本身,終點是找到的公共節(jié)點。(1)簡單連結尋找簡單連結,從詞性相同的兩個概念出發(fā),沿著獨立節(jié)點間所允許的關系連線,直到找到公共節(jié)點,如果不存在這樣的公共節(jié)點則說明簡單連結搜索失敗。(2)定義連結尋找定義連結,從詞性相同的兩個概念出發(fā),沿著節(jié)點與其定義以及定義節(jié)點內的關系連線,直到找到公共節(jié)點,如果不存在這樣的公共節(jié)點則說明定義連結搜索失敗。(3)混合連結與簡單連結和定義連結非常類似,只是允許利用所有的節(jié)點及關系。4推理過程4.1概念間語義路徑的建立文本任意兩個概念之間通過知識庫會有多條路徑存在,但其中只有某些路徑與當前文本相關,另外一些路徑在其他上下文中才有意義,因此,必須盡量刪除不相關的路徑。本文所用的方法是在鄰近概念的定義中尋找與所給文本詞匯關系相同的關系。對于給定的詞匯關系Relation(,),為關系的源概念,為關系的目標概念,可以利用以下3種方法搜索語義路徑。(1)在源或目標概念的定義中尋找給定詞匯關系Relation(,),是通過簡單、定義、混合方式與連結的任一概念,該方法首先在源概念的定義中搜索關系Relation,如果不存在,就到的定義中搜索。一旦搜索成功,比如找到Relation(,),則努力尋找和之間的連結。找到這樣的連結意味著在源概念和目標概念之間建立了合理的路徑。類似的搜索可以從開始。(2)在相鄰概念的定義中尋找給定詞匯關系Relationl(,)和Relation2(,),是通過簡單、定義、混合方式與連結的任一個概念,該方法首先在源概念的定義中搜索關系Relation1,如果不存在,就到的定義中搜索。一旦搜索成功,比如找到Relation1(,),則努力尋找和之間的連結。找到這樣的連結意味著在源概念和目標概念之間建立了合理的路徑。類似的搜索可以從開始。(3)在主題相關概念的定義中尋找給定詞匯關系Relation(,),該方法首先在所有的概念定義中搜索,并將其標識為Definition_,是通過簡單、定義、混合方式與某個Definition_連結的任一概念,如果能在的定義中搜索到Relation(,),則努力尋找和之間的連結。找到這樣的連結意味著在源概念和目標概念之間建立了合理的路徑。類似的搜索可以從開始。4.2局部上下文的形成形成短句的上下文環(huán)境,其目的在于合并句內的重復概念,消除多余的連線,將有關聯(lián)的節(jié)點連結起來,為此設置規(guī)則如下:規(guī)則(1)、(2)主要針對節(jié)點的消除與合并,規(guī)則(3)側重于節(jié)點的連結。應用規(guī)則(2)時應該注意,如果在同一個概念中含有兩個共同的概念,但至少其中之一是復雜角色值的一部分,則應以直線連結,而不能合并。為了不漏掉路徑上的概念,同時又兼顧計算代價問題,執(zhí)行規(guī)則時以路徑為單位,也就是將每一條路徑上的概念與其他路徑上的概念進行比較。4.3句間語義路徑的建立短句的局部上下文建立起來以后,為了領會整個文本的含義,需要在短句的上下文之間建立聯(lián)系。給定兩個短句的文本圖,有3種方法可以用于尋找句間的語義路徑:(1)尋找本短句的動詞通過簡單、定義、混合方式與另外一個短句的動詞之間的有效連結。(2)尋找本短句的動詞與另外一個短句的上下文中非動詞之間的必要聯(lián)系。(3)尋找本短句的上下文中非動詞與另外一個短句的上下文中非動詞之間的內在關聯(lián)。4.4全局上下文的形成以所有短句的文本圖形成文本圖林,按照形成局部上下文的規(guī)則(1)、(2),消除句間路徑上的重復概念(不包括文本概念),然后將處理后的文本圖與各短句的局部上下文比較,進一步消除相同概念(不包括文本概念)。對于不同短句文本圖中沒有直接連結的關聯(lián)節(jié)點,以應有的關系將其連結起來。經(jīng)過融合后所得到的文本圖林包含所有能夠解釋文本集聚性的概念和關系。5詞匯集聚分析5.1詞匯集聚的含義集聚性主要由詞匯間的語義關系體現(xiàn)出來,Halliday曾基于詞匯間的依賴特性將集聚性分為5種基本類型,如表1所示。前3種是概念的重復及變相重復,包括同義詞、相同詞匯的重復使用及上下位詞匯等。后兩種體現(xiàn)文本中的詞匯搭配現(xiàn)象,指詞匯共現(xiàn)的語義關系,一般利用基于統(tǒng)計的方法發(fā)現(xiàn)。系統(tǒng)語義關系分為:反義詞;有序集合的成員詞匯或者無序集合的成員同匯;局部—整體關系。非系統(tǒng)語義關系是最難解決的,尤其從知識表示的角度看。具有這種搭配關系的詞匯由于描述發(fā)生在類似情形中的事情而傾向于出現(xiàn)在類似的詞匯環(huán)境。比如{郵局,郵票,郵寄,信封},{小汽車,前燈,左轉}等,雖然這種關系不易被識別出來,但它們確實存在。5.2基于知網(wǎng)分析詞匯集聚的可行性集聚性分析的第一個算法由Morris和Hirst利用Roget'sThesaurus義類詞典基于詞匯鏈設計,他們發(fā)現(xiàn)有5種類型的關系對于詞匯鏈的建立必不可少,而知網(wǎng)同樣提供了這5種關系,如表2所示:表2與Roget'sThesaurus對應的知網(wǎng)關系Harabagiu為了利用WordNet,曾對其進行擴展,增加了很多關系和概念定義。比較而言,知網(wǎng)提供了更為豐富的概念內涵上的關聯(lián),將語義相關的詞匯更為緊密地聯(lián)系在一起,為集聚性分析奠定了堅實的基礎?;谥W(wǎng)分析詞匯的集聚性,其代價僅限于集聚性的計算,而不涉及知網(wǎng)本身的修改或擴展問題。根據(jù)知網(wǎng),系統(tǒng)語義關系具有更多的內容,其完整類別如表3所示。需要特別指出的是,英語中不同詞性的詞匯通過相同的詞根體現(xiàn)其關聯(lián),比如Create和Creation,而漢語與此不同,不可能從詞形來判斷其內在的聯(lián)系。于是,知網(wǎng)給出同源角色,用以標識不同詞性詞匯間的顯式聯(lián)系,比如“戰(zhàn)爭”和“打仗”因具有相同的角色框架而語義相關。表3系統(tǒng)語義關系的類別5.3詞匯鏈的形成從表3可見,Morris利用5種類型的義類詞典關系構建詞匯鏈,這些關系完全能夠通過基于知網(wǎng)概念間的簡單、定義、混合連結獲得。語義路徑允許傳播在知網(wǎng)各種關系之間進行,而Morris的詞匯鏈僅通過一種特定的方式傳播,比如,詞匯1與詞匯2相關,而詞匯2已知與詞匯3相關,則詞匯1與詞匯3相關。Morris假定一個詞通過同樣的關系與其他一組詞關聯(lián),這與本章設計的搜索語義路徑的結果類似,一個文本詞匯通過一個短句的上下文或整個文本的上下文與其他一組文本詞匯連結。一般來講,基于路徑搜索的方法提供更豐富的詞匯集聚關系,因而也更接近人的直覺。雖然在全局上下文的形成過程中,已經(jīng)略去很多不相關的路徑,但為了有利于詞匯集聚性的分析,選擇路徑時還應遵循如下原則:(1)路徑以簡單、定義、混合方式連結兩個概念節(jié)點;(2)路徑的起止節(jié)點必為文本節(jié)點;(3)路徑的途經(jīng)節(jié)點必為知識庫節(jié)點(包括獨立節(jié)點和復合節(jié)點);(4)如果兩個概念節(jié)點之間存在多條路徑,則選擇最短路徑;(5)優(yōu)先考慮上下位關系。6相關工作比較與測試關于詞匯集聚的研究比較典型的包括Morris和Harabagiu的工作。Morris采用Roger'sThesaurus義類詞典作為分析工具形成詞匯鏈。Morris選擇的知識源決定其方法雖然可以捕獲系統(tǒng)或非系統(tǒng)的語義關系,但對于情境相關的詞匯鏈幾乎無能為力,而知網(wǎng)的知識恰好在情境相關的詞匯之間提供了豐富的語義路徑。Harabagiu以WordNet替換

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論