基于句法模式的中文語義關系知識庫系統(tǒng)_第1頁
基于句法模式的中文語義關系知識庫系統(tǒng)_第2頁
基于句法模式的中文語義關系知識庫系統(tǒng)_第3頁
基于句法模式的中文語義關系知識庫系統(tǒng)_第4頁
基于句法模式的中文語義關系知識庫系統(tǒng)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于句法模式的中文語義關系知識庫系統(tǒng)

0在線詞典的開發(fā)自然人處理是計算機科學和人工智能領域的一個重要方向。實現(xiàn)人機間自然語言通信意味著要使計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。前者稱為自然語言理解,后者稱為自然語言生成。然而這兩者都遠不如人們原來想象的那么簡單。造成困難的根本原因是自然語言廣泛存在的各種各樣的歧義性或多義性;自然語言的形式(字符串)與其意義之間是一種多對多的關系,且相互間存在大量的關系。大約20世紀90年代開始,自然語言處理領域發(fā)生了巨大的變化。首先對系統(tǒng)輸入,要求研制的自然語言處理系統(tǒng)能處理大規(guī)模的真實文本,而不是如以前的研究性系統(tǒng)那樣,只能處理很少的詞條和典型句子;其次對系統(tǒng)的輸出,鑒于真實理解自然語言是十分困難的,對系統(tǒng)并不要求能對自然語言文本進行深層的理解,但要能從中抽取有用的信息,如自動提取索引詞、過濾、檢索、進行自動摘要等。雖然上述新趨勢給自然語言處理領域帶來了成果,但從理論方法的角度看,由于采集、整理、表示和有效應用大量知識的困難,這些系統(tǒng)更依賴于統(tǒng)計學的方法和其他簡單的方法或技巧,如馬爾可夫模型、向量空間模型、TF-IDF算法等。這些統(tǒng)計學的方法和其他簡單的方法似乎也快達到它們的極限了。因此,近年來人們開始越來越重視字詞間語義關系的基礎工作,展開了大規(guī)模真實語料庫的研制以及大規(guī)模、信息豐富的詞典編制工作等。比如普林斯頓大學認知科學實驗室開發(fā)了一部在線詞典數(shù)據(jù)庫系統(tǒng)WordNet,將英文的單詞組織為同義詞集合,每一個集合表示一個基本的詞匯概念,并在這些詞匯概念間建立了多種詞匯語義關系。目前,WordNet被成功地用于詞義消歧、語言學自動處理、雙語及多國語機器翻譯、檢索系統(tǒng)等一系列語言工程。在WordNet的影響下,許多國家都已著手實施構造本民族語言的WordNet,我國也出現(xiàn)了CWB中文詞庫等一些手工建立的語義詞典。這些基礎性的工作為自然語言處理作出了很大的貢獻。但是必須看到,這些基礎性的工作也還是遠遠不夠的,它們僅僅是靜態(tài)的、最原始的數(shù)據(jù),必須從大規(guī)模語料和詞典中獲取動態(tài)的字詞間關系,并且這個過程應當是自動化的、可自學習的。綜合以上觀點,筆者認為,要取得新的更大的進展,僅靠目前已有的方法是遠遠不夠的。因此,在國家科技基礎條件平臺應用服務支撐系統(tǒng)中,本文將基于字詞間語義關系的推理方法與基于統(tǒng)計的方法結合起來,創(chuàng)造性地提出并實現(xiàn)了一個語義關系知識庫系統(tǒng),包括基于句法模式的語義關系自動化發(fā)現(xiàn)等功能(本系統(tǒng)是基于中文的自然語言處理工作,本文所提到的字詞均指漢語字詞)。1意義關系和語法模式1.1關系類的組成及基本特性語義關系是字詞之間具有的各種廣泛而大量的關系,所有字詞依靠關系構成一個巨大的語義網絡。定義1詞間關系兩個以上的詞之間會有某種語義上的聯(lián)系,這里只研究詞之間的二元關系。設W是所有詞的集合,R是W上所有具有某種語義聯(lián)系的詞的偶對集合。顯然,R是W×W的一個子集,有R?W×W。例如,詞W1與W2是W中的兩個元素,若它們之間在語義上具有某種確定的關系R(如同義、反義等),則稱它們之間具有語義關系R,記為W1RW2。本文定義的詞間主要的語義關系有:a)Ris-a——從屬,即面向對象中的繼承—泛化關系,表示為Ris-a={(father,son)|father∈W∧son∈W∧Sonisakindoffather}。說明:此關系為自反、反對稱、傳遞的,因此是W上的半序關系。b)Rcomp——組合,表示整體與部分的關系,如計算機—內存,表示為Rcomp={(whole,part)|whole∈W∧part∈W∧partisacomponentofwhole}。c)Rattr——屬性,這里指一個詞描述了另一個對象的屬性,如葡萄—味道。d)Rattr-v——屬性值,這里指一個詞作為描述另一個對象的屬性的值,如葡萄—酸甜。e)Raction——動作,一個詞作為對象的某種操作,如狗—吠。f)Rsynonym——同義,詞義相同或相近。說明:此關系為自反、對稱、傳遞的,因此是W上的等價關系,所有的同義詞構成W上的一個劃分,將W劃分為若干個等價類。g)Rantonym——反義,詞義相反或相對。說明:此關系為反自反、對稱的。h)Rgeneral——一般關聯(lián),兩個或多個詞的某種關系,如水果—果脯。說明:此關系為廣泛意義的關聯(lián),所有未歸類為以上關系的二元集合均可視為這里的一般關聯(lián)。以上對關系的幾種定義方法部分來自于面向對象思想,并且可以產生自動演繹、歸納等特性。這是現(xiàn)有的WordNet、CBW中文詞典等尚未做到的。將一個詞代表的具體東西看做一個對象,將一個詞代表的本體看做一個類,則詞與詞之間就會產生面向對象中的各種關系。最廣泛、最直接的關系是繼承、組合、關聯(lián)等。子類的一些特性可以從父類得到繼承,系統(tǒng)會自動演繹出子類的基本特性。同樣,系統(tǒng)也能歸納某父類下所有的子類字詞,如果它們都具有某種相同屬性詞或操作詞,那么這個詞就會自動上移到父類。1.2繼承性符號表承關系句法模式是一種用來在語料庫中匹配句子、發(fā)現(xiàn)關系的語法規(guī)則。例如:“A是一種B”或“A是B的一種”,就是兩個用來發(fā)現(xiàn)繼承關系的模式。本文中模式的書寫規(guī)則以正則表達式為基礎,略加修改,概述如下:a),里面的詞描述了一個取值范圍,如[father]代表承關系中繼父類集合中的某個詞。b)+,代表1或多個正好在它之前的那個字符,如A+代表A、AA、AAA等。c)*,代表0或多個任意字符。d)$,代表行結束符,如“。$”能夠匹配字符串“這是一個蘋果。”的句尾。此符號在后文中主要用來斷句。e)&,代表AND關系,如[father&N.]表示既符合父類又是名詞的一個取值。f),代表OR關系,如[、。]表示頓號或句號。在語料庫中的一個實例:S=軟玉主要是由透閃石、陽起石等組成的一種礦物?!Z料來自新華網以上書寫規(guī)則對應的模式為M=[whole&son]是由([part]、)+[part]等組成的一種[father]另外,模式也有好壞之分。通過好的模式可以發(fā)現(xiàn)新的正確的關系。比如通過以上模式發(fā)現(xiàn)了語料中的三個關系:Rcomp:軟玉—透閃石,軟玉—陽起石;Ris-a:軟玉—礦物。2意義關系的自動獲取2.1語義關系n,[a]定義2詞是語義中代表某種概念實體的、可以獨立運用的最小單位。定義3句子是能表達一個完整的意思、由m個詞W與標點符號連接的有序集合,句尾一般使用句號、問號、省略號、感嘆號等結束,記為S={W|W1W2…Wm}。定義4文章是由n個句子S與段落標記組成的有序集合,記為A={S|S1S2…Sn}。定義5語料庫是由p篇不重復文章A組成的集合,記為D={A|A1A2…Ap}。若已知:a)自然語言中存在某些確定的詞間關系R1,R2,…,這里用Ri統(tǒng)一表示。b)已有一些詞間關系Ri的子集Ri′,其中:Ri′?Ri。c)大規(guī)模語料庫D。如何利用已知的Ri′和D擴充Ri′為Ri″,使得Ri′?Ri″且Ri″/Ri趨向于Φ(即如何利用已知的關系Ri′從D中得到盡可能多的未知關系)。2.2車輛的“產”—問題分析既然R是詞間廣泛存在的某種關系,這種關系又是存在于自然語言中的本質屬性,那么R必然在自然語言中有所體現(xiàn)。一個比較具體的例子是:現(xiàn)有大規(guī)模語料庫D1,保存有大量不同種類的常見文本。其中:句子S1,S2∈D1,且S1和S2的內容為S1=20世紀20年代初,上海馬路各式交通工具混雜,據(jù)當時報紙報道,上海街頭“每天要通過大量各式各樣的車輛——汽車、卡車、電車、馬車、人力車、獨輪推車、手推車……以及成千上萬的行人”。S2=最新與最舊的、最快與最慢的,以及最自由散漫的行人,并駕齊驅,蔚為大觀?!盾囉靶雄櫋?上海檔案信息網若在分析此段語料之前,已有關于“車”的關系的記錄,保存在兩張表中,如表1、2所示??筛鶕?jù)表中的數(shù)據(jù),將隱藏在句子S1中的關系挖掘出來:S′1=車輛———汽車、卡車、電車、馬車、人力車、獨輪推車、手推車…從中可以看到一定的句法模式。事實上,設滿足一定的模式記為M,則從S1′中可推得:M1=[father]———([son]、)+[son]…其中:+號代表1或多個在它之前的單詞。通過模式M1可以有效地發(fā)現(xiàn)新的關系,如(車輛,卡車)∈Ris-a等。同理,可從S2中利用已有關系發(fā)現(xiàn)蘊涵的模式M2:S2=最新與最舊的、最快與最慢的,以及最自由散漫的行人,并駕齊驅,蔚為大觀。M2=(最[synonym1&adj]與最[synonym1&adj]的[、,])+可見,需要做的是找到某種算法,從語料庫D中自動化地得到有效的模式,再利用各種模式來發(fā)現(xiàn)更多詞間關系,從而擴充已有的關系集。3實現(xiàn)方法3.1大規(guī)模語料庫及應用程序接口部分本系統(tǒng)分為語義關系數(shù)據(jù)庫、系統(tǒng)程序模塊組、大規(guī)模語料庫和應用程序接口四部分,如圖1所示。本文著重闡述的是系統(tǒng)程序模塊組中的關系發(fā)現(xiàn)維護組件和模式發(fā)現(xiàn)維護組件。3.2主要想法和應用技術1次滿足要求的斷句要對句子進行處理,首先要對大規(guī)模文本庫D中的文章進行斷句。本文對于文章的斷句提出了采用基于標點符號與句子長度相結合(防止句子過長或無標點)的方法。設文章A可被斷句為n個句子:A={S|S1S2…Sn},可作為斷句依據(jù)的標點符號集合為P,句子長度為L,最大長度為Lmax,則認為滿足以下條件的劃分為一次滿足要求的斷句:?(i∈Γ)($i∈P)∨L<Lmax。其中:$i為Si的最末一個字符;Γ為指標集合。2)關于分詞技術得到了句子,接下來就要對句子進行分析,分詞是其中必不可少的一個步驟。本系統(tǒng)使用基于統(tǒng)計學的二階馬爾可夫分詞模型進行分詞。一般來說,N階馬爾可夫模型就是假設當前詞的出現(xiàn)概率只與它前面的N個詞有關(馬爾可夫假設)。這樣,一個句子就構成了一條馬爾可夫鏈。重要的是這些概率參數(shù)都是可以通過大規(guī)模語料庫來計算的。比如三元概率有P(Wi|Wi-2Wi-1)≈count(Wi-2Wi-1Wi)/count(Wi-2Wi-1)。其中:count(…)表示一個特定詞序列在整個語料庫中出現(xiàn)的累計次數(shù)。這樣,若一個句子可以有多種劃分,本文認為滿足最大概率的劃分是最合理的分詞,即取P(W1,W2,W3,…,Wn)的最大值為最佳分詞結果。關于這方面詳細資料參見文獻。3采用索引技術對于文檔集合上的關鍵詞檢索,最基本的查詢方法可以通過順序掃描文本的方式來實現(xiàn),這種方法稱為順序查找。順序查找基本上無須對文檔集合中的信息作任何形式的預處理,查詢時直接在文檔中進行基于字符串的簡單匹配。這種方法相對比較簡單,容易實現(xiàn),但當需要查找的文件大小達到一定數(shù)量級別時,其效率就非常低。正因如此,人們提出了各種不同的查找方法,倒排索引就是其中的一種方法。索引是在搜索時使用到的一種特殊的數(shù)據(jù)結構。當文檔的數(shù)量相當龐大,并且這些文檔中的信息相對穩(wěn)定時,建立索引可以大大提高搜索時的效率。索引的技術主要有以下三種:倒排索引、后綴數(shù)組和簽名文件。其中,倒排索引在當前大多數(shù)的信息檢索系統(tǒng)中得到了廣泛的應用,它對于關鍵詞的搜索非常有效。倒排索引是一種面向單詞的索引機制。通常情況下,倒排索引結構由詞典和出現(xiàn)情況兩部分組成。對于每一個單詞,都會有一個詞匯列表記錄單詞在所有文檔中出現(xiàn)的位置,這些位置可以是單詞的位置(文本中的第幾個單詞),也可以是字符的位置(文本中的第幾個字符)。更多詳情參見文獻。以上文出現(xiàn)的兩個句子S1、S2簡單舉例說明。首先在對所有的文章進行斷句、分詞后,將所有句子的集合進行自動編號,得到關于句子(已分詞)的表,如表3所示。設表3中一共有m個句子,利用此表中句子的編號,對每個出現(xiàn)過的詞都建立一個m位的二進制索引值,每個索引值的第i位以0(或1)表示這個詞沒有(或有)在第i篇出現(xiàn)過。比如車輛在句子S1中出現(xiàn)過,在S2中沒有出現(xiàn)過,則末兩位為01。結果如表4所示。這樣,在系統(tǒng)中去查詢一個單詞在哪些句子中出現(xiàn)過,則只需讀出這個單詞的索引,取出值為1的位號即可。4反向索引相結合在實際使用中,設多個有一定關系R的詞記為Wi,則Wi∈R,將它們的集合記為Wsearch,使用它們作為關鍵詞進行查詢?,F(xiàn)需查詢它們同時在哪些句子中出現(xiàn),則可將它們的反向索引相與:result=ANDi∈Wsearchinverted_Indexiresult=AΝDi∈Wsearchinverted_Ιndexi其中:result為代表結果的二進制串,最后將其中值為1的序號讀出即可得到滿足要求的句子。接下來,對找到的句子進行去噪預處理、詞性標注、關系代詞替換、冗余信息截去等工作后,即可得到一條模式。3.3算法的設計和優(yōu)化12配置短語的預備表2用條件索引法進行關聯(lián)并進行操作可以用同樣的方法計算R中的所有n×(n-1)/2個W對,得到n×(n-1)/2個result。但注意到同樣的關系集R里并不是任何兩個單詞都有關系R。因此將所有R上的詞以它們的關系連接為圖,記d為圖上兩點的距離。規(guī)定滿足條件d(W1,W2)=1的兩個詞才進行索引的并操作。此步驟實際是限制只對具有直接關系的單詞對進行查找,大大提高了效率。3兩相操作,以近解將新的result重復進行上面的兩兩相與操作,以找出同時出現(xiàn)四個、五個、……相關詞的句子,直到result全為零,或只剩一個result為止。4模式表的增加根據(jù)這張初始表,對找到的句子進行詞性標注、關系代詞替換、冗余信息截去等工作后,就可得到一條模式。將模式記錄在一張模式表中:在此同時注意合并同類模式并記錄相同模式出現(xiàn)的次數(shù)T。由于自然語言的多樣性,在實際使用中這樣的處理也會得到大量無意義的模式,可以使用基于統(tǒng)計的方法來消歧,將出現(xiàn)概率極小的模式和關系視為無效。設最小支持度是某模式出現(xiàn)的次數(shù),記為supmin(F)。在本系統(tǒng)中,認為滿足supmin(F)>2的模式為可信模式。5每個關系組rj的元素如上步驟14,并執(zhí)行步驟14中的所有元素。找到所有的短語,處理步驟4并得到模式在這里只是簡單介紹了字詞關系、倒排索引、句子模式等在句子集上應用的基本原理,系統(tǒng)中真正的細節(jié)會比此處介紹的復雜很多。3.4分析整個過程和結果1新聞語料與數(shù)據(jù)庫文件結構本系統(tǒng)采用了搜狗語料庫和百度百科作為對比。搜狗語料庫是搜狗lab提供的文本分類語料庫(精簡版),來源于Sohu新聞網站保存的大量經過編輯手工整理與分類的新聞語料與對應的分類信息,包括財經、IT、健康、體育、旅游、教育、招聘、文化、軍事九大類。精簡版共17910個文件,平均每個文件占1~10KB,共約2500萬字,可以說是十分翔實豐富的,基本代表了一個完整覆蓋面廣的語料環(huán)境。另外,還抓取了百度百科的17000個網頁作為對比,平均每個網頁的大小與搜狗文本相近。百度百科是基于維基思想的在線百科辭典,采集它的網頁作為語料庫實驗材料有涵蓋面很全面、解釋性和陳述性的詞語多等特點,無疑是非常好的語料庫資源。2建立初始關系庫對于相關詞的語義庫,可以采用多種方法,如人工收集、結合程序自動導入已有關系列表等來完成初始關系庫的建立,為后面的自動化挖掘采集作準備。3基于自動統(tǒng)計支持度的無效初步模式篩選最終利用上文所講的方法編寫PHP程序進行了實現(xiàn)。模式和關系的發(fā)現(xiàn)經歷了如下過程:初步模式→有效模式→初步關系→有效關系。首先從語料庫中得到了大量的初步模式,經過支持度計算篩選出有效模式;再將有效模式中的初步關系抽取出來;最后對關系進行人工鑒定,找出認為有效的關系。圖2顯示了在兩種語料庫中發(fā)現(xiàn)的關系和模式數(shù)量對比。由圖2可見,用此方法產生了大量的無效初步模式。但使用經過自動統(tǒng)計支持度后得到的200多條有效模式,最終發(fā)現(xiàn)了一些關系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論