基于語義標注的信息抽取_第1頁
基于語義標注的信息抽取_第2頁
基于語義標注的信息抽取_第3頁
基于語義標注的信息抽取_第4頁
基于語義標注的信息抽取_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于語義標注的信息抽取

隨著計算機網絡的普及和信息采集、傳輸和應用范圍的擴大,人們需要處理的電子文檔信息也顯著增加。這些信息中,計算機能自動處理的結構化信息僅占很少一部分,更多的信息以目前計算機所無法理解的自然語言來表達。如何從文本中提取用戶所需信息,已成為信息處理的焦點之一。信息抽取就是針對這樣一個問題而提出的。信息抽取是一個以未知的自然語言文檔作為輸入,產生固定格式、無歧義的輸出數據的過程。這些數據可直接向用戶顯示,也可作為原文信息檢索的索引,或存儲到數據庫、電子表格中,以便于以后的進一步分析。與自然語言處理不同,信息抽取一般不對文本作深入全面的分析。信息抽取的主要功能是根據預先設定的任務,抽取特定類型的信息。朱德熙先生在《語法答問》中曾精辟地指出漢語和印歐語的不同:一是漢語的詞類缺乏形式標記;二是漢語詞類跟句法成分之間不存在簡單的對應關系;三是漢語句子的構造原則跟短語的構造原則基本一致。因此,中文的信息抽取不能照搬目前大多數英文信息抽取系統(tǒng)所采用的以語法分析為主,以語義分析為輔的方法。由此提出了從語義分析入手的信息抽取方法。1分層處理,不符合語用分析的原則傳統(tǒng)的自然語言處理模型一般將語言處理分為詞、語法、語義、篇章、語用等不同的抽象級別,實行分層處理,并認為高層的處理是建立在低層處理基礎之上的。信息抽取無須作深層的語義分析,因而拋棄了篇章、語用分析的桎梏。盡管如此,信息抽取并沒有完全擺脫自然語言模型的影響,許多基于規(guī)則的信息抽取仍要進行語法分析,而把語義分析置于輔助地位。1.1語義標注的負面影響語法分析可視為高度抽象的語義分析,原因在于語法分析的基礎是詞性標注,而詞性標注是一種高度抽象的語義標注。例如,在圖1所示的概念層次中,“玫瑰”和“熊貓”兩個詞,經過逐步的語義概括,在頂層可抽象為“事物”,即詞性中的名詞。詞性標注作為一種高度抽象的語義標注,至少引起以下負面影響。其一,詞性標注本身引起了語義的缺失。例如,圖1中“玫瑰”和“熊貓”兩個詞在向上一層的語義歸類中,保留了“植物”和“動物”之間的區(qū)別。但是,當兩者最終歸到詞性的層次上時,它們之間的“植物”和“動物”區(qū)別消失了。其二,在語法分析中,當多個具有相同詞性的詞語相連構成一個大的語法單元時,由于各詞語在詞性上是無區(qū)別的,當需要在相鄰的詞語中抽取其一時,就產生一定的困難。例如,圖2中多個名詞連結在一起構成一個大的名詞詞組,當要抽取某一特定語義的詞語時,就須借助其他的方法來完成。其三,在表達方式比較單一的領域中,描述不同對象的語句往往具有相同的語法結構,語句表達上的差別在語法分析中消失了。例如,在圖3中,當要抽取的信息與非抽取信息用同一語法模式來表達時,作為信息抽取有效信息源之一的語法分析也就失去了本來的意義。1.2語義標注的語義說明語法分析引起語義缺失的根本原因在于它是基于詞性標注的,而詞性本身處于語義層次的頂層,正是詞性標注的高度抽象化,引起了語義信息在向上傳遞過程中的逐步消失。換句話說,當語句分析是基于語義層次中較低的抽象級別時,還是可以保留部分語義信息的。基于這種考慮,提出了基于語義標注的語句分析,以消除詞性標注引起的負面影響。語義標注的抽象級別較低,詞語在標注后保留了一些區(qū)別性的語義信息。例如,圖1中的詞語“玫瑰”和“熊貓”經語義標注后,可保留“植物”和“動物”之間的區(qū)別。當多個詞語相連成為一個大的語義單元時,這些保留的信息有助于區(qū)別不同語義的詞語,同時,語句模式也會由于描述對象語義類別的不同而有所區(qū)別。這樣,就消除了詞性標注引起的負面影響。語義標注與詞性標注類似,也是給詞語加上一種類別標簽。區(qū)別在于,詞性標注加上的是詞性標簽,如名詞、動詞、形容詞等,而語義標注加上的是語義類別標簽,一般要利用概念層次來完成。例如,在圖1所示的概念層次中,“熊貓”一詞經語義標注后對應的是“動物”。語言單元的識別過程也可視為語義標注概念的進一步拓展。從語義標注的角度看,文本分析可視為5種粒度的語義標注,最細的粒度是詞語的類別,即通常的語義標注;由語義類別的組合形成基本短語,基本短語的識別可視為第2層的語義標注;隨后的更大單元的復合短語識別、語句模式的識別分別對應第3層和第4層的語義標注;最粗的粒度是文本的篇章識別,即文本的分類。在信息抽取中,主要使用前4個層次的語義標注。當用自底向上的方法分析文本時,底層的單元在上層中表現出一定的組合性,便于用規(guī)則的方法來識別不同的語義單元。最終的語義單元與信息模板的槽之間會形成對應關系,因此,可用語義標注方法來實現信息的抽取。在基于語義標注的語句分析中,語法分析的功能事實上已蘊含其中,再次的語法分析已屬冗余,這為我們舍棄語法分析,用統(tǒng)一的語義分析指導信息抽取提供了依據。在開放的領域中,語義類的數目通常要遠遠大于詞性的數目,存在詞的歧義問題,基于語義標注的方法需大量的知識支持,可行性極差;這也是開放領域中語法分析存在的主要根據之一。但信息抽取一般是基于某特定領域的,所用的詞和語義有其特定的領域背景,詞的歧義問題基本不存在,語義類別數目急劇下降,由語義類構成的語句模式是可控制的。因此,在信息抽取中,基于語義標注的方法有一定的可行性。2基于意義標記的信息提取2.1統(tǒng)一標圖文本的構建本文信息抽取的對象是作戰(zhàn)標圖所需的文字資料,簡稱標圖文本。標圖文本是軍事標圖的底本,一般情況下,標圖所需的軍標名稱、所處位置等信息都可從標圖文本中獲取。標圖文本通常以自然語言的形式表述,而標圖需要的是固定格式的信息。若信息抽取能在這兩者之間構建起通路,則可為實現軍用文圖的自動轉換提供一種解決方案。標圖文本和所抽取的信息案例,如圖4所示。2.2語義標注的策略借鑒FASTUS系統(tǒng)的工作過程,在基本語義標注的基礎上,用級聯(lián)式的FSA(有限狀態(tài)自動機)將文本逐步分割成較大的語義單元。在最后的分割結果中,其中的一些語義單元將直接對應要抽取的內容。FASTUS系統(tǒng)在分析過程中,采用的是語法和語義的雙軌制策略,即在語法單元的識別階段保留部分語義,語義分析的結果可為語法分析所用。不同于FASTUS系統(tǒng),基于語義標注的語句分析使用的是語義分析單軌制方法,在每個階段不存有語法信息。這種方法的優(yōu)點在于用統(tǒng)一的語義分析指導信息抽取,各階段只考慮語義方面的因素,使分析過程大為簡化?;谡Z義標注的信息抽取可分為5個階段,其中,后4個階段對應不同層次的語義標注,如圖5所示。隨著分析的逐階段深入,文本以更大的結構化語義單元形式出現。最終分析出的語義單元可分為兩部分:目標信息和噪聲信息。2.3提取標準信息的過程2.3.1標圖文本的語言特點一般將詞語作為語言處理的基本單位。中文的詞與詞之間沒有空格,在語法或語義分析前要對文本進行分詞處理。我們設計的MIE(軍用信息抽取)系統(tǒng)使用基于詞典的方法分詞,并根據子語言的特點避免了未登錄詞處理和歧義消解等問題。標圖文本中未登錄詞主要是地名,通常不出現未登錄的組織名和人名等情況。地名通常以地圖所標注的為準,一般要將地名存入地理信息系統(tǒng)中。所以,只需將地理信息數據庫中的地名作為詞取出,注入詞典,即可避免未登錄地名的處理。標圖文本作為一種軍用文書,具有準確、嚴格、簡樸等特點,歧義現象極少,使用簡單的基于記憶方法可達到歧義消解目的。在MIE系統(tǒng)中,我們實現了基于詞典的分詞算法,它支持首字Hash,進行增字最大匹配,并用基于記憶的方法實現歧義消解。2.3.2標圖文本語義標注語義標注即給詞語加上語義類別標簽,將原文的內容抽象到一個較高的層次。在語義類別這一層次上,標圖文本通常表現出局部的規(guī)律性,例如,表述作戰(zhàn)單位的詞語常屬于某幾個特定語義類別,且這些類別的出現順序有一定的規(guī)律性。這便于用規(guī)則的方式來識別較大的語言單元,所以,語義標注是將標圖文本簡化到可控范圍內不可或缺的手段。在同一領域內,一個詞語通常只有一個意義,對應的語義標簽也只有一個。標圖文本對詞語的使用有嚴格的限制,嚴禁一詞多義的現象發(fā)生,以免發(fā)生誤解。所以,標圖文本的語義標注只需簡單地從所設計的上下位語義網絡中發(fā)現上位詞。比如,“迫擊炮”的上位詞是“武器”,只要在“迫擊炮”出現的地方標上〈武器〉即可。我們在MIE系統(tǒng)中設計了23個第1層的語義網絡,部分語義標簽及其下屬的詞,如表1所示。在標圖文本中,數是一種語義的原子單位,具有不可分性。簡單的數字不具備基本意義,如“西北100m”、“106高程點”、“212高地(14、21)”等中的數在分詞后將被分開,形成單個的數字,要通過規(guī)則或簡單的FSA將數字連到一起,標上〈數值〉標簽。同樣,坐標可視為標圖文本中的基本構成元素,將其作為整體識別出來,加上標簽〈坐標〉,以表示一種基本的語義單元。2.3.3‘部隊’的簡化fsa在第1層語義類別的基礎上,通過組合規(guī)則可識別出基本的短語,即進行第2層的語義標注。這一階段主要識別出距離、基本地名、基本作戰(zhàn)單位,這3種短語的表述都遵循比較規(guī)范的語義規(guī)則,如作戰(zhàn)單位中的〈部隊〉可概略表述為:〈部隊〉::=[〈敵我〉][〈種類〉][〈序〉][〈數值〉]〈建制〉其中,〈敵我〉、〈種類〉、〈序〉、〈數值〉4項內容是可選的,〈序〉是“第”等詞的語義類別標簽。但這種表述將會錯誤地輸入信息,如“紅軍第營”,也識別為〈部隊〉,更精確的表述可用圖6所示的簡化FSA。圖6中,S0表示初始狀態(tài),S1,S2,S3,S4,S5分別表示接收輸入〈敵我〉、〈種類〉、〈序〉、〈數值〉、〈建制〉后到達的狀態(tài)。由此簡化的FSA,可識別出基本的作戰(zhàn)單位,比如“第1師”、“坦克團”、“摩步第2營”、“1個坦克連”等。距離和基本地名等可用同樣的方法識別。2.3.4復合部分語義以基本短語作為語句的構成單元,分析語句的語義規(guī)則仍有較大的難度,為此將基本短語的組合進一步抽象為第3層的語義標簽,即識別出更大的語義單元——復合短語。在第3層的語義標簽中,設置一個標簽為〈噪音〉,用以指代所有規(guī)則外的信息。復合短語的識別與基本短語的情況類似,也是基于組合規(guī)則的,實現時用FSA來識別。例如,由領域知識可知:2個〈部隊〉相連,表達了一個更全面的關于〈部隊〉的信息??捎靡?guī)則表述為:〈部隊〉::=〈部隊〉〈部隊〉依據這個規(guī)則,基本短語“第1師”、“坦克團”、“摩步第2營”相連可形成作戰(zhàn)單位的更具體信息“第1師坦克團摩步第2營”。這一階段得到的信息已經與模板中的信息形成一定的對應關系。2.3.5提取函數信息(1)各種軍標及部隊指揮機構的模型設計標圖信息從軍標的層次看,可表述為一個三元組,即(軍標,位置,方向)。元組內各項具有一定的多樣性,如從定位點的多少看,軍標可分為點狀、線狀和面狀。從位置信息中所含地名多少看,位置也是可變參量。圖標方向既有根據作戰(zhàn)雙方的相對位置來確定的,也有固定方向的。這三者的多樣性決定了標圖信息不能簡單地用一個固定的模板來描述。另一方面,軍標本身數量眾多,若為每個軍標設計一個信息模板,形成軍標與模板之間的映射關系,則模板的數量眾多、管理困難,每增刪一個軍標都要修改相應模板。為了適應以上兩種情況,將信息模板設計為兩類:類模板和種模板。在模板庫中,目前設計了5個類模板和12個種模板。一個類模板可對應多種軍標,如預備隊、保障隊、分隊等多種軍標信息可用一個類模板來抽取,這幾種軍標信息都只含一個作戰(zhàn)單位和一個地名。種模板對應一種軍標,如,作戰(zhàn)分界線一般要涉及2個作戰(zhàn)單位、多個地名,要為其單獨設定一個信息模板。(2)檢測模式及生成模板類模板信息的抽取可用語義模式識別的方法實現,如將預備隊、保障隊、分隊歸到語義〈分隊〉下,對應分隊部署的語義模式為:〈分隊配置〉::=〈分隊〉[〈噪音〉]〈地名〉;設定〈分隊〉軍標所對應的模板為【分隊模板】,有:【分隊模板】:分隊槽+地名槽。只要在語句中出現〈分隊配置〉這樣的語義模式,即可將〈分隊〉和〈地名〉所對應的內容分別作為【分隊模板】中的分隊槽和地名槽信息抽取。種模板對應的軍標一般有獨特的關鍵字信息,如作戰(zhàn)分界線這種軍標通常用“分界線”作為關鍵字,模式也較復雜。對種模板可先由關鍵字識別相應的模板,其過程為:先對種模板設立索引關鍵字,將文本中的關鍵字作為〈關鍵〉語義標出;當文本中出現〈關鍵〉這一語義時,由關鍵字找到相應的模板,然后根據語義對應關系抽取標圖信息。2.4學習目標標圖如圖2,設計出大量的信息點+r信息抽取的評估有兩個主要指標:查準率(Precision)和查全率(Recall)。為方便不同信息抽取系統(tǒng)之間的比較,一般使用這兩個指標的綜合值:F=(β2+1)×P×R(β2×P)+R?F=(β2+1)×Ρ×R(β2×Ρ)+R?其中,P為查準率,R為查全率,β為對查準率的偏重量,通常取β=1。為檢查MIE從標圖文本中抽取標圖信息的效果,隨機取10篇練習用的摩步營、團攻防標圖文本作為信息抽取的測試樣本。經手工統(tǒng)計,樣本共含有186條標圖信息。每條信息的組成部分稱為一個信息點,相應于模板中的槽。在作戰(zhàn)標圖中,一個信息點的錯誤將使整個信息條成為無用信息,所以在給出信息點的查準率、查全率、F度量時,也給出信息條的這3個度量。信息條中的信息點情況:16條標圖信息含有4個信息點,8條含有3個信息點,其余各含有2個信息點,共計412個信息點。用MIE系統(tǒng)在文本上進行抽取測試,手工檢查抽取結果的正誤情況,統(tǒng)計后可得對MIE的抽取情況的評估(β=1),如表2所示。3基于語義標注的信息抽樣方法本文分析指出詞性標注是引起語義缺失的根本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論