下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于規(guī)則庫的地名識別研究
登錄語言識別在提高漢語自動分詞精度方面發(fā)揮著重要作用。本文就未登錄詞中地名的識別進行了探討,采用兩級處理策略:第1級處理利用從大規(guī)模真實文本中統(tǒng)計獲得的地名上下文信息形成地名識別規(guī)則庫,并對規(guī)則庫中規(guī)則的量化處理來體現(xiàn)規(guī)則在識別地名中的可信程度的不同,不同可信程度的規(guī)則產(chǎn)生的候選地名將作不同的后續(xù)處理,采用此方法,可以減少正確地名因為可信度低而被過濾掉的可能性,被識別的地名主要是其前詞、后詞在真實文本中作為地名的上下文共現(xiàn)頻度高的一部分地名;為了提高識別的召回率,引入了第2級處理,第2級處理根據(jù)地名前詞補召未能在第1級處理中識別出來的地名。文獻對帶特征詞的地名的識別進行了研究。本文采用上述方法不僅實現(xiàn)了對不帶特征詞的中文地名的識別,而且有效地提高了識別的召回率。1生成地名識別規(guī)則庫本文從人工標注過的1998年《人民日報》語料中抽取出地名的上下文信息,生成地名識別規(guī)則庫,以此規(guī)則庫去識別2000年《人民日報》語料中的地名,并采用錯誤驅(qū)動的方式,對規(guī)則庫進行完善;對最終形成的規(guī)則庫進行簡單的聚類,計算規(guī)則的頻度,根據(jù)規(guī)則頻度對規(guī)則進行量化處理。1.1定義帶特征詞地名在真實文本中,某些詞具有相同的屬性,作為地名的前詞(后詞)出現(xiàn)時對地名識別的作用是一樣的,本文將這樣的詞合并為一類,識別過程中,將這一類詞當作一個特定的詞來處理。設(shè)人工標注正確的句子切分序列S=W0W1...Wi-1WiWi+1...Wj(i,j為整數(shù)),設(shè)iW為地名PN,若iW為帶特征詞地名,則Wi不包括特征詞。Wi-1稱為地名的前詞,Wi+1稱為地名的后詞。對語料庫中含地名的序列進行掃描得到如下規(guī)則:規(guī)則:前詞=Wi-1,后詞=Wi+1根據(jù)Wi-1(Wi+1)的具體類型,定義如下合并操作:若前詞Wi-1(后詞Wi+1)是地名特征詞(縣、市等)、已登錄的常見地名(北京市、遼寧省等)、數(shù)字(1、一等)、標點符號(,。等)、非漢字(字母、特殊符號等)則分別用符號SpeWord、PName、Number、Punc、Unhz替換。舉例如下:詞串:在|貴州省|晴|隆|縣|開始|試行|。|在該詞串中,地名PN=“晴隆”,前詞Wi-1=“貴州省”,為已登錄的常見地名,所以用“PName”替換之,后詞Wi+1=“縣”,是地名特征詞,所以用“Speword”替換之。替換后形成的規(guī)則如下:規(guī)則:前詞Wi-1=“PName”,后詞Wi+1=“Speword”通過對所有規(guī)則做上述的合并操作,使得規(guī)則的適用范圍顯著增大。1.2規(guī)則頻度和規(guī)則分類在真實文本中,不同的規(guī)則識別出的候選地名的正確率是不同的,例如有以下兩條規(guī)則:規(guī)則1:前詞Wi-1=“位于”,后詞Wi+1=“Speword”若某一字段序列的左詞、右詞滿足規(guī)則1中的前詞和后詞條件時,該字段序列作為地名的可能性較大;而字段序列的左詞、右詞滿足規(guī)則2中的前詞和后詞條件時,該字段序列作為地名的可能性較小。為了表示規(guī)則在識別地名過程中的這種差異,引入規(guī)則頻度的概念(見表1)。規(guī)則頻度(FR(PR))的定義如下:其中CorrectTime(PR)是用規(guī)則PR去識別地名時,所得到的候選地名中正確地名的個數(shù);AllTime(PR)是用規(guī)則PR去識別地名時,所得到的候選地名的總個數(shù)。計算規(guī)則頻度之后,就能客觀地反映每條規(guī)則在識別地名時的可信程度。在施加規(guī)則產(chǎn)生候選地名時,若發(fā)生規(guī)則沖突,則以頻度高的規(guī)則為準。規(guī)則頻度不同,則規(guī)則在識別地名中的可信程度不同。根據(jù)規(guī)則頻度對規(guī)則進行以下分類:(1)肯定規(guī)則:若規(guī)則的頻度大于0.5,則認為該條規(guī)則在識別地名中的可信度很大,這一類規(guī)則主要是地名的后詞為特征詞、前詞指示性很強的一類規(guī)則。如規(guī)則:前詞Wi-1=“在”,后詞Wi+1=“Speword”(2)半肯定規(guī)則:此類規(guī)則的頻度值介于0.2~0.5之間,此類規(guī)則主要是后詞或者前詞指示性很強的一類規(guī)則。如規(guī)則:前詞Wi-1=“省會”,后詞Wi+1=“是”(3)不肯定規(guī)則:此類規(guī)則的頻度值小于0.2,此類規(guī)則主要是一些前后詞指示性都不強的規(guī)則。如規(guī)則:前詞Wi-1=“的”,后詞Wi+1=“punc”通過對規(guī)則的量化,可以就不同的規(guī)則所產(chǎn)生的候選地名做不同的處理,既可以防止某些候選地名因其可信度值低而被過濾掉,又可以對不是地名而被識別為地名的候選地名進行有效的過濾。2地名之間的信息編碼本文采用兩級處理方法來識別地名,其中第1級處理主要通過規(guī)則匹配的方法來識別地名,由于訓練語料的有限,地名識別規(guī)則庫中不可能包括所有可能的地名上下文信息;為了補召第1級處理中未能識別出的地名,提高召回率,增加了第2級處理,主要是根據(jù)地名前詞進行補召。2.1以懲罰規(guī)則為識別后地名的接入系數(shù)第1級處理主要用規(guī)則匹配的方法來識別地名,規(guī)則來自地名識別規(guī)則庫,分為肯定規(guī)則、半肯定規(guī)則和不肯定規(guī)則3類。不同類型的規(guī)則產(chǎn)生的候選地名將做不同的后續(xù)處理。由肯定規(guī)則產(chǎn)生的候選地名如果其用字用詞可以是地名的用字用詞,則該候選地名被確認,否則被否認。由半肯定規(guī)則和不肯定規(guī)則產(chǎn)生的候選地名需要計算其構(gòu)詞可信度和接續(xù)可信度,過濾掉可信度低的候選地名。依據(jù)規(guī)則類型的不同,過濾時的閾值也不同。地名構(gòu)詞可信度的計算公式如文獻,這里不再敘述。文獻通過獎勵規(guī)則和懲罰規(guī)則的形式對可信度值進行了調(diào)整,本文在已有的獎懲規(guī)則基礎(chǔ)上,又增加了對于不帶特征詞地名的獎勵和懲罰規(guī)則,依據(jù)規(guī)則類型的不同,獎懲的力度也不同,增加的規(guī)則如獎勵規(guī)則:(1)若候選地名長度小于等于3個漢字長,且地名均由單字詞組成。(2)若候選地名長度大于3個漢字長小于6個漢字長,且均由單字詞組成,且其中有兩個以上單字詞未指定詞性。懲罰規(guī)則:(1)若在候選地名內(nèi)部存在“動詞+名詞”、“形容詞+名詞”等接續(xù)。(2)若候選地名由若干個高頻單字詞組成。如:“到|~家了~|,”。地名的接續(xù)可信度反映候選地名與其上下文的聯(lián)系緊密程度,用互信息來計算地名的接續(xù)可信度。設(shè)切分后的句子序列為S=W1W2W...Wi-1WiWi+1Wi+2...,其中iW為識別后的地名PN,Wi+1為地名的后詞,用iB來表示,Wi-1是地名的前詞,用iF來表示。地名PN與其后詞iB的互信息定義如下:其中p(PN,Bi)是地名PN和后詞iB的二元接續(xù)頻度,p(iB)是后詞Bi的單詞頻度,p(PN)不是某個具體地名的頻度,而是地名作為一類在真實文本中出現(xiàn)的頻度。地名PN與其前詞iF的互信息定義如下:其中p(Fi,PN)是前詞iF和地名PN的二元接續(xù)頻度,p(iF)是前詞iF的單詞頻度,p(PN)與式(2)意義相同。地名的接續(xù)可信度定義如下:2.2計算構(gòu)詞方案在第1級處理中,使用規(guī)則匹配的方法來識別地名,但由于規(guī)則的不全面,有些地名有可能會被漏識別,因此增加了第2級處理來補召第1級處理中未識別出來的地名。第2級識別的地名是其上下文信息沒有在地名識別規(guī)則庫中出現(xiàn),但其前詞在規(guī)則庫中出現(xiàn)了的地名。識別過程從地名的前詞開始尋找地名的后界,識別后的潛在地名通過計算構(gòu)詞可信度和接續(xù)可信度來進一步確認。構(gòu)詞可信度的計算公式如文獻,本文不再敘述。Wi為識別后的地名PN,iW初始切分后的序列是Wi=C1C2C...Ci...Cn,地名接續(xù)可信度定義如下:其中I(PN,iB)定義如式(2)所述。I(Cn,Bi)是候選地名PN在正常切分后的尾詞Cn和候選地名的后詞iB作為正常接續(xù)的互信息,定義如下:第2級處理是比較候選地名和其后詞作為地名接續(xù)的可信度大還是作為正常接續(xù)的可信度大來對候選地名給出判斷的。若二者的差值小于給定的閾值,則該候選地名被否認。2.3切分的詞匯序列和異地名詞典地名識別過程如下:(1)得到輸入文本按常規(guī)切分的單詞序列;(2)根據(jù)地名詞典,對常規(guī)切分的單詞序列進行常見地名的識別;(4)根據(jù)識別出的地名,建立起含有地名標志的切分序列。3應(yīng)用語料進行識別的測試本文從2000年《人民日報》光盤版中抽取了含有6316個地名的4229個句子作為開式測試集,對系統(tǒng)只調(diào)用第1級處理時的識別情況,以及增加了第2級處理時的識別情況進行了測試。系統(tǒng)調(diào)用一級處理時的識別結(jié)果如表2所示。系統(tǒng)調(diào)用第1級處理和第2級處理后的識別結(jié)果如表3。從表2、表3可知,增加第2級處理后,雖地名識別的精確率有所下降,但召回率提高明顯,這是因為第1級處理中識別的地名主要都是前詞、后詞同現(xiàn)概率高的地名,調(diào)用第2級處理能補召第1級處理未識別的地名,提高了召回率,但同時也會召回一些錯誤的地名,其中包括對切分碎片的錯誤合并以及補召的地名中有邊界錯誤等,因此精確率下降了。為考察文獻和本模型(識別對象為帶特征詞的地名和不帶特征詞的地名)在識別效果上的差異,又用上述測試語料對文獻的識別系統(tǒng)進行了測試。測試分兩種:(1)把帶特征詞地名和不帶特征詞地名都作為該系統(tǒng)識別的對象;(2)只把帶特征詞地名作為該系統(tǒng)的識別對象,結(jié)果如表4所示。從表4可以看到,若考慮識別不帶特征詞的地名,本文和文獻比較,無論是召回率還是精確率都有明顯提高。這主要是因為糾正了文獻識別錯誤的部分地名,召回率得到提高;此
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人教版部編歷史七年級上冊《第19課 北魏政治和北方民族大交融》聽課評課記錄
- 湘教版數(shù)學八年級上冊1.5《分式方程的應(yīng)用》聽評課記錄2
- 八年級數(shù)學下冊23.3事件的概率1聽評課記錄滬教版五四制
- 人教版地理八年級下冊6.3《世界上最大的黃土堆積區(qū)-黃土高原》聽課評課記錄1
- 蘇科版數(shù)學八年級上冊聽評課記錄《5-1物體位置的確定》
- 用功合同范本(2篇)
- 環(huán)境友好原材料采購合同(2篇)
- 人教版五年級下冊數(shù)學《第2單元因數(shù)與倍數(shù) 第1課時 因數(shù)和倍數(shù)(1)》聽評課記錄
- 聽評課記錄2年級
- 統(tǒng)編教材部編人教版道德與法治九年級下冊《3.2 與世界深度互動》聽課評課記錄
- 二零二五年度大型自動化設(shè)備買賣合同模板2篇
- 2024版金礦居間合同協(xié)議書
- 江西省部分學校2024-2025學年高三上學期1月期末英語試題(含解析無聽力音頻有聽力原文)
- GA/T 2145-2024法庭科學涉火案件物證檢驗實驗室建設(shè)技術(shù)規(guī)范
- 2025內(nèi)蒙古匯能煤化工限公司招聘300人高頻重點提升(共500題)附帶答案詳解
- 2025年中國融通資產(chǎn)管理集團限公司春季招聘(511人)高頻重點提升(共500題)附帶答案詳解
- 寵物護理行業(yè)客戶回訪制度構(gòu)建
- 電廠檢修管理
- 《SPIN銷售法課件》課件
- 機動車屬性鑒定申請書
- 2024年中考語文試題分類匯編:非連續(xù)性文本閱讀(學生版)
評論
0/150
提交評論