基于最大熵模型的中文名實體識別的研究_第1頁
基于最大熵模型的中文名實體識別的研究_第2頁
基于最大熵模型的中文名實體識別的研究_第3頁
基于最大熵模型的中文名實體識別的研究_第4頁
基于最大熵模型的中文名實體識別的研究_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于最大熵模型的中文名實體識別的研究趙 健最大熵模型原理思想:系統(tǒng)在滿足約束的條件下,熵會趨向于最大,即系統(tǒng)趨向于更均勻。體現(xiàn)了“知之為知之,不知為不知”的思想數(shù)學(xué)描述:最大熵模型原理思想:系統(tǒng)在滿足約束的條件下,熵會趨向于最大,即系統(tǒng)趨向于更均勻。體現(xiàn)了“知之為知之,不知為不知”的思想數(shù)學(xué)描述:bajjpbajjpjpjpbyxaPpbafbapfEbafabpapfEkjfEfEpPbapabpappHpHp,1 ,0,),(),(),()|()(1,|),(log)|()()()(maxarg4. 最大熵的使用:在進(jìn)行有關(guān)最大熵的實驗時,唯一要告知模型的是:哪些信息可以使用。至于如何使用

2、這些信息,最大熵模型會自動的處置。 5. 模型的訓(xùn)練:GIS 算法GIS算法要求所有的特征之和等于一個常數(shù),即然后進(jìn)行迭代CjpjpnjnjjfEfEn1)()1()0()(1kjjCbaf1),(其中說明:最大熵模型中的特征f( a, b )大都是采用二值函數(shù)。而且一般來說,并不是上下文a 和類別b直接進(jìn)行對應(yīng),而是a的函數(shù)和b的對應(yīng),所以可以寫為:f( g(a), b).bajnjpbafabpapfEn,)(),()|()()(ljbafnjnjbZabp1),()()()()(1)|(中文名實體識別v任務(wù):對文檔中的人名(name)、地名(place)、機構(gòu)名(org)、時間(time

3、)、日期(date)、貨幣(money)、數(shù)量(number)、比例(rate)進(jìn)行識別,他可以作為分詞的后處理過程;vNE recognition 是一個有指導(dǎo)的分類過程,即類別集合是確定的。本系統(tǒng)采用的自己定義的標(biāo)記集,共有33種類別v采用有導(dǎo)師的學(xué)習(xí)方法,訓(xùn)練集是一些帶有標(biāo)記的漢語塊,例如:從 nt 國家專利局 o 聘請 nt 的 nt 科技 nt 副 nt 縣長 nt 李 nf 芝 nc 生 ne 開 始 訓(xùn) 練o r 測 試 R e a d sa m p le s 由 樣 本 獲 取 特 征 集 合 G e tF e a tu re s() te st 篩 選 特 征 S e le

4、c tF e a tu re s() 收 集 系 統(tǒng) 中 所 有 的 預(yù) 測 信 息 C o lle c tP re d ic a te () 把 樣 本 拆 分 為 事 件 sa m p le 2 e v e n t() 統(tǒng) 計 全 體 事 件 的 預(yù) 測 信 息 S t a t T h e P r e d i c a t e ( ) n o y e s 是 否 達(dá) 到 系 統(tǒng) 精 度 或 到 達(dá) 迭 代 次 數(shù) 退 出 G IS () 裝 載 模 型 庫 全 局 o r 局 部 最 優(yōu) 計 算 概 率 分 布 V ite rb i 搜 索 輸 出 結(jié) 果 結(jié) 束 模塊功能介紹v訓(xùn)練模型1.

5、特征模板Predication function g(x)Class labeltypevalueCurrent wordwD cCPreceding wordwDcCSucceeding wordwDcCPreceding class labelcCcCCurrent word Be Numberb0,1cCCurrent word Be Chinese surnameb0,1cCBe contain Special symbolb0,1cCSucceeding word Be Numberb0,1cC2.上下文窗口3.由樣本收集特征,并且進(jìn)行特征選擇:1.簡單特征選擇;2.根據(jù)預(yù)測能力或者

6、信息熵進(jìn)行特征選擇,得到特征如下0杜082.07944001。0543.98898004102805.63479004.對第二種特征選擇的說明:如上所知,特征是由兩部分組成的:上下文函數(shù)預(yù)測函數(shù)g(x) 和 類別標(biāo)記c組成的。對于那些二值類型的預(yù)測函數(shù),當(dāng)g(x)=1時,對某些類別的預(yù)測能力很強;當(dāng)g(x)=0時,預(yù)測能力就很弱,如果把這種類型的特征加到系統(tǒng)當(dāng)中,就違背了最大熵的基本原理:在外界信息不確定的條件下,系統(tǒng)應(yīng)該是均勻分布的。Wi-1 Wi Wi+1 ti-1 ti5.特征空間的大?。?DC+CC+42C 6.收集所有的預(yù)測信息,其數(shù)據(jù)結(jié)構(gòu)如下:typedef struct s_pr

7、edicateint PredType;string PredData;int outcome33; predicate;7.分拆樣本為事件:事件的數(shù)據(jù)結(jié)構(gòu)如下:typedef struct s_eventint count;int outcome;vector env_pred; event;例如:。nt 杜 nf 玉 nc 林 ne,對訓(xùn)練樣本:杜 nf ,分拆后的事件為:0 1 0 杜 2 玉 4 1v統(tǒng)計每個事件中特征類型的個數(shù),取最大的特征數(shù)為GIS算法中的約束每個事件的特征類型的個數(shù)為常數(shù)(注意:是類別的個數(shù),而不是特征的個數(shù))v迭代求解模型參數(shù) for( 從0到100 )na =

8、 Gis();delta = na-b;b = na;if( delta=0 ) 離開 else 繼續(xù)v 迭代訓(xùn)練后得到的特征參數(shù),即特征權(quán)值,如下2 杜 32 8 2.07944 0.8304480 杜 0 8 2.07944 1.939464 1 0 280 5.63479 1.569545 1 20 139 4.93447 1.85064v模型測試可以使用viterbi算法求全局最優(yōu)解,或者求局部最優(yōu)解可以創(chuàng)新之處v 特征選擇:對每一個不同的類型,如何求得最優(yōu)的一個閥值;v 正向和逆向相結(jié)合的模型訓(xùn)練和測試,以及如何綜合這兩種結(jié)果,使其最終結(jié)果達(dá)到最優(yōu);v 關(guān)注訓(xùn)練集對模型的影響,訓(xùn)練集的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論