改進(jìn)的信源-信道模型在中文分詞中的應(yīng)用

上傳人：7*** IP屬地：湖北上傳時(shí)間：2022-03-05 格式：DOC 頁數(shù)：8 大小：68KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、改進(jìn)的信源信道模型在中文分詞中的應(yīng)用Jianfeng Gao, Mu Li and Chang-Ning Huang微軟亞洲研究院概要這篇論文介紹一種新的信道模型在中文分詞中的應(yīng)用，以幫助理解中文句子的大意。中文詞語被定義為四種類型（就分詞系統(tǒng)而言）：在詞庫中的語言，形態(tài)起源的詞，要素詞，名稱詞。我們的系統(tǒng)提供統(tǒng)一的方法處理這四種基本的類型中文分詞，（1）詞庫詞語處理（2）語形態(tài)分析（3）要素詞語處理（4）名稱實(shí)體詞語處理。這套系統(tǒng)的效果，我們用一個(gè)有手動(dòng)測試集，還對(duì)比其他的測試系統(tǒng)，（考慮到各種詞語定義不同的中文分詞系統(tǒng)）。1，介紹中文分詞是進(jìn)行好多中文處理操作的第一步，有好多

2、的中文處理任務(wù)都是從這開始，所以，其吸引了好多的關(guān)注。這一任務(wù)之所以這么有挑戰(zhàn)性，皆因中文中沒有標(biāo)準(zhǔn)的分詞詞語類型定義。在些論文中，我們定義中文的詞語類型有四種，在詞庫中詞語，語義形態(tài)詞，要素詞，名稱詞(NER)。下面，我們將介紹一種解決方案以處理這四種類型的詞語。中文的書寫是沒有邊界的。因此，不像英語，可能不值得分開中文分詞解決方案和其他三種的解決方案。我們更喜歡可以理想地設(shè)計(jì)一種統(tǒng)一的方法來處理四個(gè)問題。這一統(tǒng)一的方法用在我們的系統(tǒng)中就是基于改進(jìn)的信源信道模型來處理中文分詞，其中有兩個(gè)部件：一個(gè)信源模型和一個(gè)通信模型。信源模型用于評(píng)估一個(gè)詞序生成的可能性，這里，一個(gè)詞語屬于一個(gè)一種詞語的

3、類型。而對(duì)于每一種的詞語類型，信道模型根據(jù)其類型評(píng)估字符串的生成意思。因此，就會(huì)有多個(gè)信道模型。我們會(huì)在本文中，展于我們的模型，這些模型都基于統(tǒng)計(jì)學(xué)的結(jié)構(gòu)是標(biāo)準(zhǔn)的統(tǒng)計(jì)模型。我們?cè)u(píng)價(jià)我們的系統(tǒng)的表現(xiàn)，用到了其它的測試集。同樣會(huì)對(duì)比其它不同類型的分詞系統(tǒng)，因?yàn)楦鱾€(gè)分詞系統(tǒng)的詞語類型的定義是不同的。在本文的其它部分：第2部分討論分詞的準(zhǔn)備工作，第3部分討論定義中文詞語的細(xì)節(jié)，第4到6部分具體地細(xì)節(jié)描述了改進(jìn)的信源信道模型，第8節(jié)描述的系統(tǒng)的評(píng)價(jià)結(jié)果。第9節(jié)結(jié)論。 2，前期工作歷史上有好多的中文分詞方法被提出，回顧一下有(Wu and Tseng, 1993; Sproat and S

4、hih, 2001)，這些方法大概可以分為基于詞庫和基于統(tǒng)計(jì)學(xué)兩種方向，但大部分的同類的分詞系統(tǒng)都是基于這兩種方法的混合。在基于詞庫的方法中，如cheng et al.,1999),給出輸入的字符串，只有在庫的詞語能被鑒別。這種方法的準(zhǔn)確性只是基于一個(gè)完善和大容量的詞庫，但這樣是不能說是完全成功的，因?yàn)樵~語的發(fā)展太快了，變化也太快了。因此，除了詞庫外，好多系統(tǒng)包括了特別的部件來處理未知詞匯的鑒別工作。實(shí)際上，統(tǒng)計(jì)學(xué)的方法已經(jīng)被廣泛地應(yīng)用在這些部分，因?yàn)榻y(tǒng)計(jì)學(xué)的方法是基于似然或基于得分處理來處理詞語的分割。但統(tǒng)計(jì)學(xué)的方法也有三大缺點(diǎn)的，1）一些方法（如lin et al.,1993)定義鑒別不

5、知道的詞語但沒有鑒別他們的類型。例如：可以定義一個(gè)字符是一個(gè)單位實(shí)體，但沒有定義這個(gè)實(shí)體是不是一個(gè)名稱，這就不是很有用或很足夠了。2）這些方法的似然模型（如Teahan et al.,2000)是由分割的文本集訓(xùn)練的，但不一定是有用的。3）鑒別不知道的詞語后，結(jié)果不合語言的邏輯（如Dai et al.,1999)，而需要額外的分析處理工作。我們相信，不知道詞語的鑒別應(yīng)該在分詞處理中進(jìn)行，而不應(yīng)該當(dāng)成一個(gè)分開的問題。這兩個(gè)問題應(yīng)該在統(tǒng)一的方法里面得到很好的解決。一個(gè)解決的方法就是Sproat et al.(1996),是基于權(quán)值的量化數(shù)據(jù)。我們的方法是由同樣的想法推動(dòng)的。我們看來，改進(jìn)的信源信

6、道模型，提供了一種靈活的方法來揉合詞庫和統(tǒng)計(jì)信息，各種不同的未在Sporat的系統(tǒng)中討論的未知詞語都在我們的系統(tǒng)中得到處理。 3，中文詞語中文詞語沒有標(biāo)準(zhǔn)的定義，在語言學(xué)中可能定義從多個(gè)方面定義了詞語（如Packard,2000),但沒一種定義和其它的定義是可以相同的?？上驳氖?，這根本不重要的，因?yàn)榇蟊姷淖顝V泛的定義就應(yīng)該是分詞的應(yīng)用和處理時(shí)的定義。我們定義中文詞語有四種類型，（1）詞庫中的詞（2）來源于語形態(tài)學(xué)的詞（3）要素詞（4）名稱實(shí)體詞，因?yàn)檫@四種詞語在中文處理中有不同的功能，在我們的系統(tǒng)中會(huì)經(jīng)過再加工和處理。比如，一些似是而非的語句中的詞語分割（圖一a所示），圖一b是我們

7、的系統(tǒng)輸出的結(jié)果，不同的詞由不同的途徑進(jìn)行。圖1圖1：（a)一個(gè)中文的句子，斜線代表詞語的分割（b)我們的系統(tǒng)的一種輸出，中括號(hào)表示了詞語邊界，暗示一個(gè)語形態(tài)的邊界。l 對(duì)于在庫詞語，詞語邊界被檢測出來l 對(duì)于語形態(tài)詞，他們的形態(tài)模式被檢測出來了，如朋友們'friend+s'就是通過名詞的附加法形成的，把們字加到朋友后。而高高興興就是高興的另一種表示，是MR_AABB的模式。l 對(duì)于要素詞，他們的形式和標(biāo)準(zhǔn)化的形式就會(huì)被檢測到，如12：30，是十二點(diǎn)倉三十分的一種標(biāo)準(zhǔn)的形式l 對(duì)于名稱實(shí)體詞，同樣也被檢測到了，如李俊生'Li Junsheng'是一個(gè)人名(PN代

8、表人名）在我們的系統(tǒng)中，我們中統(tǒng)一的解決方案來檢測和處理以上四種類型的詞，這些處理工作是基于下面討論的改進(jìn)的信源信道模型。4，改進(jìn)的信源信道模型設(shè)S是一個(gè)中文句子，是一個(gè)字符串。各種可能的詞語分割為W，我們就應(yīng)該選擇最可能的W*，其概率也最高P(W|S):W*=argmax(w)P(W|S)，根據(jù)貝葉斯決定規(guī)則，去除不變的分母，我們可以這樣表示最大的可能性：W*=arg(w)maxP(W)P(S|W).(1)根據(jù)第3部分的詞語定義，我們這樣定義詞語集合C：圖2（1）每個(gè)詞庫詞語被定義在一個(gè)集合，（2）每個(gè)詞形態(tài)詞被定義在一個(gè)集合（3）每個(gè)要素詞被定義在一個(gè)集合，例如：所有的時(shí)間表達(dá)被定義在T

9、IME集合里，（4）每種名稱實(shí)體被定義在一個(gè)集合，例如：所有的人名被定義在一個(gè)PN集合里。因此，我們轉(zhuǎn)變這些詞語分割到一個(gè)詞語集合序列C，可以Eq1寫成C*argmax（c) P（C)P(S|C).(2)Eq2是信源信道模式處理中國文字分割的基本形式,模型假設(shè)有如下一個(gè)中國的句子: 首先,按概率分布P(C)，一個(gè)人選擇了一系列的輸出(即C類別);再者，按概率分布P(SC)選出對(duì)每一句的字。信源信道模式可以用另一種方式解釋如下:P(C)是隨機(jī)模型用來估計(jì)字類別的概率. 它表明,在一定的背景下,類別發(fā)生的可能性. 例如,人的名字應(yīng)用放在“教授”這個(gè)稱號(hào)的前面. 如此 P(C)被當(dāng)作是一種背景因

10、素影響后面的字符串. P(SC)則是計(jì)算字符串在一個(gè)字詞類別中的可能性. 例如,“李俊生”字串更可能是一個(gè)人名，而“里生俊”'LiJunsheng'不是一個(gè)人的名字，因?yàn)樵谥袊男帐蟻碚f，“李”是一種常見姓氏，但“里”就不是常見的. 所以P(SC)指示的更多是后面的類別。所以在我們的系統(tǒng)中是這樣設(shè)計(jì)的，信源道道模式包含一個(gè)背景的模式，和多個(gè)不同的字詞類別集，每個(gè)類別集有好多不相同的詞語。如圖2所示。雖然Eq. 2顯示的概率模型類別和背景模型可以通過大量簡單合并來實(shí)現(xiàn)，但是實(shí)際上，加權(quán)后會(huì)有更大的成效。這里面有兩個(gè)原因. 首先,由于訓(xùn)練集太小，能為我們提供最佳假設(shè)不實(shí)在，一

11、些類別的鑒別起來很吃力. 根據(jù)Eq. 2，概率模型結(jié)合的背景，估計(jì)有不良類別的概率，使背景模式變得沒有份量. 第二,如圖2級(jí)不同的類別由不同的方式形成的。(如姓名實(shí)體模型 Corpora培訓(xùn)模式、factoid模型，利用語言學(xué)知識(shí)). 因此，類別的數(shù)量的概率，在不同的動(dòng)態(tài)范圍里有好多不同。有一個(gè)折衷的方法是，為了增加幾個(gè)數(shù)量的類別模式CW,每一個(gè)字詞類別,調(diào)整類別模式的概率P(SC)到P(SC)CW. 我們的實(shí)驗(yàn)中，這種模式是如在一個(gè)發(fā)展中的數(shù)據(jù)集中，可以大大優(yōu)化字詞分割. 由于信源信道模式的作用，我們的分詞系統(tǒng)處理里分兩大部分。第一,如輸入的字符為S,所有的候選字就會(huì)產(chǎn)生(儲(chǔ)存在格子里)

12、. 每個(gè)候選字在其字詞類別的概率和字詞類別的概率P(S'C)表示出在S'的任何一個(gè)字串的總概率，二、根據(jù)Eq. (2)，使用字母搜索(格子)找出最有可能的分割(即字詞類別C*). 5，類別模式概率給出一個(gè)輸入的字串S，模型2 中的各個(gè)類別模式，都同時(shí)被應(yīng)用到，而生產(chǎn)候選字詞，使其概率是適當(dāng)被指派到相應(yīng)的類別模型: l 詞庫中的詞，好多的子串S'S，我們假設(shè)P(S'|C)=1,并設(shè)這個(gè)詞如不是詞庫中詞，P（S'|C)=0l 語形態(tài)語，與詞庫中的詞很相近，但一個(gè)語形態(tài)詞庫是用來代替詞庫中的詞的。（詳見5.1節(jié)）l 要素詞語，對(duì)于每一種的要素詞，

13、我們都定義為集合G，表現(xiàn)為FSTs。對(duì)于所有的S'S,如果其可以用G來表達(dá)，我們假設(shè)P(S'|FT)=1,并定義S'為一個(gè)要素候選對(duì)象，就象圖一所示，“十二點(diǎn)三十分”是一個(gè)要素候選對(duì)象，表示為P（十二點(diǎn)三十分TIME）1，并且十二和三十都是要素候選對(duì)象，因?yàn)镻(十二NUM）P（三十NUM）1l 名稱實(shí)體，對(duì)于每一種類型的名字，我們用一個(gè)語法和統(tǒng)計(jì)的模式來產(chǎn)生候選集，如（5.2節(jié)所示） 5.1語形態(tài)上的字詞在我們的系統(tǒng)的，對(duì)付語形態(tài)詞具體分為5種的語形態(tài)模式，（1）附加，如朋友們（friend -;plural)'friends'(2)疊加，高興

14、'happy'->高高興興'happily'(3)合并，上班'on duty'+下班'off duty'->上下班'on-off duty'(4)語氣式的詞走'walk'+出去'out'->走出去'walk out'和（5）分隔（一種表達(dá)方式，一個(gè)詞被分割開來，但語義面表示的意思沒變。）吃了飯'alread eat'，真實(shí)的意思是兩個(gè)詞吃飯,'eat'已經(jīng)被'了'分隔開'already'

15、;。真是好難把英語的技術(shù)上的事表達(dá)為中文（語言形態(tài)不一樣），有兩個(gè)重要原因：1）中文的語形態(tài)規(guī)則不是和英文的一樣。如，英文中，要是復(fù)數(shù)形式的話可以加s,但中文中好少有對(duì)應(yīng)的規(guī)則，“朋友”的復(fù)數(shù)還可以加“們”，但南瓜的復(fù)數(shù)就不能這樣加了。2）中文對(duì)語形態(tài)規(guī)則的分析需要操作，這種操作如復(fù)制，疊加，分隔等，不是國際上所通常用的。我們的處理方法是擴(kuò)展詞庫?？梢院唵蔚刈鍪占墓ぞ?，收集各種的語形態(tài)詞語，分為上述的5種形式，然后綜合起來，稱之為語形態(tài)詞典。有三部工作是要做的，（1）候選詞的產(chǎn)生，是用一個(gè)語形態(tài)詞的集合和一個(gè)大的訓(xùn)練集實(shí)現(xiàn)，如規(guī)則名詞們，復(fù)數(shù)時(shí)一般有候選詞是這樣的（名稱們），（2）統(tǒng)計(jì)過

16、濾，對(duì)于每一個(gè)的候選詞，我們先獲得一系統(tǒng)的統(tǒng)計(jì)數(shù)據(jù)如出現(xiàn)的頻繁度，共有的信息，大訓(xùn)練集中的背景依賴。我們用一個(gè)信息的獲得方法（在chien.1997;gao et al.,2002中有描述）去得到一個(gè)語形態(tài)的候選詞，去除“不好”的候選集。在這個(gè)方法背后是一個(gè)穩(wěn)定的可靠的大的訓(xùn)練集。這就是說，詞語中的組成是十分相關(guān)的，同外部的訓(xùn)練序列有相當(dāng)?shù)年P(guān)系。（3）語言學(xué)上的選擇。我們會(huì)在最后手動(dòng)地檢查這些候選的詞語，形成一個(gè)語形態(tài)詞庫，語形態(tài)的辨識(shí)就靠這個(gè)語形態(tài)詞庫了。 5.2名稱實(shí)體我們認(rèn)為有4種的名稱實(shí)體詞語：人名，地名，組織名稱和外國翻譯的名稱。因?yàn)槊Q實(shí)體可以被一種或多種的形式來處理，我

17、們的系統(tǒng)處理時(shí)限制一種有效的候選集，給出輸入的字串，有兩部處理：第一，對(duì)于每一種類型，我們用一種約束的規(guī)則（是語言學(xué)上的規(guī)定和FSTs來代表）去產(chǎn)生一個(gè)最有可能的候選集。第二，每一個(gè)候選集被指派一個(gè)可能的類別模式，這些模式的定義都是代表了他們最相近的名稱實(shí)體，用了最大相似的原則，也同時(shí)使用了一些平滑的方法。下面，我們會(huì)簡要地說明一下這些約束和類別模式中國人的名稱有兩種的約束規(guī)則（1）名稱規(guī)則，我們假設(shè)一個(gè)中文名包含姓和名，形態(tài)就是姓名，兩個(gè)詞都是一個(gè)或兩個(gè)字符長（2）姓氏表，我們只認(rèn)為在我們系統(tǒng)中的姓氏表的姓的字才是一個(gè)姓。（我們的系統(tǒng)只有373個(gè)姓）給出一個(gè)姓名的候選詞，就是一個(gè)字符S

18、9;,類型概率就是P(S'|PN)，計(jì)算方式如下：（1）姓氏的字的可能性為P(Sf|F);（2）名的字的概率是P(Sg|G)或P(Sg1|G1)，（3）名的第二個(gè)字是P（Sg2Sg1，G2），例如：字符串“李俊生”是一個(gè)人名，如下面的公司來鑒別出來的。P(李俊生PN）P（李F）P（俊G1）P（生俊，G2）.地方名和人名是不同的，沒什么規(guī)則來適應(yīng)地方名（LNs),我們假設(shè)候選詞是S'(少于10個(gè)字符），如果下面的條件是滿足的話（1）S'是一個(gè)地名列表中的實(shí)體（2）S'以標(biāo)志性的詞語結(jié)束，如市'city',P（S'|LN)就是被認(rèn)為是地名的概

19、率?，F(xiàn)在分析一個(gè)字符串“烏蘇里江”'Wusuli river'.這就是一個(gè)名稱的候選詞，因?yàn)橛袠?biāo)志性的詞語“江”，而這個(gè)詞是不是地名是通過這樣的概率來判斷的。P(烏蘇里江LN）P（烏</LN>）P（蘇|烏)P(里蘇）P（江里）P（</LN>|江）組織名組織名（Ons)比個(gè)人名稱(PNs)和地方名(LNs)要難判斷。如組織，中國國際航空公司包含有地方名中國。像地方名的定義，組織名候選詞是一個(gè)少于15個(gè)字符S'，如果它包含有一個(gè)在組織列表中的標(biāo)志性的詞，如公司，它就會(huì)被認(rèn)定為一個(gè)組織名，我們介紹一下詞語類別的分割S',C,組織的類型模式P(

22、N)用一種模式來鑒別。注意到，我們的系統(tǒng)中，一個(gè)翻譯名可以是一個(gè)人名，一個(gè)地方名，一個(gè)組織名，只是取決于詞語的背景。所以給定一個(gè)FN的候選，三個(gè)名稱類別都有可能，其類別的概率為P(S'|PN)=P(S'|LN)=P(S|ON)=P(S|FN),換句話說，我們可以等到充分考慮背景因素后才決定詞語的類型。6，背景因素的評(píng)估本節(jié)描述的方法確定Eq2類別模式概率P(C)(即概率). 理想地說,給出一個(gè)有注釋的集合,每一句被分割的詞語都被鑒別到其詞語類別中,其詞語類別的概率會(huì)被用MLE等方法計(jì)算,這些方法會(huì)和一些背景方法(Katz,1987)來處理數(shù)據(jù)稀疏問題. 不幸的是,建設(shè)這種數(shù)據(jù)

23、集的費(fèi)用是十分昂貴的. 我們的解決的辦法是步步演進(jìn)的加深方法在Gao et al. (2002). 它由三個(gè)步驟組成:(1)首先,我們用貪婪文字方法去分割,并取得了初步背景因素，都是基于初步的訓(xùn)練集; (二)用已有的模式重新獲得數(shù)據(jù)集; (3)用重新獲得的數(shù)據(jù)集獲得背景模型. 重復(fù)步驟2和3直到系統(tǒng)的功能融為一體. 上述做法,背景模式的質(zhì)量在很大程度上取決于模型的數(shù)據(jù)訓(xùn)練集的質(zhì)量,由于兩個(gè)問題而不能完全滿足的. 一、貪婪文字方法不能分割之處理, 其實(shí),這只能解決一部分. 第二,不少要素詞語和命名實(shí)體不能確定，用貪婪文字方法也基于詞庫. 在處理第一個(gè)問題方面，我們?cè)诘谝徊降某跏挤指钣?xùn)練數(shù)據(jù)中，用

24、兩個(gè)方法來解決詞語分割的不明確性。詞語分割的不明確性，可以分為兩類，失迭的不明確和混合的不明確，如一個(gè)字符串ABC，可以根據(jù)不同的背景分割為AB/C或A/BC，ABC就只做是一個(gè)交迭的不明確（OAS），如果一個(gè)字符串AB，可以分為兩個(gè)字符A/B，或一個(gè)詞依靠于不同的背景，AB就叫做混全的不明確（CAS），在解決OA方面，我們定義所有的OASs在一個(gè)訓(xùn)練數(shù)據(jù)，將它與一個(gè)<OAS>交換，這樣做，我們可能去除去除一部分的訓(xùn)練數(shù)據(jù)而包含OA的錯(cuò)誤。在解決CA方面，我們選時(shí)常發(fā)生的兩字符詞語，如才能和才/能，對(duì)于每個(gè)CAS，我們用CAS手動(dòng)分割形成一個(gè)二進(jìn)制的分類器，（基于空間矢量），這樣

25、，每一個(gè)CAS的發(fā)生都在初始分割訓(xùn)練數(shù)據(jù)中，那一個(gè)相應(yīng)的分類器用來決定CAS是不是應(yīng)有的分割。對(duì)于每二個(gè)問題，我們可以簡單地用有限機(jī)械描述方法（如第5部分，發(fā)展一種處理機(jī)器問題的有效的約束來處理不明確問題）去決定初始分割訓(xùn)練集中的要素詞，我們的NER方法是這樣的：1，手動(dòng)注釋在小類里的名稱集2，在種子集合中取得背景的模式，通過把新的詞語添加到種子模式初始注釋訓(xùn)練集，我們因此促進(jìn)了背景模式。最后，我們用改進(jìn)的背景模式用在第二和三步，我們的實(shí)驗(yàn)說明相關(guān)的小的子集（如1千萬個(gè)字符，用了4個(gè)人大約三個(gè)星期去注釋NE）是足夠大的，足以應(yīng)付數(shù)據(jù)背景的初始化。 7，評(píng)價(jià)進(jìn)行可靠的評(píng)估,人工注明

26、，制定了一套測試集. 這一測試集約50萬漢字，已在校對(duì)和綜合各因素如范圍、形式、時(shí)間. 在我們的注釋訓(xùn)練集前,必須回答幾個(gè)問題:(1)分割靠特別的詞庫? (二)要假設(shè)一句話的正確的分割? (3)有什么評(píng)價(jià)標(biāo)準(zhǔn)? (四)如何進(jìn)行公正比較不同分詞系統(tǒng)? 就像前面所述，詞語在真實(shí)的應(yīng)用中來定義詞是更有意義的。我們的系統(tǒng)中，一個(gè)詞庫（包含98，668個(gè)詞語和59，285個(gè)語形態(tài)詞）可以組成多個(gè)應(yīng)用，正如亞洲語言的輸入和網(wǎng)頁搜索。因此，我們注釋訓(xùn)練集是基于詞庫的。我們處理時(shí)是這樣的，盡量根據(jù)詞庫分割詞語。一個(gè)句子的分割詞語有好多的形式，我們希望分割可以包容最少的詞語。注釋訓(xùn)練集包含247，039條目（2

27、05，162個(gè)詞庫/語形態(tài)詞庫詞語，4，347PNs,5,311LNs, 3,850 ONs, 和 6,630 要素詞, 等.) 我們系統(tǒng)的評(píng)估是通過precision-recall精確度查全率(P/R)pairs,F-measures等方法要處理每個(gè)詞語分類。因?yàn)樽⑨尩挠?xùn)練集是基于一個(gè)特別的詞庫，如果和別的系統(tǒng)用到了不同的詞庫，那一些評(píng)價(jià)的手段是無意義的。因此在對(duì)比不同的系統(tǒng)時(shí)，我們關(guān)注NER的P/R和OAS的錯(cuò)誤，因?yàn)檫@些手段是獨(dú)立于詞庫的，通常有非常清楚的答復(fù)。背景模式的訓(xùn)練集包含大約有八千萬的中文字符，它們來自不同的地方如報(bào)紙，小說，雜志等。第5部分已經(jīng)有訓(xùn)練集的描述。 7.1系統(tǒng)結(jié)果我們系統(tǒng)的設(shè)計(jì)是這樣的，各個(gè)部分如要素詞語發(fā)現(xiàn)器和NER都可以分拆的，所以我們可以評(píng)估各個(gè)部分的作用和對(duì)整個(gè)系統(tǒng)的貢獻(xiàn)。結(jié)果已經(jīng)在表格1中展示出來。表格一對(duì)比可知，用了貪婪文字分割方法的在第一行，用我們系統(tǒng)的BaseLine方法在第二行，這里只用到了詞庫，有意思的是第一行和第二行用詞典方法已經(jīng)能達(dá)到一個(gè)很好的查全率，但精確度就差一點(diǎn)了，因?yàn)樗鼈兌疾荒荑b別不在詞庫中的詞語，如要素詞和名稱詞。我們又發(fā)現(xiàn)，即使使用同樣的詞庫，我們的方法是基于改進(jìn)的信源信道模型勝過貪婪算法（有一個(gè)小小的，但統(tǒng)計(jì)上意思重大的數(shù)據(jù)不同），因?yàn)楸尘澳Ｊ降膽?yīng)用使貪婪算法更

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

改進(jìn)的信源-信道模型在中文分詞中的應(yīng)用

文檔簡介

溫馨提示

最新文檔

評(píng)論

改進(jìn)的信源-信道模型在中文分詞中的應(yīng)用

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔