




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、改進(jìn)的信源信道模型在中文分詞中的應(yīng)用Jianfeng Gao, Mu Li and Chang-Ning Huang微軟亞洲研究院 概要這篇論文介紹一種新的信道模型在中文分詞中的應(yīng)用,以幫助理解中文句子的大意。中文詞語被定義為四種類型(就分詞系統(tǒng)而言):在詞庫中的語言,形態(tài)起源的詞,要素詞,名稱詞。我們的系統(tǒng)提供統(tǒng)一的方法處理這四種基本的類型中文分詞,(1)詞庫詞語處理(2)語形態(tài)分析(3)要素詞語處理(4)名稱實(shí)體詞語處理。這套系統(tǒng)的效果,我們用一個(gè)有手動(dòng)測試集,還對(duì)比其他的測試系統(tǒng),(考慮到各種詞語定義不同的中文分詞系統(tǒng))。1, 介紹中文分詞是進(jìn)行好多中文處理操作的第一步,有好多
2、的中文處理任務(wù)都是從這開始,所以,其吸引了好多的關(guān)注。這一任務(wù)之所以這么有挑戰(zhàn)性,皆因中文中沒有標(biāo)準(zhǔn)的分詞詞語類型定義。在些論文中,我們定義中文的詞語類型有四種,在詞庫中詞語,語義形態(tài)詞,要素詞,名稱詞(NER)。下面,我們將介紹一種解決方案以處理這四種類型的詞語。 中文的書寫是沒有邊界的。因此,不像英語,可能不值得分開中文分詞解決方案和其他三種的解決方案。我們更喜歡可以理想地設(shè)計(jì)一種統(tǒng)一的方法來處理四個(gè)問題。這一統(tǒng)一的方法用在我們的系統(tǒng)中就是基于改進(jìn)的信源信道模型來處理中文分詞,其中有兩個(gè)部件:一個(gè)信源模型和一個(gè)通信模型。信源模型用于評(píng)估一個(gè)詞序生成的可能性,這里,一個(gè)詞語屬于一個(gè)一種詞語的
3、類型。而對(duì)于每一種的詞語類型,信道模型根據(jù)其類型評(píng)估字符串的生成意思。因此,就會(huì)有多個(gè)信道模型。我們會(huì)在本文中,展于我們的模型,這些模型都基于統(tǒng)計(jì)學(xué)的結(jié)構(gòu)是標(biāo)準(zhǔn)的統(tǒng)計(jì)模型。 我們?cè)u(píng)價(jià)我們的系統(tǒng)的表現(xiàn),用到了其它的測試集。同樣會(huì)對(duì)比其它不同類型的分詞系統(tǒng),因?yàn)楦鱾€(gè)分詞系統(tǒng)的詞語類型的定義是不同的。 在本文的其它部分:第2部分討論分詞的準(zhǔn)備工作,第3部分討論定義中文詞語的細(xì)節(jié),第4到6部分具體地細(xì)節(jié)描述了改進(jìn)的信源信道模型,第8節(jié)描述的系統(tǒng)的評(píng)價(jià)結(jié)果。第9節(jié)結(jié)論。 2, 前期工作歷史上有好多的中文分詞方法被提出,回顧一下有(Wu and Tseng, 1993; Sproat and S
4、hih, 2001),這些方法大概可以分為基于詞庫和基于統(tǒng)計(jì)學(xué)兩種方向,但大部分的同類的分詞系統(tǒng)都是基于這兩種方法的混合。在基于詞庫的方法中,如cheng et al.,1999),給出輸入的字符串,只有在庫的詞語能被鑒別。這種方法的準(zhǔn)確性只是基于一個(gè)完善和大容量的詞庫,但這樣是不能說是完全成功的,因?yàn)樵~語的發(fā)展太快了,變化也太快了。因此,除了詞庫外,好多 系統(tǒng)包括了特別的部件來處理未知詞匯的鑒別工作。實(shí)際上,統(tǒng)計(jì)學(xué)的方法已經(jīng)被廣泛地應(yīng)用在這些部分,因?yàn)榻y(tǒng)計(jì)學(xué)的方法是基于似然或基于得分處理來處理詞語的分割。但統(tǒng)計(jì)學(xué)的方法也有三大缺點(diǎn)的,1)一些方法(如lin et al.,1993)定義鑒別不
5、知道的詞語但沒有鑒別他們的類型。例如:可以定義一個(gè)字符是一個(gè)單位實(shí)體,但沒有定義這個(gè)實(shí)體是不是一個(gè)名稱,這就不是很有用或很足夠了。2)這些方法的似然模型(如Teahan et al.,2000)是由分割的文本集訓(xùn)練的,但不一定是有用的。3)鑒別不知道的詞語后,結(jié)果不合語言的邏輯(如Dai et al.,1999),而需要額外的分析處理工作。 我們相信,不知道詞語的鑒別應(yīng)該在分詞處理中進(jìn)行,而不應(yīng)該當(dāng)成一個(gè)分開的問題。這兩個(gè)問題應(yīng)該在統(tǒng)一的方法里面得到很好的解決。一個(gè)解決的方法就是Sproat et al.(1996),是基于權(quán)值的量化數(shù)據(jù)。我們的方法是由同樣的想法推動(dòng)的。我們看來,改進(jìn)的信源信
6、道模型,提供了一種靈活的方法來揉合詞庫和統(tǒng)計(jì)信息,各種不同的未在Sporat的系統(tǒng)中討論的未知詞語都在我們的系統(tǒng)中得到處理。 3, 中文詞語中文詞語沒有標(biāo)準(zhǔn)的定義,在語言學(xué)中可能定義從多個(gè)方面定義了詞語(如Packard,2000),但沒一種定義和其它的定義是可以相同的??上驳氖?,這根本不重要的,因?yàn)榇蟊姷淖顝V泛的定義就應(yīng)該是分詞的應(yīng)用和處理時(shí)的定義。我們定義中文詞語有四種類型,(1)詞庫中的詞(2)來源于語形態(tài)學(xué)的詞(3)要素詞(4)名稱實(shí)體詞,因?yàn)檫@四種詞語在中文處理中有不同的功能,在我們的系統(tǒng)中會(huì)經(jīng)過再加工和處理。比如,一些似是而非的語句中的詞語分割(圖一a所示),圖一b是我們
7、的系統(tǒng)輸出的結(jié)果,不同的詞由不同的途徑進(jìn)行。圖1圖1:(a)一個(gè)中文的句子,斜線代表詞語的分割(b)我們的系統(tǒng)的一種輸出,中括號(hào)表示了詞語邊界,暗示一個(gè)語形態(tài)的邊界。l 對(duì)于在庫詞語,詞語邊界被檢測出來l 對(duì)于語形態(tài)詞,他們的形態(tài)模式被檢測出來了,如朋友們'friend+s'就是通過名詞的附加法形成的,把們字加到朋友后。而高高興興就是高興的另一種表示,是MR_AABB的模式。l 對(duì)于要素詞,他們的形式和標(biāo)準(zhǔn)化的形式就會(huì)被檢測到,如12:30,是十二點(diǎn)倉三十分的一種標(biāo)準(zhǔn)的形式l 對(duì)于名稱實(shí)體詞,同樣也被檢測到了,如李俊生'Li Junsheng'是一個(gè)人名(PN代
8、表人名)在我們的系統(tǒng)中,我們中統(tǒng)一的解決方案來檢測和處理以上四種類型的詞,這些處理工作是基于下面討論的改進(jìn)的信源信道模型。4, 改進(jìn)的信源信道模型設(shè)S是一個(gè)中文句子,是一個(gè)字符串。各種可能的詞語分割為W,我們就應(yīng)該選擇最可能的W*,其概率也最高P(W|S):W*=argmax(w)P(W|S),根據(jù)貝葉斯決定規(guī)則,去除不變的分母,我們可以這樣表示最大的可能性:W*=arg(w)maxP(W)P(S|W).(1)根據(jù)第3部分的詞語定義,我們這樣定義詞語集合C:圖2(1)每個(gè)詞庫詞語被定義在一個(gè)集合,(2)每個(gè)詞形態(tài)詞被定義在一個(gè)集合(3)每個(gè)要素詞被定義在一個(gè)集合,例如:所有的時(shí)間表達(dá)被定義在T
9、IME集合里,(4)每種名稱實(shí)體被定義在一個(gè)集合,例如:所有的人名被定義在一個(gè)PN集合里。因此,我們轉(zhuǎn)變這些詞語分割到一個(gè)詞語集合序列C,可以Eq1寫成C*argmax(c) P(C)P(S|C).(2)Eq2是信源信道模式處理中國文字分割的基本形式,模型假設(shè)有如下一個(gè)中國的句子: 首先,按概率分布P(C),一個(gè)人選擇了一系列的輸出(即C類別);再者,按概率分布P(SC)選出對(duì)每一句的字。 信源信道模式可以用另一種方式解釋如下:P(C)是隨機(jī)模型用來估計(jì)字類別的概率. 它 表明,在一定的背景下,類別發(fā)生的可能性. 例如,人的名字應(yīng)用放在“教授”這個(gè)稱號(hào)的前面. 如此 P(C)被當(dāng)作是一種背景因
10、素影響后面的字符串. P(SC)則是計(jì)算字符串在一個(gè)字詞類別中的可能性. 例如,“李俊生”字串更可能是一個(gè)人名,而“里生俊”'LiJunsheng'不是一個(gè)人的名字,因?yàn)樵谥袊男帐蟻碚f,“李”是一種常見姓氏,但“里”就不是常見的. 所以P(SC)指示的更多是后面的類別。所以在我們的系統(tǒng)中是這樣設(shè)計(jì)的,信源道道模式包含一個(gè)背景的模式,和多個(gè)不同的字詞類別集,每個(gè)類別集有好多不相同的詞語。如圖2所示。 雖然Eq. 2顯示的概率模型類別和背景模型可以通過大量簡單合并來實(shí)現(xiàn),但是實(shí)際上, 加權(quán)后會(huì)有更大的成效。 這里面有兩個(gè)原因. 首先,由于訓(xùn)練集太小,能為我們提供最佳假設(shè)不實(shí)在,一
11、些類別的鑒別起來很吃力. 根據(jù)Eq. 2,概率模型結(jié)合的背景,估計(jì)有不良類別的概率,使背景模式變得沒有份量. 第二,如圖2級(jí)不同的類別由不同的方式形成的。(如姓名實(shí)體模型 Corpora培訓(xùn)模式、factoid模型,利用語言學(xué)知識(shí)). 因此,類別的數(shù)量的概率,在不同的動(dòng)態(tài)范圍里有好多不同。有一個(gè)折衷的方法是,為了增加幾個(gè)數(shù)量的類別模式CW,每一個(gè)字詞類別,調(diào)整 類別模式的概率P(SC)到P(SC)CW. 我們 的實(shí)驗(yàn)中,這種模式是如在一個(gè)發(fā)展中的數(shù)據(jù)集中,可以大大優(yōu)化字詞分割. 由于信源信道模式的作用,我們的分詞系統(tǒng)處理里分兩大部分。第一,如輸入的字符為S,所有的候選字就會(huì)產(chǎn)生(儲(chǔ)存在格子里)
12、. 每個(gè)候選字在其字詞類別的概率和字詞類別的概率P(S'C)表示出在S'的任何一個(gè)字串的總概率,二、根據(jù)Eq. (2),使用字母搜索(格子)找出最有可能的分割(即字詞類別C*). 5, 類別模式概率給出一個(gè)輸入的字串S,模型2 中的各個(gè)類別模式,都同時(shí)被應(yīng)用到,而生產(chǎn)候選字詞,使其概率是適當(dāng)被指派到相應(yīng)的類別模型: l 詞庫中的詞,好多的子串S'S,我們假設(shè)P(S'|C)=1,并設(shè)這個(gè)詞如不是詞庫中詞,P(S'|C)=0l 語形態(tài)語,與詞庫中的詞很相近,但一個(gè)語形態(tài)詞庫是用來代替詞庫中的詞的。(詳見5.1節(jié))l 要素詞語,對(duì)于每一種的要素詞,
13、我們都定義為集合G,表現(xiàn)為FSTs。對(duì)于所有的S'S,如果其可以用G來表達(dá),我們假設(shè)P(S'|FT)=1,并定義S'為一個(gè)要素候選對(duì)象,就象圖一所示,“十二點(diǎn)三十分”是一個(gè)要素候選對(duì)象,表示為P(十二點(diǎn)三十分TIME)1,并且十二和三十都是要素候選對(duì)象,因?yàn)镻(十二NUM)P(三十NUM)1l 名稱實(shí)體,對(duì)于每一種類型的名字,我們用一個(gè)語法和統(tǒng)計(jì)的模式來產(chǎn)生候選集,如(5.2節(jié)所示) 5.1語形態(tài)上的字詞在我們的系統(tǒng)的,對(duì)付語形態(tài)詞具體分為5種的語形態(tài)模式,(1)附加,如朋友們(friend -;plural)'friends'(2)疊加,高興
14、'happy'->高高興興'happily'(3)合并,上班'on duty'+下班'off duty'->上下班'on-off duty'(4)語氣式的詞 走'walk'+出去'out'->走出去'walk out'和(5)分隔(一種表達(dá)方式,一個(gè)詞被分割開來,但語義面表示的意思沒變。)吃了飯'alread eat',真實(shí)的意思是兩個(gè)詞吃飯,'eat'已經(jīng)被'了'分隔開'already'
15、;。 真是好難把英語的技術(shù)上的事表達(dá)為中文(語言形態(tài)不一樣),有兩個(gè)重要原因:1)中文的語形態(tài)規(guī)則不是和英文的一樣。如,英文中,要是復(fù)數(shù)形式的話可以加s,但中文中好少有對(duì)應(yīng)的規(guī)則,“朋友”的復(fù)數(shù)還可以加“們”,但南瓜的復(fù)數(shù)就不能這樣加了。2)中文對(duì)語形態(tài)規(guī)則的分析需要操作,這種操作如復(fù)制,疊加,分隔等,不是國際上所通常用的。 我們的處理方法是擴(kuò)展詞庫??梢院唵蔚刈鍪占墓ぞ?,收集各種的語形態(tài)詞語,分為上述的5種形式,然后綜合起來,稱之為語形態(tài)詞典。有三部工作是要做的,(1)候選詞的產(chǎn)生,是用一個(gè)語形態(tài)詞的集合和一個(gè)大的訓(xùn)練集實(shí)現(xiàn),如規(guī)則名詞們,復(fù)數(shù)時(shí)一般有候選詞是這樣的(名稱們),(2)統(tǒng)計(jì)過
16、濾,對(duì)于每一個(gè)的候選詞,我們先獲得一系統(tǒng)的統(tǒng)計(jì)數(shù)據(jù)如出現(xiàn)的頻繁度,共有的信息,大訓(xùn)練集中的背景依賴。我們用一個(gè)信息的獲得方法(在chien.1997;gao et al.,2002中有描述)去得到一個(gè)語形態(tài)的候選詞,去除“不好”的候選集。在這個(gè)方法背后是一個(gè)穩(wěn)定的可靠的大的訓(xùn)練集。這就是說,詞語中的組成是十分相關(guān)的,同外部的訓(xùn)練序列有相當(dāng)?shù)年P(guān)系。(3)語言學(xué)上的選擇。我們會(huì)在最后手動(dòng)地檢查這些候選的詞語,形成一個(gè)語形態(tài)詞庫,語形態(tài)的辨識(shí)就靠這個(gè)語形態(tài)詞庫了。 5.2名稱實(shí)體我們認(rèn)為有4種的名稱實(shí)體詞語:人名,地名,組織名稱和外國翻譯的名稱。因?yàn)槊Q實(shí)體可以被一種或多種的形式來處理,我
17、們的系統(tǒng)處理時(shí)限制一種有效的候選集,給出輸入的字串,有兩部處理:第一,對(duì)于每一種類型,我們用一種約束的規(guī)則(是語言學(xué)上的規(guī)定和FSTs來代表)去產(chǎn)生一個(gè)最有可能的候選集。第二,每一個(gè)候選集被指派一個(gè)可能的類別模式,這些模式的定義都是代表了他們最相近的名稱實(shí)體,用了最大相似的原則,也同時(shí)使用了一些平滑的方法。下面,我們會(huì)簡要地說明一下這些約束和類別模式中國人的名稱有兩種的約束規(guī)則(1)名稱規(guī)則,我們假設(shè)一個(gè)中文名包含姓和名,形態(tài)就是姓名,兩個(gè)詞都是一個(gè)或兩個(gè)字符長(2)姓氏表,我們只認(rèn)為在我們系統(tǒng)中的姓氏表的姓的字才是一個(gè)姓。(我們的系統(tǒng)只有373個(gè)姓)給出一個(gè)姓名的候選詞,就是一個(gè)字符S
18、9;,類型概率就是P(S'|PN),計(jì)算方式如下:(1)姓氏的字的可能性為P(Sf|F);(2)名的字的概率是P(Sg|G)或P(Sg1|G1),(3)名的第二個(gè)字是P(Sg2Sg1,G2),例如:字符串“李俊生”是一個(gè)人名,如下面的公司來鑒別出來的。P(李俊生PN)P(李F)P(俊G1)P(生俊,G2).地方名和人名是不同的,沒什么規(guī)則來適應(yīng)地方名(LNs),我們假設(shè)候選詞是S'(少于10個(gè)字符),如果下面的條件是滿足的話(1)S'是一個(gè)地名列表中的實(shí)體(2)S'以標(biāo)志性的詞語結(jié)束,如市'city',P(S'|LN)就是被認(rèn)為是地名的概
19、率?,F(xiàn)在分析一個(gè)字符串“烏蘇里江”'Wusuli river'.這就是一個(gè)名稱的候選詞,因?yàn)橛袠?biāo)志性的詞語“江”,而這個(gè)詞是不是地名是通過這樣的概率來判斷的。P(烏蘇里江LN)P(烏</LN>)P(蘇|烏)P(里蘇)P(江里)P(</LN>|江)組織名組織名(Ons)比個(gè)人名稱(PNs)和地方名(LNs)要難判斷。如組織,中國國際航空公司包含有地方名中國。 像地方名的定義,組織名候選詞是一個(gè)少于15個(gè)字符S',如果它包含有一個(gè)在組織列表中的標(biāo)志性的詞,如公司,它就會(huì)被認(rèn)定為一個(gè)組織名,我們介紹一下詞語類別的分割S',C,組織的類型模式P(
20、S'|ON)覆蓋所有的可能C,P(S'|ON)=cP(S',C|ON)=cP(C|ON)P(S'|C,ON).因?yàn)镻(S'|C,ON)=P(S'|C),我們有P(S'|ON)=cP(C|ON)P(S'|C).我們假設(shè),總數(shù)大約是P(C*|ON)P(S'|C*),其中C*是Eq2中最可能的詞語類別分割,這就是說,我們用系統(tǒng)找出C*,但信源信道模型是以組織列表來鑒別的。 下面看一下前面的例子,假設(shè)C*=LN/國際/航空/公司,其中“中國”被認(rèn)為是地方名稱,其為組織名稱的概率P(S'|ON)是這樣鑒別的P(中國國際航空公
21、司|ON) P(LN/國際/航空/公司|ON) P(中國|LN) =P(LN|<ON>)P(國際|LN)P(航空|國際)P(公司|航空)P(</ON>|公司)P(中國|LN),其中P(中國|LN)是中國為地方名的類別概率。 外國名的翻譯就像Sproat et al.(1996)所描述:FNs的翻譯通常是使用發(fā)音相近的中國字來處理的。因?yàn)镕Ns通常是有無限制的長度和發(fā)音,這些只根據(jù)其原來的詞。幸運(yùn)的是,只有一小部分的中文字是常用于翻譯之中。 因些,一個(gè)FN的候選詞記為S',如果它包含一個(gè)翻譯的詞語在字符列表中(這個(gè)列表包含618個(gè)中文字),概率P(S'|F
22、N)用一種模式來鑒別。注意到,我們的系統(tǒng)中,一個(gè)翻譯名可以是一個(gè)人名,一個(gè)地方名,一個(gè)組織名,只是取決于詞語的背景。所以給定一個(gè)FN的候選,三個(gè)名稱類別都有可能,其類別的概率為P(S'|PN)=P(S'|LN)=P(S|ON)=P(S|FN),換句話說,我們可以等到充分考慮背景因素后才決定詞語的類型。6, 背景因素的評(píng)估本節(jié)描述的方法確定Eq2類別模式概率P(C)(即概率). 理想地說,給出一個(gè)有注釋的集合,每一句被分割的詞語都被鑒別到其詞語類別中,其詞語類別的概率會(huì)被用MLE等方法計(jì)算,這些方法會(huì)和一些背景方法(Katz,1987)來處理數(shù)據(jù)稀疏問題. 不幸的是,建設(shè)這種數(shù)據(jù)
23、集的費(fèi)用是十分昂貴的. 我們的解決的辦法是步步演進(jìn)的加深方法在Gao et al. (2002). 它由三個(gè)步驟組成:(1)首先,我們用貪婪文字方法去分割,并取得了初步背景因素,都是基于初步的訓(xùn)練集; (二)用已有的模式重新獲得數(shù)據(jù)集; (3)用重新獲得的數(shù)據(jù)集獲得背景模型. 重復(fù)步驟2和3直到系統(tǒng)的功能融為一體. 上述做法,背景模式的質(zhì)量在很大程度上取決于模型的數(shù)據(jù)訓(xùn)練集的質(zhì)量,由于兩個(gè)問題而不能完全滿足的. 一、貪婪文字方法不能分割之處理, 其實(shí),這只能解決一部分. 第二,不少要素詞語和命名實(shí)體不能確定,用貪婪文字方法也基于詞庫. 在處理第一個(gè)問題方面,我們?cè)诘谝徊降某跏挤指钣?xùn)練數(shù)據(jù)中,用
24、兩個(gè)方法來解決詞語分割的不明確性。詞語分割的不明確性,可以分為兩類,失迭的不明確和混合的不明確,如一個(gè)字符串ABC,可以根據(jù)不同的背景分割為AB/C或A/BC,ABC就只做是一個(gè)交迭的不明確(OAS),如果一個(gè)字符串AB,可以分為兩個(gè)字符A/B,或一個(gè)詞依靠于不同的背景,AB就叫做混全的不明確(CAS),在解決OA方面,我們定義所有的OASs在一個(gè)訓(xùn)練數(shù)據(jù),將它與一個(gè)<OAS>交換,這樣做,我們可能去除去除一部分的訓(xùn)練數(shù)據(jù)而包含OA的錯(cuò)誤。 在解決CA方面,我們選時(shí)常發(fā)生的兩字符詞語,如才能和才/能,對(duì)于每個(gè)CAS,我們用CAS手動(dòng)分割形成一個(gè)二進(jìn)制的分類器,(基于空間矢量),這樣
25、,每一個(gè)CAS的發(fā)生都在初始分割訓(xùn)練數(shù)據(jù)中,那一個(gè)相應(yīng)的分類器用來決定CAS是不是應(yīng)有的分割。 對(duì)于每二個(gè)問題,我們可以簡單地用有限機(jī)械描述方法(如第5部分,發(fā)展一種處理機(jī)器問題的有效的約束來處理不明確問題)去決定初始分割訓(xùn)練集中的要素詞,我們的NER方法是這樣的:1,手動(dòng)注釋在小類里的名稱集2,在種子集合中取得背景的模式,通過把新的詞語添加到種子模式初始注釋訓(xùn)練集,我們因此促進(jìn)了背景模式。最后,我們用改進(jìn)的背景模式用在第二和三步,我們的實(shí)驗(yàn)說明相關(guān)的小的子集(如1千萬個(gè)字符,用了4個(gè)人大約三個(gè)星期去注釋NE)是足夠大的,足以應(yīng)付數(shù)據(jù)背景的初始化。 7, 評(píng)價(jià)進(jìn)行可靠的評(píng)估,人工注明
26、,制定了一套測試集. 這一測試集約50萬漢字,已在校對(duì)和綜合各因素如范圍、形式、時(shí)間. 在我們的注釋訓(xùn)練集前,必須回答幾個(gè)問題:(1)分割靠特別的詞庫? (二)要假設(shè)一句話的正確的分割? (3)有什么評(píng)價(jià)標(biāo)準(zhǔn)? (四)如何進(jìn)行公正比較不同分詞系統(tǒng)? 就像前面所述,詞語在真實(shí)的應(yīng)用中來定義詞是更有意義的。我們的系統(tǒng)中,一個(gè)詞庫(包含98,668個(gè)詞語和59,285個(gè)語形態(tài)詞)可以組成多個(gè)應(yīng)用,正如亞洲語言的輸入和網(wǎng)頁搜索。因此,我們注釋訓(xùn)練集是基于詞庫的。我們處理時(shí)是這樣的,盡量根據(jù)詞庫分割詞語。一個(gè)句子的分割詞語有好多的形式,我們希望分割可以包容最少的詞語。注釋訓(xùn)練集包含247,039條目(2
27、05,162個(gè)詞庫/語形態(tài)詞庫詞語,4,347PNs,5,311LNs, 3,850 ONs, 和 6,630 要素詞, 等.) 我們系統(tǒng)的評(píng)估是通過precision-recall精確度查全率(P/R)pairs,F-measures等方法要處理每個(gè)詞語分類。因?yàn)樽⑨尩挠?xùn)練集是基于一個(gè)特別的詞庫,如果和別的系統(tǒng)用到了不同的詞庫,那一些評(píng)價(jià)的手段是無意義的。因此在對(duì)比不同的系統(tǒng)時(shí),我們關(guān)注NER的P/R和OAS的錯(cuò)誤,因?yàn)檫@些手段是獨(dú)立于詞庫的,通常有非常清楚的答復(fù)。 背景模式的訓(xùn)練集包含大約有八千萬的中文字符,它們來自不同的地方如報(bào)紙,小說,雜志等。第5部分已經(jīng)有訓(xùn)練集的描述。 7.1系統(tǒng)結(jié)果 我們系統(tǒng)的設(shè)計(jì)是這樣的,各個(gè)部分如要素詞語發(fā)現(xiàn)器和NER都可以分拆的,所以我們可以評(píng)估各個(gè)部分的作用和對(duì)整個(gè)系統(tǒng)的貢獻(xiàn)。 結(jié)果已經(jīng)在表格1中展示出來。表格一對(duì)比可知,用了貪婪文字分割方法的在第一行,用我們系統(tǒng)的BaseLine方法在第二行,這里只用到了詞庫,有意思的是第一行和第二行用詞典方法已經(jīng)能達(dá)到一個(gè)很好的查全率,但精確度就差一點(diǎn)了,因?yàn)樗鼈兌疾荒荑b別不在詞庫中的詞語,如要素詞和名稱詞。我們又發(fā)現(xiàn),即使使用同樣的詞庫,我們的方法是基于改進(jìn)的信源信道模型勝過貪婪算法(有一個(gè)小小的,但統(tǒng)計(jì)上意思重大的數(shù)據(jù)不同),因?yàn)楸尘澳J降膽?yīng)用使貪婪算法更
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- TD/T 1036-2013土地復(fù)墾質(zhì)量控制標(biāo)準(zhǔn)
- TD/T 1015-2007城鎮(zhèn)地籍?dāng)?shù)據(jù)庫標(biāo)準(zhǔn)
- 地理●廣東卷丨2021年廣東省普通高中學(xué)業(yè)水平選擇性考試地理試卷及答案
- EDTA標(biāo)準(zhǔn)溶液的配制與標(biāo)定43課件
- 考研復(fù)習(xí)-風(fēng)景園林基礎(chǔ)考研試題【黃金題型】附答案詳解
- 風(fēng)景園林基礎(chǔ)考研資料試題及答案詳解(典優(yōu))
- 《風(fēng)景園林招投標(biāo)與概預(yù)算》試題A附參考答案詳解(培優(yōu)a卷)
- 2025-2026年高校教師資格證之《高等教育法規(guī)》通關(guān)題庫含答案詳解(培優(yōu))
- 2024年山東華興機(jī)械集團(tuán)有限責(zé)任公司人員招聘筆試備考題庫及答案詳解1套
- 無錫市2024-2025學(xué)年五年級(jí)下學(xué)期數(shù)學(xué)期末試題一(有答案)
- 彩鋼板屋面維修施工方案
- 2025年全國碩士研究生入學(xué)統(tǒng)一考試 (數(shù)學(xué)三) 真題及答案
- 課件:《馬克思主義基本原理概論》(23版):第七章 共產(chǎn)主義崇高理想及其最終實(shí)現(xiàn)
- 新媒體編輯面試題及答案
- 2025年上海市高考英語熱點(diǎn)復(fù)習(xí):六選四句子還原之說明文(上)
- 2025年gmp 基礎(chǔ)知識(shí)培訓(xùn)試題及答案
- 網(wǎng)絡(luò)空間中的群體行為分析-深度研究
- 軟件工程監(jiān)理實(shí)施細(xì)則10
- 統(tǒng)計(jì)業(yè)務(wù)培訓(xùn)
- 2025-2030年中國水利工程勘察設(shè)計(jì)市場運(yùn)營狀況與發(fā)展?jié)摿Ψ治鰣?bào)告
- 海康智慧工地解決方案
評(píng)論
0/150
提交評(píng)論