改進(jìn)的信源-信道模型在中文分詞中的應(yīng)用_第1頁(yè)
改進(jìn)的信源-信道模型在中文分詞中的應(yīng)用_第2頁(yè)
改進(jìn)的信源-信道模型在中文分詞中的應(yīng)用_第3頁(yè)
改進(jìn)的信源-信道模型在中文分詞中的應(yīng)用_第4頁(yè)
改進(jìn)的信源-信道模型在中文分詞中的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、改進(jìn)的信源信道模型在中文分詞中的應(yīng)用Jianfeng Gao, Mu Li and Chang-Ning Huang微軟亞洲研究院 概要這篇論文介紹一種新的信道模型在中文分詞中的應(yīng)用,以幫助理解中文句子的大意。中文詞語(yǔ)被定義為四種類(lèi)型(就分詞系統(tǒng)而言):在詞庫(kù)中的語(yǔ)言,形態(tài)起源的詞,要素詞,名稱(chēng)詞。我們的系統(tǒng)提供統(tǒng)一的方法處理這四種基本的類(lèi)型中文分詞,(1)詞庫(kù)詞語(yǔ)處理(2)語(yǔ)形態(tài)分析(3)要素詞語(yǔ)處理(4)名稱(chēng)實(shí)體詞語(yǔ)處理。這套系統(tǒng)的效果,我們用一個(gè)有手動(dòng)測(cè)試集,還對(duì)比其他的測(cè)試系統(tǒng),(考慮到各種詞語(yǔ)定義不同的中文分詞系統(tǒng))。1, 介紹中文分詞是進(jìn)行好多中文處理操作的第一步,有好多

2、的中文處理任務(wù)都是從這開(kāi)始,所以,其吸引了好多的關(guān)注。這一任務(wù)之所以這么有挑戰(zhàn)性,皆因中文中沒(méi)有標(biāo)準(zhǔn)的分詞詞語(yǔ)類(lèi)型定義。在些論文中,我們定義中文的詞語(yǔ)類(lèi)型有四種,在詞庫(kù)中詞語(yǔ),語(yǔ)義形態(tài)詞,要素詞,名稱(chēng)詞(NER)。下面,我們將介紹一種解決方案以處理這四種類(lèi)型的詞語(yǔ)。 中文的書(shū)寫(xiě)是沒(méi)有邊界的。因此,不像英語(yǔ),可能不值得分開(kāi)中文分詞解決方案和其他三種的解決方案。我們更喜歡可以理想地設(shè)計(jì)一種統(tǒng)一的方法來(lái)處理四個(gè)問(wèn)題。這一統(tǒng)一的方法用在我們的系統(tǒng)中就是基于改進(jìn)的信源信道模型來(lái)處理中文分詞,其中有兩個(gè)部件:一個(gè)信源模型和一個(gè)通信模型。信源模型用于評(píng)估一個(gè)詞序生成的可能性,這里,一個(gè)詞語(yǔ)屬于一個(gè)一種詞語(yǔ)的

3、類(lèi)型。而對(duì)于每一種的詞語(yǔ)類(lèi)型,信道模型根據(jù)其類(lèi)型評(píng)估字符串的生成意思。因此,就會(huì)有多個(gè)信道模型。我們會(huì)在本文中,展于我們的模型,這些模型都基于統(tǒng)計(jì)學(xué)的結(jié)構(gòu)是標(biāo)準(zhǔn)的統(tǒng)計(jì)模型。 我們?cè)u(píng)價(jià)我們的系統(tǒng)的表現(xiàn),用到了其它的測(cè)試集。同樣會(huì)對(duì)比其它不同類(lèi)型的分詞系統(tǒng),因?yàn)楦鱾€(gè)分詞系統(tǒng)的詞語(yǔ)類(lèi)型的定義是不同的。 在本文的其它部分:第2部分討論分詞的準(zhǔn)備工作,第3部分討論定義中文詞語(yǔ)的細(xì)節(jié),第4到6部分具體地細(xì)節(jié)描述了改進(jìn)的信源信道模型,第8節(jié)描述的系統(tǒng)的評(píng)價(jià)結(jié)果。第9節(jié)結(jié)論。 2, 前期工作歷史上有好多的中文分詞方法被提出,回顧一下有(Wu and Tseng, 1993; Sproat and S

4、hih, 2001),這些方法大概可以分為基于詞庫(kù)和基于統(tǒng)計(jì)學(xué)兩種方向,但大部分的同類(lèi)的分詞系統(tǒng)都是基于這兩種方法的混合。在基于詞庫(kù)的方法中,如cheng et al.,1999),給出輸入的字符串,只有在庫(kù)的詞語(yǔ)能被鑒別。這種方法的準(zhǔn)確性只是基于一個(gè)完善和大容量的詞庫(kù),但這樣是不能說(shuō)是完全成功的,因?yàn)樵~語(yǔ)的發(fā)展太快了,變化也太快了。因此,除了詞庫(kù)外,好多 系統(tǒng)包括了特別的部件來(lái)處理未知詞匯的鑒別工作。實(shí)際上,統(tǒng)計(jì)學(xué)的方法已經(jīng)被廣泛地應(yīng)用在這些部分,因?yàn)榻y(tǒng)計(jì)學(xué)的方法是基于似然或基于得分處理來(lái)處理詞語(yǔ)的分割。但統(tǒng)計(jì)學(xué)的方法也有三大缺點(diǎn)的,1)一些方法(如lin et al.,1993)定義鑒別不

5、知道的詞語(yǔ)但沒(méi)有鑒別他們的類(lèi)型。例如:可以定義一個(gè)字符是一個(gè)單位實(shí)體,但沒(méi)有定義這個(gè)實(shí)體是不是一個(gè)名稱(chēng),這就不是很有用或很足夠了。2)這些方法的似然模型(如Teahan et al.,2000)是由分割的文本集訓(xùn)練的,但不一定是有用的。3)鑒別不知道的詞語(yǔ)后,結(jié)果不合語(yǔ)言的邏輯(如Dai et al.,1999),而需要額外的分析處理工作。 我們相信,不知道詞語(yǔ)的鑒別應(yīng)該在分詞處理中進(jìn)行,而不應(yīng)該當(dāng)成一個(gè)分開(kāi)的問(wèn)題。這兩個(gè)問(wèn)題應(yīng)該在統(tǒng)一的方法里面得到很好的解決。一個(gè)解決的方法就是Sproat et al.(1996),是基于權(quán)值的量化數(shù)據(jù)。我們的方法是由同樣的想法推動(dòng)的。我們看來(lái),改進(jìn)的信源信

6、道模型,提供了一種靈活的方法來(lái)揉合詞庫(kù)和統(tǒng)計(jì)信息,各種不同的未在Sporat的系統(tǒng)中討論的未知詞語(yǔ)都在我們的系統(tǒng)中得到處理。 3, 中文詞語(yǔ)中文詞語(yǔ)沒(méi)有標(biāo)準(zhǔn)的定義,在語(yǔ)言學(xué)中可能定義從多個(gè)方面定義了詞語(yǔ)(如Packard,2000),但沒(méi)一種定義和其它的定義是可以相同的??上驳氖?,這根本不重要的,因?yàn)榇蟊姷淖顝V泛的定義就應(yīng)該是分詞的應(yīng)用和處理時(shí)的定義。我們定義中文詞語(yǔ)有四種類(lèi)型,(1)詞庫(kù)中的詞(2)來(lái)源于語(yǔ)形態(tài)學(xué)的詞(3)要素詞(4)名稱(chēng)實(shí)體詞,因?yàn)檫@四種詞語(yǔ)在中文處理中有不同的功能,在我們的系統(tǒng)中會(huì)經(jīng)過(guò)再加工和處理。比如,一些似是而非的語(yǔ)句中的詞語(yǔ)分割(圖一a所示),圖一b是我們

7、的系統(tǒng)輸出的結(jié)果,不同的詞由不同的途徑進(jìn)行。圖1圖1:(a)一個(gè)中文的句子,斜線代表詞語(yǔ)的分割(b)我們的系統(tǒng)的一種輸出,中括號(hào)表示了詞語(yǔ)邊界,暗示一個(gè)語(yǔ)形態(tài)的邊界。l 對(duì)于在庫(kù)詞語(yǔ),詞語(yǔ)邊界被檢測(cè)出來(lái)l 對(duì)于語(yǔ)形態(tài)詞,他們的形態(tài)模式被檢測(cè)出來(lái)了,如朋友們'friend+s'就是通過(guò)名詞的附加法形成的,把們字加到朋友后。而高高興興就是高興的另一種表示,是MR_AABB的模式。l 對(duì)于要素詞,他們的形式和標(biāo)準(zhǔn)化的形式就會(huì)被檢測(cè)到,如12:30,是十二點(diǎn)倉(cāng)三十分的一種標(biāo)準(zhǔn)的形式l 對(duì)于名稱(chēng)實(shí)體詞,同樣也被檢測(cè)到了,如李俊生'Li Junsheng'是一個(gè)人名(PN代

8、表人名)在我們的系統(tǒng)中,我們中統(tǒng)一的解決方案來(lái)檢測(cè)和處理以上四種類(lèi)型的詞,這些處理工作是基于下面討論的改進(jìn)的信源信道模型。4, 改進(jìn)的信源信道模型設(shè)S是一個(gè)中文句子,是一個(gè)字符串。各種可能的詞語(yǔ)分割為W,我們就應(yīng)該選擇最可能的W*,其概率也最高P(W|S):W*=argmax(w)P(W|S),根據(jù)貝葉斯決定規(guī)則,去除不變的分母,我們可以這樣表示最大的可能性:W*=arg(w)maxP(W)P(S|W).(1)根據(jù)第3部分的詞語(yǔ)定義,我們這樣定義詞語(yǔ)集合C:圖2(1)每個(gè)詞庫(kù)詞語(yǔ)被定義在一個(gè)集合,(2)每個(gè)詞形態(tài)詞被定義在一個(gè)集合(3)每個(gè)要素詞被定義在一個(gè)集合,例如:所有的時(shí)間表達(dá)被定義在T

9、IME集合里,(4)每種名稱(chēng)實(shí)體被定義在一個(gè)集合,例如:所有的人名被定義在一個(gè)PN集合里。因此,我們轉(zhuǎn)變這些詞語(yǔ)分割到一個(gè)詞語(yǔ)集合序列C,可以Eq1寫(xiě)成C*argmax(c) P(C)P(S|C).(2)Eq2是信源信道模式處理中國(guó)文字分割的基本形式,模型假設(shè)有如下一個(gè)中國(guó)的句子: 首先,按概率分布P(C),一個(gè)人選擇了一系列的輸出(即C類(lèi)別);再者,按概率分布P(SC)選出對(duì)每一句的字。 信源信道模式可以用另一種方式解釋如下:P(C)是隨機(jī)模型用來(lái)估計(jì)字類(lèi)別的概率. 它 表明,在一定的背景下,類(lèi)別發(fā)生的可能性. 例如,人的名字應(yīng)用放在“教授”這個(gè)稱(chēng)號(hào)的前面. 如此 P(C)被當(dāng)作是一種背景因

10、素影響后面的字符串. P(SC)則是計(jì)算字符串在一個(gè)字詞類(lèi)別中的可能性. 例如,“李俊生”字串更可能是一個(gè)人名,而“里生俊”'LiJunsheng'不是一個(gè)人的名字,因?yàn)樵谥袊?guó)的姓氏來(lái)說(shuō),“李”是一種常見(jiàn)姓氏,但“里”就不是常見(jiàn)的. 所以P(SC)指示的更多是后面的類(lèi)別。所以在我們的系統(tǒng)中是這樣設(shè)計(jì)的,信源道道模式包含一個(gè)背景的模式,和多個(gè)不同的字詞類(lèi)別集,每個(gè)類(lèi)別集有好多不相同的詞語(yǔ)。如圖2所示。 雖然Eq. 2顯示的概率模型類(lèi)別和背景模型可以通過(guò)大量簡(jiǎn)單合并來(lái)實(shí)現(xiàn),但是實(shí)際上, 加權(quán)后會(huì)有更大的成效。 這里面有兩個(gè)原因. 首先,由于訓(xùn)練集太小,能為我們提供最佳假設(shè)不實(shí)在,一

11、些類(lèi)別的鑒別起來(lái)很吃力. 根據(jù)Eq. 2,概率模型結(jié)合的背景,估計(jì)有不良類(lèi)別的概率,使背景模式變得沒(méi)有份量. 第二,如圖2級(jí)不同的類(lèi)別由不同的方式形成的。(如姓名實(shí)體模型 Corpora培訓(xùn)模式、factoid模型,利用語(yǔ)言學(xué)知識(shí)). 因此,類(lèi)別的數(shù)量的概率,在不同的動(dòng)態(tài)范圍里有好多不同。有一個(gè)折衷的方法是,為了增加幾個(gè)數(shù)量的類(lèi)別模式CW,每一個(gè)字詞類(lèi)別,調(diào)整 類(lèi)別模式的概率P(SC)到P(SC)CW. 我們 的實(shí)驗(yàn)中,這種模式是如在一個(gè)發(fā)展中的數(shù)據(jù)集中,可以大大優(yōu)化字詞分割. 由于信源信道模式的作用,我們的分詞系統(tǒng)處理里分兩大部分。第一,如輸入的字符為S,所有的候選字就會(huì)產(chǎn)生(儲(chǔ)存在格子里)

12、. 每個(gè)候選字在其字詞類(lèi)別的概率和字詞類(lèi)別的概率P(S'C)表示出在S'的任何一個(gè)字串的總概率,二、根據(jù)Eq. (2),使用字母搜索(格子)找出最有可能的分割(即字詞類(lèi)別C*).  5, 類(lèi)別模式概率給出一個(gè)輸入的字串S,模型2 中的各個(gè)類(lèi)別模式,都同時(shí)被應(yīng)用到,而生產(chǎn)候選字詞,使其概率是適當(dāng)被指派到相應(yīng)的類(lèi)別模型: l 詞庫(kù)中的詞,好多的子串S'S,我們假設(shè)P(S'|C)=1,并設(shè)這個(gè)詞如不是詞庫(kù)中詞,P(S'|C)=0l 語(yǔ)形態(tài)語(yǔ),與詞庫(kù)中的詞很相近,但一個(gè)語(yǔ)形態(tài)詞庫(kù)是用來(lái)代替詞庫(kù)中的詞的。(詳見(jiàn)5.1節(jié))l 要素詞語(yǔ),對(duì)于每一種的要素詞,

13、我們都定義為集合G,表現(xiàn)為FSTs。對(duì)于所有的S'S,如果其可以用G來(lái)表達(dá),我們假設(shè)P(S'|FT)=1,并定義S'為一個(gè)要素候選對(duì)象,就象圖一所示,“十二點(diǎn)三十分”是一個(gè)要素候選對(duì)象,表示為P(十二點(diǎn)三十分TIME)1,并且十二和三十都是要素候選對(duì)象,因?yàn)镻(十二NUM)P(三十NUM)1l 名稱(chēng)實(shí)體,對(duì)于每一種類(lèi)型的名字,我們用一個(gè)語(yǔ)法和統(tǒng)計(jì)的模式來(lái)產(chǎn)生候選集,如(5.2節(jié)所示) 5.1語(yǔ)形態(tài)上的字詞在我們的系統(tǒng)的,對(duì)付語(yǔ)形態(tài)詞具體分為5種的語(yǔ)形態(tài)模式,(1)附加,如朋友們(friend -;plural)'friends'(2)疊加,高興

14、'happy'->高高興興'happily'(3)合并,上班'on duty'+下班'off duty'->上下班'on-off duty'(4)語(yǔ)氣式的詞 走'walk'+出去'out'->走出去'walk out'和(5)分隔(一種表達(dá)方式,一個(gè)詞被分割開(kāi)來(lái),但語(yǔ)義面表示的意思沒(méi)變。)吃了飯'alread eat',真實(shí)的意思是兩個(gè)詞吃飯,'eat'已經(jīng)被'了'分隔開(kāi)'already'

15、;。 真是好難把英語(yǔ)的技術(shù)上的事表達(dá)為中文(語(yǔ)言形態(tài)不一樣),有兩個(gè)重要原因:1)中文的語(yǔ)形態(tài)規(guī)則不是和英文的一樣。如,英文中,要是復(fù)數(shù)形式的話可以加s,但中文中好少有對(duì)應(yīng)的規(guī)則,“朋友”的復(fù)數(shù)還可以加“們”,但南瓜的復(fù)數(shù)就不能這樣加了。2)中文對(duì)語(yǔ)形態(tài)規(guī)則的分析需要操作,這種操作如復(fù)制,疊加,分隔等,不是國(guó)際上所通常用的。 我們的處理方法是擴(kuò)展詞庫(kù)??梢院?jiǎn)單地做收集的工具,收集各種的語(yǔ)形態(tài)詞語(yǔ),分為上述的5種形式,然后綜合起來(lái),稱(chēng)之為語(yǔ)形態(tài)詞典。有三部工作是要做的,(1)候選詞的產(chǎn)生,是用一個(gè)語(yǔ)形態(tài)詞的集合和一個(gè)大的訓(xùn)練集實(shí)現(xiàn),如規(guī)則名詞們,復(fù)數(shù)時(shí)一般有候選詞是這樣的(名稱(chēng)們),(2)統(tǒng)計(jì)過(guò)

16、濾,對(duì)于每一個(gè)的候選詞,我們先獲得一系統(tǒng)的統(tǒng)計(jì)數(shù)據(jù)如出現(xiàn)的頻繁度,共有的信息,大訓(xùn)練集中的背景依賴(lài)。我們用一個(gè)信息的獲得方法(在chien.1997;gao et al.,2002中有描述)去得到一個(gè)語(yǔ)形態(tài)的候選詞,去除“不好”的候選集。在這個(gè)方法背后是一個(gè)穩(wěn)定的可靠的大的訓(xùn)練集。這就是說(shuō),詞語(yǔ)中的組成是十分相關(guān)的,同外部的訓(xùn)練序列有相當(dāng)?shù)年P(guān)系。(3)語(yǔ)言學(xué)上的選擇。我們會(huì)在最后手動(dòng)地檢查這些候選的詞語(yǔ),形成一個(gè)語(yǔ)形態(tài)詞庫(kù),語(yǔ)形態(tài)的辨識(shí)就靠這個(gè)語(yǔ)形態(tài)詞庫(kù)了。 5.2名稱(chēng)實(shí)體我們認(rèn)為有4種的名稱(chēng)實(shí)體詞語(yǔ):人名,地名,組織名稱(chēng)和外國(guó)翻譯的名稱(chēng)。因?yàn)槊Q(chēng)實(shí)體可以被一種或多種的形式來(lái)處理,我

17、們的系統(tǒng)處理時(shí)限制一種有效的候選集,給出輸入的字串,有兩部處理:第一,對(duì)于每一種類(lèi)型,我們用一種約束的規(guī)則(是語(yǔ)言學(xué)上的規(guī)定和FSTs來(lái)代表)去產(chǎn)生一個(gè)最有可能的候選集。第二,每一個(gè)候選集被指派一個(gè)可能的類(lèi)別模式,這些模式的定義都是代表了他們最相近的名稱(chēng)實(shí)體,用了最大相似的原則,也同時(shí)使用了一些平滑的方法。下面,我們會(huì)簡(jiǎn)要地說(shuō)明一下這些約束和類(lèi)別模式中國(guó)人的名稱(chēng)有兩種的約束規(guī)則(1)名稱(chēng)規(guī)則,我們假設(shè)一個(gè)中文名包含姓和名,形態(tài)就是姓名,兩個(gè)詞都是一個(gè)或兩個(gè)字符長(zhǎng)(2)姓氏表,我們只認(rèn)為在我們系統(tǒng)中的姓氏表的姓的字才是一個(gè)姓。(我們的系統(tǒng)只有373個(gè)姓)給出一個(gè)姓名的候選詞,就是一個(gè)字符S

18、9;,類(lèi)型概率就是P(S'|PN),計(jì)算方式如下:(1)姓氏的字的可能性為P(Sf|F);(2)名的字的概率是P(Sg|G)或P(Sg1|G1),(3)名的第二個(gè)字是P(Sg2Sg1,G2),例如:字符串“李俊生”是一個(gè)人名,如下面的公司來(lái)鑒別出來(lái)的。P(李俊生PN)P(李F)P(俊G1)P(生俊,G2).地方名和人名是不同的,沒(méi)什么規(guī)則來(lái)適應(yīng)地方名(LNs),我們假設(shè)候選詞是S'(少于10個(gè)字符),如果下面的條件是滿(mǎn)足的話(1)S'是一個(gè)地名列表中的實(shí)體(2)S'以標(biāo)志性的詞語(yǔ)結(jié)束,如市'city',P(S'|LN)就是被認(rèn)為是地名的概

19、率?,F(xiàn)在分析一個(gè)字符串“烏蘇里江”'Wusuli river'.這就是一個(gè)名稱(chēng)的候選詞,因?yàn)橛袠?biāo)志性的詞語(yǔ)“江”,而這個(gè)詞是不是地名是通過(guò)這樣的概率來(lái)判斷的。P(烏蘇里江LN)P(烏</LN>)P(蘇|烏)P(里蘇)P(江里)P(</LN>|江)組織名組織名(Ons)比個(gè)人名稱(chēng)(PNs)和地方名(LNs)要難判斷。如組織,中國(guó)國(guó)際航空公司包含有地方名中國(guó)。 像地方名的定義,組織名候選詞是一個(gè)少于15個(gè)字符S',如果它包含有一個(gè)在組織列表中的標(biāo)志性的詞,如公司,它就會(huì)被認(rèn)定為一個(gè)組織名,我們介紹一下詞語(yǔ)類(lèi)別的分割S',C,組織的類(lèi)型模式P(

20、S'|ON)覆蓋所有的可能C,P(S'|ON)=cP(S',C|ON)=cP(C|ON)P(S'|C,ON).因?yàn)镻(S'|C,ON)=P(S'|C),我們有P(S'|ON)=cP(C|ON)P(S'|C).我們假設(shè),總數(shù)大約是P(C*|ON)P(S'|C*),其中C*是Eq2中最可能的詞語(yǔ)類(lèi)別分割,這就是說(shuō),我們用系統(tǒng)找出C*,但信源信道模型是以組織列表來(lái)鑒別的。 下面看一下前面的例子,假設(shè)C*=LN/國(guó)際/航空/公司,其中“中國(guó)”被認(rèn)為是地方名稱(chēng),其為組織名稱(chēng)的概率P(S'|ON)是這樣鑒別的P(中國(guó)國(guó)際航空公

21、司|ON) P(LN/國(guó)際/航空/公司|ON) P(中國(guó)|LN) =P(LN|<ON>)P(國(guó)際|LN)P(航空|國(guó)際)P(公司|航空)P(</ON>|公司)P(中國(guó)|LN),其中P(中國(guó)|LN)是中國(guó)為地方名的類(lèi)別概率。 外國(guó)名的翻譯就像Sproat et al.(1996)所描述:FNs的翻譯通常是使用發(fā)音相近的中國(guó)字來(lái)處理的。因?yàn)镕Ns通常是有無(wú)限制的長(zhǎng)度和發(fā)音,這些只根據(jù)其原來(lái)的詞。幸運(yùn)的是,只有一小部分的中文字是常用于翻譯之中。 因些,一個(gè)FN的候選詞記為S',如果它包含一個(gè)翻譯的詞語(yǔ)在字符列表中(這個(gè)列表包含618個(gè)中文字),概率P(S'|F

22、N)用一種模式來(lái)鑒別。注意到,我們的系統(tǒng)中,一個(gè)翻譯名可以是一個(gè)人名,一個(gè)地方名,一個(gè)組織名,只是取決于詞語(yǔ)的背景。所以給定一個(gè)FN的候選,三個(gè)名稱(chēng)類(lèi)別都有可能,其類(lèi)別的概率為P(S'|PN)=P(S'|LN)=P(S|ON)=P(S|FN),換句話說(shuō),我們可以等到充分考慮背景因素后才決定詞語(yǔ)的類(lèi)型。6, 背景因素的評(píng)估本節(jié)描述的方法確定Eq2類(lèi)別模式概率P(C)(即概率). 理想地說(shuō),給出一個(gè)有注釋的集合,每一句被分割的詞語(yǔ)都被鑒別到其詞語(yǔ)類(lèi)別中,其詞語(yǔ)類(lèi)別的概率會(huì)被用MLE等方法計(jì)算,這些方法會(huì)和一些背景方法(Katz,1987)來(lái)處理數(shù)據(jù)稀疏問(wèn)題. 不幸的是,建設(shè)這種數(shù)據(jù)

23、集的費(fèi)用是十分昂貴的. 我們的解決的辦法是步步演進(jìn)的加深方法在Gao et al. (2002). 它由三個(gè)步驟組成:(1)首先,我們用貪婪文字方法去分割,并取得了初步背景因素,都是基于初步的訓(xùn)練集; (二)用已有的模式重新獲得數(shù)據(jù)集; (3)用重新獲得的數(shù)據(jù)集獲得背景模型. 重復(fù)步驟2和3直到系統(tǒng)的功能融為一體. 上述做法,背景模式的質(zhì)量在很大程度上取決于模型的數(shù)據(jù)訓(xùn)練集的質(zhì)量,由于兩個(gè)問(wèn)題而不能完全滿(mǎn)足的. 一、貪婪文字方法不能分割之處理, 其實(shí),這只能解決一部分. 第二,不少要素詞語(yǔ)和命名實(shí)體不能確定,用貪婪文字方法也基于詞庫(kù). 在處理第一個(gè)問(wèn)題方面,我們?cè)诘谝徊降某跏挤指钣?xùn)練數(shù)據(jù)中,用

24、兩個(gè)方法來(lái)解決詞語(yǔ)分割的不明確性。詞語(yǔ)分割的不明確性,可以分為兩類(lèi),失迭的不明確和混合的不明確,如一個(gè)字符串ABC,可以根據(jù)不同的背景分割為AB/C或A/BC,ABC就只做是一個(gè)交迭的不明確(OAS),如果一個(gè)字符串AB,可以分為兩個(gè)字符A/B,或一個(gè)詞依靠于不同的背景,AB就叫做混全的不明確(CAS),在解決OA方面,我們定義所有的OASs在一個(gè)訓(xùn)練數(shù)據(jù),將它與一個(gè)<OAS>交換,這樣做,我們可能去除去除一部分的訓(xùn)練數(shù)據(jù)而包含OA的錯(cuò)誤。 在解決CA方面,我們選時(shí)常發(fā)生的兩字符詞語(yǔ),如才能和才/能,對(duì)于每個(gè)CAS,我們用CAS手動(dòng)分割形成一個(gè)二進(jìn)制的分類(lèi)器,(基于空間矢量),這樣

25、,每一個(gè)CAS的發(fā)生都在初始分割訓(xùn)練數(shù)據(jù)中,那一個(gè)相應(yīng)的分類(lèi)器用來(lái)決定CAS是不是應(yīng)有的分割。 對(duì)于每二個(gè)問(wèn)題,我們可以簡(jiǎn)單地用有限機(jī)械描述方法(如第5部分,發(fā)展一種處理機(jī)器問(wèn)題的有效的約束來(lái)處理不明確問(wèn)題)去決定初始分割訓(xùn)練集中的要素詞,我們的NER方法是這樣的:1,手動(dòng)注釋在小類(lèi)里的名稱(chēng)集2,在種子集合中取得背景的模式,通過(guò)把新的詞語(yǔ)添加到種子模式初始注釋訓(xùn)練集,我們因此促進(jìn)了背景模式。最后,我們用改進(jìn)的背景模式用在第二和三步,我們的實(shí)驗(yàn)說(shuō)明相關(guān)的小的子集(如1千萬(wàn)個(gè)字符,用了4個(gè)人大約三個(gè)星期去注釋NE)是足夠大的,足以應(yīng)付數(shù)據(jù)背景的初始化。 7, 評(píng)價(jià)進(jìn)行可靠的評(píng)估,人工注明

26、,制定了一套測(cè)試集. 這一測(cè)試集約50萬(wàn)漢字,已在校對(duì)和綜合各因素如范圍、形式、時(shí)間. 在我們的注釋訓(xùn)練集前,必須回答幾個(gè)問(wèn)題:(1)分割靠特別的詞庫(kù)? (二)要假設(shè)一句話的正確的分割? (3)有什么評(píng)價(jià)標(biāo)準(zhǔn)? (四)如何進(jìn)行公正比較不同分詞系統(tǒng)? 就像前面所述,詞語(yǔ)在真實(shí)的應(yīng)用中來(lái)定義詞是更有意義的。我們的系統(tǒng)中,一個(gè)詞庫(kù)(包含98,668個(gè)詞語(yǔ)和59,285個(gè)語(yǔ)形態(tài)詞)可以組成多個(gè)應(yīng)用,正如亞洲語(yǔ)言的輸入和網(wǎng)頁(yè)搜索。因此,我們注釋訓(xùn)練集是基于詞庫(kù)的。我們處理時(shí)是這樣的,盡量根據(jù)詞庫(kù)分割詞語(yǔ)。一個(gè)句子的分割詞語(yǔ)有好多的形式,我們希望分割可以包容最少的詞語(yǔ)。注釋訓(xùn)練集包含247,039條目(2

27、05,162個(gè)詞庫(kù)/語(yǔ)形態(tài)詞庫(kù)詞語(yǔ),4,347PNs,5,311LNs, 3,850 ONs, 和 6,630 要素詞, 等.) 我們系統(tǒng)的評(píng)估是通過(guò)precision-recall精確度查全率(P/R)pairs,F-measures等方法要處理每個(gè)詞語(yǔ)分類(lèi)。因?yàn)樽⑨尩挠?xùn)練集是基于一個(gè)特別的詞庫(kù),如果和別的系統(tǒng)用到了不同的詞庫(kù),那一些評(píng)價(jià)的手段是無(wú)意義的。因此在對(duì)比不同的系統(tǒng)時(shí),我們關(guān)注NER的P/R和OAS的錯(cuò)誤,因?yàn)檫@些手段是獨(dú)立于詞庫(kù)的,通常有非常清楚的答復(fù)。 背景模式的訓(xùn)練集包含大約有八千萬(wàn)的中文字符,它們來(lái)自不同的地方如報(bào)紙,小說(shuō),雜志等。第5部分已經(jīng)有訓(xùn)練集的描述。 7.1系統(tǒng)結(jié)果 我們系統(tǒng)的設(shè)計(jì)是這樣的,各個(gè)部分如要素詞語(yǔ)發(fā)現(xiàn)器和NER都可以分拆的,所以我們可以評(píng)估各個(gè)部分的作用和對(duì)整個(gè)系統(tǒng)的貢獻(xiàn)。 結(jié)果已經(jīng)在表格1中展示出來(lái)。表格一對(duì)比可知,用了貪婪文字分割方法的在第一行,用我們系統(tǒng)的BaseLine方法在第二行,這里只用到了詞庫(kù),有意思的是第一行和第二行用詞典方法已經(jīng)能達(dá)到一個(gè)很好的查全率,但精確度就差一點(diǎn)了,因?yàn)樗鼈兌疾荒荑b別不在詞庫(kù)中的詞語(yǔ),如要素詞和名稱(chēng)詞。我們又發(fā)現(xiàn),即使使用同樣的詞庫(kù),我們的方法是基于改進(jìn)的信源信道模型勝過(guò)貪婪算法(有一個(gè)小小的,但統(tǒng)計(jì)上意思重大的數(shù)據(jù)不同),因?yàn)楸尘澳J降膽?yīng)用使貪婪算法更

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論