下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、帶拼音糾錯的漢語音字轉(zhuǎn)換技術(shù)張瑞強,王作英,張建平清華大學(xué) 電子工程系, 北京 100084文 摘 提出了一種基于統(tǒng)計和規(guī)則的混合方法來實現(xiàn)漢語音字轉(zhuǎn)換。利用漢語的語法規(guī)則, 在統(tǒng)計語言模型中采用 了兩種基于詞和詞性的混合語言模型。在實驗中, 將這兩種 混合語言模型與基于詞的語言模型進行了比較。 實驗證明, 在語言模型中引入詞性后, 提高了音字轉(zhuǎn)換正確率。 考慮了 出現(xiàn)拼音錯誤時的音字轉(zhuǎn)換問題, 提出了一種拼音糾錯方法 來糾正錯誤。實驗證明, 當(dāng)拼音正確率高于 85% 時, 這種帶 糾錯的音字轉(zhuǎn)換方法可以提高音字轉(zhuǎn)換正確率。關(guān)鍵詞 連續(xù)語音識別; 統(tǒng)計語言模型; 自然語言理解分類號 tn 91
2、2. 34是完全正確的, 總是存在錯誤拼音。本文提出了一種基于統(tǒng)計方法和規(guī)則方法相結(jié) 合的音字轉(zhuǎn)換方法。 在統(tǒng)計方法中使用了詞性的知識, 構(gòu)造出了基于詞和詞性的混合語言模型。音字轉(zhuǎn)換過程分三步: 1) 利用統(tǒng)計語言模型 對輸入拼音串進行初次轉(zhuǎn)換, 得到初次轉(zhuǎn)換詞串;2) 將初次轉(zhuǎn)換詞串糾錯, 得到正確的候選拼音; 3)對 2) 中得到的候選拼音再一次利用統(tǒng)計語言模型 轉(zhuǎn)換, 得到最終詞串。 見圖 1。本文所研究的語音識別的任務(wù), 是無限詞匯量、語法不受限制的漢語連續(xù)語音識別。 要求對于輸入 的自然語音, 用計算機輸出與此語音相對應(yīng)的漢字串。識別過程分兩步: 第一步是底層聲音識別, 將輸入的語音
3、信號經(jīng)過識別得到一串漢語拼音; 第二步 是上層拼音理解, 將拼音串轉(zhuǎn)化為對應(yīng)的漢字串, 即 音字轉(zhuǎn)換。 音字轉(zhuǎn)換的關(guān)鍵是解決同音字的問題。解決這個問題一般用兩種方法。 一種是基于統(tǒng) 計的方法1 5 , 其優(yōu)點是不需要進行漢語語法分析, 不必構(gòu)造復(fù)雜的語法規(guī)則; 缺點是由于它必須充分 訓(xùn)練大量的數(shù)據(jù), 因而必須要有一個很大的語料庫, 且對語料庫的依賴性強。 當(dāng)用于與訓(xùn)練語料不同的 領(lǐng)域時, 正確率會下降很多。另一種是基于規(guī)則的方法6 8 , 它需要對漢語進行詳細分類, 歸納詞類與詞 類之間以及詞與詞類之間的用法。 這種方法用于大 詞匯量且語法不受限制的任務(wù)時不太好用。用以上兩種方法進行音字轉(zhuǎn)換,
4、 在轉(zhuǎn)換拼音完 全正確的條件下, 都能夠達到很高的字轉(zhuǎn)換正確率4, 7 。 但是, 語音識別的底層聲音識別結(jié)果不可能可信度字正確拼音圖1 音字轉(zhuǎn)換過程框圖統(tǒng)計語言模型假定語言可以看成是由一個m a rk ov 信源產(chǎn)生 的, 信源的符號就是詞, 假設(shè)由詞串w 1w 2 w n 構(gòu)成 的句子, 它的概率可以由條件概率公式得到。p (w 1w 2 w n ) =n1p (w 1 ) 7 p (w i|w 1w 2 w i- 1 )(1)i= 2音字轉(zhuǎn)換的數(shù)學(xué)模型就是在給定拼音 a , 欲得到該拼音對應(yīng)的漢字串w ;w = a rg m a x p (w |a ) =wa rg m a x p (w
5、 ) p (a |w ) |p (a ) =wa rg m a x p (w ) p (a |w )收稿日期: 1996210214第一作者: 男, 1967 年生, 博士研究生w a rg m a x p (w )(2)詞庫含錯 拼音串生成詞圖找出最大p (w )二元詞 連接組確定最小規(guī)則最終詞串找出最 大p (w )生成候選清 華 大 學(xué) 學(xué) 報 (自 然 科 學(xué) 版)1997, 37 (10)10式 ( 2) 的意義在于: 在對應(yīng)于拼音串 a 的所有本文采用的糾錯方法是: “詞組匹配糾正法”,糾錯的步驟分兩步: 首先找到錯誤拼音所在的位 置。 用統(tǒng)計語言模型對拼音串進行第一步轉(zhuǎn)換。 用
6、“可信度”來衡量音字轉(zhuǎn)換結(jié)果中漢字的正確程度??尚哦仍降? 該漢字出錯的可能性就越大。 可信度( r) 的計算依據(jù)下式:候選詞中, 那個使得 p (w ) 最大的詞w就是所求。p (w ) 由式 ( 1) 求出, 為簡單計, 采用二元文法,式(1) 變?yōu)?np (w 1w 2 w n ) = p (w 1 ) 7 p (w i|w i- 1 )(3)i= 2p (w i |w i- 1 ) 可以由許多模型求出, 本文作者實驗了三種模型。模型 1p (w i|w i- 1 ) c (w i- 1w i) c (w i) = f (w i|w i- 1 )其中 c (w i- 1w i) 和 c
7、(w i) 是詞串w i- 1w i 和詞w i 在語 料庫中的出現(xiàn)次數(shù), 可以由語料庫統(tǒng)計得到。為解 決 零 概 率 問 題 并 能 更 好 地 估 計 p (w i |w i- 1 ) , 采用基于詞與詞性的混合語言模型, 即模型 2p (w i|w i- 1 ) = 1 f (w i|w i- 1 ) + 2 f (w i) +3 f (w i| g i) f (g i| g i- 1 )其中, 1 , 2 , 3 0; 1 + 2 + 3 = 1。g i 為詞 w i 所對 應(yīng)的詞性, 作者建立了一個漢語的語法類, 共 80 類, 包括名詞、動詞、形容詞等大類, 還詳細地分了一些 小類
8、如姓氏類, 地名類等。我們對語料庫的語料進行 了詞性標(biāo)注, 這些標(biāo)注是依據(jù)上下文, 在一些語法規(guī) 則支持下完成的, 然后再從標(biāo)注好的語料中提取詞 的詞性。 這樣每個詞的詞性都有 1 個或多個。 為了 使用模型 2 和模型 3, 作者還對標(biāo)注了詞性的語料 庫進行了詞性頻率的統(tǒng)計。另外, 漢語的詞對它后面相鄰詞的詞性有要求, 比如: “吃”后邊一般跟名詞, 所以在語言模型中也 引入了這一知識。模型 3p (w i|w i- 1 ) = 1 f (w i|w i- 1 ) + 2 f (w i) +3 f (w i| g i) f (g i|w i- 1 ) +4 f (w i| g i) f (g
9、 i| g i- 1 )(4)r= a 1 + a 2 + a 3a 1 是一個詞所含字的個數(shù)。一般來說在轉(zhuǎn)換結(jié)果中單字詞容易出錯, 多字詞不易出錯。所以當(dāng)一個 詞為單字詞時, 它的 a 1 = 0; 為二字詞時, 它的 a 1 =為多于二字詞時, a 1 = 2。a 2 指兩個相鄰詞之間的連接關(guān)系。 如果詞 w i與詞w j 按照語法規(guī)則可以組成短語w iw j 或者詞串 w iw j 的連接曾經(jīng)在語料庫中出現(xiàn)過且被統(tǒng)計到, 那 么 w i 與 w j 的關(guān)系用 (w i w j ) 來表示。 對于詞串 w 1w 2w 3 , 如果 (w 1 w 2 ) 且 (w 2 w 3 ) , 則 w
10、 2 的 a 2 =1;如果 (w 1 w 2 ) 和 (w 2 w 3 ) 有一個成立, 則w 2 的2;a 2 = 1; 如果 (w 1 w 2 ) 和 (w 2 w 3 ) 均不成立, 則 w 2的 a 2 = 0。a 3 的意義與 a 2 相同只不過 a 3 考慮詞性連接而 不是詞連接。假設(shè)詞w 1w 2w 3 對應(yīng)的詞性為 g 1 g 2 g 3 ,如果 (g 1 g 2 ) 而且 (g 2 g 3 ) , 則 w 2 的 a 3 = 2; 如果( g 1 g 2 ) 和 (g 2 g 3 ) 僅有一個成立則 w 2 的 a 3 = 1; (g 1 g 2 ) 和(g 2 g 3 )
11、 均不成立, 則 a 3 = 0。得到每個漢字的可信度后, 假設(shè)可信度最小的漢字附近存在錯誤拼音。 糾錯就是糾正可信度最低 的漢字及其相鄰字所對應(yīng)的拼音, 進而產(chǎn)生一個候選的正確拼音序列, 然后再一次應(yīng)用統(tǒng)計方法進行音字轉(zhuǎn)換。 候選拼音有兩種方式產(chǎn)生。 第一根據(jù)統(tǒng) 計的二元詞連接對。假設(shè)要糾正句子w 1w 2w 3w 4w 5 , 由式 ( 4) 計算出 w 3 的可信度最小, 那么可以假定錯 誤拼音在w 3 或w 2 , w 4 中。根據(jù)二元詞連接對, 可以 找到使 (x w 3 ) 或者 (w 3 x ) 成立的所有詞 x , 然 后從 x 中保留含有與w 2w 3w 4 拼音相同的詞。并
12、把 這些詞的拼音作為候選拼音。比如“熱愛祖國”誤識 為“熱賴祖國”, 通過二元詞連接對知道“熱愛”與 “祖國”可以連接, 則用“愛”的拼音代替“賴”的拼音。 第二種產(chǎn)生候選拼音的方法是根據(jù)漢語的詞組生成 規(guī)則。因為統(tǒng)計語料是有限的, 許多二元詞連接沒有 被統(tǒng)計到, 這時要依據(jù)規(guī)則。 比如“他熱愛他的 祖國”誤識為“他熱賴他的祖國”, 根據(jù)規(guī)則, “熱愛”與“祖國”可以構(gòu)成動賓短語, 而且在本文的 短語庫中存在這一短語, 則就用“熱愛”替代“熱賴”。 用“愛”的拼音替代“賴”的拼音。其中,1 , 2 , 3 , 4 0; 1 + 2 + 3 + 4 = 1。模型 2 和模型 3 可以參考文1,
13、2, 5 。規(guī)則方法進行糾錯用統(tǒng)計方法進行音字轉(zhuǎn)換, 當(dāng)拼音串完全正確 時, 字轉(zhuǎn)換正確率能夠達到 98% 4 。 當(dāng)轉(zhuǎn)換拼音串 中有錯誤拼音時, 字轉(zhuǎn)換正確率下降很快。比如當(dāng)拼 音串正確率下降 10 個百分點 (90% ) 時, 則字轉(zhuǎn)換正 確率將會下降 20 個百分點, 僅到 80% 。所以由于音 字轉(zhuǎn)換的正確率下降, 使得整個語音識別系統(tǒng)的性 能下降。 所以應(yīng)對轉(zhuǎn)換結(jié)果進行糾錯。2張瑞強, 等: 帶拼音糾錯的漢語音字轉(zhuǎn)換技術(shù)11當(dāng)代到可信度最低的詞的侯選拼音后, 再一次應(yīng)用統(tǒng)計語言模型從中選出最終的轉(zhuǎn)換詞串。帶糾錯的效果非常明顯, 字正確率顯著提高。表 1 三個實驗中字轉(zhuǎn)換正確率的比較知
14、識庫3實驗 1實驗 2實驗 3有三種知識庫用于音字轉(zhuǎn)換。1) 詞典 本文的詞典分兩部分。一部分是基本詞庫, 共有56 000; 另一部分是擴充詞庫。約有 20 000 詞。這些 詞均有拼音和詞性。2) 語料庫根據(jù)從 1991 年到 1993 年的約 4 千萬字的人民 日報的語料, 對語料庫進行分詞。對語料庫進行詞性 標(biāo)注, 從中得到統(tǒng)計語言模型所需要的數(shù)據(jù)如二元 詞連接對, 詞性連接對, 詞頻等。3) 規(guī)則庫將詞分為 80 類, 包括名詞、動詞、形容詞等大類 和一些小類, 建立了 100 多條規(guī)則用于糾錯。集內(nèi)集外集內(nèi)集外集內(nèi)集外模型 1模型 2模型 398. 598. 899. 195. 2
15、97. 698. 572. 374. 577. 471. 273. 376. 584. 585. 788. 581. 384. 386. 5結(jié)束語5本文應(yīng)用了一個新的基于詞和詞性的統(tǒng)計語言模型來處理音字轉(zhuǎn)換問題。 實驗證明帶詞性的語言 模型的結(jié)果要比單純基于詞的模型好, 而且本文還 提出了一種拼音糾錯方法來提高拼音中含錯誤拼音 時的字轉(zhuǎn)換正確率, 得到很好的結(jié)果。非常感謝黃昌寧教授和孫茂松教師為本文語料 庫詞性標(biāo)注所作的工作。實驗結(jié)果為了實驗三種語言模型的性能以及糾錯的效 果, 本文作了三個實驗。實驗 1在拼音串完全正確時, 模型 1、模型 2和模型 3 的比較。用于訓(xùn)練的語料從 1991 年
16、 1 月到 1993 年 11 月, 隨機抽取了 1993 年 2 月份的集內(nèi)語料 30 萬字 和 1993 年 12 月份的集外語料 30 萬字進行比較。先 對這些語料注上拼音。注音正確率達 100 , 然后將這些拼音進行轉(zhuǎn)換, 實驗結(jié)果見表 1。 可以看出, 模 型 2 與模型 3 的結(jié)果比模型 1 好。 說明語言模型加 入詞性后, 字正確率得到提高。 特別是對集外語料, 效果更加明顯。實驗 2當(dāng)拼音串正確率為 85 時, 不帶糾錯時模型 1、模型 2 與模型 3 的比較。從 1993 年 2 月份和 1993 年 12 月份中各選取1 000個句子且標(biāo)注上拼音, 然后從這些拼音中隨機 選
17、出 15 , 將這些拼音用錯誤拼音替換掉, 這時拼 音的正確率為 85 。 先不作糾錯, 直接用統(tǒng)計語言模型進行音字轉(zhuǎn)換, 轉(zhuǎn)換結(jié)果見表 1。 可以看出, 拼 音出錯后, 與表 1 相比正確率下降很多。 但是模型2, 模型 3 的結(jié)果仍比模型 1 好, 說明帶詞性的語言 模型還是有效的。實驗 3當(dāng)拼音串正確率為 85 , 帶糾錯時模型 1、模型 2 與模型 3 的比較。 測試數(shù)據(jù)完全同實驗 2, 結(jié)果見表 1。可以看出,4參考文獻1j e linek f. se lf2o rgan ized language m o de ling fo r sp eech reco gn it io n.
18、ica ssp 89: 450iso tan i r , m a t sunaga s. a sto cha st ic language m o de l fo r sp eech reco gn it io n in teg ra t io n lo ca l land g lo ba l co n st ra in t s. ica ssp 94: 5l ee k f , h o n w h , r eady r. a n o ve rv iew o f thesph in x sp eech reco gn it io n sy stem. ie e e t ran s o na ss
19、p , 1990, 38 (1) : 35 45郭 進. 統(tǒng)計語言模型及漢語音字轉(zhuǎn)換. 中文信息學(xué) 報, 1989 (1) : 18 27d e ro uau lt a , m e r ia ldo b. n a tu ra l language m o de ling fo r p ho nem e2to 2tex t t ran scr ip t io n. ie e e t ran s o npam i. 1986, 8 (6) : 742 748l ee l s, t seng c y , c h en k j. a m anda r ian d icta t io n m ach i
20、ne ba sed upo n a h ie ra rch ica lreco gn it io n app ro ach and c h ine se na tu ra l language23456ana ly sis.704王曉龍.ie e e t ran s o n pam i, 1990, 12 (7) : 695音字轉(zhuǎn)換中的機器學(xué)習(xí)研究. 計算機學(xué)報,71993, 16 (5) : 371 377l ee l s, l in l j , c hen k j. a n eff ic ien t na tu ra l language p ro ce ssing sy stem sp
21、ec ia lly de signed fo r the c h ine se language. com p u ta t io na l l ingu ist ic s, 1991,17: 347 374(下轉(zhuǎn)第 20 頁)8清 華 大 學(xué) 學(xué) 報 (自 然 科 學(xué) 版)1997, 37 (10)20sy stem fo r m o b ile te lecomm un ica t io n (gsm ) to cop e w ith seve re t im e2and f requency2se lec t ive d isto r t io n s cau sed by m u lt
22、 ip a th p rop aga t io n. a sim p lif ied m ax im um like lihoo d rece ive r st ruc tu re is de r ived and tw o a lgo r ithm s, o ne fo r ch anne l p a ram e te r e st im a t io n and ano the r fo r m ax im um like lihoo d e st im a t io n o f th e info rm a t io n b it, h ave been sugge sted. t h
23、e la te r is ba sed o n a r t if ic ia l neu ra l ne tw o rk. com p a red w ith the v ite rb i a lgo r ithm , th is new a lgo r ithm fo r m ax im um lik e lihoo d e st im a t io n h a s sign if ican t ly reduced com p lex ity w ith no sacr if ice o n th e sy stem p e rfo rm ance.s im u la t io n re
24、su lt s a re g iven.key words g lo ba l sy stem fo r m o b ile te lecomm un ica t io n結(jié)論4gsm 信號的最大似然接收如按嚴格的非線性調(diào)制考慮并采用維特比算法將是非常復(fù)雜的。本文 對此提出了系統(tǒng)的解決方法。首先用最優(yōu)波形下的線性調(diào)制逼近 gm s k 調(diào)制, 這樣帶來的相位誤差可在一度以下。其次, 利用前導(dǎo)碼元可對信道參數(shù)進行 快速最優(yōu)估計。這一估計所用的算法在準(zhǔn)則上與 k a lm a n 算法一致且計算量小。最后對信號的最大似然估計可用 h op f ie ld 人工神經(jīng)網(wǎng)絡(luò)算法取代傳 統(tǒng)的維特比算法,
25、這樣不但計算量可小一個量級以 上且在性能上仍能達到維特比算法的水平。仿真結(jié) 果與理論分析一致。(gsm ) ;m ax im umlike lihoo drece ive r;h op f ie ld neu ra l ne tw o rk參考文獻1h agm anns f j . a n op t im um d e tec t ion of l inea r lyf i l te red c pm s ig na l. i e e e t rans c om m u n , . 1991,com 239 (7) : 1 034 1 036l o n w k , f a lcone r d
26、d , s h e ik h u h . a d ap t iv e equ a l iz a t ion and d iv e rs i ty com bin ing f o r m obi le rad io u s ing in te rp o la ted ch anne l es t im a tes. i e e e t rans v eht ech nol 1991 t v 240 (3) : 636 645a r ia g d , p ie rm a r in i r , z ing a re l l i v . f as t ad ap t iv e equ a l iz e
27、 rs f or na r row 2band t dm a m obi le rad io.i e e e t rans v eh t ech nol 1991 v t 240 (2) : 392 404w en k u e i2a nn , w en t ing 2s h ium , w ang j h ing 2fa .a new t ransf o rm a lg o r i thm f or v i te rbi d ecod ing.i e e e t rans c om m u n 1990 com 238 (6) : 764 772h op f ie ld j j . c om
28、 p u t ing w i th neu ra l c i rcu i ts: am od e l. s c ience, 1986, 233: 625 633e t s i gsm r ecom m end a t ion 05. 05 t ransm iss ion and recep t ion. b e rne: c e p t , 1988(上接第 11 頁)2ch in e se p in y in - to- tex t tran sla t iontechn ique w ith error correc t ion used f or con t in uous speec
29、h recogn it ion3zha ng r u iq ia ng , w a ng zuo y ing ,z ha ng j ia np ing4d ep a r tm en t o f e lec t ro n ic e ng inee r ing,t singhua u n ive r sity, b e ijing 10008456a bstrac t t h is p ap e r m ak e s u se o f a hyb r id sta t ist ica l andru le app ro ach to rea lize c h ine se p iny in 2to 2tex t t ran sla t io n.w ith th e he lp o f
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 部編版一年級數(shù)學(xué)下冊數(shù)學(xué)全冊教案
- 會計基礎(chǔ)重點復(fù)習(xí)題及答案
- 2024版漏水免責(zé)協(xié)議
- 二零二五年度古玩字畫藝術(shù)品投資與管理合同3篇
- 2025版文化藝術(shù)品交易居間服務(wù)合同
- 2024版房地產(chǎn)代理公司協(xié)議書
- 2025屆高考地理一輪復(fù)習(xí)第二十三講中國地理素能特訓(xùn)含解析
- 二零二五年度房地產(chǎn)開發(fā)墊資服務(wù)協(xié)議6篇
- 2025屆高考數(shù)學(xué)一輪復(fù)習(xí)第2章函數(shù)導(dǎo)數(shù)及其應(yīng)用第11講導(dǎo)數(shù)在研究函數(shù)中的應(yīng)用第3課時導(dǎo)數(shù)的綜合應(yīng)用創(chuàng)新教學(xué)案含解析新人教版
- 2025屆高考數(shù)學(xué)一輪復(fù)習(xí)第六章數(shù)列第2節(jié)等差數(shù)列及其前n項和教學(xué)案含解析新人教A版
- 商業(yè)定價表(含各商鋪價格測算銷售回款)
- 【化學(xué)】重慶市2021-2022學(xué)年高一上學(xué)期期末聯(lián)合檢測試題
- 供應(yīng)商物料質(zhì)量問題賠償協(xié)議(終端)
- 單位工程質(zhì)量控制程序流程圖
- 部編版小學(xué)語文三年級(下冊)學(xué)期課程綱要
- 化學(xué)工業(yè)有毒有害作業(yè)工種范圍表
- 洼田飲水試驗
- 定置定位管理一
- 商票保貼協(xié)議
- TOP-DOWN培訓(xùn)
- 電動力學(xué)答案完整
評論
0/150
提交評論