下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、https:/基于規(guī)則及基于規(guī)則及 N gram 模型的數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換成哈薩克模型的數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換成哈薩克語(yǔ)讀音文字的方法語(yǔ)讀音文字的方法摘要:語(yǔ)音合成是哈薩克文信息處理技術(shù)的一個(gè)重要研究領(lǐng)域。哈薩克文本中的阿拉伯?dāng)?shù)字轉(zhuǎn)換為其讀音文本是語(yǔ)音合成中重要的預(yù)備工作。該文利用規(guī)則庫(kù)和 N-gram,實(shí)現(xiàn)了文本當(dāng)中的各類數(shù)字正確的轉(zhuǎn)換到讀音,為哈薩克語(yǔ)語(yǔ)音合成研究,提供了高質(zhì)量的數(shù)字讀音文本。希望通過(guò)該文提供的方法來(lái)提高哈薩克文以及相似特性的其他語(yǔ)種的語(yǔ)音合成的質(zhì)量。關(guān)鍵詞:哈薩克語(yǔ);數(shù)字讀音;規(guī)則庫(kù);N-gram中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)14-015
2、8-021 概述哈薩克語(yǔ)屬于阿爾泰語(yǔ)系突厥語(yǔ)族的克普恰克語(yǔ)支,拼音文字,中國(guó)的哈薩克文借用了阿拉伯語(yǔ)和部分波斯文字母。哈薩克文信息處理技術(shù)在近幾年來(lái)國(guó)家的支持下已取得了很多的進(jìn)步,但現(xiàn)有成果離真正實(shí)現(xiàn)中國(guó)語(yǔ)言文字信息處理的要求還有很大的距離。語(yǔ)音識(shí)別是哈薩克文信息處理技術(shù)的一個(gè)重要研究領(lǐng)域,在當(dāng)今信息社會(huì)有著廣泛的應(yīng)用前景。把哈薩克文本中的阿拉伯?dāng)?shù)字轉(zhuǎn)換為文本(下文均簡(jiǎn)稱數(shù)字轉(zhuǎn)文本)是哈薩克語(yǔ)語(yǔ)音合成當(dāng)中不可缺少的前期工作,其轉(zhuǎn)換質(zhì)量直接影響到語(yǔ)音合成的合成效果。雖然到目前為止在語(yǔ)音合成方面的研究工作取得了很多成果,但是數(shù)字轉(zhuǎn)文本方面還存在很多問(wèn)題,并且影響到了語(yǔ)音合成的質(zhì)量。本文把哈薩克阿拉
3、伯文作為主要處理對(duì)象,把哈薩克文本當(dāng)中的數(shù)字轉(zhuǎn)換為哈薩克阿拉伯文字形式。這為建立哈薩克文本的發(fā)音詞典起了重要的輔助作用。本文把底職炊練治三大類:每一位單獨(dú)轉(zhuǎn)換,每?jī)晌灰黄疝D(zhuǎn)換和所有位數(shù)一起轉(zhuǎn)換。按數(shù)字類型人工收集了包含八種基本數(shù)據(jù)類型的規(guī)則庫(kù),分別為:年、月、日、固定電話號(hào)碼(不包含地區(qū)號(hào))、固定電話號(hào)碼(包含地區(qū)號(hào))、地區(qū)號(hào)、手機(jī)號(hào)和身份證號(hào)。利用此規(guī)則庫(kù),權(quán)重累加的方式確定當(dāng)前數(shù)字類型。按數(shù)字類型確定讀法,并轉(zhuǎn)換為文本。本文還考慮一個(gè)句子出現(xiàn)多種數(shù)字類型的情況,利用 N-gram 模型限制每種數(shù)字類型上下文匹配長(zhǎng)度,減少數(shù)字類型判斷的錯(cuò)誤。2 哈薩克文數(shù)字讀法規(guī)則相同的數(shù)字在不同的文本中可
4、有不同的含義和類型,因此讀法也不一樣。本文把數(shù)字讀法類型分為三類,分別為:第一種,是數(shù)量、等級(jí)、年、月、日之類的,讀音有所有位數(shù)共同確定。比如:https:/3 數(shù)字轉(zhuǎn)換讀音的方法3.1 建立數(shù)字讀音庫(kù)為了通過(guò)組合的方式方便快速地確定哈薩克文中的數(shù)字文本,建立了數(shù)字的哈薩克語(yǔ)讀音庫(kù)。詞庫(kù)包含了哈薩克語(yǔ)當(dāng)中基本數(shù)字的讀音,通過(guò)組合就能得到較為復(fù)雜數(shù)字的發(fā)音。用此數(shù)字讀音庫(kù),遞歸的方式,進(jìn)行各類數(shù)字的組合。基本數(shù)字讀音庫(kù)如表 1 所示。3.2 創(chuàng)建規(guī)則庫(kù)為了準(zhǔn)確判斷每一種數(shù)字的類型,按照一定的格式,以人工的方式建立的規(guī)則庫(kù)。此規(guī)則庫(kù)包含了數(shù)字該有的基本特性,可能有的次要特性和文本中要判斷的 N-g
5、ram 模型的長(zhǎng)度。下面以年這個(gè)數(shù)據(jù)類型為例,規(guī)則庫(kù)的規(guī)則模版如表 2 所示:表 1 中每一項(xiàng)具體含義如下:1)規(guī)則數(shù)量:此規(guī)則庫(kù)包含的 N6-數(shù)字類型2)規(guī)則名:當(dāng)前規(guī)則名稱3)最少位數(shù):當(dāng)前類型數(shù)字最小的位數(shù)4)最長(zhǎng)位數(shù):當(dāng)前類型數(shù)字最長(zhǎng)的位數(shù)5)最小值:當(dāng)前類型數(shù)字的最小值6)最大值:當(dāng)前類型數(shù)字的最大值7)OR 中間字符:數(shù)字之間可能包含的次要字符(多個(gè)字符用空格分開(kāi),沒(méi)有時(shí)填 None)8)OR 前驅(qū)字符:數(shù)字之前可能包含的次要字符(多個(gè)字符用空格分開(kāi),沒(méi)有時(shí)填 None)9)OR 后驅(qū)字符:數(shù)字之后可能包含的次要字符(多個(gè)字符用空格分開(kāi),沒(méi)有時(shí)填 None)10)AND 中間字符:
6、數(shù)字之間可能包含的必要字符(多個(gè)字符用空格分開(kāi),沒(méi)有時(shí)填 None)11)AND 前驅(qū)字符:數(shù)字之前可能包含的必要字符(多個(gè)字符用空格分開(kāi),沒(méi)有時(shí)填 None)12)AND 后驅(qū)字符:數(shù)字之后可能包含的必要字符(多個(gè)字符用空格分開(kāi),沒(méi)有時(shí)填 None)https:/13)Ngram:判斷數(shù)字類型時(shí)搜索的上下文長(zhǎng)度(0 表示全句,其他數(shù)字表示實(shí)際搜索上下文長(zhǎng)度)14)讀法:當(dāng)前類型數(shù)字的讀法類型(Alhogather)規(guī)則庫(kù)中的規(guī)則數(shù)量值固定為 8,代表本文涉及的 8 種數(shù)據(jù)類型(在規(guī)則庫(kù)首部);規(guī)則名表示該規(guī)則類型名,便于建立和觀察,如年。最少位數(shù)、最長(zhǎng)位數(shù)、最小值、最大值用于判斷數(shù)字類型基本
7、性質(zhì)。OR 中間字符、OR 前驅(qū)字符、OR 后驅(qū)字符、AND 中間字符、AND 前驅(qū)字符和 AND 后驅(qū)字符用于計(jì)算數(shù)字類型的權(quán)重。每一種字符的權(quán)重賦為一,數(shù)據(jù)的權(quán)重是通過(guò)判斷當(dāng)前數(shù)據(jù)滿足幾個(gè)字符條件而累加得到。Ngram 和讀法用于搜索長(zhǎng)度和確定該類型相應(yīng)的讀法規(guī)則。3.3 判別數(shù)字類型根據(jù)規(guī)則庫(kù)對(duì)哈薩克文本語(yǔ)料中的每一句按 N-gram 長(zhǎng)度進(jìn)行匹配,確定當(dāng)前句子符合規(guī)則庫(kù)中的幾條,從而得到當(dāng)前判斷選項(xiàng)相應(yīng)的權(quán)重。重復(fù)以上步驟,得到所有數(shù)字類型的權(quán)重以后,選出權(quán)重最大的數(shù)字類型。按此類型的讀法規(guī)則進(jìn)行數(shù)字轉(zhuǎn)文本并用阿拉伯?dāng)?shù)字的文本表示替換原文中的數(shù)字表示。實(shí)驗(yàn)的總流程圖如下圖 1 所示:流
8、程圖所示,輸入一句哈薩克語(yǔ)句,第一步:先判斷當(dāng)前句子是否包含數(shù)字,如果是,則確定句子中數(shù)字的位置,記錄開(kāi)始位置和結(jié)束位置。如果一個(gè)句子中有一個(gè)以上的數(shù)字,分別都記錄開(kāi)始和結(jié)束位置;第二步:按 N-gram 長(zhǎng)度進(jìn)行規(guī)則庫(kù)的匹配,按規(guī)則庫(kù)中條件字符是否存在,包含幾條,來(lái)計(jì)算出相應(yīng)的權(quán)重;第三步:按權(quán)重值的大小確定數(shù)字類型,利用數(shù)字類型和讀法規(guī)則組成此數(shù)字的標(biāo)準(zhǔn)讀音文本,并替換到原文本中。4 實(shí)驗(yàn)結(jié)果與分析按上述流程圖進(jìn)行實(shí)驗(yàn),用 4000 句哈薩克文本進(jìn)行數(shù)字轉(zhuǎn)文本。得到的實(shí)驗(yàn)結(jié)果如下表 3 所示:由以上實(shí)驗(yàn)結(jié)果可以看出,用本文中提出的方法能夠成功的把哈薩克文本中的大部分阿拉伯?dāng)?shù)字轉(zhuǎn)換為其讀音的文本。5 結(jié)論語(yǔ)音合成是哈薩克文信息處理技術(shù)的一個(gè)重要研究領(lǐng)域,在當(dāng)今信息社會(huì)有著廣泛的應(yīng)用前景。本文用規(guī)則庫(kù)和 N-gram,模型,把哈薩克文本中的數(shù)字轉(zhuǎn)文本。此技術(shù)在哈薩克語(yǔ)語(yǔ)音合成的研究當(dāng)中,為建立哈薩克文本的發(fā)音詞典起到重要的輔助作用。本研究為用少量的工作量得到大部分?jǐn)?shù)字讀音,做出了正確的策略。與此同時(shí)本研究中的方法均可用在于阿爾泰語(yǔ)系的其他語(yǔ)言,如柯?tīng)柨俗握Z(yǔ)、烏茲別克語(yǔ)等。https
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度退休返聘員工企業(yè)可持續(xù)發(fā)展及環(huán)境保護(hù)合同
- 2025年度租賃合同能源管理規(guī)范模板
- 2025年度新能源汽車動(dòng)力電池股份認(rèn)購(gòu)協(xié)議書(shū)合同
- 2025年度租車合同電子簽章服務(wù)協(xié)議
- 2025年度家庭保姆服務(wù)與雇主雇傭合同
- 2025年度文化產(chǎn)權(quán)交易居間合同范本4篇
- 2025年度民辦學(xué)校教師職稱評(píng)定與晉升合同3篇
- 2025版高端住宅門窗定制與施工一體化合同3篇
- 二零二五年度新能源出租車司機(jī)聘用合同樣本
- 二零二五年度出租車公司司機(jī)外包管理合同法律意見(jiàn)
- 2024年安全教育培訓(xùn)試題附完整答案(奪冠系列)
- 神農(nóng)架研學(xué)課程設(shè)計(jì)
- 文化資本與民族認(rèn)同建構(gòu)-洞察分析
- 2025新譯林版英語(yǔ)七年級(jí)下單詞默寫(xiě)表
- 【超星學(xué)習(xí)通】馬克思主義基本原理(南開(kāi)大學(xué))爾雅章節(jié)測(cè)試網(wǎng)課答案
- 《錫膏培訓(xùn)教材》課件
- 斷絕父子關(guān)系協(xié)議書(shū)
- 福建省公路水運(yùn)工程試驗(yàn)檢測(cè)費(fèi)用參考指標(biāo)
- 2024年中國(guó)工業(yè)涂料行業(yè)發(fā)展現(xiàn)狀、市場(chǎng)前景、投資方向分析報(bào)告(智研咨詢發(fā)布)
- 自然科學(xué)基礎(chǔ)(小學(xué)教育專業(yè))全套教學(xué)課件
- 《工程勘察資質(zhì)分級(jí)標(biāo)準(zhǔn)和工程設(shè)計(jì)資質(zhì)分級(jí)標(biāo)準(zhǔn)》
評(píng)論
0/150
提交評(píng)論