語音識(shí)別方法及發(fā)展趨勢(shì)分析_第1頁(yè)
語音識(shí)別方法及發(fā)展趨勢(shì)分析_第2頁(yè)
語音識(shí)別方法及發(fā)展趨勢(shì)分析_第3頁(yè)
語音識(shí)別方法及發(fā)展趨勢(shì)分析_第4頁(yè)
語音識(shí)別方法及發(fā)展趨勢(shì)分析_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語音識(shí)別改進(jìn)方法及難點(diǎn)分析模式識(shí)別結(jié)課小論文學(xué)院:化工與環(huán)境學(xué)院學(xué)號(hào):2120151177姓名:杜妮摘要:隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,人工智能程度也越來越高,作為人工智能的一部分模式識(shí)別也在模型和算法上愈發(fā)成熟。本文根據(jù)近105年文獻(xiàn),分析最新聲音識(shí)別的方法和應(yīng)用。關(guān)鍵字:模式識(shí)別 聲音識(shí)別 方法 應(yīng)用隨著人工智能的迅速發(fā)展,語音識(shí)別的技術(shù)越來越成為國(guó)內(nèi)外研究機(jī)構(gòu)的焦點(diǎn)。人們致力于能使機(jī)器能夠聽懂人類的話語指令,并希望通過語音實(shí)現(xiàn)對(duì)機(jī)器的控制。語音識(shí)別的研究發(fā)展將在不遠(yuǎn)的將來極大地方便人們的生活。語音識(shí)別大致的流程包括:特征提取、聲學(xué)模型訓(xùn)練、語音模型訓(xùn)練以及識(shí)別搜索算法。作為一項(xiàng)人機(jī)交互的關(guān)鍵

2、技術(shù),語音識(shí)別在過去的幾十年里取得了飛速的發(fā)展,人們?cè)谘芯亢吞剿鬟^程中針對(duì)語音識(shí)別的各部流程進(jìn)行了各種各樣的嘗試和改造,以期發(fā)現(xiàn)更好的方法來完成語音識(shí)別流程中的各步驟,以此來促進(jìn)在不同環(huán)境下語音識(shí)別的效率和準(zhǔn)確率。本文通過查閱近10年國(guó)內(nèi)外文獻(xiàn),分析目前語音識(shí)別流程中的技術(shù)進(jìn)展和趨勢(shì),并在文章最后給出幾項(xiàng)語音識(shí)別在日常生活中的應(yīng)用案例,從而分析語音識(shí)別之后的市場(chǎng)走勢(shì)和實(shí)際利用價(jià)值。一、語音識(shí)別的改進(jìn)方法(一) 特征提取模塊改進(jìn)特征提取就是從語音信號(hào)中提取出語音的特征序列。提取的語音特征應(yīng)該能完全、準(zhǔn)確地表達(dá)語音信號(hào),特征提取的目的是提取語音信號(hào)中能代表語音特征的信息,減少語音識(shí)別時(shí)所要處理的數(shù)

3、據(jù)量。語音信號(hào)的特征分析是語音信號(hào)處理的前提和基礎(chǔ),只有分析出可以代表語音信號(hào)本質(zhì)特征的參數(shù),才能對(duì)這些參數(shù)進(jìn)行高效的語音通信,語音合成,和語音識(shí)別等處理,并且語音合成的好壞,語音識(shí)別率的高低,也都取決于語音特征提取的準(zhǔn)確性和魯棒性。目前,針對(duì)特定應(yīng)用的中小詞匯量、特定人的語音識(shí)別技術(shù)發(fā)展已較為成熟,已經(jīng)能夠滿足通常應(yīng)用的要求,并逐步投入了實(shí)用。而非特定人、大詞匯量、連續(xù)語音識(shí)別仍是目前階段語音識(shí)別研究的重點(diǎn)和難點(diǎn)【1】。由于考慮到人耳的聽覺特性, Mel 倒譜系數(shù)或感知線性預(yù)測(cè)系數(shù)【2】已經(jīng)成為目前主流的語音特征向量提取方法之一,加上它們的一階、二階差分以及對(duì)特征向量進(jìn)行歸一化處理以后, 在

4、大詞匯量連續(xù)語音識(shí)別問題上取得不錯(cuò)的結(jié)果。語音識(shí)別技術(shù)中最流行的特征參數(shù)時(shí)基于聲道模型和聽覺機(jī)理的LPCC(Linear Predictive Cepstral Coeficients)和MFCC(Mel Frequency Cepstral cocficients)參數(shù),而MFCC在低頻段具有較高的譜分辨率,對(duì)噪聲的魯棒性優(yōu)于LPCC,更適合語音識(shí)別。但與人聽覺系統(tǒng)非凡的感知能力比較,不管是LPCC還是MFCC參數(shù),在不利的噪聲環(huán)境下,其魯棒性都會(huì)急劇下降。如何在特征提取過程中抽取保持語音信號(hào)最重要的特征參數(shù),成為一個(gè)急需解決的問題。對(duì)語音識(shí)別實(shí)際應(yīng)用過程中的噪聲問題,付麗輝給出了一種新的抗

5、噪聲的特征提取算法,即先利用小波變換將語音信號(hào)進(jìn)行小波子帶分解,再根據(jù)人耳的聽覺掩蔽效應(yīng),由譜壓縮的技術(shù),將小波變換后的子帶語音信號(hào)進(jìn)行壓縮,從而提取其對(duì)應(yīng)的語音特征。通過MATLAB軟件建立實(shí)驗(yàn)平臺(tái),仿真實(shí)驗(yàn)結(jié)果表明該語音特征可以在噪聲環(huán)境下得到較高的識(shí)別率。新的特征參數(shù)即充分利用了小波的抗噪聲特性又有效地降低了語音識(shí)別中的訓(xùn)練環(huán)境和識(shí)別環(huán)境間的失配,具有抗噪聲的特點(diǎn)【3】。為克服FIR濾波器存在的通阻帶特性差、濾波器階次高等缺點(diǎn)給語音識(shí)別系統(tǒng)帶來的不利影響,黃麗霞等人采用Laguerre濾波器組代替過零峰值幅度特征提取中使用的FIR濾波器組進(jìn)行前端處理。在仔細(xì)研究FIR濾波器參數(shù)確定方法的

6、基礎(chǔ)上,詳細(xì)介紹了La-guerre濾波器原理及參數(shù)計(jì)算方法,并給出了計(jì)算結(jié)果。孤立詞、非特定人語音識(shí)別實(shí)驗(yàn)結(jié)果表明,使用Laguerre濾波器不僅使識(shí)別系統(tǒng)抗噪性能優(yōu)于使用FIR濾波器,而且濾波器階數(shù)也大為下降【4】。陳斌等人提出了一種基于最小分類錯(cuò)誤(Minimum classification error,MCE)準(zhǔn)則的線性判別分析方法 (Linear discriminant analysis, LDA),并將其應(yīng)用到連續(xù)語音識(shí)別中的特征變換。該方法采用非參數(shù)核密度估計(jì)方法進(jìn)行數(shù)據(jù)概率分布估計(jì);根據(jù)得到的概率分布,在最小分類錯(cuò)誤準(zhǔn)則下,采用基于梯度下降的線性搜索算法求解判別分析變換矩陣

7、。利用判別分析變換矩陣對(duì)相鄰幀梅爾濾波器組輸出拼接的超矢量變換降維,得到時(shí)頻特征。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的MFCC特征相比,經(jīng)過本文判別分析提取的時(shí)頻特征其識(shí)別準(zhǔn)確率提高了1。41%,相比于HLDA (Heteroscedastic LDA)和近似成對(duì)經(jīng)驗(yàn)正確率準(zhǔn)則 (Approximate pairwise empirical accuracy criterion, aPEAC) 判別分析方法,識(shí)別準(zhǔn)確率分別提高了1.14%和0.83%【5】。(二) 聲學(xué)模型訓(xùn)練改善聲學(xué)模型是語音識(shí)別系統(tǒng)的底層模型,是語音識(shí)別系統(tǒng)中最為關(guān)鍵的一部分。其目標(biāo)就是提供一種有效的方法,計(jì)算語音的特征矢量序列和每一個(gè)

8、發(fā)音模板之間的距離。傳統(tǒng)的聲學(xué)建模方式大都基于隱馬爾科夫框架,采用混合高斯模型(Guassian mixture model,GMM)來描述語音聲學(xué)特征的概率分布。針對(duì)傳統(tǒng)的“隱馬爾科夫模型- 高斯混合模型”聲學(xué)模型,目前常用的解決方案有: 結(jié)構(gòu)化協(xié)方差矩陣/精度矩陣建模方法【6】, 即假設(shè)不同協(xié)方差矩陣或其精度矩陣由若干個(gè)低秩(通常是秩為1 的) 基矩陣的線性疊加得到, 各高斯混元通過某種方式共享一組相同的基矩陣;本征三音子(Eigentriphone) 建模方法【7】, 將上下文相關(guān)狀態(tài)進(jìn)行聚類, 將每一類狀態(tài)的均值矢量限定在一個(gè)線性子空間中, 通過估計(jì)子空間中的低維坐標(biāo)矢量來重構(gòu)狀態(tài)的均

9、值矢量,從而得到更為精確的參數(shù)估計(jì); 子空間高斯混合模型(Subspace Gaussian mixture model, SGMM)【8】,將高斯混元的均值和權(quán)重限制在一個(gè)全局參數(shù)子空間中, 因此每一個(gè)狀態(tài)可以用一個(gè)或若干個(gè)低維參數(shù)子空間中的矢量來表示, 從而提高模型參數(shù)估計(jì)的穩(wěn)健性。與傳統(tǒng)的高斯混合模型相比,SGMM 聲學(xué)模型大大壓縮了模型尺寸, 并且可以利用集外數(shù)據(jù)對(duì)參數(shù)子空間進(jìn)行估計(jì),因此特別適用于訓(xùn)練數(shù)據(jù)量受限條件下的語音識(shí)別【9】。張文林等人提出從語音信號(hào)聲學(xué)特征空間的非線性流形結(jié)構(gòu)特點(diǎn)出發(fā),利用流形上的壓縮感知原理,構(gòu)建新的語音識(shí)別聲學(xué)模型。將特征空間劃分為多個(gè)局部區(qū)域,對(duì)每個(gè)局

10、部區(qū)域用一個(gè)低維的因子分析模型進(jìn)行近似,從而得到混合因子分析模型。將上下文相關(guān)狀態(tài)的觀測(cè)矢量限定在該非線性低維流形結(jié)構(gòu)上, 推導(dǎo)得到其觀測(cè)概率模型。最終每個(gè)狀態(tài)由一個(gè)服從稀疏約束的權(quán)重矢量和若干個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的低維局部因子矢量所決定?;赗M 語料庫(kù)的連續(xù)語音識(shí)別實(shí)驗(yàn)表明,相比于傳統(tǒng)的高斯混合模型(Gaussian mixture model,GMM) 和子空間高斯混合模型(Subspace Gaussian mixture model, SGMM),新聲學(xué)模型在測(cè)試集上的平均詞錯(cuò)誤率(Word error rate,WER) 分別相對(duì)下降了33。1% 和9。2 %【10】。由于隱馬爾科夫

11、屬于典型的淺層學(xué)習(xí)結(jié)構(gòu),僅含單個(gè)將原始輸入信號(hào)轉(zhuǎn)換到特定問題空間特征的簡(jiǎn)單結(jié)構(gòu),而目前識(shí)別挑戰(zhàn)越來越嚴(yán)峻,在大量的數(shù)據(jù)下其性能將會(huì)受到限制。隨著人工智能的進(jìn)一步發(fā)展,人們開始利用人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)來模擬人類大腦存儲(chǔ)及處理信息的相應(yīng)模型。目前,微軟、IBM、Goolge等許多國(guó)際知名語音研究機(jī)構(gòu)都投入了大量的經(jīng)歷開展深層神經(jīng)網(wǎng)絡(luò)的研究。近年來,微軟利用上下文相關(guān)的深層神經(jīng)網(wǎng)(context dependent deep neural network,CD-DNN)進(jìn)行聲學(xué)模型建模,并在大詞匯連續(xù)語音識(shí)別上取得相對(duì)于經(jīng)鑒別性訓(xùn)練HMM系統(tǒng)有句

12、錯(cuò)誤率相對(duì)下降23.2%的性能改善,掀起了深層神經(jīng)網(wǎng)絡(luò)在語音識(shí)別領(lǐng)域的熱潮【11】。為了克服經(jīng)典語音識(shí)別建模方式在大數(shù)據(jù)環(huán)境下的局限性,張晴晴等人提出利用卷積神經(jīng)網(wǎng)絡(luò)來完成海量數(shù)據(jù)下的語音識(shí)別。她提出,音識(shí)別中,卷積神經(jīng)網(wǎng)絡(luò)( Convolutional neural networks, CNNs)相比于目前廣泛使用的深層神經(jīng)網(wǎng)絡(luò)(deep neural network,DNNs),能在保證性能的同時(shí),大大壓縮模型的尺寸。她在文章中深入分析了卷積神經(jīng)網(wǎng)絡(luò)中卷積層和聚合層的不同結(jié)構(gòu)對(duì)識(shí)別性能的影響情況,并與目前廣泛使用的深層神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了對(duì)比。在標(biāo)準(zhǔn)語音識(shí)別庫(kù)TIMIT以及大詞表非特定人電話

13、自然口語對(duì)話數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果證明,相比傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)明顯降低模型規(guī)模的同時(shí),識(shí)別性能更好,且泛化能力更強(qiáng)【11】。(三) 語音模型訓(xùn)練改進(jìn)隨著語音識(shí)別技術(shù)的不斷發(fā)展, 語言模型在語音識(shí)別中的作用也顯得越來越重要。由于聲學(xué)信號(hào)的動(dòng)態(tài)時(shí)變、瞬時(shí)和隨機(jī)性, 單靠聲學(xué)模式的匹配與判斷不可能完成語音的無誤的識(shí)別和理解。一些較高層次的語言知識(shí)的利用可以在聲學(xué)識(shí)別的層次上減少模式匹配的模糊性, 從而提高識(shí)別的準(zhǔn)確性。并且一個(gè)大詞匯量連續(xù)語音識(shí)別系統(tǒng)必須在每一時(shí)刻檢測(cè)是否遇到語音發(fā)音邊界, 這樣許多不同的字或詞將會(huì)從不同的語音流中識(shí)別出來。為了消除這些字或詞之間的模糊性, 語言模型是必不

14、可少的。語言模型可以提供字或詞之間的上下文信息和語義信息。語言模型不僅用在語音識(shí)別系統(tǒng)中, 而且可以用在機(jī)器翻譯、信息檢索等研究領(lǐng)域【13】【14】?;陔[馬爾科夫模型的參數(shù)語音合成系統(tǒng),在采用線譜對(duì)參數(shù)表征語音頻譜特征時(shí),傳統(tǒng)MGE訓(xùn)練中使用的歐氏距離生成誤差計(jì)算方法并不能較好地反映生成頻譜與自然頻譜之間的真實(shí)距離。因此雷鳴等人提出一種基于感知加權(quán)線譜對(duì)(Line Spectral Pair,LSP)距離的最小生成誤差(Minimum Generation Error,MGE)模型訓(xùn)練方法,采用與譜參數(shù)無關(guān)的對(duì)數(shù)譜間距(Log Spectral Distortion,LSD)定義的生成誤差函

15、數(shù)來改善這一問題,但改進(jìn)后主觀效果不明顯,且運(yùn)算復(fù)雜度很高【15】。為了克服語音身份確認(rèn)中語音分割、特征提取和魯棒性差的困難,朱秉誠(chéng)等人在深入分析叩齒聲音波形特性后,提出一種了一種利用叩齒聲音進(jìn)行身份確認(rèn)的方法這種方法使用二階微分方程建立齒震動(dòng)發(fā)聲的近似模型,以此為基礎(chǔ)提出基于叩齒聲音信號(hào)的身份確認(rèn)方法。經(jīng)過實(shí)驗(yàn)證明,叩齒聲音信號(hào)穩(wěn)定性強(qiáng),處理復(fù)雜度低于聲紋信號(hào),應(yīng)用于身份識(shí)別性能優(yōu)良。該方法和經(jīng)典的支持向量機(jī)、最近鄰算法相比,運(yùn)算量低,所需訓(xùn)練樣本少?!?5】(四) 識(shí)別搜索算法改進(jìn)搜索就是在由語句構(gòu)成的空間當(dāng)中,按照一定的優(yōu)化準(zhǔn)則,尋找最優(yōu)句子的過程,也就是利用已掌握的知識(shí)(聲學(xué)知識(shí)、語音

16、學(xué)知識(shí)、詞典知識(shí)、語言模型知識(shí)以及語法語義知識(shí)等),在狀態(tài)(指的是詞組、詞、建模單元或HMM 的狀態(tài))空間中找到最優(yōu)的狀態(tài)序列。近年來, 由于信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展, 人們?cè)絹碓蕉嗟乩们度胧奖銛y設(shè)備作為獲取信息的工具。而語音識(shí)別技術(shù)作為自然方便的人機(jī)交互手段, 也已經(jīng)應(yīng)用于越來越多的嵌入式設(shè)備上。但是由于嵌入式設(shè)備的系統(tǒng)資源配置與PC有著很大的不同, 其對(duì)計(jì)算復(fù)雜度和內(nèi)存消耗有著更為苛刻的限制,尤其是嵌入式設(shè)備為滿足其低功耗一般都采用盡可能小的動(dòng)態(tài)內(nèi)存。所以一些較成熟的PC上的語音識(shí)別任務(wù)往往受限于嵌入式設(shè)備自身有限的計(jì)算能力和存儲(chǔ)量。【17】目前世界上主流的語音識(shí)別系統(tǒng)基本是采用H

17、MM框架?;贖MM的語音識(shí)別系統(tǒng)通常由聲學(xué)模型、發(fā)音詞典、搜索空間、搜索算法模塊組成。其中搜索算法是決定系統(tǒng)性能的關(guān)鍵,它決定了如何使用各種資源,而搜索算法又和搜索空間密不可分,搜索空間的構(gòu)造不僅本身影響著內(nèi)存的占用,而且也影響著搜索的效率。傳統(tǒng)的狀態(tài)樹搜索算法18是讓每個(gè)詞條通過查找發(fā)音字典取得音素序列,音素序列根據(jù)聲學(xué)模型里面的決策樹19得到相應(yīng)的音素狀態(tài)序列。狀態(tài)搜索樹的合并策略是如果兩個(gè)單詞的音素狀態(tài)序列前綴一致,合并相同的部分,虛節(jié)點(diǎn)不允許合并。解碼搜索過程中采用基于時(shí)間同步的令牌傳遞(token passing)算法20。開始識(shí)別時(shí)在root節(jié)點(diǎn)放置一個(gè)初始令牌(token),之

18、后每來一幀語音數(shù)據(jù),在已有的搜索空間中按其拓?fù)漤樞蜻M(jìn)行令牌傳遞,每一個(gè)令牌記錄識(shí)別得分并且包括回溯信息。識(shí)別過程中為了加快搜索速度,采用動(dòng)態(tài)束剪枝搜索算法21僅使得分較高的令牌繼續(xù)傳遞;識(shí)別結(jié)束時(shí)從詞尾節(jié)點(diǎn)處取得得分最高的令牌并將其回溯,即可得到首選識(shí)別結(jié)果。邵健等于提出了一種新的高效的樹搜索算法,即在原有的基于狀態(tài)音素搜索樹中合并沒有分枝的連續(xù)的單兒子節(jié)點(diǎn)序列成一個(gè)節(jié)點(diǎn),稱之為超音素節(jié)點(diǎn),超音素節(jié)點(diǎn)需要保存被合并的多個(gè)節(jié)點(diǎn)的狀態(tài)信息,用狀態(tài)音素序列來表示。對(duì)于SP節(jié)點(diǎn)和詞標(biāo)示節(jié)點(diǎn)這兩類特殊節(jié)點(diǎn)同樣不作合并。實(shí)現(xiàn)了基于超音素搜索樹的詞條動(dòng)態(tài)添加和刪除功能,使得內(nèi)存占用減少為狀態(tài)樹搜索的40%【

19、22】。2009年蔡塔等人提出了嵌入式語音識(shí)別中一種高效的圖搜索算法,通過分離聲學(xué)層和詞法層來構(gòu)建2層圖搜索空間,其中聲學(xué)層記錄聲學(xué)模型相關(guān)信息,詞法層記錄詞表語法信息.利用這樣簡(jiǎn)潔的搜索空間可以使語音識(shí)別的解碼過程更加緊湊有效.實(shí)驗(yàn)結(jié)果表明,與基線系統(tǒng)相比,所提出的雙層圖搜索算法在系統(tǒng)解碼速度相對(duì)提高10%的情況下,系統(tǒng)的動(dòng)態(tài)內(nèi)存占用僅為基線的8%.【23】二、語音識(shí)別的發(fā)展分析語音識(shí)別的應(yīng)用范圍極為廣泛,可應(yīng)用于各行各業(yè),如醫(yī)療衛(wèi)生服務(wù)、語音撥號(hào)、智能玩具、智能家居、賓館服務(wù)、軍事監(jiān)聽、股票交易、翻譯系統(tǒng)、汽車導(dǎo)航、信息網(wǎng)絡(luò)查詢、工業(yè)控制等等。語音識(shí)別廣泛涉及聲學(xué)、語言學(xué)、語音學(xué)、生理科學(xué)

20、、數(shù)字信號(hào)處理、通信理論、電子技術(shù)、計(jì)算機(jī)科學(xué)、模式識(shí)別和人工智能等眾多學(xué)科【24】。雖然語音識(shí)別近30年內(nèi)得到了極大地發(fā)展,也取得了較為廣泛的應(yīng)用,但應(yīng)該看到,語音識(shí)別依然存在很多問題需要我們解決:(一) 語音識(shí)別難點(diǎn)問題分析語音識(shí)別還做不到使機(jī)器能如同人類一樣能“聽懂”或理解自然語言,像人與人之間的語言交流一樣。主要原因是目前研究工作進(jìn)展緩慢,主要技術(shù)理論沒有突破。雖然各種新的修正方法不斷出現(xiàn),但其普遍性和實(shí)用性還存在問題。具體的來說有如下:l、語音識(shí)別系統(tǒng)的魯棒性差,對(duì)環(huán)境依賴嚴(yán)重;2、語音識(shí)別系統(tǒng)的靈活性差,不能適應(yīng)人類靈活、自然的說話方式;3、連續(xù)語音流中語音信號(hào)的聲學(xué)特征隨與之前后

21、相連的語音的不同而有很大的變化,且各語音單位之間不存在明顯的界線,語音切分很困難;4、語音特征變化大。語音特征隨發(fā)音人的不同、發(fā)音人生理或心理狀態(tài)的變化而有很大的差異;5、語音的模糊性,同音詞大量而普遍存在;6、對(duì)韻律信息的利用不足;韻律信息指的是說話之中的重音、語調(diào)等超音段信息;如何在語音識(shí)別中結(jié)合韻律信息還有待進(jìn)一步的研究;7、自然語言的多變性難以借助于一些基本語法規(guī)則進(jìn)行描述,語法、語義規(guī)則定義困難。(二) 漢語語音識(shí)別特點(diǎn)與難點(diǎn)分析對(duì)于漢語語音識(shí)別來說除具有一般語音識(shí)別的特點(diǎn)外,還有其獨(dú)特的方面,因?yàn)椋?、漢語字以單音節(jié)為單位,發(fā)音時(shí)間短,不像英語以多音節(jié)為主;2、漢語有大量的同音字;

22、漢語由60個(gè)左右的聲母和韻母組成40多個(gè)無調(diào)音節(jié)和1200多個(gè)有調(diào)音節(jié),音節(jié)與音節(jié)之間相似性大、易混淆;3、中國(guó)民族眾多,不同地區(qū)之間發(fā)音變化很大,方言多;4、漢語的字詞不分使得詞的切分成為漢語語言理解與處理獨(dú)有和首要的問題;5、靈活自由的語言表述難以用漢語語言知識(shí)表示方法來表達(dá)。技術(shù)服務(wù)于生活,生活產(chǎn)生需要,需要又將進(jìn)一步反作用于技術(shù)發(fā)展。根據(jù)對(duì)目前語音識(shí)別的技術(shù)困難分析,想必語音識(shí)別領(lǐng)域未來將針對(duì)以上種種語音識(shí)別中存在的困難和壁壘,做出新的成果。參考文獻(xiàn)【1】. 王炳錫,屈丹,彭煊,實(shí)用語音識(shí)別基礎(chǔ)M國(guó)防工業(yè)出版社2005年1月,5657【2】. Dahl G E,Yu D。context

23、-dependent pre-trained deep neutral networks for large-vovabulary speech recognition。 IEEE Trans Audio Speech Lang Process,2012,20(1):30【3】. 付麗輝 抗噪聲的小波譜壓縮特征提取算法在語音識(shí)別中的應(yīng)用。J。量子電子學(xué)報(bào)。第4期。2009【4】. 黃麗霞,張雪英 Laguerre濾波器在抗噪語音識(shí)別特征提取中的應(yīng)用J。計(jì)算機(jī)工程與應(yīng)用。第四期。2008【5】. 陳斌等?;贛CE準(zhǔn)則的語音識(shí)別特征線性判別分析J。自動(dòng)化學(xué)報(bào)。第40卷第6期。2014年6月?!?

24、】. Povey D, Burget L, Agarwal M, Akyazi P, Kai F, Ghoshal A, Glembek O, Goel N, Kara¯µat M, Rastrow A, Rose RC, Schwarz P, Thomas S。 The subspace Gaussian mixture model a structured model for speech recognition。 Computer Speech & Language, 2011, 25(2): 404-439【7】. Ko T, Mak B。 Eigentri

25、phones for context-dependent acoustic modeling。 IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(6): 1285-1294【8】. Olsen P A, Gopinath R A。 Modeling inverse covariance ma-trices by basis expansion。 IEEE Transactions on Speech and Audio Processing, 2004, 12(1): 37-46【9】. Qi J, Wa

26、ng D, Tejedor J。 Subspace models for bottleneck features。 In: Proceedings of the 14th Annual Conference of the International Speech Communication Association。 Lyon, France: ISCA, 2013。 1746-1750【10】. 張文林?;诼晫W(xué)特征空間非線性流形結(jié)構(gòu)的語音識(shí)別聲學(xué)模型【J】,自動(dòng)化學(xué)報(bào)。第41卷第5期,2015,12【11】. Dahl G E,Yu D。context-dependent pre-train

27、ed deep neutral networks for large-vovabulary speech recognition。 IEEE Trans Audio Speech Lang Process,2012,20(1):30【12】. 張晴晴。卷積神經(jīng)網(wǎng)絡(luò)的連續(xù)語音識(shí)別J。工程科學(xué)學(xué)報(bào)。第37卷,第9期,1212-1217,2015年9月【13】. Croft , W。B。 and J 。Lafferty , Language Modeling for Informatioan Retrieval M 。 2003 :Kluwer -Academic Publishers 【14】.

28、Ney , H 。, One decade o f statistical machine translation n:1996-2005 C / IEEE Workshop on Automatic Speech Recognition and Understanding (Asru ),2005 :2-2。【15】. Lei Ming。Minimum Generation Error Training Based on Perceptually Weighted Line Spectral Pair Distance for Statistical Parametric Speech Synthesis。J。2010:Pattern Recognition and Artificial Intelligence?!?6】. 朱秉誠(chéng)等

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論