基于dsp的語(yǔ)音識(shí)別與合成技術(shù)_第1頁(yè)
基于dsp的語(yǔ)音識(shí)別與合成技術(shù)_第2頁(yè)
基于dsp的語(yǔ)音識(shí)別與合成技術(shù)_第3頁(yè)
基于dsp的語(yǔ)音識(shí)別與合成技術(shù)_第4頁(yè)
基于dsp的語(yǔ)音識(shí)別與合成技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于DSF的語(yǔ)音識(shí)別與合成技術(shù)學(xué)號(hào):201116022106班級(jí): 姓名: 2014年6月13日#一?概述1.語(yǔ)音識(shí)別語(yǔ)音識(shí)別是試圖使機(jī)器能“聽(tīng)懂”人類語(yǔ)音的技術(shù)。語(yǔ)音識(shí)別的作用是將語(yǔ)音轉(zhuǎn)換成等價(jià)的書面信息,也就是讓計(jì)算機(jī)聽(tīng)懂人說(shuō)話。作為一門交叉學(xué)科,語(yǔ)音識(shí)別又是以語(yǔ)音為研究對(duì)象,是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支,涉及到計(jì)算機(jī)、信號(hào)處理、生理學(xué)、語(yǔ)言學(xué)、神經(jīng)心理學(xué)、人工智能等諸多領(lǐng)域,還涉及到人的體態(tài)語(yǔ)言,其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語(yǔ)言通信。2■語(yǔ)音合成語(yǔ)音合成是通過(guò)機(jī)械的、電子的方法產(chǎn)生人造語(yǔ)音的技術(shù)。TTS技術(shù)(又稱文語(yǔ)轉(zhuǎn)換技術(shù))隸屬于語(yǔ)音合成,它是將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月?tīng)得懂的、流利的漢語(yǔ)口語(yǔ)輸出的技術(shù)。國(guó)內(nèi)研究歷史及現(xiàn)狀我國(guó)在語(yǔ)音識(shí)別研究上也投入了很大的精力, 國(guó)內(nèi)中科院的自動(dòng)化所、聲學(xué)所以及清華大學(xué)等科研機(jī)構(gòu)和高校都在從事語(yǔ)音識(shí)別領(lǐng)域的研究和開(kāi)發(fā)。國(guó)家 863智能計(jì)算機(jī)專家組為語(yǔ)音識(shí)別技術(shù)研究專門立項(xiàng),我國(guó)語(yǔ)音識(shí)別技術(shù)的研究水平已經(jīng)基本上與國(guó)外同步。語(yǔ)音識(shí)別的流程根據(jù)對(duì)輸出觀測(cè)值概率的不同描述, HMM(隱式馬爾可夫鏈)可分為離散HMM(DHMM)和連續(xù)HMM(CHMM),在基于DHMM的非特定人語(yǔ)音識(shí)別過(guò)程中語(yǔ)音信號(hào)先被分成若干音框(幀),每個(gè)音框用一個(gè)特征向量參數(shù)表示,然后將語(yǔ)音特征參數(shù)向量的時(shí)間序列矢量化,此時(shí)每一個(gè)音框的語(yǔ)音信號(hào)變成 VQ碼本,用碼本訓(xùn)練HMM,最后測(cè)試識(shí)別率。語(yǔ)音信號(hào)分析方法分類時(shí)域特征頻域及倒譜域特征由時(shí)域信號(hào)進(jìn)行頻譜變換得到,反映語(yǔ)音信號(hào)的頻域特性包括傅里葉頻譜、倒譜以及利用了語(yǔ)音信號(hào)的時(shí)序信息的時(shí)頻譜。聽(tīng)覺(jué)特征指不直接對(duì)聲道模型進(jìn)行研究,而是從人類聽(tīng)覺(jué)系統(tǒng)對(duì)語(yǔ)音的感知特性來(lái)刻畫語(yǔ)音信號(hào)的特征。基于Mel頻率的倒譜MFCC在語(yǔ)音識(shí)別(SpeechRecognition)和語(yǔ)者辨識(shí)(SpeakerRecognition)方面,最常用到的語(yǔ)音特征就是[梅爾倒頻譜系數(shù)](Mel-scaleFrequencyCepstralCoefficients,簡(jiǎn)稱MFCC),此參數(shù)考慮到人耳對(duì)不同頻率的感受程度,因此特別適合用在語(yǔ)音識(shí)別。音框化(Frameblocking)先將N個(gè)取樣點(diǎn)集合成一個(gè)觀測(cè)單位,稱為音框(Frame),通常N的值256或512,涵蓋的時(shí)間約為20~30ms左右。為了避免相鄰兩音框的變化過(guò)大,所以我們會(huì)讓兩相鄰因框之間有一段重迭區(qū)域,此重迭區(qū)域包含了 M個(gè)取樣點(diǎn),通常M的值約是N的一半或1/3。通常語(yǔ)音識(shí)別所用的音頻的取樣頻率為 8KHz或16KHz,8KHz來(lái)說(shuō),若音框長(zhǎng)度為256個(gè)取樣點(diǎn),則對(duì)應(yīng)的時(shí)間長(zhǎng)度是256/8000*1000=32ms。漢明窗(HammingwindoW將每一個(gè)音框乘上漢明窗,以增加音框左端和右端的連續(xù)性(請(qǐng)見(jiàn)下一個(gè)步驟的說(shuō)明)。假設(shè)音框化的訊號(hào)為S(n),n=0,--N-10那么乘上漢明窗后為S'(n)=S(n)*W(n),此W(n)形式如下快速傅利葉轉(zhuǎn)換(FFT由于訊號(hào)在時(shí)域(Timedomain)上的變化通常很難看出訊號(hào)的特性,所以通常將它轉(zhuǎn)換成頻域(Frequencydomain)上的能量分布來(lái)觀察,不同的能量分布,就能代表不同語(yǔ)音的特性。所以在乘上漢明窗后,每個(gè)音框還必需再經(jīng)過(guò)FFT以得到在頻譜上的能量分布。三角帶通濾波器組(TriangularBandpassFilters )將能量頻譜能量乘以一組20個(gè)三角帶通濾波器,求得每一個(gè)濾波器輸出的對(duì)數(shù)能量(LogEnergy)。必須注意的是:這20個(gè)三角帶通濾波器在梅爾頻率(MelFrequency)上是平均分布的,而梅爾頻率和一般頻率 f的關(guān)系式如下:Mel(F)=2595*log10(1 —)700梅爾頻率代表一般人耳對(duì)于頻率的感受度,由此也可以看出人耳對(duì)于頻率f的感受是呈對(duì)數(shù)變化的:在低頻部分,人耳感受是比較敏銳。在高頻部分,人耳的感受就會(huì)越來(lái)越粗糙。

芯片概況介紹TMS320C54XX系列簡(jiǎn)介TMS320C54芯片采用先進(jìn)的修正哈佛結(jié)構(gòu)和8條4組總線結(jié)構(gòu)使處理器的性能有極大的提高。它的獨(dú)立的程序和數(shù)據(jù)總線允許同時(shí)訪問(wèn)程序存儲(chǔ)器和數(shù)據(jù)存儲(chǔ)器,實(shí)現(xiàn)高度并行操作,例如可以在一條指令中,同時(shí)執(zhí)行 3次讀操作和1次寫操作。還可以在數(shù)據(jù)總線和程序總線之間相互傳送數(shù)據(jù),從而使處理器具有在單個(gè)周期內(nèi)同時(shí)執(zhí)行算術(shù)運(yùn)算、邏輯運(yùn)算、移位操作、乘法累加運(yùn)算以及訪問(wèn)程序和數(shù)據(jù)存儲(chǔ)器的強(qiáng)大功能。采用模塊化設(shè)計(jì)現(xiàn)金的集成電路設(shè)計(jì)以及先進(jìn)的集成電路技術(shù),芯片的功耗小,成本低的強(qiáng)大好處。集成電路設(shè)計(jì)以及先進(jìn)的集成電路技術(shù),芯片的功耗小,成本低的強(qiáng)大好處。程序/數(shù)據(jù)ROM程序/數(shù)據(jù)RAMJTAGZ測(cè)試仿真控制D(15-0)乜 ?A(15程序/數(shù)據(jù)ROM程序/數(shù)據(jù)RAMJTAGZ測(cè)試仿真控制D(15-0)乜 ?A(15-0)色——片17X17乘法器40bit加法器CPUALU程序/數(shù)據(jù)總線40bitALU比較選擇單元(Viterbi)指數(shù)編碼器移位器 累加器 40bit桶形移位寄存器(-16?31)40bitACCA40bitACCB尋扯單元8個(gè)輔助寄存器2個(gè)地址產(chǎn)生單元電源管理C54XX功能結(jié)構(gòu)框圖!??E?rI"wyIT-rvgirHiwr■■■■?a,i,'#1!??E?rI"wyIT-rvgirHiwr■■■■?a,i,'#1rrI ^1Tx1TJ ITH?rr*l!*hlti?r;s嚴(yán):z常"探i-ia**u口匚Mrnr*!」AfieocMraTUElACDTMS320C54XDSP內(nèi)部硬件組成框圖三.系統(tǒng)總體設(shè)計(jì)3.1語(yǔ)音識(shí)別系統(tǒng)結(jié)構(gòu)示意圖語(yǔ)音輸入方式省去了大量的輸入時(shí)間,降低了信息檢索的復(fù)雜度,該芯片可存放數(shù)百?gòu)堈Z(yǔ)音名片,每張名片包含四條信息:姓名、電話號(hào)碼、工作單位、備注;聲控查找語(yǔ)音名片信息,用戶只需口述所要查找人的姓名,即可獲得電話號(hào)碼、工作單位、備注等信息,同時(shí)電話號(hào)碼顯示在液晶屏上 ⑷系統(tǒng)結(jié)構(gòu)示意圖3.2 內(nèi)部系統(tǒng)構(gòu)成用于“錄音”功能的ACELP算法是該碼率下性能優(yōu)異的解碼算法,雖然算法復(fù)雜度較高,但共重建語(yǔ)音素質(zhì)的平均主觀評(píng)測(cè)分?jǐn)?shù)( MOS分)達(dá)到如圖1所示,系統(tǒng)由MCU實(shí)現(xiàn)總線控制,接收外部鍵盤輸入,并在液晶屏上顯示信息。在本系統(tǒng)中,語(yǔ)音充當(dāng)大部分人機(jī)界面的角色,盡管省去復(fù)雜的鍵盤操作,而且用語(yǔ)音提示或語(yǔ)音操作回放代替一部分液晶文字提示。由于語(yǔ)音要經(jīng)過(guò)DSP處理,所以MCU需要與DSP經(jīng)常交換信息,一邊實(shí)現(xiàn)友好的操作界面。系統(tǒng)由MCU實(shí)現(xiàn)總線控制,接收外部鍵盤輸入,并在液晶屏上顯示信息。本系統(tǒng)中,語(yǔ)音充當(dāng)大部分人機(jī)界面的角色, 盡量減去復(fù)雜的鍵盤操作,而且用語(yǔ)音提示或語(yǔ)音回放代替一部分的液晶文字提示。由于語(yǔ)音要經(jīng)過(guò) DSP處理,所以MCU需要與DSP經(jīng)常交換信息,以便實(shí)現(xiàn)又友好的操作界面[5]換信息,以便實(shí)現(xiàn)又友好的操作界面[5]321DSPDSP(TMS320C541是整個(gè)硬件系統(tǒng)的信號(hào)處理中心,完成語(yǔ)音識(shí)別、訓(xùn)練、編解碼,進(jìn)行片內(nèi)RAM及外部FLASH存儲(chǔ)芯片的數(shù)據(jù)管理與調(diào)度,并向主控芯片 MCU提供簡(jiǎn)潔的命令與反饋信息。TMS32054X系列的產(chǎn)品。其主要性能指標(biāo)如下:116位定點(diǎn)的DSP采用改進(jìn)的哈佛結(jié)構(gòu),供電呀3.3V;2提供了64Kbyte的片內(nèi)ROM;3由一個(gè)時(shí)分復(fù)用串口TDMffi2個(gè)帶緩沖區(qū)的標(biāo)準(zhǔn)串口BSP;4具有HPI是實(shí)現(xiàn)DSP與MCU接口的應(yīng)用;5指令周期為10ns,即運(yùn)算速度高達(dá)100MIPS;6具有管理中斷、循環(huán)運(yùn)算和功能調(diào)用的控制結(jié)構(gòu)。MCUMCU是Intel生產(chǎn)的性價(jià)比較高的一種HMO類型的8位單片機(jī),可以一次性編程,適于小批量生產(chǎn),被廣泛地應(yīng)用于家用電器的控制,他具有強(qiáng)大的 I/O功能。其主要指標(biāo)如下:片內(nèi)RAM為128*8bit;片外為64K*8bit片外EPROM64K*8bi;40個(gè)引腳,其中由32個(gè)I/O口,5個(gè)中斷源,2個(gè)16位定時(shí)器/計(jì)數(shù)器;3需求電壓為5V這些性能保證了系統(tǒng)主控能力,而且能夠提供靈活的外部接口,適于做進(jìn)一步的改進(jìn)能力和改進(jìn)。計(jì)算器等附加功能可以直接由 MCI完成。3.2.3數(shù)據(jù)FLASH存儲(chǔ)器數(shù)據(jù)FLASH存儲(chǔ)器KM29U6400是SAMSUN公司的產(chǎn)品,它可在3V電壓下低功耗工作,存貯量大、價(jià)位低、速度快、存儲(chǔ)數(shù)據(jù)掉電后可保持而不會(huì)丟失。3.3系統(tǒng)內(nèi)主要芯片的互聯(lián)互控3.3.1MCU與DSPMCI與DSP采用串行口相連,通過(guò)HPI實(shí)現(xiàn)MCI與DSP的傳送互聯(lián)MCU寸DSP的命令字與DSP對(duì)MCU勺反鎖字。DSP串口1用于語(yǔ)音輸入和輸出,串口2用于與MCI相連。由于DSP的串口收發(fā)方式和MCU勺串口不一致,所以MCI用I/O口模擬串口與DSP相連。為了保證數(shù)據(jù)傳送的穩(wěn)定性,MCU采用中斷方式接收。每次數(shù)據(jù)傳送一般不止一個(gè)人字節(jié),所以采用打包方式傳送。332DSP與數(shù)據(jù)FLASH鎖存器DSP的數(shù)據(jù)總線中的8位練到FLASH存儲(chǔ)器的總線上,用DSP的讀寫控制線WRffiRD控制FLASH控制的CE端,以保證DSP在進(jìn)行其他總線操作時(shí)不會(huì)對(duì)該FLASH芯片的“閑/忙”信號(hào)線上,監(jiān)視其股票那工作狀態(tài);分別把兩個(gè)地址線A8和A9連到FLASH芯片的兩個(gè)鎖存控制CLE和ALE上,以便控制總線的狀態(tài)。DSP與數(shù)據(jù)FLASH存儲(chǔ)器TMS320C541的Byte存儲(chǔ)區(qū)就是一個(gè)8位寬的外部雙向存儲(chǔ)空間,可用于存儲(chǔ)程序與數(shù)據(jù)。整個(gè)Byte存儲(chǔ)空間由256個(gè)16K*8的頁(yè)面組成,Byte存儲(chǔ)區(qū)只能通過(guò)BDMA進(jìn)行訪問(wèn)。在使用BDMA&式工作時(shí)用A0-A13作為低端地址,用D16-D18作為擴(kuò)展的高端地址,聯(lián)合使用實(shí)現(xiàn)4Mbyte的外部尋址能力。D8-D15作為數(shù)據(jù)總線,BMSRDWF分別用于控制存儲(chǔ)的片選以及讀寫操作信號(hào)。四.結(jié)論基于DSP的語(yǔ)音識(shí)別與合成技術(shù)的實(shí)驗(yàn),是未來(lái)SPDA語(yǔ)音個(gè)人數(shù)字助理的前型。它集成了語(yǔ)音識(shí)別、語(yǔ)音壓縮編碼、語(yǔ)音信號(hào)處理器 DSF和大容量FLASH在存儲(chǔ)的數(shù)據(jù)管理等技術(shù)、該系統(tǒng)所應(yīng)用的技術(shù)可應(yīng)用于語(yǔ)音八號(hào)電話 +語(yǔ)音錄音電話機(jī)、電話機(jī)伴侶、PDA隨身聽(tīng)、語(yǔ)音玩具、語(yǔ)音門戶。經(jīng)過(guò)這次數(shù)字信號(hào)處理基于DSP的語(yǔ)音識(shí)別與合成系統(tǒng)的研究,我知道了利用DSP處理信號(hào)是很有優(yōu)勢(shì)的,處理方法多種多樣,適合不同的信號(hào),我了解了一般電子語(yǔ)音處理的方法,怎么樣識(shí)別,并對(duì)識(shí)別到的語(yǔ)音信號(hào)合成,達(dá)到人機(jī)交流的目的,這樣對(duì)研究機(jī)器人或是其他跟語(yǔ)音有關(guān)的東西,都可以采用 DSP的處理方法,經(jīng)過(guò)這次學(xué)習(xí),我感到受益匪淺。參考文獻(xiàn):王華奎編,《數(shù)字信號(hào)處理與運(yùn)用》,高等教育出版社,2013.吳大正編,《信號(hào)與線性系統(tǒng)》,高等教育出版社,2012.王念旭等,《DSP基礎(chǔ)與應(yīng)用系統(tǒng)設(shè)計(jì)》,北京航空航天大學(xué)出版社.[4易克初,《語(yǔ)音信號(hào)處理》,國(guó)防工業(yè)出版社.⑸關(guān)華,《DigitalSpeechProcessing 》,黃河出版社.⑹宋知用,《MATLAB在語(yǔ)音信號(hào)分析與合成中的應(yīng)用》,北京航空航天大學(xué)出版社;第1版(2013年11月1日)六.課程總結(jié):第一章:離散時(shí)間信號(hào)與系統(tǒng)主要介紹了模擬信號(hào)數(shù)字處理方法,時(shí)域離散信號(hào)的表示方法和典型信號(hào)、線性時(shí)不變的因果性和穩(wěn)定性、系統(tǒng)的輸入輸出描述法。重點(diǎn)學(xué)習(xí)了離散時(shí)間福利葉變換和Z變換,在頻域中的運(yùn)用。通過(guò)學(xué)習(xí),自己明白了什么是奈奎斯特采樣定理,明白了 A/D轉(zhuǎn)換和D/A轉(zhuǎn)換,這是在數(shù)字信號(hào)處理中不可或缺的關(guān)鍵轉(zhuǎn)換。 會(huì)根據(jù)不同的采樣頻率用傅里葉變換求采樣后的頻譜。知道了各種序列,會(huì)用Matlab寫程序畫出序列圖來(lái),會(huì)根據(jù)程序調(diào)用函數(shù),感覺(jué)很實(shí)用。學(xué)了線性系統(tǒng)和時(shí)不變系統(tǒng),因果關(guān)系,知道了級(jí)聯(lián)、單位脈沖響應(yīng)還有系統(tǒng)的差分方程。學(xué)了霸氣的 Z變換,會(huì)求簡(jiǎn)單的收斂域,知道了Z變換的許多性質(zhì),Z變換注重零點(diǎn)與極點(diǎn)的分布,利用卷積積分使離散函數(shù)分析,求解過(guò)程變的簡(jiǎn)單而方便,最后終于知道了 Z變換、傅里葉變換、拉普拉斯變換之間的關(guān)系,了解了離散時(shí)間 LTI系統(tǒng)的線性差分方程,從而具有無(wú)限長(zhǎng)的單位沖擊響應(yīng)(IIR)、(FIR系統(tǒng)??傊畬W(xué)了第一章,把之間學(xué)的知識(shí)都加強(qiáng)鞏固了一遍,知道數(shù)字信號(hào)處理的各種數(shù)學(xué)模型。第二章離散傅里葉變換(DFT主要講了信號(hào)分析與處理的重要基礎(chǔ)理論,傅里葉變換的性質(zhì)及在頻譜中的應(yīng)用。總的來(lái)說(shuō),這一章專業(yè)性有點(diǎn)強(qiáng),學(xué)著理論有點(diǎn)吃力,初步了解了離散傅里葉的形式,明白什么是離散傅里葉級(jí)數(shù)(DFS和DFS的性質(zhì)、推導(dǎo),學(xué)了DFT,知道了傅里葉級(jí)數(shù)到傅里葉變換間的關(guān)系,會(huì)計(jì)算有限長(zhǎng)序列的DFT,明白了傅里葉變換與Z變換及DTFT間的關(guān)系,學(xué)會(huì)用圓周卷積,最后學(xué)了DFT進(jìn)行頻譜分析,應(yīng)合理選擇參數(shù),以避免各類誤差現(xiàn)象。說(shuō)實(shí)話,這個(gè)分析對(duì)于我來(lái)說(shuō)是挺糾結(jié)的,不怎么會(huì)用。第三章快速傅里葉變換DFT在數(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論