




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)字語(yǔ)音處理期末大作業(yè)姓名:關(guān)志恒專業(yè):電子信息科學(xué)與技術(shù)(2)班學(xué)號(hào):121006116年級(jí):2012級(jí)遼寧大學(xué)信息學(xué)院一、經(jīng)典的數(shù)字語(yǔ)音信號(hào)時(shí)域處理算法有哪些,分別簡(jiǎn)述其原理?答:1.語(yǔ)音信號(hào)的預(yù)處理在對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字處理之前,首先要將模擬語(yǔ)音信號(hào)s(t) 離散化為s(n). 實(shí)際中獲得數(shù)字語(yǔ)音的途徑一般有兩種,正式的和非正式的。正式的是指大公司或語(yǔ)音研究機(jī)構(gòu)發(fā)布的被大家認(rèn)可的語(yǔ)音數(shù)據(jù)庫(kù),非正式的則是研究者個(gè)人用錄音軟件或硬件電路加麥克風(fēng)隨時(shí)隨地錄制的一些發(fā)音或語(yǔ)句。語(yǔ)音信號(hào)的頻率范圍通常是3003400Hz,一般情況下取采樣率為8kHz即可。本書的數(shù)字語(yǔ)音處理對(duì)象為語(yǔ)音數(shù)據(jù)文件,是已經(jīng)
2、數(shù)字化了的語(yǔ)音。有了語(yǔ)音數(shù)據(jù)文件后,對(duì)語(yǔ)音的預(yù)處理包括:預(yù)加重、加窗分幀等。a. 語(yǔ)音信號(hào)的預(yù)加重處理: 預(yù)加重目的:為了對(duì)語(yǔ)音的高頻部分進(jìn)行加重,去除口唇輻射的影響,增加語(yǔ)音的高頻分辨率??赏ㄟ^一階FIR高通數(shù)字濾波器來實(shí)現(xiàn):設(shè)n時(shí)刻的語(yǔ)音采樣值為x(n) ,經(jīng)過預(yù)加重處理后的結(jié)果為: b.語(yǔ)音信號(hào)的加窗處理: 加窗常用的兩種方法: (1)矩形窗,窗函數(shù)如右式: (2) 漢明(Hamming)窗,窗函數(shù)如下: 2.短時(shí)平均能量 定義n時(shí)刻某語(yǔ)音信號(hào)的短時(shí)平均能量En為: 當(dāng)窗函數(shù)為矩形窗時(shí),有 若令 En特點(diǎn):En反映語(yǔ)音信號(hào)的幅度或能量隨時(shí)間緩慢變化的規(guī)律. 窗的長(zhǎng)短對(duì)于能否由短時(shí)能量反映
3、語(yǔ)音信號(hào)的幅度變化,起著決定性影響。如果窗選得很長(zhǎng),En不能反映語(yǔ)音信號(hào)幅度變化 窗選得太窄,En將不夠平滑。通常,當(dāng)取樣頻率為10kHz時(shí),選擇窗寬度N=100200是比較合適的。 3.短時(shí)平均幅度函數(shù) 為了克服短時(shí)能量函數(shù)計(jì)算x2 ( m ) 的缺點(diǎn),定義了短時(shí)平均幅度函數(shù): Mn與En的比較:1. Mn能較好地反映清音范圍內(nèi)的幅度變化; 2. Mn所能反映幅度變化的動(dòng)態(tài)范圍比En好; 3. Mn反映清音和濁音之間的電平差次于En。 4.短時(shí)平均過零率 在離散時(shí)間語(yǔ)音信號(hào)情況下,如果相鄰的采樣具有不同的代數(shù)符號(hào)就稱為發(fā)生了過零。單位時(shí)間內(nèi)過零的次數(shù)就稱為過零率。短時(shí)平均過零率的定義為:在上
4、式中,用1/2N 作為幅值,是考慮了對(duì)該窗口范圍內(nèi)的過零數(shù)取平均的意思。實(shí)現(xiàn)短時(shí)平均過零率: 5.短時(shí)自相關(guān)分析語(yǔ)音信號(hào)的短時(shí)自相關(guān)函數(shù):因?yàn)?所以 定義 那么短時(shí)自相關(guān)函數(shù)可以寫成:定義 6.基于能量和過零率的語(yǔ)音端點(diǎn)檢測(cè)語(yǔ)音端點(diǎn)檢測(cè)就是指從包含語(yǔ)音的一段信號(hào)中確定出語(yǔ)音的起始點(diǎn)和結(jié)束點(diǎn)。可用基于MATLAB程序?qū)崿F(xiàn)能量與過零率的端點(diǎn)檢測(cè)算法和兩級(jí)判決法及程序?qū)崿F(xiàn):第一級(jí)判決:(1)先根據(jù)語(yǔ)音短時(shí)能量的輪廓選取一個(gè)較高的門限T1,進(jìn)行一次粗判:語(yǔ)音起止點(diǎn)位于該門限與短時(shí)能量包絡(luò)交點(diǎn)所對(duì)應(yīng)的時(shí)間間隔之外(即AB段之外)。(2)根據(jù)背景噪聲的平均能量確定一個(gè)較低的門限T2,并從A點(diǎn)往左、從B點(diǎn)往
5、右搜索,分別找到短時(shí)能量包絡(luò)與門限T2相交的兩個(gè)點(diǎn)C和D,于是CD段就是用雙門限方法根據(jù)短時(shí)能量所判定的語(yǔ)音段。第二級(jí)判決:以短時(shí)平均過零率為標(biāo)準(zhǔn),從C點(diǎn)往左和從D點(diǎn)往右搜索,找到短時(shí)平均過零率低于某個(gè)門限T3的兩點(diǎn)E和F,這便是語(yǔ)音段的起止點(diǎn)。門限T3是由背景噪聲的平均過零率所確定的。注意:門限T2,T3都是由背景噪聲特性確定的,因此,在進(jìn)行起止點(diǎn)判決前,T1,T2,T3,三個(gè)門限值的確定還應(yīng)當(dāng)通過多次實(shí)驗(yàn)。基于MATLAB程序?qū)崿F(xiàn)能量與過零率的端點(diǎn)檢測(cè)算法步驟如下: (1)語(yǔ)音信號(hào)x(n)進(jìn)行分幀處理。 (2)得到語(yǔ)音的短時(shí)幀能量。計(jì)算每一幀語(yǔ)音的過零率,得到短時(shí)幀過零率。考察語(yǔ)音的平均能
6、量設(shè)置一個(gè)較高的門限T1,用以確定語(yǔ)音開始,然后根據(jù)背景噪聲的平均能量確定一個(gè)稍低的門限T2,用以確定第一級(jí)語(yǔ)音結(jié)束點(diǎn)。第二級(jí)判決同樣根據(jù)背景噪聲平均過零率ZN,設(shè)置一個(gè)門限T3,判斷語(yǔ)音前端清音和后端尾音。 7.基音周期估值 基于短時(shí)平均幅度差函數(shù)AMDF法的基音周期估值: 對(duì)于濁音語(yǔ)音,在基音周期的整數(shù)倍上的幅度差值不是零,但總是很小,因此,可以通過計(jì)算短時(shí)平均幅度差函數(shù)中兩相鄰谷值間的距離來進(jìn)行基音周期估值。這里使用修正的短時(shí)平均幅度差函數(shù)并加矩形窗,得到: AMDF函數(shù)與短時(shí)自相關(guān)函數(shù)的不同是: 自相關(guān)函數(shù)進(jìn)行基音周期估計(jì)時(shí)尋找的是最大峰值點(diǎn)的位置,而AMDF尋找的是它的最小谷值點(diǎn)的位
7、置。由于清音沒有周期性,所以它的自相關(guān)函數(shù)和平均幅度差函數(shù)均不具有準(zhǔn)周期性的峰值或谷值。 基音周期估值的后處理: a. 中值平滑處理 b. 線性平滑處理 c. 組合平滑處理 二、經(jīng)典的數(shù)字語(yǔ)音信號(hào)頻域處理算法有哪些,分別簡(jiǎn)述其原理?答:傅里葉變換、濾波器。 1.傅里葉變換的解釋語(yǔ)音信號(hào)可被看作是短時(shí)平穩(wěn)信號(hào),其某一幀的短時(shí)傅里葉變換定義式如下: (4.1)式中w(n-m)是窗函數(shù)。在式中,短時(shí)傅里葉變換有兩個(gè)變量,它們是離散時(shí)間n及連續(xù)頻率 將式(4.1)寫作: 時(shí)變傅里葉變換是時(shí)間標(biāo)號(hào)n的函數(shù),當(dāng)n變化時(shí),窗w(n-m)沿著x(m)滑動(dòng)。此外,由功率譜定義,可以寫出短時(shí)功率譜與短時(shí)傅里葉變換
8、的關(guān)系:功率譜是自相關(guān)函數(shù): 的傅里葉變換。 2.濾波器的解釋 (1)短時(shí)傅里葉變換的濾波器實(shí)現(xiàn)形式: 如果把w(n)看作為一個(gè)濾波器的單位取樣響應(yīng),則短時(shí)傅里葉變換 就是該濾波器的輸出,為濾波器的輸入。 用實(shí)數(shù)來運(yùn)算的方法: 還可以畫出短時(shí)傅里葉變換的濾波器解釋的另一種形式如圖2所示,也分為復(fù)數(shù)運(yùn)算和實(shí)數(shù)運(yùn)算兩種。同樣要求線性濾波器近似為一個(gè)中心頻率為的窄帶帶通濾波器。 結(jié)論:經(jīng)調(diào)制后,其付里葉變換為,這說明調(diào)制使的頻譜在頻率軸上向左移動(dòng)了,線性濾波器輸出端的頻譜等于乘積,故為了使輸出頻譜準(zhǔn)確等于, 應(yīng)當(dāng)是一個(gè)沖激。即要求線性濾波器近似為一個(gè)窄帶低通濾波器。 (2)短時(shí)頻譜的時(shí)域及頻域采樣率
9、短時(shí)傅里葉變換同時(shí)是時(shí)間n以及角頻率的函數(shù)。由來恢復(fù)x(n),首先遇到的就是時(shí)域取樣率和頻域取樣率的問題。時(shí)域取樣率(為固定值) 若將w(n)的傅里葉變換記為對(duì)于大多數(shù)窗函數(shù)來說,具有低通濾波器的特性,若它的帶寬為BHz,則具有與窗相同的帶寬。低通濾波器的帶寬是由第一個(gè)零點(diǎn)位置決定的。因?yàn)槭?的傅里葉變換, 因而B的取值決定于窗口序列的長(zhǎng)度N和形狀。頻率取樣率(n為固定值 (3)總?cè)勇?的總抽樣率(SR)等于 在大多數(shù)實(shí)際窗中,B 可以表示為FS /N的倍數(shù) 其中,C是比例常數(shù), x ( n )的抽樣頻率即為 SR/FS即為與一般取樣頻率相比而得到的“過速率采樣比”。 三、結(jié)合你自身情況,談
10、談你對(duì)數(shù)字語(yǔ)音信號(hào)處理理論及應(yīng)用的相關(guān)專業(yè)知識(shí)的認(rèn)識(shí)?答:語(yǔ)音在人類社會(huì)中起了非常重要的作用。在現(xiàn)代信息社會(huì)中,小至人們的日常生活,大到國(guó)家大事、世界新聞、社會(huì)輿論和各種重要會(huì)議,都離不開語(yǔ)言和文字。近年來,普通電話、移動(dòng)電話和互聯(lián)網(wǎng)已經(jīng)普及到家庭。在這些先進(jìn)的工具中,語(yǔ)音信號(hào)處理中的語(yǔ)音編碼和語(yǔ)音合成就有很大貢獻(xiàn)。 1.在語(yǔ)音識(shí)別與合成中的應(yīng)用 語(yǔ)音識(shí)別的研究是從20世紀(jì)50年代開始的,但直到60年代中期才取得了實(shí)質(zhì)性進(jìn)展,其重要標(biāo)志就是日本學(xué)者Itakura將動(dòng)態(tài)規(guī)劃算法用于解決語(yǔ)音識(shí)別語(yǔ)速多變的難題,提出了動(dòng)態(tài)時(shí)間收縮算法(DTW:Dy2namicTimeWarping)。其基
11、本思想是:在訓(xùn)練階段,從詞匯表中通過語(yǔ)音信號(hào)處理技術(shù)提出每個(gè)詞的特征向量(時(shí)域特征、頻域特征、尺度特征及聯(lián)合分布特征),作為標(biāo)準(zhǔn)模板存入模板庫(kù)中。在識(shí)別階段,將輸入語(yǔ)音的特征向量依次與模板庫(kù)中的各個(gè)標(biāo)準(zhǔn)模板進(jìn)行比較,計(jì)算類似度,將類似度最高的標(biāo)準(zhǔn)模板所對(duì)應(yīng)的詞匯輸出。在這里和一般的模式識(shí)別不一樣,存在幾個(gè)問題:說話者語(yǔ)速不一致的問題;大詞匯表的問題導(dǎo)致計(jì)算量大的問題;協(xié)同發(fā)音的問題(即同一音素的發(fā)音隨上下文不同而變化);對(duì)于非特定人語(yǔ)音識(shí)別,還有一個(gè)語(yǔ)音多變性的困難。 2.語(yǔ)音信號(hào)處理的關(guān)鍵技術(shù)語(yǔ)音信號(hào)處理的理論基礎(chǔ)就是一般的數(shù)字信號(hào)處理理論,它的主要研究?jī)?nèi)容是語(yǔ)音編碼和語(yǔ)音壓縮技術(shù)??紤]到人
12、對(duì)聽覺媒體的感應(yīng)特點(diǎn),研究語(yǔ)音信號(hào)處理必須與聲音心理學(xué)聯(lián)系起來。因此這里我們把聲音心理學(xué)也列為語(yǔ)音信號(hào)處理的關(guān)鍵技術(shù)之一。 (1)聲音心理學(xué) 聲音的物理屬性和心理屬性既有聯(lián)系也有區(qū)別。聲音有兩個(gè)最明顯的量綱,即響度和音調(diào),其它還有音色、諧和、不諧和和樂音等等。物理屬性主要有強(qiáng)度和頻率。聲音的正弦波的強(qiáng)度增加,聲的響度也增加;頻率增加,音調(diào)則增高。但這些關(guān)系不是線性的,且是耦合的,如頻率的變化既影響響度也影響音調(diào)。其數(shù)量上的關(guān)系可以用等響曲線等來描述。但更精確。關(guān)系復(fù)雜,難以建立量化模型。如即使想從客觀上給出聲音失真度的度量都很困難。 人的大腦處理聽覺信息還有一些特性,產(chǎn)生了
13、一些客觀存在的效應(yīng),如屏蔽效應(yīng)。聲的響度不僅取決于自身的強(qiáng)度和頻率,而且也依同時(shí)出現(xiàn)的其它聲音而定。各種聲音可以互相掩蔽,一種聲音的出現(xiàn)可能使得另一種聲音難于聽清。它分為聽覺屏蔽、頻譜屏蔽和瞬態(tài)屏蔽。頻譜屏蔽是高電平音調(diào)使附近頻率的低電平聲音不能被人耳聽到。聲音的屏蔽特性可以用于聲音特別是語(yǔ)音信號(hào)的壓縮。 (2)語(yǔ)音編碼 語(yǔ)音編碼分為三類:波形編碼、參量編碼和混合編碼。 波形編碼是將時(shí)域信號(hào)直接變換為數(shù)字代碼, 其目的是盡可能精確地再現(xiàn)原來的話音波形。自適應(yīng)量化、自適應(yīng)比特分配和矢量量化等等 應(yīng)用數(shù)字語(yǔ)音信號(hào)處理理論及應(yīng)用的相關(guān)專業(yè)知識(shí),我們可以設(shè)計(jì)制
14、造一個(gè)能夠儲(chǔ)存足夠信息的機(jī)器。輸入正常人所有的經(jīng)歷。能讓他像人一樣記住耳朵聽到的聲音和眼睛看到的圖像。并經(jīng)過長(zhǎng)時(shí)間獲取和學(xué)習(xí)新的語(yǔ)言。大家都知道這樣一個(gè)觀點(diǎn)。當(dāng)你身在國(guó)外學(xué)習(xí)一門語(yǔ)言會(huì)變得很快。因?yàn)楝F(xiàn)在學(xué)習(xí)的時(shí)候遠(yuǎn)離現(xiàn)實(shí),字就是字,并不包含什么,當(dāng)深處現(xiàn)實(shí)環(huán)境中,你所接觸到的任何語(yǔ)音(字)都會(huì)和現(xiàn)實(shí)的東西聯(lián)系起來。就好比當(dāng)你只說“我”這個(gè)的時(shí)候會(huì)不會(huì)在腦海中想象出自己的模樣。我覺得未來的語(yǔ)音處理不再僅僅靠語(yǔ)音的特征參數(shù),或許可以和我們生活的現(xiàn)實(shí)聯(lián)系在一起。語(yǔ)音和圖像的結(jié)合或許可以提高識(shí)別率。對(duì)于機(jī)器來說語(yǔ)音就是一段高低起伏連續(xù)的圖像??赡苣承┳值穆暡▓D像非常相似,會(huì)產(chǎn)生誤差。關(guān)于這個(gè)我覺得現(xiàn)在用的智能輸入法已經(jīng)很好的降低錯(cuò)誤率。常用短語(yǔ)庫(kù)和語(yǔ)言的語(yǔ)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學(xué)英語(yǔ)四級(jí)考試模擬試卷寫作素材與范文解析
- 2025年一建《機(jī)電工程管理與實(shí)務(wù)》考試質(zhì)量控制與驗(yàn)收真題演練與題庫(kù)實(shí)戰(zhàn)技巧
- 旅游行業(yè)假期出行與工作表現(xiàn)證明書(6篇)
- 2025年礦用電纜項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告模板
- 快樂的春游記作文10篇
- 深海礦產(chǎn)資源勘探技術(shù)2025年深海礦產(chǎn)資源勘探技術(shù)裝備出口與海外市場(chǎng)拓展研究報(bào)告
- 汽車鎖基本結(jié)構(gòu)及功能測(cè)試題
- 農(nóng)村電子商務(wù)與農(nóng)民合作協(xié)議
- 2025年煤礦設(shè)計(jì)試題
- 在校實(shí)習(xí)生表現(xiàn)與成果證明(5篇)
- 2025年政府采購(gòu)管理實(shí)務(wù)考試卷及答案
- 2025連云港師范高等??茖W(xué)校輔導(dǎo)員考試試題及答案
- 2025年中國(guó)ORC低溫余熱發(fā)電系統(tǒng)行業(yè)市場(chǎng)現(xiàn)狀及未來發(fā)展前景預(yù)測(cè)報(bào)告
- 非典型溶血尿毒綜合征多學(xué)科實(shí)踐共識(shí)解讀(2025版)
- 早期阿爾茨海默病疾病修飾治療專家共識(shí)(2025年版)解讀
- 2025-2030年即熱式電熱水器行業(yè)市場(chǎng)發(fā)展分析及政策建議與策略研究報(bào)告
- 《谷歌企業(yè)文化》課件
- 母子暑假協(xié)議書
- 建筑工程標(biāo)準(zhǔn)課件
- 石油化工安裝工程概算指標(biāo)說明(2019版)
- 租房學(xué)位合同協(xié)議書范本
評(píng)論
0/150
提交評(píng)論