語音信號處理期末復(fù)習(xí)_第1頁
語音信號處理期末復(fù)習(xí)_第2頁
語音信號處理期末復(fù)習(xí)_第3頁
語音信號處理期末復(fù)習(xí)_第4頁
語音信號處理期末復(fù)習(xí)_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

考試時間和地點12月26日(周四)14:00-15:40地點:4-202復(fù)習(xí)課第一章緒論一些語音處理的應(yīng)用領(lǐng)域語音壓縮語音合成語音識別說話人識別……什么是語音語音是人類發(fā)音器官發(fā)出的、具有一定意義的、能起社會交際作用的聲音。能夠代表一定的意義,這是語言的聲音同自然界其他一切聲音的本質(zhì)區(qū)別。自然的風(fēng)聲、水聲、動物叫聲(不來自人體發(fā)音器官,無明確意義)吹口哨,打鼾,口技(來自發(fā)音器官,但五明確意義,不能交際)什么是語音處理語音信號處理簡稱語音處理,是以語音學(xué)和數(shù)字信號處理為基礎(chǔ)而形成的一門綜合性學(xué)科。處理的目的是要得到一些語音參數(shù)以便高效地傳輸或存儲,或者通過處理的某種運算以達(dá)到某種用途的要求,例如人工合成出語音,辨識出說話者,識別講話的內(nèi)容等。它包括語音編碼、語音合成、語音識別和說話人識別四大分支。(下面簡單介紹)語音的物理屬性物理聲學(xué)認(rèn)為聲波具有響度音調(diào)音色三種要素。第二章語音信號處理

的基礎(chǔ)知識語音構(gòu)成音素是語音的最小構(gòu)成單位根據(jù)聲帶是否振動,音素可以分為濁音和清音濁音由聲帶振動產(chǎn)生的音為濁音包括所有原音和一些輔音清音不由聲帶振動產(chǎn)生的音為清音包括另一部分輔音人體發(fā)聲的部位聲帶——震動的來源Tp為基音周期,倒數(shù)為基音頻率,用fp表示,取決于聲帶的尺寸和特性男性說話者的fp大致分布在60-200Hz范圍內(nèi)女性說話者和小孩的fp值在200-450Hz范圍內(nèi)同一個人所發(fā)出的聲音有高低變化,是靠控制聲帶的松緊來調(diào)節(jié)的。2.4語音信號的數(shù)字模型(重點)語音信號的產(chǎn)生模型(p7,圖2-3)激勵模型聲管模型共振峰模型輻射模型聲道的模型聲門的模型口唇的模型平均意見得分(MOS)MOS得分采用5級評分標(biāo)準(zhǔn)MOS得分質(zhì)量等級失真級別5優(yōu)不覺察4良剛有覺察3可有覺察且稍有可厭2差明顯覺察且可厭但可忍受1壞不可忍受第三章語音信號的

時域分析語音信號的穩(wěn)態(tài)——幀的概念語音自身從長時間看是非穩(wěn)態(tài)過程,從短時間看是相對穩(wěn)定的,既“短時性”。將語音分為一段一段的,每一段稱為“一幀”,大概時間為10-30ms短時時域分析是語音處理的基本方法,也是最直觀、最易理解的方法3.3短時能量分析短時能量定義短時:通過加窗來實現(xiàn)能量:通過求信號幅度的平方來實現(xiàn)窗的位置隨n變化窗的類型直角窗(矩形窗)窗的類型海明窗(Hamming,也稱漢明窗,升余弦)時域比較直角窗海明窗頻域?qū)Ρ龋ㄗ⒁饪v坐標(biāo)不同)直角窗海明窗短時平均幅度MnEn需要將信號求平方,大信號急劇變大,要求動態(tài)范圍大Mn只是取絕對值,不需增加額外的動態(tài)范圍其功能與能量是一樣的,區(qū)分清、濁音等3.4短時過零分析過零率短時過零分析:過零率就是每秒內(nèi)信號值通過零值的次數(shù),短時過零就是指在一段時間內(nèi)(一幀內(nèi))平均的過零率。對于窄帶信號,是很好的統(tǒng)計其頻率特性的參數(shù)最典型的是正弦波(單一頻率)3.5短時相關(guān)分析3.5.1短時自相關(guān)函數(shù)自相關(guān)函數(shù)短時自相關(guān)函數(shù)3.5.2修正的短時自相關(guān)函數(shù)為了解決窗口長度對自相關(guān)函數(shù)的影響原函數(shù)修正函數(shù)作業(yè):計算序列{0,1,2,3,0,1,2,3,0,1,2,3}求:1.窗口長度為10的自相關(guān)函數(shù)2.窗口長度為6的自相關(guān)函數(shù)3.窗口長度為6的修正自相關(guān)函數(shù)第四章語音信號的

頻域分析語音信號的頻域分析本質(zhì):加窗后進(jìn)行傅里葉變換適合語音的短時性同時得到語音的時間、頻率特性時間分辨率與頻譜分辨率魚和熊掌不能兼得?。?!P36下半部分對于直角窗,頻域第一個過零點N越大,主瓣越窄,頻率分辨率越高,但時域分辨率越低,其實,當(dāng)N大于一個語素,就失去分析的意義語譜圖第五章語音信號的

同態(tài)分析目前解卷的算法主要有兩種同態(tài)分析線性預(yù)測分析同態(tài)分析也稱“倒譜分析”解卷的原理倒譜的作用:(1)區(qū)分清/濁音(2)求濁音的基音周期,可以得到濁音的激勵信號。(3)得到聲道的沖激響應(yīng)h(n)第六章語音信號的

線性預(yù)測分析線性預(yù)測的概念P61頁第四段基本概念:一個(當(dāng)前的)語音抽樣值可以用過去若干個抽樣值的線性組合來逼近。線性組合的系數(shù)可以通過計算采樣值與預(yù)測值的差別(如最小均方誤差)等方法得到。第七章語音信號的

矢量量化矢量量化的過程以2維矢量量化為例過程見黑板重要的變量(p84最上面)矢量譯碼見黑板傳輸中只傳區(qū)域的代碼Yi,數(shù)據(jù)量小,且具有一定的保密性量化誤差第八章隱馬爾科夫模型

(HMM)HMM的獨到之處我們已學(xué)過的所有算法(短時傅里葉,線性預(yù)測,……)都是基于平穩(wěn)過程的語音本身是時變的,不平穩(wěn)的所以需要將語音分幀所以以上方法只能提取獨立的幀內(nèi)特征HMM能掌握語音長時間的特性,不需要分幀第9章基音提取和

共振峰估計提取基音周期的方法自相關(guān)法并行處理法倒譜法線性預(yù)測譜第十章語音信號的

波形編碼語音編碼的分類(很重要)分為:波形編碼、聲碼器和混合型波形編碼聲碼器編碼信息波形盡量恢復(fù)波形短時譜包絡(luò)音源信息(音調(diào)、幅度、濁/清音)數(shù)碼率32~64kbit/s中、寬帶2.4~16kbit/s窄帶,甚至低于1.2k適用對象任何聲音人講話的聲音優(yōu)點還原的聲音質(zhì)量高,可懂度和自然度都較好可以分別說話的人壓縮率高可懂度較好自然度不好,不好分別說話人存在問題由于受量化噪聲的限制,降低碼率較困難環(huán)境噪聲使語音質(zhì)量下降誤碼是語音質(zhì)量下降,提高語音質(zhì)量困難,處理復(fù)雜典型方式時域:PCM,ADPCM,DM,ADM,APC頻域:SBC,ATC通道聲碼器,共振峰聲碼器,同態(tài)聲碼器,LPC聲碼器常用波形編碼方式PCM,非均勻PCM預(yù)測編碼及其自適應(yīng)APC自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)及自適應(yīng)增量調(diào)試(ADM)子帶編碼(SBC)自適應(yīng)變換編碼(ATC)數(shù)字化分為兩步:采樣和量化采樣精度至少11bit(保證信噪比不低于60dB)語音質(zhì)量廣播質(zhì)量長途電話質(zhì)量通信質(zhì)量合成質(zhì)量質(zhì)量高質(zhì)量低10.3.2非均勻量化PCMA律和μ律輸出的數(shù)據(jù)率為64kb/s。CCITT推薦的G.711標(biāo)準(zhǔn)A律(A-Law)壓擴(G.711)主要用在歐洲和中國大陸等地區(qū)的數(shù)字電話通信中m

律(m-Law)壓擴(G.711)主要用在北美和日本等地區(qū)的數(shù)字電話通信中10.5.2增量調(diào)制(DM)及ADM增量調(diào)制(DM:DeltaModulation)提高取樣率后,只用1bit來量化斜率過載散彈噪聲第11章聲碼器編碼相位聲碼器(p136)類似子帶編碼在頻域?qū)⒄Z音信號分為多個子帶,每個子帶非常窄,大概100Hz只對子帶內(nèi)的“幅度”和“相位的導(dǎo)數(shù)”直接編碼通道聲碼器(p137)與相位聲碼器類似保留頻譜幅度和基音周期,不對“相位的導(dǎo)數(shù)”編碼實際上,編碼內(nèi)容近似為聲音信號的頻譜包絡(luò),而頻譜包絡(luò)比聲音信號本身變化慢的多第12章語音合成語音合成分類分為三類波形合成參數(shù)合成規(guī)則合成(最難的,直接閱讀文本)第13章語音識別13.1概述定義:研究使機器能準(zhǔn)確地聽出人的語音內(nèi)容的問題,即準(zhǔn)確地識別人所說的話未來,對著機器(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論