現(xiàn)代語音信號(hào)處理(Python 版) 習(xí)題及答案_第1頁
現(xiàn)代語音信號(hào)處理(Python 版) 習(xí)題及答案_第2頁
現(xiàn)代語音信號(hào)處理(Python 版) 習(xí)題及答案_第3頁
現(xiàn)代語音信號(hào)處理(Python 版) 習(xí)題及答案_第4頁
現(xiàn)代語音信號(hào)處理(Python 版) 習(xí)題及答案_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

現(xiàn)代語音信號(hào)處理(Python版)

思考題參考答案

2章語音信號(hào)處理的基礎(chǔ)知識(shí)

1、人的發(fā)音器官有哪些?人耳聽覺外周和聽覺中樞的功能是什么?

答:

1)人的發(fā)音器官包括:肺、氣管、喉(包括聲帶)、咽、鼻和口。

2)聽覺外周指的是位于腦及腦干以外的結(jié)構(gòu),包括外耳、中耳、內(nèi)耳和蝸神經(jīng),主要

完成聲音采集、頻率分解以及聲能轉(zhuǎn)換等功能;聽覺中樞包含位于聽神經(jīng)以上的所有聽覺結(jié)

構(gòu),對(duì)聲音有加工和分析的作用,主要包括感覺聲音的音色、音調(diào)、音強(qiáng)、判斷方位等功能,

還承擔(dān)與語言中樞聯(lián)系和實(shí)現(xiàn)聽覺反射的功能。

2、人耳聽覺的掩蔽效應(yīng)分為哪幾種?掩蔽效應(yīng)對(duì)研究語音信號(hào)處理系統(tǒng)有什么啟示?

答:

1)掩蔽效應(yīng)分為同時(shí)掩蔽和短時(shí)掩蔽。(1)同時(shí)掩蔽是指同時(shí)存在的一個(gè)

弱信號(hào)和一個(gè)強(qiáng)信號(hào)頻率接近時(shí),強(qiáng)信號(hào)會(huì)提高弱信號(hào)的聽閥,當(dāng)弱信號(hào)的聽閥

被升高到一定程度時(shí)就會(huì)導(dǎo)致這個(gè)弱信號(hào)變得不可聞。一般來說,對(duì)于同時(shí)掩

蔽,掩蔽聲愈強(qiáng),掩蔽作用愈大;掩蔽聲與被掩蔽聲的頻率靠得愈近,掩蔽效果

愈顯著。兩者頻率相同時(shí)掩蔽效果最大。(2)當(dāng)A聲和B聲不同時(shí)出現(xiàn)時(shí)也存在

掩蔽作用,稱為短時(shí)掩蔽。短時(shí)掩蔽又分為后

向掩蔽和前向掩蔽。掩蔽聲B即使消失后,其掩蔽作用仍將持續(xù)一段時(shí)間,

約0.5?2秒,這是由于人耳的存儲(chǔ)效應(yīng)所致,這種效應(yīng)稱為后向效應(yīng)。若被掩蔽

聲A出現(xiàn)后,相隔0.05?0.2秒之內(nèi)出現(xiàn)了掩蔽聲B,它也會(huì)對(duì)A起掩蔽作

用,這是由于A聲尚未被人所反應(yīng)接受而強(qiáng)大的B聲已來臨所致,這種掩蔽稱為

前向掩蔽。

2)MP3等壓縮編碼便是聽覺掩蔽的重要應(yīng)用,在這些編碼中只突出記錄了人

耳朵較為敏感的中頻段聲音,而對(duì)較高和較低的頻率的聲音則簡略記錄,從而大

大壓縮了所需的存儲(chǔ)空間。

3、根據(jù)發(fā)音器官和語音產(chǎn)生機(jī)理,語音生成系統(tǒng)可分成哪個(gè)部分?各有什么特點(diǎn)?

答:

語音生成系統(tǒng)分成三個(gè)部分,在聲門(聲帶)以下,稱為“聲門子系統(tǒng)”,

它負(fù)責(zé)產(chǎn)生激勵(lì)振動(dòng),是“激勵(lì)系統(tǒng)”;從聲門到嘴唇的呼氣通道是聲道,是

“聲道系統(tǒng)”;語音從嘴唇輻射出去,所以嘴唇以外是“輻射系統(tǒng)”。

4、語音信號(hào)的數(shù)學(xué)模型包括哪些子模型?激勵(lì)模型是怎樣推導(dǎo)出來的?輻射模型又是怎樣推

導(dǎo)出來的?它們各屬于什么性質(zhì)的濾波器?

答:

完整的語音信號(hào)的數(shù)字模型可以用三個(gè)子模型:激勵(lì)模型、聲道模型和輻射模型的串聯(lián)

來表示。傳輸函數(shù)”(z)可表示為:

”(z)=A?U(z”(z)R(z)

1)激勵(lì)模型一般分成濁音激勵(lì)和清音激勵(lì)。發(fā)濁音時(shí),由于聲帶不斷張開和

關(guān)閉,將產(chǎn)生間歇的脈沖波。這個(gè)脈沖波的波形類似于斜三角形的脈沖。它的數(shù)學(xué)

表達(dá)式如下:

f(l/2)[l-cos(^n/7'l)J,0<n<T,

g(〃)=Jcos[15-G/27;],r,<?<T,+7;

[o,其他

式中,刀為斜三角波上升部分的時(shí)間,(為其下降部分的時(shí)間。單個(gè)斜三角波波

形的頻譜G(〃")是一個(gè)低通濾波器。它的Z變換的全極模型的形式是:

G(z)=-------1------

(l-e-cTz-')2

這里,c是一個(gè)常數(shù)。因此,斜三角波形串可視為加權(quán)單位脈沖串激勵(lì)上述單

個(gè)斜三角波模型的結(jié)果。而該單位脈沖串及幅值因子則可表示成下面的z變換形式:

FT

所以,整個(gè)濁音激勵(lì)模型可表示為:

A1

~~-(1

cT

i-z-e-z-'y

也就是說濁音激勵(lì)波是一個(gè)以基音周期為周期的斜三角脈沖串。

2)從聲道模型輸出的是速度波與(〃),而語音信號(hào)是聲壓波pj〃),二者之倒

比稱為輻射阻抗Z,。該阻抗表征口唇的輻射效應(yīng),也包括圓形的頭部的繞射效應(yīng)

等。如果認(rèn)為口唇張開的面積遠(yuǎn)小于頭部的表面積,則可近似地看成平板開槽輻射的

情況.此時(shí),輻射阻抗的公式如下:

(Q)—

Rr+jQL,

式中,R=123-,L=—,這里,a是口唇張開時(shí)的開口半徑,c是聲波傳播

r9乃2'3兀c

速度。

由于輻射引起的能量損耗正比于輻射阻抗的實(shí)部,所以輻射模型是一階類高通濾

波器。由于除了沖激脈沖串模型E(z)之外,斜三角波模型是二階低通而輻射

模型是一階高通,所以,在實(shí)際信號(hào)分析時(shí),常用所謂“預(yù)加重技術(shù)”,即在取

樣后插入一個(gè)一階的高通濾波器。此時(shí),只剩下聲道部分,就便于聲道參數(shù)的分

析了。在語音合成時(shí)再進(jìn)行“去加重”處理,就可以恢復(fù)原來的語音。常用的預(yù)

加重因子為U-(R(l)z-'/R(0))]。這里,/?(〃)是信號(hào)S(〃)的自相關(guān)函數(shù)。通常對(duì)于

濁音,/?(1)//?(0)?1;而對(duì)于清音,則該值可取得很小。

5、什么是響度?是如何定義的?

答:

響度屬于心理范疇即人耳辨別聲音由強(qiáng)到弱的等級(jí)概念。對(duì)于響度的心理感

受,一般用單位宋(Sone)來度量,并定義1kHz、40dB的純音的響度為1宋。響度

的相對(duì)量稱為響度級(jí),它表示的是某響度與基準(zhǔn)響度比值的對(duì)數(shù)值,單位為方

(phon),即當(dāng)人耳感到某聲音與1kHz單一頻率的純音同樣響時(shí),該聲音聲壓級(jí)的

分貝數(shù)即為其響度級(jí)。

6、什么是音高?與頻率的關(guān)系如何?

答;

1)頻率與音高:以Hz為單位所測(cè)得的物理量一一頻率,在聽者來說感知為

心理量一一音高,即用人的主觀感覺來評(píng)價(jià)所聽到的聲音是高調(diào)還是低調(diào)。客觀

上音高大小主要取決于聲波基頻的高低,頻率高則音調(diào)高,反之則低,單位用赫

茲(Hz)表示。主觀感覺的音高單位是“美(Mel)”,通常定義響度為40方的1kHz

純音的音高為1000美。赫茲與“美”同樣是表示音高的兩個(gè)不同概念而又有聯(lián)系

的單位。

2)主觀音高與客觀音高的關(guān)系是:

W=2595*lg(l+//700)

7、在語音信號(hào)參數(shù)分析前為什么要進(jìn)行預(yù)處理,有哪些預(yù)處理過程?

答:

1)預(yù)處理的目的是去除干擾,更好的呈現(xiàn)語音信號(hào)或者是后繼實(shí)際應(yīng)用做的特殊前

置處理。比如預(yù)濾波,其作用有兩個(gè):①抑制輸入信號(hào)各頻域分量中頻率超出£/2的所

有分量(工為采樣頻率),以防止混疊干擾。②抑制50Hz的電源工頻干擾。2)預(yù)處理

包括預(yù)濾波、分幀加窗、預(yù)加重等過程。

8、語譜圖有何特點(diǎn)?為什么采用語譜圖來表征語音信號(hào)?

答:

1)語譜圖是一種三維頻譜,它是表示語音頻譜隨時(shí)間變化的圖形,其縱軸

為頻率,橫軸為時(shí)間,任一給定頻率成分在給定時(shí)刻的強(qiáng)弱用相應(yīng)點(diǎn)的灰度或色

調(diào)的濃淡來表示。

2)采用語譜圖來表征語音信號(hào)是因?yàn)檎Z譜圖包含了大量的與語音特性有關(guān)的

信息、,它綜合了頻譜圖和時(shí)域波形的特點(diǎn),明顯地顯示出語音頻譜隨時(shí)間的變化

情況,或者說是一種動(dòng)態(tài)的頻譜。語譜圖的實(shí)際應(yīng)用之一是可用于確定不同的講

話人。

第3章語音信號(hào)分析方法

1、語音信號(hào)為什么需要分幀處理?幀長的選擇有什么依據(jù)?

答:

1)因?yàn)檎Z音信號(hào)從整體來看其特性及表征其本質(zhì)特征的參數(shù)均是隨時(shí)間而

變化的,所以它是一個(gè)非平穩(wěn)態(tài)過程,不能用處理平穩(wěn)信號(hào)的數(shù)字信號(hào)處理技術(shù)

對(duì)其進(jìn)行分析處理。但是在一個(gè)短時(shí)間范圍內(nèi)(一般認(rèn)為在10ms?30ms的短時(shí)

間內(nèi)),其特性基本保持不變即相對(duì)穩(wěn)定。所以,在短時(shí)間范圍內(nèi)可以將語音信

號(hào)看作是一個(gè)準(zhǔn)穩(wěn)態(tài)過程,即短時(shí)平穩(wěn)性。任何語音信號(hào)的分析和處理必須建立

在“短時(shí)”基礎(chǔ)上,即進(jìn)行“短時(shí)分析”,將語音信號(hào)分為一段一段來分析其特

征參數(shù)。

2)對(duì)于語音信號(hào)處理來說,一般每秒約取33~100幀,視實(shí)際情況而定.分

幀一般采用交疊分段的方法,這是為了保證幀與幀之間平滑過渡,保持其連續(xù)

性。前一幀和后一幀的交疊部分稱為幀疊。幀疊與幀長的比值一般取為0?l/2o

2、短時(shí)能量和短時(shí)過零率的定義是什么?常用的有哪幾種窗口?

答:

1)短時(shí)能量:設(shè)第〃幀語音信號(hào)士(相)的短時(shí)能量用E“表示,則其計(jì)算公式如下:

N-1

m=0

短時(shí)過零率:短時(shí)過零率表示一幀語音中信號(hào)波形穿過橫軸(零電平)的次

數(shù)。對(duì)于連續(xù)語音信號(hào),過零即意味著時(shí)域波形通過時(shí)間軸;而對(duì)于離散信號(hào),

如果相鄰的取樣值改變符號(hào)則稱為過零。過零率就是樣本改變符號(hào)的次數(shù)。

定義語音信號(hào)X,(加)的短時(shí)過零率Z,,為:

1N-\

Z"=3>sgn[x?(⑼]-sgn區(qū)(m-l)]|

式中,sgn[]是符號(hào)函數(shù)。

2)常用的窗函數(shù)有矩形窗、漢明窗、布萊克曼窗等。

3、短時(shí)自相關(guān)函數(shù)和短時(shí)平均幅差函數(shù)的定義及其用途是什么?在選擇窗口函數(shù)時(shí)應(yīng)考慮

什么問題?

答:

1)語音信號(hào)演(〃?)的短時(shí)自相關(guān)函數(shù)為凡,(%)的計(jì)算式如下:

N-1-k

R”(k)=£xn(m)xn(fn+k)(0<k<K)

tn=O

這里,K是最大的延遲點(diǎn)數(shù)。自相關(guān)函數(shù)可用于求出濁音的基音周期,也可用于語音

信號(hào)的線性預(yù)測(cè)分析。

短時(shí)平均幅度差函數(shù)可定義為:

N-k+]

工仕)=E

m=1

為了避免乘法,常常采用平均幅度差函數(shù)代替自相關(guān)函數(shù)進(jìn)行語音分析。2)選擇窗

口函數(shù)時(shí)應(yīng)考慮的問題:在選擇窗口時(shí),一方面,窗長至少應(yīng)大于兩個(gè)基音

周期,否則找不到自相關(guān)函數(shù)的第一個(gè)最大值點(diǎn)。另一方面,窗長也要盡可能小,否則將

影響短時(shí)性。因此,長基音周期要用寬窗,短基音周期要用窄窗。

4、如何利用FFT求語音信號(hào)的短時(shí)譜?如何提高短時(shí)譜的頻率分辨率?什么是語音信號(hào)的

功率譜,為什么在語音信號(hào)數(shù)字處理中,功率譜具有重要意義?

答:

1)短時(shí)譜定義:對(duì)第〃幀語音信號(hào)光,,(〃?)進(jìn)行離散時(shí)域傅里葉變換,可得到短時(shí)傅

N-1

里葉變換:X”(e2)=Zx(m)w(n-m)e-jMn。

m=0

2)增加點(diǎn)數(shù)的同時(shí)增加有效數(shù)據(jù)長度才能使分辨率越好。

3)功率譜為自相關(guān)函數(shù)的傅立葉變換

N-\

P,O=ZR,,(k)e-j旗

1k=-N+\I

R(k)=_8X("2+Z)X*(〃2)=—X

“NEn〃N”〃

1'in=-<x>1

4)功率譜從能量的觀點(diǎn)對(duì)信號(hào)進(jìn)行研究,給出了區(qū)別于時(shí)域的功率描述方法,常應(yīng)用

于統(tǒng)計(jì)信號(hào)處理。

5、請(qǐng)敘述同態(tài)信號(hào)處理的基本原理(分解和特征系統(tǒng))。倒譜的求法及語音信號(hào)兩個(gè)分量

的倒譜性質(zhì)是什么?

答:

1)同態(tài)信號(hào)處理也稱為同態(tài)濾波,它實(shí)現(xiàn)了將卷積關(guān)系變換為求和關(guān)系的分離處理,

即解卷。一般同態(tài)系統(tǒng)可分解為三個(gè)部分,兩個(gè)特征子系統(tǒng)(取決于信號(hào)的組合規(guī)則)和

一個(gè)線性子系統(tǒng)(取決于處理的要求),如圖所示。

第一個(gè)子系統(tǒng)完成將卷積性信號(hào)轉(zhuǎn)化為加性信號(hào)的運(yùn)算,即對(duì)信

X(〃)=X](")*%2(〃)進(jìn)行如下運(yùn)算處理:

(l)Z|ix(n)lj=X(z)=Xi(z).X2(z)

zX(修/\

fZ-VZ)

vJH7

Z1=?=

.

2

12

第二個(gè)子系統(tǒng)是一個(gè)普通線性系統(tǒng),滿足線性疊加原理,用于對(duì)加性信號(hào)進(jìn)行線性變換。

由于£(〃)為加性信號(hào),所以第二個(gè)子系統(tǒng)可對(duì)其進(jìn)行需要的線性處理得到y(tǒng)(〃)。

第三個(gè)子系統(tǒng)是逆特征系統(tǒng),通過對(duì));(〃)=%(〃)+?(〃)進(jìn)行逆變換,使其恢復(fù)為

卷積性信號(hào),處理如下:\z\/\式0

)()

1l(

z\7\7Z

z1yy

-()z=Z+

(2H

y/

3-l7

xL

H22

ra\

le!瑞

/x*自

2)倒譜求法:設(shè)\/Xf>)

X-\z

M/)=ln|x(/)+jargp(*)],

只考慮反(e,3)的實(shí)部,得:

c(〃)=廣??.。)]

式中,c(〃)是光(〃)對(duì)數(shù)幅值譜的逆傅里葉變換,稱為倒頻譜,簡稱倒譜。由于濁

音信號(hào)的倒譜中存在著峰值,出現(xiàn)位置等于該語音段的基音周期,而清音的倒

譜中則不存在峰值?因此,利用這個(gè)特性就可以判斷清濁音或者估計(jì)濁音的基音周期。

6、什么是復(fù)倒譜?什么是倒譜?已知復(fù)倒譜怎樣求倒譜?已知倒譜怎樣求復(fù)倒譜,有什么

條件限制?

答:

1)復(fù)倒譜:£(〃)=ZT「[lnZfx(〃)]jl」

2)倒譜:設(shè)(*)]

X〔J,則對(duì)其取對(duì)數(shù)得:

**)=ln|x(e,3)+jarg*("。)],

只考慮戈(e”")的實(shí)部,得c(〃)=尸]ln|X(e”)],c(〃)是x(〃)對(duì)數(shù)幅值譜的逆

傅里葉變換,稱為倒頻譜,簡稱倒譜

3)首先將復(fù)倒譜9(〃)表示成一個(gè)偶對(duì)稱序列£(〃)和一個(gè)奇對(duì)稱序列寸()(〃)之和:

xXn)=xe(n)+xo(n)

其中,xe(n)-xe(-n),xo(n)=-xo(-n),則

1

總(〃)=—[/(〃)+x(-?)1

x/n)=1[An)-x(-?)]

2

由于一個(gè)偶對(duì)稱序列的DTFT是一個(gè)實(shí)函數(shù),而一個(gè)奇對(duì)稱序列的DTFT是一個(gè)虛函數(shù),

對(duì)照X(ejm)=ln|x(e"")|+/arglX%'")]便可以得到:

總(〃)=F-,[Re[X(e;(B)]]=尸[in|X?。)|]

而由c(〃)=bT[ln|x(eW)|]可得:

以〃)3[中(/。)|]=只

所以有

c⑺=總=1[/(〃)+x(.-ri)]

2

這樣,由一(〃)即可求得c(〃)。

4)已知一個(gè)實(shí)數(shù)序列x(〃)的倒譜c(〃),那么當(dāng)/(〃)必須滿足一定的條件時(shí),也可用

來求出復(fù)倒譜An)o例如An)是一個(gè)因果序列,該條件可表示為:

x(ti)—x(n)w(n)

其中,〃(〃)是一個(gè)單位階躍函數(shù)??梢钥闯觯跐M足此條件時(shí),c(〃)=意=1[三(〃)

2

+X”(T?)]可以表示成下列形式:

>()

2

c(n)—\x(ri),n=0

-Z(-?),n<Q

12

因此,立即得到:

2c(n),n>0

=Jc("),〃=0

0,/i<0

如果9(")是一個(gè)反因果序列,即滿足下列條件:

x(ri)=x(h)M(-?)

則可以導(dǎo)出:

0,n>0

x"(〃)=《c(〃),〃=O

2c(〃),n<0

可以證明,只有當(dāng)/(九)是一個(gè)因果最小相位序列時(shí),才是一個(gè)因果穩(wěn)定序列。此時(shí),

尤(〃)應(yīng)滿足兩個(gè)條件:1)x(n)=x(n)u(n);2)X(Z)=Z[x(〃)]的零極點(diǎn)都應(yīng)該在單位圓

之內(nèi)。第二個(gè)條件之所以必要是因?yàn)楦?Z)等于X(Z)的自然對(duì)數(shù),因而X(Z)的零極點(diǎn)皆成

為戈(Z)的極點(diǎn)。因此,只有當(dāng)X(Z)的零極點(diǎn)皆在單位圓內(nèi)時(shí)才能使戈(Z)的極點(diǎn)全在單位

圓內(nèi),從而保證是一個(gè)因果穩(wěn)定序列。當(dāng)x(〃)是一個(gè)反因果最大相位序列時(shí),以“)才

是一個(gè)反因果穩(wěn)定序列。它的條件與前一個(gè)情況正好完全相反。只有武〃)是因果最小相位

序列或反因果最大相位序列,便可以由c(〃)算出京〃)。

7、如何將信號(hào)模型化為模型參數(shù)?最常用的是什么模型?什么叫做線性預(yù)測(cè)和線性預(yù)測(cè)方

程式以及如何求解它們?

答:

1)對(duì)一個(gè)簡單的語音模型來說,假設(shè)系統(tǒng)的輸入e(〃)是語音激勵(lì),s(〃)是輸出語

音。此時(shí)模型的系統(tǒng)函數(shù)〃(z)可以寫成有理分式的形式:

q

1+£瓦z"

i=l

該系統(tǒng)對(duì)應(yīng)的輸入與輸出之間的時(shí)域關(guān)系為:

pq

s(〃)=+

i=l1=0

式中,系數(shù)4,%及增益因子G是模型的參數(shù),而。和。是選定的模型的階數(shù)。因而

信號(hào)可以用有限數(shù)目的參數(shù)構(gòu)成的模型來表示。

2)最常用的模型是全極點(diǎn)模型

3)線性預(yù)測(cè)分析的基本思想是由于語音樣點(diǎn)之間存在相關(guān)性,所以可以用過去的樣點(diǎn)

值來預(yù)測(cè)現(xiàn)在或未來的樣點(diǎn)值,即一個(gè)語音的抽樣能夠用過去若干個(gè)語音抽樣或它們的線

性組合來逼近。通過使實(shí)際語音抽樣和線性預(yù)測(cè)抽樣之間的誤差在某個(gè)準(zhǔn)則下達(dá)到最小值

來決定唯一的一組預(yù)測(cè)系數(shù)。

p

線性預(yù)測(cè)方程式為。(/,0)=>>*(〃)(1<J<P)

對(duì)于線性預(yù)測(cè)參數(shù)4?的求解,有自相關(guān)法和協(xié)相關(guān)法兩種經(jīng)典解法,另外還有效率較

高的格型法等。8、什么叫做線譜對(duì),它有什么特點(diǎn),它是如何推導(dǎo)出來的,

有什么用途?答:

1)線譜對(duì)分析也是一種線性預(yù)測(cè)分析方法,只是它求解的模型參數(shù)是“線譜對(duì)"(LSP)。

主要特點(diǎn):(1)LSP參數(shù)都在單位圓上且降序排列;(2)與LSP參數(shù)對(duì)應(yīng)的LSF升序排列,

且尸(z)和。屹)的根相互交替出現(xiàn),這可使與LSP參數(shù)對(duì)應(yīng)的LPC濾波器的穩(wěn)定性得到保證。

上述特性保證了在單位圓上,任何時(shí)候P⑸和0(z)不可能同時(shí)為零;(3)LSP參數(shù)具有相

對(duì)獨(dú)立的性質(zhì)。如果某個(gè)特定的LSP參數(shù)中只移動(dòng)其中任意一個(gè)線譜頻率的位置,那么它所

對(duì)應(yīng)的頻譜只在附近與原始語音頻譜有差異,而在其它LSP頻率上則變化很小。這樣有利于

LSP參數(shù)的量化和內(nèi)插;(4)LSP參數(shù)能夠反映聲道幅度譜的特點(diǎn),在幅度大的地方分布較

密,反之較疏。這樣就相當(dāng)于反映出了幅度譜中的共振峰特性;(5)相鄰幀LSP參數(shù)之間

都具有較強(qiáng)的相關(guān)性,便于語音編碼時(shí)幀間參數(shù)的內(nèi)插。

2)LSP作為線性預(yù)測(cè)參數(shù)的一種表示形式,可通過求解p+1階對(duì)稱和反對(duì)稱多項(xiàng)式的

共規(guī)復(fù)根得到。其中,p+1階對(duì)稱和反對(duì)稱多項(xiàng)式表示如下:

P(z)=A(z)+z_(p+I)A(z'1)

Q(z)=A(z)-Z-")A(ZT)

其中,zY"i)A(zT)=z-(E-年-。一取但-----apz'?

可以推出:

-1-2-/,-(/)+1)

P(z)=1-(6+ap)z-(a2+ap_l)z----(?,+a/,)z+z

Q(z)=l-(4-與尸-(—ap-\)z'----(a?-al>\z~p-z^p+>^

p(z)、Q(z)分別為對(duì)稱和反對(duì)稱的實(shí)系數(shù)多項(xiàng)式,它們都有共金復(fù)根??梢宰C明,當(dāng)

A(z)的根位于單位圓內(nèi)時(shí),P(z)和Q(z)的根都位于單位圓上,而且相互交替出現(xiàn)。如果階

數(shù)P是偶數(shù),則P(z)和Q(z)各有一個(gè)實(shí)根,其中P(z)有一個(gè)根z=-l,Q(z)有一個(gè)根z=l。

如果階數(shù)P是奇數(shù),則P(z)有兩個(gè)根z=T,z=l,Q(z)沒有實(shí)根。此處假定p是偶

數(shù),這樣P(z)和Q(z)各有p/2個(gè)共軌復(fù)根位于單位圓上,共規(guī)復(fù)根的形式為z,=e±總,

設(shè)P(z)的零點(diǎn)為e士為,Q(z)的零點(diǎn)為則滿足:

0〈①i<4<…<a>pl2<6pa<n

其中,@,a分別為p⑵和Q(Z)的第i個(gè)根。

_1_|_-1/2-1-2

p/n2(l-z^)(l-ze^)=(l+z)i>(l-2cosiyz+z)

[]i

^/=l_1_2

-IZ一一z,-聞)=(1,,^(l-2cos6>z+z)

2(X-7p/u2

式中,cos@和cos,,(i=1,2,…,p/2)是LSP系數(shù)在余弦域的表示;3,g則是與

LSP系數(shù)對(duì)應(yīng)的線譜頻率。

9、線譜對(duì)參數(shù)與線性預(yù)測(cè)系數(shù)如何轉(zhuǎn)換?答:

LPC到LSP參數(shù)的轉(zhuǎn)換為

,()3H(;)(“)H(「,)

P--1—zeJ1i-i-j/=1-2ocos69z+z~

1+z;-11e

n陽M')(°)FI(,)

Q'〈zJ=l-z-'eJll-z-'e-J'=1-2cos^z-1+z-2

1-ZHI(=i

從LPC到LSP參數(shù)的轉(zhuǎn)換過程,其實(shí)就是上面兩式等于零時(shí)的cos?和cos4的值。

LSP參數(shù)到LPC的轉(zhuǎn)換為

出=(|0.5Pi(i)+0.5q,(i)i=l,2,...,p/2

[|05p,(p+1—z)-0.5^1(/?+1-z)z=p/2+1,...,p

10、什么叫做MFCC和LPCC?如何求解它們?

答:

1)MFCC:梅爾頻率倒譜系數(shù)。MFCC的計(jì)算一般會(huì)經(jīng)過幾個(gè)步驟,包括預(yù)加重,分

幀,加窗,快速傅里葉變換(FFT),梅爾濾波器組,離散余弦變換(DCT)。求解步驟如下:

具體步驟可以參考教材相關(guān)內(nèi)容.

2)LPCC:線性預(yù)測(cè)倒譜系數(shù)。LPC系數(shù)是線性預(yù)測(cè)分析的基本參數(shù),可以把這些系數(shù)

變換為其他參數(shù),以得到語音的其它替代表示方法。LPC系數(shù)可以轉(zhuǎn)換為LPC系統(tǒng)沖激響應(yīng)

的復(fù)倒譜。

設(shè)通過線性預(yù)測(cè)分析得到的聲道模型系統(tǒng)函數(shù)為:

”(z)=~~7

1+£4-

1=1

其沖激響應(yīng)為力(〃),設(shè)/?”(〃)表示/?(〃)的復(fù)倒譜,則有:

00

方(z)=lnH(z)=E3(〃)zf

W=I

將”⑵代入并將其兩邊對(duì)Z-I求導(dǎo)數(shù),有

(I+Ea*z")Z—=一2如二*‘

Jl=ln=\hl

令上式左右兩邊的常數(shù)項(xiàng)和Z-I各次基的系數(shù)分別相等,從而可由4.求出/?'(〃):

6(0)=0

h(y)=_%

n-l|

〃(〃)=一6一4(1一“/〃)4%(〃—左)(iw〃vp)j

、(\-k/n)ah(ti-k)(鹿〉p)

力(〃)p

k=\J

按上式求得的復(fù)倒譜始(〃)稱之為LPC復(fù)倒譜。求得復(fù)倒譜/?”(〃)后,由

c(〃)=L[h(n)+//(-〃)]即可立即求出倒譜c(〃)。但是,這個(gè)倒譜c(〃)是實(shí)際頻率尺度的

2

倒譜系數(shù)(稱為LPC倒譜系數(shù)(LPCC))。

第4章語音信號(hào)特征提取技術(shù)

1、為什么要進(jìn)行端點(diǎn)檢測(cè)?端點(diǎn)檢測(cè)容易受什么因素影響?

答:

1)端點(diǎn)檢測(cè)在語音信號(hào)處理中占有十分重要的地位,直接影響著系統(tǒng)的性能。語音端

點(diǎn)檢測(cè)是指從一段語音信號(hào)中準(zhǔn)確的找出語音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn),它的目的是為了使有

效的語音信號(hào)和無用的噪聲信號(hào)得以分離,因此在語音識(shí)別、語音增強(qiáng)、語音編碼、回聲抵

消等系統(tǒng)中得到廣泛應(yīng)用。

2)容易受背景噪聲的影響。

2、常用的端點(diǎn)檢測(cè)算法有哪些?各有什么優(yōu)缺點(diǎn)?答:

1)目前端點(diǎn)檢測(cè)方法大體上可以分成兩類:一類是基于閾值的方法,該方法根據(jù)語音

信號(hào)和噪聲信號(hào)的不同特征,提取每一段語音信號(hào)的特征,然后把這些特征值與設(shè)定的閾值

進(jìn)行比較,從而達(dá)到語音端點(diǎn)檢測(cè)的目的。此類方法原理簡單,運(yùn)算方便,所以被人們廣泛

使用;另一類方法是基于模式識(shí)別的方法,需要估計(jì)語音信號(hào)和噪聲信號(hào)的模型參數(shù)來進(jìn)行

檢測(cè)。由于基于模式識(shí)別的方法自身復(fù)雜度高,運(yùn)算量大,因此很難被人們應(yīng)用到實(shí)時(shí)語音

信號(hào)系統(tǒng)中去。

2)優(yōu)缺點(diǎn):在高信噪比的條件下,上述方法大部分都能正常工作,端點(diǎn)檢測(cè)的準(zhǔn)確率

都比較高。但是隨著信噪比的降低,基于能量和基于倒譜距離的語音端點(diǎn)檢測(cè)方法檢測(cè)準(zhǔn)確

率急速降低。

3、常用的基音周期檢測(cè)方法有哪些?敘述它們的工作原理和框圖。

答:

倒譜法:由于語音x(i)是由聲門脈沖激勵(lì)“⑺經(jīng)聲道響應(yīng)V⑺濾波而得,即

x(i)="(i)*v(z)o設(shè)這三個(gè)量的倒譜分別為X(0'?"(0'v(i),則有x(0=U(i)+v\i)o由于在

倒譜域中?(0和/(/)是相對(duì)分離的,說明包含有基音信息的聲脈沖倒譜可與聲道響應(yīng)倒譜分

離,因此從倒頻譜域分離“電后恢復(fù)出“⑴,可從中求出基音周期。在計(jì)算出倒譜后,就在

倒頻率為P-P之間尋找倒譜函數(shù)的最大值,倒譜函數(shù)最大值對(duì)應(yīng)的樣本點(diǎn)數(shù)就是當(dāng)前

幀語音信號(hào)符基署周期1(〃),基音頻率為尸*)=//T(〃)。

自相關(guān)法:短時(shí)自端關(guān)法基音檢測(cè)主要總利用.時(shí)各相關(guān)函數(shù)的性質(zhì),通過比較原始信

號(hào)及其延遲后信號(hào)間的類似性來確定基音周期。歸一化自相關(guān)函數(shù)的最大幅值是b其它延

遲量時(shí),幅值都小于1?如果延遲量等于基音周期,那兩個(gè)信號(hào)具有最大類似性;或直接找

出短時(shí)自相關(guān)函數(shù)的兩個(gè)最大值間的距離,即作為基音周期的初估值。和倒譜法尋找最大值

一樣,用相關(guān)函數(shù)法時(shí)也在P-P間尋找歸一化相關(guān)函數(shù)的最大值,最大值對(duì)應(yīng)的延遲

minmax

量就是基音周期。

線性預(yù)測(cè)法:信號(hào)值x?(ni)與線性預(yù)測(cè)值x?(m)之差稱為線性預(yù)測(cè)誤差,用e,,⑺)表示,

即en(/n)=x?(w)-=x?(m)--〃),由于線性預(yù)測(cè)誤差已經(jīng)去除了共振峰的響

應(yīng),其倒譜能把聲道的影響減到最二、。所以,將線性預(yù)測(cè)誤差號(hào)⑺)表示通過倒譜運(yùn)算也可

以提取基音周期。

4、為什么要進(jìn)行基音檢測(cè)的后處理?在后處理中常用的有哪幾種基音軌跡平滑方法?

答:

1)無論采用哪一種基音檢測(cè)算法都可能產(chǎn)生基音檢測(cè)錯(cuò)誤,使求得的基音周期軌跡中

有一個(gè)或幾個(gè)基音周期估值偏離了正常軌跡(通常是偏離到正常值的2倍或1/2),這種偏

離點(diǎn)稱為基音軌跡的“野點(diǎn)”。

2)中值平滑處理,線性平滑處理,組合平滑處理

5、為什么共振峰檢測(cè)有重要意義?常用的共振峰檢測(cè)方法有哪些?敘述其工作原理。

答:

1)共振峰參數(shù)包括共振峰頻率、頻帶寬度和幅值,包含在語音頻譜的包絡(luò)中。語音信

號(hào)共振峰估計(jì)在語音信號(hào)合成、語音信號(hào)自動(dòng)識(shí)別和低比特率語音信號(hào)傳輸?shù)确矫娑计鹬?/p>

重要作用,所以共振峰檢測(cè)有重要意義。

2)倒譜法:具體步驟如下:

①對(duì)語音信號(hào)x(i)進(jìn)行預(yù)加重,并進(jìn)行加窗和分幀,然后做傅里葉變換。

N-I

Xi(k)=£xi(n)e--

n=0

這里,i代表第i幀。

②求取X,伏)的倒譜;

2

^(?)=vlog'x'aR'

Nk=0

③給倒譜信號(hào)后(〃)加窗〃(”),得

此處的窗函數(shù)和倒頻率的分辨率有關(guān),即和采樣頻率及FFT長度有關(guān)。其定義為:

[1n<n0-l&n>N-n0+l

h(n)=〈w[0,N-1]

[0n0-l<n<N-n0+l

④求取似")的包絡(luò)線

JV-I

H;(k)=£h.)efN

〃=0

⑤在包絡(luò)線上尋找極大值,獲得相應(yīng)的共振峰參數(shù)。

線性預(yù)測(cè)法:預(yù)測(cè)誤差濾波器A(z)的表示為:

A(z)=l

/=!

求其多項(xiàng)式復(fù)根可精確的確定共振峰的中心頻率和帶寬。

設(shè)z,=為任意復(fù)根值,則其共輾值z(mì);=、-w也是一個(gè)根。設(shè)與Z,對(duì)應(yīng)的共振峰頻

率為F,3dB帶寬為B,則F及B與Z之間的關(guān)系為

iiiii

[2萬巴/工=a

其中人為采樣頻率,所以

B:=_ln『fs/兀

因?yàn)轭A(yù)測(cè)誤差濾波器階數(shù)?是預(yù)先設(shè)定的,所以復(fù)共物對(duì)的數(shù)量最多是p/2。因?yàn)椴?/p>

屬于共振峰的額外極點(diǎn)的帶寬遠(yuǎn)大于共振峰帶寬,所以比較容易剔除非共振峰極點(diǎn)。

6、試編寫譜距離法進(jìn)行端點(diǎn)檢測(cè)的Python函數(shù),并編程進(jìn)行驗(yàn)證。答:

請(qǐng)參考附帶的Python程序。

7、試編寫倒譜法進(jìn)行基音周期檢測(cè)的Python函數(shù),并編程進(jìn)行驗(yàn)證。答:

請(qǐng)參考附帶的Python程序。

第5章神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

1、對(duì)比生物神經(jīng)元,簡述人工神經(jīng)網(wǎng)絡(luò)的組成特點(diǎn)。

答:

人工神經(jīng)網(wǎng)絡(luò)與生物神經(jīng)元類似,由多個(gè)節(jié)點(diǎn)(人工神經(jīng)元)相互連接而成,可以用

來對(duì)數(shù)據(jù)之間的復(fù)雜關(guān)系進(jìn)行建模。不同節(jié)點(diǎn)之間的連接被賦予了不同的權(quán)重,每個(gè)權(quán)重

代表了一個(gè)節(jié)點(diǎn)對(duì)另一個(gè)節(jié)點(diǎn)的影響大小。每個(gè)節(jié)點(diǎn)代表一種特定函數(shù),來自其他節(jié)點(diǎn)的

信息經(jīng)過其相應(yīng)的權(quán)重綜合計(jì)算,輸入到一個(gè)激勵(lì)函數(shù)中并得到一個(gè)新的活性值(興奮或

抑制)。從系統(tǒng)觀點(diǎn)看,人工神經(jīng)元網(wǎng)絡(luò)是由大量神經(jīng)元通過極其豐富和完善的連接而構(gòu)

成的自適應(yīng)非線性動(dòng)態(tài)系統(tǒng)。

2、激活函數(shù)有那些重要性質(zhì)?

答:

為了增強(qiáng)網(wǎng)絡(luò)的表示能力和學(xué)習(xí)能力,激活函數(shù)需要具備以下幾點(diǎn)性質(zhì):

(1)連續(xù)并可導(dǎo)(允許少數(shù)點(diǎn)上不可導(dǎo))的非線性函數(shù)??蓪?dǎo)的激活函數(shù)可以直接利

用數(shù)值優(yōu)化的方法來學(xué)習(xí)網(wǎng)絡(luò)參數(shù)。

(2)激活函數(shù)及其導(dǎo)函數(shù)要盡可能的簡單,有利于提高網(wǎng)絡(luò)計(jì)算效率。

(3)激活函數(shù)的導(dǎo)函數(shù)的值域要在一個(gè)合適的區(qū)間內(nèi),不能太大也不能太小,否則會(huì)

影響訓(xùn)練的效率和穩(wěn)定性。

3、如果用全連接前饋網(wǎng)絡(luò)來處理圖像時(shí),會(huì)存在什么問題?

答:

(1)參數(shù)太多:隨著隱藏層神經(jīng)元數(shù)量的增多,參數(shù)的規(guī)模也會(huì)急劇增加。這會(huì)導(dǎo)致

整個(gè)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率會(huì)非常低,也很容易出現(xiàn)過擬合。

(2)局部不變性特征:自然圖像中的物體都具有局部不變性特征,比如在尺度縮放、

平移、旋轉(zhuǎn)等操作不影響其語義信息。而全連接前饋網(wǎng)絡(luò)很難提取這些局部不變特征,一

般需要進(jìn)行數(shù)據(jù)增強(qiáng)來提高性能。

4、卷積神經(jīng)網(wǎng)絡(luò)的基本構(gòu)成有哪些,簡述其結(jié)構(gòu)特點(diǎn)。答:

目前的卷積神經(jīng)網(wǎng)絡(luò)一般是由卷積層、池化層和全連接層交叉堆疊而成的前饋神經(jīng)網(wǎng)

絡(luò),使用反向傳播算法進(jìn)行訓(xùn)練。卷積神經(jīng)網(wǎng)絡(luò)有三個(gè)結(jié)構(gòu)上的特性:局部連接,權(quán)重共

享以及池化。這些特性使得卷積神經(jīng)網(wǎng)絡(luò)具有一定程度上的平移、縮放和旋轉(zhuǎn)不變性。和

前饋神經(jīng)網(wǎng)絡(luò)相比,卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)更少。

5,池化層的作用是什么?答:

池化層也叫子采樣層,其作用是進(jìn)行特征選擇,降低特征數(shù)量,并從而減少參數(shù)量。

6、簡單描述循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消失問題及其解決方法。

答:

由于循環(huán)神經(jīng)網(wǎng)絡(luò)經(jīng)常使用非線性激活函數(shù)為logistic函數(shù)或tanh函數(shù)作為非線性

激活函數(shù),其導(dǎo)數(shù)值都小于1;并且權(quán)重矩陣也不會(huì)太大,因此如果時(shí)間間隔過大,則損

失的倒數(shù)會(huì)趨向于0,因此出現(xiàn)梯度消失問題。

梯度消失是循環(huán)網(wǎng)絡(luò)的主要問題。除了使用一些優(yōu)化技巧外,更有效的方式就是改變

模型,使相鄰隱層狀態(tài)之間為線性依賴關(guān)系,且權(quán)重系數(shù)為1,這樣就不存在梯度爆炸或

消失問題。但是,這種改變也丟失了神經(jīng)元在反饋邊上的非線性激活的性質(zhì),因此降低了

模型的表示能力。

7、針對(duì)梯度消失或爆炸問題,LSTM網(wǎng)絡(luò)做了哪些改進(jìn)?

答:

長短期記憶(LongShort-TermMemory,LSTM)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一個(gè)變體,可

以有效地解決簡單循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度爆炸或消失問題。主要改進(jìn)在以下兩

個(gè)方面:

1)LSTM網(wǎng)絡(luò)引入一個(gè)新的內(nèi)部狀態(tài)專門進(jìn)行線性的循環(huán)信息傳遞,同時(shí)(非線性)

輸出信息給隱藏層的外部狀態(tài)。

2)LSTM網(wǎng)絡(luò)引入門機(jī)制來控制信息傳遞的路徑。LSTM網(wǎng)絡(luò)中的“門”是一種“軟”

門,取值在(0,1)之間,表示以一定的比例運(yùn)行信息通過。

LSTM網(wǎng)絡(luò)中三個(gè)門的作用為:

>遺忘門控制上一個(gè)時(shí)刻的內(nèi)部狀態(tài)需要遺忘多少信息。

>輸入門控制當(dāng)前時(shí)刻的候選狀態(tài)有多少信息需要保存。

>輸出門控制當(dāng)前時(shí)刻的內(nèi)部狀態(tài)有多少信息需要輸出給外部狀態(tài)。

第6章語音增強(qiáng)

1、什么是語音增強(qiáng)抗噪聲技術(shù)?利用語音增強(qiáng)解決噪聲污染的問題,主要是從哪個(gè)角度來

提高語音處理系統(tǒng)的抗噪聲能力的?

答:

1)語音增強(qiáng)抗噪聲技術(shù)是通過估計(jì)有噪語音信號(hào)的噪聲特性來去除噪聲信號(hào),然后通

過消除噪聲分量來提供干凈的語音信號(hào)的技術(shù)。

2)主要是從以下角度來提高語音處理系統(tǒng)的抗噪聲能力:

①采用語音增強(qiáng)算法提高語音識(shí)別系統(tǒng)前端處理的抗噪聲能力,提高輸入信號(hào)的信噪

比;

②尋找穩(wěn)健的耐噪聲的語音特征參數(shù);

③基于模型參數(shù)適應(yīng)化的噪聲補(bǔ)償算法。

2、混疊在語音信號(hào)中的噪聲一般如何分類?什么叫加法性噪聲和乘法性噪聲?什么叫平穩(wěn)

噪聲和非平穩(wěn)噪聲?

答:

1)混疊在語音信號(hào)中的噪聲按類別分為加性噪聲和乘性噪聲,按性質(zhì)可分為平穩(wěn)噪聲

和非平穩(wěn)噪聲。

2)加法性噪聲通常分為沖激噪聲、周期噪聲、寬帶噪聲、語音干擾噪聲等,它們與信

號(hào)的關(guān)系是相加,不管有沒有信號(hào),噪聲都存在。

乘法性噪聲主要是混響及電器線路干擾等,一般由信道不理想引起,它們與信號(hào)的關(guān)

系是相乘,隨信號(hào)存在而存在。

3)平穩(wěn)噪聲的統(tǒng)計(jì)特性不隨時(shí)間變化;非平穩(wěn)噪聲的統(tǒng)計(jì)特性隨時(shí)間變化而變化。

3、什么是人耳的掩蔽效應(yīng)?怎樣可以把人耳的掩蔽效應(yīng)應(yīng)用到語音系統(tǒng)的抗噪聲處理中?

人耳的自動(dòng)分離語音和噪聲的能力與什么有關(guān)?能否把這種原理應(yīng)用到語音系統(tǒng)的抗噪聲

處理中?

答:

1)人耳的掩蔽效應(yīng)是指當(dāng)同時(shí)存在兩個(gè)聲音時(shí),聲強(qiáng)較低的頻率成分會(huì)受到聲強(qiáng)較高

的頻率成分的影響,不易被人耳感知到。

2)將聽覺掩蔽模型與譜減、維納降噪等方法結(jié)合起來,進(jìn)一步提高降噪效果,以有效

掩蔽噪聲和最大限度地保留語音。

3)人耳的自動(dòng)分離語音和噪聲的能力與人的雙耳輸入效應(yīng)有關(guān).

4)能。因?yàn)檎Z音信號(hào)能夠掩蔽與其同時(shí)進(jìn)入聽覺系統(tǒng)的一部分能量較小的噪聲信號(hào),

使得這部分噪聲不為人感知,可在復(fù)雜環(huán)境中獲取特定的語音信號(hào)。

4、為什么對(duì)加法性噪聲的處理是語音增強(qiáng)抗噪聲技術(shù)的基礎(chǔ)?怎樣能夠把乘性噪聲變換成

加性噪聲來處理?

答:

1)一般通信中把加法性噪聲看成是系統(tǒng)的背景噪聲,背景噪聲的存在不僅嚴(yán)重破壞了

語音信號(hào)原有的模型參數(shù)和聲學(xué)特性,導(dǎo)致許多語音處理系統(tǒng)服務(wù)質(zhì)量的降低,而且會(huì)影

響系統(tǒng)輸出語音的可懂度,使聽眾產(chǎn)生聽覺疲勞。對(duì)加性噪聲進(jìn)行處理,從帶噪聲語音信

號(hào)中提取盡可能的純凈的原始語音,改善語音質(zhì)量提高語音可懂度,是語音增強(qiáng)的有效的

基本方法。

2)乘性噪聲在時(shí)域和語音是卷積關(guān)系,可以通過某種變換如同態(tài)濾波,轉(zhuǎn)變?yōu)榧有栽?/p>

聲。

5、利用譜減法語音增強(qiáng)技術(shù)解決噪聲污染的問題時(shí),在最后通過IFFT恢復(fù)時(shí)域語音信號(hào)

時(shí),對(duì)相位譜信息是怎么處理的?為什么可以這樣處理?

答:

1)直接用帶噪語音信號(hào)的相位譜來代替估計(jì)之后的語音信號(hào)的相位譜。

2)因?yàn)槿硕鷮?duì)相位變化不敏感,所以可用帶噪語音信號(hào)的相位譜來代替估計(jì)之后的語

音信號(hào)的相位譜來恢復(fù)降噪后的語音信號(hào)。

6、利用譜減法語音增強(qiáng)技術(shù)處理非平穩(wěn)噪聲時(shí),應(yīng)怎樣更新噪聲功率值?如果減除過度或

過少時(shí),將會(huì)產(chǎn)生什么后果?

答:

1)對(duì)非平穩(wěn)噪聲信號(hào)進(jìn)行加窗分幀處理,并通過發(fā)聲前的所謂“寂靜段”可求出該噪

聲段的功率值。

2)噪聲功率譜減除過度或過少均會(huì)影響最終降噪后的語音時(shí)域信號(hào)的還原效果,減除

過度會(huì)使還原譜失真,減除過少不能有效減少噪聲殘留,無法削弱“音樂噪聲”。

7、什么是Weiner濾波?怎樣利用Weiner濾波法進(jìn)行語音增強(qiáng)?答:

1)Weiner濾波是使估計(jì)誤差(定義為期望響應(yīng)與濾波器實(shí)際輸出之差)均方值最小

化的濾波方法。2)基本方法:

設(shè)帶噪語音信號(hào)為

x(n)=s(n)+v(ri)

其中,x(n)表示帶噪信號(hào),可〃)表示噪聲,則經(jīng)過維納濾波器〃5)的輸出響應(yīng)y(n)為

y(〃)=x(n)*h(n)=^h(rn)x(n-"?)

理論上,X(")通過線性系統(tǒng)以〃)后得到的y(〃)應(yīng)盡量接近于s(〃),因此M")為s(〃)

的估計(jì)值,可用/(〃)表示。

s'(〃)按最小均方誤差準(zhǔn)則使sp)和s(〃)的均方誤差&=E[e2(〃)]=E[{s(〃)—「(〃)『]達(dá)到

最小。對(duì)/?(〃)求J的偏導(dǎo)數(shù)使之為零,整理可得

E[s(n)x(n-m)-]/?(/)E{x("-1)x(〃-,*)}]=0

已知,s(〃)和尤(〃)是聯(lián)合寬平穩(wěn)的。令x(〃)的自相關(guān)函數(shù)為

Rr(m-l)=E{x(n-m)x{n-I)},s(〃)與x(〃)的互相關(guān)函數(shù)為R,m)=E(s(n)x(n-m)],則

整理為

1)=R.(m)

如果已知&(〃?)和R、(〃LO,那么解此方程即可求的維納濾波器的沖激響應(yīng)。

將上式寫成卷積形式并轉(zhuǎn)換到頻域,可得

因此,維納濾波器的頻率響應(yīng)為

“C=P"(e川)

一(*)

相應(yīng)的系統(tǒng)函數(shù)為

2(")

式中,PS,")為x(〃)的功率譜密度;P(〃”)為x(〃)與s(")的互功率譜密度。

XSX

由于v(〃)與s(〃)互不相關(guān),即&(0)=0,則可得

匕(e,3)=R(/)

一(〃'”)=R(〃”')+R(e")

此時(shí),系統(tǒng)函數(shù)可變?yōu)?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論