利用平均幅度差函數(shù)法進(jìn)行基音周期估計(jì)_第1頁
利用平均幅度差函數(shù)法進(jìn)行基音周期估計(jì)_第2頁
利用平均幅度差函數(shù)法進(jìn)行基音周期估計(jì)_第3頁
利用平均幅度差函數(shù)法進(jìn)行基音周期估計(jì)_第4頁
利用平均幅度差函數(shù)法進(jìn)行基音周期估計(jì)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

PAGEPAGE6SpeechPitchPeriodEstimationBasedonAMDFAbstract:Pitchperiodisakeyparameterinspeechcompression,synthesisandrecognition.Thewell-knownAMDFisoftenusedtodeterminethisparameter.Butitiseasytomaketheestimatedpitchdoubled.Accordingtotheconventionalspeech-generatingmodeAMDF,thepaperreferstoanewspeechpitchdeterminationalgor-ithmwhichbasesonAMDF.Thenewmethodcanresolveboththeerrorbysearching"thefirsttrough"andthereduplicationbysearching"theminimaltrough".Itcanwinmoreaccurateresultsbyforecastingtherangeoftheroughvalue,makingandlinear-transformation.Thealgorithmnotonlysimplifiesthepitchdetection,butalsoefficie-ntlydecreasestheestimationerrorsandimprovestheprecisionofestimatedvalues.Keywords:averagemagnitudedifferencefunction(AMDF);pitchperiodestimation1引言基音是指發(fā)濁音時(shí)聲帶振動(dòng)起的周期性,而基音周期是指聲帶振動(dòng)頻率的倒數(shù)。基音周期檢測是語音信號(hào)處理中的重要工作之一。然而基音周期的精確檢測實(shí)際上是比較困難的。這是因?yàn)槁曢T激勵(lì)信號(hào)并不是一個(gè)完全的周期序列,在語音開頭和結(jié)尾部分不具有聲帶振動(dòng)那樣的周期性,清音和有些濁音的過渡幀很難判斷有沒有周期性;同時(shí)語音的共振峰會(huì)嚴(yán)重影響激勵(lì)信號(hào)的諧波結(jié)構(gòu),因?yàn)檎Z音信號(hào)本身是有音調(diào)變化的;另外人的基音周期變化范圍比較大,從50Hz到500Hz。(a)簡化的語音生成數(shù)學(xué)模型 與自相關(guān)法相比,AMDF方法具有運(yùn)算量小、精度高等優(yōu)點(diǎn),在軍用語音編碼中得到廣泛應(yīng)用。但是在AMDF方法中,經(jīng)常發(fā)生基音估計(jì)結(jié)果為實(shí)際基音周期的2倍,這不僅與語音信號(hào)波形復(fù)雜有關(guān),還與短時(shí)AMDF函數(shù)的特性有關(guān).短時(shí)AMDF函數(shù)隨著滯后時(shí)間的增加,峰值幅度逐漸下降,這使得谷值點(diǎn)檢測以及谷值點(diǎn)的清晰度檢查比較困難,針對(duì)該問題,相關(guān)文獻(xiàn)提出了不少改進(jìn)方法。本文提出了一種改進(jìn)的AMDF方法,它通過簡單的預(yù)設(shè)谷值范圍、線性變換等步驟實(shí)現(xiàn)了較精確的基音檢測。2傳統(tǒng)的AMDF函數(shù)與加權(quán)AMDF函數(shù)比較傳統(tǒng)的平均幅度差函數(shù)(AverageMagnitudeDifferenceFunction,AMDF)是Ross等人于1974年提出的,其定義為:(1)其中s(n)為離散化的語音采樣序列,當(dāng)采用短時(shí)處理技術(shù)加方窗時(shí),式(1)變?yōu)椋海?)從式(2)可以看出計(jì)算的差值項(xiàng)是不同的,,隨著k的增加,求和的差值項(xiàng)數(shù)將逐漸減少,結(jié)果導(dǎo)致峰值幅度隨著滯后時(shí)間k的增加而逐漸下降,為了有效地改正這一缺點(diǎn)提出了加權(quán)的平均幅度差函數(shù)(W-AMDF):(3)(b)時(shí)域波形和及對(duì)應(yīng)的傳統(tǒng)AMDF(c)時(shí)域波形和及對(duì)應(yīng)的加權(quán)AMDF3實(shí)驗(yàn)設(shè)計(jì)1)首先對(duì)裝載后的原始語音信號(hào)進(jìn)行分幀,在參數(shù)選擇上使得幀長等于幀移,而且?guī)L控制在比較小的范圍內(nèi)。編寫一個(gè)判斷每幀語音信號(hào)短時(shí)能量的函數(shù),統(tǒng)計(jì)分幀后的語音信號(hào)每幀的平均能量,由于靜音幀和清音幀的能量較濁音幀的能量小,那么可以根據(jù)實(shí)驗(yàn)結(jié)果選擇合適的平均能量閾值,當(dāng)某幀的能量小于該閾值時(shí)可以認(rèn)為這幀不含有基音周期信息,把該幀的幀號(hào)記錄在一個(gè)數(shù)組中。(d)原始語音信號(hào)與去清音和靜音后信號(hào)的比較2)對(duì)每幀信號(hào)經(jīng)過短時(shí)能量判斷后,根據(jù)數(shù)組記錄的幀號(hào)對(duì)對(duì)應(yīng)幀的內(nèi)容作置零處理,然后把非零內(nèi)容的幀組成一個(gè)新的語音,這時(shí)候可以認(rèn)為新的語音信號(hào)中含有豐富的基音周期信息。(e)重新組成的語音信號(hào)3)然后對(duì)新生成的語音信號(hào)進(jìn)行分幀,然后編寫一個(gè)平均幅度差函數(shù),語音信號(hào)的短時(shí)線性加權(quán)平均幅度差函法定義為:4)根據(jù)平均幅度差函數(shù)法原理,判斷每幀信號(hào)的中的局部極小值,由于人的語音頻率為50~500Hz,那么對(duì)應(yīng)的極小值局部搜索范圍為Fs/500~Fs/50(Fs是語音信號(hào)的取樣頻率)個(gè)取樣點(diǎn),那么三倍以及三倍以上周期的情況都已經(jīng)被排除,如果是二倍周期,可以使當(dāng)前幀的基音頻率所對(duì)應(yīng)的取樣點(diǎn)與前一幀真確的基音頻率所對(duì)應(yīng)的取樣點(diǎn)相減,得到當(dāng)前幀的基音頻率所對(duì)應(yīng)的取樣點(diǎn),從而對(duì)野點(diǎn)進(jìn)行了第一次剔除(X(n)為局部極小值對(duì)應(yīng)的取樣點(diǎn)數(shù),NUM為X(n)不為零的總個(gè)數(shù))0 (X(n)>Fs/50orX(n)<Fs/500)X(n)=|X(n)-X(n-1)| (round(X(n)/X(n-1))=2orround(X(n-1)/X(n))=2)X(n) elseAVE=/NUM然后對(duì)經(jīng)過第一次剔除后統(tǒng)計(jì)出來的基音頻率對(duì)應(yīng)的取樣點(diǎn)數(shù)進(jìn)行平均值計(jì)算。以平均值為閾值對(duì)已經(jīng)統(tǒng)計(jì)出來的各幀取樣點(diǎn)數(shù)進(jìn)行第二次去野點(diǎn),即:如果某幀的基音頻率對(duì)應(yīng)的取樣點(diǎn)數(shù)大于閾值的動(dòng)態(tài)范圍就認(rèn)為該幀統(tǒng)計(jì)出來的數(shù)據(jù)是不合理的,并且把其基音周期置零處理。閾值a(0<a<1)、b(b>1)的動(dòng)態(tài)范圍可以根據(jù)實(shí)驗(yàn)結(jié)果擇優(yōu)選擇。0X(n)>AVE*borX(n)<AVE*aX(n)= X(n)else第一次去野點(diǎn)時(shí)在Fs/500~Fs/50個(gè)取樣點(diǎn)的局部范圍內(nèi)尋找極小值,三倍以及三倍以上周期的情況都已被排除,如果沒有基音周期但是在第一次處理時(shí)得到了不合理的數(shù)據(jù),可以通過第二次去野點(diǎn)把數(shù)據(jù)排除掉,從而統(tǒng)計(jì)出每一幀的基音頻率所對(duì)應(yīng)的取樣點(diǎn)數(shù),然后把取樣點(diǎn)數(shù)轉(zhuǎn)換為相應(yīng)的基音頻率,同時(shí)取樣點(diǎn)數(shù)為零的數(shù)據(jù)仍然置零處理,并再次統(tǒng)計(jì)這個(gè)語音信號(hào)的平均頻率。(f)第k+1幀的極小值對(duì)應(yīng)二倍基音周期,其基因周期等于該值減去k幀的基音周期5)最后,經(jīng)以上方法統(tǒng)計(jì)出來的基音頻率總的來說是在平均頻率上下范圍波動(dòng),為了使得實(shí)驗(yàn)數(shù)據(jù)分布的更光滑,可以對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行線性濾波,使得基因頻率在平均頻率的正負(fù)5%的范圍內(nèi)波動(dòng)。(g)基音統(tǒng)計(jì)結(jié)果4結(jié)束語 傳統(tǒng)的基于短時(shí)AMDF函數(shù)隨著滯后時(shí)間的增加,峰值幅度逐漸下降,這使得谷值點(diǎn)檢測以及谷值點(diǎn)的清晰度檢查比較困難,針對(duì)該問題相關(guān)文獻(xiàn)提出了不少改進(jìn)方法,在此基礎(chǔ)上,本文里利用基于W-AMDF的基音檢測算法,并在該算法中采用了新的清濁判別和基音判別準(zhǔn)則,提高了基音估計(jì)精度,而且算法的復(fù)雜度低。參考文獻(xiàn)1、《語音信號(hào)處理》,趙力,機(jī)械工業(yè)出版社,2003。2《語音信號(hào)處理》,易克初,田斌,付強(qiáng),國防工業(yè)出版社,北京,2000。3、《數(shù)字信號(hào)處理的MATLAB實(shí)現(xiàn)》,萬永革,科學(xué)出版社,北京,2007。實(shí)驗(yàn)小結(jié)基音周期是語音信號(hào)中的重要參數(shù)之一,它在語音識(shí)別、語音合成和語音編碼中有著廣泛的應(yīng)用,因此研究如何準(zhǔn)確判斷語音信號(hào)的基音頻率是非常有實(shí)際意義的,同時(shí)從不同角度出發(fā)來研究語音信號(hào)的基音頻率又具有重要的理論價(jià)值。本次實(shí)驗(yàn)作者采用的是在時(shí)域里利用線性加權(quán)平均幅度差函數(shù)法進(jìn)行基音周期估計(jì),根據(jù)信息論的有關(guān)知識(shí)可知對(duì)原始語音信號(hào)作直接的處理可以使得原始語音所含有的基音頻率信息丟失的最少,因此可以說恰當(dāng)?shù)剡\(yùn)用此方法可以取得比較科學(xué)可靠的結(jié)果。設(shè)計(jì)的創(chuàng)新點(diǎn):1.原始語音信號(hào)分幀(幀長等于幀移)后進(jìn)行短時(shí)能量判斷,小于某一閾值則置零處理,然后用非零幀組成新的富含基音周期信息的新語音信號(hào),接著對(duì)這個(gè)新語音進(jìn)行基因周期估計(jì)。2.人的語音頻率為50~500Hz,那么在局部范圍第Fs/500~Fs/50(Fs是語音信號(hào)的取樣頻率)個(gè)取樣點(diǎn)內(nèi)搜索每幀信號(hào)的中的局部極小值,三倍以及三倍以上周期的情況都已經(jīng)被排除,其原理為(NUM為X(n))>0的總個(gè)數(shù)):0 (X(n)>Fs/50orX(n)<Fs/500)X(n)=|X(n)-X(n-1)| (round(X(n)/X(n-1))=2orround(X(n-1)/X(n))=2)X(n) elseAVE=/NUM經(jīng)過第一次去野點(diǎn),在進(jìn)行第二次去野點(diǎn)操作,其原理為:0X(n)>AVE*borX(n)<AVE*aX(n)= X(n)else閾值a(0<a<1)、b(b>1)的動(dòng)態(tài)范圍可根據(jù)實(shí)驗(yàn)結(jié)果擇優(yōu)選擇需要改進(jìn)的地方:本算法仍然存在一些基音周期估計(jì)錯(cuò)誤,主要是發(fā)生在清音濁音過渡段,即清音誤判為濁音,需要進(jìn)一步研究.通過本次軟件設(shè)計(jì)促進(jìn)自己對(duì)所學(xué)知識(shí)的融會(huì)貫通,同時(shí)也使自己在研究問題方面有了更深的認(rèn)識(shí),拓寬了知識(shí)面,鍛煉了能力,綜合素質(zhì)得到較大提高,尤其是觀察、分析和解決問題的能力。作為整個(gè)學(xué)習(xí)體系的有機(jī)組成部分,軟件設(shè)計(jì)雖然安排在課外時(shí)間進(jìn)行,但并不具有絕對(duì)獨(dú)立的意義。它的一個(gè)重要功能,在于運(yùn)用學(xué)習(xí)成果,檢驗(yàn)學(xué)習(xí)成果。運(yùn)用學(xué)習(xí)成果,把課堂上學(xué)到的系統(tǒng)化的理論知識(shí),嘗試性地應(yīng)用于解決實(shí)際問題;檢驗(yàn)學(xué)習(xí)成果,看一看課堂學(xué)習(xí)與實(shí)際工作到底有多大距離,并通過綜合分析,找出學(xué)習(xí)中存在的不足,以便為完善學(xué)習(xí)計(jì)劃,改變學(xué)習(xí)內(nèi)容與方法提供實(shí)踐依據(jù)。軟件設(shè)計(jì)達(dá)到了專業(yè)學(xué)習(xí)的預(yù)期目的,感到不僅實(shí)際動(dòng)手能力有所提高,更重要的是進(jìn)一步激發(fā)了對(duì)專業(yè)知識(shí)的興趣,并能夠結(jié)合實(shí)際存在的問題在專業(yè)領(lǐng)域內(nèi)進(jìn)行更深入的學(xué)習(xí)。附錄(源代碼):clearall;Fs=8000;loadma1_4,soundsc(ma1_4);len=50;Voice=ma1_4'/max(abs(ma1_4'));%對(duì)語音進(jìn)行歸一化figure,subplot(2,1,1),plot(Voice),title('原始語音ma1-4'),axis([0length(Voice)-0.81.1]),gridon;f=enframe(Voice,len,len);[row,col]=size(f);Energy=zeros(1,row);%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%短時(shí)平均幅度函數(shù)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%fori=1:row%Ave_Fudu(1,i)=sum(abs(f(i,:)),2);%end%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%短時(shí)能量函數(shù)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%fori=1:rowEnergy(1,i)=sum(abs(f(i,:).*f(i,:)),2);end%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%MAX=max(Energy);Ave_Energy=sum(Energy)/row;Delete=zeros(1,row);%%%%%%%%%%%%%%%%%%%%%%%%%%Delete(i)=1表示第i幀為清音幀%%%%%%%%%%%%%%%%%%%%%%%%%fori=1:rowifEnergy(1,i)<Ave_Energy*0.25Delete(i)=1;endend%figure,plot(Delete);%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%New=zeros(1,(row-sum(Delete))*len);%清音幀數(shù)據(jù)全部置零fori=1:rowifDelete(i)==1Voice(1,(i-1)*len+1:i*len)=0;endendsubplot(2,1,2),plot(Voice),title('去掉靜音和部分清音后的語音信號(hào)'),axis([0length(Voice)-0.81.1]),gridon;figure,plot(ma1_4),holdon,plot(Voice,'r'),,title('處理前后的語音直觀比較');legend('去掉的靜音和清音部分');axis([0length(Voice)-0.81.2]),gridon;%figure,plot(Energy),title('短時(shí)能量'),axis([0length(Energy)0MAX+1]),line([0length(Energy)],[Ave_EnergyAve_Energy],'color','r'),gridon;%%%%%%%%%%%%%%%%%%%%%%%%%%%%%短時(shí)過零函數(shù)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%signs=(Voice(1,1:(length(Voice)-1)).*Voice(1,2:length(Voice)))<0;%figure,plot(signs),title('短時(shí)過零'),axis([0length(Voice)-13]),gridon;%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%f2=enframe(signs,len,len);begin=1;%去掉清音后的語音存放在New數(shù)組中fori=1:rowifDelete(i)==0New(1,(begin-1)*len+1:begin*len)=Voice(1,(i-1)*len+1:i*len);begin=begin+1;endendfigure,plot(New),title('去掉靜音和部分清音后重新組成的語音信號(hào)'),axis([0length(New)-0.61.1]),gridon;len=256;inc=round(len*0.4);f=enframe(New,len,inc);[row,col]=size(f);F=zeros(row,col);fork=1:colF(:,k)=sum(abs(f(:,1:len+1-k)-f(:,k:len)),2)/(len-k+1);endMin=zeros(1,row);Xlable=zeros(1,row);fori=1:rowMin(i)=min(F(i,16:round(0.6*col)));endfori=2:row%找出谷值點(diǎn)的橫坐標(biāo),存儲(chǔ)于Xlable中forj=round(Fs/500):round(Fs/40)%假設(shè)人語音的基音頻率為40hz~450hzifMin(i)==F(i,j)Xlable(i)=j;ifround((Xlable(i)+1)/(Xlable(i-1)+1))==2|round((Xlable(i-1)+1)/(Xlable(i)+1))==2Xlable(i)=abs(Xlable(i)-Xlable(i-1));%對(duì)野點(diǎn)進(jìn)行類中指處理處理endendendendnum=0;fori=1:rowifXlable(i)>0num=num+1;endendAVE=sum(Xlable)/num;fori=1:rowifXlable(i)>AVE*1.1|Xlable(i)<AVE*0.9Xlable(i)=0;endendnum=0;fori=1:rowifXlable(i)>0num=num+1;endend%%%%%%%%%%%%%%%%%%%把存儲(chǔ)于Xlable中的平均基因取樣點(diǎn)數(shù)目轉(zhuǎn)為基因頻率%%%%%%%%%%%%%%%%%%%fori=1:rowifXlable(i)~=0Xlable(i)=Fs/Xlable(i);endendfigure,subplot(2,1,1),plot(Xlable,'.'),title('幀的基因頻率原始分布'),gridon;%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%begin=1;fori=1:rowifXlable(i)~=0Fra_Vow_Distr(begin)=Xlable(i);begin=begin+1;endendAVE=sum(Fra_Vow_Distr)/num%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行線性濾波%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%fori=1:5Fra_Vow_Distr=smooth(Fra_Vow_Distr);end%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論