基于聽覺的多聲源語音分離模型_第1頁
基于聽覺的多聲源語音分離模型_第2頁
基于聽覺的多聲源語音分離模型_第3頁
基于聽覺的多聲源語音分離模型_第4頁
基于聽覺的多聲源語音分離模型_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于聽覺的多聲源語音分離模型

在多音源下,通用聽覺中樞系統(tǒng)的聲音分離研究已有20多年的歷史,通常有三個(gè)分類模型。第一個(gè)模型是由bhadkamkar提出的。該方法是創(chuàng)建一個(gè)coms電路來處理兩個(gè)耳時(shí)間差(itd)。該方法簡(jiǎn)單易用,但精度不高。第二個(gè)模型是魏塞爾提出的。該方法是創(chuàng)建概率模型來估計(jì)源方向,并將內(nèi)側(cè)橄欖樹(mso)、外側(cè)橄欖樹(lso)和大腦中的丘(voys理論)的內(nèi)插槽模型與外部橄欖樹(voys)和大腦中的丘進(jìn)行了比較,并使用了貝葉斯理論來計(jì)算它們之間的聯(lián)系,但實(shí)際上并不利用生物電阻器神經(jīng)網(wǎng)絡(luò)特征來模擬真實(shí)元音的聲音分離。第三個(gè)模型是由vbots等人提出的。建立了一個(gè)基于端點(diǎn)神經(jīng)網(wǎng)絡(luò)多延遲的模型,并使用itd。低頻語音信號(hào)的分離效果良好,但僅考慮itd,影響大于1.5hz的語音信號(hào)。在過去的25年里,對(duì)于聽覺中樞系統(tǒng)的結(jié)構(gòu)和功能的研究已經(jīng)有了長(zhǎng)足的進(jìn)步,腦下丘在聽覺信息的獲取過程中起到了非常關(guān)鍵的作用.腦下丘是提取聲音特征的一個(gè)樞紐和處理中心.在這里,聲音中雙耳時(shí)間差和水平差都被提取出來.聽覺學(xué)研究表明,雙耳的辨別功能比單耳好.根據(jù)從聲源到兩耳距離的不同及傳聲途徑中屏蔽條件的不同,從某一方位發(fā)出的聲音到達(dá)雙耳時(shí),便出現(xiàn)雙耳時(shí)間差和雙耳水平差,在聽覺中樞系統(tǒng)對(duì)輸入語音信息進(jìn)行分離時(shí),雙耳時(shí)間差和水平差便是聲源定位的重要依據(jù).腦下丘會(huì)控制內(nèi)耳神經(jīng)的聽覺纖毛響應(yīng)閾值,低頻段(小于1.5kHz)的語音信號(hào)(在這個(gè)頻段范圍內(nèi)ITD對(duì)語音離位更有效率)會(huì)經(jīng)過MSO的中區(qū)傳遞給腦下丘;高頻段(大于1.5kHz)的語音信號(hào)(在這個(gè)頻段范圍內(nèi)ILD對(duì)語音分離更有效率)則可以同時(shí)經(jīng)過MSO和LSO的中區(qū)傳遞給腦下丘,最后不同區(qū)域的信號(hào)分別輸入給腦下丘.腦下丘的神經(jīng)組織還有一個(gè)重要的特點(diǎn):在物理上使用多層解剖結(jié)構(gòu)對(duì)聲音信號(hào)依照頻率進(jìn)行分解,每一層的神經(jīng)細(xì)胞只對(duì)特定的頻率分量進(jìn)行響應(yīng),這種解剖特征被稱為頻率解剖特征,這種特征使得多頻段語音輸入在腦下丘中進(jìn)行了空間隔離.這樣,來自同一聲源或者具有同樣頻率特征的聲音就很容易被重合和提取出來,于是在嘈雜的多聲源環(huán)境中,語音信號(hào)就分別被分離出來,重新生成信號(hào)流.綜上所述,聽覺中樞系統(tǒng)對(duì)多聲源噪聲輸入能夠有效地進(jìn)行分離,建立一個(gè)完整的模擬聽覺中樞系統(tǒng)的語音分離模型,就可能解決目前動(dòng)態(tài)復(fù)雜環(huán)境下的語音識(shí)別問題.1多路語音信號(hào)圖1是本文提出的多聲源環(huán)境下基于聽覺中樞系統(tǒng)的語音分離原理結(jié)構(gòu)圖,是一個(gè)完整的模擬聽覺中樞系統(tǒng)的計(jì)算模型.多路語音信號(hào)先經(jīng)過聽覺外周模型,根據(jù)頻率的不同而被劃分為不同的頻率通道,然后經(jīng)過上橄欖復(fù)合體(SOC,包括MSO和LSO)進(jìn)行語音信息提取,最后利用腦下丘細(xì)胞模型將多聲源分離成單個(gè)的語音信號(hào).1.1ammawell函數(shù)聲學(xué)研究表明,位于耳蝸內(nèi)部的基底膜具有頻率分解的作用,不同頻率的信號(hào)將激發(fā)基底膜的不同位置具有不同振動(dòng).基于基底膜的特性,音頻外圍處理時(shí),本文選擇用24個(gè)二階離散的Gammatone(GT)濾波器組,取代常用的三角濾波器來進(jìn)行多頻率分析.Gammatone函數(shù)的時(shí)域如式(1)所示:g(t)=tn-1cos(2πf0+θ)E2πbtu(t).(1)式中:n表示濾波器的階數(shù),選取n=4;參數(shù)θ為Gammatone濾波器的初始相位;u(t)為階躍函數(shù);參數(shù)b=b1ERB(f0),b1=1.019,ERB(f0)是Gammatone濾波器的等效矩陣帶寬,并且它和Gammatone濾波器中心頻率f0有如下關(guān)系:ERB(f0)=-2.47+0.108f0.圖2是一組利用聽覺外周模型的Gammatone濾波器組的頻率響應(yīng)圖,是24個(gè)Gammatone濾波器組成的濾波器組,它的頻率范圍是80~4000kHz.對(duì)于輸入的語音信號(hào),經(jīng)過聽覺外周模型的多頻率分析之后,根據(jù)頻率的不同,分別在聽覺中樞系統(tǒng)中的24個(gè)不同的頻率通道內(nèi)傳遞,便于語音信號(hào)在系統(tǒng)模型中的分離.1.2基于通用突變函數(shù)的子學(xué)模型重合神經(jīng)元模型模擬突觸和細(xì)胞體的響應(yīng),完成對(duì)語音信息的提取與融合.本文分別選取了Meddis的通用突觸函數(shù)模型和已經(jīng)成熟應(yīng)用的Leakyintegrate-and-fire(LIF)模型來模擬突觸和細(xì)胞體對(duì)語音信息的提取,然后又根據(jù)聽覺神經(jīng)中樞對(duì)ITD和ILD的信息整合的特點(diǎn),提出了本文核心重合神經(jīng)元模型,完成對(duì)語音信息的融合.1.2.1stimt語音信號(hào)在基底膜上引起的振動(dòng)會(huì)造成遞質(zhì)通過可滲透膜向突觸間隙釋放,引起了聽神經(jīng)的發(fā)放.滲透膜的滲透率h(t)是變化的,決定于輸入信號(hào)的振幅,每個(gè)GT濾波器輸出要經(jīng)過半波整流.h(t)={A+stim(t)A+B+stim(t)g,A+stim(t)≥0;0,A+stim(t)<0.式中:stim(t)是輸入語音信號(hào)瞬時(shí)的幅度,A為信號(hào)x(t)的滲透閾值,g是與滲透率相關(guān)的量,B與最大滲透率有關(guān).圖3是突觸模型的原理圖.突觸中內(nèi)毛細(xì)細(xì)胞含有可以自由釋放的神經(jīng)遞質(zhì)量,用q(t)表示,且有y[1-q(t)]的補(bǔ)償率.突觸裂隙內(nèi)包含的神經(jīng)遞質(zhì)量以c(t)表示,它向內(nèi)毛細(xì)胞返回的量為rc(t),并且有l(wèi)c(t)的神經(jīng)遞質(zhì)量不斷的丟掉,可用下列方程來描述突觸子系統(tǒng)的操作過程:dqdt=y[1-q(t)]+rc(t)-h(t)q(t),(2)dcdt=h(t)q(t)-lc(t)-rc(t),(3)p(t)=hc(t)dt.(4)式(2)~(4)組成了通用突觸模型,其中,y、r、l、h是相關(guān)的一些常數(shù),dt則是采樣間隔,取值如表1所示.1.2.2初始電壓的確定遞質(zhì)分子通過突觸間隙遞質(zhì)擴(kuò)散到突觸后神經(jīng)元而形成電流,電流向神經(jīng)元的細(xì)胞體移動(dòng),形成一個(gè)逐漸增加的突觸后電流I(t).本文選擇LIF模型來模擬通用細(xì)胞體的功能,如圖4所示,包括1個(gè)電阻R以及1個(gè)與之并聯(lián)的被外來電流I(t)驅(qū)動(dòng)的電容C,其中,u(t)=urexp[-t-t(f)τm]+1C∫t-t(f)0exp[-sτm]?Ι(t-s)ds.初始膜電位是ur,τm是一個(gè)常量,分別代表電阻R和電容C.C是被I(t)充電的電容,φ為行動(dòng)電位.如果在t時(shí)刻,當(dāng)u(t)=φ時(shí),細(xì)胞體將會(huì)釋放一個(gè)脈沖,然后u(t)被重設(shè)為初始電壓0.1.2.3itd重合模型在已有的通用突觸模型和通用細(xì)胞模型的基礎(chǔ)上,本文根據(jù)生物學(xué)原理提出重合神經(jīng)元模型,分別用于對(duì)ITD和ILD信息進(jìn)行融合.ITD通路,異側(cè)耳朵的脈沖序列的發(fā)射要經(jīng)過變化的延遲線Δti,表示延遲脈沖序列為SCP(Δti,fj),這里C代表異側(cè),fj代表頻率通道j.類似地,SIP(ΔT,fj)代表同側(cè)耳朵的固定延遲脈沖序列帶有一個(gè)固定的延遲時(shí)間ΔT.為了計(jì)算ITDSCP(Δti,fj)和SIP(ΔT,fj),被輸入到ITD的重合模型.ITD重合模型計(jì)算的輸出是一個(gè)新的脈沖序列,即為SITD((ΔT-Δti),fj).脈沖SITD((ΔT-Δti),fj)代表聲音到達(dá)同側(cè)耳朵比到達(dá)異側(cè)耳朵,ITD=ΔT-Δti.圖5就是ITD的重合模型,其中,ES代表興奮性突觸.ILD通路沒有使用LIF模型,檢測(cè)到兩側(cè)聲音等級(jí)用來計(jì)算等級(jí)差,并且相應(yīng)的ILD細(xì)胞將釋放一個(gè)脈沖.等級(jí)差異的計(jì)算公式是:Δpj=log(pjΙ/pjC),這里pjΙ和pjC分別代表頻道j的同側(cè)和異側(cè)聲音等級(jí).對(duì)于脈沖SILD(Δpj,fj),負(fù)的ILD值意味著聲音等級(jí)將會(huì)是右耳的比左耳的低,正的ILD值正好相反.圖6為ILD的重合模型,其中ipsi和contra是代表異側(cè)的Gammatone頻率通道.由以上分析,在完成重合神經(jīng)元之后,為了提取并融合ITD和ILD傳遞的語音信息,建立了2個(gè)加權(quán)陣列:ITDw和ILDw,在所有的頻率范圍內(nèi),利用乘以一個(gè)二維的ITD/ILD的矩陣加權(quán)陣列計(jì)算出一個(gè)加權(quán)的ILD和ITD映射.ΙΤDjw=∑j(max(fj/1200,1))max(fj/1200,1),ΙLDjw=max(log(fj/1000,0))∑j(max(log(fj/1000,0))).式中:j是頻道指數(shù).加權(quán)的ITD和ILD映射信息最終被融合到一起,也就是MSO和LSO的輸出信息,最后被輸入到腦下丘的神經(jīng)細(xì)胞內(nèi)進(jìn)行語音信息的提取和分離.1.3語音信號(hào)的分離腦下丘中一共有ReboundRegular、ReboundOnse、/SustainedRegular、Onset等幾種細(xì)胞.本文根據(jù)腦下丘的Onset神經(jīng)細(xì)胞模型對(duì)多聲源的語音信號(hào)進(jìn)行分離的特征,構(gòu)造了OnesetCell模型.圖7是腦下丘的Onset神經(jīng)細(xì)胞模型的結(jié)構(gòu)原理圖.對(duì)于OnsetCell模型,每一個(gè)模型都有激活和非激活2個(gè)狀態(tài).當(dāng)細(xì)胞為激活狀態(tài)時(shí),模型被實(shí)施為L(zhǎng)IF模型的神經(jīng)元,直到釋放了一個(gè)脈沖或者接受一個(gè)抑制性的輸入,然后細(xì)胞模型變?yōu)榉羌せ顮顟B(tài).當(dāng)為非激活狀態(tài)時(shí),也就是細(xì)胞模型為空置狀態(tài),直到細(xì)胞模型在一段持續(xù)時(shí)間ts內(nèi)沒有受到抑制并且輸入為0(無脈沖)后,細(xì)胞模型會(huì)變?yōu)榧せ顮顟B(tài).再利用OnsetCell模型對(duì)多聲源語音信號(hào)進(jìn)行分離時(shí),要用到信號(hào)能量比,首先計(jì)算出神經(jīng)細(xì)胞模型中語音信號(hào)的第i頻率通道、第j時(shí)間幀能量∑iS2i,j(t)和噪聲信號(hào)能量∑in2i,j(t),然后計(jì)算出信號(hào)能量比:Ei,j=∑iS2i,j(t)∑iS2i,j(t)+∑in2i,j(t).如果Ei,j>0.5,表明語音能量大于噪聲能量,應(yīng)該保留這個(gè)語音占主導(dǎo)地位的信號(hào)片段;反之,如果Ei,j<0.5,表明噪聲能量占主導(dǎo)地位則應(yīng)當(dāng)舍去.然后再利用Onset細(xì)胞模型獲取ITD和ILD的值,來構(gòu)建掩蔽矩陣,實(shí)現(xiàn)語音信號(hào)的分離.本文采用二值掩蔽,對(duì)于第i通道、第j時(shí)間幀的掩蔽系數(shù)可以定義為λ(i,j)={1,fi≤fc?且[τmax(i,j)]>Τ(τ)(i,j)];1,fi>fc?且[L(i,j)]>Τ(l)(i,j)];0,其他.式中:fc=1.5kHz,T(τ)(i,j)和T(l)(i,j)分別是ITD和ILD的閾值,τmax(i,j)是第i頻率通道、第j時(shí)間幀最大的時(shí)間延遲,L(i,j)是第i頻率通道、第j時(shí)間幀的ILD值,L(i,j)=20lg∑i,jpl(i,j,t)2∑i,jpr(i,j,t)2.式中:pl(i,j,t)和pr(i,j,t)分別為第i頻率通道、第j時(shí)間幀的左、右耳的信號(hào)發(fā)放率.對(duì)多聲源的語音信號(hào)在各頻率通道和各時(shí)間幀上求掩蔽系數(shù),然后再獲得掩蔽矩陣.矩陣中所有相同的元素1和所有相同的元素0為同一歸屬.所有相同的元素1的矩陣中,信號(hào)的自相關(guān)函數(shù)的傅里葉變換等于該信號(hào)傅里葉變換幅度的平方.如果用Rxx(τ)表示x(t)的自相關(guān),則x(t)的功率譜|X(w)|2為|X(w)|2=∫-∞∞Rxx(τ)exp(-jwτ)dτ.由此可得到聽覺模型中神經(jīng)發(fā)放率的短時(shí)幅度譜,接下來進(jìn)行一種迭代算法,該算法在每次迭代中,重構(gòu)信號(hào)的相位信息,以減少重建信號(hào)的短時(shí)傅里葉變換幅度與原已知信號(hào)的短時(shí)傅里葉變換幅度之間的平方誤差,從而得到信號(hào)的估計(jì)值,然后將估計(jì)信號(hào)的傅里葉變換幅度值與原已知的傅里葉變換幅度值的平方誤差最小化.第i次迭代重構(gòu)的信號(hào)x(i)(n)由式(5)表示:x(i)(n)=∑m=-∞∞w(mS-n)12π∫-ππX^(i-1)(m,n)e(jwτ)dw∑m=-∞∞w2(mS-n).(5)式中:w(mS-n)為分析窗,S為窗移.可以根據(jù)x(i)(n)求出第i次迭代重構(gòu)信號(hào)的短時(shí)傅里葉變化X(i)(m,n),并由式(6)可以求出它與原來給定的短時(shí)幅度Xd(m,n)之間的誤差.Error=∑m=-∞∞∑n=0Ν-1∥X(i)(m,n)|-|Xd(m,n)∥2.(6)如果誤差小于給定的值,迭代結(jié)束;否則計(jì)算出X^(i)(m,n),按照式(5)進(jìn)行下一次迭代.X^(i)(m,n)=|Xd(m,n)|X(i)(m,n)|X(i)(m,n)|.經(jīng)過以上的運(yùn)算,可以求出聽覺模型中每個(gè)通道的神經(jīng)發(fā)放率p(t).下一步要從聽神經(jīng)發(fā)放率p(t)恢復(fù)出半波整流后的信號(hào)h(t):c(t)=p(t)hdt.求得c(t)后,經(jīng)過推導(dǎo)可以依次求出q(t)和h(t):q(t)=y[1-q(t-1)]dt-lc(t-1)dt-c(t)-c(t-1)+q(t-1)?h(t)=[c(t)-c(t-1)dt+lc(t)+r(t)]q(t).h(t)即為求得的半波整流后的信號(hào)表示.h(t)再次經(jīng)過迭代就可以得出原始語音信號(hào).2結(jié)果與分析2.1構(gòu)建邊界層模型本文選擇具有代表性的國(guó)家“863”多語言基礎(chǔ)資源庫,通過與當(dāng)前語音分離最為權(quán)威的尖峰神經(jīng)網(wǎng)絡(luò)的多滯后線模型比,來驗(yàn)證本文的模型.國(guó)家“863”多語言基礎(chǔ)資源庫口語語音庫中,包括1500人的El語語音庫,主要有電話語音、會(huì)議語音各750人和廣播語音,每人發(fā)音長(zhǎng)度至少為30min,隨意口語.本文選擇的實(shí)驗(yàn)測(cè)試集是“863”多語言基礎(chǔ)資源庫的廣播語音庫(包括訪談?lì)惡托侣勵(lì)?,總共有300h的較大規(guī)模資料庫,從中隨機(jī)挑選了20個(gè)人(10男10女)的50個(gè)漢語單詞和句子.選擇上述構(gòu)建好的OnesetCell模型在IntelPentium2.5GHz、內(nèi)存1GB的微機(jī)上,利用Matlab對(duì)上述模型用以上的方案進(jìn)行試驗(yàn).把這些測(cè)試數(shù)據(jù)總結(jié)為3類(分別用A、B、C表示),每個(gè)測(cè)試類分別包括2種語音信號(hào)和一個(gè)噪聲(本文選擇交通噪聲)信號(hào),采樣率為44.1kHz,選擇16位的采樣精度.A類:聲源1為男生漢語單詞,聲源2為女生漢語單詞;B類:聲源1為男生漢語單詞,聲源2為女生漢語短句;C類:聲源1為女聲漢語短句,聲源2為男聲短句單詞.2.2結(jié)合治療劉世明、強(qiáng)化神經(jīng)元的多聲源語音系統(tǒng)模型圖6就是選取本文所用模型中C類的一個(gè)語音分離仿真結(jié)果.第1幅圖是原始的女生“中國(guó)向前進(jìn)”,第2幅圖是原始的男生“人民齊發(fā)展”,第3幅圖是混疊后的信號(hào),第4幅圖是分離后的聲源信號(hào)男生“人民齊發(fā)展”,第5幅圖是分離后的聲源信號(hào)女生“中國(guó)向前進(jìn)”.對(duì)于A、B、C3類測(cè)試,做了大量實(shí)驗(yàn)之后,從每類測(cè)試中分別隨機(jī)抽取了50組,結(jié)果對(duì)分離后的語音信號(hào)和原始的語音信號(hào)波形利用Matlab進(jìn)行相似性對(duì)比.圖9給出了相似度比較結(jié)果.圖9分別對(duì)應(yīng)于A、B、C3類測(cè)試的相似度對(duì)比結(jié)果,橫坐標(biāo)代表試驗(yàn)次數(shù),縱坐標(biāo)代表分離后語音信號(hào)和原始語音信號(hào)的相似度.由曲線可得,分離后的語音信號(hào)與原始的平均相似度可以達(dá)到0.97以上,由此可得,本文提出的完整的利用聽覺中樞系統(tǒng)的模型對(duì)于多聲源環(huán)境下的語音分離具有很高的魯棒性.接下來,本文對(duì)比Voutsas等構(gòu)建的構(gòu)建結(jié)合實(shí)際尖峰神經(jīng)網(wǎng)絡(luò)的多滯后線模型,該模型也利用生物學(xué)聽覺中樞的相關(guān)原理,但是在提取多聲源語音信號(hào)的特征時(shí)只利用了ITD信息,也就是說,該模型沒有利用重合神經(jīng)元融合ILD的信息.本文隨機(jī)從國(guó)家“863”多語言基礎(chǔ)資源庫的口語語音庫中挑選了25個(gè)小于1.5kHz的詞語和25個(gè)大于1.5kHz的詞語,利用該模型進(jìn)行語音分離實(shí)驗(yàn),并且將分離后的語音信號(hào)和原始的語音信號(hào)進(jìn)行相似度比較,結(jié)果如圖10所示.由圖10可得,對(duì)小于1.5kHz頻率的低頻語音信號(hào),采用Voutsas等構(gòu)建的構(gòu)建結(jié)合實(shí)際尖峰神經(jīng)網(wǎng)絡(luò)的多滯后線模型,其結(jié)果相似度可以達(dá)到0.975以上,但是對(duì)于大于1.5kHz的語音信號(hào)卻越來越弱.這一點(diǎn)正好符合生物學(xué)原理,ITD對(duì)低于1.5kHz的語音信號(hào)的特征提取起作用,而對(duì)高于1.5kHz的語音信號(hào)則會(huì)失去效果;IL

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論