語音信號處理第12章_第1頁
語音信號處理第12章_第2頁
語音信號處理第12章_第3頁
語音信號處理第12章_第4頁
語音信號處理第12章_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、12.1 12.1 概述概述12.2 12.2 語音信號中的情感分類和情感語音信號中的情感分類和情感 特征分析特征分析12.3 12.3 語音情感識別方法語音情感識別方法12.4 12.4 情感語音的合成情感語音的合成12.5 12.5 今后的研究方向今后的研究方向12.1 12.1 概述概述v隨著信息技術(shù)的高速發(fā)展和人類對計(jì)算機(jī)的依賴性的不斷增隨著信息技術(shù)的高速發(fā)展和人類對計(jì)算機(jī)的依賴性的不斷增強(qiáng),人機(jī)的交互能力越來越受到研究者的重視。在人機(jī)交互強(qiáng),人機(jī)的交互能力越來越受到研究者的重視。在人機(jī)交互中需要解決的問題實(shí)際上與人和人交流中的重要因素是一致中需要解決的問題實(shí)際上與人和人交流中的重要因

2、素是一致的,最關(guān)鍵的都是的,最關(guān)鍵的都是“情感智能情感智能”的能力。因此計(jì)算機(jī)要能夠的能力。因此計(jì)算機(jī)要能夠更加主動的適應(yīng)操作者的需要,首先必須能夠識別操作者的更加主動的適應(yīng)操作者的需要,首先必須能夠識別操作者的情感,而后再根據(jù)情感的判斷來調(diào)整交互對話的方式。情感,而后再根據(jù)情感的判斷來調(diào)整交互對話的方式。v包含在語音信號中的情感信息是一種很重要的信息資源,它包含在語音信號中的情感信息是一種很重要的信息資源,它是人們感知事物的必不可少的部分信息。所以包含在語音信是人們感知事物的必不可少的部分信息。所以包含在語音信號中的情感信息的計(jì)算機(jī)處理研究,分析和處理語音信號中號中的情感信息的計(jì)算機(jī)處理研究

3、,分析和處理語音信號中的情感特征、判斷和模擬說話人的喜怒哀樂等是一個意義重的情感特征、判斷和模擬說話人的喜怒哀樂等是一個意義重大的研究課題。大的研究課題。12.2 12.2 語音信號中的情感分類和情感語音信號中的情感分類和情感 特征分析特征分析v12.2.112.2.1情感的分類情感的分類v要研究語音信號的情感,首先需要根據(jù)某些特性標(biāo)準(zhǔn)對語音要研究語音信號的情感,首先需要根據(jù)某些特性標(biāo)準(zhǔn)對語音情感做一個有效合理的分類,然后在不同類別的基礎(chǔ)上研究情感做一個有效合理的分類,然后在不同類別的基礎(chǔ)上研究特征參數(shù)的性質(zhì)。特征參數(shù)的性質(zhì)。 v經(jīng)過經(jīng)過PlutchikPlutchik等人的多年研究,通過在激

4、活評價(jià)空間上對情等人的多年研究,通過在激活評價(jià)空間上對情感進(jìn)行分析,認(rèn)為情感分布在一個圓形的結(jié)構(gòu)上,結(jié)構(gòu)的中感進(jìn)行分析,認(rèn)為情感分布在一個圓形的結(jié)構(gòu)上,結(jié)構(gòu)的中心是自然原點(diǎn)。由于各種情感在自然原點(diǎn)的周圍排成了一個心是自然原點(diǎn)。由于各種情感在自然原點(diǎn)的周圍排成了一個圓形,所以這種對情感進(jìn)行分類的方法叫做圓形,所以這種對情感進(jìn)行分類的方法叫做“情感輪情感輪(Emotion Wheel)”(Emotion Wheel)”。對于任何一個情感語句,可以根據(jù)其。對于任何一個情感語句,可以根據(jù)其情感強(qiáng)度和情感方向,在情感輪所組成的二維平面中用唯一情感強(qiáng)度和情感方向,在情感輪所組成的二維平面中用唯一的一個情感

5、矢量的一個情感矢量 來表示。其中情感強(qiáng)度表現(xiàn)為這個情感矢來表示。其中情感強(qiáng)度表現(xiàn)為這個情感矢量的幅度值,而情感方向則表現(xiàn)為該情感矢量的角度。量的幅度值,而情感方向則表現(xiàn)為該情感矢量的角度。 Ev不同于不同于PlutchikPlutchik的分類手段,的分類手段,F(xiàn)oxFox提出的三級情感模型,則提出的三級情感模型,則是按照情感中表現(xiàn)的主動和被動的程度不同將情感分成不同是按照情感中表現(xiàn)的主動和被動的程度不同將情感分成不同的等級,如表的等級,如表12-112-1所示。等級越低,分類越粗糙,等級越高,所示。等級越低,分類越粗糙,等級越高,分類越精細(xì)。分類越精細(xì)。 12.2.2 12.2.2 情感特征

6、分析情感特征分析v語音之所以能夠表達(dá)情感,是因?yàn)槠渲邪荏w現(xiàn)情感特征語音之所以能夠表達(dá)情感,是因?yàn)槠渲邪荏w現(xiàn)情感特征的參數(shù)。情感的變化通過特征參數(shù)的差異而體現(xiàn)。因此研究的參數(shù)。情感的變化通過特征參數(shù)的差異而體現(xiàn)。因此研究從語音信號中提取這些反映情感的參數(shù),對于情感語音識別從語音信號中提取這些反映情感的參數(shù),對于情感語音識別等具有極其重要的意義。通常在語音情感識別時(shí)使用的主要等具有極其重要的意義。通常在語音情感識別時(shí)使用的主要特征參數(shù)包括以下內(nèi)容。特征參數(shù)包括以下內(nèi)容。 vMurrayMurray和和ArnottArnott總結(jié)了情感和語音參數(shù)的關(guān)系如表總結(jié)了情感和語音參數(shù)的關(guān)系如表12-

7、312-3所示。所示。 v當(dāng)當(dāng)人處于憤怒的情感時(shí),其生理特征較平時(shí)突出,如心跳加人處于憤怒的情感時(shí),其生理特征較平時(shí)突出,如心跳加快、皮膚電壓升高、血壓升高等,這同時(shí)也影響到了語音特快、皮膚電壓升高、血壓升高等,這同時(shí)也影響到了語音特征參數(shù)的變化。首先由于生理變化的緣故,胸腔的回聲和呼征參數(shù)的變化。首先由于生理變化的緣故,胸腔的回聲和呼吸聲在語音信號中所占的比重將有所增加,振幅強(qiáng)度也大大吸聲在語音信號中所占的比重將有所增加,振幅強(qiáng)度也大大高于普通的情感,語速也較普通語句快,是加速句和加強(qiáng)句高于普通的情感,語速也較普通語句快,是加速句和加強(qiáng)句的結(jié)合。為了增加生氣的效果,基音在重音處語調(diào)的突變,的

8、結(jié)合。為了增加生氣的效果,基音在重音處語調(diào)的突變,成為了生氣狀態(tài)的一個重要特征。成為了生氣狀態(tài)的一個重要特征。v對于高興時(shí)的情感,與憤怒情感時(shí)的生理特征有相似之處,對于高興時(shí)的情感,與憤怒情感時(shí)的生理特征有相似之處,它的聲音中也往往帶有呼吸的聲音,但是和其它情感的主要它的聲音中也往往帶有呼吸的聲音,但是和其它情感的主要不同之處在于,人處于高興的狀態(tài)時(shí),它的基音變化通常是不同之處在于,人處于高興的狀態(tài)時(shí),它的基音變化通常是一條向上彎曲的曲線。句子的振幅強(qiáng)度也集中在句子的末尾一條向上彎曲的曲線。句子的振幅強(qiáng)度也集中在句子的末尾的一兩個字,整個句子的聲調(diào)的調(diào)域要比平靜語句高。句中的一兩個字,整個句子

9、的聲調(diào)的調(diào)域要比平靜語句高。句中非關(guān)鍵性的字和詞的調(diào)形拱度就變得平坦一些,甚至失去本非關(guān)鍵性的字和詞的調(diào)形拱度就變得平坦一些,甚至失去本調(diào),而成為前后相鄰兩調(diào)的中間過渡。調(diào),而成為前后相鄰兩調(diào)的中間過渡。 v由于悲傷情感屬于壓抑情感類,所以它的時(shí)長較平靜語句慢,由于悲傷情感屬于壓抑情感類,所以它的時(shí)長較平靜語句慢,強(qiáng)度也大大低于其它各種情感,基音的變化也是一條向下彎強(qiáng)度也大大低于其它各種情感,基音的變化也是一條向下彎曲的曲線。由于語速較慢的緣故,每一個字的讀音彼此都拉曲的曲線。由于語速較慢的緣故,每一個字的讀音彼此都拉得很開,所以字調(diào)的調(diào)形保留了其單字的調(diào)形,多字調(diào)的效得很開,所以字調(diào)的調(diào)形保

10、留了其單字的調(diào)形,多字調(diào)的效果弱化。但由于在悲的語句中幾乎每個字都夾雜了一定程度果弱化。但由于在悲的語句中幾乎每個字都夾雜了一定程度的鼻音,所以要進(jìn)行鼻音化的處理,使悲的語句的調(diào)閾降低,的鼻音,所以要進(jìn)行鼻音化的處理,使悲的語句的調(diào)閾降低,整個語句趨于平坦化。整個語句趨于平坦化。v恐懼情感在語速、基音、基音范圍上同高興情感、生氣情感恐懼情感在語速、基音、基音范圍上同高興情感、生氣情感的語句相類似,不同的地方僅在于語句的清晰度較其它情感的語句相類似,不同的地方僅在于語句的清晰度較其它情感精確。在實(shí)際的識別過程中目前還沒有找到識別該種情感的精確。在實(shí)際的識別過程中目前還沒有找到識別該種情感的有效特

11、征參數(shù)。有效特征參數(shù)。v厭惡情感由于和生氣情感具有較高的相似性,在很多研究文厭惡情感由于和生氣情感具有較高的相似性,在很多研究文獻(xiàn)中被歸入生氣情感中進(jìn)行研究,大部分的特征參數(shù)和生氣獻(xiàn)中被歸入生氣情感中進(jìn)行研究,大部分的特征參數(shù)和生氣情感類似。同生氣時(shí)的主要區(qū)別在于基音的變化率比較寬,情感類似。同生氣時(shí)的主要區(qū)別在于基音的變化率比較寬,并在語句末端有向下傾斜的趨勢。并在語句末端有向下傾斜的趨勢。v在漢語語音情感信息處理的研究方面,作為基礎(chǔ)研究,其超在漢語語音情感信息處理的研究方面,作為基礎(chǔ)研究,其超音段特征的研究將占較大比例。對于喜、怒、驚、悲四種情音段特征的研究將占較大比例。對于喜、怒、驚、悲

12、四種情感,漢語語音信號的時(shí)間構(gòu)造、振幅構(gòu)造、基頻構(gòu)造和共振感,漢語語音信號的時(shí)間構(gòu)造、振幅構(gòu)造、基頻構(gòu)造和共振峰構(gòu)造等特征的構(gòu)造特點(diǎn)和分布規(guī)律,可以分析如下。峰構(gòu)造等特征的構(gòu)造特點(diǎn)和分布規(guī)律,可以分析如下。v時(shí)間構(gòu)造的分析時(shí)間構(gòu)造的分析:分析情感語音:分析情感語音 的時(shí)間構(gòu)造主要著眼于不同情感的時(shí)間構(gòu)造主要著眼于不同情感 語音的發(fā)話時(shí)間構(gòu)造的差別。我語音的發(fā)話時(shí)間構(gòu)造的差別。我 們可以計(jì)算出每一情感語句從開們可以計(jì)算出每一情感語句從開 始到結(jié)束的持續(xù)時(shí)間,這一時(shí)間始到結(jié)束的持續(xù)時(shí)間,這一時(shí)間 包括句中的無聲部分,因?yàn)闊o聲包括句中的無聲部分,因?yàn)闊o聲 部分本身對情感是有貢獻(xiàn)的。然后就情感語句的發(fā)

13、話持續(xù)時(shí)部分本身對情感是有貢獻(xiàn)的。然后就情感語句的發(fā)話持續(xù)時(shí)間長度(以下簡稱為間長度(以下簡稱為T T)以及平均發(fā)話速率)以及平均發(fā)話速率( (音節(jié)音節(jié)/ /秒秒) )和情感和情感的關(guān)系進(jìn)行了分析和比較。的關(guān)系進(jìn)行了分析和比較。 v從圖從圖12-212-2可以看出,在發(fā)話的持續(xù)時(shí)間上,憤怒、驚奇的發(fā)可以看出,在發(fā)話的持續(xù)時(shí)間上,憤怒、驚奇的發(fā)音長度和平靜發(fā)音相比壓縮了,而歡快、悲傷的發(fā)音長度卻音長度和平靜發(fā)音相比壓縮了,而歡快、悲傷的發(fā)音長度卻伸長了。在被壓縮的憤怒、驚奇中,憤怒的發(fā)音最短,其次伸長了。在被壓縮的憤怒、驚奇中,憤怒的發(fā)音最短,其次是驚奇。歡快和悲傷相比,悲傷伸長很多,而歡快只是

14、稍稍是驚奇。歡快和悲傷相比,悲傷伸長很多,而歡快只是稍稍伸長。通過進(jìn)一步的觀察可知,這些現(xiàn)象的產(chǎn)生是由于和平伸長。通過進(jìn)一步的觀察可知,這些現(xiàn)象的產(chǎn)生是由于和平靜語音相比,在情感語音中一些音素被模糊地發(fā)音、拖長或靜語音相比,在情感語音中一些音素被模糊地發(fā)音、拖長或省略掉了的緣故。根據(jù)上述分析結(jié)果,我們可以利用情感語省略掉了的緣故。根據(jù)上述分析結(jié)果,我們可以利用情感語音的時(shí)間構(gòu)造很容易地區(qū)分歡快、悲傷和其它情感信號。也音的時(shí)間構(gòu)造很容易地區(qū)分歡快、悲傷和其它情感信號。也可以通過設(shè)定某些時(shí)間特征閾值,來區(qū)分歡快和悲傷的情感可以通過設(shè)定某些時(shí)間特征閾值,來區(qū)分歡快和悲傷的情感信號。信號。v振幅構(gòu)造的

15、分析振幅構(gòu)造的分析:信號的振幅特征與各種情感信息具有較強(qiáng)信號的振幅特征與各種情感信息具有較強(qiáng)的相關(guān)性。的相關(guān)性。因此,在一些有關(guān)情感分析的研究中,振幅構(gòu)造因此,在一些有關(guān)情感分析的研究中,振幅構(gòu)造特性都是作為重要特征加以分析研究的。情感語句的振幅構(gòu)特性都是作為重要特征加以分析研究的。情感語句的振幅構(gòu)造分析,主要針對振幅平均能量以及動態(tài)范圍(以下分別簡造分析,主要針對振幅平均能量以及動態(tài)范圍(以下分別簡稱為稱為A A和和A rangeA range)等特征量進(jìn)行分析比較。)等特征量進(jìn)行分析比較。v 從分析結(jié)果可知,歡快、憤怒、驚奇從分析結(jié)果可知,歡快、憤怒、驚奇3 3種情感發(fā)音信號和平種情感發(fā)音

16、信號和平靜發(fā)音信號相比振幅將變大,相反地,悲傷和平靜相比,振靜發(fā)音信號相比振幅將變大,相反地,悲傷和平靜相比,振幅將減小。而且從聽取實(shí)驗(yàn)可知,情感信號具有這樣的傾向,幅將減小。而且從聽取實(shí)驗(yàn)可知,情感信號具有這樣的傾向,即,歡快、憤怒、驚奇的平均振幅越大,悲傷的平均振幅越即,歡快、憤怒、驚奇的平均振幅越大,悲傷的平均振幅越小,其情感效應(yīng)表現(xiàn)的越明顯。利用振幅特征,我們可以很小,其情感效應(yīng)表現(xiàn)的越明顯。利用振幅特征,我們可以很清楚地把歡快、憤怒、驚奇和悲傷區(qū)分開來,另外,振幅特清楚地把歡快、憤怒、驚奇和悲傷區(qū)分開來,另外,振幅特性也具有一定的區(qū)分歡快、憤怒和驚奇情感信號的能力。性也具有一定的區(qū)分

17、歡快、憤怒和驚奇情感信號的能力。 v基頻構(gòu)造的分析基頻構(gòu)造的分析:基音頻率也是反映情感信息的重要特征之基音頻率也是反映情感信息的重要特征之一。為了分析情感語音信號基頻構(gòu)造的特征,首先要求出情一。為了分析情感語音信號基頻構(gòu)造的特征,首先要求出情感語音信號的平滑的基頻軌跡曲線,然后分析不同情感信號感語音信號的平滑的基頻軌跡曲線,然后分析不同情感信號基頻軌跡曲線的變化情況,找出不同的情感信號各自具有的基頻軌跡曲線的變化情況,找出不同的情感信號各自具有的基頻構(gòu)造特征。分析可知,不同情感信號軌跡曲線的的動態(tài)基頻構(gòu)造特征。分析可知,不同情感信號軌跡曲線的的動態(tài)范圍、整個曲線的基頻平均值以及變化率范圍、整個

18、曲線的基頻平均值以及變化率( (以下分別簡稱為以下分別簡稱為F0, F0 rangeF0, F0 range和和F0 rate)F0 rate)等特征可以反映不同情感的變化。等特征可以反映不同情感的變化。v 和平靜語音信號相比、歡快、憤怒和驚奇的平均基頻、動和平靜語音信號相比、歡快、憤怒和驚奇的平均基頻、動態(tài)范圍、平均變化率比較大,而相反,悲傷語音信號的則較態(tài)范圍、平均變化率比較大,而相反,悲傷語音信號的則較小。對比較大的歡快、憤怒、驚奇來講,驚奇語音信號的特小。對比較大的歡快、憤怒、驚奇來講,驚奇語音信號的特征量最大,其次是歡快和憤怒。另外,通過觀察語音信號的征量最大,其次是歡快和憤怒。另外

19、,通過觀察語音信號的基頻軌跡曲線,可以發(fā)現(xiàn)了一個區(qū)分驚奇和其它情感信號的基頻軌跡曲線,可以發(fā)現(xiàn)了一個區(qū)分驚奇和其它情感信號的重要特征,那就是驚奇情感信號的基頻軌跡曲線在句尾的地重要特征,那就是驚奇情感信號的基頻軌跡曲線在句尾的地方往往有上翹的特征。方往往有上翹的特征。v共振峰構(gòu)造的分析共振峰構(gòu)造的分析:共振峰是反映聲道特性的一個重要參數(shù)。共振峰是反映聲道特性的一個重要參數(shù)。不同情感發(fā)音的共振峰的位置不同。分析時(shí)首先用不同情感發(fā)音的共振峰的位置不同。分析時(shí)首先用LPCLPC法求法求出聲道的功率譜包絡(luò),再用峰值檢出法(出聲道的功率譜包絡(luò),再用峰值檢出法(Peak PickingPeak Picki

20、ng)算)算出各共振峰的頻率。對于不同情感第一共振峰頻率的平均值,出各共振峰的頻率。對于不同情感第一共振峰頻率的平均值,動態(tài)范圍和變化率(以下分別簡稱為動態(tài)范圍和變化率(以下分別簡稱為F1 F1 、F1 rangeF1 range和和F1 F1 raterate)的分析結(jié)果如圖)的分析結(jié)果如圖12-712-7所示。圖所示。圖12-812-8是一句情感語句的是一句情感語句的四種不同的情感的第一共振峰頻率的逐幀演示。四種不同的情感的第一共振峰頻率的逐幀演示。 v分析結(jié)論分析結(jié)論:綜合以上從四個方面對含有四種情感的語音信號綜合以上從四個方面對含有四種情感的語音信號進(jìn)行的分析比較,我們可以歸納出如表進(jìn)

21、行的分析比較,我們可以歸納出如表12-412-4所示的情感信號所示的情感信號的特征規(guī)律。的特征規(guī)律。12.3 12.3 語音情感識別方法語音情感識別方法 12.3.1 12.3.1 主元分析法主元分析法(PCA)(PCA)v對于要識別的數(shù)據(jù),假設(shè)有對于要識別的數(shù)據(jù),假設(shè)有N N個樣本信號,使用的特征參數(shù)個樣本信號,使用的特征參數(shù)個數(shù)為個數(shù)為K K個。對這個樣本信號求個。對這個樣本信號求K K個特征參數(shù)所對應(yīng)的協(xié)方差個特征參數(shù)所對應(yīng)的協(xié)方差陣,然后對協(xié)方差陣進(jìn)行特征值分解得到陣,然后對協(xié)方差陣進(jìn)行特征值分解得到K K個特征值和相應(yīng)個特征值和相應(yīng)的特征矢量。對于不同的情感,利用樣本庫中的樣本分別計(jì)

22、的特征矢量。對于不同的情感,利用樣本庫中的樣本分別計(jì)算不同的主元算不同的主元k k相對于不同的情感類型相對于不同的情感類型j j所具有的均值所具有的均值 和和方差方差 。并用下列各式進(jìn)行最大可分性處理。并用下列各式進(jìn)行最大可分性處理。jkjkJiJijjkikJkCL1122JijkkJM11kkkMLH v這里這里J J是采用的情感的類型個數(shù),是采用的情感的類型個數(shù), 表示第表示第k k個主元在情感個主元在情感類別中的分離性,類別中的分離性, 表示第表示第k k個主元在情感類別中的集中性。個主元在情感類別中的集中性。用用 來反映主元在情感類別中的辨別能力,來反映主元在情感類別中的辨別能力,

23、越大時(shí),辨越大時(shí),辨別能力越強(qiáng)。按順序?qū)e能力越強(qiáng)。按順序?qū) K個主元進(jìn)行排列,選取個主元進(jìn)行排列,選取p p個個 較大較大的主元作為識別用的主元。的主元作為識別用的主元。v識別時(shí),首先獲取識別用信號的特征參數(shù)矢量識別時(shí),首先獲取識別用信號的特征參數(shù)矢量 ,并利用已,并利用已知的各參數(shù)在不同情感中的均值和方差對該特征參數(shù)進(jìn)行標(biāo)知的各參數(shù)在不同情感中的均值和方差對該特征參數(shù)進(jìn)行標(biāo)準(zhǔn)化得到準(zhǔn)化得到 (由于矢量中的各維元素的單位不統(tǒng)一,所以(由于矢量中的各維元素的單位不統(tǒng)一,所以在多變量分析前,應(yīng)把各維元素都化成均值為在多變量分析前,應(yīng)把各維元素都化成均值為0 0、方差為、方差為1 1的的正態(tài)分布

24、參數(shù))。然后將正態(tài)分布參數(shù))。然后將 對選取的各個主元的基向量對選取的各個主元的基向量 分別進(jìn)行投影求和,獲得待識別語音在各個有效主元的得分分別進(jìn)行投影求和,獲得待識別語音在各個有效主元的得分值值 。 kLkMkHkHkHXstdXstdXkAkZstdkkXAZv按上式計(jì)算不同情感中各有效主元的綜合概率。按上式計(jì)算不同情感中各有效主元的綜合概率。v最后選取概率最大的情感作為識別情感。利用主元分析方法最后選取概率最大的情感作為識別情感。利用主元分析方法進(jìn)行語音信號情感識別的訓(xùn)練和識別流程如圖進(jìn)行語音信號情感識別的訓(xùn)練和識別流程如圖12-912-9所示。所示。pkjkjkkjkjZP122)2e

25、xp21( 12.3.2 12.3.2 神經(jīng)網(wǎng)絡(luò)方法神經(jīng)網(wǎng)絡(luò)方法(ANN)(ANN)v對于情感識別的問題,首先對每個情感構(gòu)造一個網(wǎng)絡(luò)。這種對于情感識別的問題,首先對每個情感構(gòu)造一個網(wǎng)絡(luò)。這種類型的網(wǎng)絡(luò)叫做類型的網(wǎng)絡(luò)叫做OCON(One-class-in-one-network)OCON(One-class-in-one-network)??梢圆???梢圆捎萌鐖D用如圖12-1012-10所示的子網(wǎng)絡(luò)并行結(jié)構(gòu),將提取出的特征矢量所示的子網(wǎng)絡(luò)并行結(jié)構(gòu),將提取出的特征矢量輸入到每個子神經(jīng)網(wǎng)絡(luò)中,每個子網(wǎng)絡(luò)采用三層神經(jīng)元的輸入到每個子神經(jīng)網(wǎng)絡(luò)中,每個子網(wǎng)絡(luò)采用三層神經(jīng)元的MLPMLP結(jié)構(gòu),輸出為一個界于結(jié)

26、構(gòu),輸出為一個界于0 0到到1 1之間的數(shù)值,表示輸入的參之間的數(shù)值,表示輸入的參數(shù)矢量可能屬于某種情感的似然程度。數(shù)矢量可能屬于某種情感的似然程度。 v對于每個子網(wǎng)絡(luò),首先構(gòu)造一個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),選定各層傳對于每個子網(wǎng)絡(luò),首先構(gòu)造一個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),選定各層傳遞函數(shù),根據(jù)給定一個衡量理想輸出和實(shí)際輸出的能量函數(shù)。遞函數(shù),根據(jù)給定一個衡量理想輸出和實(shí)際輸出的能量函數(shù)。不同情感子網(wǎng)絡(luò)具有相同的結(jié)構(gòu),僅僅在權(quán)值上有所不同。不同情感子網(wǎng)絡(luò)具有相同的結(jié)構(gòu),僅僅在權(quán)值上有所不同。利用這個函數(shù)對網(wǎng)絡(luò)中各個節(jié)點(diǎn)的權(quán)值求偏導(dǎo)數(shù)來確定實(shí)際利用這個函數(shù)對網(wǎng)絡(luò)中各個節(jié)點(diǎn)的權(quán)值求偏導(dǎo)數(shù)來確定實(shí)際的權(quán)值,使每個子網(wǎng)絡(luò)逼近于

27、實(shí)際的情感概率模型。的權(quán)值,使每個子網(wǎng)絡(luò)逼近于實(shí)際的情感概率模型。 在識別時(shí),把獲取的特征參數(shù)輸入到不同的情感子網(wǎng)絡(luò)在識別時(shí),把獲取的特征參數(shù)輸入到不同的情感子網(wǎng)絡(luò)中,對各個情感網(wǎng)絡(luò)的結(jié)果進(jìn)行判決來選擇似然程度最大的中,對各個情感網(wǎng)絡(luò)的結(jié)果進(jìn)行判決來選擇似然程度最大的情感作為識別結(jié)果。情感作為識別結(jié)果。 12.3.3 12.3.3 混合高斯模型法混合高斯模型法(GMM)(GMM)v混合高斯模型(混合高斯模型(GMMGMM)是只有一個狀態(tài)的模型,在這個狀態(tài))是只有一個狀態(tài)的模型,在這個狀態(tài)里具有多個高斯分布函數(shù)。里具有多個高斯分布函數(shù)。v其中其中 是一個高斯分布函數(shù),不同高斯分布之間的加權(quán)系數(shù)是

28、一個高斯分布函數(shù),不同高斯分布之間的加權(quán)系數(shù) 滿足條件:滿足條件:v在訓(xùn)練時(shí)首先利用矢量量化(在訓(xùn)練時(shí)首先利用矢量量化(VQVQ)抽取各類情感中有效主元)抽取各類情感中有效主元矢量集的碼本,并對每個碼字求出相應(yīng)的方差,這樣每個碼矢量集的碼本,并對每個碼字求出相應(yīng)的方差,這樣每個碼字和相應(yīng)的方差就可以組成一個高斯分布函數(shù)。在識別時(shí),字和相應(yīng)的方差就可以組成一個高斯分布函數(shù)。在識別時(shí),對于某個語音情感主元特征矢量來求取它相對于每個情感類對于某個語音情感主元特征矢量來求取它相對于每個情感類別的概率值,概率最大的即為識別結(jié)果。別的概率值,概率最大的即為識別結(jié)果。NiiikYfwP1)(ifiw11Ni

29、iw12.4 12.4 情感語音的合成情感語音的合成v情感語音的合成屬于語音的規(guī)則合成(情感語音的合成屬于語音的規(guī)則合成(Synthesis-by-Synthesis-by-RuleRule),這里包含兩個方面的內(nèi)容。其一是合成技術(shù)的選擇,),這里包含兩個方面的內(nèi)容。其一是合成技術(shù)的選擇,其二是合成規(guī)則的制定。其二是合成規(guī)則的制定。 v基音同步疊加技術(shù)(基音同步疊加技術(shù)(PSOLAPSOLA),由于它既能保持原始語音的),由于它既能保持原始語音的主要音段特征,又能在音節(jié)拼接時(shí)靈活調(diào)整其基音、能量和主要音段特征,又能在音節(jié)拼接時(shí)靈活調(diào)整其基音、能量和音長等韻律特征,因而很適合于情感語音的合成。音

30、長等韻律特征,因而很適合于情感語音的合成。 v根據(jù)對前面介紹的情感語句特征參數(shù)的考察以及聽音者的主根據(jù)對前面介紹的情感語句特征參數(shù)的考察以及聽音者的主觀感覺,可以初步總結(jié)出不同情感語音的韻律特征變化的規(guī)觀感覺,可以初步總結(jié)出不同情感語音的韻律特征變化的規(guī)律。律。v喜喜:含喜的語句的時(shí)長和平靜的平敘句相當(dāng),但這主要是由含喜的語句的時(shí)長和平靜的平敘句相當(dāng),但這主要是由句子的尾部帶來的影響,句子的前部和中部都比相應(yīng)內(nèi)容的句子的尾部帶來的影響,句子的前部和中部都比相應(yīng)內(nèi)容的平靜平敘句的語速要快一些。句子的振幅強(qiáng)度也集中在句子平靜平敘句的語速要快一些。句子的振幅強(qiáng)度也集中在句子的末尾的一兩個字,整個句子

31、的聲調(diào)的調(diào)域要比平靜平敘句的末尾的一兩個字,整個句子的聲調(diào)的調(diào)域要比平靜平敘句高。高。由于句子的前中部語速加快,受到生理原因和語法條件由于句子的前中部語速加快,受到生理原因和語法條件的制約,句中非關(guān)鍵性的字和詞的調(diào)形拱度就變得平坦一些,的制約,句中非關(guān)鍵性的字和詞的調(diào)形拱度就變得平坦一些,甚至失去本調(diào),而成為前后相鄰兩調(diào)的中間過渡。句尾的感甚至失去本調(diào),而成為前后相鄰兩調(diào)的中間過渡。句尾的感嘆詞在平靜平敘句中讀輕聲,在這里語氣有很強(qiáng)的加重,并嘆詞在平靜平敘句中讀輕聲,在這里語氣有很強(qiáng)的加重,并且調(diào)形變成為先升后降的山包形。且調(diào)形變成為先升后降的山包形。 v怒怒:含怒的語句的時(shí)長約為平敘句的一半左右,其振幅強(qiáng)度:含怒的語句的時(shí)長約為平敘句的一半左右,其振幅強(qiáng)度也很高,是加速句和加強(qiáng)句的結(jié)合。句中的動詞和修飾動詞也很高,是加速句和加強(qiáng)句的結(jié)合。句中的動詞和修飾動詞的副詞的振幅強(qiáng)度比平均值要高一些。句子的調(diào)閾抬高,但的副詞的振幅強(qiáng)度比平均值要高一些。句子的調(diào)閾抬高,但調(diào)形不一定變平,有時(shí)它們的拱度甚至更加擴(kuò)展了。句

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論