語(yǔ)音信號(hào)處理第八章語(yǔ)音合成課件_第1頁(yè)
語(yǔ)音信號(hào)處理第八章語(yǔ)音合成課件_第2頁(yè)
語(yǔ)音信號(hào)處理第八章語(yǔ)音合成課件_第3頁(yè)
語(yǔ)音信號(hào)處理第八章語(yǔ)音合成課件_第4頁(yè)
語(yǔ)音信號(hào)處理第八章語(yǔ)音合成課件_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《語(yǔ)音信號(hào)處理》

第8章語(yǔ)音合成

1《語(yǔ)音信號(hào)處理》

第8章語(yǔ)音合成

1第8章語(yǔ)音合成8.1概述8.2共振峰合成法8.3線性預(yù)測(cè)合成法8.4文語(yǔ)轉(zhuǎn)換系統(tǒng)2第8章語(yǔ)音合成8.1概述28.1概述8.1.1語(yǔ)音合成的定義8.1.2語(yǔ)音合成的應(yīng)用8.1.3語(yǔ)音合成的方法38.1概述8.1.1語(yǔ)音合成的定義38.1.1語(yǔ)音合成的定義語(yǔ)音合成是通過(guò)機(jī)械的、電子的方法產(chǎn)生人造語(yǔ)音的技術(shù)。它的目的是使一些以其他方式表示或存儲(chǔ)的信息能轉(zhuǎn)換為清晰可懂的語(yǔ)音,從而讓人們能夠利用聽覺獲取這些信息48.1.1語(yǔ)音合成的定義語(yǔ)音合成是通過(guò)機(jī)械的、電子的方法產(chǎn)8.1.1語(yǔ)音合成的定義Intention-To-SpeechConcept-To-SpeechText-To-Speech按照人類語(yǔ)言功能的不同層次,語(yǔ)音合成也可分為三個(gè)層次,即:

1.從文字到語(yǔ)音的合成(Text-to-Speech)

2.從概念到語(yǔ)音的合成(Concept-to-Speech)

3.從意向到語(yǔ)音的合成(Intention-to-Speech)58.1.1語(yǔ)音合成的定義Intention-To-Spee8.1.2語(yǔ)音合成的應(yīng)用傳統(tǒng)語(yǔ)音系統(tǒng)的缺陷需要對(duì)信息文本進(jìn)行錄音并保存為聲音文件,占用存儲(chǔ)空間和工作量大不能動(dòng)態(tài)反映信息的更新,應(yīng)用范圍有很大局限WAV格式文件所占容量(KB)=(取樣頻率X量化位數(shù)X聲道)X時(shí)間/8,每一分鐘WAV格式的音頻文件的大小約為10MB68.1.2語(yǔ)音合成的應(yīng)用傳統(tǒng)語(yǔ)音系統(tǒng)的缺陷WAV格式文件所8.1.2語(yǔ)音合成的應(yīng)用語(yǔ)音合成技術(shù)的優(yōu)勢(shì)無(wú)需對(duì)信息文本進(jìn)行錄音,極大地節(jié)省了存儲(chǔ)空間和減少了工作量能動(dòng)態(tài)反映信息的變化,應(yīng)用范圍廣78.1.2語(yǔ)音合成的應(yīng)用語(yǔ)音合成技術(shù)的優(yōu)勢(shì)7幾個(gè)語(yǔ)音合成應(yīng)用的實(shí)例查詢系統(tǒng)

話費(fèi)查詢、考試結(jié)果查詢、股票交易查詢等8幾個(gè)語(yǔ)音合成應(yīng)用的實(shí)例查詢系統(tǒng)8幾個(gè)語(yǔ)音合成應(yīng)用的實(shí)例有聲詞典單詞、例句朗讀等電腦游戲目前游戲中人物只能說(shuō)出事先錄好的語(yǔ)音。利用語(yǔ)音合成技術(shù)可以讓人物說(shuō)出任意語(yǔ)句,同時(shí)具有不同說(shuō)話風(fēng)格和語(yǔ)氣,從而大大加強(qiáng)游戲的趣味性和互動(dòng)性9幾個(gè)語(yǔ)音合成應(yīng)用的實(shí)例有聲詞典98.1.3語(yǔ)音合成的方法8.1.3.1波形合成法8.1.3.2參數(shù)合成法8.1.3.3規(guī)則合成法108.1.3語(yǔ)音合成的方法8.1.3.1波形合成法108.1.3.1波形合成法波形合成法一般分為兩種,一種是波形編碼合成,另一種是波形編輯合成。波形合成法是一種相對(duì)簡(jiǎn)單的合成技術(shù),通常只能合成有限詞匯的語(yǔ)音段。許多專門用途的語(yǔ)音合成器都采用這種方式,如自動(dòng)報(bào)號(hào)、報(bào)時(shí)、報(bào)站、報(bào)警等118.1.3.1波形合成法波形合成法一般分為兩種,一種是波形8.1.3.1波形合成法波形合成法波形編碼合成波形編輯合成主要步驟:將需要合成的語(yǔ)音的波形進(jìn)行存儲(chǔ)或者進(jìn)行波形編碼壓縮后存儲(chǔ),合成重放時(shí)再解碼組合輸出特點(diǎn):所需存儲(chǔ)空間較大,合成的語(yǔ)音詞匯量較為有限主要步驟:對(duì)自然語(yǔ)言的波形進(jìn)行編輯拼接后輸出。合成時(shí)對(duì)語(yǔ)音段不做大的修改特點(diǎn):需要比較大的語(yǔ)音單位(如詞組、語(yǔ)句)作為合成基元128.1.3.1波形合成法波形合成法波形編碼合成波形編輯合成8.1.3.2參數(shù)合成法主要步驟:利用語(yǔ)音信號(hào)的短時(shí)平穩(wěn)性,提取出每幀語(yǔ)音信號(hào)的聲學(xué)參數(shù),將這些參數(shù)編碼后組成一個(gè)語(yǔ)音參數(shù)庫(kù)輸出時(shí),從語(yǔ)音參數(shù)庫(kù)中取出相應(yīng)的參數(shù),利用合成算法恢復(fù)語(yǔ)音主要的合成參數(shù)有:控制音強(qiáng)的幅度參數(shù)、控制音高的基頻參數(shù)和控制音色的共振峰參數(shù)共振峰合成和線性預(yù)測(cè)合成是該類合成技術(shù)中的重要方法138.1.3.2參數(shù)合成法主要步驟:138.1.3.2參數(shù)合成法優(yōu)點(diǎn)所需音庫(kù)一般較小整個(gè)系統(tǒng)能適應(yīng)的韻律特征范圍較大音質(zhì)適中缺點(diǎn)算法復(fù)雜,參數(shù)多壓縮比較大時(shí)合成的語(yǔ)音不夠自然清晰148.1.3.2參數(shù)合成法優(yōu)點(diǎn)148.1.3.3規(guī)則合成法主要步驟系統(tǒng)中預(yù)先存儲(chǔ)音素的聲學(xué)參數(shù),以及由音素組成音節(jié)、音節(jié)組成詞、詞組成句子和控制音調(diào)、輕重音等韻律的各種規(guī)則給出需要合成的語(yǔ)句后,系統(tǒng)根據(jù)相應(yīng)規(guī)則自動(dòng)將它們轉(zhuǎn)換成語(yǔ)音聲波158.1.3.3規(guī)則合成法主要步驟158.1.3.3規(guī)則合成法特點(diǎn)合成的詞匯表不是事先確定可以合成無(wú)限詞匯的語(yǔ)句168.1.3.3規(guī)則合成法特點(diǎn)16小貼士:語(yǔ)音合成的基本術(shù)語(yǔ)1

——合成單元(SynthesisUnit)也稱為合成單位,是語(yǔ)音合成系統(tǒng)所處理的最小的語(yǔ)音學(xué)基本單位按由小到大的順序排列,語(yǔ)音學(xué)中的音素、雙音素、半音節(jié)、音節(jié)、詞、短語(yǔ)和句子都可以用作合成單元,合成單元越大,合成語(yǔ)音音質(zhì)越好,但合成語(yǔ)音的數(shù)量及其數(shù)碼率也越大在波形合成中,合成單元較大,多為詞、短語(yǔ)或句子在參數(shù)合成和規(guī)則合成中,有些語(yǔ)言(如英語(yǔ)或日語(yǔ))的合成多采用音素,輔音加元音和元音加輔音等合成單元;有些語(yǔ)言(如漢語(yǔ))的合成單元多采用音節(jié)和聲、韻母作合成單元17小貼士:語(yǔ)音合成的基本術(shù)語(yǔ)1

——合成單元(Synthesi小貼士:語(yǔ)音合成的基本術(shù)語(yǔ)2

——合成參數(shù)(SynthesisParameters)在參數(shù)合成和規(guī)則合成方式中,控制語(yǔ)音合成器以輸出所需語(yǔ)音的一組參數(shù)合成參數(shù)分為兩類音色參數(shù)(音段參數(shù)),常用的有:共振峰頻率,線性預(yù)測(cè)系數(shù)和生理發(fā)音參數(shù)韻律參數(shù)(超音段參數(shù)),主要有控制音強(qiáng)的幅度參數(shù),控制音高的基頻參數(shù),控制音長(zhǎng)的時(shí)間參數(shù)等18小貼士:語(yǔ)音合成的基本術(shù)語(yǔ)2

——合成參數(shù)(Synthesi小貼士:語(yǔ)音合成的基本術(shù)語(yǔ)3

——合成語(yǔ)音庫(kù)(DatabaseforSynthesis)在語(yǔ)音合成系統(tǒng)中,所有合成單元的編碼數(shù)據(jù)或合成參數(shù)數(shù)據(jù)的集合稱為合成語(yǔ)音庫(kù)對(duì)于波形合成,語(yǔ)音庫(kù)中存儲(chǔ)的是合成單元的波形編碼對(duì)于參數(shù)合成,語(yǔ)音庫(kù)中存儲(chǔ)的是各合成單元逐幀的合成參數(shù)對(duì)于規(guī)則合成,語(yǔ)音庫(kù)中存儲(chǔ)的是各合成單元的聲學(xué)參數(shù)和一系列合成規(guī)則19小貼士:語(yǔ)音合成的基本術(shù)語(yǔ)3

——合成語(yǔ)音庫(kù)(DatabasPSOLA算法核心思想:直接對(duì)存儲(chǔ)于音庫(kù)的語(yǔ)音運(yùn)用PSOLA算法進(jìn)行拼接從而合成完整的語(yǔ)音主要特點(diǎn):有別于傳統(tǒng)概念中只是將不同的語(yǔ)音單元進(jìn)行簡(jiǎn)單拼接,PSOLA系統(tǒng)首先要在大量語(yǔ)音庫(kù)中,選擇最合適的語(yǔ)音單元用于拼接,使合成波形既保持了原始發(fā)音的主要音段特征,又能使拼接單元的韻律特征符合上下文的要求,從而獲得很高的清晰度和自然度

20PSOLA算法核心思想:直接對(duì)存儲(chǔ)于音庫(kù)的語(yǔ)音運(yùn)用PSOL選音對(duì)于同一個(gè)合成單元,由于語(yǔ)境不同,重音表現(xiàn)不同,其聲學(xué)特征有很大不同,因此可以建立多樣板語(yǔ)音數(shù)據(jù)庫(kù),合成時(shí)根據(jù)某種規(guī)則或模型選擇最合適的單元選音過(guò)程中往往采用多種復(fù)雜的技術(shù),包括多項(xiàng)統(tǒng)計(jì)學(xué)上的技術(shù)或神經(jīng)網(wǎng)絡(luò)技術(shù),如日本ATR推出的多語(yǔ)種語(yǔ)音合成系統(tǒng),就采用了統(tǒng)計(jì)學(xué)上的隱馬爾可夫模型來(lái)進(jìn)行選音21選音對(duì)于同一個(gè)合成單元,由于語(yǔ)境不同,重音表現(xiàn)不同,其聲學(xué)特PSOLA算法本質(zhì)上說(shuō),PSOLA算法是利用短時(shí)傅里葉變換重構(gòu)信號(hào)的疊加法信號(hào)x(n)的短時(shí)傅里葉變換為

22PSOLA算法本質(zhì)上說(shuō),PSOLA算法是利用短時(shí)傅里葉變換重PSOLA算法由于語(yǔ)音信號(hào)短時(shí)平穩(wěn),因此在時(shí)域每隔若干個(gè)(例如R個(gè))樣本取一個(gè)頻譜函數(shù)就能重構(gòu)信號(hào)x(n),即可令23PSOLA算法由于語(yǔ)音信號(hào)短時(shí)平穩(wěn),因此在時(shí)域每隔若干個(gè)(例PSOLA算法上式的傅里葉逆變換為然后疊加就能得到原信號(hào)24PSOLA算法上式的傅里葉逆變換為24PSOLA算法實(shí)現(xiàn)語(yǔ)音合成的主要步驟1.基音同步分析同步分析的功能主要是對(duì)語(yǔ)音合成單元進(jìn)行同步標(biāo)記設(shè)置以同步標(biāo)記為中心,選擇適當(dāng)窗長(zhǎng)做加窗處理,得到一組短時(shí)信號(hào)25PSOLA算法實(shí)現(xiàn)語(yǔ)音合成的主要步驟1.基音同步分析同步分析PSOLA算法實(shí)現(xiàn)語(yǔ)音合成的主要步驟2.基音同步修改增加基頻減小基頻分析基音標(biāo)記和合成基音標(biāo)記未必是一一對(duì)應(yīng)關(guān)系,很有可能出現(xiàn)一對(duì)多或多對(duì)一的情況26PSOLA算法實(shí)現(xiàn)語(yǔ)音合成的主要步驟2.基音同步修改增加基PSOLA算法實(shí)現(xiàn)語(yǔ)音合成的主要步驟3.基音同步合成譜相等意義下最小均方誤差意義下在一定約束條件下,上述兩種方法得到的合成信號(hào)表達(dá)形式完全一致,均為27PSOLA算法實(shí)現(xiàn)語(yǔ)音合成的主要步驟3.基音同步合成278.2共振峰合成法8.2.1概述8.2.2共振峰合成的原理8.2.3共振峰合成的特點(diǎn)288.2共振峰合成法8.2.1概述288.2.1概述語(yǔ)音生成的數(shù)學(xué)模型認(rèn)為,語(yǔ)音是在激勵(lì)信號(hào)的激勵(lì)下,聲波經(jīng)諧振腔(聲道)傳輸,最終由嘴或鼻向外輻射生成。習(xí)慣上,把聲道傳輸頻率響應(yīng)上的極點(diǎn)稱之為共振峰,而語(yǔ)音的共振峰頻率(極點(diǎn)頻率)的分布特性決定著該語(yǔ)音的音色音色各異的語(yǔ)音具有不同的共振峰模式,因此,以每個(gè)共振峰頻率及其帶寬作為參數(shù),可以構(gòu)成共振峰濾波器。再用若干個(gè)這種濾波器的組合來(lái)模擬聲道的傳輸特性(頻率響應(yīng)),對(duì)激勵(lì)源發(fā)出的信號(hào)進(jìn)行調(diào)制,再經(jīng)過(guò)輻射模型就可以得到合成語(yǔ)音298.2.1概述語(yǔ)音生成的數(shù)學(xué)模型認(rèn)為,語(yǔ)音是在激勵(lì)信號(hào)的激8.2.2共振峰合成的原理F0沖激發(fā)生器聲門波形成X+級(jí)聯(lián)型調(diào)制器

幅度噪聲發(fā)生器X+輻射效應(yīng)語(yǔ)音

幅度基音調(diào)制X并聯(lián)型調(diào)制器

幅度共振峰合成器的系統(tǒng)模型308.2.2共振峰合成的原理F0沖激發(fā)8.2.1共振峰合成的原理合成濁音語(yǔ)音時(shí)用周期沖激序列;合成清音語(yǔ)音時(shí)用偽隨機(jī)噪聲;合成濁擦音時(shí)用周期沖激調(diào)制的噪聲級(jí)聯(lián)型結(jié)構(gòu)可模擬聲道諧振特性,能很好地逼近原音的頻譜特性;并聯(lián)型結(jié)構(gòu)能模擬諧振和反諧振特性,被用來(lái)合成輔音輻射模型可用一階差分逼近318.2.1共振峰合成的原理合成濁音語(yǔ)音時(shí)用周期沖激序列;合8.2.3共振峰合成的特點(diǎn)優(yōu)點(diǎn)共振峰模型的理論基礎(chǔ)是對(duì)聲道的一種比較準(zhǔn)確的模擬,因而可以合成出自然度比較高的語(yǔ)音共振峰參數(shù)有著明確的物理意義,直接對(duì)應(yīng)于聲道參數(shù),因此共振峰可以解釋自然語(yǔ)音中的各種現(xiàn)象,進(jìn)而可以利用聲學(xué)規(guī)律用于共振峰合成系統(tǒng)缺點(diǎn)若建立的聲道模型不夠精確會(huì)影響合成質(zhì)量共振峰模型雖然描述了語(yǔ)音信號(hào)最基本的一些特征,但對(duì)于有些細(xì)微特征仍無(wú)法描述,勢(shì)必會(huì)對(duì)合成語(yǔ)音的自然度造成影響共振峰合成器往往十分復(fù)雜,需要控制的參數(shù)(如幅度、基頻、清濁音開關(guān)等)很多328.2.3共振峰合成的特點(diǎn)優(yōu)點(diǎn)328.3線性預(yù)測(cè)合成法8.3.1概述8.3.2直接遞歸型LPC合成器8.3.3格型合成濾波器338.3線性預(yù)測(cè)合成法8.3.1概述338.3.1概述線性預(yù)測(cè)思想:一個(gè)語(yǔ)音的采樣能夠用過(guò)去若干個(gè)語(yǔ)音采樣的線性組合來(lái)逼近將語(yǔ)音生成模型簡(jiǎn)化,將聲門激勵(lì)、聲道和輻射模型進(jìn)行組合,統(tǒng)一用一個(gè)時(shí)變數(shù)字濾波器來(lái)表示沖激序列發(fā)生器隨機(jī)噪聲發(fā)生器x(n)u(n)LPC語(yǔ)音合成器348.3.1概述沖激隨機(jī)x(n)u(n)LPC語(yǔ)音合成器348.3.2直接遞歸型LPC合成器直接用預(yù)測(cè)器系數(shù)ai合成的語(yǔ)音樣本為優(yōu)點(diǎn):簡(jiǎn)單,易于實(shí)現(xiàn)缺點(diǎn):對(duì)系數(shù)變化非常敏感,可能出現(xiàn)不穩(wěn)定現(xiàn)象

358.3.2直接遞歸型LPC合成器直接用預(yù)測(cè)器系數(shù)ai358.3.3格型合成濾波器采用反射系數(shù)ki合成的語(yǔ)音樣本為所用參量濁音、清音標(biāo)志音高總體振幅水平反射系數(shù)368.3.3格型合成濾波器采用反射系數(shù)ki368.4文語(yǔ)轉(zhuǎn)換系統(tǒng)8.4.1概述8.4.2文本分析8.4.3韻律控制8.4.4語(yǔ)音合成378.4文語(yǔ)轉(zhuǎn)換系統(tǒng)8.4.1概述378.4.1概述文語(yǔ)轉(zhuǎn)換(TexttoSpeech,TTS)是指將文本文件通過(guò)一定的硬軟件轉(zhuǎn)換后由計(jì)算機(jī)等語(yǔ)音系統(tǒng)輸出語(yǔ)音的過(guò)程文本分析、韻律控制和語(yǔ)音合成是文語(yǔ)轉(zhuǎn)換系統(tǒng)的三個(gè)核心部分388.4.1概述文語(yǔ)轉(zhuǎn)換(TexttoSpeech,T8.4.1概述文本分析:首先根據(jù)發(fā)音字典,將輸入的文字串分解為帶有屬性標(biāo)記的詞及其讀音符號(hào)。語(yǔ)音生成:文字串就變換為代碼串,規(guī)則合成系統(tǒng)就可以據(jù)此合成抑揚(yáng)頓挫和不同語(yǔ)氣的語(yǔ)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論