




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、關于語音合成方法的調查報告摘要:本文是一篇關于語音合成方法的調查報告,在搜集整理大量相關文獻的基礎上,簡要的總結了幾種常用的語音合成方法,討論各種合成方法的原理及算法,并簡要分析各種合成方法的性能及適用場合。關鍵詞:語音合成;種類;原理;算法;性能正文語音合成技術是利用電腦, 按規(guī)定的程序和指令, 人為產(chǎn)生語音的技術。語音合成從技術方式講可分為波形合成、參數(shù)分析合成以及規(guī)則合成等三種。1、波形合成波形合成法一般有兩種形式。一種是波形編碼合成,它類似于語音編碼種的波形編解碼法,該方法直接把要合成的語音的發(fā)音波形進行存儲或者進行波形編輯壓縮后存儲,合成重放時再解碼輸出,稱PCM波形合成法。另一種是
2、波形編輯合成,他把波形編輯技術用于語音合成,通過選取音庫中采取自然語言的合成單元的波形,對這些波形進行編輯拼接后輸出。 11 波形編碼合成基本原理:波形編碼合成方法以語句、短語、詞或音節(jié)為合成單元,這些單元被分別錄音后直接進行數(shù)字編碼,經(jīng)適當?shù)臄?shù)據(jù)壓縮,組成一個合成語音庫。重放時,根據(jù)待輸出的信息,在語音庫中取出相應單元的波形數(shù)據(jù),串接或編輯在一起,經(jīng)解碼還原出語音。性能分析:波形編碼語音合成技術用原始語音波形替代參數(shù),而且這些語音波形取自自然語音的詞或句子,它隱含了聲調、重音、發(fā)音速度的細微特性,也叫錄音編輯合成,合成單元越大,合成的自然度越好,其質量普遍高于參數(shù)合成。且系統(tǒng)結構簡單,價格低
3、廉。但合成語音的數(shù)碼率較大,存儲量也大,因而合成詞匯量有限。通常只能合成有限詞匯的語音段。目前用于自動報時、報站和報警等。12 波形編輯合成基本原理:波形編輯合成方法將波形編輯技術用于語音合成,通過選取音庫中采取自然語言的合成單元的波形,對這些波形進行編輯拼接后輸出。它采用語音編碼技術,存儲適當?shù)恼Z音基元。合成時,經(jīng)解碼、波形編輯拼接、平滑處理等輸出所需的短語、語句或段落。算法簡述:80年代末E.Moulines和F.Charpentier提出基于時域波形修改的語音合成算法。PSOLA就是基音同步疊加,它把基音周期的完整性作為保證波形及頻譜平滑連續(xù)的基本前提。該算法按以下三步實施:對原始波形進
4、行分析,產(chǎn)生非參數(shù)的中間表示;對中間表示進行修改;將修改過的中間表示重新合成為語音信號。由于修改的參數(shù)不同,又分為TD-PSOLA、FD-PSOLA和LP-PSOLA。PSOLA是用于波形編輯合成語音技術中對合成語音的韻律進行修改的一種算法。下圖是利用PSOLA算法的語音合成系統(tǒng)的基本結構:圖1 基于PSOLA算法的語音合成系統(tǒng)本質上說,PSOLA算法是利用短時傅里葉變換重構信號的疊結相加法。信號的x(n)短時傅里葉變換為:由于語音信號是一個短時平穩(wěn)信號,因此在時域每隔若干個(例如R個)樣本取一個頻譜函數(shù)就可以重構信號x(n),即可令:其傅里葉逆變換為:然后就可以通過疊加得到原信號,即: 時域
5、基音同步疊加技術作為基音同步疊加技術的一種,通過以下步驟實現(xiàn)語音的合成:(1) 對語音合成單元設置基音同步標記。(2) 以語音合成單元的同步標記為中心,選擇適當長度(一般取兩倍的基音周期)的時窗對合成單元做加窗處理,獲得一組短時信號。 (3) 在合成規(guī)則的指導下,調整步驟1)中獲得的同步標記,產(chǎn)生新的基音同步標記。(4) 根據(jù)步驟3)得到的合成語音的同步標記,對步驟2)中得到的短時信號進行疊加,從而獲得合成語音。 性能分析:PSOLA算法在編輯和拼接語音波形前能根據(jù)上下文的要求,對拼接單元的韻律特征作出調整,而且音庫中的采佯波形中保留了一部分原發(fā)音人的語音特征這樣使臺成語音的自然度和清晰度都得
6、到了顯著提高。2、參數(shù)分析合成參數(shù)分析合成多以音節(jié)、半音節(jié)或音素為合成單元。首先,按照語音理論,對所有合成單元的語音進行分析,提取有關語音參數(shù),這些參數(shù)經(jīng)編碼后組成一個合成語音庫;輸出時,根據(jù)待合成的語音的信息,從語音庫中取出相應的合成參數(shù),經(jīng)編輯和連接,順序送入語音合成器。在合成器中,通過合成參數(shù)的控制,將語音波形重新還原出來。參數(shù)分析合成方法基于聲道截面積函數(shù)或聲道諧振特性合成語音,如共振峰合成、LPC合成。這類合成技術在的比特率低,音質適中。為改善音質,發(fā)展了混合編碼技術,主要手段是改善激勵,如碼本激勵、多脈沖激勵、長時預測規(guī)則碼激勵等,這樣,比特率有所增大,同時音質得到提高。參數(shù)分析合
7、成的主要優(yōu)點是數(shù)據(jù)量小,易于實現(xiàn)韻律修改,但有限的參數(shù)很難表述自然語音的細微變化。2.1 共振峰合成基本原理:語音合成的理論基礎是語音生成的數(shù)學模型。該模型語音生成過程是在激勵信號的激勵下,聲波經(jīng)諧振腔(聲道),由嘴或鼻輻射聲波。因此,聲道參數(shù)、聲道諧振特性一直是研究的重點。習慣上,把聲道傳輸頻率響應上的極點稱之為共振峰,而語音的共振峰頻率(極點頻率)的分布特性決定著該語音的音色。 音色各異的語音具有不同的共振峰模式,因此,以每個共振峰頻率及其帶寬作為參數(shù),可以構成共振峰濾波器。再用若干個這種濾波器的組合來模擬聲道的傳輸特性(頻率響應),對激勵源發(fā)出的信號進行調制,再經(jīng)過輻射模型就可以得到合成
8、語音。這就是共振峰合成技術的基本原理。基于共振峰的理論有以下三種實用模型。1) 級聯(lián)型共振峰模型在該模型中,聲道被認為是一組串聯(lián)的二階諧振器。該模型主要用于絕大部分元音的合成。2) 并聯(lián)型共振峰模型許多研究者認為,對于鼻化元音等非一般元音以及大部分輔音,上述級聯(lián)型模型不能很好地加以描述和模擬,因此,構筑和產(chǎn)生了并聯(lián)型共振峰模型。3) 混合型共振峰模型在級聯(lián)型共振峰合成模型中,共振峰濾波器首尾相接;而在并聯(lián)型模型中,輸入信號先分別通過幅度調節(jié)再加到每一個共振峰濾波器上,然后將各路的輸出疊加起來。將兩者比較,對于合成聲源位于聲道末端的語音(大多數(shù)的元音),級聯(lián)型合乎語音產(chǎn)生的聲學理論,并且無需為每
9、一個濾波器分設幅度調節(jié);而對于合成聲源位于聲道中間的語音(大多數(shù)清擦音和塞音),并聯(lián)型則比較合適,但是其幅度調節(jié)很復雜?;诖朔N考慮,人們將兩者結合在一起,提出了混和型共振峰模型。圖2 共振峰合成器的系統(tǒng)模型性能分析:共振峰模型是基于對聲道的一種比較準確的模擬,因而可以合成出自然度比較高的語音,另外由于共振峰參數(shù)有著明確的物理意義,直接對應于聲道參數(shù),因此,可以容易利用共振峰描述自然語流中的各種現(xiàn)象,并且總結聲學規(guī)則,最終用于共振峰合成系統(tǒng)。高級共振峰合成器可合成出高質量的語音,幾乎和自然語音沒有差別。但關鍵是如何得到合成所需的控制參數(shù),如共振峰頻率、帶寬、幅度等。而且,求取的參數(shù)還必須逐幀修
10、正,才能使合成語音與自然語音達到最佳匹配。但是,人們同時也發(fā)現(xiàn)該技術有明顯的弱點。首先由于它是建立在對聲道的模擬上,因此,對于聲道模型的不精確勢必會影響其合成質量。另外,實際工作表明,共振峰模型雖然描述了語音中最基本最主要的部分,但并不能表征影響語音自然度的其他許多細微的語音成分,從而影響了合成語音的自然度。另外,共振峰合成器控制十分復雜,對于一個好的合成器來說,其控制參數(shù)往往達到幾十個,實現(xiàn)起來十分困難。2.2 LPC參數(shù)合成LPC合成技術本質上是一種時間波形的編碼技術,目的是為了降低時間域信號的傳輸速率。LPC語音合成器利用LPC語音分析方法,通過分析自然語音樣本,計算出 LPC系數(shù),就可
11、以建立信號產(chǎn)生模型,從而合成出語音。 圖3 LPC語音合成器圖3所示的線性預測合成的形式有兩種:一種是直接用預測器系數(shù),構成的遞歸型合成濾波器,其結構如圖4所示 :圖4 遞歸型合成濾波器用這種方法定期地改變激勵參數(shù) 和預測器系數(shù) ,就能合成出語音。這種結構簡單而直觀,為了合成一個語音樣本,需要進行p次乘法和p次加法。它合成的語音樣本由下式?jīng)Q定:其中, 為預測器系數(shù);G為模型增益; 為激勵;合成語音樣本為 ;p為預測器階數(shù)。直接形式的預測系數(shù)濾波器結構的優(yōu)點是簡單、易于實現(xiàn),所以曾廣泛被采用。其缺點是合成語音樣本需要很高的計算精度。 另一種合成的形式是采用反射系數(shù) 構成的格型合成濾波器。它的合成
12、語音樣本由下式?jīng)Q定:其中,G為模型增益; 為激勵; 為反射系數(shù); 為后向預測誤差;p為預測器階數(shù)。采用反射系數(shù) 的格型合成濾波器結構,雖然運算量大于直接型結構,卻具有一系列優(yōu)點:其參數(shù) 具有 1的性質,因而濾波器是穩(wěn)定的;同時與直接結構形式相比,它對有限字長引起的量化效應靈敏度較低。 在實際進行語音合成時,除了構成合成濾波器之外,還必須在有濁音的情況下,將一定基音周期的脈沖序列作為音源;在清音的情況下,將白噪音作為音源。而且,必須進行濁音/清音的判別和確定音源強度。對于基音周期的檢測,采用去掉共振峰影響后的最后一級殘差信號 (前向預測誤差)的自相關函數(shù)的方式是有效的。這個殘差信號的自相關函數(shù)也
13、叫變形自相關函數(shù) ,它除了可用來檢測基音周期之外,也可用來區(qū)別濁音/清音等。在 之后找出 取峰值時的T,即從n=0開始,搜索基音周期可能存在的315ms的區(qū)間,從而求出這個周期。圖5 變形自相關函數(shù)和基音周期檢測同樣對于濁音/清音的判別方法,也可以采用誤差信號 。采用 的一個方法是利用 這個比值,如果是濁音的話, 則相當于 的一個極值。所以可以設定 的比值在0.18以下為清音,在0.25以上為濁音,在這兩個值之間引入了濁音度V和清音度U的概念,且U+V=1。這時,確定U和V時要使U+V=1,即如圖8-5所示,在U=1時為無聲,只用白噪音作為音源。在V=1時,為有聲,使用與音調周期T同步的脈沖序
14、列作為音源。在 時,常常把對應于 和 的白噪音和脈沖序列的和信號作為音源。圖6 音源參數(shù)的設定法對于音源強度,可以直接使用相當于殘差信號能量的 ,即采用 值。用這種方法構成PARCOR分析合成濾波器的整個結構如圖7所示。圖7 PARCOR分析合成濾波器性能分析:LPC合成技術的優(yōu)點是簡單直觀。其合成過程實質上只是一種簡單的解碼和拼接過程。另外,由于波形拼接技術的合成基元是語音的波形數(shù)據(jù),保存了語音的全部信息,因而對于單個合成基元來說能夠獲得很高的自然度。但是,由于自然語流中的語音和孤立狀況下的語音有著極大的區(qū)別,如果只是簡單地把各個孤立的語音生硬地拼接在一起,其整個語流的質量勢必是不太理想的。
15、而LPC技術從本質上來說只是一種錄音重放,對于合成整個連續(xù)語流LPC合成技術的效果是不理想的。因此,LPC合成技術必須和其他技術相結合,才能明顯改善LPC合成的質量。3、規(guī)則合成基本原理:規(guī)則合成方式通過語音學規(guī)則來產(chǎn)生目標語音。規(guī)則合成系統(tǒng)存儲的是較小的語音單位(如音素、雙音素、半音節(jié)或音節(jié))的聲學參數(shù),以及由音素組成音節(jié)、再由音節(jié)組成詞或句子的各種規(guī)則。當輸入字母符號時,合成系統(tǒng)利用規(guī)則自動地將它們轉換成連續(xù)的語音波形。由于語音中存在協(xié)同發(fā)音效應,單獨存在的元音和輔音與連續(xù)發(fā)音中的元音和輔音不同,所以,合成規(guī)則是在分析每一語音單元出現(xiàn)在不同環(huán)境中的協(xié)同發(fā)音效應后,歸納其規(guī)律而制定的如共振峰
16、頻率規(guī)則、時長規(guī)則、聲調和語調規(guī)則等。由于語句中的輕重音,還要歸納出語音減縮規(guī)則。算法簡介: 規(guī)則合成方法中具有代表性的算法是:基音同步疊加技術(PSOLA),該方法既能保持所發(fā)音的主要音段特征,又能在拼接時靈活調整其它基頻、時長和強度等超音段特征。核心思想:直接對存儲與音庫的語音運用PSOLA算法來進行拼接,從而整合成完整的語音。PSOLA算法在前述波形編輯合成作過詳細的分析,這里不再贅述。性能分析:規(guī)則合成法是一種高級合成法。規(guī)則合成法通過語音學規(guī)則產(chǎn)生語音,合成的詞匯表不是事先確定,系統(tǒng)中存儲的是最小的語音單位的聲學參數(shù),以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子和控制音調
17、、輕重等韻律的各種規(guī)則。給出待合成的字母或文字后,合成系統(tǒng)利用規(guī)則自動的將他們轉換成連續(xù)的語音聲波。這種方法可以合成無限詞匯的語句。 在語音波形片斷拼接之前,首先根據(jù)語義,用PSOLA算法對拼接單元的韻律特征進行調整,使合成波形既保持了原始語音基元的主要音段特征,又使拼接單元的韻律特征符合語義,從而獲得很高的可懂度和自然度??偨Y本學期選修語音信號處理這門課程,學習了語音信號處理的基礎、概念、原理、方法及應用,同時了解了一定的背景知識、發(fā)展概況、研究現(xiàn)狀、應用前景和發(fā)展趨勢與方向。本調查報告圍繞語音信號合成技術這一課題,進行一定的分析討論與擴展,以此作為本門課程的總結。不敢妄談見解,謹以所學內容
18、加以總結與梳理、搜集相關文獻加以提煉與編纂。其中難免錯誤與疏漏之處,亦難免認識膚淺、總結不到位之處,還望老師指正。由人工通過一定的機器設備產(chǎn)生出語音稱為語音合成。語音合成是人機語音通信的一個重要組成部分。語音合成研究的目的是制造一種會說話的機器,它解決的是如何讓機器象人那樣說話的問題,使一些以其它方式表示或存儲的信息能轉換為語音,讓人們能通過聽覺而方便地獲得這些信息。語音合成技術經(jīng)歷了一個逐步發(fā)展的過程,從參數(shù)合成到拼接合成,再到兩者的逐步結合,其不斷發(fā)展的動力是人們認知水平和需求的提高。早期的被形編輯技術并沒有用于語言合成,因為它只能回放音庫中保存的東西。而任何一個語音單元在實際語流中都會隨著語音環(huán)境的變化
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 手術室護理指南:手術隔離技術
- 勝任才是硬道理培訓教材
- 中班健康:身體上的寶貝
- 糖尿病合并高血壓個案護理
- 轉移性骨腫瘤的護理及管理
- 2025年品質培訓資料
- 住宅小區(qū)停車庫租賃合同
- 辦公家具定制化設計與售后服務承諾書
- 城市綠化帶場地無償使用與生態(tài)維護協(xié)議
- 電力設備與廠房使用權轉讓合同
- 橋梁吊裝專項安全施工方案
- 2023年攀枝花市米易縣社區(qū)工作者招聘考試真題
- 敬老院工作經(jīng)驗交流發(fā)言稿
- 醫(yī)師多點執(zhí)業(yè)備案表-申請表-協(xié)議書-情況登記表
- 工程測量員四級理論知識考試試題題庫及答案
- 新員工入職健康體檢表
- 北師大版一年級數(shù)學下冊期末試卷(含答案)
- 國開作業(yè)《建筑測量》學習過程(含課程實驗)表現(xiàn)-參考(含答案)33
- 人工智能導論PPT完整全套教學課件
- 科學版二年級《隊列隊形原地由一路縱隊變成二路縱隊》教案及教學反思
- 鄉(xiāng)村振興戰(zhàn)略實施與美麗鄉(xiāng)村建設課件
評論
0/150
提交評論