




已閱讀5頁,還剩66頁未讀, 繼續(xù)免費(fèi)閱讀
【畢業(yè)學(xué)位論文】說話人語音轉(zhuǎn)換技術(shù)研究.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目 錄 I 目 錄 1 緒論 .話人語音轉(zhuǎn)換的定義 .究語音轉(zhuǎn)換的意義 .音轉(zhuǎn)換的歷史及研究現(xiàn)狀 .文組織結(jié)構(gòu) .章小結(jié) . 語音轉(zhuǎn)換基礎(chǔ)及原理 . 音產(chǎn)生機(jī)理 .音信號(hào)生成的數(shù)學(xué)模型 . 激勵(lì)模型 . 聲道模型 . 輻射模型 . 10 字模型 . 11 音轉(zhuǎn)換的系統(tǒng)框架 . 11 話人語音轉(zhuǎn)換效果評(píng)價(jià)方法 . 13 觀評(píng)價(jià) . 13 觀評(píng)價(jià)方法 . 14 章小結(jié) . 16 3 語音信號(hào)分析及特征參數(shù)提取 . 17 音信號(hào)預(yù)處理 . 17 加重處理 . 17 幀處理 . 19 窗處理 . 19 音信號(hào)時(shí)域分析 . 21 時(shí)能量及短時(shí)平均幅度 . 21 時(shí)過零率分析 . 22 時(shí)自相關(guān)分析 . 23 時(shí)平均幅度差函數(shù) . 25 音信號(hào)線性預(yù)測(cè)分析 . 25 析基本原理 . 26 目 錄 數(shù) . 29 音信號(hào)特征參數(shù) . 30 音周期估計(jì) . 31 音周期估值后處理 . 36 振峰估計(jì) . 38 章小結(jié) . 44 4 語音轉(zhuǎn)換算法 . 45 換過程 . 45 態(tài)時(shí)間規(guī)整 . 45 音分析 合成模型 . 47 取譜包絡(luò) . 47 取基頻軌跡 . 48 成器 實(shí)現(xiàn) . 48 于 語音轉(zhuǎn)換算法 . 49 絡(luò)結(jié)構(gòu) . 50 絡(luò)隱含層學(xué)習(xí)算法 法 . 52 絡(luò)輸出層學(xué)習(xí)算法 法 . 54 于改進(jìn)的 絡(luò)譜包絡(luò)轉(zhuǎn)換 . 577 于 語音轉(zhuǎn)換算法 . 57 模 . 588 型訓(xùn)練 . 58 型的轉(zhuǎn)換 . 59 音合成 . 611 章小結(jié) . 62 5 總結(jié)與展望 . 63 結(jié) . 63 音轉(zhuǎn)換研究方向與展望 . 63 章小結(jié) . 64 致 謝 . 65 參考文獻(xiàn) . 66 1 緒論 1 1 緒論 語言是人類特有的功能,它是記載幾千年人類文明史的根本手段,沒有語言就沒 有今天的人類文明。聲音是人類常用的工具,用語言進(jìn)行信息相互之間的傳遞是我們?nèi)祟愖钪匾幕竟δ苤?。語言是我們?nèi)祟愡M(jìn)行思維和交流的形式,是從眾多人的言語中概括總結(jié)出來的具有規(guī)律性 的一種符號(hào)系統(tǒng)。而語音則是語言的聲學(xué)表現(xiàn)形式,是聲音和它所能表達(dá)的意思的一種結(jié)合 ,是相互傳遞信息的最重要 手段,是人類最重要、最有效、最常用和最方便的交換信息的形式。語音中除了包括實(shí)際說話人發(fā)出的語音 內(nèi)容 所表達(dá)的語言信息外,還包括說話者即發(fā)音者是誰和所帶有的情感因素如喜怒哀樂等等各種信息。在我們?nèi)祟惤裉煲呀?jīng)構(gòu)成了的通信系統(tǒng)中,語音通信方式(比如日常的電話通信、如今時(shí)興的微信等)由于其非常方便和十分便捷的特點(diǎn),早已經(jīng)在現(xiàn)今最主要的信息傳遞途徑中占據(jù)主導(dǎo)地位。語言和語音是人類文明的產(chǎn)物,是人類思維活動(dòng)的一種表現(xiàn)及 依托方式。人類的智力活動(dòng)在一定程度上外在反映在個(gè)人語言和語音上,語言和語音包含有最豐富的信息量和智能的最高水平,因此,語言和語音與人類文明,與人類社會(huì)的進(jìn)步有著密切的聯(lián) 系。 語音信號(hào)處理是采用數(shù)字信號(hào)處理技術(shù)來處理語音信號(hào)的一門新興的學(xué)科,但它還是多學(xué)科的集成,是一門涉及領(lǐng)域非常廣泛的交叉性學(xué)科。盡管在這一領(lǐng)域的研究人員之前從事的可能主要是信號(hào)與信息處理以及計(jì)算機(jī)應(yīng)用等學(xué)科的研究,實(shí)際上,語音信號(hào)處理與其它的一些學(xué)科,像是語音學(xué),語言學(xué),聲學(xué),認(rèn)知科學(xué),生理學(xué),還有心理學(xué)等學(xué)科都是緊密相連的。這諸多學(xué)科之間 是一個(gè)相輔相成的關(guān)系,語音信號(hào)處理技術(shù)的發(fā)展需要依賴于這些學(xué)科的發(fā)展,而語音信號(hào)處理技術(shù)的進(jìn)步同時(shí)也可以促進(jìn)這些學(xué)科的進(jìn)步。 話人語音轉(zhuǎn)換的定義 說話人語音轉(zhuǎn)換就是使用語音信號(hào)處理技術(shù)對(duì) 說話人 語音信號(hào)進(jìn)行處理,改變一個(gè)說話人 (源說話人, 語音個(gè)性特征,使其轉(zhuǎn)換為具有另外一個(gè)說話人(目標(biāo)說話人, 語音個(gè)性特征,即 A 說話人的語音轉(zhuǎn)換為像是 B 說話人在說話一樣,具有 B 說話人的發(fā)音特征,但語音內(nèi)容是沒有變化的 ,仍是 A 說話人表達(dá)的語義信息 。 說話人語 音信號(hào)中包含了非常多的信息,除了其中非常重要的語義信息以外,還有能代表說話人身份信息的的個(gè)性特征、說話人的情感狀態(tài)、說話人的說話態(tài)度以及說話人當(dāng)時(shí)所處的場(chǎng)景等信息。說話人語音轉(zhuǎn)換就是要使原有語音中的語義信息保持下來,1 緒論 2 不發(fā)生改變,只是改變語音所具有的個(gè)性化的信息,使一個(gè)說話人的語音通過語音轉(zhuǎn)換后聽起來就像是另外一個(gè)說話人在說話一樣。 究語音轉(zhuǎn)換的意義 科學(xué)領(lǐng)域中的研究與發(fā)展很多都是相輔相成,互相促進(jìn)的。從理論的角度來看,語音轉(zhuǎn)換就是一門涉及聲學(xué)研究、信號(hào)處理以及模式識(shí)別等多個(gè)學(xué)科領(lǐng)域 的 典型性交叉學(xué)科 。對(duì)語音轉(zhuǎn)換技術(shù)進(jìn)行研究時(shí)可以使用或?qū)W習(xí)各個(gè)領(lǐng)域的知識(shí),開展調(diào)研;反過來,通過研究語音轉(zhuǎn)換技術(shù)又可以促進(jìn)這些科學(xué)領(lǐng)域的發(fā)展。另外,由于語音通信方式的重要性,對(duì)語音信號(hào)的研究已經(jīng)發(fā)展到一定階段,其中對(duì)語音轉(zhuǎn)換的研究是當(dāng)前對(duì)語音信號(hào)處理研究中繼語音識(shí)別技術(shù)、說話人識(shí)別技術(shù)和語音合成技術(shù)之后又一新的研究方向。從實(shí)際應(yīng)用角度來看,語音轉(zhuǎn)換技術(shù)具備有廣闊的應(yīng)用前景。具體應(yīng)用如下所示 1: 1、在語音識(shí)別領(lǐng)域的應(yīng)用:我們知道由于各方面因素的影響,每個(gè)人都有各自的發(fā)音特點(diǎn),因此不同人縱使發(fā)同一個(gè)音其語音特征參數(shù)也不一樣 。這樣 , 在語音識(shí)別領(lǐng)域,說話人個(gè)性特征參數(shù)是對(duì)語音識(shí)別的一個(gè)非常重要的研究依據(jù)。那語音轉(zhuǎn)換同樣也是對(duì)說話人個(gè)性特征參數(shù)的一個(gè)研究,因此可以為語音識(shí)別技術(shù)提供依據(jù)。另外在非特定人語音識(shí)別中,還可以通過語音轉(zhuǎn)換實(shí)現(xiàn)說話人的歸一化。 2、在 語轉(zhuǎn)換系統(tǒng)中的應(yīng)用:眾所周知現(xiàn)有的 統(tǒng)由于現(xiàn)有語音合成方法及技術(shù)的局限性,使合成出來的語音缺失了其特有的個(gè)性化特征,以致聽起來很是單調(diào)。但是,如果通過語音轉(zhuǎn)換系統(tǒng)則可以根據(jù)需要選擇某一個(gè)特定人,使 成出來的語音通過語音轉(zhuǎn)換系 統(tǒng)轉(zhuǎn)換后再進(jìn)行語音合成,這樣最終合 成出來的語音就不再單調(diào),而是 具備了選擇的特定人的說話語音特征。合成語音不再單調(diào),可以根據(jù)實(shí)際需要滿足各方面不同的需求。 3、在信號(hào)傳輸中的應(yīng)用:由于語音信號(hào)的存儲(chǔ)容量是非常大的,若在低碼率的語音信號(hào)中傳輸,傳輸速度會(huì)非常慢。這時(shí)就可以利用到語音轉(zhuǎn)換系統(tǒng),在傳輸前,先提取只與說話內(nèi)容相關(guān)的信號(hào),在信道中則只傳輸這部分信號(hào),在接收端再加入個(gè)性化特征,這樣就可以既提高了傳輸速度也提高了傳輸有效性。 4、在醫(yī)療方面的應(yīng)用:當(dāng)說話人的發(fā)音聲道 受 到損傷時(shí),其發(fā)出來的語音的可懂度比較低,那么此時(shí)可以使用語音轉(zhuǎn)換系統(tǒng)將受損 的語音復(fù)原過來,使得語音的可懂度得以提高。 5、 在刑偵方面的應(yīng)用:當(dāng)說話人需要被保護(hù)但又要傳遞信息時(shí),可以使用 語音轉(zhuǎn)換 系統(tǒng)將保密通信中說話人的個(gè)性化特征進(jìn)行偽裝,然后再進(jìn)行通信。 6、在娛樂方面的應(yīng)用:現(xiàn)有的電影、電視節(jié)目的配音都是讓特定配音員根據(jù)畫面所示實(shí)時(shí)進(jìn)行配音。如果語音轉(zhuǎn)換系統(tǒng) 在其中 得到使用,就可以將具有原演員個(gè)性化聲1 緒論 3 音特征的語音加入到語音庫里面,當(dāng)另外的配音員進(jìn)行配音時(shí)通過語音轉(zhuǎn)換系統(tǒng)進(jìn)行實(shí)時(shí)轉(zhuǎn)換,使其具 有 原來演員的個(gè)性特 征 。 語音轉(zhuǎn)換還可以控制單一說話人的語音質(zhì)量。因?yàn)槿嗽陂L(zhǎng)時(shí)間錄音的情況下,很 可能會(huì)產(chǎn)生疲勞以至于后來的錄音質(zhì)量有所下降,那么在這個(gè)時(shí)候就可以使用語音轉(zhuǎn)換系統(tǒng)來糾正質(zhì)量有所下降的語音。 音轉(zhuǎn)換的歷史及研究現(xiàn)狀 到今天為止,人們對(duì)語音轉(zhuǎn)換技術(shù)的研究已經(jīng)有四十幾個(gè)年頭了,特別是近二三十年,語音轉(zhuǎn)換技術(shù)越來越引起研究人員廣泛的注意。實(shí)際上,在更早以前,人們就在研究語音技術(shù),只是將更多的注意力放在語音識(shí) 別 和語音合成以及語音編碼等語音技術(shù)的研究上,所以,可以說語音轉(zhuǎn)換技術(shù)是語音技術(shù)中的一個(gè)新的研究方向,語音識(shí)別技術(shù)和語音合成技術(shù)等是語音轉(zhuǎn)換技術(shù)的起源。從國內(nèi)外對(duì)語音轉(zhuǎn)換技術(shù)的研究來看 ,國外比較早就在研究這門新興的學(xué)科,因此,研究得比較深入,自然也就取得了比較大的研究成果,而我們國內(nèi)對(duì)語音轉(zhuǎn)換技術(shù)的研究則相對(duì)國外來說起步比較晚,但我們國內(nèi)的研究技術(shù)發(fā)展比較快,經(jīng)過這么些年的研究也取得了不錯(cuò)的研究成果?,F(xiàn)今,頻譜特征參數(shù) 和基音周期 的轉(zhuǎn)換是語音轉(zhuǎn)換技術(shù)研究人員的主要關(guān)注點(diǎn)。 最早對(duì)說話人語音轉(zhuǎn)換技術(shù)進(jìn)行研究是在二十世紀(jì)八十年代末期, 由于受到說話人自適應(yīng)技術(shù)的啟發(fā),提出矢量量化的頻譜包絡(luò)語音轉(zhuǎn)換方法,但轉(zhuǎn)換效果并非理想的,主要是因?yàn)槭噶苛炕椒ㄊ亲屨Z音轉(zhuǎn)換發(fā)生在每一個(gè)特征子空間,這 樣就忽視了各特征子空間之間的聯(lián)系,使得特征空間不連續(xù),引起語音轉(zhuǎn)換效果不佳的結(jié)果。九十年代初期, 提出基于線性多變量回歸( 動(dòng)態(tài)頻率調(diào)整( 語音轉(zhuǎn)換方法,還采用基音同步疊加法 (對(duì)激勵(lì)信號(hào)來調(diào)整其韻律特征; 換方法是在一個(gè)獨(dú)立的特征子空間進(jìn)行語音轉(zhuǎn)換,這樣容易丟失與其他特征子空間的有關(guān)信息, 同樣會(huì)因?yàn)樘卣骺臻g不連續(xù),造成 語音轉(zhuǎn)換效果不佳; 法分為線性頻率調(diào)整和非線性頻率調(diào)整,由于線性頻率調(diào)整的丟失信息和補(bǔ)零現(xiàn)象,目前比較少用到線性頻率調(diào)整,可以使用 分段 時(shí), 提出基于神經(jīng)網(wǎng)絡(luò)的語音轉(zhuǎn)換方法,主要是對(duì)語音的共振峰特性實(shí)現(xiàn)了轉(zhuǎn)換, 采用了 經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)。九十年代中期, 提出模糊矢量量化的語音轉(zhuǎn)換方法,語音轉(zhuǎn)換效果在一定程度上得到提升。九十年代末期, ,7提出高斯混合模型( 語音轉(zhuǎn)換算法,其加權(quán)求平均的方法解決了特征空間不連續(xù)的問題,語音轉(zhuǎn)換技術(shù)向前邁進(jìn)了一大步;但這種方法也有其局限性,即引起了語音過平滑現(xiàn)象。二十一世紀(jì)初, ,9針對(duì)過平滑問題,采用 0,11聯(lián)合特征矢量的直接估計(jì)方法,提出基于 音轉(zhuǎn)換方法,由于通過了動(dòng)態(tài)頻率調(diào)整,語音轉(zhuǎn)換質(zhì)量得到很大改1 緒論 4 善。 2在 2003 年提出創(chuàng)新點(diǎn),即因?yàn)檎J(rèn)識(shí)到人耳是非線性感知頻譜的,在 果得到改善 。 以上主要是基于頻譜的特征轉(zhuǎn)換,還有對(duì)基因周期轉(zhuǎn)換的研究,主要是利用參差信號(hào)進(jìn)行語音轉(zhuǎn)換。 3就提出有關(guān)強(qiáng)激勵(lì)脈沖的殘差信號(hào)韻律轉(zhuǎn)換算法;4提出了離散余弦變換( 殘差信號(hào)中的語音轉(zhuǎn)換; 5提出采用快速傅里葉變換( 快速傅里葉逆變換( 基于殘差信號(hào)基因周期轉(zhuǎn)換; ,7提出 型的同時(shí)還提出諧波加噪聲模型( 建模疊加形成新的基因周期的方法。另外,在九十年代末期, ,16,17還針對(duì)語音參數(shù)的修改和恢復(fù)提出自適應(yīng)加權(quán)譜內(nèi)插( 音分析合成系統(tǒng)。 這些是國外取得的研究成果及現(xiàn)狀,國內(nèi)對(duì)語音轉(zhuǎn)換的研究同樣有一定的佳績(jī)。初敏 18等人提出了針對(duì)男女聲 語音轉(zhuǎn)換的時(shí)域基因同步疊加 (法;雙志偉 19提出基于漢語音素的碼本映射算法;陳一寧 20也針對(duì)過平滑問題,進(jìn)行了概率分布的轉(zhuǎn)移,從而提出了基于 語音轉(zhuǎn)換方法;左國玉 21提出了采用線譜對(duì)( 征參數(shù)和遺傳算法的徑向基函數(shù)( 絡(luò)的語音轉(zhuǎn)換方法,轉(zhuǎn)換效果得到很大的改善,系統(tǒng)穩(wěn)定性也得到很大提高。 u22針對(duì)語音韻律特性,采用隱馬爾科夫模型( 行語音轉(zhuǎn)換,其中,語音中因素時(shí)長(zhǎng)用 狀態(tài)持續(xù)時(shí)間表 征,還將 狀態(tài)持續(xù)時(shí)間變量用 數(shù)的分布來描述,在語音情感信息上得到比較好的控制和轉(zhuǎn)換。 到現(xiàn)今,語音轉(zhuǎn)換技術(shù)在各個(gè)方面的研究都取得了比較好的進(jìn)展,但技術(shù)有無限的發(fā)展空間,對(duì)語音轉(zhuǎn)換的研究有技術(shù)成熟的方面,也有些方面的技術(shù)尚不成熟,比如說語音實(shí)時(shí)轉(zhuǎn)換的實(shí)現(xiàn)技術(shù)等,仍需我們不斷改進(jìn)技術(shù),挖掘創(chuàng)新,以期進(jìn)行實(shí)際開發(fā)。 文組織結(jié)構(gòu) 本論文主要是對(duì)說話人語音轉(zhuǎn)換技術(shù)進(jìn)行研究,全 文共分為五章, 具體的章節(jié)內(nèi)容安排如下: 第一章:緒論 本章主要論述說話人語音轉(zhuǎn)換的定義及研究意義,并介紹語音轉(zhuǎn)換的歷 史和國內(nèi)外研究現(xiàn)狀。 第二章:語音轉(zhuǎn)換基礎(chǔ)及原理 先介紹語音產(chǎn)生的機(jī)理,并根據(jù)語音產(chǎn)生機(jī)理對(duì)語音信號(hào)從激勵(lì)模型、聲道模型和輻射模型進(jìn)行數(shù)學(xué)建模。然后對(duì)語音轉(zhuǎn)換原理進(jìn)行闡述,最后介紹主觀和客觀兩方面的語音轉(zhuǎn)換效果評(píng)估方法。 1 緒論 5 第三章:語音信號(hào)分析與特征參數(shù)提取 本章首先介紹了對(duì)語音信號(hào)進(jìn)行預(yù)處理的方法,然后從短時(shí)能量及短時(shí)平均幅度、短時(shí)過零率、短時(shí)自相關(guān)函數(shù)和短時(shí)平均幅度差函數(shù)幾個(gè)特征參數(shù)論述了對(duì)說話人語音信號(hào)的時(shí)頻分析,并對(duì)語音信號(hào)進(jìn)行了線性預(yù)測(cè)分析,得到 推演參數(shù) 道其與共振峰有緊密聯(lián)系,最后本章還對(duì)基因周期和共振峰這二個(gè)重要特征參數(shù)的提取方法進(jìn)行了重點(diǎn)論述。 第四章:語音轉(zhuǎn)換算法 本章先是簡(jiǎn)單介紹了語音轉(zhuǎn)換原理、語音信號(hào)特征參數(shù)訓(xùn)練前的動(dòng)態(tài)時(shí)間規(guī)整處理方法和 音分析合成模型。然后重點(diǎn)論述基于 采用 法的 絡(luò)和基于改進(jìn)的后知概率 型這兩種語音轉(zhuǎn)換算法,并進(jìn)行了實(shí)驗(yàn)比對(duì)。 第五章:總結(jié)與展望 本章主要是對(duì)全文的一個(gè)工作總結(jié),并對(duì)今后語音轉(zhuǎn)換技術(shù)的一個(gè)展望。 章 小結(jié) 本章 先是對(duì)語音信號(hào)處理作了引出 ,然后對(duì)本文研究的重點(diǎn)語音轉(zhuǎn)換技術(shù)的定義進(jìn)行了闡述,再重點(diǎn)闡述了語音轉(zhuǎn)換的意義,分析了語音轉(zhuǎn)換的研究歷史以及國內(nèi)外研究現(xiàn)狀,最后再簡(jiǎn)單介紹了本文全部章節(jié)內(nèi)容安排。 2 語音轉(zhuǎn)換基礎(chǔ)及原理 6 2 語音轉(zhuǎn)換基礎(chǔ)及原理 音產(chǎn)生機(jī)理 聲音是一種振動(dòng)頻率在 20 2000間 的能被人耳 聽到的波。大自然中包含有各種不同的聲音,如風(fēng)聲、雨聲、 雷聲、 機(jī)械聲、不同樂器聲等等。而人說話的語音是各種不同聲音 中的 其中 一種,它是從人 的發(fā)聲器官發(fā)出的,是具有一定的規(guī)律性語法和語義的聲音 23。語音的震動(dòng)頻率最高可以達(dá)到 15000右。 人類 生成語音過程的第一個(gè)階段是決定想要給對(duì)方傳遞什么內(nèi)容,然后將內(nèi)容轉(zhuǎn)換成語言的形式。選擇能夠表達(dá)其內(nèi)容的適當(dāng)語句,將其按既定的語法規(guī)則排列,便能構(gòu)成語言的形式。由大腦對(duì)發(fā)聲器官發(fā)出運(yùn)動(dòng)指令,發(fā)聲器官各種肌肉運(yùn)動(dòng),振動(dòng)空氣而形成語音波。 又人類的語音是由人體發(fā)聲器官在大腦控制下的生理運(yùn)動(dòng)產(chǎn)生的。人的發(fā)音器官由三部分組成:肺和氣管產(chǎn)生氣源;喉和聲帶組成聲門;咽腔、口腔和鼻腔組成聲道 。 如圖 示,這些器官共同構(gòu)成一條形狀復(fù)雜的管道??諝庥煞尾颗湃牒聿?,經(jīng)過聲帶進(jìn)入聲道,最后由嘴輻射出聲波,這就形成了語音 23語音由聲帶振動(dòng)或不經(jīng)聲帶振動(dòng)來產(chǎn)生,其中由聲帶振動(dòng)產(chǎn)生的音統(tǒng)稱為濁音,而不由聲帶振動(dòng)產(chǎn)生的音統(tǒng)稱為清音。在發(fā)音器官中,肺和氣管是整個(gè)系統(tǒng)的能源,喉是主要的聲音生成機(jī)構(gòu),而聲道則對(duì)生成的聲音進(jìn)行調(diào)制。 圖 人的發(fā)聲器官剖面圖 2 語音轉(zhuǎn)換基礎(chǔ)及原理 7 當(dāng)聲音產(chǎn)生后,便沿著聲道進(jìn)行傳播。聲道可以看成一根具有非均 勻截面的聲管,在發(fā)聲時(shí)起著共鳴器的作用。聲音進(jìn)入聲道后,猶如進(jìn)入一個(gè)具有某種諧振特性的腔體,聲音的 頻譜 特性必然就會(huì)受到聲道共振特性的影響。 聲道 內(nèi) 具有一組 諧振點(diǎn),稱為共振峰頻率或共振峰,聲道的頻譜特性便主要 是 反映出 每個(gè)峰的共振峰位置和這些個(gè)共振峰的頻帶寬度 24。共振峰所在的位置及其頻帶寬度主要取決于聲道的形狀和大小,因此,不同的語音 和 不同的共振峰參數(shù) 相對(duì)應(yīng) 。 音信號(hào)生成的數(shù)學(xué)模型 建立了語音信號(hào)的數(shù)學(xué)模型才能夠用計(jì)算機(jī)來定量地對(duì)語音信號(hào)進(jìn)行模擬和處理。從人體發(fā)聲器官的發(fā)聲機(jī)理這方面來看,聲道情況會(huì)因?yàn)榘l(fā)出聲音的性質(zhì)不同而有所不同。 另外 ,由于 聲道和聲門的相互耦合 , 還形成 了語音信號(hào)的非線性特性 。由此可知,語音信號(hào) 實(shí)際上 是一個(gè)非平穩(wěn) 的 隨機(jī)過程, 具有 隨著時(shí)間而發(fā)生改變的 特性 ,所以數(shù)學(xué)模型中的 信號(hào) 參數(shù)應(yīng)該 也是隨著時(shí)間而改變的 23。但語音信號(hào)的這一特性 是非常緩慢的, 因此 可以 將語音信號(hào)劃分成一些連續(xù)的短 時(shí)段進(jìn)行處理,在這些短時(shí)段 內(nèi)語音信號(hào)特性 可以看作 是固定不變的,是不會(huì)隨著時(shí)間而發(fā)生改變 的平穩(wěn)隨機(jī)過程。 從而 , 可以將短時(shí)間段內(nèi)的語音信號(hào)采用線性時(shí)不變模型來表示。 通過對(duì)人體發(fā)聲器官進(jìn)行剖析和對(duì)語音 信號(hào)產(chǎn)生機(jī)理進(jìn)行分析,可以知道首先是由肺部和氣管里的氣流激勵(lì)聲道,然后 從嘴唇或鼻孔,或 者 從嘴唇和鼻孔同時(shí)輻射出來而形成 語音聲波。我們將聲道入口 聲門以下 的部分 ,稱為“聲門子系統(tǒng)”, 主要功能是用來 產(chǎn)生激勵(lì)振動(dòng), 因此 是“激 勵(lì)系統(tǒng)”; 而 聲門到嘴唇 或是鼻孔 的呼氣通道是聲道, 稱之為 “聲道系統(tǒng)”; 最后 語音從嘴唇 或是鼻孔 輻射出去,所以嘴唇 或是鼻孔之 外 就稱之為“輻射系統(tǒng)” 23,26。 激勵(lì)系統(tǒng)、聲道系統(tǒng)和輻射系統(tǒng)各自對(duì)應(yīng)著氣流沖擊聲帶產(chǎn)生振動(dòng)形成激勵(lì)效應(yīng),聲道中各器官對(duì)語音的調(diào)音作用,嘴唇和鼻孔輻射語音的效應(yīng),因此,可以對(duì)這三個(gè)系統(tǒng)分別進(jìn)行建模,成為激勵(lì)模型、聲道模型以及輻射模型。這樣,就可以將 激勵(lì)模型、聲道模型和輻射模型 這三 個(gè)子模型 級(jí)聯(lián)起來表示成一個(gè)完整的語音信號(hào) 數(shù)學(xué)模型 。 勵(lì)模型 濁音是由聲帶的不斷開啟和關(guān)閉 產(chǎn)生的 脈沖波,儀器測(cè)試其類似于斜三角脈沖波,也就是這時(shí)的激勵(lì)波可以看作是具有周期性的斜三角脈沖波 。 單個(gè)三角脈沖波 可以用 數(shù)學(xué)表達(dá)式 ( 2示成: 2 語音轉(zhuǎn)換基礎(chǔ)及原理 8 1111 1 221 1 c o s 02( ) c o s 20n n N n N 其 他( 式中, 斜三角波的上升 部分的 時(shí)間, 其下降 部分的時(shí)間,觀察 圖 單個(gè)斜三角波的頻譜 可以發(fā)現(xiàn),它 表現(xiàn)出一個(gè)低通濾波器的特性。 其 z 變換的全極 模型表示 形式 如下: 2111 (其中, c 是一個(gè)常數(shù), 并且 12T N N。顯然上式表示 的斜三角波可以描述為一個(gè)二級(jí)點(diǎn)模型,所以,可以認(rèn)為單個(gè)斜三角波模型被加權(quán)單位脈沖序列激勵(lì)產(chǎn)生的結(jié)果就是得到斜三角波串。 這個(gè)單位脈沖串和幅值因子 的 z 變換形式可以表示 成如下所示: 11 z (0 5 10 15 20 25- 0 . 4- 0 . 200 . 20 . 40 . 60 . 811 . 2時(shí)間 / m + N 20 200 400 600051015202530頻率 / H 個(gè)的斜三角波圖和其頻譜圖 所以 完整的 激勵(lì)模型表示 如下: 2 語音轉(zhuǎn)換基礎(chǔ)及原理 9 21 11( ) ( ) ( )11z G z E z (在發(fā)清音的場(chǎng)合,聲道被阻礙形成湍流,所以可以模擬成隨機(jī)白噪聲。 道模型 當(dāng)聲波通過聲道時(shí),受到聲腔共振的影響, 在聲波的其中某些頻率處會(huì)產(chǎn)生諧振現(xiàn)象 。 諧振現(xiàn)象在信號(hào)頻譜圖上的表現(xiàn)就是 其譜線包絡(luò)在諧振頻率處產(chǎn)生峰值, 這種峰值一般 就被稱作 為共振峰 26,27。如圖 示為一段語音信號(hào)的頻譜圖,具有明顯的峰起,即為共振峰,一般元音可以有 3 5 個(gè)共振峰。我們將從這個(gè)角度描述出的聲道模型稱為共振峰模型。由于人耳聽覺的柯蒂氏器官的 纖毛細(xì)胞的位置是按著頻率感受去排列的,所以用 共振峰 的方法來表示這種聲道模型是行之有效的 , 因而 經(jīng)常被 拿來 使用。 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000- 4 0- 3 0- 2 0- 1 00102030頻譜圖頻率 / H 語音信號(hào)頻譜圖 實(shí)踐表明,一個(gè)元音用前 3 個(gè)共振峰 進(jìn)行表示 就 足 夠了, 而 輔音或鼻音 ,因?yàn)楸容^復(fù)雜,對(duì)其表示可能要用到至少 5 個(gè)共振峰才行 。一個(gè)二階諧振器的傳 輸函數(shù)可表示成: 12() 1 ii z C z (多個(gè) 加就可形成 聲道的共振峰模型,即聲道模型可以表示成 : 2 語音轉(zhuǎn)換基礎(chǔ)及原理 10012111( ) ( ) ( ) 11z V z V z B z C (通常 NR,還有分子和 分母無公共因子 ,及分母無重根??梢姡暤滥P?的傳遞函數(shù)是一個(gè)零極點(diǎn)模型。 另外,語音信號(hào)還可以用語譜圖來直觀的表示信號(hào)隨時(shí)間變化的頻譜特性。時(shí)間量用橫軸表示,縱軸則表示語音信號(hào)的頻率 ,語音信號(hào)的能量用圖像的黑白度來表示,這樣就構(gòu)成了語譜圖。如圖 “ in 的語譜圖。黑帶部分表示聲道的諧振頻率,條紋圖形表示濁音部分,這是因?yàn)榇藭r(shí)的時(shí)域波形有周期性,在濁音的時(shí)間間隔內(nèi)圖形顯得很緊密。頻率 / k H . 5 1 1 . 5 2 2 . 5 3 3 . 5x 1 0 in 的語譜圖 射模型 聲道的終端是口和唇, 速度波 會(huì) 從聲道 模型 輸出,而語音 信號(hào) 則為 聲壓波,輻射阻抗 就是速度波和聲壓波的倒比 ,口唇的輻射效應(yīng) 就 可以用輻射阻抗來表 征 。如果認(rèn)為口唇張開的面積 非常小, 頭部的表面積 遠(yuǎn)遠(yuǎn)大于 口唇張開的面積, 則可推測(cè)出下面的 輻射阻抗 的 公式 23: 2 語音轉(zhuǎn)換基礎(chǔ)及原理 11() j j L (其中,21289R , 83aL c ,這里 a 表示成口唇開口 半徑, c 作為 聲波傳播速度。 由 于輻射阻抗 實(shí)部 和因 輻射 而產(chǎn)生 的能量損耗 成正比例關(guān)系 ,并且研究表明,口唇端的輻射效應(yīng)在高頻段 影響 較為明顯,而在低頻段影響 則 較小。因此,輻射模型可以用高通濾波器來表示成 : 1( ) 1R z (其中, 1r 。 字模型 前面分別討論得到語音信號(hào)激勵(lì)模型 ()道模型 ()并且知道其級(jí)聯(lián)組合形式為零極點(diǎn)模型。因此,語音信號(hào)產(chǎn)生的完整模型可以用 3 個(gè)子模型級(jí)聯(lián)而成, 如圖 示即為語音信號(hào)的數(shù)學(xué)模型表示。這樣 語音信號(hào)數(shù) 學(xué) 模型的傳遞函數(shù) 列式子表示為: H z A U z V z R z ( 其中, A 是加權(quán)系數(shù), 1n。 周 期 脈 沖 發(fā)生 器聲 門 脈 沖 模型 G ( z )隨 機(jī) 噪 聲 發(fā) 生 器A vA 模 型V ( z )輻 射 模 型R ( z )語音信號(hào)基 音周 期激 勵(lì) 模 型聲 道 參 數(shù)圖 音信號(hào)生成的數(shù)學(xué)模型 音轉(zhuǎn)換的系統(tǒng)框架 說話人語音信號(hào)中含有諸多不同的信息,如說話的內(nèi)容、說話人的個(gè)性化特征、以及說話人所處的說話環(huán)境等等。其中,說話人的個(gè)性化特征是指與 說話人自身身份相關(guān)的聲音方面的特征,而與具體的說話內(nèi)容和說話人所處的說話環(huán)境沒有關(guān)系。前面我們講到說話人語音轉(zhuǎn)換的目的就是要保持說話人原有的語義信息不變,而改變說話人語音2 語音轉(zhuǎn)換基礎(chǔ)及原理 12中所具有的個(gè)性化的信息,使其聽起來像是另一個(gè)人在說話。 我們要達(dá)到這樣一個(gè)語音轉(zhuǎn)換效果,首先要提取能表征 說話人 各方面特點(diǎn)的聲學(xué)特征參數(shù)。 然后 ,對(duì)聲學(xué)特征參數(shù)進(jìn)行轉(zhuǎn)換, 再用 轉(zhuǎn)換 后的聲學(xué)特征參數(shù)合成出新的 , 接近于目標(biāo) 說話人 的語音。 為了能很好地 完成這樣一個(gè)語音轉(zhuǎn)換,一般我們將這樣一個(gè)轉(zhuǎn)換過程分成兩部分,訓(xùn)練和轉(zhuǎn)換兩個(gè)部分,如圖 示語音轉(zhuǎn)換系 統(tǒng)的轉(zhuǎn)換原理。 源 說 話 人 語 音 提 取 特 征 參 數(shù)目 標(biāo) 說 話 人 語 音 提 取 特 征 參 數(shù)訓(xùn)練匹 配函 數(shù)源 說 話 人 語 音 提 取 特 征 參 數(shù) 語 音 轉(zhuǎn) 換 語 音 合 成訓(xùn)練階段轉(zhuǎn)換階段圖 音轉(zhuǎn)換系統(tǒng)框架 其中訓(xùn)練階段的主要任務(wù)就是要找出源說話人與目標(biāo)說話人語音的個(gè)性化特征參數(shù),并找出兩者特征參數(shù)序 列 之間的對(duì)應(yīng)關(guān)系。 其 過程為 先是 分析源說話人的訓(xùn)練語音和目標(biāo)說話人的訓(xùn)練語音,然后對(duì)分析后的語音進(jìn)行特征參數(shù)的提取。最后對(duì)每個(gè)特征參數(shù)序列分別進(jìn)行訓(xùn)練,得到轉(zhuǎn)換規(guī)則,即建立源說話人和目標(biāo)說話人之間的匹配函數(shù)。 在轉(zhuǎn)換階段,首先對(duì)源說話 人 語音進(jìn)行分析并提取特征參數(shù),然后使用訓(xùn)練階段得到的匹配函數(shù),對(duì)源說話人的個(gè)性化 特征參數(shù)進(jìn)行轉(zhuǎn)換。最后再使用語音合成 方 法對(duì)轉(zhuǎn)換后的特征參數(shù)進(jìn)行語音合成,從而使得合成后的語音具有目標(biāo)說話人的個(gè)性化特征。 由語音轉(zhuǎn)換的系統(tǒng)框架圖中可以知道,語音轉(zhuǎn)換的關(guān)鍵技術(shù)主要表現(xiàn)在以下幾個(gè)方面: 選取說話人語音特征參數(shù) 。 無論在訓(xùn)練階段還是在轉(zhuǎn)換階段都必須對(duì)語音特征參數(shù)進(jìn)行提取,并且在以后的轉(zhuǎn)換和合成 中都要用到這些語音特征參數(shù),所以,提取說話人語音特征參數(shù)這一點(diǎn)需引起足夠的重視。若是說話人的個(gè)性化特征不能由選取的說話人語音特征參數(shù)很好的反映出來,就會(huì)出現(xiàn)轉(zhuǎn)換后合成語音跟目標(biāo) 語音出現(xiàn)大的偏差的問題,因此必須選取影響 說話人 音色的主要 特征 參數(shù) 來進(jìn)行轉(zhuǎn)換。 訓(xùn)練出匹配函數(shù)。 據(jù)上所知,之所以需要利用訓(xùn)練階段對(duì)特征參數(shù)進(jìn)行訓(xùn)練,其目的就是為了找出源說話人 個(gè)性特征參數(shù)與 目標(biāo) 說話人 個(gè)性特征參數(shù)之間的轉(zhuǎn)換規(guī)則,建立 兩者 之間的匹配函數(shù),這 就 是語音轉(zhuǎn)換的核心所在。 其實(shí),兩者之間的轉(zhuǎn)換規(guī)則實(shí)際上就是它們的個(gè)性化特征參數(shù)集之間的一種映射關(guān)系,其中,源語音特征參數(shù)集是原2 語音轉(zhuǎn)換基礎(chǔ)及原理 13像,目標(biāo)語音參數(shù)集就是像。通過建立不同模型對(duì)參數(shù)集進(jìn)行訓(xùn)練,尋找到最優(yōu)的映射函數(shù)來確定原像和像之間的對(duì)應(yīng)關(guān)系,也即兩者的匹配函數(shù)。 合成語音 。 因?yàn)檗D(zhuǎn)換的是代表語音個(gè)性化的特征參數(shù),所以需要對(duì) 轉(zhuǎn)換后的特征參數(shù) 進(jìn)行語音合成,使合成后的語音 具有目標(biāo)說話人 的 個(gè)性特征,這就是語音合成。合成后的語音不僅要求不單調(diào),具有目標(biāo)說話人的個(gè)性化特征,還要有較 好的語音質(zhì)量,即要求語音相對(duì)清晰自然。這就對(duì)語音合成模型要求比較高,需要合成模型盡可能的精確?,F(xiàn)今的語音合成技術(shù)用得比較多的是 法,相較于 共振峰合成器,其語音合成效果更好。另外 音分析合成模型也受到越來越多的關(guān)注。 話人語音轉(zhuǎn)換效果評(píng)價(jià)方法 對(duì)于評(píng)價(jià)說話人 語音轉(zhuǎn) 換 的 效果 也是 整個(gè)語音轉(zhuǎn)換系統(tǒng) 的其中一部分,評(píng)價(jià) 語音轉(zhuǎn)換 的 效果 可以幫助不斷的改進(jìn)構(gòu)建的語音轉(zhuǎn)換系統(tǒng)。語音中是包含很多不同因素的,經(jīng)過轉(zhuǎn)換后合成 出的語音的效果自然就可以有很多的評(píng)判因素,針對(duì)不同的評(píng)判因素就設(shè)定出了不同的評(píng)價(jià)標(biāo)準(zhǔn)。只有根據(jù)不同的評(píng)價(jià)標(biāo)準(zhǔn)改進(jìn)語音轉(zhuǎn)換系統(tǒng)各方面性能進(jìn)行,才能從整體上提高語音轉(zhuǎn)換的質(zhì)量。語音轉(zhuǎn)換質(zhì)量的評(píng)價(jià)方法主要分為主觀評(píng)價(jià)方法和客觀評(píng)價(jià)方法 21。 觀評(píng)價(jià) 語音 是說話人發(fā)出的聲音,也是說給人聽,讓人辨識(shí)的。所以縱使是經(jīng)過轉(zhuǎn)換的語音也終將是為了服務(wù)于人的,那人對(duì)轉(zhuǎn)換后語 音的主觀評(píng)價(jià)自然是一個(gè)非常重要的標(biāo)準(zhǔn)。主觀評(píng)價(jià)語音轉(zhuǎn)換后的效果用得比較普遍的主要有以下三種方法: 1、 試 在主觀評(píng)價(jià)方法中, 最常用的一種主觀測(cè)試手段就是 試 方法 。 試 方法 是針對(duì)語音本身的,在 試中, A 代表 源說話人的語音, B 代表 與之相對(duì)應(yīng)的目標(biāo)說話人的語音, X 表示通過語音轉(zhuǎn)換系統(tǒng)轉(zhuǎn)換 后得到 的語音。 試方法 通過 眾多測(cè)聽人員 主觀聽覺判斷轉(zhuǎn)換后的語音 在個(gè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 IEC 63522-2:2025 EN-FR Electrical relays - Tests and measurements - Part 2: Mechanical tests and weighing
- 2025至2030中國特種水產(chǎn)配合飼料行業(yè)市場(chǎng)現(xiàn)狀分析及競(jìng)爭(zhēng)格局與投資發(fā)展報(bào)告
- 汽車服務(wù)顧問培訓(xùn)課件
- 教育數(shù)據(jù)備份與恢復(fù)策略研究
- 商業(yè)培訓(xùn)中的教育游戲化案例與實(shí)踐
- 教育理論與實(shí)踐共同推動(dòng)商業(yè)繁榮
- 教育領(lǐng)導(dǎo)者的前沿探索-科技創(chuàng)新實(shí)驗(yàn)室剖析
- 商業(yè)培訓(xùn)中激發(fā)學(xué)員學(xué)習(xí)動(dòng)力的技巧分享
- 教育新紀(jì)元內(nèi)窺鏡在護(hù)理人才培養(yǎng)中的實(shí)踐
- 機(jī)器人教學(xué)助手在數(shù)學(xué)教育的探索與實(shí)踐
- 第1課+中國古代政治制度的形成與發(fā)展(情境化教學(xué)課件)+歷史統(tǒng)編版選擇性必修1
- 輕型卒中臨床診療中國專家共識(shí)解讀
- 安全生產(chǎn)知識(shí)培訓(xùn)試題及答案
- 2025玉林市陸川縣事業(yè)單位考試歷年真題
- 2025年河北省中考?xì)v史試卷(含答案解析)
- 【課件】運(yùn)動(dòng)的描述.課件-2024-2025學(xué)年人教版物理八年級(jí)上冊(cè)
- 大集擺攤招商方案(3篇)
- 浙江心理b證考試試題及答案
- 長(zhǎng)江三峽招聘面試題庫及答案
- 特色產(chǎn)業(yè)發(fā)展保證金合同
- 初二上冊(cè)物理知識(shí)點(diǎn)課件
評(píng)論
0/150
提交評(píng)論