人工智能安全:原理與實踐 課件 第14章 語音合成原理與實踐_第1頁
人工智能安全:原理與實踐 課件 第14章 語音合成原理與實踐_第2頁
人工智能安全:原理與實踐 課件 第14章 語音合成原理與實踐_第3頁
人工智能安全:原理與實踐 課件 第14章 語音合成原理與實踐_第4頁
人工智能安全:原理與實踐 課件 第14章 語音合成原理與實踐_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第14章語音合成原理與實踐14.1語音合成原理簡介本章介紹

語音合成指的是一種能夠利用給定輸入合成語音的技術(shù),即文本到語音(Text-to-Speech,TTS)或語音到語音轉(zhuǎn)換(VoiceConversion,VC)方法。本章主要介紹了人工智能合成音頻技術(shù)、Tacotron模型、梅爾譜圖、長短記憶網(wǎng)絡(luò)、混合注意力機制等,在實踐環(huán)節(jié)主要介紹基于Tacotron2的語音合成系統(tǒng)。1.人工智能合成音頻技術(shù)介紹2022年江蘇衛(wèi)視跨年晚會上,一身優(yōu)雅紅色裙裝的鄧麗君與周深一起演繹了《小城故事》,《漫步人生路》,《大魚》3首歌,讓不少觀眾直呼感動。1.人工智能合成音頻技術(shù)介紹人工智能合成音頻技術(shù)是一種深度偽造技術(shù),它可以克隆一個人的聲音,并生成該人從未說過的話。具體來說,語音合成指的是一種能夠利用給定輸入合成語音的技術(shù),即文本到語音(Text-to-Speech,TTS)或語音到語音轉(zhuǎn)換(VoiceConversion,VC)方法。TTS方法可以從給定的輸入文本中合成自然的說話人聲音,而VC方法則通過修改源說話人的音頻波形,使其聽起來像目標(biāo)說話人的聲音,同時保持語音內(nèi)容不變。1.人工智能合成音頻技術(shù)介紹音合成技術(shù)主要包括兩個步驟:文本分析和聲音合成。文本分析階段涉及將輸入的文本轉(zhuǎn)換為語音合成的內(nèi)部表示,包括文本規(guī)范化、詞性標(biāo)注、語義解析等。聲音合成階段則是將這些內(nèi)部表示轉(zhuǎn)換為聲音波形,最終輸出為人類可聽的語音。目前主流的方法是基于深度學(xué)習(xí)的語音合成方法。1.人工智能合成音頻技術(shù)介紹

語音合成流水線包含文本前端(TextFrontend)、聲學(xué)模型(AcousticModel)和聲碼器(Vocoder)三個主要模塊。語音合成基本流程圖:2.Tacotron模型介紹在人工智能合成音頻技術(shù)領(lǐng)域,目前應(yīng)用較為廣泛的是Tacotron系統(tǒng)。2017年3月,Google提出了一種新的端到端的語音合成系統(tǒng):Tacotron。該系統(tǒng)可以接收字符輸入并輸出相應(yīng)的原始頻譜圖,然后將其提供給Griffin-Lim重建算法直接生成語音。2.Tacotron模型介紹Tacotron后來研究出了改進(jìn)版Tacotron2。Tacotron2系統(tǒng)去除了CBHG模塊,更改為使用長短期記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)和卷積層來代替CBHG。3.梅爾譜圖

梅爾譜圖通過模擬人耳對頻率的感知方式,將音頻信號從線性頻率尺度轉(zhuǎn)換為梅爾頻率尺度,從而更好地反映人類對不同頻率的感知。它主要用于處理音頻信號,幫助分析和識別音頻內(nèi)容。3.梅爾譜圖梅爾譜圖生成過程:?(1)預(yù)處理音頻信號?:首先,音頻信號會被采樣,并分成多個重疊的短時間幀。每個幀通常持續(xù)20-40毫秒,并對每一幀施加窗函數(shù)以減少頻譜泄露。?(2)短時傅里葉變換(STFT)?:對每一幀進(jìn)行傅里葉變換,得到頻譜圖。這一步將信號從時間域轉(zhuǎn)換為頻率域,表示為頻率和時間的二維數(shù)組。?(3)計算功率譜?:從STFT的復(fù)數(shù)矩陣中計算功率譜,即將每個頻率成分的幅度平方,得到頻率成分的能量。?(4)應(yīng)用梅爾濾波器組?:使用梅爾濾波器組將功率譜從線性頻率尺度轉(zhuǎn)換到梅爾頻率尺度。這些濾波器是三角形的,覆蓋頻譜的不同頻率區(qū)域,每個濾波器的中心頻率根據(jù)梅爾刻度均勻分布。4.長短期記憶網(wǎng)絡(luò)在語音合成領(lǐng)域,由于輸入語句的某處發(fā)音通常決定于其上下文內(nèi)容,因此建模時需要關(guān)注長時間跨度的序列信息。卷積神經(jīng)網(wǎng)絡(luò)屬于前向神經(jīng)網(wǎng)絡(luò),即是單向的輸入到輸出映射,無法很好地獲取時序相關(guān)信息。因此在建模具有時間跨度的序列特征時,通常使用的結(jié)構(gòu)是RNN。但一般的RNN結(jié)構(gòu),由于梯度消失問題,能捕獲到的上下文內(nèi)容是有范圍限制的,故使用長短期記憶網(wǎng)絡(luò)LSTM。LSTM網(wǎng)絡(luò)內(nèi)部的核心構(gòu)件記憶細(xì)胞單元如圖14.5所示。記憶細(xì)胞單元內(nèi)部由胞狀態(tài)(CellState)、輸入門(InputGate)、輸出門(OutputGate)、遺忘門(ForgetGate)這四個部件構(gòu)成。4.長短期記憶網(wǎng)絡(luò)

LSTM網(wǎng)絡(luò)內(nèi)部的核心構(gòu)件記憶細(xì)胞單元如圖所示。記憶細(xì)胞單元內(nèi)部由胞狀態(tài)(CellState)、輸入門(InputGate)、輸出門(OutputGate)、遺忘門(ForgetGate)這四個部件構(gòu)成。5.混合注意力機制

注意力機制是一種人類大腦信號處理方法,被人類大腦用來快速篩選關(guān)鍵信息,它可以提高人類對信息處理的效率與準(zhǔn)確性。注意力機制也常被用于深度學(xué)習(xí)中的序列到序列模型中,使得模型能夠關(guān)注到輸入序列的關(guān)鍵信息。

注意力機制的有很多種,在Tacotron2中使用的是混合注意力機制(HbridAttention),它基于內(nèi)容的注意力機制(Content-basedAttention)與基于位置的注意力機制(Location-basedAttention)有效地結(jié)合起來。

6.編碼器-解碼器結(jié)構(gòu)在語音合成系統(tǒng)中,輸入序列(文本)與輸出序列(音頻)的長度往往是不一致的,不能直接將輸入序列的每個字符與目標(biāo)發(fā)音進(jìn)行一一對應(yīng),為此需使用編碼器-解碼器(Encoder-Decoder)結(jié)構(gòu)。7.聲碼器聲碼器(Vocoder)在人工語音合成中經(jīng)常被用于將生成的語音特征轉(zhuǎn)換為所需要的語音波形。在Tacotron2中,由于前端的神經(jīng)網(wǎng)絡(luò)所預(yù)測出的梅爾譜圖只包含了幅值信息而缺乏相應(yīng)的相位信息,系統(tǒng)難以直接通過短時傅里葉變換(STFT)的逆變換將梅爾譜圖還原為相應(yīng)的聲音波形文件;因此,系統(tǒng)需要使用聲碼器進(jìn)行相應(yīng)的相位估計,并將梅爾譜圖轉(zhuǎn)換為語音波形。小結(jié)

人工智能合成音頻技術(shù)(簡稱語音合成技術(shù))是一種深度偽造技術(shù),它可以克隆一個人的聲音,并生成該人從未說過的話。TTS方法可以從給定的輸入文本中合成自然的說話人聲音,而VC方法則通過修改源說話人的音頻波形,使其聽起來像目標(biāo)說話人的聲音,同時保持語音內(nèi)容不變。本小節(jié)主要介紹人工智能合成音頻時用到的相關(guān)技術(shù)。祝同學(xué)們學(xué)習(xí)進(jìn)步!致謝李劍博士,教授,博士生導(dǎo)師網(wǎng)絡(luò)空間安全學(xué)院lijian@January23,2025第14章語音合成原理與實踐14.2基于Tacotron2的語音合成實踐本章介紹本實踐能夠克隆一個人的聲音,并利用這個聲音說一些指定的話,但事實上這個人從來沒有說過。項目特別關(guān)注零樣本學(xué)習(xí)設(shè)置,即僅使用幾秒鐘未轉(zhuǎn)錄的目標(biāo)說話人的參考音頻生成新的語音,而不需要更新任何模型參數(shù)。1.系統(tǒng)結(jié)構(gòu)基于Tacotron2的語音合成主要由三個獨立的神經(jīng)網(wǎng)絡(luò)組成:(1)說話人編碼器網(wǎng)絡(luò)

在包含數(shù)千名說話人的帶噪聲數(shù)據(jù)集上進(jìn)行訓(xùn)練,不需要文本數(shù)據(jù)。它可以利用幾秒鐘的語音生成一個代表說話人特征的向量。說話人編碼器用于生成一個固定維度的嵌入向量(d-vector),這個向量表示了說話人的特征。它可以從目標(biāo)說話人的幾秒鐘參考語音中提取出這些特征。1.系統(tǒng)結(jié)構(gòu)(2)基于Tacotron2的序列到序列合成器

利用說話人特征向量,從文本生成梅爾頻譜圖(MelSpectrogram),用來表示音頻信號的頻率內(nèi)容的圖像。合成器根據(jù)輸入文本和說話人編碼器生成的嵌入向量生成高質(zhì)量的梅爾頻譜圖。梅爾頻譜圖(MelSpectrogram)是音頻信號的頻率域表示,顯示音頻信號在不同時間點上的頻率強度。1.系統(tǒng)結(jié)構(gòu)(3)基于WaveNet的自回歸聲碼器將梅爾頻譜圖轉(zhuǎn)換為時域波形(時域波形表示音頻信號隨時間變化的圖形,是音頻信號的原始形式),生成最終的語音信號。聲碼器將合成器生成的梅爾頻譜圖轉(zhuǎn)換為時域波形,生成最終的語音信號。2.實驗?zāi)繕?biāo)(1)學(xué)習(xí)和理解語音合成模型的基本原理(2)實現(xiàn)和理解TTS系統(tǒng)(3)了解模型訓(xùn)練3.實驗環(huán)境(1)學(xué)習(xí)4.實踐過程(1)下載安裝包(2)編寫Encode(編碼器)文件夾下的inference.py文件該文件用于執(zhí)行音頻嵌入的推理任務(wù),特別是對語音進(jìn)行特征提取和生成嵌入向量。該代碼使用了預(yù)訓(xùn)練的SpeakerEncoder模型,輸入音頻片段,生成用于說話人識別等任務(wù)的嵌入向量。4.實踐過程(3)編寫Synthesizer(合成器)文件夾下的inference.py文件該文件實現(xiàn)了一個基于Tacotron模型的文本到語音合成器類TextToSpeechSynthesizer。它主要負(fù)責(zé)加載訓(xùn)練好的Tacotron模型并使用它將文本輸入轉(zhuǎn)換為音頻的梅爾頻譜圖。該文件還提供了多個輔助函數(shù)來加載模型、處理音頻文件、生成梅爾頻譜圖、以及處理輸入數(shù)據(jù)的填充操作。4.實踐過程(4)編寫vocoder(聲碼器)文件夾inference.py文件。該文件加載并使用WaveRNN模型來生成語音波形。它通過`load_wave_rnn_model`函數(shù)加載模型權(quán)重,并根據(jù)設(shè)備選擇在CPU或GPU上運行。`is_wave_rnn_model_loaded`用于檢查模型是否已加載,`generate_waveform`函數(shù)根據(jù)輸入的梅爾頻譜圖生成語音波形,支持歸一化和批處理選項。4.實踐過程(5)編寫demo.py文件。該文件的功能是執(zhí)行文本到語音的合成,具體是通過加載語音編碼器、文本合成器和聲碼器模型,從輸入的語音文件生成語音特征文件,并根據(jù)用戶提供的文本進(jìn)行語音合成。代碼支持通過命令行參數(shù)指定模型路徑,并控制是否播放生成的音頻。5.實踐結(jié)果在實驗中,克隆samples文件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論