版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
南京郵電大學
通信與信息工程學院
第1章語音信號處理緒論為什么要學習這門課程語音信號處理發(fā)展概況本課程知識體系架構1.1為什么要學習這門課程語音信號處理的定義:語音信號處理是研究用數(shù)字信號處理技術對語音信號進行處理的一門學科語音信號處理需要數(shù)字信號處理和語音學兩方面的知識作為基礎。語音學是研究言語過程的一門科學,它包括:發(fā)音語音學、聲學語音學和聽覺語音學三大分支。1.1為什么要學習這門課程言語過程的五個階段:想說、說出、傳輸、接受、理解。1.1為什么要學習這門課程語音處理技術的應用極其廣泛,包括:工業(yè)、軍事、交通、醫(yī)學、民用等各個領域。語音識別具有十分廣泛的應用:
①可以進行聲控應用;②VoiceActivatedDialing(VAD)語音撥號;③可以用于自動口語翻譯(實現(xiàn)不同語言之間的直接通信);④可以將語音識別與語音合成技術相結合,構成一種超低比特率的語音通信系統(tǒng)。
1.1為什么要學習這門課程說話人識別已在安全加密、銀行信息電話查詢服務等方面得到了應用,此外在公安機關破案和法庭取證方面可以應用。語種辨識在軍事情報工作、國家安全事務中有重要應用。語音合成技術的一個應用實例,是計算機語聲應答系統(tǒng)。語音編碼技術的根本作用是使語音通信數(shù)字化。語音增強系統(tǒng)的基本應用是去混響,或去回聲,消除噪聲,或從潛水員使用的氦氧混合氣體下的發(fā)音中恢復出可懂的語音等。
1.1為什么要學習這門課程1.語音是人類最重要、最有效、最常用和最方便的交換信息的方式;2.語音信號處理技術已在辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)得到了廣泛應用,并已成為當前主流操作系統(tǒng)和應用程序中人機交互的重要手段。3.語音信號技術始終與當時信息科學中最活躍的前沿學科保持密切的聯(lián)系,并且一起發(fā)展。1.1為什么要學習這門課程1.語音是人類最重要、最有效、最常用和最方便的交換信息的方式;2.語音信號處理技術已在辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)得到了廣泛應用,并已成為當前主流操作系統(tǒng)和應用程序中人機交互的重要手段。3.語音信號技術始終與當時信息科學中最活躍的前沿學科保持密切的聯(lián)系,并且一起發(fā)展。為什么要學習這門課程語音信號處理發(fā)展概況本課程知識體系架構1.2語音信號處理技術發(fā)展概況20世紀40年代~60年代(萌芽階段)(1)可追溯到1940年前后Dudley的聲碼器,其從語音中提取參數(shù)加以傳輸,在收端重新合成語音。即,產生“語音參數(shù)模型”了思想;
(2)1952年貝爾實驗室研制成功能識別10個英文數(shù)字的實驗裝置;(3)1956年Olsen等人采用8個帶通濾波器組提取頻譜參數(shù),研制成功最早的語音打字機;(4)數(shù)字信號處理技術(數(shù)字濾波器,F(xiàn)FT等)快速發(fā)展,成為語音信號處理理論和技術的基礎。1.2語音信號處理技術發(fā)展概況20世紀70年代~80年代(信號分析與處理階段)(1)1971年,美國ARPA主導的“語音理解系統(tǒng)”研究計劃開始啟動,促進了語音識別研究的興起;
(2)70年代初,動態(tài)時間規(guī)整技術(DTW)用于語音識別;(3)70年代中期,線性預測技術(LPC)技術用于語音信號分析;(4)70年代末,矢量量化技術(VQ)用于語音編碼。(5)80年代,Baum等提出隱馬爾可夫模型(HMM),后被Baker等用于語音識別中,取得巨大成功。1.2語音信號處理技術發(fā)展概況20世紀90年代(向傳統(tǒng)人工智能過渡階段)(1)語音識別逐漸由實驗室走向實用化:對聲學語音學統(tǒng)計模型研究逐漸深入,講者自適應/聽覺模型/語言模型也備受關注;
(2)以PSOLA為代表的波形拼接語音合成方法得到廣泛應用;(3)出現(xiàn)了4~8kbit/s的波形與參數(shù)混合語音編碼器;(4)以找出包含在語音信號中的說話人個性因素以及情感因素的說話人識別方法,語音信號的情感信息處理等方向開始興起。(5)語音增強與去噪技術,盲分離技術受到關注。1.2語音信號處理技術發(fā)展概況2000年~2020年(以深度學習為代表的人工智能主導階段)(1)2006年,Hinton等人提出了深度學習技術;
(2)2010年,深度學習技術首先被應用于語音識別系統(tǒng),在各項任務上大幅提升了識別準確率;(3)2010年后,卷積神經網絡、循環(huán)神經網絡、注意力機制、生成對抗網絡、Transformer等深度學習技術進一步發(fā)展;(4)深度學習技術已應用于語音識別、語音合成、語音編碼、語音情感信息處理等各個方向上,均取得了很好的效果。1.2語音信號處理技術發(fā)展概況2020年后(多模態(tài)語音信號處理階段)(1)文本、圖像、視頻、觸覺、運動、生理等數(shù)據(jù)采集手段豐富,上述模態(tài)信息與語音信號深度融合;
(2)將其他模態(tài)信息引入語音信號處理各方向、各任務中,進一步提升了語音信號處理系統(tǒng)的性能,產生了“多模態(tài)語音信號處理”這一新方向。(3)2020年南京郵電大學周亮教授團隊提出的跨模態(tài)通信與信息恢復技術,極大提升了包括語音在內的多模態(tài)信息的傳輸與處理效率。為什么要學習這門課程語音信號處理發(fā)展概況本課程知識體系架構1.3本課程知識體系架構模塊一:基礎知識(Chapter2~3)(1)語音信號處理的基礎知識(2)語音信號處理的常用算法模塊二:分析方法(Chapter4)(1)語音信號的時域和頻域分析(2)語音信號的倒譜和線性預測分析模塊三:特征提取技術(Chapter5)語音信號的端點檢測、基音周期、共振峰估計模塊四:典型處理技術(Chapter6~10)語音增強、語音識別、說話人識別、語音編碼、語音合成模塊五:前沿技術(Chapter11~13)語音信號情感處理、聲源定位、多模態(tài)語音信號處理1.3教材2003年4月第一版,2009年6月第二版,2016年5月第三版,2024年
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 表示團結的詞語一年級
- 微山二中高二年級2024-2025學年階段性測試1月份數(shù)學試題 微山二中高二年級2024-2025學年階段性測試1月份數(shù)學試題
- 【優(yōu)化方案】2022屆高三政治大一輪復習-必修3第2單元第5課文化創(chuàng)新-教學講義-
- 【-學案導學設計】2020-2021學年高中物理(人教版-選修3-1)第1章-第5節(jié)-課時作業(yè)
- 云南省騰沖四中學2014-2021學年高二上學期期中考試生物試卷(無答案)
- 【Ks5u發(fā)布】江蘇省徐州市2021屆高三第三次質量檢測-地理-掃描版含答案
- 【走向高考】2022屆高三物理人教版一輪復習習題:第9章-第3講電磁感應中的綜合應用
- 五年級數(shù)學(小數(shù)四則混合運算)計算題專項練習及答案
- 一年級數(shù)學(上)計算題專項練習集錦
- 四年級數(shù)學(除數(shù)是兩位數(shù))計算題專項練習及答案
- 第三方代付工程款協(xié)議書范本
- 烈士遺屬救助申請書
- 外研版英語九年級上冊 Module1-12作文范文
- 南京市七年級上冊地理期末試卷(含答案)
- 足球課程教學計劃工作總結
- 家具成品檢驗通用標準
- 粉末涂料有限公司成品裝車作業(yè)安全風險分級管控清單
- 諾基亞4G基站配置及常見故障處理課件
- 運輸類工作簡歷
- 煤礦施工巷道布置及支護設計方案
- 施工升降機卸料平臺計算書
評論
0/150
提交評論