《人工智能應(yīng)用概論》課件第5章智能語(yǔ)音技術(shù)_第1頁(yè)
《人工智能應(yīng)用概論》課件第5章智能語(yǔ)音技術(shù)_第2頁(yè)
《人工智能應(yīng)用概論》課件第5章智能語(yǔ)音技術(shù)_第3頁(yè)
《人工智能應(yīng)用概論》課件第5章智能語(yǔ)音技術(shù)_第4頁(yè)
《人工智能應(yīng)用概論》課件第5章智能語(yǔ)音技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、人工智能應(yīng)用概論第5章 智能語(yǔ)音技術(shù)PART1智能語(yǔ)音技術(shù)的概念 創(chuàng)新中國(guó)是由中央電視臺(tái)聯(lián)合深圳市委宣傳部于2018年1月22日推出的一部紀(jì)錄片,該片主要講述了最新科技成就和創(chuàng)新精神,用鮮活的故事記錄中國(guó)偉大的創(chuàng)新實(shí)踐。 這部聚焦前沿科學(xué)突破與科技熱點(diǎn),以鮮活故事記錄當(dāng)下中國(guó)創(chuàng)新實(shí)踐的紀(jì)錄片,還以一種特殊的方式聯(lián)結(jié)科技與人文:利用智能語(yǔ)音和人工智能技術(shù),讓已逝的著名配音藝術(shù)家李易老師的聲音重現(xiàn)熒幕,完成了整部紀(jì)錄片的配音。這也是全球第一部全篇采用人工智能配音的紀(jì)錄片?!景咐?.1 智能語(yǔ)音技術(shù)的概念1.1.1 自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)

2、廣義上來(lái)講智能語(yǔ)音技術(shù)有各種各樣的定義,以上是常見(jiàn)的一些熱門的場(chǎng)景。本書重點(diǎn)介紹語(yǔ)音識(shí)別技術(shù)(ASR)。 自動(dòng)語(yǔ)音識(shí)別是指讓機(jī)器識(shí)別人說(shuō)出的話,即將語(yǔ)音轉(zhuǎn)換成相應(yīng)的文本內(nèi)容,然后根據(jù)內(nèi)容信息執(zhí)行人的某種意圖。自動(dòng)語(yǔ)音識(shí)別又稱自動(dòng)言語(yǔ)識(shí)別,這項(xiàng)任務(wù)涉及將輸入聲學(xué)信號(hào)與存儲(chǔ)在計(jì)算機(jī)內(nèi)存的詞表(語(yǔ)音、音節(jié)、詞等)相匹配,而匹配個(gè)別語(yǔ)詞的標(biāo)準(zhǔn)技術(shù)則要用輸入信號(hào)與預(yù)存的波形(或波形特征/參數(shù))相比較(模型匹配)。1.1 智能語(yǔ)音技術(shù)的概念1.1.2 聲紋識(shí)別(Voiceprint Recognition,VR) 聲紋識(shí)別,生物識(shí)別技術(shù)的一種,也稱為說(shuō)話人識(shí)別,包括說(shuō)話人辨認(rèn)和說(shuō)話人確認(rèn)。聲紋識(shí)別就是把聲

3、信號(hào)轉(zhuǎn)換成電信號(hào),再用計(jì)算機(jī)進(jìn)行識(shí)別。不同的任務(wù)和應(yīng)用會(huì)使用不同的聲紋識(shí)別技術(shù),如縮小刑偵范圍時(shí)可能需要辨認(rèn)技術(shù),而銀行交易時(shí)則需要確認(rèn)技術(shù)。 聲紋識(shí)別有兩種應(yīng)用場(chǎng)景: 1:1驗(yàn)證(簡(jiǎn)稱驗(yàn)證, Verification), 比如顯示為女朋友/老婆的電話號(hào)打來(lái), 接聽(tīng)之后發(fā)現(xiàn)聲音不是她, 那就讓人緊張; 1:n驗(yàn)證(又稱識(shí)別, Identification), 比如陌生電話打來(lái), 對(duì)方說(shuō)一句字面上沒(méi)有任何意義的老王, 是我啊, 如果真是熟人, 你就能很快辨得TA的身份, 如果認(rèn)為不是, 那就有可能是某省的人打來(lái)的了。1.1 智能語(yǔ)音技術(shù)的概念1.1.3 語(yǔ)音合成(Text to Speech,T

4、TS)語(yǔ)音合成,又稱文語(yǔ)轉(zhuǎn)換(Text to Speech)技術(shù),能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語(yǔ)音朗讀出來(lái),相當(dāng)于給機(jī)器裝上了人工嘴巴。1.1 智能語(yǔ)音技術(shù)的概念1.1.4 機(jī)器翻譯源語(yǔ)言-目標(biāo)語(yǔ)言。產(chǎn)品形態(tài)主要有三大類;翻譯機(jī)、翻譯手機(jī)和翻譯耳機(jī)。1.1 智能語(yǔ)音技術(shù)的概念1.1.5 對(duì)話機(jī)器人對(duì)話機(jī)器人歷史悠久,從1966年MIT的精神治療師機(jī)器人ELIZA到現(xiàn)在已有半個(gè)世紀(jì)。針對(duì)用戶不同類型的問(wèn)題,常見(jiàn)的對(duì)話機(jī)器人有如下幾種類型:檢索型單輪對(duì)話機(jī)器人:簡(jiǎn)單問(wèn)題的提問(wèn)和回答;知識(shí)圖譜型機(jī)器人:知識(shí)圖譜型機(jī)器人(KG-Bot,也稱為問(wèn)答系統(tǒng)),利用知識(shí)圖譜進(jìn)行推理并回答一些事實(shí)型問(wèn)題

5、。任務(wù)型多輪對(duì)話機(jī)器人:任務(wù)型多輪機(jī)器人(Task-Bot)通過(guò)多次與用戶對(duì)話交互來(lái)輔助用戶完成某項(xiàng)明確具體的任務(wù)。閑聊型機(jī)器人:真實(shí)應(yīng)用中,用戶與系統(tǒng)交互的過(guò)程中不免會(huì)涉及到閑聊成分。閑聊功能可以讓對(duì)話機(jī)器人更有情感和溫度。1.1 智能語(yǔ)音技術(shù)的概念1.1.6 聲學(xué)事件檢測(cè) 聲學(xué)事件檢測(cè)是指對(duì)連續(xù)音頻信號(hào)流中具有明確語(yǔ)義的片段進(jìn)行檢測(cè)與標(biāo)定的過(guò)程。它是機(jī)器對(duì)環(huán)境聲音場(chǎng)景進(jìn)行識(shí)別和語(yǔ)義理解的重要基礎(chǔ),并將在未來(lái)類人機(jī)器人聲音環(huán)境的語(yǔ)義理解、無(wú)人車行車周邊環(huán)境的聲音感知等方面發(fā)揮重要的作用。1.2 語(yǔ)音識(shí)別發(fā)展歷程概述 語(yǔ)音識(shí)別技術(shù)的研究起始于20世紀(jì)50年代,由于受到當(dāng)時(shí)計(jì)算能力的限制,直到2

6、0世紀(jì)70年代才出現(xiàn)了一些實(shí)驗(yàn)性研究成果。自21世紀(jì)以來(lái),語(yǔ)音識(shí)別技術(shù)取得了許多突破,并得到了廣泛的應(yīng)用。當(dāng)前,盡管語(yǔ)音識(shí)別技術(shù)相對(duì)成熟,但在大規(guī)模語(yǔ)音語(yǔ)料的實(shí)時(shí)采集與精準(zhǔn)標(biāo)注、特定語(yǔ)種的音素集設(shè)計(jì)與優(yōu)化、語(yǔ)音識(shí)別的魯棒性增強(qiáng)等方面依然面臨諸多難題。1.2 語(yǔ)音識(shí)別發(fā)展歷程 1952年,美國(guó)貝爾實(shí)驗(yàn)室的Davis等人率先研制出了一個(gè)針對(duì)特定人的獨(dú)立數(shù)字識(shí)別系統(tǒng),該系統(tǒng)能夠成功識(shí)別10個(gè)英語(yǔ)數(shù)字1956年,Olson和Belar開(kāi)發(fā)出的系統(tǒng)能夠識(shí)別10個(gè)不同音節(jié),1959年Fry和Denes開(kāi)發(fā)的識(shí)別系統(tǒng)能夠識(shí)別9個(gè)輔音和4個(gè)元音,他們利用模板匹配技術(shù)和譜分析技術(shù)進(jìn)一步改善了音素的識(shí)別精度。同期

7、,在美國(guó)麻省理工學(xué)院(MIT)林肯實(shí)驗(yàn)室設(shè)計(jì)的ForgieandForgie元音識(shí)別系統(tǒng)利用帶通濾波器能夠針對(duì)非特定人識(shí)別10個(gè)元音。1.2 語(yǔ)音識(shí)別發(fā)展歷程 20世紀(jì)60年代初,F(xiàn)aut和Stevens等人對(duì)語(yǔ)音生成的理論方法進(jìn)行了探索性研究。1962年,東京大學(xué)的Doshita和Sakai通過(guò)分析語(yǔ)音的過(guò)零率識(shí)別不同的音素,設(shè)計(jì)開(kāi)發(fā)了一種硬件實(shí)現(xiàn)的音素識(shí)別系統(tǒng),同期,他們推出了對(duì)近30年來(lái)的語(yǔ)音識(shí)別技術(shù)產(chǎn)生了巨大影響的三個(gè)研究項(xiàng)目。RCA實(shí)驗(yàn)室的研究人員Martin提出了基于語(yǔ)音信號(hào)端點(diǎn)檢測(cè)的時(shí)間歸一化方法和能夠解決語(yǔ)音信號(hào)非勻速問(wèn)題的實(shí)用方法,顯著降低了語(yǔ)音識(shí)別得分的變化;Reddy在連

8、續(xù)語(yǔ)音識(shí)別領(lǐng)域進(jìn)行的開(kāi)創(chuàng)性研究在連續(xù)語(yǔ)音識(shí)別系統(tǒng)領(lǐng)域至今仍處于領(lǐng)先地位。1.2 語(yǔ)音識(shí)別發(fā)展歷程 20世紀(jì)70年代,語(yǔ)音識(shí)別研究領(lǐng)域又取得了一系列重大突破,孤立詞的識(shí)別已經(jīng)成為可能。模板匹配思想和動(dòng)態(tài)規(guī)劃方法在語(yǔ)音識(shí)別中得到了應(yīng)用,ltakura將低比特率條件下的語(yǔ)音編碼的LPC技術(shù)應(yīng)用擴(kuò)展到了語(yǔ)音識(shí)別領(lǐng)域,AT&T貝爾實(shí)驗(yàn)室開(kāi)展了針對(duì)非特定人語(yǔ)音識(shí)別的實(shí)驗(yàn),生成非特定人模型的技術(shù)得到了普遍認(rèn)同與廣泛應(yīng)用。1.2 語(yǔ)音識(shí)別發(fā)展歷程 20世紀(jì)80年代的標(biāo)志性成果就是統(tǒng)計(jì)建模方法,研究重點(diǎn)由模板匹配方法逐步向統(tǒng)計(jì)建模方法轉(zhuǎn)變,特別是HMM被廣泛應(yīng)用到語(yǔ)音識(shí)別研究中。20世紀(jì)80年代中期,HMM模型

9、被世界各國(guó)的語(yǔ)音識(shí)別研究者所熟悉和采納,神經(jīng)網(wǎng)絡(luò)也成為了一個(gè)新的研究方向,該時(shí)期對(duì)神經(jīng)網(wǎng)絡(luò)技術(shù)的優(yōu)點(diǎn)和局限性以及該技術(shù)與經(jīng)典的信號(hào)分類方法之間的關(guān)系有了深刻的理解,由此促進(jìn)了神經(jīng)網(wǎng)絡(luò)技術(shù)在語(yǔ)音識(shí)別領(lǐng)域的應(yīng)用。20世紀(jì)80年代后期,人們開(kāi)始研制大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng),主要研究成果多得益于美國(guó)DAPRA的支持,研究機(jī)構(gòu)主要有CMU、林肯實(shí)驗(yàn)室、SRI、MIT和ATT貝爾實(shí)驗(yàn)室。1.2 語(yǔ)音識(shí)別發(fā)展歷程 進(jìn)入20世紀(jì)90年代,語(yǔ)音識(shí)別研究的成果開(kāi)始走出實(shí)驗(yàn)室,并且達(dá)到了商用目的。這一時(shí)期的研究熱點(diǎn)包括魯棒的語(yǔ)音識(shí)別、基于語(yǔ)音段的建模方法、聲學(xué)語(yǔ)音學(xué)統(tǒng)計(jì)模型、隱馬爾可夫模型與人工神經(jīng)網(wǎng)絡(luò)的結(jié)合等,而

10、研究重點(diǎn)集中在聽(tīng)覺(jué)模型、講者自適應(yīng)、快速搜索識(shí)別算法及語(yǔ)言模型。同期,最大似然線性回歸(MLLR)、最大后驗(yàn)概率準(zhǔn)則估計(jì)(MAP)、以決策樹(shù)狀態(tài)聚類等算法被提出和應(yīng)用,進(jìn)一步提升了系統(tǒng)的性能,由此催生了一批商用語(yǔ)音識(shí)別系統(tǒng),比如DragonSystem公司的Naturally Speaking、IBM公司的ViaVoice、Microsoft公司的Whisper、Nuance公司的NuanceVoicePlatform語(yǔ)音平臺(tái)、Sun公司的VoiceTone等。在美國(guó)DARPA和NIST研究計(jì)劃的推動(dòng)下,更多新的語(yǔ)音識(shí)別任務(wù)被不斷嘗試并取得了更優(yōu)的識(shí)別性能,當(dāng)前國(guó)外的相關(guān)應(yīng)用系統(tǒng)以Apple公

11、司推出的Siri為龍頭。1.2 語(yǔ)音識(shí)別發(fā)展歷程 21世紀(jì)以來(lái),語(yǔ)音識(shí)別在技術(shù)突破和應(yīng)用研究?jī)煞矫娌粩嗌钊?。在置信度和句子確認(rèn)方面提出了針對(duì)口語(yǔ)的健壯性語(yǔ)音識(shí)別,這些技術(shù)對(duì)處理復(fù)雜的病句非常有效。利用區(qū)分性訓(xùn)練技術(shù)訓(xùn)練聲學(xué)模型也取得了顯著的效果。在實(shí)際應(yīng)用方面,語(yǔ)音搜索、綜合音頻和視頻的多模態(tài)語(yǔ)音識(shí)別技術(shù)受到廣泛關(guān)注。 隨著計(jì)算機(jī)技術(shù)和信號(hào)處理技術(shù)的快速發(fā)展,健壯性語(yǔ)音識(shí)別已達(dá)到真正意義上的應(yīng)用,能夠?qū)崿F(xiàn)自由的人機(jī)交互。當(dāng)前,作為人機(jī)交互接口的關(guān)鍵技術(shù),自動(dòng)語(yǔ)音識(shí)別已成為信息技術(shù)領(lǐng)域最為關(guān)注的技術(shù)之一,并逐漸形成一個(gè)頗具競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè),自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化水平將成為未來(lái)的研究重點(diǎn)。

12、1.3 智能語(yǔ)音的應(yīng)用場(chǎng)景概述 智能語(yǔ)音技術(shù)是最早落地的人工智能技術(shù),也是市場(chǎng)上眾多人工智能產(chǎn)品中應(yīng)用最為廣泛的。 伴隨著人工智能的快速發(fā)展,中國(guó)在智能語(yǔ)音技術(shù)的專利數(shù)量持續(xù)增長(zhǎng),通過(guò)龐大的用戶群基礎(chǔ)以及互聯(lián)網(wǎng)系統(tǒng)優(yōu)勢(shì)明顯,國(guó)內(nèi)智能語(yǔ)音公司已經(jīng)占據(jù)一席之地。智能語(yǔ)音應(yīng)用的場(chǎng)景非常豐富,并已經(jīng)成熟地應(yīng)用在眾多領(lǐng)域中。1.3 智能語(yǔ)音的應(yīng)用場(chǎng)景1.3.1 智能家居 智能家居是以住宅為平臺(tái),利用綜合布線技術(shù)、網(wǎng)絡(luò)通信技術(shù)、 安全防范技術(shù)、自動(dòng)控制技術(shù)、音視頻技術(shù)將家居生活有關(guān)的設(shè)施集成,構(gòu)建高效的住宅設(shè)施與家庭日程事務(wù)的管理系統(tǒng),提升家居安全性、便利性、舒適性、藝術(shù)性,并實(shí)現(xiàn)環(huán)保節(jié)能的居住環(huán)境。1.

13、3 智能語(yǔ)音的應(yīng)用場(chǎng)景1.3.2 智能車載 智能車載系統(tǒng)讓汽車變得更智能,主要可以實(shí)時(shí)更新的地圖,通過(guò)語(yǔ)音識(shí)別技術(shù)方便導(dǎo)航,以及娛樂(lè)功能;實(shí)現(xiàn)手機(jī)遠(yuǎn)程控制,讓手機(jī)和汽車之間無(wú)縫對(duì)接。1.3 智能語(yǔ)音的應(yīng)用場(chǎng)景1.3.3 智能客服 智能客服是在大規(guī)模知識(shí)處理基礎(chǔ)上發(fā)展起來(lái)的一項(xiàng)面向行業(yè)應(yīng)用的,它具有行業(yè)通用性,不僅為企業(yè)提供了細(xì)粒度知識(shí)管理技術(shù),還為企業(yè)與海量用戶之間的溝通建立了一種基于自然語(yǔ)言的快捷有效的技術(shù)手段;同時(shí)還能夠?yàn)槠髽I(yè)提供精細(xì)化管理所需的統(tǒng)計(jì)分析信息。1.3 智能語(yǔ)音的應(yīng)用場(chǎng)景1.3.4 智能金融 智能金融即人工智能與金融的全面融合,以人工智能、大數(shù)據(jù)、云計(jì)算、區(qū)塊鏈等高新科技為核

14、心要素,全面賦能金融機(jī)構(gòu),提升金融機(jī)構(gòu)的服務(wù)效率,拓展金融服務(wù)的廣度和深度,使得全社會(huì)都能獲得平等、高效、專業(yè)的金融服務(wù),實(shí)現(xiàn)金融服務(wù)的智能化、個(gè)性化、定制化。1.3 智能語(yǔ)音的應(yīng)用場(chǎng)景1.3.5 智能教育 智能教育是指國(guó)家實(shí)施新一代人工智能發(fā)展規(guī)劃、中國(guó)教育現(xiàn)代化2035、高等學(xué)校人工智能創(chuàng)新行動(dòng)計(jì)劃等人工智能多層次教育體系的人工智能教育。1.3 智能語(yǔ)音的應(yīng)用場(chǎng)景1.3.6 智能醫(yī)療 智能醫(yī)療是通過(guò)打造健康檔案區(qū)域醫(yī)療信息平臺(tái),利用最先進(jìn)的物聯(lián)網(wǎng)技術(shù),實(shí)現(xiàn)患者與醫(yī)務(wù)人員、醫(yī)療機(jī)構(gòu)、醫(yī)療設(shè)備之間的互動(dòng),逐步達(dá)到信息化。PART2語(yǔ)音識(shí)別工作原理2.1 智能語(yǔ)音工作原理 首先,我們知道聲音實(shí)際

15、上是一種波。常見(jiàn)的mp3等格式都是壓縮格式,必須轉(zhuǎn)成非壓縮的純波形文件來(lái)處理,比如Windows PCM文件,也就是俗稱的wav文件。wav文件里存儲(chǔ)的除了一個(gè)文件頭以外,就是聲音波形的一個(gè)個(gè)點(diǎn)了。下圖是一個(gè)波形的示例。2.1 智能語(yǔ)音工作原理 在開(kāi)始語(yǔ)音識(shí)別之前,有時(shí)需要把首尾端的靜音切除,降低對(duì)后續(xù)步驟造成的干擾。這個(gè)靜音切除的操作一般稱為VAD,需要用到信號(hào)處理的一些技術(shù)。要對(duì)聲音進(jìn)行分析,需要對(duì)聲音分幀,也就是把聲音切開(kāi)成一小段一小段,每小段稱為一幀。分幀操作一般不是簡(jiǎn)單的切開(kāi),而是使用移動(dòng)窗函數(shù)來(lái)實(shí)現(xiàn)。幀與幀之間一般是有交疊的,就像下圖這樣: 圖中,每幀的長(zhǎng)度為25毫秒,每?jī)蓭g有

16、25-10=15毫秒的交疊。我們稱為以幀長(zhǎng)25ms、幀移10ms分幀。圖中,每幀的長(zhǎng)度為25毫秒,每?jī)蓭g有25-10=15毫秒的交疊。我們稱為以幀長(zhǎng)25ms、幀移10ms分幀。2.1 智能語(yǔ)音工作原理 分幀后,語(yǔ)音就變成了很多小段。但波形在時(shí)域上幾乎沒(méi)有描述能力,因此必須將波形作變換。常見(jiàn)的一種變換方法是提取MFCC特征,根據(jù)人耳的生理特性,把每一幀波形變成一個(gè)多維向量,可以簡(jiǎn)單地理解為這個(gè)向量包含了這幀語(yǔ)音的內(nèi)容信息。這個(gè)過(guò)程叫做聲學(xué)特征提取。實(shí)際應(yīng)用中,這一步有很多細(xì)節(jié),聲學(xué)特征也不止有MFCC這一種,具體這里不講。 至此,聲音就成了一個(gè)12行(假設(shè)聲學(xué)特征是12維)、N列的一個(gè)矩陣,

17、稱之為觀察序列,這里N為總幀數(shù)。觀察序列如下圖所示,圖中,每一幀都用一個(gè)12維的向量表示,色塊的顏色深淺表示向量值的大小。2.1 智能語(yǔ)音工作原理接下來(lái)就要介紹怎樣把這個(gè)矩陣變成文本了。首先要介紹兩個(gè)概念:音素:?jiǎn)卧~的發(fā)音由音素構(gòu)成。對(duì)英語(yǔ),一種常用的音素集是卡內(nèi)基梅隆大學(xué)的一套由39個(gè)音素構(gòu)成的音素集。漢語(yǔ)一般直接用全部聲母和韻母作為音素集,另外漢語(yǔ)識(shí)別還分有調(diào)無(wú)調(diào)。狀態(tài):這里理解成比音素更細(xì)致的語(yǔ)音單位就行啦。通常把一個(gè)音素劃分成3個(gè)狀態(tài)。語(yǔ)音識(shí)別是怎么工作的呢?無(wú)非是:第一步,把幀識(shí)別成狀態(tài)(難點(diǎn));第二步,把狀態(tài)組合成音素;第三步,把音素組合成單詞。2.1 智能語(yǔ)音工作原理 圖中,每個(gè)

18、小豎條代表一幀,若干幀語(yǔ)音對(duì)應(yīng)一個(gè)狀態(tài),每三個(gè)狀態(tài)組合成一個(gè)音素,若干個(gè)音素組合成一個(gè)單詞。也就是說(shuō),只要知道每幀語(yǔ)音對(duì)應(yīng)哪個(gè)狀態(tài)了,語(yǔ)音識(shí)別的結(jié)果也就出來(lái)了。圖中,每個(gè)小豎條代表一幀,若干幀語(yǔ)音對(duì)應(yīng)一個(gè)狀態(tài),每三個(gè)狀態(tài)組合成一個(gè)音素,若干個(gè)音素組合成一個(gè)單詞。也就是說(shuō),只要知道每幀語(yǔ)音對(duì)應(yīng)哪個(gè)狀態(tài)了,語(yǔ)音識(shí)別的結(jié)果也就出來(lái)了。2.1 智能語(yǔ)音工作原理 那每幀音素對(duì)應(yīng)哪個(gè)狀態(tài)呢?有個(gè)容易想到的辦法,看某幀對(duì)應(yīng)哪個(gè)狀態(tài)的概率最大,那這幀就屬于哪個(gè)狀態(tài)。比如下面的示意圖,這幀對(duì)應(yīng)S3狀態(tài)的概率最大,因此就讓這幀屬于S3狀態(tài)。 那這些用到的概率從哪里讀取呢?有個(gè)叫“聲學(xué)模型”的東西,里面存了一大堆參

19、數(shù),通過(guò)這些參數(shù),就可以知道幀和狀態(tài)對(duì)應(yīng)的概率。獲取這一大堆參數(shù)的方法叫做“訓(xùn)練”,需要使用巨大數(shù)量的語(yǔ)音數(shù)據(jù)。2.1 智能語(yǔ)音工作原理 但這樣做有一個(gè)問(wèn)題:每一幀都會(huì)得到一個(gè)狀態(tài)號(hào),最后整個(gè)語(yǔ)音就會(huì)得到一堆亂七八糟的狀態(tài)號(hào),相鄰兩幀間的狀態(tài)號(hào)基本都不相同。假設(shè)語(yǔ)音有1000幀,每幀對(duì)應(yīng)1個(gè)狀態(tài),每3個(gè)狀態(tài)組合成一個(gè)音素,那么大概會(huì)組合成300個(gè)音素,但這段語(yǔ)音其實(shí)根本沒(méi)有這么多音素。如果真這么做,得到的狀態(tài)號(hào)可能根本無(wú)法組合成音素。實(shí)際上,相鄰幀的狀態(tài)應(yīng)該大多數(shù)都是相同的才合理,因?yàn)槊繋芏獭=鉀Q這個(gè)問(wèn)題的常用方法就是使用隱馬爾可夫模型(Hidden Markov Model,HMM)。這東

20、西聽(tīng)起來(lái)好像很高深的樣子,實(shí)際上用起來(lái)很簡(jiǎn)單:第一步,構(gòu)建一個(gè)狀態(tài)網(wǎng)絡(luò)。第二步,從狀態(tài)網(wǎng)絡(luò)中尋找與聲音最匹配的路徑。2.1 智能語(yǔ)音工作原理 這樣就把結(jié)果限制在預(yù)先設(shè)定的網(wǎng)絡(luò)中,避免了剛才說(shuō)到的問(wèn)題,當(dāng)然也帶來(lái)一個(gè)局限,比如你設(shè)定的網(wǎng)絡(luò)里只包含了“今天晴天”和“今天下雨”兩個(gè)句子的狀態(tài)路徑,那么不管說(shuō)些什么,識(shí)別出的結(jié)果必然是這兩個(gè)句子中的一句。那如果想識(shí)別任意文本呢?把這個(gè)網(wǎng)絡(luò)搭得足夠大,包含任意文本的路徑就可以了。但這個(gè)網(wǎng)絡(luò)越大,想要達(dá)到比較好的識(shí)別準(zhǔn)確率就越難。所以要根據(jù)實(shí)際任務(wù)的需求,合理選擇網(wǎng)絡(luò)大小和結(jié)構(gòu)。 搭建狀態(tài)網(wǎng)絡(luò),是由單詞級(jí)網(wǎng)絡(luò)展開(kāi)成音素網(wǎng)絡(luò),再展開(kāi)成狀態(tài)網(wǎng)絡(luò)。語(yǔ)音識(shí)別過(guò)程其實(shí)就是在狀態(tài)網(wǎng)絡(luò)中搜索一條最佳路徑,語(yǔ)音對(duì)應(yīng)這條路徑的累計(jì)概率最大,這稱之為“解碼”。2.1 智能語(yǔ)音工作原理這里所說(shuō)的概率,由三部分構(gòu)成,分別是:觀察概率:每幀和每個(gè)狀態(tài)對(duì)應(yīng)的概率轉(zhuǎn)移概率:每個(gè)狀態(tài)轉(zhuǎn)移到自身或轉(zhuǎn)移到下個(gè)狀態(tài)的概率語(yǔ)言

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論