




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
語音識別技術(shù)的奇妙應(yīng)用倪俊杰
浙江省桐鄉(xiāng)市鳳鳴高級中學(xué)劉宗凡
廣東省四會市四會中學(xué)邱元陽
河南省安陽縣職業(yè)中專金
琦
浙江師范大學(xué)附屬中學(xué)楊
磊
天津市第五中學(xué)黃鈳涵
浙江省諸暨市開放雙語學(xué)校語音識別中的難題倪俊杰:作為人工智能發(fā)展的一個分支,語音識別技術(shù)在智能設(shè)備上的使用已經(jīng)非常普遍。例如,小愛同學(xué)月活用戶已經(jīng)突破1億,在很多場景下,語音識別技術(shù)給我們帶來了非常好的體驗,但實際上,在人工智能的賽道上,語音識別技術(shù)基本還處于嬰兒階段,在很多方面還不夠成熟,那么,都有哪些難題需要解決呢?劉宗凡:我認(rèn)為,首先,在語義理解的準(zhǔn)確性上,還需要加強。我們經(jīng)常能見到這樣一個場景:在和語音識別工具交互的過程中,語音識別答非所問,令人啼笑皆非的對話層出不窮等。目前,人工智能最流行的研究方向是深度學(xué)習(xí),基于深度學(xué)習(xí)模型學(xué)到的知識和人類的知識有很大的區(qū)別,人工智能只能“理解”一些詞和詞的關(guān)系,語音識別系統(tǒng)的對話,本質(zhì)上是基于識別出來的關(guān)鍵詞的互聯(lián)網(wǎng)搜索,是程序員對這句話的理解。語義的理解是人工智能領(lǐng)域的難題,至少目前還看不到突破的希望。其次,在語音識別過程中“背景噪音的影響”很難消除。信噪比直接影響數(shù)據(jù)收集模型,我們在訓(xùn)練語音識別的時候,都是將噪音從中去除,盡量保持干凈的語音環(huán)境,從而提高語音識別的效果。目前業(yè)內(nèi)普遍宣稱的97%識別準(zhǔn)確率,更多的是人工測評結(jié)果,只在安靜室內(nèi)的進場識別中才能實現(xiàn)。在嘈雜環(huán)境中必須有特殊的抗噪技術(shù)處理才能正常地使用語音識別,否則識別率很低,效果很差。但在實際生活中背景噪音無處不在,語音識別要能在復(fù)雜的環(huán)境下很好地應(yīng)用,就要在各種情況下收集足夠多的數(shù)據(jù)樣本進行學(xué)習(xí)、分析。邱元陽:語音識別技術(shù)在“上下文聯(lián)系”方面也做得不夠。語音的自動識別與人類對語音的解釋之間的主要區(qū)別之一在于上下文的使用。人類在相互交談時會依賴很多上下文信息。此上下文包括對話主題、過去所說的內(nèi)容、噪音背景以及唇部運動和面部表情等視覺線索。語音識別通常是孤立的,不能與歷史聯(lián)系在一起,不能進行情感分析,不能和現(xiàn)實聯(lián)系起來。例如,我們在導(dǎo)航時,說出一個地點,地圖軟件只能機械地進行搜索。如果能根據(jù)我們所在位置和出行軌跡,猜測出行目的地,則可以大大提高識別準(zhǔn)確度。當(dāng)引入這些輔助信號時,語音識別水平無疑會提高。但是,這是一個相當(dāng)龐大的知識體系問題,如何選擇有用的上下文類型并有效使用它們需要進一步深入研究。楊磊:還有就是“詞義消歧”。機器在切詞、標(biāo)注詞性并識別完后,需要對各個詞語進行理解。由于語言中往往一詞多義,人在理解時會基于已有知識儲備和上下文環(huán)境,但機器很難做到。雖然系統(tǒng)會對句子做句法分析,可以在一定程度上幫助機器理解詞義和語義,但實際情況并不理想。目前,機器對句子的理解還只能做到語義角色標(biāo)注層面,即標(biāo)出句中的句子成分和主被動關(guān)系等,它屬于比較成熟的淺層語義分析技術(shù)。未來要讓機器更好地理解人類語言,并實現(xiàn)自然交互,還是需要依賴深度學(xué)習(xí)技術(shù),通過大規(guī)模的數(shù)據(jù)訓(xùn)練,讓機器不斷學(xué)習(xí)。當(dāng)然,在實際應(yīng)用領(lǐng)域中,也可以通過產(chǎn)品設(shè)計來減少較為模糊的問答內(nèi)容,以提升用戶體驗。再有就是口音、方言的兼容性問題。很多人的發(fā)音同標(biāo)準(zhǔn)發(fā)音有很大的差距,這就需要進行口音和方言的處理。即使同一個人說的話,如果處在不同的環(huán)境中,或者在不一樣的語境中,意思也可能不同。這些同樣需要改進語音模型,讓語音識別適應(yīng)大多數(shù)人的聲音特征。語音識別的前沿研究方向倪俊杰:既然語音識別技術(shù)還存在這么多難題,那么如何突破呢?最新的前沿研究方向有哪些?金琦:目前語音識別的技術(shù)研究,已經(jīng)從小詞匯量閱讀式識別轉(zhuǎn)向難度較大的自由對話場景的語音識別,自然環(huán)境中的識別率逐漸提高,但是還無法達到無障礙地人機交流的程度。如果不限制對話環(huán)境,不在意語音標(biāo)準(zhǔn)化程度,在噪音和多人對話以及日??谡Z化的情形下,語音識別技術(shù)可能難以發(fā)揮正常的作用,甚至根本沒有用武之地。因此語音識別的技術(shù)研究也開始面向非限定的環(huán)境,面向真實應(yīng)用場景。在真實的語言交流活動中,不但沒有人去戴著麥克風(fēng),而且會有多人同時說話,從專業(yè)角度來講,研究的前沿方向就是從近場麥克風(fēng)轉(zhuǎn)向遠場麥克風(fēng),從無注意力機制轉(zhuǎn)向帶注意力機制。邱元陽:騰訊AILab西雅圖研究室負(fù)責(zé)人、浙江大學(xué)兼職教授俞棟曾給出語音識別技術(shù)的四個前沿研究方向。前沿研究方向一:語音序列到文字序列的直接轉(zhuǎn)換模型例如,CTC(ConnectionistTemporalClassification)模型,這種時序分類算法可以在系統(tǒng)確定“聽”到了某個字詞時產(chǎn)生一個尖峰狀態(tài),相比傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)與混合模型來說大大減小了建模單元,但模型的訓(xùn)練難度較大。而Attention模型(Sequence-to-SequenceTransformationwithAttention)則是帶有注意力機制的序列到序列轉(zhuǎn)換模型,其做法是首先把輸入的語音信號序列轉(zhuǎn)換成一個中間層序列表達,然后基于中間層序列表達提供足夠的信息給一個基于遞歸神經(jīng)網(wǎng)絡(luò)的生成模型,每次生成一個字、一個詞或者一個音符,這個方法在機器翻譯中已經(jīng)成為主流方案。前沿研究方向二:非監(jiān)督學(xué)習(xí)到有監(jiān)督學(xué)習(xí)的轉(zhuǎn)換在非常嘈雜或者多人同時說話的環(huán)境中,我們是能夠把注意力集中在某一個人的聲音上的,即有效屏蔽掉其他人聲和噪音的干擾,聽清所關(guān)注的人的聲音。但機器和語音識別系統(tǒng)卻很難做到這一點。在遠場情況下,信噪比下降得更厲害,這個問題就更突出也更難以解決,一般途徑是從之前的非監(jiān)督學(xué)習(xí)盲分類問題,轉(zhuǎn)換到人為定制的監(jiān)督信息的有監(jiān)督學(xué)習(xí)問題。有監(jiān)督學(xué)習(xí)在多人說話時會遇到標(biāo)簽排列問題(LabelPermutationProblem),可以通過深度聚類(DeepClustering)或PIT(PermutationInvariantTraining,置換不變性訓(xùn)練)方案解決。前沿研究方向三:持續(xù)預(yù)測與適應(yīng)的模型CTC等模型雖然能夠較快地做適應(yīng)(Prediction)、持續(xù)地做預(yù)測(Adaptation),但是性能不足并且很難訓(xùn)練。現(xiàn)在需要模型能夠非??斓刈鲞m應(yīng),發(fā)現(xiàn)一致的規(guī)律性并將其變?yōu)殚L遠記憶,使得下一次識別時會變成穩(wěn)定的狀態(tài),其他狀態(tài)則變成需要適應(yīng)的狀態(tài),當(dāng)遇到新的聲音樣本時可以很快地適應(yīng)。前沿研究方向四:前端與后端聯(lián)合優(yōu)化出于遠場識別的需要,處理前端信號使用的是信號處理技術(shù),一般只用到當(dāng)前狀態(tài)下的語音信號信息,而機器學(xué)習(xí)方法則用到很多訓(xùn)練器里的信息,并很少用到當(dāng)前幀的信息,也不會對它進行數(shù)據(jù)建模。如何把這兩種方法融合在一起,并且減少前端信號處理有可能出現(xiàn)的信息丟失,也是很多研究組織正在努力的一個方向。語音識別的應(yīng)用領(lǐng)域金琦:在人工智能的加持下,目前語音識別雖然還有不少需要克服的困難,但是也已經(jīng)取得了非常大的進步,在近場自由對話的情形下,機器已經(jīng)能夠達到甚至超過人的識別水準(zhǔn)。在這樣的水平下,語音識別的應(yīng)用就可以擴展到非常多的場景和領(lǐng)域。1.文字輸入文字錄入是語音識別最基本的應(yīng)用,一般通過語音輸入法進行。這方面做得較好的有IBM、微軟、科大訊飛等,很多輸入法都用的是訊飛的語音識別引擎。如果發(fā)音標(biāo)準(zhǔn),在高達95%的識別率下,對于大量文字的錄入,效率還是比較高的,甚至對于一些OCR難度較大的材料,也可以采用人工語音輸入來解決。2.語音轉(zhuǎn)換把語音轉(zhuǎn)換成文字,看起來似乎跟語音輸入一樣,在QQ和微信中,也可以把聊天中發(fā)送的語音直接轉(zhuǎn)換成文字。但是在以前,如果想把一首MP3的朗誦文件轉(zhuǎn)換成文本,還是要大費周章的?,F(xiàn)在這個問題就很簡單了,在語音識別引擎的支持下,很多軟件都能實現(xiàn)語音文件轉(zhuǎn)換。例如,利用搜狗輸入法的MP3轉(zhuǎn)文字功能,就可以把單田芳的評書MP3識別轉(zhuǎn)換成文本文件。3.會場速記會議速記是對錄入速度的極大考驗,因為正常說話的速度是每分鐘200多字,一般人的文字錄入速度不太容易達到。但是如果會議發(fā)言的語音較標(biāo)準(zhǔn),環(huán)境噪聲小,就完全可以由機器對講話進行語音識別記錄,自動轉(zhuǎn)換成文字。例如,在一些法庭的庭審現(xiàn)場,也會通過語音識別來分擔(dān)書記員的工作。4.錄音整理很多時候,記者在采訪和訪談時都會錄音,以便回去后復(fù)聽,避免遺漏和錯誤。在整理這些錄音時,就可以采用語音識別的方法快速地得到文字版的采訪過程記錄,提高工作效率。5.語音檢索圖書館在查找資料時,常常會與檢索打交道。檢索方式從最初的卡片式檢索變?yōu)楹髞淼碾娮訖z索,很大程度地方便了借閱。但是如果支持語音檢索的話,會更進一步地提高檢索效率。6.字幕轉(zhuǎn)換在手機上的視頻剪輯軟件中,有一個功能很受歡迎,就是語音轉(zhuǎn)字幕。只要發(fā)音不是太難懂,視頻中的語音都可以很方便地轉(zhuǎn)換成字幕,并且保持與畫面同步,如快影、剪映等都有這個功能,不僅實用,而且極大地節(jié)省了制作時間。但是在計算機上的傳統(tǒng)視頻編輯軟件中,卻很少具備這種智能化操作功能。7.聊天機器人機器人能夠跟人聊天的前提,當(dāng)然也是需要具備語音識別功能,能夠“聽”出人在說什么,并且還需要具備語義識別功能,即能夠聽“懂”人在說什么。微軟的小冰、IBM的沃森助理等,都具有較高的智能化水平。當(dāng)然,它們不僅僅需要語音識別,更重要的是要基于人工智能、自然語言處理和大數(shù)據(jù),才能實現(xiàn)像人一樣聊天。8.智能音箱智能音箱本質(zhì)上也是一個聊天機器人,不過它從計算機和手機軟件中獨立出來,不再依賴于計算機和手機,適應(yīng)性更好。常見的天貓精靈、小愛同學(xué)、百度小度等,都是具有一定智能和應(yīng)用特色的產(chǎn)品。9.智能聲控用語音發(fā)命令,讓機器和設(shè)備去執(zhí)行,這早已不是科幻場景,在智能家居、車載設(shè)備上都已充分應(yīng)用。其前提也是先運用語音識別。10.人機交互如果說簡單的聲控是單向響應(yīng)的話,那么人機語音交互則是雙向溝通。最常見的車輛導(dǎo)航,可以接受駕駛?cè)说恼Z音指令,根據(jù)目的地啟用地圖和導(dǎo)航,然后再根據(jù)車輛定位的反饋向駕駛?cè)税l(fā)出指示。以上僅僅是語音識別眾多應(yīng)用場景的一部分,相信隨著語音識別技術(shù)的進步,還會出現(xiàn)更多的應(yīng)用方向。人工智能語音識別API應(yīng)用倪俊杰:既然語音識別技術(shù)已經(jīng)相對成熟,那么我們能夠利用該技術(shù)做一些什么事情呢?百度AI平臺(https:///)是面向全球的AI開放平臺,為用戶提供了各類涉及推理預(yù)測、文字識別、圖像識別、語音識別、人臉識別等領(lǐng)域的API。我們不妨用百度AI平臺來做一些實驗。黃鈳涵:是的,百度API能夠?qū)崿F(xiàn)語音識別、文本翻譯等,要使用百度AI平臺,首先要注冊“百度”賬號。語音識別API的示例代碼如下頁圖1所示,其中AipSpeech為使用語音識別的開發(fā)人員提供了一系列的交互方法。語音識別API對原始音頻的格式有著嚴(yán)格的限制:原始PCM的錄音參數(shù)必須符合16k、8k采樣率,16bit位深,單聲道,支持的格式有pcm(不壓縮)、wav(不壓縮,pcm編碼)、amr(壓縮格式)。因此,在編寫程序時需要對音頻進行重新采樣。scipy.io庫提供了多種功能來解決不同格式的文件的輸入和輸出,定義compressMusic函數(shù)將原始音頻的采樣率改為16K,并在文件夾中創(chuàng)建一個名為“重采樣”的新文件,如圖2、圖3所示。第1步:讀取文件(如圖4)。第2步:重新采樣并輸出識別結(jié)果(如圖5、圖6)。在文本翻譯方面,百度AI提供了一個專業(yè)的翻譯開放平臺(http:///),向開發(fā)者提供了更多豐富的能力。當(dāng)?shù)卿浧脚_后,在上方導(dǎo)航欄中選擇“產(chǎn)品服務(wù)”—“在線翻譯”—“通用翻譯API”,在填入相關(guān)信息開通服務(wù)后,可在“開發(fā)者信息”中查看對應(yīng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 典當(dāng)房地產(chǎn)借款合同書
- 工程截樁施工合同
- 太陽能系統(tǒng)維保合同協(xié)議書
- 簽訂合同規(guī)范建議和意見
- 建筑安裝工程合同承包條例
- 聘用合同的類型包括
- 湖南勞動人事職業(yè)學(xué)院《道路工程經(jīng)濟與管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 南京交通職業(yè)技術(shù)學(xué)院《區(qū)域分析與規(guī)劃》2023-2024學(xué)年第二學(xué)期期末試卷
- 皖南醫(yī)學(xué)院《火電廠燃燒優(yōu)化及系統(tǒng)節(jié)能》2023-2024學(xué)年第二學(xué)期期末試卷
- 滄州職業(yè)技術(shù)學(xué)院《基礎(chǔ)翻譯》2023-2024學(xué)年第二學(xué)期期末試卷
- 某建設(shè)總工程CI形象策劃方案
- -6-35kV中壓交聯(lián)電纜產(chǎn)品基礎(chǔ)知識培訓(xùn)
- 8款-組織架構(gòu)圖(可編輯)
- 高三二輪復(fù)習(xí)備考指導(dǎo)意見
- 2023年四川省公務(wù)員考試行測真題及答案解析
- 卷內(nèi)目錄范例模板
- 淺談鋼琴即興伴奏在教學(xué)中應(yīng)用現(xiàn)狀及提高方法 論文
- 2024屆高考語文復(fù)習(xí):小說閱讀之?dāng)⑹马樞蚺c敘事節(jié)奏
- 太陽能光電轉(zhuǎn)換西安交通大學(xué)PP課件
- 新生兒肺透明膜病的影像與臨床探討
- 動力觸探檢測報告超重型圓錐動力觸探試驗
評論
0/150
提交評論