語音識別技術(shù)的奇妙應(yīng)用

上傳人：f*** IP屬地：山東上傳時間：2025-02-18 格式：DOCX 頁數(shù)：8 大?。?2.86KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

語音識別技術(shù)的奇妙應(yīng)用倪俊杰

浙江省桐鄉(xiāng)市鳳鳴高級中學(xué)劉宗凡

廣東省四會市四會中學(xué)邱元陽

河南省安陽縣職業(yè)中專金

琦

浙江師范大學(xué)附屬中學(xué)楊

磊

天津市第五中學(xué)黃鈳涵

浙江省諸暨市開放雙語學(xué)校語音識別中的難題倪俊杰：作為人工智能發(fā)展的一個分支，語音識別技術(shù)在智能設(shè)備上的使用已經(jīng)非常普遍。例如，小愛同學(xué)月活用戶已經(jīng)突破1億，在很多場景下，語音識別技術(shù)給我們帶來了非常好的體驗，但實際上，在人工智能的賽道上，語音識別技術(shù)基本還處于嬰兒階段，在很多方面還不夠成熟，那么，都有哪些難題需要解決呢？劉宗凡：我認(rèn)為，首先，在語義理解的準(zhǔn)確性上，還需要加強。我們經(jīng)常能見到這樣一個場景：在和語音識別工具交互的過程中，語音識別答非所問，令人啼笑皆非的對話層出不窮等。目前，人工智能最流行的研究方向是深度學(xué)習(xí)，基于深度學(xué)習(xí)模型學(xué)到的知識和人類的知識有很大的區(qū)別，人工智能只能“理解”一些詞和詞的關(guān)系，語音識別系統(tǒng)的對話，本質(zhì)上是基于識別出來的關(guān)鍵詞的互聯(lián)網(wǎng)搜索，是程序員對這句話的理解。語義的理解是人工智能領(lǐng)域的難題，至少目前還看不到突破的希望。其次，在語音識別過程中“背景噪音的影響”很難消除。信噪比直接影響數(shù)據(jù)收集模型，我們在訓(xùn)練語音識別的時候，都是將噪音從中去除，盡量保持干凈的語音環(huán)境，從而提高語音識別的效果。目前業(yè)內(nèi)普遍宣稱的97%識別準(zhǔn)確率，更多的是人工測評結(jié)果，只在安靜室內(nèi)的進場識別中才能實現(xiàn)。在嘈雜環(huán)境中必須有特殊的抗噪技術(shù)處理才能正常地使用語音識別，否則識別率很低，效果很差。但在實際生活中背景噪音無處不在，語音識別要能在復(fù)雜的環(huán)境下很好地應(yīng)用，就要在各種情況下收集足夠多的數(shù)據(jù)樣本進行學(xué)習(xí)、分析。邱元陽：語音識別技術(shù)在“上下文聯(lián)系”方面也做得不夠。語音的自動識別與人類對語音的解釋之間的主要區(qū)別之一在于上下文的使用。人類在相互交談時會依賴很多上下文信息。此上下文包括對話主題、過去所說的內(nèi)容、噪音背景以及唇部運動和面部表情等視覺線索。語音識別通常是孤立的，不能與歷史聯(lián)系在一起，不能進行情感分析，不能和現(xiàn)實聯(lián)系起來。例如，我們在導(dǎo)航時，說出一個地點，地圖軟件只能機械地進行搜索。如果能根據(jù)我們所在位置和出行軌跡，猜測出行目的地，則可以大大提高識別準(zhǔn)確度。當(dāng)引入這些輔助信號時，語音識別水平無疑會提高。但是，這是一個相當(dāng)龐大的知識體系問題，如何選擇有用的上下文類型并有效使用它們需要進一步深入研究。楊磊：還有就是“詞義消歧”。機器在切詞、標(biāo)注詞性并識別完后，需要對各個詞語進行理解。由于語言中往往一詞多義，人在理解時會基于已有知識儲備和上下文環(huán)境，但機器很難做到。雖然系統(tǒng)會對句子做句法分析，可以在一定程度上幫助機器理解詞義和語義，但實際情況并不理想。目前，機器對句子的理解還只能做到語義角色標(biāo)注層面，即標(biāo)出句中的句子成分和主被動關(guān)系等，它屬于比較成熟的淺層語義分析技術(shù)。未來要讓機器更好地理解人類語言，并實現(xiàn)自然交互，還是需要依賴深度學(xué)習(xí)技術(shù)，通過大規(guī)模的數(shù)據(jù)訓(xùn)練，讓機器不斷學(xué)習(xí)。當(dāng)然，在實際應(yīng)用領(lǐng)域中，也可以通過產(chǎn)品設(shè)計來減少較為模糊的問答內(nèi)容，以提升用戶體驗。再有就是口音、方言的兼容性問題。很多人的發(fā)音同標(biāo)準(zhǔn)發(fā)音有很大的差距，這就需要進行口音和方言的處理。即使同一個人說的話，如果處在不同的環(huán)境中，或者在不一樣的語境中，意思也可能不同。這些同樣需要改進語音模型，讓語音識別適應(yīng)大多數(shù)人的聲音特征。語音識別的前沿研究方向倪俊杰：既然語音識別技術(shù)還存在這么多難題，那么如何突破呢？最新的前沿研究方向有哪些？金琦：目前語音識別的技術(shù)研究，已經(jīng)從小詞匯量閱讀式識別轉(zhuǎn)向難度較大的自由對話場景的語音識別，自然環(huán)境中的識別率逐漸提高，但是還無法達到無障礙地人機交流的程度。如果不限制對話環(huán)境，不在意語音標(biāo)準(zhǔn)化程度，在噪音和多人對話以及日?？谡Z化的情形下，語音識別技術(shù)可能難以發(fā)揮正常的作用，甚至根本沒有用武之地。因此語音識別的技術(shù)研究也開始面向非限定的環(huán)境，面向真實應(yīng)用場景。在真實的語言交流活動中，不但沒有人去戴著麥克風(fēng)，而且會有多人同時說話，從專業(yè)角度來講，研究的前沿方向就是從近場麥克風(fēng)轉(zhuǎn)向遠場麥克風(fēng)，從無注意力機制轉(zhuǎn)向帶注意力機制。邱元陽：騰訊AILab西雅圖研究室負(fù)責(zé)人、浙江大學(xué)兼職教授俞棟曾給出語音識別技術(shù)的四個前沿研究方向。前沿研究方向一：語音序列到文字序列的直接轉(zhuǎn)換模型例如，CTC（ConnectionistTemporalClassification）模型，這種時序分類算法可以在系統(tǒng)確定“聽”到了某個字詞時產(chǎn)生一個尖峰狀態(tài)，相比傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)與混合模型來說大大減小了建模單元，但模型的訓(xùn)練難度較大。而Attention模型（Sequence-to-SequenceTransformationwithAttention）則是帶有注意力機制的序列到序列轉(zhuǎn)換模型，其做法是首先把輸入的語音信號序列轉(zhuǎn)換成一個中間層序列表達，然后基于中間層序列表達提供足夠的信息給一個基于遞歸神經(jīng)網(wǎng)絡(luò)的生成模型，每次生成一個字、一個詞或者一個音符，這個方法在機器翻譯中已經(jīng)成為主流方案。前沿研究方向二：非監(jiān)督學(xué)習(xí)到有監(jiān)督學(xué)習(xí)的轉(zhuǎn)換在非常嘈雜或者多人同時說話的環(huán)境中，我們是能夠把注意力集中在某一個人的聲音上的，即有效屏蔽掉其他人聲和噪音的干擾，聽清所關(guān)注的人的聲音。但機器和語音識別系統(tǒng)卻很難做到這一點。在遠場情況下，信噪比下降得更厲害，這個問題就更突出也更難以解決，一般途徑是從之前的非監(jiān)督學(xué)習(xí)盲分類問題，轉(zhuǎn)換到人為定制的監(jiān)督信息的有監(jiān)督學(xué)習(xí)問題。有監(jiān)督學(xué)習(xí)在多人說話時會遇到標(biāo)簽排列問題（LabelPermutationProblem），可以通過深度聚類（DeepClustering）或PIT（PermutationInvariantTraining，置換不變性訓(xùn)練）方案解決。前沿研究方向三：持續(xù)預(yù)測與適應(yīng)的模型CTC等模型雖然能夠較快地做適應(yīng)（Prediction）、持續(xù)地做預(yù)測（Adaptation），但是性能不足并且很難訓(xùn)練。現(xiàn)在需要模型能夠非?？斓刈鲞m應(yīng)，發(fā)現(xiàn)一致的規(guī)律性并將其變?yōu)殚L遠記憶，使得下一次識別時會變成穩(wěn)定的狀態(tài)，其他狀態(tài)則變成需要適應(yīng)的狀態(tài)，當(dāng)遇到新的聲音樣本時可以很快地適應(yīng)。前沿研究方向四：前端與后端聯(lián)合優(yōu)化出于遠場識別的需要，處理前端信號使用的是信號處理技術(shù)，一般只用到當(dāng)前狀態(tài)下的語音信號信息，而機器學(xué)習(xí)方法則用到很多訓(xùn)練器里的信息，并很少用到當(dāng)前幀的信息，也不會對它進行數(shù)據(jù)建模。如何把這兩種方法融合在一起，并且減少前端信號處理有可能出現(xiàn)的信息丟失，也是很多研究組織正在努力的一個方向。語音識別的應(yīng)用領(lǐng)域金琦：在人工智能的加持下，目前語音識別雖然還有不少需要克服的困難，但是也已經(jīng)取得了非常大的進步，在近場自由對話的情形下，機器已經(jīng)能夠達到甚至超過人的識別水準(zhǔn)。在這樣的水平下，語音識別的應(yīng)用就可以擴展到非常多的場景和領(lǐng)域。1.文字輸入文字錄入是語音識別最基本的應(yīng)用，一般通過語音輸入法進行。這方面做得較好的有IBM、微軟、科大訊飛等，很多輸入法都用的是訊飛的語音識別引擎。如果發(fā)音標(biāo)準(zhǔn)，在高達95%的識別率下，對于大量文字的錄入，效率還是比較高的，甚至對于一些OCR難度較大的材料，也可以采用人工語音輸入來解決。2.語音轉(zhuǎn)換把語音轉(zhuǎn)換成文字，看起來似乎跟語音輸入一樣，在QQ和微信中，也可以把聊天中發(fā)送的語音直接轉(zhuǎn)換成文字。但是在以前，如果想把一首MP3的朗誦文件轉(zhuǎn)換成文本，還是要大費周章的?，F(xiàn)在這個問題就很簡單了，在語音識別引擎的支持下，很多軟件都能實現(xiàn)語音文件轉(zhuǎn)換。例如，利用搜狗輸入法的MP3轉(zhuǎn)文字功能，就可以把單田芳的評書MP3識別轉(zhuǎn)換成文本文件。3.會場速記會議速記是對錄入速度的極大考驗，因為正常說話的速度是每分鐘200多字，一般人的文字錄入速度不太容易達到。但是如果會議發(fā)言的語音較標(biāo)準(zhǔn)，環(huán)境噪聲小，就完全可以由機器對講話進行語音識別記錄，自動轉(zhuǎn)換成文字。例如，在一些法庭的庭審現(xiàn)場，也會通過語音識別來分擔(dān)書記員的工作。4.錄音整理很多時候，記者在采訪和訪談時都會錄音，以便回去后復(fù)聽，避免遺漏和錯誤。在整理這些錄音時，就可以采用語音識別的方法快速地得到文字版的采訪過程記錄，提高工作效率。5.語音檢索圖書館在查找資料時，常常會與檢索打交道。檢索方式從最初的卡片式檢索變?yōu)楹髞淼碾娮訖z索，很大程度地方便了借閱。但是如果支持語音檢索的話，會更進一步地提高檢索效率。6.字幕轉(zhuǎn)換在手機上的視頻剪輯軟件中，有一個功能很受歡迎，就是語音轉(zhuǎn)字幕。只要發(fā)音不是太難懂，視頻中的語音都可以很方便地轉(zhuǎn)換成字幕，并且保持與畫面同步，如快影、剪映等都有這個功能，不僅實用，而且極大地節(jié)省了制作時間。但是在計算機上的傳統(tǒng)視頻編輯軟件中，卻很少具備這種智能化操作功能。7.聊天機器人機器人能夠跟人聊天的前提，當(dāng)然也是需要具備語音識別功能，能夠“聽”出人在說什么，并且還需要具備語義識別功能，即能夠聽“懂”人在說什么。微軟的小冰、IBM的沃森助理等，都具有較高的智能化水平。當(dāng)然，它們不僅僅需要語音識別，更重要的是要基于人工智能、自然語言處理和大數(shù)據(jù)，才能實現(xiàn)像人一樣聊天。8.智能音箱智能音箱本質(zhì)上也是一個聊天機器人，不過它從計算機和手機軟件中獨立出來，不再依賴于計算機和手機，適應(yīng)性更好。常見的天貓精靈、小愛同學(xué)、百度小度等，都是具有一定智能和應(yīng)用特色的產(chǎn)品。9.智能聲控用語音發(fā)命令，讓機器和設(shè)備去執(zhí)行，這早已不是科幻場景，在智能家居、車載設(shè)備上都已充分應(yīng)用。其前提也是先運用語音識別。10.人機交互如果說簡單的聲控是單向響應(yīng)的話，那么人機語音交互則是雙向溝通。最常見的車輛導(dǎo)航，可以接受駕駛?cè)说恼Z音指令，根據(jù)目的地啟用地圖和導(dǎo)航，然后再根據(jù)車輛定位的反饋向駕駛?cè)税l(fā)出指示。以上僅僅是語音識別眾多應(yīng)用場景的一部分，相信隨著語音識別技術(shù)的進步，還會出現(xiàn)更多的應(yīng)用方向。人工智能語音識別API應(yīng)用倪俊杰：既然語音識別技術(shù)已經(jīng)相對成熟，那么我們能夠利用該技術(shù)做一些什么事情呢？百度AI平臺（https：///）是面向全球的AI開放平臺，為用戶提供了各類涉及推理預(yù)測、文字識別、圖像識別、語音識別、人臉識別等領(lǐng)域的API。我們不妨用百度AI平臺來做一些實驗。黃鈳涵：是的，百度API能夠?qū)崿F(xiàn)語音識別、文本翻譯等，要使用百度AI平臺，首先要注冊“百度”賬號。語音識別API的示例代碼如下頁圖1所示，其中AipSpeech為使用語音識別的開發(fā)人員提供了一系列的交互方法。語音識別API對原始音頻的格式有著嚴(yán)格的限制：原始PCM的錄音參數(shù)必須符合16k、8k采樣率，16bit位深，單聲道，支持的格式有pcm（不壓縮）、wav（不壓縮，pcm編碼）、amr（壓縮格式）。因此，在編寫程序時需要對音頻進行重新采樣。scipy.io庫提供了多種功能來解決不同格式的文件的輸入和輸出，定義compressMusic函數(shù)將原始音頻的采樣率改為16K，并在文件夾中創(chuàng)建一個名為“重采樣”的新文件，如圖2、圖3所示。第1步：讀取文件（如圖4）。第2步：重新采樣并輸出識別結(jié)果（如圖5、圖6）。在文本翻譯方面，百度AI提供了一個專業(yè)的翻譯開放平臺（http：///），向開發(fā)者提供了更多豐富的能力。當(dāng)?shù)卿浧脚_后，在上方導(dǎo)航欄中選擇“產(chǎn)品服務(wù)”—“在線翻譯”—“通用翻譯API”，在填入相關(guān)信息開通服務(wù)后，可在“開發(fā)者信息”中查看對應(yīng)

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語音識別技術(shù)的奇妙應(yīng)用

文檔簡介

溫馨提示

最新文檔

評論

語音識別技術(shù)的奇妙應(yīng)用

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔