版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
“萬、柯”訪談錄之語音識別萬新宇受訪者:柯玉鵬,某汽車廠汽研院總設計師。簡稱:柯訪問者:萬新宇,簡稱:萬萬:柯總,上次談開車安全時你說到語音識別的重要性,就是“君子動口不動手”,今天來聊一下?柯:好的,語音識別(ASR)是一項古老的技術,1952年“貝爾”就研制出識別10個英文數(shù)字發(fā)音試驗系統(tǒng)。PC時代的IBM語音輸入也有20多年了。蘋果的siri來源于更早的軍方監(jiān)聽項目。萬:俗話說:人有人言,鳥有鳥語,可是“雞同鴨講眼碌碌”(注1),無法溝通??拢篈SR是一種讓機器聽懂人類語言的技術,它是人機對話的一項突破。萬:ASR是如何實現(xiàn)的,能否科普一下?柯:ASR是模式識別的一個分支,一種復雜的處理機制。先說ASR的歷史。大規(guī)模ASR研究從1970年開始,先在小詞匯量、孤立詞的識別上取得進展。80年后轉向大詞匯量、非特定人連續(xù)語音的識別。萬:我們就從最簡單開始,語音是怎么變文字的?柯:好,從ABC開始。聲音是一種波。ASR是首先把聲波前后的靜音去掉,然后進行聲音分析,就是分幀,把聲波切成一個個小段段,每段稱為“幀”。當然不是拿刀切,而柯:分幀后,要根據(jù)人耳的特點做波形轉換,把每一幀變成一個多維向量(注2)。萬:這第二步,就包含了語音的內(nèi)容信息了?柯:對,這個過程叫聲學特征提取。這樣,聲音就成了一個12行(這里假定聲學特征是12維)N列的矩陣,成了一個觀察序列。N為總幀數(shù),你看圖中,每一幀都有一個12維的向量,色塊的深淺表示向量值的大小。
11萬:那如何把矩陣變成文本呢?柯:先說兩個概念:一個是音素;一個是狀態(tài)(比音素更小的單位)。一個音素含三個狀態(tài)。接下來三步走:首先把幀識別成狀態(tài);其次把狀態(tài)組合成音素;最后把音素組成單詞。每個豎條代表一幀,若干幀對應一個狀態(tài),三個狀態(tài)合成一個音素,若干音素組成一個單詞。SI24S561S卻9S1029SI24S561S卻9S1029萬:只要知道每幀語音對應哪個狀態(tài),語音識別就出來了?柯:是的??上]有明確的某幀對某狀態(tài),只能看概率,某幀對應哪個狀態(tài)的概率最大,那這幀就屬于那個狀態(tài)。PfolSi)=045萬:那,這些用到的概率從哪兒來呢?柯:事先有個“聲學模型”里存了很多的參數(shù),通過它,就知道幀和狀態(tài)對應的概率。獲取這一大堆參數(shù)的方法叫訓練。萬:這好像有一個問題,每一幀得到一個狀態(tài)號,整個語音就會得出一堆的狀態(tài)號來?柯:是的,假設有1000幀,每幀對1個狀態(tài),3個狀態(tài)組合1個音素,會有300多個音素,其實這段語音沒這么多音素。實際上相鄰禎的狀態(tài)大多數(shù)都相同才合理。萬:怎么來解決這個問題呢?柯:最常用的方法是隱馬爾可夫模型(HMM),我們戲稱它“好妹妹”。萬:你的“好妹妹”是什么仙女?柯:玩笑話。一般來說,時間和狀態(tài)都離散的過程被稱為馬爾科夫鏈。萬:有些抽象??拢赫f個蛙跳的例子:水池中有N張荷葉,為1,2,3,……,N,即蛙跳有N個狀態(tài)。青蛙所在荷葉,是目前所處的狀態(tài);未來的狀態(tài),只與現(xiàn)在所處狀態(tài)有關,與以前的狀態(tài)無關。這就是馬爾可夫性。萬:語音信號也有馬爾可夫性?柯:語音信號是可觀測的,但觀察到的只是大腦依據(jù)語法知識和言語需要(隱過程)發(fā)出的音素流(顯過程)。“隱過程”通過“顯過程”表現(xiàn)出來,可以通過“顯過程”推測“隱過程”,它們之間有概率關系。萬:能否舉個例子?柯:一個經(jīng)典的例子:一個烏魯木齊朋友每天根據(jù)天氣(下雨,天晴)決定當天的活動(自習,游玩,宅著)中的一種,我每天只能在微信上看到他發(fā)的“我前天游玩、昨天自習、今天宅著!”,那么我可以根據(jù)他發(fā)的微信推斷烏魯木齊這三天的天氣。在這個例子里,“顯過程”是活動,“隱過程”是天氣。可以通過概率計算出天氣狀況。萬:我們的聲音是一個物理現(xiàn)象,是由聲帶、喉嚨大小、舌頭位置多種作用的結果?柯:是的。ASR的原理是將內(nèi)部語音產(chǎn)生看作是“隱狀態(tài)”,將聲音結果看做觀察的狀態(tài)(顯狀態(tài)),觀察到的狀態(tài)序列與隱藏過程有一定的概率關系。用隱馬爾科夫模型對這樣的過程建模,這個模型包含了一個底層隱藏的隨時間改變的馬爾科夫過程,以及一個與隱藏狀態(tài)某種程度相關的可觀察到的狀態(tài)集合。萬:開始有點兒明白了??拢篐MM是一個雙重隨機過程,一個是馬爾可夫鏈(剛才蛙跳例子)是一個隨機過程,它描述狀態(tài)(隱狀態(tài)轉顯狀態(tài))的轉移。另一個隨機過程描述狀態(tài)和觀察者之間的統(tǒng)計對應關系。通過一個隨機過程去感知狀態(tài)的存在和特性(天氣,活動的例子)。萬:隱馬爾可夫模型聽著很高深,其實也簡單?柯:是這樣,先構建一個狀態(tài)網(wǎng)絡,第二步,從狀態(tài)網(wǎng)絡中尋找與聲音最匹配的路徑。這樣就把結果限制在設定的網(wǎng)絡中,避免剛才提到的300多個音素的問題。比如設定網(wǎng)絡只包含“今天是晴天”和“今天下雨”兩個句子的狀態(tài)路徑,最終識別出的結果必是二居其一。萬:如果要識別任意文本呢?柯:那狀態(tài)網(wǎng)絡就得搭建的足夠大,包含任意文本就行了。但網(wǎng)絡越大,識別的準確率就會下降。萬:狀態(tài)網(wǎng)絡是不是由單詞級網(wǎng)絡展開成音素網(wǎng)絡,再展開成狀態(tài)網(wǎng)絡的?柯:是這樣的。語音識別過程就是在狀態(tài)網(wǎng)絡中搜索一條最佳路徑,語音對應的這條路徑的概率最大,稱之為“解碼”。
萬:請對整個語音識別的路徑再歸納一下。萬:請對整個語音識別的路徑再歸納一下??拢汉?。ASR分兩部分,訓練和識別。訓練是離線的,收集大量語音、語言數(shù)據(jù)進行信號處理,建立“聲學模型”和“語言模型”;而識別過程是在線完成的,分為“前端”和“后端”兩塊兒:前端進行端點檢測(去除靜音)、降噪、特征提取等;后端用訓練好的“聲學模型”和“語言模型”對說話的特征向量進行解碼,得到其中的語言信息。圖忙詁晉識別技術厚理圖忙詁晉識別技術厚理萬:我感覺語音識別的過程和人的認知過程有相似之處,都是通過“自我相似”的過程實現(xiàn)的,看見云彩,知道是云彩,看見一座山,知道是一座山,憑什么?就是“自我相似”因為兒時在腦子里建立了云的模型、山的模型??拢荷现苋瘴?guī)О藲q的女兒下鄉(xiāng)度假,她愣是不認識毛驢。萬:城里的孩子沒見過驢,因為腦子里沒有“建模”?柯:所以,看見也不認識它。ASR本質上也是“自我相似”。萬:你的意思是先在計算機里建立語音(語言)識別的模型庫后進行逐個比對?柯:大概意思差不多。三個步驟:1、特征提取(對聽見的語音分析并建立模板)、2、模式匹配(與原有內(nèi)存的模板比對)、3、參考模型庫(查表選出特征最優(yōu)的匹配模板)。圖片原理圖萬:是不是ASR技術的最大突破就是隱馬爾科夫模型的應用??拢菏堑?。卡內(nèi)基梅隆大學的李開復開發(fā)了第一個基于隱馬爾科夫模型的大詞匯量語音識別系統(tǒng)。嚴格來說,此后的ASR系統(tǒng)都沒有脫離HMM框架。萬:我以為:語音訓練數(shù)據(jù)的匹配和豐富性是推動ASR性能提升的要素,大數(shù)據(jù)時代來臨應該是一個福音吧?柯:是的,隨著互聯(lián)網(wǎng)快速發(fā)展,智能手機的普及應用,可以從多個渠道獲取大量文本或語音方面的語料,這為ASR中的語言模型和聲學模型的訓練提供了豐富的資源,使得構建通用大規(guī)模語言模型和聲學模型成為可能。萬:與機器進行語言交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。它的主要應用有哪些?柯:除了我們上次聊到的開車時的安全需要,每天千千萬萬的人撥打運營公司的電話,進行出游預定、股票交易,與其它通訊媒體、企業(yè)和互聯(lián)網(wǎng)進行交道,都離不開ASR。萬:語音控制比遙控器和手機更方便些,特別是智能家居領域?柯:ASR技術這幾年有了長足進步,特別是語音接口技術。通過它,可將語音識別和自然語言理解相結合,為全球物聯(lián)網(wǎng)市場創(chuàng)造切實可行的信息入口。萬:好像百度、谷歌、蘋果、Nuance、IBM等都是這一領域的“大牛”?柯:對。其中IBM公司1997年開發(fā)出的漢語ASR系統(tǒng),次年又開發(fā)出可識別上海話、粵語和四川話等地方口音的ASR系統(tǒng)。該系統(tǒng)對新聞語音識別具有較高的精度,是目前具有代表性的漢語連續(xù)語音識別系統(tǒng)。萬:我聽說,就在一周前在美國的“國際多信道語音分離和識別大賽”上,以科大訊飛為主的中國團隊獲得了冠軍?柯:那是一個英語語音識別的專項賽事,已舉辦多次,是ASR領域里高難度的比賽。要在咖啡廳、公交車、街道等生活場景中,在高噪聲、混響的干擾下準確識別英語語音的比賽。萬:而且是在6麥(注3)、雙麥、單麥三個項目中奪魁!柯:科大訊飛的語音輸入法在國內(nèi)一直處于領先位置,比如手機、呼叫中心、客戶服務系統(tǒng),包括各種各樣的醫(yī)療、安全,越來越多的領域,已經(jīng)有2.8億的用戶,每天有6000萬人在使用。
萬:使用ASR進行輸入和控制,這玩兒意有一定前途,但是限于其它輸入模式不方便時,比如智能家居、汽車上面、距離太遠不便動手,或者手正忙著柯:ASR的下一步發(fā)展真正的難度在于語義識別,把語音準確的轉化成文字還不夠,而且還要聽懂人類說什么。比如說,男生:我們分手吧。女生:她是誰?這表達什么意思?語義識別才是皇冠上的寶石。萬:語義識別還需要哪些方面的努力?柯:兩個方面:一是硬件,特別是GPU(注4)通用計算的發(fā)展,有了強大算力,過去無法做到的現(xiàn)在可以做了;二是人工神經(jīng)網(wǎng)絡,特別是深度學習算法的應用,大幅度提升了語音識別的準確率,并且提供了語義識別的可行性。萬:語義理解是人機對話中革命性的東西。它集合了簡單的機器控制,意味著報務業(yè)和窗口行業(yè)可以被取代??拢涸僖粋€就是機器翻譯。如今機器翻譯發(fā)展迅速,它的準確性、功能性、和達意程度都有很大提高。萬:專業(yè)譯者認為俏皮話、句子的委婉變化和寓意的細微差別對計算機來說過于復雜,機器無法充分表達出來??拢翰粚Α,F(xiàn)在機器翻譯每天為2億多人服務,翻譯10億多次,隨著數(shù)據(jù)呈指數(shù)級增長,這一數(shù)字只代表一個下午的翻譯量,然后是一個小時的翻譯量大量語言數(shù)據(jù)不斷被更新,被標注。數(shù)據(jù)量指數(shù)增長,準確度也將成倍增加。萬:這就是大數(shù)據(jù)+人工智能二智能翻譯?柯:未來10年內(nèi),一個小小的耳機就能用母語傳遞你聽到的外語,聽到的不再是siri那樣冰冷的機器聲。由于生物聲學工程的進步,與耳機相連的云端軟件將使發(fā)言者的聲音更人性化,并用你的母語表達。萬:是不是可以預言:ASR將進入工業(yè)、家電、通信、汽車、醫(yī)療、家庭服務、消費電子產(chǎn)品等各個領域?柯:如今,通過CNN(卷積神經(jīng)網(wǎng)絡)與LSTM(長短時記憶模型)的混合建模,連接時序分類(CTC)訓練已經(jīng)做到了真實環(huán)境,日常非標準語言的識別。萬:聽說,百度的ASR可以做到安靜環(huán)境下97%準確率,超過正常人的聽力,很了不起。柯:就在上個月,李彥宏在百度聯(lián)盟會議上,展示了嘈雜環(huán)境下對各地方言的識別。這是在深度學習對大量語音材料自動學習基礎上,以前ASR需要人來控制,現(xiàn)在可以激起自我學習,進而理解人的意識,這是革命性的突破。萬:好像谷歌和百度都在數(shù)據(jù)庫數(shù)據(jù)上占有優(yōu)勢?柯:百度在上海的肯德基餐廳,利用ASR自由與人對話,點餐,這不是對固定指令的處理,而是人工智能直接與人對話,理解人的語言,這是真正的突破。未來的快餐店可能只需十分之一的人手,把原料按規(guī)定投進機器就可。點餐、加工、送餐、收款均可由人工智能完成。未來的超市只需要一個保安員,其它則由無人倉庫加人工智能收銀機完成。萬:今天的收獲很大,使我對ASR有了一知半解的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度新能源車輛贈予及充電設施安裝合同3篇
- 中國石化2024年度原料進口協(xié)議模板版
- 2025年智能工廠車間場地租賃及維護服務合同范本4篇
- 二零二五年院落出租與非物質文化遺產(chǎn)保護合同3篇
- 2025版智能門面房租賃服務合作協(xié)議4篇
- 2025版海外院校代理傭金合同標準范本4篇
- 二零二五版高速公路監(jiān)控系統(tǒng)光纜安裝合同3篇
- 2025年項目經(jīng)理入職及項目團隊激勵方案合同3篇
- 現(xiàn)代醫(yī)療技術下的疾病預防策略
- 二零二五版美團騎手薪酬福利及晉升體系合同4篇
- 【采購管理優(yōu)化探究文獻綜述3000字】
- 《大學生職業(yè)發(fā)展與就業(yè)指導》課程標準
- 第23課《出師表》課件(共56張)
- GB/T 3953-2024電工圓銅線
- 發(fā)電機停電故障應急預案
- 接電的施工方案
- 幼兒阿拉伯數(shù)字描紅(0-100)打印版
- 社會組織等級評估報告模板
- GB/T 12173-2008礦用一般型電氣設備
- 新媒體研究方法教學ppt課件(完整版)
- 2020新版?zhèn)€人征信報告模板
評論
0/150
提交評論