下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、語音識別的研究現(xiàn)狀和應(yīng)用前景語音識別技術(shù)并不是一夜之間冒出來的神話,早在三四十年前,在美國的一些大學和研究單位,就已經(jīng)有人開始從事這一方向的研究,并有一些相關(guān)論文發(fā)表;七十年代前后,研究的脈絡(luò)日漸清晰,于是貝爾實驗室和國際商用機器公司(IBM)等都先后建立了專門的研究機構(gòu)。今天這兩家公司在這一領(lǐng)域都已取得了顯著的成果,并且在商業(yè)上應(yīng)用成功,但貝爾實驗室主要是偏重于電信方面應(yīng)用的語音識別系統(tǒng),如電話查詢等;而IBM則偏重于商務(wù)應(yīng)用,因而在連續(xù)語音識別上取得了不小的成功。不談商業(yè)方面的應(yīng)用,事實上,很多家公司都提供語音識別的引擎(Engne)并且都表示能支持微軟的SAPI??匆豢碨API4.0SU
2、TE就不難發(fā)現(xiàn),微軟在這方面的研究并不遜于任何一家公司,只是很奇怪它居然沒有將成果商業(yè)化。微軟同時提供了一系列引擎,如SpechRcognitOn(語音識另力、Command&Cbntol(發(fā)布指令并控制)、PhoneQuery(電話語音識另以Texttospech(文本語音轉(zhuǎn)換)等。今天,許多用戶已經(jīng)能享受到語音技術(shù)的優(yōu)勢了,可以對計算機發(fā)送命令,或者要求計算機記錄下用戶所說的話,以及將文本轉(zhuǎn)換成聲音朗讀出來。盡管如此,距離真正的人機自由交流的前景似乎還遠。目前,計算機還需要對用戶作大量訓練才能識別用戶的語音。并且,識別率也并不總是盡如人意。換言之,語音識別技術(shù)還有一段路需要走,要做
3、到真正成功的商業(yè)化,它還必須在很多方面取得突破性進展,這實際就是其技術(shù)的未來走向。就算法模型方面而言,需要有進一步的突破。目前能看出它的一些明顯不足,尤其在中文語音識別方面,語言模型還有待完善,因為語言模型和聲學模型正是聽寫識別的基礎(chǔ),這方面沒有突破,語音識別的進展就只能是一句空話。目前使用的語言模型只是一種概率模型,還沒有用到以語言學為基礎(chǔ)的文法模型,而要使計算機確實理解人類的語言,就必須在這一點上取得進展,這是一個相當艱苦的工作。此外,隨著硬件資源的不斷發(fā)展,一些核心算法如特征提取、搜索算法或者自適應(yīng)算法將有可能進一步改進??梢韵嘈牛雽w和軟件技術(shù)的共同進步將為語音識別技術(shù)的基礎(chǔ)性工作帶
4、來福音。就自適應(yīng)方面而言,語音識別技術(shù)也有待進一步改進。目前,象IBM的MaWice和Asiaworks的SPK都需要用戶在使用前進行幾百句話的訓練,以讓計算機適應(yīng)你的聲音特征。這必然限制了語音識別技術(shù)的進一步應(yīng)用,大量的訓練不僅讓用戶感到厭煩,而且加大了系統(tǒng)的負擔。并且,不能指望將來的消費電子應(yīng)用產(chǎn)品也針對單個消費者進行訓練。因此,必須在自適應(yīng)方面有進一步的提高,做到不受特定人、口音或者方言的影響,這實際上也意味著對語言模型的進一步改進?,F(xiàn)實世界的用戶類型是多種多樣的,就聲音特征來講有男音、女音和童音的區(qū)別,此外,許多人的發(fā)音離標準發(fā)音差距甚遠,這就涉及到對口音或方言的處理。如果語音識別能做
5、到自動適應(yīng)大多數(shù)人的聲線特征,那可能比提高一二個百分點識別率更重要。事實上,MaWCe的應(yīng)用前景也因為這一點打了折扣,只有普通話說得很好的用戶才可以在其中文版連續(xù)語音識別方面取得相對滿意的成績。就強健性方面而言,語音識別技術(shù)需要能排除各種環(huán)境因素的影響。目前,對語音識別效果影響最大的就是環(huán)境雜音或嗓音,在公共場合,你幾乎不可能指望計算機能聽懂你的話,來自四面八方的聲音讓它茫然而不知所措。很顯然這極大地限制了語音技術(shù)的應(yīng)用范圍,目前,要在嘈雜環(huán)境中使用語音識別技術(shù)必須有特殊的抗嗓(NoseCancelaton)麥克風才能進行,這對多數(shù)用戶來說是不現(xiàn)實的。在公共場合中,個人能有意識地摒棄環(huán)境嗓音并
6、從中獲取自己所需要的特定聲音,如何讓語音識別技術(shù)也能達成這一點呢?這的確是一個艱巨的任務(wù)。此外,帶寬問題也可能影響語音的有效傳送,在速率低于1000比特/秒的極低比特率下,語音編碼的研究將大大有別于正常情況,比如要在某些帶寬特別窄的信道上傳輸語音,以及水聲通信、地下通信、戰(zhàn)略及保密話音通信等,要在這些情況下實現(xiàn)有效的語音識別,就必須處理聲音信號的特殊特征,如因為帶寬而延遲或減損等。語音識別技術(shù)要進一步應(yīng)用,就必須在強健性方面有大的突破。多語言混合識別以及無限詞匯識別方面目前使用的聲學模型和語音模型太過于局限,以至用戶只能使用特定語音進行特定詞匯的識別。如果突然從中文轉(zhuǎn)為英文,或者法文、俄文,計
7、算機就會不知如何反應(yīng),而給出一堆不知所云的句子;或者用戶偶爾使用了某個專門領(lǐng)域的專業(yè)術(shù)語,如"信噪比"等,可能也會得到奇怪的反應(yīng)。這一方面是由于模型的局限,另一方面也受限于硬件資源。隨著兩方面的技術(shù)的進步,將來的語音和聲學模型可能會做到將多種語言混合納入,用戶因此就可以不必在語種之間來回切換。此外,對于聲學模型的進一步改進,以及以語義學為基礎(chǔ)的語言模型的改進,也能幫助用戶盡可能少或不受詞匯的影響,從而可實行無限詞匯識別。任何技術(shù)的進步都是為了更進一步拓展我們?nèi)祟惖纳婧徒涣骺臻g,以使我們獲得更大的自由,就服務(wù)于人類而言,這一點顯然也是語音識別技術(shù)的發(fā)展方向,而為了達成這一點
8、,它還需要在上述幾個方面取得突破性進展,要實現(xiàn)這一點,Intel架構(gòu)平臺的性能進步也是一個關(guān)鍵的因素,最終,多語種自由交流系統(tǒng)將帶給我們?nèi)碌纳羁臻g。語音識別技術(shù)的廣闊應(yīng)用前景語音識別技術(shù)的發(fā)展的確經(jīng)歷了一個漫長的漸進過程。二十多年前,它還只是科研人員在實驗室里描述的一個夢想般的希望,但兩個方面的進步終于促成了這一技術(shù)的平民化。其一,半導體技術(shù)的發(fā)展使得以前只有在巨型機上才能進行的語音識別系統(tǒng)如今在微機上就可以實現(xiàn)。無疑,英特爾公司在這其中扮演了重要的角色,今天,多數(shù)的普通家庭都對aintelInsde這樣一句廣告詞耳熟能詳,并且也具備足夠的支付能力來使用一臺高性能微機;其二,軟件技術(shù)的演進
9、也使得這項技術(shù)走向?qū)嵱?,一些核心算法,如特征提取、語音的聲學摸型及相應(yīng)的語言模型,搜索算法及自適應(yīng)算法等都取得了長足的進展。軟硬件技術(shù)的有效結(jié)合為我們提供了一種全新的遠景。很顯然,語音處理正在革新這個世界,因為一旦賦予人類語音以力量之后,任何會說話的人都將能自由地應(yīng)用這種技術(shù)。并且,這也是現(xiàn)存的最為自然的用戶界面。多數(shù)人可能都懷著一種模糊而激動的心情期待著這一新技術(shù)的來臨,然而,語音識別技術(shù)確切地能夠為我們帶來什么呢?許多行業(yè)還并未清晰地意識到該技術(shù)所可能開拓的廣闊空間。但是,就目前的發(fā)展勢態(tài)及技術(shù)進步來看,它將有可能涉足人類生活的每一領(lǐng)域。目前,在信息處理、教育與商務(wù)應(yīng)用、消費電子應(yīng)用方面,
10、語音識別技術(shù)都已經(jīng)展現(xiàn)出了它的巨大優(yōu)勢。一、語音識別技術(shù)在信息處理領(lǐng)域的應(yīng)用:個人電腦的普及在中國一直有著不小的障礙。多數(shù)的中國用戶往往會被其復雜的用戶界面弄得不知所措。此外,漢字輸入也是計算機應(yīng)用的一個困難,即使五筆字型已經(jīng)如此著名,但愿意花時間去學并且學好的人也并不很多,而拼音輸入對于發(fā)音不太準或拼音基礎(chǔ)不好的人來講也成問題。因此,語音識別技術(shù)至少首先在這兩個方面有著廣闊的應(yīng)用。簡單地講,語音識別技術(shù)在信息處理領(lǐng)域的首要的巨大應(yīng)用將在于提供了一種全新的人機交互形式,在這樣一種形式之下,將會拓展出許多應(yīng)用分支:1 .給計算機發(fā)送指令(Conmand&Coitio):Windows的圖
11、形用戶界面雖然已經(jīng)大大簡化了操作環(huán)境,但大多數(shù)用戶仍然會在其中迷失方向。而且,日益出現(xiàn)的新領(lǐng)域也超過了一般用戶的理解能力。而現(xiàn)在,隨著語音識別技術(shù)的應(yīng)用,計算機將會象是一位與你交談的伙伴,你可能只需要對著話筒說幾句話,就可以實現(xiàn)那些隱藏在Windows層層菜單后面的功能。目前,國際商用機器公司(IBM)在這方面已經(jīng)有成熟的產(chǎn)品。國內(nèi)購買聯(lián)想微機的用戶想必已經(jīng)體到了這一技術(shù)的優(yōu)勢,語音輸入已經(jīng)取代鍵盤和鼠標成為你與計算機交流的又一方式。2 .聽寫系統(tǒng)(DiCatior):去年9月4日IBM在人民大會堂召開的新聞發(fā)布會上就宣布了這一成熟技術(shù)商品化應(yīng)用的成功,它的最主要特征是實現(xiàn)了中文連續(xù)語音識別,
12、這標志著中文語音識別技術(shù)劃時代的進展,,這套系統(tǒng)還實現(xiàn)了非特定語音的識別,中文輸入速度可達到平均每分鐘150字,平均最高識別率達到95%,并具有“自我”學習的功能,很顯然這將大大降低計算機應(yīng)用的障礙,并簡化了信息處理的方式。3 .信息查詢:由于語音識別技術(shù)使得計算機能夠聽懂指令,因此,將語音識另h語言理解與大量的數(shù)據(jù)庫檢索和查詢技術(shù)相結(jié)合,就能夠?qū)崿F(xiàn)更輕松的信息查詢方式。比如,圖書館的資料信息將能夠?qū)碜杂脩舻恼Z音輸入進行理解,并將它轉(zhuǎn)化為相應(yīng)的指令,從數(shù)據(jù)庫中獲取結(jié)果并返回給用戶。公司的決策者也不用再花很多時間來研究如何使用軟件,他只要對著計算機表達出他所需要的信息就可以了,使用者通過簡單的
13、命令就可以獲得當下的資料。4 .網(wǎng)上交談可能對于多數(shù)中國用戶來講,網(wǎng)上交談還是一個憧憬,但實際上技術(shù)就在你的身邊,你只需要拿起來使用就可以了。網(wǎng)上交談有兩個層次目前很流行的“聊天室"還限于文字層面,你盡可以對著話筒說就是了,計算機將及時把它轉(zhuǎn)成文字并發(fā)送出去;最為理想的網(wǎng)上交談是語音識別技術(shù)、機器翻譯技術(shù)和語音合成技術(shù)的完美結(jié)合,這意味著你可以面對世界上任何地方的某個人,雖然你們彼此并不懂對方的語言,而且遠在天涯,卻可以自由地交談。當你對著話筒說完后,計算機會識別你的語音并轉(zhuǎn)化為文字,而機器輔助翻譯則會馬上將這些文字翻譯成對方的文字并傳送過去,對方的計算機則將這些文字再合成為語音并讀
14、出來,整個過程類似于“同聲傳譯:只是機器在這里充當了主角。二、教育與商務(wù)應(yīng)用;在教育與商務(wù)領(lǐng)域,語音識別技術(shù)的應(yīng)用前景也是廣泛的。1 .語音教學軟件就教育領(lǐng)域來講,語音識別技術(shù)的最直接的應(yīng)用就是幫助用戶更好地練習語言技巧。在過去,用戶只是通過簡單的模仿來進行學習,而無法精確地比較自己發(fā)音的差異,我曾見過一家美國公司開發(fā)的一套TaktoMe,當用戶跟著計算機說完一句話后,計算機會同時顯示標準發(fā)音和用戶發(fā)音的波形比照圖,并給出分數(shù)。用戶通過比較波形圖就可以發(fā)現(xiàn)自己在某個發(fā)音細節(jié)方面的差異,并且可以反復對比傾聽來體會這種差異。同時,基于語音比較技術(shù)而給出的分數(shù)也更具有公正性,并可以激勵用戶的學習潛質(zhì)
15、;我還見過另一家美國公司開發(fā)的一套幼教兒童產(chǎn)品,孩子可以對著話筒指揮動物做各種動作,從而借此來學習語言技能,不難想象,將語音技術(shù)應(yīng)用于教育方面的空間是極其巨大的,目前雙語公司也正考慮推出這方面的產(chǎn)品。2 .電話查詢:語音識別技術(shù)的另一個發(fā)展分支就是電話語音識別技術(shù)的發(fā)展,貝爾實驗室是這方面的先驅(qū),電話語音識別技術(shù)將能夠?qū)崿F(xiàn)電話查詢、自動接線以及一些專門業(yè)務(wù)如旅游信息等的操作,但電話語音識別的難度還包括對冗余信息的處理,因為人們的日??谡Z中多數(shù)是沒有特定意義的。我曾見過貝爾實驗室和菲利普公司各自開發(fā)的電話查詢系統(tǒng),都已做得相當出色,電話彼端的計算機系統(tǒng)處理來自查詢者的信息并作出相應(yīng)的應(yīng)答,比如查
16、詢天氣信息、公司特定員工電話號碼等等。3 .電子商務(wù):隨著網(wǎng)格技術(shù)的進一步發(fā)展,電子商務(wù)也正在日漸流行,設(shè)想一下,你也許只需要坐在家中,通過向計算機發(fā)布命令就可以實現(xiàn)網(wǎng)上購物,從而免掉跋涉之勞,語音識別技術(shù)和電子商務(wù)的結(jié)合,將創(chuàng)造一種全新的交易方式。類似的,語音技術(shù)還可以用于聲導系統(tǒng)等,總之,它將有可能改變我們的整個商業(yè)運作模式,并創(chuàng)造更大的便利。三、消費電子產(chǎn)品應(yīng)用計算機的發(fā)展方向?qū)⒖赡苁沟谜Z音識技術(shù)在手持電腦上進行,乃至固定到一個小小的芯片上,假如確實能夠在一個指頭大小的芯片上應(yīng)用語音識別技術(shù),那將不僅僅只是給用戶帶來一些方便而已。事實上,將這些算法嵌入到更小的芯片中去,將為語音識別應(yīng)用開拓更新的領(lǐng)域?,F(xiàn)在,一般的家電產(chǎn)品,機械系統(tǒng)乃至各
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東科貿(mào)職業(yè)學院《生理藥理學》2023-2024學年第一學期期末試卷
- 廣東警官學院《文學批評方法》2023-2024學年第一學期期末試卷
- 廣東江門中醫(yī)藥職業(yè)學院《智能運輸系統(tǒng)概論》2023-2024學年第一學期期末試卷
- 廣東技術(shù)師范大學《金融企業(yè)會計》2023-2024學年第一學期期末試卷
- 廣東海洋大學《機械工程技術(shù)交流》2023-2024學年第一學期期末試卷
- 廣東工商職業(yè)技術(shù)大學《機器學習原理》2023-2024學年第一學期期末試卷
- 廣東第二師范學院《生物藥物制劑技術(shù)》2023-2024學年第一學期期末試卷
- 廣東潮州衛(wèi)生健康職業(yè)學院《城市綠地規(guī)劃》2023-2024學年第一學期期末試卷
- 廣東財經(jīng)大學《建筑設(shè)計(Ⅱ)》2023-2024學年第一學期期末試卷
- 《國際腫瘤護理進展》課件
- 會議記錄培訓教材課件幻燈片
- 售后服務(wù)人員培訓資料課件
- 2024-2030年中國薯條行業(yè)發(fā)展趨勢及投資盈利預測報告
- 期末 (試題) -2024-2025學年人教PEP版(2024)英語三年級上冊
- 2025年高考政治時政熱點 延遲退休政策(知識銜接+練習+解析)
- 2.1 網(wǎng)絡(luò)改變世界 (教案) -2024-2025學年道德與法治八年級上冊 統(tǒng)編版
- 生命智能學習通超星期末考試答案章節(jié)答案2024年
- 公路工程利用鋰渣技術(shù)規(guī)范 第一部分:路基工程-編制說明
- 裝飾裝修設(shè)備表
- 電動葫蘆安裝施工技術(shù)方案
- 房地產(chǎn)銷售崗位招聘筆試題及解答(某大型國企)2024年
評論
0/150
提交評論