智能化語音行業(yè)發(fā)展分析實施報告終_第1頁
智能化語音行業(yè)發(fā)展分析實施報告終_第2頁
智能化語音行業(yè)發(fā)展分析實施報告終_第3頁
智能化語音行業(yè)發(fā)展分析實施報告終_第4頁
智能化語音行業(yè)發(fā)展分析實施報告終_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

..人工智能與語音識別行業(yè)分析報告序言人工智能的發(fā)展近50年來得到了明顯的提高,其交融了諸多學科。人工智能的研究在歷史上分為結構派和功能派。結構派也成為仿生學派或者生理學派,他們認為人工智能既然是使機器具有人的智能,就應基于人的大腦模型的研究,至今仍處于研究階段。功能派也稱計算機派或者心理學派,他們認為計算機本身就具有數學邏輯演繹功能,表明了可以應用計算機研究人的思維活動,模擬人類智能活動。功能派的研究分析將作為本文對人工智能分析的重點。人工智能所涉獵的應用領域是非常廣泛的,主要有以下幾個方面:1、問題求解;2、邏輯推理與定理證明;3、自然語言理解;4、自動程序設計;5、專家系統(tǒng);6、機器人學。除上述這些研究領域之外,人工智能還有許多方面的應用研究,如機器學習、模式識別、智能控制及檢索、機器學習及視覺、智能調度與指揮等等。語音識別的研究工作主要開始于二十世紀五十年代,從智能語音技術的發(fā)展歷程來看,應用的技術推動力主要是語音技術核心算法和計算機芯片技術。語音合成技術在20XX時已達到用戶基本可接受的準實用水平,20XX開始獲得了較為廣泛的應用。未來語音合成技術將從清晰度和自然度的要求上升至對個性化合成的要求,如對語音、語調、情緒的豐富性要求等。語音識別技術主要包括語意識別和聲紋識別。語音識別在技術原理上主要采取匹配識別和檢測識別兩種識別方式,關鍵技術包括選擇識別單元、特征參數提取、聲學模型及語言模型的建立等。語音識別技術目前在桌面系統(tǒng)、移動設備和嵌入式領域均有一定程度的應用,未來的發(fā)展方向應是無限詞匯量連續(xù)語句非特定人語音識別系統(tǒng)。綜合考慮目前的人工智能和語音識別與語音合成技術的能力和客戶接受度,目前企業(yè)級市場、車載語音市場、移動終端市場及教育娛樂市場有望在未來率先實現突破。我國目前呼叫中心語音市場剛剛啟動,市場規(guī)模在其后有快速增長;車載語音識別系統(tǒng)市場出現快速增長,市場規(guī)模有望從20XX的6430萬美元提升至20XX的2.1億美元,年均復合增長率約為26.7%;而移動終端語音市場和教育娛樂語音市場也同樣有較大發(fā)展?jié)摿ΑD壳?高技術壁壘形成寡頭壟斷競爭格局。智能語音技術是人工智能的研究領域之一,其技術原理涉及聲學、語言學、數字信號處理、計算機科學等多個學科,同時智能語音技術的研究周期長、投入大,使得智能語音行業(yè)具有較高的進入壁壘。在全球范圍內,目前已形成寡頭壟斷競爭格局,僅有Nuance、IBM、微軟、Google、科大訊飛等少數廠商具備較強競爭力。目錄TOC\o"1-3"\h\u13863第一章人工智能的概述 -3-56631.1人工智能發(fā)展史 -3-254041.2人工智能的分類 -5-76211.3人工智能應用與發(fā)展 -6-3516第二章人工智能的應用 -7-39862.1人工智能技術在網絡電腦中的應用 -7-172942.2因特網上的人工智能教育資源 -9-120532.3人工智能在虛擬克隆人方面的發(fā)展 -12-31294第三章語音識別行業(yè)概述 -14-171433.1語音識別技術的發(fā)展史 -14-3.2語音識別技術的概述 -15-122533.3語音識別面臨的問題與未來發(fā)展 -16-748第四章智能語音技術概述 -18-121984.1智能語音技術簡介 -18-77334.2語音合成技術簡介 -19-260第五章智能語音市場分析 -23-263835.1企業(yè)級語音市場加速發(fā)展 -24-5.2車載語音市場規(guī)模大幅提升-25-316745.3移動終端市場分析 -26-211895.4教育和娛樂市場分析 -27-4654第六章智能語音行業(yè)競爭分析 -30-151756.1市場競爭格局分析 -30-110496.2競爭產品舉例--SIRI〔IPHONE4S -31-第一章人工智能的概述1.1人工智能發(fā)展史人工智能〔ArtificialIntelligence,英文縮寫為AI,是一門綜合了計算機科學、生理學、哲學的交叉學科。人類之所以能夠有智慧是由于數十億個腦細胞不同的組織在一起工作,它們每一個都有不同的分工,這是天生的,而對于人工智能來說,我們需要讓組成機器的電線像我們的腦細胞一樣學會自己分工。1950年,英國科學家圖靈曾在一篇名為《計算機器與智能》的論文中提出一個簡單的判斷標準,這就是著名的圖靈測試:讓人和機器分別位于兩個房間,他們只可通話,不能相互看見。通過對話,如果人無法判斷另一方是人還是機器,那么這臺機器就可認為是有智能的。

世界各地對人工智能的研究很早就開始了,但對人工智能的真正實現要從計算機的誕生開始算起,這時人類才有可能以機器的實現人類的智能。AI這個英文單詞最早是在1956年的一次會議上提出的。經過這幾十年的發(fā)展,人工智能正在以它巨大的力量影響著人們的生活。1941年由美國和德國兩國共同研制的第一臺計算機誕生了,從此以后人類存儲和處理信息的方法開始發(fā)生革命性的變化,計算機編程變得十分簡單,計算機理論的發(fā)展終于導致了人工智能理論的產生,解決了存儲信息和自動處理信息的方法。在1955的時候,香農與人一起開發(fā)了TheLogicTheorist程序,它是一種采用樹形結構的程序,在程序運行時,尋找與可能答案最接近的樹的分枝進行探索,以得到正確的答案。這個程序在人工智能的歷史上可以說是有重要地位的,它在學術上和社會上帶來的巨大的影響,以至于現在所采用的方法思想方法有許多還是來自于這個50年代的程序。1956年,作為人工智能領域另一位著名科學家的麥卡希召集了一次會議來討論人工智能未來的發(fā)展方向,從此人工智能的名字才正式確立,這次會議在人工智能歷史上不是巨大的成功,但是這次會議給人工智能奠基人相互交流的機會,并為未來人工智能的發(fā)展起了鋪墊的作用。在此以后,人工智能的重點開始變?yōu)榻嵱玫哪軌蜃孕薪鉀Q問題的系統(tǒng),并要求系統(tǒng)有自學習能力。在1957年,香農和另一些人又開發(fā)了一個程序稱為GeneralProblemSolver<GPS>,它對Wiener的反饋理論有一個擴展,并能夠解決一些比較普遍的問題。別的科學家在努力開發(fā)系統(tǒng)時,某位<我記不清楚名字了,畢竟是外國人>科學家作出了一項重大的貢獻,他創(chuàng)建了表處理語言LISP,直到現在許多人工智能程序還在使用這種語言,它幾乎成了人工智能的代名詞,到了今天,LISP仍然在發(fā)展。

在1963年,麻省理工學院受到了美國政府和國防部的支持進行人工智能的研究,其后發(fā)展出的許多程序十分引人注目,麻省理工大學開發(fā)出了SHRDLU。在這個大發(fā)展的60年代,STUDENT系統(tǒng)可以解決代數問題,而SIR系統(tǒng)則開始理解簡單的英文句子了,SIR的出現導致了新學科的出現:自然語言處理。在70年代出現的專家系統(tǒng)成了一個巨大的進步,他頭一次讓人知道計算機可以代替人類專家進行一些工作了,由于計算機硬件性能的提高,人工智能得以進行一系列重要的活動,如統(tǒng)計分析數據,參與醫(yī)療診斷等等,它作為生活的重要方面開始改變人類生活了。在理論方面,70年代也是大發(fā)展的一個時期,計算機開始有了簡單的思維和視覺,同時在70年代,另一個人工智能語言Prolog語言誕生了,它和LISP一起幾乎成了人工智能工作者不可缺少的工具。一直到70年代末形成的各種理論和相應的技術奠定了人工智能的基礎。1.2人工智能的分類人工智能的研究在歷史上大致分為兩大派別:結構派和功能派。結構派也稱仿生學派或者生理學派,他們認為人工智能既然是使機器具有人的智能,就應基于人的大腦模型的研究。他們依據1943年由生理專家McCulloch和數理邏輯學家Pitts創(chuàng)立的腦模型,即MP模型,開創(chuàng)了用電子裝置模仿人腦結構和功能的新途徑。這一研究方法也叫做"白箱",即從對結構的了解出發(fā),從大腦的神經元開始,進而研究神經網絡模型和腦模型,提出用計算機硬件模擬神經網絡,并提出多層網絡中的反向傳播算法,由此,從模型到算法,從理論分析到工程實現,為神經網絡計算機〔第六代計算機的研制打下了基礎,開辟了人工智能的又一發(fā)展道路。這一派別的研究工作面臨的問題在于如何制作具有人腦模型的計算機,而人腦結構本身就非常復雜,至今生理學界、醫(yī)學界還無法徹底搞清,建立腦模型是一項非常復雜而艱巨的工作,至今仍處于研究階段。但是,這一派別的指導思想是從問題的本質出發(fā),因此它決定了今后人工智能的研究和發(fā)展方向。功能派也稱計算機派或者心理學派,他們認為計算機本身就具有數學邏輯演繹功能,表明了可以應用計算機研究人的思維活動,模擬人類智能活動。他們不像結構派那樣絞盡腦汁去研究腦模型,而是利用目前的計算機,從解決具體問題出發(fā),只要能夠獲得問題的正確求解。這一研究方法也叫做"黑箱",即只基于考查外部的輸入和輸出,只關心最后得出的結論正確與否。他們研究人工智能的領域是非常廣泛而且是行之有效的,從啟發(fā)式算法到專家系統(tǒng)再到知識工程理論與技術等等,并在80年代取得很大發(fā)展。1.3人工智能應用與發(fā)展人工智能所涉獵的應用領域是非常廣泛的,主要有以下幾個方面:問題求解。如不斷開發(fā)了能夠求解難題的下棋程序,如國際象棋。在下棋程序中應用的某些技術,如向前看幾步,把復雜的問題分解成一些比較容易的子問題等等,均發(fā)展演變?yōu)樗阉骱蛦栴}歸納這樣的人工智能基本技術。目前,該項目技術發(fā)展很快并且驚人,美國IBM公司的一臺名為"深藍"的計算機與國際象棋大師卡斯帕羅夫對弈獲得了勝利。這一事件,使世人驚呼"機器智能是否已達到或超過了人類智能。邏輯推理與定理證明。邏輯推理與定理證明是指不斷開發(fā)能夠對某些問題或事物進行推理證明的程序,就如同證明或推導數學公式一樣,這些程序能夠借助于對事實數據庫的操作來證明和作推理判斷。自然語言理解。目前已經開發(fā)出能夠從內部數據庫回答語音提出的問題的程序,這些程序通過閱讀文本材料,還能夠把其中的句子從一種語言翻譯為另一種語言,執(zhí)行用語音給出的指令和獲取知識等等。自動程序設計。自動程序設計這項研究的目的在于,使計算機自身,能夠根據各種不同目的和要求來自動編寫計算機程序,即可用高級語言編程,還可用英語描述算法。目前已經可以自動編寫出一些簡單的程序。五、專家系統(tǒng)。一般來說,專家系統(tǒng)是一個智能計算機程序系統(tǒng),其內部具有大量專家水平的某個領域知識與經驗,能夠利用人類專家的知識和解決問題的方法來解決該領域的問題。換而言之,專家系統(tǒng)是一個具有大量專門知識和經驗的程序系統(tǒng),它應用人工智能技術,根據某個領域一個或多個人類專家提供的知識和經驗進行推理和判斷,模擬人類專家的決策過程,以解決那些需要專家決定的復雜問題。目前,這一領域的應用是相當廣泛的,如醫(yī)療診斷,建筑工程設計,化學和地質數據分析等等,其質量已達到很高水平。機器人學。機器人學是人工智能研究的一重要領域,其中包括對操作機器人裝置程序的研究。這個領域所研究的問題,包括從機器人手臂的最佳移動到實現機器人的目標動作序列的規(guī)劃方法等等。目前,已經制造出成千上萬個機器人,主要用于工業(yè)生產和軍事用途上。在工業(yè)生產方面,其智能水平普遍不高,如順利地通過周圍環(huán)境,操作電燈開關、玩具積木及餐具等物品,一個小孩就能很容易的做到,但設計一個能完成上述操作任務的機器人則很難。因此開發(fā)高智能機器人是一個重要研究方面。除上述這些研究領域之外,人工智能還有許多方面的應用研究,如機器學習、模式識別、智能控制及檢索、機器學習及視覺、智能調度與指揮等等。這些領域的研究成果輝煌,使人嘆驚,相信隨著全球性高科技的不斷飛速發(fā)展,人工智能這一學科會更加日臻完善。然而,任何新生事物的成長都不是一帆風順的。人工智能自1956年問世以來,就引起人們的爭議,在社會上對人工智能的科學性有所懷疑,對人工智能的發(fā)展產生恐懼心理。甚至還有些人把人工智能視為異端邪說,因此,人工智能也是在比較艱難的環(huán)境中頑強地拼搏與成長的。盡管如此,真正的科學與任何其它真理一樣,是永遠無法壓制的。40多年來,人工智能獲得很大發(fā)展,它引起眾多科學的日益重視,已成為一門廣泛的交叉和前沿科學。第二章人工智能的應用2.1人工智能技術在網絡電腦中的應用人工智能在網絡電腦應用的基本特征就是參與、互動、分享;參與是指網站的內容由大家提供,互動是指網站會員之間的互動、會員與公眾的互動,其基本形態(tài)是朋友圈、文章評注等;分享是指大家收藏的內容進行各種形式的輸出、交換,使內容的價值最大化。音樂、圖片、文章等都是大家有收藏需要的內容,這些內容和大家的生活、工作、愛好、回憶等息息相關。如何將這些內容有效地組織管理起來,使之成為真正的社會知識財富是人工智能的應用一個方面。目前,對內容的組織管理手段主要就是分類,一是目錄分類,二是tag分類〔標簽分類。要解決信息獲取的準確性問題,只在宏觀和中觀層面進行分類思考是不行的,必須進入語義理解層面才行,做到這一點,資料庫才能真正變成知識庫,也才能對后續(xù)的互動、分享提供更智能化的支持?;?常規(guī)的交友、評注完全是人工行為,基本效果是不錯的,但在很多情況下卻不能解決問題。如果使用上述的宏觀語義理解技術,這個問題就可以得到很大程度上的解決;每個人的收藏興趣是通過你已經收藏的內容體現的,特別是收藏的內容達到一定量級后這種體現就會非常準確;要找自己的"志同道合"者前提是自己要收藏一定數量的內容,然后以自己的收藏興趣為條件讓系統(tǒng)自動為你查找和你的收藏興趣最接近的人就行了。有了這個功能,當你想建一個朋友圈時,當你想認識一些好朋友時,你就可以方便地找到大量的同興趣的候選者,有效解決互動對象的選擇問題?,F在的分享手段和途徑主要有:內容訂閱〔帶tag過濾、人工推薦、Tag標記、RSS輸出、JavaScript輸出、API調用等,除tag手段外,其它的手段都和內容本身無關,只是提供了一種純碎的技術手段,而tag方式在前面也說過,僅僅解決了粗粒度的宏觀和中觀內容過濾,準確性不夠。如果使用上述的宏觀語義理解技術,內容分享的準確性就會得到極大提高,基本應用思路是根據每個人的自動收藏興趣由網站自動為其推薦新文章,實現個性化的自動按需推薦,使大家之間的內容分享活動自動"跑"起來,并徹底解決垃圾推薦的難題。人工智能技術及其應用方式和傳統(tǒng)的Web2.0技術及應用方式是很好的補充關系,只有將兩者有效地結合在一起才能創(chuàng)造更大的應用價值,才能給網民大眾帶來更好的應用體驗。目前所知,只有一個叫[360doc個人圖書館]〔的Web2.0網站應用了這項人工智能技術,主要在4個方面進行了應用:1、自動給文章生成簡潔、準確的摘要;2、自動在文章之間建立基于內容的相關性連接;3、自動根據個人的收藏興趣為其推薦新文章;4、根據自己的收藏興趣查找"志同道合"者。上述所說的人工智能主要部分是語義理解這一部分,與這一部分有最大關聯的主要是搜索服務的提供商,google的論壇部分在一定程度上正在采用這種思路運作,只是現有的服務提供可能在便利程度上還不能達到,特別是針對中文系統(tǒng)的輻射更加薄弱。目前,有一個比較明朗的方向就是能夠提供一個基于興趣愛好的內容豐富的可定制的平臺。一個以個人主頁<博客、微博、facebook等>為基底的可以便捷的尋找到個人興趣的操作平面,顯然在這一點上無論社區(qū)還是門戶網站的現有結構和操作界面都不能適應這一要求,隨身瀏覽的功能被實際的情況抑制。同時我們看到個人主頁這樣比較"規(guī)范"的界面可以很好的充當操作平面的功能,只是現在個人主頁本身結構功能還比較簡單,只要針對個人主頁現在的界面進行部分改造就可以逐步向這個方面過渡。針對于社區(qū)本身具有的優(yōu)勢是論壇欄目分類本身已經對于信息進行了一種分撿,各欄目內部又有一定的分類,這對于內容檢索來說具有相當的好處,事實上如樓主所說的圖書網站為什么能夠比較好的應用這種"人工智能"技術的一個主要原因就是"圖書"行業(yè)本身就具有比較好的分類檢索系統(tǒng),這對于語義識別是具有相當幫助的,相當于給語義識別檢索加上了一個很好的輔助檢索標準,這是具有相當意義的。2.2因特網上的人工智能教育資源因特網上豐富的人工智能教育資源為我國高中人工智能教育的開展提供了一個強有力的學習支持。雖然大多以國外網站居多,但教師若能結合本校實際情況和學生的特點對其合理利用,使之本土化、校本化,無疑能夠有效地促進人工智能教育的順利開展。課程標準中規(guī)定"人工智能初步模塊"由3部分內容組成:知識及其表達,推理與專家系統(tǒng),人工智能語言與問題求解。下面將主要圍繞這三個主題,列舉幾個與人工智能教育相關的有代表性的資源網站。人工智能研究者俱樂部〔網址:ht這是為人工智能研究者提供的一個適合思想交流,技術切磋和資源互享的虛擬空間,主要由綜合討論、興趣小組〔當前包括機器人制作和語音識別兩個方面、資源共享、分類討論〔針對人工智能的不同組成模塊開辟獨立的討論組和網站聯盟幾個模塊組成。內容更新快,資源豐富,可為開展人工智能教育的教師和學生提供該領域的實時發(fā)展動態(tài)和教學參考信息。XX大學遠程教育網絡課程《人工智能基礎》〔網址這是國內教育資源的最大提供者——高等教育出版社,在全國抗擊"非典"時期,為了更好地服務于高等學校的教育,向高校師生提供的一門優(yōu)質的網絡教學課程。它從工程應用的角度系統(tǒng)地介紹了人工智能的基本原理、方法及其應用技術,并全面反映了國內外研究和應用的最新進展。全課程分三個部分:緒論,基礎篇和提高篇,分別適合不同學習階段的學生使用。美國人工智能協會<AmericanAssociationforArtificialIntelligence網址:美國人工智能協會〔AAAI成立于1979年,是個非盈利性的科學社團組織,主要致力于讓機器產生智慧思考和智能行為的研究。此外,提升公眾對人工智能的理解,對人工智能實踐人員的教學和培訓,為人工智能領域的研究者和投資者提供指導等也都是AAAI的實踐內容。AAAI主要活動包括組織和創(chuàng)辦研討會,座談會和主題論壇;為所有會員發(fā)行季刊雜志,出版著作,會議錄和技術報告;為在人工智能領域作出貢獻的會員及有發(fā)展?jié)摿Φ膶W生授予榮譽和獎學金等。美國計算機協會學生雜志《十字路口》<ACMCrossroadsStudentMagazin網址:這是美國計算機協會的第一個電子出版物,主要為學生服務。讀者可以通過不同的索引方式來查找網站內的所有文章和作品,例如,通過作者姓名,出版期號,專欄名稱,文章主題,相關圖片,專題評論,每周民意調查等。該網站鼓勵世界上所有的學生都能主動參與到這個網站的建設中來,積極擔任每期的學生作者、藝術設計,評論員或學生聯絡員,以共同推動《十字路口》電子雜志的發(fā)展。人工智能教育知識庫<AIEducationRepository網址:/~manaris/ai-education-repository/index.html該網站收錄了關于人工智能教材、教學大綱和教學設計范例等方面的信息,并且提供了與人工智能相關的教育論文,各主題的在線教程,適合課堂或實驗室教學的工具軟件和環(huán)境,以及方便用戶相互交流人工智能教育心得與經驗的虛擬空間。該網站的所有資源通過兩種方式來組織,第一種把資源從總體上分類,由人工智能教材信息、人工智能課程教學大綱、適合課堂或實驗室教學的人工智能教育工具、其他相關資源四大部分構成。第二種把資源按照特定主題來分類,包括專家系統(tǒng),模糊邏輯、知識表示、邏輯與推理、自然語言處理、神經網絡、機器人、搜索和博弈、計算機視覺及其他相關主題,每一個主題都由概要、教程、工具和資源四個模塊組成。專家系統(tǒng)eXpertise2Go網站〔網址:專家系統(tǒng)是人工智能課程的重要組成內容。高中階段對專家系統(tǒng)掌握的要求僅限于能演示或使用簡單的產生式專家系統(tǒng)軟件,以對專家系統(tǒng)有個感性認識;能使用一個簡易的專家系統(tǒng)外殼來自行開發(fā)簡單的專家系統(tǒng)。eXpertise2Go是個基于網絡的專家系統(tǒng)網站,它提供了多個面向用戶基于規(guī)則的專家系統(tǒng)實例,諸如,在線"PC產品顧問",汽車故障自動診斷助理,銀行放貸決策助理,數據分析技術助理等。此外,該網站還提供免費的e2gLite專家系統(tǒng)外殼下載,并且有在線教程,通過介紹專家系統(tǒng)的基本概念,基于規(guī)則的推理,對不確定事實的表示和處理及對什么是知識引擎的介紹到引導用戶設計并創(chuàng)建自己的知識庫,最后利用e2gLite專家系統(tǒng)外殼開發(fā)自己的專家系統(tǒng)。人工智能語言VisualProlog學習網站〔網址:VisualProlog是一種功能強大的人工智能邏輯編程語言,由Prolog開發(fā)中心設計,至今已發(fā)展到6.0版本。VisualProlog網站更新速度快,資源豐富。目前該網站提供了由VisualProlog開發(fā)的實例演示,VisualProlog個人版的軟件下載,在線教程,知識庫,常見問題解答等欄目。2.3人工智能在虛擬克隆人方面的發(fā)展人們花了大量的時間希望可以將人性搬到網絡上去,它是對未來發(fā)展的一種嘗試。當你不在線的時候,聊天機器人可以自動回答關于你的問題。說起人工智能就肯定要談到上個世紀六十年代的第一個虛擬人物Eliza中采用的人工智能技術。Eliza是麻省理工學院人工智能專家約瑟夫韋珍鮑姆在1966年模仿羅杰斯精神治療醫(yī)師而編寫的一個文字聊天程序。如果你對Eliza說:"我今天感覺有些不舒服。"那么她很快就會回應你:"你是否樂意今天感到不舒服?"對于現代人來說,這個回應顯然會立即讓對方掉頭而去。然而,使用Eliza軟件的許多人都相信或者至少暫時相信他們是在與真人對話。現在,有一種新服務可以讓你自己設置Eliza并訓練它,讓它模仿你自己的個性。沒有人會誤以為它就是你,但是近年推出的MyCyberTwin卻可以在你不在的時候幫你做很多事情。如果你將cybertwin內置到博客、網站或者MySpace檔案中,訪問者就可以通過會話了解你。你可以將各種實際資料和個性資料設置到你的cybertwin中。如果你認為訪問者可能會問你"星期六你打算做什么?"這樣的問題時,你可以訓練它回答"我打算與朋友一起去看哈里波特,你也一起來吧。目前MyCyberTwin還是一項免費的服務,它是由澳大利亞悉尼的一家名為RelevanceNow的公司推出的,雖然現在它還處于測試階段,但是已經擁有1.05萬余名用戶。當然,這個概念還是一個全新的概念。你的cybertwin與Eliza一樣,其核心中并沒有真正的智能,如果你沒有設定好各種問題的回答,它自己是不會回答的。然而,MyCyberTwin網站還提供了許多擴展工具來幫你預測各種可能的提問,比如人格測試、你對性、政治和宗教的觀點等。那些工具也都是免費的。RelevanceNow打算通過向會話使用量很大的用戶比如商業(yè)公司收取會話費的方式來營利,將MyCyberTwin授權給社群網站后,也許以后可以通過它為用戶提供有針對性的網絡廣告。3.4HCI人機交互

人機交互CHI<ComputerHumanInteraction>,國際上也稱<HCI,HumanComputerInteraction>是一門跨學科的研究,它的研究內容很廣,包括心理學領域的認知科學,心理學;軟件工程領域的系統(tǒng)構架技術;信息處理領域的語音處理技術和圖像處理技術;人工智能領域的智能控制技術等??偟膩碚f,人機交互本質上是認知過程,人機交互理論是以認知科學為理論基礎;人機交互系統(tǒng)是一個閉環(huán)系統(tǒng),人機交互研究是以系統(tǒng)科學作為人機交互研究的框架的方法學;同時,人機交互是以信息技術作為用戶界面的技術基礎,通過信息系統(tǒng)的建模、形式化描述、整合算法、評估方法以及軟件框架等信息技術最終實現和應用人機交互理論。HCI主要包含五個方面的主題:人機交互的特性;計算機的相關性;人的特性;計算機系統(tǒng)和界面架構;系統(tǒng)開發(fā)的規(guī)范和過程。

第三章語音識別行業(yè)概述3.1語音識別技術的發(fā)展史語音識別的研究工作大約開始于20世紀50年代,當時AT&TBell實驗室基于共振峰提取技術實現了第一個可識別十個英文數字的語音識別系統(tǒng)——Audry系統(tǒng)。

60年代,計算機的應用推動了語音識別的發(fā)展。這時期的重要成果是提出了動態(tài)時間規(guī)劃〔DP和線性預測分析技術〔LPC,其中后者較好地解決了語音信號產生模型的問題,對語音識別的發(fā)展產生了深遠影響。

70年代,語音識別領域取得了較大進展。在理論上,LP技術得到進一步發(fā)展,動態(tài)時間歸正技術〔DTW基本成熟,特別是提出了矢量量化〔VQ和隱馬爾可夫模型〔HMM理論。在實踐上,實現了基于線性預測倒譜和DTW技術的特定人孤立語音識別系統(tǒng)。

80年代,MFCC的參數提取技術和HMM模型的深入使用使得語音識別技術得到進一步的發(fā)展,語音識別的問題逐步在理論體系上得到了比較完整和準確的描述,同時在實踐上又逐步研發(fā)出效率較高的解決算法。進入90年代后,語音識別技術進一步成熟,并開始向市場提供產品。許多發(fā)達國家如美國、日本、韓國以及IBM、Apple、AT&T、Microsoft等公司都為語音識別系統(tǒng)的實用化開發(fā)研究投以巨資。同時漢語語音識別也越來越受到重視。IBM開發(fā)的ViaVoice和Microsoft開發(fā)的中文識別引擎都具有了相當高的漢語語音識別水平。進入21世紀,隨著消費類電子產品的普及,嵌入式語音處理技術發(fā)展迅速[2]。基于語音識別芯片的嵌入式產品也越來越多,如Sensory公司的RSC系列語音識別芯片、Infineon公司的Unispeech和Unilite語音芯片等,這些芯片在嵌入式硬件開發(fā)中得到了廣泛的應用。在軟件上,目前比較成功的語音識別軟件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及開源軟件HTK,這些軟件都是面向非特定人、大詞匯量的連續(xù)語音識別系統(tǒng)。我國語音識別研究一直緊跟國際水平,國家也很重視。國內中科院的自動化所、聲學所以及清華大學等科研機構和高校都在從事語音識別領域的研究和開發(fā)。國家863智能計算機專家組為語音識別技術研究專門立項,并取得了高水平的科研成果。我國中科院自動化所研制的非特定人、連續(xù)語音聽寫系統(tǒng)和漢語語音人機對話系統(tǒng),其準確率和系統(tǒng)響應率均可達90%以上。3.2語音識別技術概述

語音識別是解決機器"聽懂"人類語言的一項技術。作為智能計算機研究的主導方向和人機語音通信的關鍵技術,語音識別技術一直受到各國科學界的廣泛關注。如今,隨著語音識別技術研究的突破,其對計算機發(fā)展和社會生活的重要性日益凸現出來。以語音識別技術開發(fā)出的產品應用領域非常廣泛,如聲控電話交換、信息網絡查詢、家庭服務、賓館服務、醫(yī)療服務、銀行服務、工業(yè)控制、語音通信系統(tǒng)等,幾乎深入到社會的每個行業(yè)和每個方面。

廣泛意義上的語音識別按照任務的不同可以分為4個方向:說話人識別、關鍵詞檢出、語言辨識和語音識別。說話人識別技術是以話音對說話人進行區(qū)別,從而進行身份鑒別和認證的技術。關鍵詞檢出技術應用于一些具有特定要求的場合,只關注那些包含特定詞的句子,例如對一些特殊人名、地名的電話監(jiān)聽等。語言辨識技術是通過分析處理一個語音片斷以判別其所屬語言種類的技術,本質上也是語音識別技術的一個方面。語音識別就是通常人們所說的以說話的內容作為識別對象的技術,它是4個方面中最重要和研究最廣泛的一個方向。從語音識別的流程處理來看,語音識別系統(tǒng)同樣可以分成前端和后端兩部分:前端處理音頻流,從而分隔出可能的發(fā)聲聲音片段,并將它們轉換成一系列能夠用計算機表示的數值;后端是一個專用的搜索引擎,它獲取前端產生的輸出并對三個數據庫〔聲學模型、語言模型和詞典進行搜索解碼,并給出最終的識別結果。語音識別的步驟可分為三步:第一步是根據識別系統(tǒng)的類型選擇識別方法,分析出所需要的語音特征參數,并將這些參數作為標準模式由機器存儲起來,形成參考模式庫;第二步是語音識別的核心,采用選擇的語音識別方法進行模式匹配,具體內容又可分別表現為模型的建立、訓練和識別三個部分;第三步,語音識別系統(tǒng)可以進行識別后處理,識別后處理通常是一個音字轉換過程,有可能包括更高層次的詞法、句法和文法處理,另外也可以作為某個具體任務的語法輸入。語音識別主要的技術評價指標包括:識別內容限制〔連續(xù)語句還是命令詞、識別詞語容量〔孤立詞還是大詞匯量、識別正確率、識別使用人員限制〔針對特定人還是不限定使用者、魯棒性〔使用者口音適應能力、抗環(huán)境噪聲能力。按照最為重要的指標識別內容限制進行劃分,語音識別技術可分為大詞匯量連續(xù)語流識別技術和命令詞語音識別技術。命令詞語音識別技術作為現在應用最為廣泛的語音識別技術,按照應用場景和核心性能可分為電話命令詞語音識別技術和嵌入式命令詞語音識別技術。中小詞匯量非特定人語音識別系統(tǒng)識別精度已經大于98%,對特定人語音識別系統(tǒng)的識別精度就更高,這些技術已經能夠滿足通常應用的需要。3.3語音識別面臨的問題與未來發(fā)展目前的語音識別技術并不完美,其主要局限有:〔1語音識別對環(huán)境依賴性較強,在某種環(huán)境下采集到的語音訓練系統(tǒng)只能在該環(huán)境下應用,否則系統(tǒng)性能將急劇下降;〔2Lombard效應導致高噪聲環(huán)境下的語音識別困難,由于高噪音環(huán)境下人的發(fā)音變化很大,如聲音變高、語速變慢等,這些變化導致音調及共振峰的變化,從而使得語音識別的準確度顯著降低;〔3系統(tǒng)的適應性差,主要表現在語音識別系統(tǒng)的性能受許多因素影響,如不同的說話人、說話方式、環(huán)境噪音、傳輸信道等,由于訓練與識別環(huán)境的差異,同一個識別系統(tǒng)對于不同的用戶、不同的使用需求、不同的聲學環(huán)境下性能差異可以達到30%,使得語音識別技術的應用范圍受到很大限制。語音識別技術未來可能的發(fā)展方向有兩個:〔1語言模型從概率模型向以語言學為基礎的文法模型轉變,要使計算機真正理解人類的自然語言,就必須在這一點上取得進展,同時隨著硬件資源的不斷發(fā)展,一些核心算法如特征提取、搜索算法、自適應算法等將有進一步改進的可能;〔2人工神經網絡〔ANN技術在語音識別領域有可能實現突破,人工神經網絡是由結點互連組成的計算網絡,本質上是對人類大腦神經元活動的模擬,具有自學習能力、記憶、聯想、推理、概括能力和快速并行實現的特點,同時還具備自組織、自適應的功能。人工神經網絡技術的這些特點是HMM模型所不具備的,適合用于處理一些環(huán)境信息復雜、背景知識模糊、推理規(guī)則不明確的問題,因此對于噪聲環(huán)境下非特定人的語音識別問題來說是一種很好的解決方案,目前基于人工神經網絡技術的語音識別系統(tǒng)仍處于實驗室研究階段。語音作為當前通信系統(tǒng)中最自然的通信媒介,語音識別技術是非常重要的人機交互技術。隨著計算機和語音處理技術的發(fā)展,語音識別系統(tǒng)的實用性將進一步提高。應用語音的自動理解和翻譯,可消除人類相互交往的語言障礙。國外已有多種基于語音識別產品<如聲控撥號電話、語音記事本等>的應用,基于特定任務和環(huán)境的聽寫機也已經進入應用階段。這預示著語音識別技術有著非常廣泛的應用領域和市場前景。隨著語音技術的進步和通信技術的飛速發(fā)展,語音識別技術將為網上會議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓等各個領域帶來極大的便利,其應用和經濟、社會效益前景非常良好。第四章智能語音技術概述4.1智能語音技術簡介核心算法和芯片技術共同推動語音技術應用深化語音識別應用決定智能語音行業(yè)未來成長。從智能語音技術的發(fā)展歷程來看,應用的技術推動力主要是語音技術核心算法和計算機芯片技術。二十世紀末,建立在統(tǒng)計建模和機器學習理念基礎上的語音技術核心算法逐步成熟,基于HMM〔隱馬爾可夫模型的語音合成及識別技術在實用中占據了主導地位。計算機芯片技術則遵照摩爾定律,每18個月性能提升1倍,芯片運算能力的持續(xù)增長使得更為復雜的語音技術算法不斷得以實現。嵌入式芯片技術特別是SOC技術的發(fā)展及芯片成本的下降,有力推動了智能語音技術在移動設備中的應用。智能語音技術是人工智能的研究領域之一,其技術原理涉及聲學、語言學、數字信號處理、計算機科學等多個學科。智能語音技術主要研究人機之間語音信息的處理問題,按機器在其中所發(fā)揮作用的不同,可分為語音合成和語音識別兩大類人機語音通信問題,如圖所示。從智能語音技術的發(fā)展歷程來看,其應用的主要推動力之一是語音技術核心算法的不斷進步。上世紀九十年代,建立在統(tǒng)計建模和機器學習理念基礎之上的語音技術核心算法逐步成熟,基于HMM〔隱馬爾可夫模型的語音合成及識別技術在實用中逐漸占據了主導地位。如果未來核心算法能在自然語言理解上取得突破,則有望通過智能語音技術真正實現人機智能交互,從而使語音技術得到更加廣泛的應用。推動智能語音技術進入實用的另一主要動力則是計算機芯片技術的不斷進步。摩爾定律是計算機芯片技術發(fā)展的經驗性規(guī)律,其主要內容是:在相同面積集成電路上可容納的晶體管數目,約每隔18個月便會增加一倍,即芯片性能將提升一倍,而價格則基本保持不變。摩爾定律從1975年提出至今,準確地預測了芯片技術的發(fā)展速度,以MIPS〔MillionInstructionsPerSecond,每秒百萬條指令為單位進行估算,IntelX86芯片的計算能力從1987年至今增長了約1600倍,而以ARM架構為代表的嵌入式芯片計算能力從1987年至今也已增長了約500倍。隨著芯片運算能力的不斷增長,更為復雜的語音技術算法不斷得以實現。由于晶體管尺寸受量子效應的制約,近年來摩爾定律的有效性開始減弱,但IC業(yè)界仍普遍預期摩爾定律至少在2015年之前將保持有效,特別是嵌入式芯片的計算能力仍將保持快速增長。嵌入式芯片技術特別是SOC技術的發(fā)展及芯片價格的不斷下降,將有力推動智能語音技術在移動設備市場的應用。因此,我們認為即使短期內智能語音技術核心算法不能有革命性突破,計算機芯片技術的發(fā)展也將推動語音技術的應用進一步深化。由于語音合成技術和語音識別技術在技術原理和實現方法上存在較大差異,我們將分別針對這兩種技術進行介紹。4.2語音合成技術簡介語音合成技術是指利用機器生成語音,按照技術實現難度的高低,廣義的語音合成技術可以分為三個層次:〔1從文字到語音的合成〔TexttoSpeech,即TTS;〔2從概念到語音的合成〔ConcepttoSpeech;〔3從意圖到語音的合成〔IntentiontoSpeech。狹義的語音合成技術則是指文本語音轉化技術〔TTS,目前主流的語音合成技術主要是指TTS,我們在這里只針對狹義的語音合成技術進行討論。4.2.1語音合成技術發(fā)展史從語音合成技術的發(fā)展歷程來看,可大致分為三個階段,第一階段為上世紀三十年代至八十年代,以參數合成方法為主;第二階段為上世紀八十年代至九十年代,以波形拼接方法為主;第三階段則為上世紀末至現在,進一步發(fā)展出可訓練的TTS方法。圖3語音合成技術發(fā)展的三階段:語音合成技術研究起步于二十世紀三十年代。1939年,貝爾實驗室利用共振峰原理制作出第一個電子語音合成器,用一些類似白噪音的激勵產生非濁音信號,以周期性的激勵產生濁音信號,從而實現了用機器合成聲音,這被普遍視為語音合成技術的開端。1960年,G.Fant系統(tǒng)地闡述了語音產生的理論,推動了語音合成技術的進步。第一個完整的TTS系統(tǒng)得以實現。1980年,D.Klatt設計出串/并聯混合型共振峰合成器,使用串聯通道產生元音和濁輔音,并聯通道產生清輔音,還可以對聲源做各種選擇和調整以模擬不同的嗓音,是早期較為先進的語音合成系統(tǒng)。線性預測編碼技術〔LinearPredictionCoding,LPC成為這一階段最有效的語音分析技術之一,利用LPC技術可以對語音產生模型的參數進行準確估計。這一階段主要的技術思路是從模仿人體發(fā)聲機理入手進行語音合成,合成效果的清晰度和自然度都不高。二十世紀八十年代,語音合成技術進入了波形拼接方法階段,基音同步疊加的波形拼接方法PSOLA〔PitchSynchronousOverlapandAdd被提出,較好地解決了不同語音片段之間的拼接問題,從而有力的推動了波形拼接語音合成技術的發(fā)展。隨著計算機運算能力和存儲能力的迅猛發(fā)展,利用計算機合成語音越來越普遍,波形拼接方法逐漸發(fā)展成為基于大語料庫的單元挑選與波形拼接合成方法,其基本思想是根據輸入的文本分析信息,根據相關信息從預先錄制好的語音庫中挑選合適的單元,進行少量的調整后拼接得到最終的合成語音。由于最終的合成單元都是直接從音庫中復制過來的,PSOLA方法的最大優(yōu)勢就在于保持了原始發(fā)音人的音質,自然度有了明顯提高。從二十世紀末開始,統(tǒng)計建模方法引入到語音合成技術的研究當中,從而提出了可訓練的語音合成方法。該方法的基本思想是采用統(tǒng)計建模和機器學習的理念,通過給定的原始語音數據進行訓練并根據訓練結果來構建語音合成系統(tǒng)。隨著聲學合成器性能的不斷提高,在原有訓練方法的基礎上進一步發(fā)展出了統(tǒng)計參數語音合成方法——基于HMM模型〔HiddenMarkovModel,隱馬爾可夫模型的語音合成方法?;贖MM模型的合成方法可以在不需要人工干預的情況下,構建較小尺寸的合成系統(tǒng),而且對于不同的發(fā)音人和發(fā)音風格的依賴性也非常小,很適合應用于嵌入式設備以及滿足多樣化語音合成需求,因此這種方法逐漸發(fā)展成為和大語料庫波形拼接方法相并列的主流合成方法。語音合成的具體實現過程可以劃分為前端文本分析和后端語音合成兩個步驟。前端文本分析主要包括兩項任務:〔1進行文本的標準化,把原始文本中的數字、縮略語等轉換為對應的標準詞;〔2進行語言處理即TTP〔texttophoneme轉換,為每一個字詞賦予一個語音腳本,初步定義其發(fā)音,并依據辭典規(guī)則對文本進行分割標記。后端則是通常意義上的合成器,負責將前端處理后的結果轉換成實際的聲音輸出,韻律處理可以作為其中一個模塊,集成到語音合成過程中。后端合成器是語音合成系統(tǒng)的核心部分,可以采用多種不同算法加以實現,常見的語音合成方法主要有三種:〔1基于參數合成方法進行語音合成;〔2基于波形拼接技術進行語音合成;〔3基于HMM模型進行語音合成。圖4典型的語音合成流程圖:4.2.2語音合成技術的應用語音合成技術在20XX時已達到用戶基本可接受的準實用水平,主要用于簡單信息〔如時間、金額、航班等的播報。伴隨著大語料庫合成技術的流行,20XX以來語音合成技術已發(fā)展到逼近自然人甚至播音員發(fā)音的水平,并從單一的廣播風格發(fā)展到多種語氣和語調的合成能力。隨著HMM語音合成技術的發(fā)展,嵌入式語音合成技術也逐步突破了對運算和存儲要求苛刻的嵌入式使用門檻,目前已經可以在小資源環(huán)境〔1MB存儲資源和10MIPS運算資源下產生出清晰流暢的語音效果,從而使語音技術在車載導航、移動終端、教具等設備中的應用門檻有效降低。未來語音合成技術將從清晰度和自然度的要求上升至對個性化合成的要求,如對語音、語調、情緒的豐富性要求等。第五章智能語音市場分析智能語音技術作為最自然的人機交互方法,其用途非常廣泛,從最終應用前景來看,未來隨著技術進步和機器對人工替代程度的提高,只要是需要機器與人進行交互的場合均可運用智能語音技術。從全球市場來看,目前語音合成市場已較為成熟,滲透率較高;而語音識別市場則處于快速成長期,20XX首次突破了10億美元,Datamonitor估計20XX語音識別技術市場規(guī)模為26億美元。從地域分布來看,北美一直是全球最大的智能語音技術市場,20XX占據全球超過70%的市場份額,北美語音技術的采用也遠高于其他地區(qū),其中企業(yè)級語音市場約占語音市場79%的份額。嵌入式語音系統(tǒng)市場增長較快,根據Datamonitor的調查,20XX嵌入式語音技術市場規(guī)模為1.3億美元,預計20XX為5.0億美元左右,年均復合增長率約為40%。綜合考慮目前的技術能力〔語音技術核心算法和計算機芯片計算能力和客戶接受度,我們認為在未來幾年有望實現突破的主要有三大細分市場:企業(yè)級市場、車載語音市場及移動終端市場。主要智能語音技術應用領域市場潛力和技術難度評估:5.1企業(yè)級語音市場加速發(fā)展智能語音技術在企業(yè)級市場主要是應用于呼叫中心〔CallCenter,具體的應用包括語音導航和聲紋識別兩種方式。呼叫中心又稱為客戶服務中心,是把計算機和電信技術集成在一起,形成的用電話與用戶溝通的手段。美國是全球呼叫中心產業(yè)最為成熟的國家,截至20XX底美國擁有超過290萬的呼叫中心座席,金融行業(yè)是呼叫中心應用規(guī)模最大的行業(yè),座席數量達到了50萬以上。中國呼叫中心產業(yè)從20XX開始快速增長,截至20XX底,呼叫中心座席總數已超過50萬個,累計投資規(guī)模達超過500億元。從坐席數量的增長速度來看,20XX的座席增長速度明顯較20XX同比明顯上升。呼叫中心投資明顯回暖,為智能語音技術的引入打下良好基礎。呼叫中心市場采用語音技術的驅動力主要來自于四個方面:〔1語音技術可作為IVR系統(tǒng)的補充手段,彌補其在實際應用中的缺陷;〔2語音技術可減少人工服務量,從而降低對客戶代表的需求,降低運營成本;〔3語音技術特別是語音導航技術的使用能有效改善客戶的用戶體驗;〔4聲紋識別技術的使用將顯著增強客戶賬戶的安全性。根據Oppenheimer&Co.的預測,受金融危機影響,未來3年全球呼叫中心語音識別市場將保持平穩(wěn)增長,增速約在5%-6%之間。從地域結構來看增速則很不均衡,北美地區(qū)語音技術滲透率較高,目前約為30%,因此增速平穩(wěn);而中國市場幾乎是空白,仍處于市場培育和客戶習慣培養(yǎng)時期,未來將呈現快速增長態(tài)勢,主流廠商Nuance和科大訊飛均已開始加大這一市場的開拓力度。我們預計國內呼叫中心的語音導航和聲紋識別市場有望于未來兩年內啟動,市場規(guī)模在其后有快速增長至億元量級的可能。全球企業(yè)級語音識別市場規(guī)模保持平穩(wěn)增長圖:5.2車載語音市場規(guī)模大幅提升目前語音識別技術在車載語音市場主要應用于汽車導航設備,可以通過避免手動操作導航設備而增強行駛過程中的安全性,未來語音技術可進一步滲透至其他汽車輔助電子設備中,如對汽車空調、車窗、影音系統(tǒng)等進行語音控制。汽車導航設備通??煞譃榍把b車載導航設備和PND導航設備。國內前裝車載導航設備仍處于市場發(fā)展初期,從滲透率來看,20XX前裝車載導航系統(tǒng)的裝配率在日本已經達到79%,在西歐約為13%,在北美約為10.2%,而在國內2008年新車裝配率僅為3.7%,未來滲透率仍有較大提升空間。PND導航設備經過過去幾年的高速發(fā)展,目前已進入相對平穩(wěn)增長階段,增速約為40%。汽車前裝導航設備市場仍有較大增長空間圖目前,語音合成技術在車載導航系統(tǒng)的使用已較為普遍,而語音識別技術的滲透率則相對較低。以Nuance為例,雖然全球前十大汽車制造商均已使用了Nuance的語音產品,但Nuance估計語音識別技術在汽車電子市場的滲透率仍不足10%。未來伴隨著前裝導航滲透率的大幅提高及語音識別技術的滲透率快速增長,車載語音市場規(guī)模有望顯著提升。根據Datamonitor的預計,車載語音識別系統(tǒng)市場從20XX開始出現快速增長,市場規(guī)模有望從20XX的6430萬美元提升至20XX的2.1億美元,五年年均復合增長率約為26.7%。5.3移動終端市場分析智能手機和平板電腦市場啟動提升語音技術滲透率。在最近幾年里,移動通信和互聯網是發(fā)展最快、市場潛力最大的兩大電信類業(yè)務,隨著移動互聯網的逐漸成型,智能手機和平板電腦將成為移動互聯網的主要終端形式。20XX全球智能手機和平板電腦銷量同時啟動,未來3年仍將保持高速增長態(tài)勢。Google預計目前最新的Android設備大約有25%的搜索是通過語音進行的,而Datamonitor預計到20XX語音識別系統(tǒng)在全球移動終端市場的份額將是20XX的3倍,移動終端市場有望成為智能語音技術的又一快速增長市場。未來移動終端語音市場的增長動力主要來自于兩方面:一是作為觸摸屏和鍵盤等輸入設備的補充和完善,由于設備尺寸和重量的限制,觸摸屏是目前智能手機和平板電腦的主要輸入設備,但觸摸屏也存在輸入精確度不高、容易產生觸摸漂移等缺點,這為智能語音技術的應用創(chuàng)造了空間;二是移動終端語音技術新應用的不斷出現,如語音秘書、語音播報、語音輸入法、語音聽寫系統(tǒng)等,國外市場上Nuance已推出了針對iPhone和iPad的語音識別軟件,Google也于20XX8月推出了基于Android系統(tǒng)的語音識別技術,用戶可通過語音指令實現發(fā)送電子郵件、短信、撥打電話和獲得駕駛導航信息等功能,國內市場上科大訊飛于20XX10月推出了基于Android系統(tǒng)的語音輸入法,近期有望進一步推出基于云計算技術的語音短信輸入產品,新應用的不斷出現有助于提升語音技術在移動終端市場的滲透率。中國智能手機銷量有望保持快速增長圖:5.4教育和娛樂市場分析5.4.1教育市場語音教具與語音評測市場發(fā)展?jié)摿^大。根據國家統(tǒng)計局的數據,截至20XX底,我國共有普通中學教師494.4萬人,其中英語教師人數約為120萬人。假定最終市場滲透率為40%,每套教具售價為2000元,則總體市場規(guī)模約為9.6億元,若考慮到語文教學及少數民族語言教學的需要,總體市場規(guī)模有望超過10億元。若語音教具進一步擴展至學生市場,根據教育部2009年底公布的統(tǒng)計數據,全國共有中小學校35萬所、班級380萬個,按40%市場滲透率進行估算,"暢言"智能課堂教學機和智能語言教學平臺的市場總潛力將超過22億元。由于教具的采購需要由政府主管部門推動,受限于政府采購的決策鏈較長,教具市場的開拓周期較長,目前僅有XX、XX、XX等省有較大規(guī)模的應用。語音評測技術是通過機器自動對語音進行發(fā)音水平評價、檢錯,并給出糾正指導的技術,主要應用于普通話和英語的教學及測試。國內從20XX初開始進行語音評測技術的跟蹤和探索性研究,目前已經可以很好的實現對文本朗讀的普通話評測工作,對于自由發(fā)言的發(fā)音評測是下一階段評測技術發(fā)展的一個方向。20XX9月,科大訊飛的計算機口語測試系統(tǒng)準確程度已經達到了省級測試員的測試水平。針對中國人學習英語的評測技術,也是近年來研究界和產業(yè)界關注的重點,科大訊飛和中科院自動化所均已取得了較好的研究成果,初步達到了對中小學生英語口語評價的需要??拼笥嶏w目前在語音教具市場和語音評測市場占據主導地位,面向中小學英語和普通話教學的"暢言智能有聲教具"業(yè)務穩(wěn)步拓展,并在多個省份開展試點;其普通話口語評測業(yè)務已進入20個省份,并在XX、XX、上海等7省份全面實施了計算機測試。5.4.2成本和設計制約語音技術在玩具市場的應用我國是世界上最大的玩具制造國和出口國,現有玩具企業(yè)2萬余家,產量占世界總產量的70%以上。大中城市的消費者普遍可接受的玩具價格在100元以下,一些售價在1000元以上的高檔玩具同樣有市場。在中國玩具市場,毛絨玩具和兒童車最為暢銷,模型玩具、遙控玩具和塑膠玩具的銷量持續(xù)看好。有34%的城市消費者選購電子玩具,31%選擇智能型玩具,23%選擇高檔毛絨、布制玩具。農村消費者以傳統(tǒng)的玩具類型為主,48%的農村消費者愿意購買電動玩具,28%愿意購買拼裝玩具,24%愿意購買中、低檔毛絨、布制玩具。據中國玩具協會統(tǒng)計,約64%的成人消費者表示有興趣購買適合自己的玩具,估計成人休閑益智玩具市場每年約值500億元人民幣。傳統(tǒng)玩具的市場日趨下滑,而益智類、成人類玩具則呈現持續(xù)增長趨勢。我國玩具產業(yè)規(guī)模龐大語音識別技術以嵌入式芯片的方式應用于各類玩具,會有很大的發(fā)展前景。據美國玩具研究所的報告分析,應用于高科技電子玩具的核心技術往往能給該產品帶來5-6倍的利潤。缺乏有吸引力的玩具設計與成本較高是目前制約智能語音玩具大規(guī)模推廣的主要原因。目前市場上銷售的語音玩具多數是在毛絨玩具基礎上簡單植入語音芯片,娛樂性和益智性均較差,售價卻高達300元-700元,相比普通毛絨玩具數十元的售價價格較為昂貴,使得智能語音玩具對普通消費者的吸引力不足。我們預計隨著語音芯片成本的不斷下降和專業(yè)玩具設計廠商的加入,智能語音玩具市場有望出現快速增長。第六章智能語音行業(yè)競爭分析6.1市場競爭格局分析智能語音行業(yè)通過高技術壁壘形成寡頭壟斷的格局,智能語音技術的技術壁壘很高,需要企業(yè)在統(tǒng)計學、聲學、語言學、計算機科學等多個領域具有較強的綜合實力,同時智能語音技術的研究周期長、投入大,如IBM已在語音技術領域持續(xù)研發(fā)了近30年。20XX全球語音識別市場份額:國內語音技術市場目前仍以語音合成為主,語音識別技術則處于市場導入期。國內語音合成技術廠商主要有科大訊飛和捷通華聲,其中科大訊飛占據主導地位;語音識別技術廠商則主要有中科信利〔中科院聲學所、中科模識〔中科院自動化所和科大訊飛。Nuance以前對中國市場重視度不高,主要通過代理商進行產品銷售,目前已開始加大對中國語音市場的開拓力度,其投入重點集中于企業(yè)級市場和導航設備市場。科大訊飛在語音合成技術上具有世界領先地位,在語音識別技術上與N

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論