版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2021年中國智能語音市場調(diào)研報告市場供需現(xiàn)狀與發(fā)展動向研究
提示:根據(jù)數(shù)據(jù)顯示,2018年,我國智能語音行業(yè)市場規(guī)模為157.9億元,較上年同比增長56.6%;2019年,我國智能語音行業(yè)市場規(guī)模為**億元,較上年同比增長**%。
智能語音行業(yè)是以語音為研究對象,對語音語義進行識別、理解以及生成,使機器具備自然語言處理能力,并且利用其核心技術(shù)賦予機器“聽覺”、“理解能力”以及“語言能力”。
智能語音技術(shù)涉及多類型個學科,其核心技術(shù)包括語音合成、語音識別、聲紋識別、自然語言理解、語音去噪等關(guān)鍵技術(shù)。智能語音技術(shù)分類智能語音技術(shù)分類簡介語音合成語音合成技術(shù)是通過計算機將外部輸入的文字信息轉(zhuǎn)變成自然流暢的語言,賦予機器“講話”的能力。語音合成技術(shù)覆蓋聲學、語言學、數(shù)字信號處理、計算機科學等多個學科。語音合成技術(shù)的實現(xiàn)過程主要分為文本分析和語音合成兩個步驟。文本分析是基于語言學原理,將文本標準化,將原始文本中的數(shù)字、縮略語等轉(zhuǎn)換為對應(yīng)的標準詞,然后進行語言處理。在文本分析的過程中,系統(tǒng)將為每一個字詞賦予單獨的語音腳本,并依據(jù)規(guī)則對文本進行分割標記,將文字序列轉(zhuǎn)換成音韻序列。語音合成技術(shù)通過不同的算法,將音韻序列生成語音波形,合成高質(zhì)量的語音流輸出。語音識別語音識別技術(shù)是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換成計算機可以處理的輸入內(nèi)容的技術(shù)。語音識別技術(shù)通過將用戶輸入的指令進行特征提取,形成特征數(shù)據(jù)流,然后與系統(tǒng)中已有的語音模型進行比對,尋找系統(tǒng)中最為接近的語音內(nèi)容。實現(xiàn)語音識別的過程主要分為四步:(1)選擇識別單元,即確定選擇識別的對象,然后根據(jù)識別對象的語音特點、詞匯量大小等條件確定識別對象為單詞、音節(jié)或音素;(2)提取特征參數(shù),從語音波形中提取出重要的反應(yīng)語音特征的相關(guān)信息;(3)建立聲學模型和語言模型,進行訓練和識別;(4)是后期的處理,包括音字轉(zhuǎn)換、詞法、句法和文法的處理等。聲紋識別聲紋識別技術(shù)是基于聲紋信息識別人類身份的生物特征識別技術(shù)。聲紋識別技術(shù)通過提取發(fā)聲者獨有的聲門開合頻率、口腔大小形狀及聲道長度等聲學特征,進而識別出發(fā)聲者的身份。聲紋識別技術(shù)的作用主要包括兩方面:(1)發(fā)聲者辨認,主要用于在從某一語音材料的若干發(fā)聲者中尋找指定發(fā)聲者;(2)發(fā)聲者確認,主要用于確認某一語料是否由指定發(fā)聲者發(fā)出。聲紋識別技術(shù)實現(xiàn)原理和語音識別技術(shù)原理類似,但聲紋技術(shù)識別主要是對其發(fā)聲者身份的進行判斷,因此實現(xiàn)過程相較于語音識別更簡單。未來,聲紋識別技術(shù)的主要發(fā)展方向為降低發(fā)聲者身體狀況、說話的方式、錄音信道及環(huán)境噪音對聲紋信息的干擾,提高聲紋信息技術(shù)在干擾因素下的識別準確度。自然語言理解自然語言理解技術(shù)是通過利用處理語言技術(shù),使計算機理解人類語言的含義,并通過對話的方式回答用戶提出的問題。自然語音理解技術(shù)指將表達語音的一種方式映射為計算機能理解的表達方式,其使用原理是根據(jù)上下文辨識一個多義詞在指定句子中的確切意義,并根據(jù)句子的結(jié)構(gòu)和詞義推導該句子的句義。未來,自然語音理解技術(shù)將引入部分規(guī)則機制,利用規(guī)則和統(tǒng)計結(jié)合的方式彌補計算機對系統(tǒng)語言理解的不足。同時自然語言理解技術(shù)將開放學習機制,修正統(tǒng)計數(shù)據(jù),彌補語料統(tǒng)計數(shù)據(jù)的局限性。語音去噪語音去噪技術(shù)通過控制語音通信過程中的語音質(zhì)量,提高系統(tǒng)對于語音理解的準確性,緩解噪音污染對于語音收錄影響。在語音通信的過程中,實現(xiàn)波束形成、回聲消除和噪聲抑制都需要復雜的算法和大量的信號處理,回聲消除算法是目前語音去噪技術(shù)較常用的算法類型。有效的回聲消除算法需要持續(xù)的在一顆DSP芯片上運行,但有限的DSP芯片資源有限將影響數(shù)據(jù)傳輸?shù)母咝院蛯崟r性,影響語音處理算法的算力以及語音處理系統(tǒng)的性能。語音去噪技術(shù)的成熟度是提高語音識別系統(tǒng)性能的保障。未來,語音去噪技術(shù)將不斷提高與實際環(huán)境使用的結(jié)合度,減少噪音干擾對語音語義識別的影響。數(shù)據(jù)來源:公開資料整理
根據(jù)數(shù)據(jù)顯示,2018年,我國智能語音行業(yè)市場規(guī)模為157.9億元,較上年同比增長56.6%;2019年,我國智能語音行業(yè)市場規(guī)模為**億元,較上年同比增長**%。2015-2019年我國智能語音行業(yè)市場規(guī)模及增速
數(shù)據(jù)來源:公開資料整理
一、優(yōu)勢分析
(1)智能語音核心技術(shù)升級發(fā)展:語音合成技術(shù)方面,在語音合成技術(shù)中最具代表性的語音合成方法為HMM模型,可以在不受人工干預的情況下,構(gòu)建較小尺寸的合成系統(tǒng),適合應(yīng)用于嵌入式設(shè)備。近年來,語音合成技術(shù)的發(fā)展已接近自然人的發(fā)音水平,并從單一廣播風格發(fā)展至擁有語調(diào)、情緒的程度。語音合成技術(shù)的發(fā)展為智能語音在車載導航、移動終端等設(shè)備的應(yīng)用奠定基礎(chǔ)。
語音識別技術(shù)方面,我國語音識別技術(shù)發(fā)展較快,其發(fā)展水平已實現(xiàn)與國外同步。語音識別技術(shù)的發(fā)展推動了語音聽寫技術(shù)在醫(yī)療、報社、銀行、電信等領(lǐng)域的應(yīng)用,同時推動嵌入式識別系統(tǒng)進入智能終端領(lǐng)域。伴隨以語言學為基礎(chǔ)的文法模型的轉(zhuǎn)變,語音識別技術(shù)可以保證計算機更好的理解自然語言。并且人工神經(jīng)網(wǎng)絡(luò)技術(shù)在語音識別領(lǐng)域的應(yīng)用,可以有效緩解噪聲環(huán)境下的語音識別準確度不高的問題,助力智能語音設(shè)備為用戶帶來較好的消費體驗。
聲紋識別技術(shù)方面,聲紋識別技術(shù)通過探測語音信號提取用戶獨有的聲門開合頻率、口腔大小形狀及聲道長度等聲學特征,進而識別發(fā)聲者身份。聲紋識別技術(shù)的應(yīng)用可以有效解決遠程身份認證、網(wǎng)絡(luò)交易、生存認證等問題,并且保障信息傳輸?shù)陌踩?、完整性和可靠性。因此,聲紋識別技術(shù)的發(fā)展推動智能語音在國家安全、電話銀行、智能門禁等領(lǐng)域的廣泛應(yīng)用。
(2)輔助技術(shù)的發(fā)展為行業(yè)發(fā)展提供契機:在智能語音行業(yè)中,深度學習、大數(shù)據(jù)、云計算等輔助技術(shù)的發(fā)展提高了語音識別的準確率、降低了數(shù)據(jù)存儲所需的硬件成本,為智能語音行業(yè)的發(fā)展提供契機,助力智能語音行業(yè)發(fā)展。
深度學習方面:深度學習是推動智能語音行業(yè)發(fā)展的關(guān)鍵性技術(shù),基于深度神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)和機器翻譯技術(shù)可以大幅提高自然語言處理的準確率,為用戶帶來較好的消費體驗。深度學習技術(shù)可以伴隨數(shù)據(jù)規(guī)模的增加不斷提升其性能,當海量數(shù)據(jù)持續(xù)輸入存儲,設(shè)備的分辨性能將不會被影響,同時保證智能語音系統(tǒng)使用的流暢性。深度學習技術(shù)的應(yīng)用使機器可從數(shù)據(jù)中直接提取特征,產(chǎn)品設(shè)計者無需對每一個問題設(shè)計特征提取器,設(shè)計環(huán)節(jié)的簡化將有效節(jié)省產(chǎn)品設(shè)計及生產(chǎn)成本,降低技術(shù)難度。深度學習技術(shù)的應(yīng)用推動智能語音行業(yè)技術(shù)門檻的降低,吸引更多行業(yè)參與者布局智能語音市場,推動行業(yè)發(fā)展。
云計算方面:云計算服務(wù)為智能語音設(shè)備提供強大的運算能力和資源整合能力,提高智能語音后臺技術(shù)的智能化水平,使終端設(shè)備獲得云端服務(wù)器級別的運算能力,進一步提高語音識別能力,推動智能語音技術(shù)應(yīng)用逐步落地。各智能語音服務(wù)商可以在傳統(tǒng)云計算結(jié)構(gòu)上建立新的服務(wù)層,提高智能語音設(shè)備在語音識別、自然語言處理等方面的核心能力。
大數(shù)據(jù)方面:大數(shù)據(jù)技術(shù)的發(fā)展為智能語音后端數(shù)據(jù)存儲提供支持。大數(shù)據(jù)技術(shù)特有的分布式存儲技術(shù)能夠?qū)我惑w量巨大的語音數(shù)據(jù)文件切分成不同模塊,使其能夠存放于多臺計算機所建構(gòu)的集群中。多臺計算機之間通過相互通信,將集群內(nèi)的存儲空間進行資源整合、數(shù)據(jù)虛擬化,并向外提供文件訪問服務(wù)的文件系統(tǒng)。大數(shù)據(jù)技術(shù)在智能語音領(lǐng)域的應(yīng)用極大的降低了數(shù)據(jù)存儲所需的硬件成本。
(3)語言交互優(yōu)化用戶的消費體驗:語言交互是利用語言信息進行交互的技術(shù),在空間上打破了用戶與智能設(shè)備的距離限制。語音交互技術(shù)的發(fā)展幫助用戶實現(xiàn)了本能表達,解放消費者感官的占用,優(yōu)化用戶的消費體驗。除改善用戶體驗的優(yōu)勢外,語音交互還具有明顯的速度優(yōu)勢。在用戶與智能語音進行語音交互時,語音輸入效率明顯高于文字輸入效率。自然語言處理技術(shù)的發(fā)展縮短了語音識別的處理時間,具有明顯的效率優(yōu)勢。我國智能語音行業(yè)優(yōu)勢
數(shù)據(jù)來源:公開資料整理
二、劣勢分析
(1)行業(yè)基礎(chǔ)層技術(shù)存在短板:目前,我國智能語音行業(yè)基礎(chǔ)層的核心關(guān)鍵技術(shù)積累較薄弱,算法、芯片及基礎(chǔ)元器件的原創(chuàng)科技實力與國外企業(yè)相差較大。智能語音行業(yè)基礎(chǔ)層核心技術(shù)實力欠缺,如芯片、傳感器等核心元器件,不僅影響行業(yè)原創(chuàng)科技成果的輸出,并且核心技術(shù)或生產(chǎn)環(huán)節(jié)長期依賴國外,不利于我國智能語音企業(yè)建立國際競爭優(yōu)勢。
(2)語音識別技術(shù)的“魯棒性”問題凸顯:在智能語音硬件的真實使用場景中,方言、噪音、遠場、斷句等情況不可避免。語音采集地點變更導致的環(huán)境及背景噪音差異、語音信號傳輸載體方式多樣導致的傳輸信道差異,都將造成語音信號的頻譜畸變,導致智能語音系統(tǒng)對于用戶需求的準確識別產(chǎn)生偏差。語音識別技術(shù)的成熟度將影響各應(yīng)用領(lǐng)域智能生態(tài)的構(gòu)建及發(fā)展,語音識別技術(shù)的“魯棒性”問題亟待解決。
(3)自然語言處理技術(shù)尚不成熟:自然語言處理(NLP)技術(shù)主要包含三個層面,分別為詞法分析、句法分析、語義分析。在語義分析層面,機器對句子的理解只能做到語義角色標注層面,即標出句中的句子成分和主被動關(guān)系等,詞義消歧是制約自然語言處理(NLP)技術(shù)的最大阻礙。語音識別系統(tǒng)在完成切詞、標注詞性以及詞語識別后,需要對每個詞語進行理解。但由于一詞多義的情況無法避免,機器無法比擬人力基于語言環(huán)境和知識儲備消除各種歧義的能力,因此基于自然語言處理技術(shù)的語音識別系統(tǒng)在實際操作情況并不理想。我國智能語音行業(yè)劣勢
數(shù)據(jù)來源:公開資料整理
三、機遇分析
(1)政策支持:近年來,我國相繼出臺多項政策推動包括智能語音在內(nèi)的人工智能產(chǎn)業(yè)發(fā)展。如2017年,工業(yè)和信息化部制定《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018-2020年)》?!缎袆右?guī)劃》按照“系統(tǒng)布局、重點突破、協(xié)同創(chuàng)新、開放有序”的原則,為人工智能行業(yè)的發(fā)展提出了多方面的任務(wù)。我國智能語音行業(yè)相關(guān)政策頒布日期政策名稱制定部門主要內(nèi)容及影響2015年《中國制造2025》國務(wù)院加大科技創(chuàng)新力度,推動移動互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等技術(shù)在智能制造領(lǐng)域的突破2017年《新一代人工智能發(fā)展規(guī)劃》國務(wù)院以提升新一代人工智能科技創(chuàng)新能力為主攻方向,發(fā)展智能經(jīng)濟,建設(shè)智能社會,維護國家安全,構(gòu)筑知識群、技術(shù)群、產(chǎn)業(yè)群互動融合和人才、制度、文化相互支撐的生態(tài)系統(tǒng)2017年《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018-2020年)》工業(yè)和信息化部《行動規(guī)劃》按照“系統(tǒng)布局、重點突破、協(xié)同創(chuàng)新、開放有序”的原則,為人工智能行業(yè)的發(fā)展提出了多方面的任務(wù)數(shù)據(jù)來源:公開資料整理
(2)智能語音行業(yè)大力發(fā)展深度集成語音AI芯片:深度集成語音AI芯片利用主要算法和芯片架構(gòu)深度集成,將芯片和語音識別算法技術(shù)組合成語音模塊,放置在設(shè)備中。用戶只需向設(shè)備發(fā)送指令,設(shè)備中的語音模塊通過麥克風將語音導入設(shè)備變成電信號,語音模塊再將電信號提取出來進行運算,從而實現(xiàn)“人機交互”。深度集成語音AI芯片擁有較大的數(shù)據(jù)存儲空間,無需將語音語料上傳至云端進行計算,保護信息安全性。深度集成語音AI芯片降低了設(shè)備的數(shù)據(jù)運算量及功耗,在節(jié)約設(shè)備運行成本的同時,提高智能語音處理速度,提升消費者的用戶體驗。
(3)智能語音行業(yè)構(gòu)建智能語音專利池:目前我國智能語音行業(yè)進入快速成長期,語音技術(shù)在各下游場景的商業(yè)化應(yīng)用日益廣泛,推動智能語音產(chǎn)業(yè)分工的細化以及科學技術(shù)的密集化。落地的智能語音產(chǎn)品會涉及眾多專利技術(shù),且分屬于不同所有者,眾多的專利請求、復雜的專利授權(quán)、以及高額的專利侵權(quán)賠償?shù)葐栴}將阻礙智能語音新技術(shù)的實踐運用。智能語音行業(yè)建立智能語音專利池,將有效降低交易成本,消除專利實施中的授權(quán)障礙,減少企業(yè)間的專利糾紛、有利于專利技術(shù)的推廣應(yīng)用。
四、威脅分析
(1)人工智能芯片壟斷威脅:人工智能芯片作為智能語音產(chǎn)業(yè)的核心,芯片的技術(shù)成熟度將影響智能語音設(shè)備的性能。人工智能芯片行業(yè)的技術(shù)門檻較高
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版人力資源服務(wù)戰(zhàn)略框架協(xié)議
- 2024年藝術(shù)品買賣合同:真品性與價值評估
- 2024年預制件加工與裝配式建筑構(gòu)件物流配送合同3篇
- 《子女撫養(yǎng)權(quán)與財產(chǎn)分割合同》版B版
- 2 我們的班規(guī)我們訂(說課稿)2024-2025學年統(tǒng)編版道德與法治四年級上冊
- 2024渣土外運過程中環(huán)境保護合同
- 2024年網(wǎng)絡(luò)安全與風險管理協(xié)議
- 專用燒烤制品買賣協(xié)議(2024版)版A版
- 培訓咨詢服務(wù)協(xié)議書(2篇)
- 2024年航天器研發(fā)與發(fā)射合同
- 教學能力大賽獲獎之教學實施報告
- 小學數(shù)學專題講座(課堂PPT)
- 三晶8000B系列變頻器說明書
- 左傳簡介完整
- 體育中國(上海大學)超星爾雅學習通網(wǎng)課章節(jié)測試答案
- 幽默動感年會互動PPT演示模板
- 麒麟小學創(chuàng)建五好關(guān)工委工作實施方案
- 榕江縣銻礦 礦業(yè)權(quán)出讓收益計算書
- 七年級英語句型轉(zhuǎn)換專題訓練100題含答案
- 盤查戰(zhàn)術(shù)教案
- GB/T 2652-2022金屬材料焊縫破壞性試驗熔化焊接頭焊縫金屬縱向拉伸試驗
評論
0/150
提交評論