艾瑞咨詢:2022年中國智能語音轉(zhuǎn)寫行業(yè)研究報告-43正式版_第1頁
艾瑞咨詢:2022年中國智能語音轉(zhuǎn)寫行業(yè)研究報告-43正式版_第2頁
艾瑞咨詢:2022年中國智能語音轉(zhuǎn)寫行業(yè)研究報告-43正式版_第3頁
艾瑞咨詢:2022年中國智能語音轉(zhuǎn)寫行業(yè)研究報告-43正式版_第4頁
艾瑞咨詢:2022年中國智能語音轉(zhuǎn)寫行業(yè)研究報告-43正式版_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

釋放數(shù)字生產(chǎn)力,留存探索語音內(nèi)容智能語音轉(zhuǎn)寫行業(yè)研究報告?2022.12iResearchInc.前言研究背景:在工具不發(fā)達(dá)的年代,會議記錄主要依靠人力完成,以多人合作的分工形式提升記錄效率。后隨著記錄工具不斷升級和專業(yè)培訓(xùn),人工轉(zhuǎn)寫的效率也在不斷提升,專業(yè)速錄師可依靠速錄機(jī)完成會議等場景的轉(zhuǎn)寫需求,但成本較高。后隨著互聯(lián)網(wǎng)及人工智能技術(shù)的不斷發(fā)展,智能語音轉(zhuǎn)寫產(chǎn)品應(yīng)運(yùn)而生。尤其在2011年,大量研究人員轉(zhuǎn)向深度學(xué)習(xí)在智能語音領(lǐng)域的研究,利用大數(shù)據(jù)、機(jī)器學(xué)習(xí)和大算力“三駕馬車”,讓語音識別的識別準(zhǔn)確度再一次得到明顯提升,智能語音技術(shù)迎來落地應(yīng)用的發(fā)展期?!惫び破涫?,必先利其器“,智能化的語音轉(zhuǎn)寫服務(wù)以價優(yōu)、質(zhì)高、便捷的優(yōu)勢滿足了轉(zhuǎn)寫記錄這一交流場景的需求痛點,并在遠(yuǎn)程辦公、新媒體、國際化交流的需求背景下,未來保持強(qiáng)勁市場增長力。對此,艾瑞發(fā)布《中國智能語音轉(zhuǎn)寫行業(yè)研究報告》,從語音識別-智能轉(zhuǎn)寫產(chǎn)品角度出發(fā),確立智能語音轉(zhuǎn)寫服務(wù)的范圍定義,描繪智能語音轉(zhuǎn)寫服務(wù)的產(chǎn)業(yè)圖譜與需求市場,梳理智能語音轉(zhuǎn)寫服務(wù)在SaaS軟件服務(wù)及本地解決方案的不同產(chǎn)品形式、商業(yè)模式及廠商格局,并為中國智能語音轉(zhuǎn)寫行業(yè)的趨勢發(fā)展提供分析判斷,希望通過本報告,為讀者呈現(xiàn)中國智能語音轉(zhuǎn)寫的產(chǎn)業(yè)發(fā)展背景、行業(yè)廠商動態(tài)、產(chǎn)品發(fā)展機(jī)遇的多維視角,歡迎各界探討指正。研究對象:作為語音識別技術(shù)的產(chǎn)品應(yīng)用,智能語音轉(zhuǎn)寫產(chǎn)品是可以支持長音頻識別的語音轉(zhuǎn)文字服務(wù),分為實時語音轉(zhuǎn)寫與非實時語音轉(zhuǎn)寫,可為信息處理和數(shù)據(jù)挖掘提供基礎(chǔ)。研究方法:本報告通過業(yè)內(nèi)資深的專家訪談、桌面研究、產(chǎn)品對比研究、行業(yè)數(shù)據(jù)統(tǒng)計與行業(yè)規(guī)模推算輸出相應(yīng)研究成果。

報告撰寫艾瑞咨詢產(chǎn)業(yè)數(shù)字化研究部人工智能研究組2摘要智能語音產(chǎn)業(yè)發(fā)展智能語音轉(zhuǎn)寫產(chǎn)品智能語音轉(zhuǎn)寫市場智能語音轉(zhuǎn)寫趨勢洞察

近年來,智能語音技術(shù)與互聯(lián)網(wǎng)、企業(yè)服務(wù)、消費(fèi)硬件、傳媒、醫(yī)療健康等各行業(yè)的深度融合帶來了新的用戶需求增長和商業(yè)模式創(chuàng)新,創(chuàng)造產(chǎn)業(yè)經(jīng)濟(jì)價值、繁榮產(chǎn)業(yè)生態(tài),算法模型、優(yōu)質(zhì)數(shù)據(jù)集與多樣化應(yīng)用場景助力產(chǎn)業(yè)規(guī)模走高。部分智能語音產(chǎn)品如語音助手、語音轉(zhuǎn)寫、智能客服等取得產(chǎn)品價值突破或商業(yè)上的顯著成就,語音識別相關(guān)產(chǎn)品多已進(jìn)入穩(wěn)步上升期。但在細(xì)分產(chǎn)品的交互體驗、使用效果、場景優(yōu)化等方面仍面臨長期求索。人們面對“AI”時希望得到的自然、類人、甚至高信息密度的交互體驗,仍然是一個宏偉的開放性課題。語音識別產(chǎn)品早期主要是語音聽寫,即用戶說一句、機(jī)器識別一句;后來發(fā)展成語音轉(zhuǎn)寫,更聚焦于人人交流場景。智能語音轉(zhuǎn)寫是可以支持長音視頻的語音轉(zhuǎn)文字服務(wù),附加產(chǎn)品服務(wù)、多語種翻譯、內(nèi)容分析等智能化功能,滿足用戶在會議、庭審、采訪、直播、視頻制作、客服質(zhì)檢等場景中的實時與非實時語音轉(zhuǎn)寫需求。隨著語音識別準(zhǔn)確性及效率的提升、多語種與方言轉(zhuǎn)寫服務(wù)豐富,以及上下文糾正、標(biāo)點過濾、自定義熱詞配置、聲紋角色分離、語音內(nèi)容分析提取等功能的逐步優(yōu)化,智能語音轉(zhuǎn)寫服務(wù)的商業(yè)化落地與多場景復(fù)用持續(xù)推進(jìn),成為語音識別產(chǎn)品的“排頭兵”。在人力成本、協(xié)同辦公、傳媒音視頻、會展交流、跨國溝通等多重因素驅(qū)動下,中國智能轉(zhuǎn)寫市場不斷注入需求活力,2021年中國智能語音轉(zhuǎn)寫市場規(guī)模已約為10億元。未來,隨著智能轉(zhuǎn)寫的技術(shù)突破、功能豐富及場景泛化,智能轉(zhuǎn)寫市場規(guī)模將加速上揚(yáng),預(yù)計2026年市場規(guī)模將達(dá)到38億。從產(chǎn)品形態(tài)來看,智能轉(zhuǎn)寫產(chǎn)品主要包括SaaS類產(chǎn)品與本地化部署解決方案兩大類。其中,SaaS市場頭部聚集效應(yīng)顯著,訊飛聽見與搜狗聽寫位列第一梯隊,訊飛聽見在轉(zhuǎn)寫準(zhǔn)確率尤其是小語種和方言等、產(chǎn)品豐富度、品牌影響力和發(fā)展?jié)摿S度拔得頭籌。未來,SaaS形式API調(diào)用與垂類解決方案將形成合力,構(gòu)成智能語音轉(zhuǎn)寫產(chǎn)業(yè)既快且穩(wěn)的增長飛輪,高生態(tài)活性加硬解決方案實力的企業(yè)將更能突出重圍,搶占更多增量市場。從技術(shù)趨勢來看,語音識別技術(shù)的精度和速度仍取決于實際應(yīng)用環(huán)境,面對“混合語種”“嘈雜環(huán)境”下的“多人”“交互”“重疊”等多重因素交織的復(fù)雜語音場景,語音轉(zhuǎn)寫技術(shù)應(yīng)用仍有待突破;從場景價值來看,如今智能轉(zhuǎn)寫應(yīng)用領(lǐng)域大多僅服務(wù)于從語音到文字轉(zhuǎn)寫內(nèi)容的實現(xiàn),未來轉(zhuǎn)寫應(yīng)用可結(jié)合自然語言理解、機(jī)器學(xué)習(xí)、知識圖譜等AI技術(shù),拓展轉(zhuǎn)寫產(chǎn)品的場景邊界,深入挖掘轉(zhuǎn)寫內(nèi)容價值,以更高階、智能的輔助替代角色,為客戶提供問題預(yù)警、策略總結(jié)、決策分析等功能服務(wù);從廠商策略來看,各家將以構(gòu)建自身產(chǎn)品生態(tài),加強(qiáng)外部場景合作為策略核心,基于自身企業(yè)特點選擇差異化側(cè)重,共同推進(jìn)轉(zhuǎn)寫技術(shù)的應(yīng)用滲透與市場發(fā)展。來源:艾瑞咨詢研究院自主研究繪制。?2022.12iResearchInc. 3智能語音轉(zhuǎn)寫行業(yè)——發(fā)展背景篇 1智能語音轉(zhuǎn)寫行業(yè)——市場分析篇 2智能語音轉(zhuǎn)寫行業(yè)典型企業(yè)案例 3智能語音轉(zhuǎn)寫行業(yè)——發(fā)展趨勢篇 44智能語音產(chǎn)業(yè)的宏觀背景數(shù)字信息輸入輸出的重要載體,人工智能產(chǎn)業(yè)落地“先鋒軍”智能語音技術(shù)指通過聲音信號的前端處理、語音識別(ASR)、自然語言處理(NLP)、語音合成(TTS)等技術(shù)形成完整的人機(jī)語音交互流程,是實現(xiàn)人與機(jī)器交流的紐帶,也是數(shù)字信息輸入與輸出的重要載體。近年來,智能語音技術(shù)與互聯(lián)網(wǎng)、企業(yè)服務(wù)、消費(fèi)硬件、傳媒、醫(yī)療健康等各行業(yè)的深度融合帶來了新的用戶需求增長和商業(yè)模式創(chuàng)新,創(chuàng)造產(chǎn)業(yè)經(jīng)濟(jì)價值、繁榮產(chǎn)業(yè)生態(tài)。智能語音產(chǎn)業(yè)的迅速發(fā)展促進(jìn)了我國數(shù)字經(jīng)濟(jì)發(fā)展、提高了社會治理的智能化水平、推動了我國人工智能技術(shù)創(chuàng)新的戰(zhàn)略突破。作為人工智能產(chǎn)業(yè)落地的“先鋒軍”,智能語音產(chǎn)業(yè)得到了國家和地方政策的有力支持,且隨著參與者不斷進(jìn)入智能語音賽道,“百舸爭流,千帆競發(fā)”,產(chǎn)業(yè)技術(shù)水平和產(chǎn)品競爭力不斷提高。中國智能語音產(chǎn)業(yè)典型應(yīng)用場景及政策匯總(部分)發(fā)布日期相關(guān)機(jī)構(gòu)重點內(nèi)容2022-05國務(wù)院辦公廳強(qiáng)化科技賦能,進(jìn)一步加強(qiáng)12345平臺和網(wǎng)上12345能力建設(shè),開發(fā)智能推薦、語音自動轉(zhuǎn)寫、自助派單功能協(xié)同辦公工業(yè)和信息化部批復(fù)組建國家智能語音創(chuàng)新中心,將圍繞多語種語音識別、語音合成2021-11工信部語義理解和專用人工智能語音芯片等研發(fā)方向,構(gòu)建集共性技術(shù)研發(fā)、測試驗證、中試孵化和成果轉(zhuǎn)移轉(zhuǎn)化于一體的創(chuàng)新平臺提出加強(qiáng)自助下單、智能文本客服、智能語音等智能化應(yīng)用,方便企業(yè)和群眾反映訴智能客服2021-01國務(wù)院辦公廳求建議智能機(jī)器人2020-10工信部鼓勵智能家居產(chǎn)品普及語音控制功能,推動基于智能語音識別技術(shù)的智能音箱、智能可穿戴設(shè)備及其他智能家電產(chǎn)品開發(fā),老年人可通過語音方式實現(xiàn)便捷化操作2019-02最高人民法院全面提升語音識別技術(shù)在庭審語音同步轉(zhuǎn)錄中的應(yīng)用效能,建成全國法院智能語音云平臺,實現(xiàn)全國法院語音識別的模型共享和統(tǒng)一管理傳媒制作2018-04國務(wù)院辦公廳開展智能醫(yī)學(xué)影像識別、病理分型和多學(xué)科會診以及多種醫(yī)療健康場景下的智能語音技術(shù)應(yīng)用,提高醫(yī)療服務(wù)效率2017-07科技部公布了首批國家新一代人工智能開放創(chuàng)新平臺,包括自動駕駛、城市大腦醫(yī)療影像和智能家居智能語音2017-07司法部大力發(fā)展電子公證、法律服務(wù)智能保障等業(yè)務(wù)模式,推進(jìn)人工智能語音熱線和社交網(wǎng)絡(luò)法律服務(wù)機(jī)器人技術(shù)研發(fā),促進(jìn)公共法律服務(wù)提檔來源:艾瑞研究院根據(jù)公開資料自主研究繪制。?2022.12iResearchI5智能語音產(chǎn)業(yè)的市場規(guī)模2022年智能語音市場規(guī)模達(dá)215億元,產(chǎn)業(yè)規(guī)模持續(xù)走高近年來,我國人工智能產(chǎn)業(yè)維持穩(wěn)步增長態(tài)勢;其中,智能語音產(chǎn)業(yè)基于語音識別等算法模型突破、優(yōu)質(zhì)數(shù)據(jù)集積累和豐富的下游應(yīng)用場景創(chuàng)新,已進(jìn)入規(guī)?;罡A段。我國頭部智能語音企業(yè)、大型互聯(lián)網(wǎng)企業(yè)等紛紛以“開放平臺+垂直賽道”的發(fā)展模式,一方面通過語音開放平臺為各行業(yè)開發(fā)者提供智能語音技術(shù)支撐,協(xié)作場景與產(chǎn)品創(chuàng)新,助力產(chǎn)業(yè)規(guī)模增長;另一方面憑借各自在消費(fèi)硬件、協(xié)同辦公、視頻直播等領(lǐng)域的行業(yè)理解與用戶生態(tài),持續(xù)拓展智能車載、娛樂傳媒、協(xié)同辦公、智慧醫(yī)療、在線教育、智能家居等垂直行業(yè)賽道,以語音為信息的出入口,構(gòu)建泛語音產(chǎn)業(yè)生態(tài)集群。2022年中國智能語音產(chǎn)業(yè)規(guī)??蛇_(dá)215億元且維持較高增速,預(yù)計到2026年產(chǎn)業(yè)規(guī)模可達(dá)469億元。2019-2026年中國智能語音產(chǎn)業(yè)規(guī)模CAGR=16.9%41.6%45.9%35.2%26.5%21.7%19.6%18.4%469331396215272159109772019202020212022e2023e2024e2025e2026e智能語音產(chǎn)業(yè)規(guī)模(億元)智能語音產(chǎn)業(yè)增速(%)注釋:智能語音典型產(chǎn)品包括對話機(jī)器人、智能硬件中的AI語音助手以及教育、醫(yī)療、司法、公安、互聯(lián)網(wǎng)等垂直行業(yè)中的智能語音產(chǎn)品及應(yīng)用。來源:艾瑞咨詢研究院根據(jù)專家訪談,結(jié)合艾瑞統(tǒng)計模型自主研究繪制。?2022.12iResearchInc.

6智能語音產(chǎn)業(yè)的產(chǎn)品成熟度語音識別相關(guān)產(chǎn)品多已進(jìn)入穩(wěn)步上升期人類對機(jī)器語音識別的探索始于20世紀(jì)50年代,迄今已逾70年。2016年,在深度神經(jīng)網(wǎng)絡(luò)的幫助下,機(jī)器語音識別準(zhǔn)確率第一次達(dá)到人類水平,意味著智能語音技術(shù)落地期到來。后隨著近場語音識別準(zhǔn)確率提升、遠(yuǎn)場語音識別和喚醒發(fā)展、全雙工語音交互出現(xiàn)、基于NLP的對話和問答能力逐漸成熟、知識圖譜技術(shù)助力對話引擎以及針對實際應(yīng)用中的算法優(yōu)化,智能語音技術(shù)的落地可用性不斷突破。但其背后涉及的聲學(xué)研究、模式識別研究、通用NLP研究及垂直場景的深度語義理解等還未成熟到拼成一個沒有明顯短板的“木桶”。因此盡管部分智能語音產(chǎn)品如語音助手、語音轉(zhuǎn)寫、智能客服等已取得了產(chǎn)品價值突破或商業(yè)上的顯著成就,但在細(xì)分產(chǎn)品的交互體驗、使用效果、場景優(yōu)化等方面仍面臨長期求索。人們面對“AI”時希望得到的自然、類人、甚至高信息密度的交互體驗,仍然是一個宏偉的開放性課題。2022年中國智能語音產(chǎn)品成熟度曲線分布產(chǎn)品語音輸入法成語音識別語音轉(zhuǎn)寫熟智能車載度智能語音開發(fā)平臺智能消費(fèi)硬件表示智能語音相關(guān)技術(shù)的語音助手語音播報一階產(chǎn)品,可衍生出各細(xì)分領(lǐng)域的產(chǎn)品應(yīng)用。如智能客語音合成智能客服服+金融、基于語音助手的智能音箱等語音審核表示智能語音技術(shù)二階產(chǎn)聲紋識別品,如基于語音識別技術(shù)的自然語言處理語音芯片智能語音轉(zhuǎn)寫產(chǎn)品、基于語生成式AI(音頻)音合成技術(shù)的語音播報等萌芽探索期落地實踐期飛躍發(fā)展期穩(wěn)步上升期生產(chǎn)成熟期階段技術(shù)落地初期階段,產(chǎn)品普及率提升,產(chǎn)品規(guī)?;瘧?yīng)用,成熟度趨于穩(wěn)定,成熟度穩(wěn)定階段。但產(chǎn)品成熟度較低成熟度曲線處于成熟度快速增長產(chǎn)品及服務(wù)差異化技術(shù)若出現(xiàn)跨越性突緩慢爬坡期競爭階段破,產(chǎn)品或回到飛躍來源:艾瑞咨詢研究院自主研究及繪制。發(fā)展階段?2022.12iResearchI7智能語音轉(zhuǎn)寫的定義與分類語音識別產(chǎn)品的重要輸出形態(tài),分為實時與非實時語音轉(zhuǎn)寫語音識別產(chǎn)品早期主要是語音聽寫,即用戶說一句、機(jī)器識別一句;后來發(fā)展成語音轉(zhuǎn)寫,更聚焦于人人交流場景。智能語音轉(zhuǎn)寫是可以支持長音視頻的語音轉(zhuǎn)文字服務(wù),分為實時語音轉(zhuǎn)寫與非實時語音轉(zhuǎn)寫,可為信息處理和數(shù)據(jù)挖掘提供基礎(chǔ)。適用于線上線下會議記錄轉(zhuǎn)寫、影視字幕制作、媒體新聞工作、會議翻譯等多個應(yīng)用情境。作為數(shù)字化勞動力,解決剛需問題,有效提高辦公效率。隨著語音識別準(zhǔn)確性及效率的提升、多語種與方言轉(zhuǎn)寫服務(wù)豐富,以及上下文糾正、標(biāo)點過濾、語氣詞過濾、自定義熱詞配置、聲紋角色分離、語音內(nèi)容分析提取等智能化服務(wù)功能的逐步優(yōu)化,智能語音轉(zhuǎn)寫服務(wù)的商業(yè)化落地與多場景復(fù)用持續(xù)推進(jìn),成為語音識別產(chǎn)品的“排頭兵”。智能語音轉(zhuǎn)寫產(chǎn)品定義與分類語音作為智能交互中的一環(huán),進(jìn)行語音識別,讓機(jī)器“理解”人類說的話語,而非以識別為最終產(chǎn)品目的識別語音轉(zhuǎn)寫:支持長音視頻的語音轉(zhuǎn)文字服務(wù),可為信息處理和數(shù)據(jù)挖掘提供基礎(chǔ)。01 實時語音轉(zhuǎn)寫

02 非實時語音轉(zhuǎn)寫實時語音轉(zhuǎn)寫(流式上傳-同步獲?。簩崟r語音轉(zhuǎn)寫可將不限時長的音頻流實時識別為文字,并返回帶有時間戳的文字流;可用于直播實時字幕、實時會議記錄;也可配合機(jī)器翻譯,實現(xiàn)同傳功能。

非實時語音轉(zhuǎn)寫(已錄制音頻文件上傳-異步獲?。悍菍崟r語音轉(zhuǎn)寫將長段音頻數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù)??捎糜谟耙曌帜恢谱?、會議訪談記錄轉(zhuǎn)寫、智能客服錄音質(zhì)檢等場景。來源:艾瑞咨詢研究院自主研究及繪制。?2022.12iResearchInc.

8語音識別系統(tǒng)技術(shù)架構(gòu)實現(xiàn)對聲音波形序列的識別,得到相應(yīng)的單詞或者字符序列智能語音轉(zhuǎn)寫產(chǎn)品的核心是語音識別系統(tǒng),需實現(xiàn)對給定的聲音波形序列的識別,得到相應(yīng)的單詞或者字符序列。語音識別系統(tǒng)由信號處理和特征提取、聲學(xué)模型(AcousticModel,AM)、語言模型(LanguageModel,LM)和解碼搜索共四部分組成。識別過程首先對音頻流進(jìn)行處理,通過消除噪聲和信道失真對語音進(jìn)行增強(qiáng),然后分割聲音片段并轉(zhuǎn)換成一系列數(shù)值,通過聲學(xué)模型識別數(shù)值,最終利用語言模型解碼搜索匹配得到最優(yōu)的詞序列作為識別結(jié)果輸出。聲學(xué)模型和語言模型的獲得需對預(yù)先收集好的海量語音、語言數(shù)據(jù)庫進(jìn)行信號處理和知識挖掘訓(xùn)練。解碼過程中還存在一個“自適應(yīng)”反饋模塊,可對用戶的語音進(jìn)行自學(xué)習(xí),從而對模型進(jìn)行校正,進(jìn)一步提高識別準(zhǔn)確率。智能語音轉(zhuǎn)寫產(chǎn)品核心——語音識別系統(tǒng)的技術(shù)結(jié)構(gòu)Step1信號處理和特征提?。阂砸纛l模擬信號輸入,將其轉(zhuǎn)為數(shù)字信號,提取聲音特征,供聲學(xué)模型提取合適有代表性的特征向量。

音頻信號識別結(jié)果信號處理和特征提取 解碼搜索聲音特征 聲學(xué)模型得分 語言模型得分

Step3解碼搜索:對給定的特征向量序列和若干假設(shè)詞序列計算聲學(xué)模型分?jǐn)?shù)和語言模型分?jǐn)?shù),將總體輸出分?jǐn)?shù)最高的詞序列作為識別結(jié)果。Step2聲學(xué)模型語言模型聲學(xué)模型將聲學(xué)和發(fā)音學(xué)(Phonetics)的知語言模型通過訓(xùn)練語料/數(shù)據(jù)(通常是文本形式)識進(jìn)行整合,以特征提取部分生成的特征為輸學(xué)習(xí)詞之間的相互關(guān)系,來估計假設(shè)詞序列的可能入,并為可變長特征序列生成聲學(xué)模型分?jǐn)?shù)。性,找出該聲音特征最有可能對應(yīng)的文字序列。來源:艾瑞根據(jù)CSDN等公開資料整理研究繪制。?2022.12iResearchInc.

0.850.950.700.85聲學(xué)dakaikongtiao模型0.850.950.200.15dakaizhaoming語言打開空調(diào)0.95大凱空調(diào)0.70模型大楷空條0.35 9語音識別技術(shù)發(fā)展歷程聲學(xué)模型突破引領(lǐng)技術(shù)商業(yè)落地進(jìn)程從最初的基于孤立詞的小詞匯量語音識別系統(tǒng),到目前的基于大詞匯量的連續(xù)語音識別系統(tǒng),語音識別技術(shù)取得了顯著的進(jìn)展。語言模型主要基于傳統(tǒng)的N-Gram方法(一種基于統(tǒng)計語言模型的算法)進(jìn)行統(tǒng)計匹配。雖然目前也有深度神經(jīng)網(wǎng)絡(luò)的語言模型的研究,但在實用中主要還是更多用于后處理糾錯?;蚣尤隢LPEmbedding模型,聯(lián)系上下文,以提升語音識別結(jié)果準(zhǔn)確率。而縱觀其技術(shù)落地的突破路徑,對于聲音模型的研究優(yōu)化是實現(xiàn)產(chǎn)品性能提升的主旋律。聲學(xué)模型是語音識別系統(tǒng)的重要組成部分,占據(jù)著大部分的計算資源并決定著語音識別系統(tǒng)的性能。2009年隨著深度學(xué)習(xí)技術(shù)發(fā)展,基于DNN-HMM的語音聲學(xué)模型成為主流,語音識別因此取得了突破性進(jìn)展;此后,不同的網(wǎng)絡(luò)結(jié)構(gòu)組合以及優(yōu)化策略極大提升了聲學(xué)模型的性能,如端到端的識別模型、粗粒度的建模單元、更復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)等。語音識別技術(shù)中聲學(xué)模型的突破路徑u深度神經(jīng)網(wǎng)絡(luò)方法主導(dǎo)u概率統(tǒng)計方法主導(dǎo)2006年:深度學(xué)習(xí)進(jìn)入發(fā)展元年。2019年,Hinton將DNN應(yīng)用于語音的聲學(xué)建模;2011年底,微軟研究院將DNN技術(shù)應(yīng)用在了大詞匯量u模板匹配方法主導(dǎo)概率統(tǒng)計識別:隱馬爾可夫模型連續(xù)語音識別任務(wù)上,大大降低了語音識別錯誤率。從此語音識別進(jìn)入(HMM)和高斯混合模型DNN-HMM時代。此外LSTM(遞歸神經(jīng)網(wǎng)絡(luò)模型)具有長短時記憶模板匹配識別:提取語音信號的特(DMM)。GMM-HMM框架中,能力,整體性能比DNN有相對20%左右穩(wěn)定提升征構(gòu)建參數(shù)模板,將測試語音與參GMM用于對語音聲學(xué)特征的分布進(jìn)2015-2017:基于端到端識別模型可去除HMM,直接從聲學(xué)特征輸入考模板參數(shù)進(jìn)行比較匹配,取距離行建模,HMM則用于對語音信號的就可以得到識別的詞序列,進(jìn)一步提升語音識別準(zhǔn)確率及解碼速度。最近的樣本所對應(yīng)的詞標(biāo)注為該語時序性進(jìn)行建模。自上世紀(jì)90年代2017年以后:隨著各種深度神經(jīng)網(wǎng)絡(luò)以及端到端技術(shù)的興起,業(yè)界廠音信號的發(fā)音。該方法可有效解決語音識別聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則商紛紛發(fā)布及持續(xù)優(yōu)化各自聲學(xué)模型結(jié)構(gòu)。語音識別準(zhǔn)確率持續(xù)提升。孤立詞識別,但難以實現(xiàn)大詞匯量、和模型自適應(yīng)方法被提出以后,語音以科大訊飛為例,2010年中英文識別準(zhǔn)確率只有60%左右,而在2021非特定人連續(xù)語音識別。識別進(jìn)入緩慢發(fā)展期。年8月,科大訊飛廠商的中英文轉(zhuǎn)寫準(zhǔn)確率已突破98.33%。~1970s1970s~20062006~至今來源:艾瑞研究院根據(jù)公開資料自主研究繪制。?2022.12iResearchI10智能語音轉(zhuǎn)寫的需求場景以轉(zhuǎn)寫功能為基礎(chǔ),滿足細(xì)分場景需求,構(gòu)成豐富產(chǎn)品形態(tài)自從以遠(yuǎn)場語音技術(shù)落地為代表的智能音箱產(chǎn)品規(guī)模化應(yīng)用、深度神經(jīng)網(wǎng)絡(luò)下的聲學(xué)模型研發(fā)創(chuàng)新進(jìn)入平穩(wěn)發(fā)展期后,語音識別賽道的產(chǎn)業(yè)競爭已經(jīng)從標(biāo)準(zhǔn)環(huán)境下的算法研發(fā)比拼,過渡到了在真實細(xì)分需求場景下如何滿足用戶體驗的競爭。智能語音轉(zhuǎn)寫產(chǎn)品也遵循這一賽道特征,以語音轉(zhuǎn)文字功能為基礎(chǔ),附加產(chǎn)品服務(wù)、多語種翻譯、內(nèi)容分析等智能化服務(wù)功能,滿足用戶在會議、庭審、采訪、直播、視頻制作、客服質(zhì)檢等場景中的實時與非實時語音轉(zhuǎn)寫需求。智能語音轉(zhuǎn)寫產(chǎn)品具備豐富的產(chǎn)品形態(tài),可應(yīng)用于娛樂傳媒、在線教育、會議會展、同傳等多行業(yè)領(lǐng)域,幫助提升企事業(yè)單位辦公人群、學(xué)生、自媒體從業(yè)人員、翻譯專業(yè)人士等各類群體的工作效率。智能語音轉(zhuǎn)寫產(chǎn)品的需求場景

? 對響應(yīng)時間要求更高,需進(jìn)行模型蒸餾與模產(chǎn)品服務(wù)轉(zhuǎn)寫功能內(nèi)容分析

提供會議記錄及會后整理,可附加會議軟件等產(chǎn)品功能提供字幕轉(zhuǎn)寫服務(wù),可附加音視頻編輯相關(guān)產(chǎn)品功能提供語音轉(zhuǎn)寫服務(wù),在多語種環(huán)語種境下,附加實時/非實時翻譯功能翻譯?提供人機(jī)耦合服務(wù),譯員配合智能轉(zhuǎn)寫內(nèi)容優(yōu)化最終產(chǎn)出提供語音轉(zhuǎn)寫服務(wù),對轉(zhuǎn)寫文本進(jìn)行內(nèi)容追蹤、實時提醒、處理分析、風(fēng)控質(zhì)檢等等操作

實時場景非實時場景

型優(yōu)化實時會議記錄實時直播字幕實時庭審記錄實時客服記錄實時采訪轉(zhuǎn)寫實時會議同傳?對響應(yīng)時間要求相對較低,可通過閑時轉(zhuǎn)寫實現(xiàn)需求錯峰會議紀(jì)要總結(jié)音視頻字幕編輯庭審數(shù)據(jù)錄入黃暴等語音質(zhì)檢課堂錄音分析電話銷售/客服來源:艾瑞研究院根據(jù)公開資料自主研究繪制。?2022.12iResearchInc.

11智能語音轉(zhuǎn)寫的價值意義存量助力人工轉(zhuǎn)寫市場,增量釋放更多潛在場景需求傳統(tǒng)人力轉(zhuǎn)寫市場依賴經(jīng)驗豐富的速錄師與人工轉(zhuǎn)寫團(tuán)隊,成本相對高昂,而隨著智能語音轉(zhuǎn)寫產(chǎn)品的規(guī)模化落地應(yīng)用,該類存量市場可借助智能轉(zhuǎn)寫產(chǎn)品,實現(xiàn)對人工轉(zhuǎn)寫的有效輔助及優(yōu)化,為下游客戶提供更高質(zhì)效的人機(jī)耦合服務(wù);此外,轉(zhuǎn)寫應(yīng)用仍有更大規(guī)模的潛在市場需求待挖掘,原受限于渠道、價格等因素,轉(zhuǎn)寫產(chǎn)品多應(yīng)用于有垂類轉(zhuǎn)寫需求的小眾應(yīng)用領(lǐng)域,而智能語音轉(zhuǎn)寫產(chǎn)品逐步讓轉(zhuǎn)寫應(yīng)用實現(xiàn)泛化,市場邊界也將逐步擴(kuò)散,未來智能語音轉(zhuǎn)寫產(chǎn)品有望開發(fā)更多潛在增量市場,撬動可用智能轉(zhuǎn)寫產(chǎn)品滿足的長尾需求,進(jìn)一步優(yōu)化用戶的應(yīng)用體驗。智能語音轉(zhuǎn)寫產(chǎn)品意義智能語音轉(zhuǎn)寫產(chǎn)品在助力轉(zhuǎn)寫人力基礎(chǔ)上,可滿足更多潛在、可被優(yōu)化的轉(zhuǎn)寫場景需求。增量市場存量市場來源:艾瑞研究院根據(jù)公開材料自主研究繪制。?2022.12iResearchInc.

2)滿足更多潛在可被優(yōu)化需求本身場景存在潛在轉(zhuǎn)寫需求,但人力實現(xiàn)需要高成本或原本人力難以做到,而智能轉(zhuǎn)寫產(chǎn)品可開發(fā)該類潛在增量市場,釋放更多產(chǎn)值規(guī)模。1)優(yōu)化傳統(tǒng)轉(zhuǎn)寫人力服務(wù)傳統(tǒng)人工轉(zhuǎn)寫費(fèi)時費(fèi)力,且轉(zhuǎn)寫質(zhì)量與個人能力高度掛鉤,可借力智能轉(zhuǎn)寫產(chǎn)品提高存量市場的轉(zhuǎn)寫服務(wù)滲透率。

通過智能語音轉(zhuǎn)寫產(chǎn)品撬動更多長尾需求例:個人辦公場景,有會議內(nèi)容的潛在轉(zhuǎn)寫需求,出于時長與精力考量不會自做,出于成本考量不會外購,但可通過智能語音轉(zhuǎn)寫產(chǎn)品獲得優(yōu)質(zhì)高效、兼具性價比的轉(zhuǎn)寫服務(wù)。例:溝通交流場景,在多語種、方言溝通的日常交流環(huán)境中,存在潛在語音轉(zhuǎn)寫需求,可通過轉(zhuǎn)寫產(chǎn)品跨越語言障礙,實現(xiàn)高效溝通。 12智能語音轉(zhuǎn)寫行業(yè)——發(fā)展背景篇 1智能語音轉(zhuǎn)寫行業(yè)——市場分析篇 2智能語音轉(zhuǎn)寫行業(yè)典型企業(yè)案例 3智能語音轉(zhuǎn)寫行業(yè)——發(fā)展趨勢篇 413智能語音轉(zhuǎn)寫產(chǎn)業(yè)圖譜2022年中國智能語音轉(zhuǎn)寫產(chǎn)業(yè)圖譜上游基礎(chǔ)設(shè)施層產(chǎn)品及解決方案提供商下游應(yīng)用領(lǐng)域服務(wù)器智能語音企業(yè)辦公場景電商直播云服務(wù)傳媒場景翻譯場景云服務(wù)廠商數(shù)據(jù)服務(wù)其他場景……專業(yè)轉(zhuǎn)寫/開源模型翻譯廠商C端用戶B端企業(yè)G端政府來源:艾瑞根據(jù)公開資料自主研究繪制。?2022.12iResearchI14智能語音轉(zhuǎn)寫的發(fā)展驅(qū)力(1/5)智能語音轉(zhuǎn)寫可化解人工成本走高與質(zhì)量要求提升的發(fā)展矛盾近十年來,中國人口增勢放緩,勞動人口紅利見頂,供應(yīng)結(jié)構(gòu)性短缺致使企業(yè)人力用工成本不斷攀升。根據(jù)國家統(tǒng)計局?jǐn)?shù)據(jù),2020年中國租賃和商務(wù)服務(wù)業(yè)城鎮(zhèn)單位就業(yè)人員平均工資已達(dá)到92924元,相比十年前漲幅已達(dá)到1.35倍。人工轉(zhuǎn)寫成本的大幅上漲為轉(zhuǎn)寫行業(yè)帶來更多價格壓力。此外,隨著轉(zhuǎn)寫場景的泛化升級,轉(zhuǎn)寫需求滲透到各行各業(yè),轉(zhuǎn)寫內(nèi)容專業(yè)度也不斷提升,具備行業(yè)背景知識的轉(zhuǎn)寫譯員更成為市場供給側(cè)的稀缺人力資源,且轉(zhuǎn)寫交付水平存在不穩(wěn)定性,與個人服務(wù)能力高度掛鉤。在此發(fā)展背景下,轉(zhuǎn)寫市場亟需智能語音轉(zhuǎn)寫產(chǎn)品,以輔助優(yōu)化人工轉(zhuǎn)寫產(chǎn)品的角度切入,提供低成本、高質(zhì)量、具備穩(wěn)定交付水平的轉(zhuǎn)寫服務(wù),滿足更多市場需求缺口。2010-2020年中國租賃和商務(wù)服務(wù)業(yè)城鎮(zhèn)單位就業(yè)人員平均工資情況18.7%13.2%17.6%7.3%8.0%5.9%6.0%4.6%3.6%5.4%813938514788190929246713172489767826253846976531623956620102011201220132014201520162017201820192020租賃和商務(wù)服務(wù)業(yè)城鎮(zhèn)單位就業(yè)人員平均工資(元)平均工資增長率(%)來源:國家統(tǒng)計局,艾瑞研究院自主研究繪制。?2022.12iResearchI15智能語音轉(zhuǎn)寫的發(fā)展驅(qū)力(2/5)企業(yè)協(xié)同在線辦公常態(tài)化,助力轉(zhuǎn)寫功能實現(xiàn)更多用戶觸達(dá)2020年初,受疫情影響,很多企業(yè)無法按時復(fù)工復(fù)產(chǎn),遠(yuǎn)程辦公成為維持社會經(jīng)濟(jì)正常運(yùn)行的重要平臺應(yīng)用,用戶需求顯著提升,視頻會議、電話會議、在線文檔編輯等遠(yuǎn)程協(xié)作功能得到更廣泛應(yīng)用。根據(jù)中國互聯(lián)網(wǎng)絡(luò)發(fā)展統(tǒng)計報告數(shù)據(jù),2022年月中國在線辦公用戶規(guī)模已躍升至4.7億,相比2020年6月增長幅度高達(dá)131.4%。如今疫情仍在延宕反復(fù),隨著用戶在線協(xié)同辦公習(xí)慣的逐漸養(yǎng)成,遠(yuǎn)程協(xié)同辦公或?qū)⒊蔀槌B(tài)化運(yùn)營工具,持續(xù)推動企業(yè)數(shù)字化轉(zhuǎn)型。而相較于硬件錄音與錄音應(yīng)用的產(chǎn)品形式,會議應(yīng)用無需用戶購買錄音設(shè)備或額外開啟錄音應(yīng)用即可觸達(dá)轉(zhuǎn)寫服務(wù),提供了更直接的應(yīng)用切入點,助力轉(zhuǎn)寫功能在辦公場景實現(xiàn)更廣泛的用戶觸達(dá)。2018年6月-2022年6月中國在線辦公用戶規(guī)模及使用率45.4% 43.8%37.7%34.9%21.2%4.62.02020.62020.122021.62021.122022.6用戶規(guī)模(億人)使用率(%)來源:中國互聯(lián)網(wǎng)絡(luò)發(fā)展統(tǒng)計報告,艾瑞研究院自主研究繪制。?2022.12iResearchI

辦公場景對智能轉(zhuǎn)寫產(chǎn)品的需求分析相較傳統(tǒng)需要錄音筆與錄音應(yīng)用的場景,協(xié)同在線辦公平臺及會議應(yīng)用讓轉(zhuǎn)寫功能觸達(dá)到更多辦公人群,應(yīng)用滲透率進(jìn)一步提升。硬件錄音e.g.錄音筆ü需要硬件設(shè)備轉(zhuǎn)專業(yè)辦公人士,高頻錄音場景,對會議轉(zhuǎn)寫有強(qiáng)需求,需要額外硬件設(shè)備提供在線/離線轉(zhuǎn)寫服務(wù)。寫產(chǎn)錄音應(yīng)用e.g.語音備忘錄ü需要額外錄音品通過手機(jī)或電腦的錄音軟件錄音,隨后將錄音文辦公件上傳至平臺或APP,完成錄音文件轉(zhuǎn)寫。場會議應(yīng)用e.g.騰訊會議、訊飛聽見ü搭載辦公景會議平臺會議APP提供遠(yuǎn)程會議平臺,通過會議APP錄制音視頻,為轉(zhuǎn)寫產(chǎn)品提供直接功能切入點。來源:艾瑞研究院自主研究繪制。?2022.12iResearchI16智能語音轉(zhuǎn)寫的發(fā)展驅(qū)力(3/5)網(wǎng)絡(luò)視頻興起,為轉(zhuǎn)寫產(chǎn)品開拓更多應(yīng)用空間隨著數(shù)字技術(shù)與互聯(lián)網(wǎng)技術(shù)的普及,網(wǎng)絡(luò)視頻快速發(fā)展,短視頻因滿足用戶高漲的碎片化娛樂需求而迎來一撥爆發(fā)式增長,進(jìn)一步提升用戶對整體網(wǎng)絡(luò)視頻領(lǐng)域的關(guān)注度與滲透率。如今網(wǎng)絡(luò)視頻已然成為人們生活娛樂、了解信息的重要組成形式。根據(jù)中國互聯(lián)網(wǎng)絡(luò)發(fā)展統(tǒng)計報告數(shù)據(jù),2022年6月,中國網(wǎng)絡(luò)視頻用戶規(guī)模已經(jīng)達(dá)到9.9億人,占全部網(wǎng)民的94.6%。作為網(wǎng)絡(luò)視頻的供給方,自媒體工作者、長視頻內(nèi)容編輯方均對視頻內(nèi)容的字幕轉(zhuǎn)寫具備強(qiáng)需求,一方面字幕可幫助用戶更好觀看視頻內(nèi)容,并在靜音模式也不影響觀看;另一方面字幕轉(zhuǎn)寫還可提供翻譯功能,助力網(wǎng)絡(luò)視頻在國際環(huán)境下的推動傳播;此外,對于平臺監(jiān)管方來說,語音轉(zhuǎn)寫可服務(wù)于平臺內(nèi)容監(jiān)控需求,及時進(jìn)行內(nèi)容管理,避免網(wǎng)絡(luò)直播及視頻帶來的合規(guī)風(fēng)險。綜合來看,網(wǎng)絡(luò)視頻的長足發(fā)展為轉(zhuǎn)寫產(chǎn)品開拓了更多市場應(yīng)用空間。2018年6月-2022年6月中國網(wǎng)絡(luò)視頻(含短視頻)用戶規(guī)模及使用率94.1%94.5%93.7%93.4%94.5%94.6%88.7%87.5%88.8%..2.6201820182019202020202020202120212022用戶規(guī)模(億人)使用率(%)來源:中國互聯(lián)網(wǎng)絡(luò)發(fā)展統(tǒng)計報告,艾瑞研究院自主研究繪制。?2022.12iResearchI

網(wǎng)絡(luò)視頻對智能轉(zhuǎn)寫產(chǎn)品的需求分析自媒體長視頻編輯服務(wù)于內(nèi)容生產(chǎn)用戶,智能服務(wù)于長視頻編輯工作者,切分時間軸。生成帶時間戳例如電影、紀(jì)錄片等,長視的轉(zhuǎn)寫字幕內(nèi)容,支持在線頻的語音轉(zhuǎn)寫更強(qiáng)調(diào)上下文編輯調(diào)整,極大提升自媒體聯(lián)系及方言理解,對語音技工作者的字幕配置效率。術(shù)提出更高要求。多語種轉(zhuǎn)寫語音內(nèi)容監(jiān)控為外語視頻提供轉(zhuǎn)寫及翻實時轉(zhuǎn)寫可實時識別直播譯服務(wù),可根據(jù)需要配置內(nèi)容風(fēng)險,并給出及時警專業(yè)翻譯團(tuán)隊,實現(xiàn)高效告提示;非實時轉(zhuǎn)寫可對人機(jī)耦合,完成多語種的平臺內(nèi)容進(jìn)行進(jìn)一步甄別字幕制作及翻譯需求。提示。來源:中國互聯(lián)網(wǎng)絡(luò)發(fā)展統(tǒng)計報告,艾瑞研究院自主研究繪制。?2022.12iResearchI17智能語音轉(zhuǎn)寫的市場環(huán)境(4/5)會展雙線融合舉辦不斷提升,SaaS轉(zhuǎn)寫產(chǎn)品需求走高在2020年以前,會展行業(yè)多在線下舉行。面對國際語言的交流環(huán)境,會展行業(yè)的字幕轉(zhuǎn)寫產(chǎn)品大多采用線下人機(jī)耦合的服務(wù)模式,即專業(yè)的語音轉(zhuǎn)寫服務(wù)團(tuán)隊與硬件機(jī)器設(shè)備相結(jié)合,為會展交流提供字幕上屏、多語種同傳等的現(xiàn)場會議服務(wù)。而在疫情多點散發(fā)的情況下,會展活動的舉辦面臨很多不確定性因素。根據(jù)中國會展主辦機(jī)構(gòu)數(shù)字化調(diào)研報告顯示,2021年,疫情導(dǎo)致各類會展活動取消、延期、異地舉辦,會展活動選擇線上線下相結(jié)合模式舉辦成為常態(tài)。字幕轉(zhuǎn)寫產(chǎn)品形態(tài)也由原來線下的人機(jī)耦合形式逐漸傾向于線上SaaS服務(wù)形式,并可配合線上人工智能服務(wù)團(tuán)隊或翻譯團(tuán)隊提供實時校驗服務(wù)。此外,SaaS產(chǎn)品形態(tài)的需求延伸進(jìn)一步豐富轉(zhuǎn)寫產(chǎn)品的客群覆蓋度,除會展舉辦方外,更多C端用戶也可通過SaaS轉(zhuǎn)寫及翻譯產(chǎn)品滿足個人國際參會、實時翻譯的會展需求。2021年中國會展主辦機(jī)構(gòu)調(diào)研主要數(shù)據(jù)u數(shù)字化轉(zhuǎn)型態(tài)度u數(shù)字化轉(zhuǎn)型方向超過90%的機(jī)構(gòu)對數(shù)字化31.3%的機(jī)構(gòu)認(rèn)為數(shù)字化轉(zhuǎn)型呈積極與樂觀態(tài)度,轉(zhuǎn)型是大方向,超過50%該比例相較于2020年提升的機(jī)構(gòu)已經(jīng)開始數(shù)字化轉(zhuǎn)6個百分點。型嘗試。u數(shù)字化收入占比u雙線融合辦展趨勢根據(jù)調(diào)研顯示,超過60%根據(jù)調(diào)研顯示,近70%的的會展機(jī)構(gòu)能獲得各位數(shù)主辦機(jī)構(gòu)選擇雙線融合辦字化收入。但數(shù)字化收入展的方式,線上線下結(jié)合占比有待提升。已成為會展常態(tài)。注釋:N=195。來源:《DRCEO:中國會展主辦機(jī)構(gòu)數(shù)字化調(diào)研2022》,艾瑞咨詢研究院整理及繪制。?2022.12iResearchInc.

2021年中國會展主辦機(jī)構(gòu)辦展辦會方式線上會展成為線下舉辦的延伸助力,線上+線下呈現(xiàn)深度融合的發(fā)展趨勢101738361495027331420222113108純線下舉辦純線上舉辦線上+線下相結(jié)合舉辦1-3場(個)4-5場(個)6-10場(個)10場以上(個)以上均沒有舉辦(個)注釋:N=195。來源:《DRCEO:中國會展主辦機(jī)構(gòu)數(shù)字化調(diào)研2022》,艾瑞咨詢研究院整理及繪制。?2022.12iResearchInc. 18智能語音轉(zhuǎn)寫的市場環(huán)境(5/5)轉(zhuǎn)寫產(chǎn)品助力解決出海生態(tài)下的復(fù)合型翻譯人才需求近年來雖然新冠疫情反復(fù)、地緣沖突加劇,全球經(jīng)濟(jì)發(fā)展變數(shù)頻發(fā),但中國企業(yè)出海浪潮已逐漸越過探索期,在視頻、游戲、電商、企業(yè)級SaaS服務(wù)等各領(lǐng)域催生出“出海繁榮”。2021年,中國對外直接投資凈額1788.2億美元,比上年增長16.3%,連續(xù)十年位列全球前三,且超越出現(xiàn)統(tǒng)計數(shù)據(jù)以來首次負(fù)增長的2017年絕對值。目前,由于海外市場仍處于高速增長階段且出海市場各賽道集中度不高,我國出海行業(yè)仍具有極大潛力,在企業(yè)業(yè)務(wù)運(yùn)營、跨國交流等領(lǐng)域?qū)?fù)合型翻譯人才需求較大。根據(jù)中國翻譯協(xié)會調(diào)研,高級翻譯人才稀缺、非通用語種人才匱乏、高校教育與實際工作需求脫節(jié)、無法滿足多個專業(yè)領(lǐng)域翻譯需求是翻譯行業(yè)面臨的發(fā)展難點。在此背景下,智能語音轉(zhuǎn)寫產(chǎn)品的翻譯及同傳功能,不僅能有效提高翻譯工作者的工作效率,同時人機(jī)耦合的形式也使各領(lǐng)域的非翻譯專業(yè)人才具備完成業(yè)務(wù)需要翻譯工作的可能性。2016-2021年中國對外直接投資凈額12.3%16.3%-19.3%-9.6%-4.3%1582.91788.21430.41537.11369.120172018201920202021中國對外直接投資凈額(億美元)增長率(%)來源:商務(wù)部、國家統(tǒng)計局和國家外匯管理局,艾瑞研究院繪制。?2022.12iResearchI

2021年中國復(fù)合型翻譯人才需求情況6%外交學(xué)、國際關(guān)系7%8%31%新聞傳播類8%理工及其他專業(yè)法學(xué)類經(jīng)濟(jì)學(xué)類13%哲學(xué)類、中國語言文學(xué)類27%電子信息類、管理科學(xué)與工程類來源:中國翻譯協(xié)會《2022中國翻譯人才發(fā)展報告》,艾瑞研究院繪制。?2022.12iResearchI19智能語音轉(zhuǎn)寫的行業(yè)規(guī)模需求活力持續(xù)注入,預(yù)計2026年市場規(guī)模達(dá)38億目前,智能轉(zhuǎn)寫產(chǎn)品率先在辦公會議、傳媒音視頻、會展交流等領(lǐng)域展開應(yīng)用,用戶接受度日益成熟。據(jù)艾瑞研究院統(tǒng)計測算,2021年中國智能語音轉(zhuǎn)寫市場規(guī)模已約為10億元。未來,隨著智能轉(zhuǎn)寫的技術(shù)突破、功能豐富及場景泛化,智能轉(zhuǎn)寫市場規(guī)模將加速上揚(yáng)。此外,轉(zhuǎn)寫產(chǎn)品可結(jié)合NLP、知識圖譜技術(shù)在單純轉(zhuǎn)寫內(nèi)容的基礎(chǔ)上升級為分析策略的輸出層級,釋放更多價值勢能,預(yù)計2026年中國智能語音轉(zhuǎn)寫行業(yè)市場規(guī)模將達(dá)到38億元,2021-2026五年CAGR=30.7%。2021-2026年中國智能轉(zhuǎn)寫行業(yè)規(guī)模28.3% 29.9%1713102021 2022e2023e智能轉(zhuǎn)寫行業(yè)規(guī)模(億元)來源:艾瑞研究院根據(jù)桌研與專家訪談自主建模測算。?2022.12iResearchInc.

31.1%32.9%31.4%3829222024e2025e2026e智能轉(zhuǎn)寫行業(yè)規(guī)模增長率(%) 20智能語音轉(zhuǎn)寫的參與者類型以語音技術(shù)、產(chǎn)品生態(tài)、細(xì)分領(lǐng)域為多樣立足點根據(jù)參與廠商的市場立足點劃分,智能語音轉(zhuǎn)寫賽道的玩家可分為語音技術(shù)廠商、云服務(wù)廠商與專業(yè)轉(zhuǎn)寫及翻譯服務(wù)商。其中語音技術(shù)廠商在語音識別能力、轉(zhuǎn)寫服務(wù)水平上具備先發(fā)優(yōu)勢,且投入足夠精力進(jìn)行技術(shù)研發(fā)與產(chǎn)品打磨,產(chǎn)品化能力優(yōu)秀,現(xiàn)占據(jù)智能語音轉(zhuǎn)寫市場的主流廠商地位;而云服務(wù)廠商的轉(zhuǎn)寫能力對內(nèi)服務(wù)于內(nèi)部產(chǎn)品的轉(zhuǎn)寫功能需求,對外多選擇開放語音轉(zhuǎn)寫能力達(dá)成外部合作以豐富平臺生態(tài),垂直于轉(zhuǎn)寫的產(chǎn)品化能力較弱;專業(yè)轉(zhuǎn)寫及翻譯廠商通常以細(xì)分領(lǐng)域切入,深耕于辦公、翻譯、傳媒等某個細(xì)分領(lǐng)域,在垂類市場提供精細(xì)化、客制化產(chǎn)品及解決方案,滿足細(xì)分客戶的轉(zhuǎn)寫服務(wù)需要。 智能語音轉(zhuǎn)寫參與者類型分析以細(xì)分領(lǐng)域切入傳統(tǒng)轉(zhuǎn)寫或翻譯服務(wù)商,持續(xù)積累垂直轉(zhuǎn)寫需求客群,順應(yīng)智能轉(zhuǎn)寫技術(shù)發(fā)展,切入細(xì)分領(lǐng)域,提供人機(jī)耦合的優(yōu)化產(chǎn)品服務(wù)。廠商代表:網(wǎng)易見外、迅捷語音以產(chǎn)品生態(tài)切入依附公司產(chǎn)品生態(tài),見長于平臺化能力,在辦公、泛娛樂、教育等場景搭配軟硬件產(chǎn)品輸出轉(zhuǎn)寫能力,一般分為對內(nèi)與對外服務(wù)廠商代表:阿里云、騰訊云、百度云、火山引擎

專業(yè)轉(zhuǎn)寫/翻譯廠商語音技術(shù)廠商云服務(wù)廠商

以語音技術(shù)切入強(qiáng)于語音識別能力,為客戶提供語音轉(zhuǎn)寫接口、SaaS產(chǎn)品及全套解決方案等多樣化轉(zhuǎn)寫產(chǎn)品形式。除軟件服務(wù)外,硬件設(shè)備是觸達(dá)用戶的核心端口,部分語音技術(shù)廠商選擇從AIoT領(lǐng)域切入,依托于智能耳機(jī)、智能錄音筆、智慧屏等智能硬件產(chǎn)品進(jìn)一步開拓轉(zhuǎn)寫應(yīng)用場景廠商代表:科大訊飛、搜狗聽寫、思必馳、捷通華聲來源:艾瑞研究院自主研究繪制。?2022.12iResearchInc. 21智能語音轉(zhuǎn)寫的產(chǎn)品形態(tài)包括SaaS類產(chǎn)品及本地化部署解決方案,均可結(jié)合智能硬件智能語音轉(zhuǎn)寫服務(wù)的產(chǎn)品形態(tài)主要包括SaaS類產(chǎn)品與本地化部署解決方案兩大類。以SaaS類產(chǎn)品為主,其核心是提供云端語音識別及轉(zhuǎn)寫服務(wù),根據(jù)客戶分類與應(yīng)用情景差異,包括輕量級的網(wǎng)頁版/APP/PC/小程序產(chǎn)品和提供給B/G端客戶的API開發(fā)接口。SaaS類產(chǎn)品的主要特點是價格相對便宜、便捷度較高;而本地化部署的解決方案主要是為了滿足客戶的安全隱私與定制化需求,例如接入到政企內(nèi)部辦公平臺等,需要服務(wù)商具備定制化開發(fā)能力。此外,為了提升語音采集的質(zhì)量及多樣化的移動應(yīng)用場景,頭部廠商如訊飛聽見、搜狗聽寫等開發(fā)了種類豐富的功能性智能轉(zhuǎn)寫硬件,如錄音筆、麥克風(fēng)、智慧屏等,可提供云端或本地轉(zhuǎn)寫、錄音、存儲、編輯一體服務(wù)。智能語音轉(zhuǎn)寫產(chǎn)品形態(tài)SaaS類產(chǎn)品通過Web/APP/PC/小程序等提供云端提供封裝語音轉(zhuǎn)以錄音筆、麥語音識別及轉(zhuǎn)寫服務(wù),主要服務(wù)于C端客寫能力的API接克風(fēng)、智慧屏戶或企業(yè)賬戶,企業(yè)賬戶或具備空間管理、口。下游應(yīng)用開等語音采集硬協(xié)同編輯等增值服務(wù)。通過行業(yè)詞庫和模發(fā)商和手機(jī)、錄件為依托,調(diào)型優(yōu)化,產(chǎn)品可滿足傳媒、教培、金融、音筆等智能終端用云端語音識客服等多場景應(yīng)用需求廠商可進(jìn)行集成別及轉(zhuǎn)寫能力本地化部署解決方案提供單機(jī)版軟件/私有化部署SDK接口,在本地 通過硬件內(nèi)置芯片與本地詞庫,提可運(yùn)行語音識別及轉(zhuǎn)寫能力。滿足客戶的定制化 供本地/離線轉(zhuǎn)寫服務(wù)。滿足對數(shù)需求與安全隱私需求,但部署成本高,主要面向 據(jù)及網(wǎng)絡(luò)安全、便捷性及移動辦公對數(shù)據(jù)安全需求較高的大型企業(yè)或公檢法、廣電 等需求。移動端轉(zhuǎn)寫能力與實用性傳媒等政府客戶 的提升,擴(kuò)充轉(zhuǎn)寫功能的適用范圍來源:艾瑞研究院根據(jù)公開資料自主研究繪制。?2022.12iResearchInc.

利用麥克風(fēng)陣列,通過聲學(xué)技術(shù)保障拾音效果,以提升語音采集精準(zhǔn)度。軟硬一體形式提升智能轉(zhuǎn)寫質(zhì)量及效率,硬并滿足會議、訪談件等多類型需求場景價值點 ?豐富消費(fèi)級智能硬件產(chǎn)品形態(tài),提高產(chǎn)品售價、促進(jìn)營收增長 22智能語音轉(zhuǎn)寫的收費(fèi)模式與用戶畫像知識密集行業(yè)用戶的辦公效率提升利器,下游客戶類型豐富1)SaaS產(chǎn)品的前期投入主要集中于產(chǎn)品研發(fā)以及固定的IT支出,得益于其能夠同時為多租戶提供服務(wù)的特性,使得SaaS的邊際成本極低。這既給SaaS廠商帶來了相當(dāng)可觀的邊際利潤,也讓廠商在面對同類競爭時得以在價格上做出更多讓步。對于C端客戶的語音轉(zhuǎn)寫服務(wù)需求,產(chǎn)品提供方在早期一般采取低價或免費(fèi)試用時長的模式集聚用戶,占領(lǐng)用戶心智,迅速做大用戶量。后期營收增長依賴滿足準(zhǔn)確率與實時率下的剛需客戶續(xù)費(fèi)率、深耕多樣化場景以拓寬潛在客戶市場、軟硬一體的智能硬件產(chǎn)品拉高營收等;而企業(yè)客戶的價格敏感度則相對較低,更關(guān)注轉(zhuǎn)寫精準(zhǔn)度和實時性體驗等。對于遠(yuǎn)程會議、視頻剪輯、CRM等下游應(yīng)用,則多將語音轉(zhuǎn)寫作為附加功能提供增值服務(wù),用戶可付費(fèi)解鎖。2)本地部署解決方案可滿足政企客戶的定制化與安全隱私需求。但部署成本高,項目制報價形式涵蓋軟件服務(wù)、實施與運(yùn)維、硬件設(shè)備等費(fèi)用??蛻粼陉P(guān)注轉(zhuǎn)寫效果的同時,亦關(guān)注安全性、駐場訓(xùn)練語料、設(shè)備安裝等實施及售后服務(wù)能力。SaaS類產(chǎn)品單筆訂單單筆付費(fèi)儲值卡(時長)轉(zhuǎn)寫按月/年訂閱制服務(wù)免費(fèi)應(yīng)用后向廣告收費(fèi)

智能語音轉(zhuǎn)寫產(chǎn)品的收費(fèi)模式與用戶畫像個人用戶畫像:主要轉(zhuǎn)按照時長和并是學(xué)生、媒體工作者、寫發(fā)計費(fèi)IT/金融辦公人群等。能豐富的下游場景應(yīng)主要來自于一二線城力用客戶市的知識密集型行業(yè)。接一次性license其中PC端使用者多為口有強(qiáng)辦公需求的企事賦能下游手機(jī)、錄業(yè)單位用戶,更重電音設(shè)備等硬件廠商腦音頻編輯

本地部署解決方案單機(jī)版軟件費(fèi)用私有化部署費(fèi)用項運(yùn)維費(fèi)用目制報硬件設(shè)備費(fèi)用價企業(yè)賬戶附加功能企業(yè)賬戶基礎(chǔ)收費(fèi)模式同上,開通空間管理、協(xié)同編輯等增值服務(wù)來源:艾瑞研究院根據(jù)公開資料自主研究繪制。?2022.12iResearchInc.

企業(yè)賬戶畫像:主要集中于影視劇后期、教培機(jī)構(gòu)等

智硬件付費(fèi)+能軟件服務(wù)免費(fèi)硬免費(fèi)使用轉(zhuǎn)寫、翻譯件等語言服務(wù)

用戶畫像:主要面向政府、高校及大型企業(yè)??蛻粜枰D(zhuǎn)寫功能的對接與嵌入,對于數(shù)據(jù)安全、可拓展、靈活性要求更高,包括對需求響應(yīng)的及時程度等 23智能語音轉(zhuǎn)寫SaaS產(chǎn)品分析高便捷性、開箱即用、按需使用、快速響應(yīng)及多場景優(yōu)化1)基于SaaS的語音轉(zhuǎn)寫服務(wù)產(chǎn)品通過將音頻文件上傳至云端,由云端轉(zhuǎn)寫引擎進(jìn)行識別、轉(zhuǎn)寫、糾錯,完成實時或非實時的語音轉(zhuǎn)寫輸出。終端用戶可以在網(wǎng)頁或者APP上獲取結(jié)果,還可對結(jié)果進(jìn)行編輯、分享、導(dǎo)出等操作。語音轉(zhuǎn)寫服務(wù)廠商通過多領(lǐng)域的語音轉(zhuǎn)寫模型優(yōu)化和行業(yè)詞庫,迭代更新以提升不同應(yīng)用場景下的轉(zhuǎn)寫準(zhǔn)確率,服務(wù)多類型客戶。隨著云計算技術(shù)發(fā)展,目前云端算力和網(wǎng)絡(luò)環(huán)境比較穩(wěn)定,SaaS轉(zhuǎn)寫產(chǎn)品的轉(zhuǎn)寫準(zhǔn)確率和效率與私有化部署解決方案的用戶感知度差距不是特別顯著。高便捷性、較低成本等優(yōu)勢使語音轉(zhuǎn)寫SaaS產(chǎn)品擁有龐大的終端消費(fèi)群體。2)且SaaS形式的轉(zhuǎn)寫產(chǎn)品具有開箱即用無需維護(hù)、按需使用等特點,可被集成到下游應(yīng)用軟件或手機(jī)、智慧屏、錄音筆、智能會議系統(tǒng)等各類硬件設(shè)備中。API轉(zhuǎn)寫引擎可支持遠(yuǎn)程會議、線上會展、電商直播、短視頻、在線課堂等軟件應(yīng)用的紀(jì)要轉(zhuǎn)寫、字幕制作、同傳翻譯等功能,拓寬應(yīng)用的產(chǎn)品服務(wù)邊界。廣泛的下游生態(tài)也有助于語音轉(zhuǎn)寫產(chǎn)品加速起量,擴(kuò)大潛在市場空間。智能語音轉(zhuǎn)寫SaaS產(chǎn)品特點高便捷性通過網(wǎng)絡(luò)提供服務(wù),用戶可多設(shè)備、多渠道接入,隨時訪問;且數(shù)據(jù)儲存在云端,實時同步快速響應(yīng)低時延,秒級甚至毫秒級處理返回語音識別結(jié)果,支持同傳、直播等實時轉(zhuǎn)寫場景需求按需使用、成本較低付費(fèi)方式靈活,可通過充值時長卡的方式隨時使用轉(zhuǎn)寫服務(wù)或根據(jù)調(diào)用量及并發(fā)量訂閱付費(fèi)來源:艾瑞研究院根據(jù)公開資料自主研究繪制。?2022.12iResearchInc.

開箱即用、無需維護(hù)B端客戶接入語音轉(zhuǎn)寫能力,可隨時調(diào)用,模型及時迭代更新針對多應(yīng)用場景優(yōu)化進(jìn)行語言模型和行業(yè)詞庫優(yōu)化,滿足多應(yīng)用場景的客戶轉(zhuǎn)寫需求。可應(yīng)用于輕辦公、會議會展、傳媒、短視頻直播、同聲傳譯等領(lǐng)域 24智能語音轉(zhuǎn)寫SaaS產(chǎn)品發(fā)展環(huán)境云計算普及助力下游企業(yè)便捷應(yīng)用語音轉(zhuǎn)寫服務(wù)智能語音轉(zhuǎn)寫SaaS產(chǎn)品的普及推廣離不開我國云計算基礎(chǔ)設(shè)施的建設(shè)和技術(shù)成熟以及企業(yè)數(shù)字化轉(zhuǎn)型趨勢。我國云服務(wù)市場規(guī)模不斷增長,2021年中國整體云服務(wù)市場規(guī)模為3280億元,同比2020年增加45.4%,根據(jù)艾瑞咨詢推算,未來幾年的增速仍維持在30%以上。企業(yè)對云計算的接受程度也在不斷提高。中國信通院數(shù)據(jù)顯示,2019年中國企業(yè)應(yīng)用云計算的比例達(dá)到66.1%,較2017年增長11.4pct,企業(yè)在經(jīng)歷信息化階段后開始向數(shù)字化轉(zhuǎn)型。而在企業(yè)數(shù)字化轉(zhuǎn)型過程中,可有效提高會議交流、字幕轉(zhuǎn)寫編輯、同聲傳譯等場景辦公效率的語音轉(zhuǎn)寫SaaS產(chǎn)品,具備交付靈活、使用便捷等優(yōu)勢,且可降低企業(yè)現(xiàn)金流壓力,對泛互聯(lián)網(wǎng)等各類企業(yè)的數(shù)字化轉(zhuǎn)型和辦公效率提升具有重要意義。2016-2025年中國整體云服務(wù)市場規(guī)模及增速57.1%32.1%33.2%48.1%39.9%45.4%42.8%40.2%32.8%30.6%

2017-2019年中國企業(yè)云計算使用率521 693 1026 1612 2256

126839550681247693280

54.7%58.6%66.1%45.3%41.4%33.9%2017201820192016 2017 2018 2019 2020 2021 2022e2023e2024e2025e整體云服務(wù)市場規(guī)模(億元)整體云服務(wù)市場增速(%)來源:艾瑞咨詢研究院自主研究推算及繪制。?2022.12iResearchInc.

沒有云計算應(yīng)用(%)有云計算應(yīng)用(%)來源:中國信通院來源:信通院《2020年云計算發(fā)展白皮書》,艾瑞咨詢研究院自主研究及繪制。?2022.12iResearchI25智能語音轉(zhuǎn)寫SaaS產(chǎn)品競爭要素轉(zhuǎn)寫準(zhǔn)確度和效率、產(chǎn)品豐富度是核心要素綜合賽道特征,艾瑞咨詢評估智能語音轉(zhuǎn)寫SaaS產(chǎn)品競爭要素包含:轉(zhuǎn)寫準(zhǔn)確度與效率、產(chǎn)品豐富度、品牌影響力、價格優(yōu)勢、用戶體量與生態(tài)、發(fā)展?jié)摿α鶄€方面。從客戶選擇產(chǎn)品的角度看,雖然不同客戶類型和應(yīng)用場景的需求會面臨一定差異,但轉(zhuǎn)寫準(zhǔn)確度和效率、產(chǎn)品豐富度是解決用戶問題的第一前提;在此基礎(chǔ)上,有價格優(yōu)勢、品牌影響力大的玩家更容易受到客戶青睞。此外,用戶體量與生態(tài)實力強(qiáng)、發(fā)展?jié)摿Υ蟮漠a(chǎn)品市場競爭優(yōu)勢更明顯。智能語音轉(zhuǎn)寫SaaS產(chǎn)品競爭要素轉(zhuǎn)寫準(zhǔn)確度與效率轉(zhuǎn)寫準(zhǔn)確度與效率評價產(chǎn)品功能水平的直接指標(biāo)。除核心的語音識別準(zhǔn)確率外,上下文糾正、語氣詞過濾、角色分離、熱詞設(shè)置等智能化功能可提高轉(zhuǎn)寫服務(wù)準(zhǔn)確度品牌影響力L1指該產(chǎn)品支持應(yīng)用場景(會議、會展、同傳、字幕L2L3用戶體量與生態(tài)產(chǎn)品豐富度等)、行業(yè)領(lǐng)域(金融、教育、零售、客服等)、等)的覆蓋情況產(chǎn)品形態(tài)(網(wǎng)頁、APP、API/SDK調(diào)用、智能硬件競爭要素品牌影響力指品牌開拓市場、占領(lǐng)市場、并獲得利潤的能力,核心評價維度來源于廠商端及用戶端對品牌的直接價格優(yōu)勢發(fā)展?jié)摿υu價及認(rèn)可指不同收費(fèi)模式下的產(chǎn)品單位價格;C端消費(fèi)者相價格優(yōu)勢對價格敏感度高產(chǎn)品豐富度用戶體量與生態(tài)指該品牌產(chǎn)品的內(nèi)/外部調(diào)用量和下游用戶類型廣度(消費(fèi)者、企業(yè)級、政府客戶等)轉(zhuǎn)寫準(zhǔn)確度與效率和產(chǎn)品豐富度為滿足各類用戶需求的核心要素發(fā)展?jié)摿χ冈撈放飘a(chǎn)品的未來市場空間?;谄浼夹g(shù)實力、注:根據(jù)行業(yè)調(diào)研廠商表現(xiàn),將競爭要素對應(yīng)進(jìn)行L1/L2/L3級評分產(chǎn)品化能力、服務(wù)水平及發(fā)展戰(zhàn)略綜合評估來源:艾瑞研究院根據(jù)公開資料自主研究繪制。?2022.12iResearchI26智能語音轉(zhuǎn)寫SaaS產(chǎn)品競爭格局市場頭部聚集效應(yīng)顯著,參與者致力差異化深耕現(xiàn)階段,我國智能語音轉(zhuǎn)寫產(chǎn)品市場較為集中,訊飛聽見和搜狗聽寫的頭部效應(yīng)明顯;但在產(chǎn)品同質(zhì)化壓力下,參與廠商也均積極在轉(zhuǎn)寫的各細(xì)分專業(yè)領(lǐng)域、云端及本地化服務(wù)形式、附加產(chǎn)品形態(tài)與產(chǎn)品生態(tài)多角度進(jìn)行差異化深耕。根據(jù)六大競爭要素,艾瑞咨詢將市場上提供智能語音轉(zhuǎn)寫SaaS服務(wù)的廠商分為三個梯隊,其中語音技術(shù)廠商訊飛聽見和搜狗聽寫位列第一梯隊。訊飛聽見在轉(zhuǎn)寫準(zhǔn)確度尤其是針對小語種和方言等、產(chǎn)品豐富度、品牌影響力、發(fā)展?jié)摿S度拔得頭籌。智能語音轉(zhuǎn)寫SaaS產(chǎn)品競爭格局第一梯隊 廠商在各競爭維度優(yōu)勢明顯第二梯隊具有一定的品牌影響力,或深耕C端用戶運(yùn)營推廣,或依托品牌自有用戶生態(tài),或依托下游開發(fā)者生態(tài)推廣相關(guān)業(yè)務(wù)。具備一定生態(tài)優(yōu)勢,但在多語種、方言等場景下的轉(zhuǎn)寫準(zhǔn)確率可做進(jìn)一步提升。受限于轉(zhuǎn)寫能力、產(chǎn)品豐富度等因素,第三梯隊客戶市場份額較小。擁有一定價格優(yōu)長尾廠商勢,但在其余維度表現(xiàn)多有所不足。來源:艾瑞研究院根據(jù)公開資料自主研究繪制。?2022.12iResearchInc.

轉(zhuǎn)寫準(zhǔn)確度與效率品牌影響力 用戶體量與生態(tài)價格優(yōu)勢 發(fā)展?jié)摿Ξa(chǎn)品豐富度訊飛聽見在轉(zhuǎn)寫準(zhǔn)確度、產(chǎn)品豐富度、品牌影響力、發(fā)展?jié)摿S度拔得頭籌。 27智能語音轉(zhuǎn)寫本地部署解決方案產(chǎn)品服務(wù)升級,高安全性與定制化滿足大型政企客戶需求為滿足大型企業(yè)及政府客戶對安全性和定制化的需求,智能語音轉(zhuǎn)寫SaaS廠商升級產(chǎn)品和服務(wù),提供私有化部署形式和軟硬一體的產(chǎn)品解決方案。1)本地部署的純軟件解決方案與SaaS產(chǎn)品的功能類似,但私有化部署的獨(dú)立服務(wù)器形式可保證客戶對數(shù)據(jù)保密的安全性需求且架構(gòu)自主;同時,語音轉(zhuǎn)寫能力提供商可針對客戶提供的特定語料進(jìn)行模型訓(xùn)練,滿足客戶的定制化轉(zhuǎn)寫需求,貼合用戶業(yè)務(wù)場景,計算和執(zhí)行效率更高。2)為了滿足政企大客戶的會議室、展會、傳媒編輯等線下場景的智慧辦公需求,軟硬一體的語音轉(zhuǎn)寫解決方案可打包提供定制化拾音功能硬件、多語種語音轉(zhuǎn)寫與翻譯能力、軟硬一體化開發(fā)接口等;對于隨身攜帶且有隱私要求的離線轉(zhuǎn)寫場景,一體機(jī)形式的語音轉(zhuǎn)寫設(shè)備則將硬件拾音、軟件與服務(wù)集成在一起,無需聯(lián)網(wǎng),即開即用。智能語音轉(zhuǎn)寫本地部署解決方案特點私有化部署形式辦公專網(wǎng)提供的 固定會場的私有云 服務(wù)器部署線下軟硬一體產(chǎn)品智慧屏 會議系統(tǒng) 移動辦公的離線單機(jī)版產(chǎn)品來源:艾瑞研究院根據(jù)公開資料自主研究繪制。?2022.12iResearchInc.

產(chǎn)品服務(wù)升級數(shù)據(jù)保密安全需求架構(gòu)自主定制化語料訓(xùn)練軟硬一體支持離的一站式線轉(zhuǎn)寫方案場景 28智能語音轉(zhuǎn)寫產(chǎn)業(yè)的飛輪模型API經(jīng)濟(jì)與垂類解決方案共拓產(chǎn)業(yè)廣度與深度平臺類廠商開放平臺API經(jīng)濟(jì)可拓展智能語音轉(zhuǎn)寫產(chǎn)業(yè)的廣度,形成平臺效應(yīng),利用下游開發(fā)者的創(chuàng)新活性帶動市場發(fā)展,隨開發(fā)者生態(tài)聚集帶來龐大的下游規(guī)模經(jīng)濟(jì)效益;同時,垂類解決方案則延伸產(chǎn)業(yè)深度,聚焦剛需應(yīng)用與高價值環(huán)節(jié),延伸出了錄音筆等智能硬件、協(xié)同辦公會議應(yīng)用、提取長時語音信息有效內(nèi)容等多條增量建設(shè)與運(yùn)營需求業(yè)務(wù)線。API經(jīng)濟(jì)與垂類解決方案兩者合力,相輔相成,形成智能語音轉(zhuǎn)寫產(chǎn)業(yè)既快且穩(wěn)的增長飛輪。在此基礎(chǔ)上,高生態(tài)活性加硬解決方案實力的企業(yè)更能突出重圍,搶占市場。API 產(chǎn)業(yè)活力與不設(shè)限空間規(guī)模效益與高毛利:SaaS產(chǎn)品利用率更高、單位成本降低。輕量化的輸出模式可以持續(xù)低成本、短賬期促進(jìn)營收增長平臺效應(yīng):聚合合作伙伴,擴(kuò)大影響力并實現(xiàn)語音轉(zhuǎn)寫技術(shù)下沉,塑造產(chǎn)業(yè)生態(tài)保持活性:構(gòu)建動態(tài)更新的產(chǎn)品服務(wù)池,利用偏C端活性帶動B、G端需求,拓寬企業(yè)級客戶增長來源:艾瑞研究院根據(jù)公開資料自主研究繪制。

智能語音轉(zhuǎn)寫產(chǎn)業(yè)的飛輪模型深度業(yè)務(wù)飛輪廣度

垂類解決方案核心競爭力軟硬一體占據(jù)高價值環(huán)節(jié),形成應(yīng)用流量入口:圍繞語音轉(zhuǎn)寫需求場景的核心痛點,錄音筆、智慧屏、智慧會議系統(tǒng)等入口級智能硬件可延伸出多條增量建設(shè)與運(yùn)營需求業(yè)務(wù)線,提供想象空間剛需高頻應(yīng)用增肌造血:為轉(zhuǎn)寫技術(shù)找到可打磨的場景,如協(xié)同辦公、電商直播等,結(jié)合場景Know-How反哺技術(shù)研發(fā),形成良性閉環(huán)?2022.12iResearchInc. 29智能語音轉(zhuǎn)寫行業(yè)——發(fā)展背景篇 1智能語音轉(zhuǎn)寫行業(yè)——市場分析篇 2智能語音轉(zhuǎn)寫行業(yè)典型企業(yè)案例 3智能語音轉(zhuǎn)寫行業(yè)——發(fā)展趨勢篇 4530訊飛聽見、科大訊飛旗下“AI+辦公”品牌,聚焦語音轉(zhuǎn)寫及翻譯市場科大訊飛成立于1999年,是亞太地區(qū)知名的智能語音與人工智能上市企業(yè),訊飛聽見是科大訊飛旗下主打“AI+辦公”的子品牌,為客戶提供以語音轉(zhuǎn)文字及多語種翻譯為核心功能的智慧辦公服務(wù)。依托公司深耕多年的自然語言處理、聲紋識別、語音識別、翻譯等核心技術(shù),訊飛聽見的產(chǎn)品化能力也愈發(fā)成熟,打磨出平臺服務(wù)、會展傳媒服務(wù)、智能硬件產(chǎn)品、行業(yè)解決方案四條核心產(chǎn)品線,布局逐步完善,覆蓋廣泛下游應(yīng)用場景,助力C端、B端及G端提升工作效率,實現(xiàn)高效知識管理。訊飛聽見轉(zhuǎn)寫產(chǎn)品線平臺服務(wù)聚焦服務(wù)辦公領(lǐng)域,在會議紀(jì)要整理、遠(yuǎn)程視頻會議、跨國語言交流等場景,助力力企業(yè)高效完成辦公系統(tǒng)智能化升級。多終端服務(wù)(PC/Web/APP/小程序) AI智能處理軟硬件協(xié)同 場景化服務(wù) 多領(lǐng)域詞庫訊飛聽見(轉(zhuǎn)寫) 訊飛聽見翻譯 訊飛聽見會議

會展傳媒服務(wù)提供“采編播審存”一整套流程的產(chǎn)品;為長短視頻剪輯工作者提供字幕轉(zhuǎn)寫產(chǎn)品;為會展行業(yè)提供線下一體機(jī)、線上SaaS服務(wù)的同傳服務(wù);基于轉(zhuǎn)寫服務(wù)為會展傳媒行業(yè)打造可持續(xù)的AI應(yīng)用生態(tài)圈。人機(jī)耦合 時間碼自動匹配 多語種字幕訊飛聽見同傳 訊飛聽見字幕 訊飛聽見媒體解決方案智能硬件產(chǎn)品AI加持,軟硬件一體,以轉(zhuǎn)寫文字及翻譯為核心功能的智能硬件,無縫連接訊飛聽見網(wǎng)站、App、客戶端,支持多種語言、方言,可有效提升學(xué)生在校學(xué)習(xí)和職場人辦公記錄效率。專業(yè)級錄音 實時同步編輯 免費(fèi)轉(zhuǎn)寫服務(wù)

行業(yè)解決方案以語音識別、機(jī)器翻譯、語義理解、OCR識別等能力為基礎(chǔ),萃取“非結(jié)構(gòu)化數(shù)據(jù)”,拓展數(shù)據(jù)維度,構(gòu)建知識管理體系,輔助高效決策。為政府、企業(yè)用戶打造貫通會前、會中、會后的智慧辦公解決方案。軟硬件一體化開發(fā)接口 支持公有云和私有化部署錄音筆麥克風(fēng)智慧屏訊飛聽見智能會議系統(tǒng)訊飛聽見智慧辦公室解決方案來源:艾瑞研究院根據(jù)公開資料、公司官網(wǎng)自主研究繪制。?2022.12iResearchI31訊飛聽見讓辦公更高效,讓生活更簡單,讓溝通無障礙作為科大訊飛語音轉(zhuǎn)寫及翻譯的重要業(yè)務(wù)承接,訊飛聽見在業(yè)界的語音轉(zhuǎn)寫準(zhǔn)確率、產(chǎn)品智能化應(yīng)用、多領(lǐng)域場景化應(yīng)用、多語種和方言表現(xiàn)上出色,并整合平臺和人工譯員等資源搭建語音語言服務(wù)平臺,讓機(jī)器與人工實現(xiàn)取長補(bǔ)短的融合,極致發(fā)揮人機(jī)耦合效能。如今,訊飛聽見生態(tài)用戶破億,覆蓋用戶已超越5000萬,并與眾多B端客戶合作打造行業(yè)生態(tài)平臺,共同參與公益活動,讓聽障人士通過文字去感受世界、與人溝通交流,通過AI語音賦能產(chǎn)品,建立起與聽障人士溝通的橋梁。未來,訊飛聽見將以更積極的態(tài)度履行品牌使命:讓辦公更高效,讓生活更簡單,讓溝通無障礙。訊飛聽見轉(zhuǎn)寫業(yè)務(wù)優(yōu)勢高識別準(zhǔn)確率、多語種翻譯、穩(wěn)定豐富產(chǎn)品性能轉(zhuǎn)寫精準(zhǔn)ü準(zhǔn)確率97.5%,1小時音頻最快5分鐘出稿。ü支持10種國家語言轉(zhuǎn)寫、12種地方方言、2種少數(shù)民族語。語種豐富ü會議內(nèi)容實時轉(zhuǎn)寫,邊錄邊轉(zhuǎn);會議信息快速整理,清晰會議紀(jì)要明了;關(guān)鍵內(nèi)容實時標(biāo)記,一鍵定位。ü智能糾錯、語氣詞過濾智能化ü角色分離:智能區(qū)分說話人,標(biāo)記多角色,快速整理稿件場景化ü根據(jù)不同行業(yè)客戶,提供16個行業(yè)詞庫隱私安全ü適配不同客戶需求,支持音視頻、文檔、鏈接等多格式ü通過可信云認(rèn)證,信息加密全程保證全鏈路多終 ü硬軟件一體、行業(yè)定制解決方案定制、私有化部署等??投水a(chǎn)品,客 戶覆蓋職場個人、政府企業(yè)、文化傳媒等。同時搭建語音戶類型多元 語言服務(wù)平臺,整合AI語音產(chǎn)品及人工服務(wù)提升人機(jī)耦合服務(wù)效能。來源:艾瑞研究院根據(jù)公開資料、公司官網(wǎng)自主研究繪制。?2022.12iResearchInc.

應(yīng)用實例行業(yè)生態(tài)伙伴生態(tài)共榮,開放API能力接口,服務(wù)生態(tài)合作伙伴。私有化轉(zhuǎn)寫翻譯服務(wù)為客戶提供私有化轉(zhuǎn)寫翻譯服務(wù)。公益行動聽見AI的聲音:與中國聾協(xié)殘疾人藝術(shù)團(tuán)聯(lián)合發(fā)起聽障關(guān)懷公益“聽見AI的聲音”,累計為用戶捐贈時長6000萬分鐘。B站無障礙直播間字幕:觀看英雄聯(lián)盟S11、2022英雄聯(lián)盟MSI和2022英格蘭足總杯活動。 32火山引擎服務(wù)于字節(jié)系產(chǎn)品,短視頻字幕生成用戶生態(tài)體量大火山引擎的語音識別能力基于深度學(xué)習(xí)技術(shù),可將音頻中的語音轉(zhuǎn)成文字,用于識別多種音頻編碼格式、多種場景和不同長短的語音,廣泛應(yīng)用于音視頻字幕生成、會議訪談轉(zhuǎn)寫、呼叫中心錄音質(zhì)檢、課堂內(nèi)容分析等場景。其智能字幕生成服務(wù)可用于輔助視頻字幕創(chuàng)作和外掛字幕生成。產(chǎn)品支持多個語種的語音識別、歌詞識別和字幕打軸,可結(jié)合語音停頓和自然語言的語義信息,全自動判斷說話或唱歌,輸出流暢自然的分句結(jié)果,適配視頻剪輯、網(wǎng)課、視頻會議等多種場景的智能字幕生成。有效提高視頻內(nèi)容生產(chǎn)者的積極性,降低視頻內(nèi)容處理成本。準(zhǔn)確率服務(wù)穩(wěn)定多領(lǐng)域覆蓋支持語種豐富來源:艾瑞根據(jù)公開資料研究繪制。?2022.12iResearchInc.

火山引擎語音轉(zhuǎn)寫服務(wù)特點與主要客戶采用端到端語音識別框架,與抖音、飛書、剪映、西瓜視頻等業(yè)務(wù)深度合作,具備實際業(yè)務(wù)場景打磨的豐富經(jīng)驗,確保準(zhǔn)確率企業(yè)級穩(wěn)定服務(wù)保障,專有集群,大流量并發(fā),高效靈活,可快速返回識別結(jié)果廣泛應(yīng)用于泛娛樂、辦公、教育、客服場景,支持了汽車、智能金融、銀行、保險、證券、運(yùn)營商、物流、房地產(chǎn)等眾多垂直領(lǐng)域多語種識別,支持中英日韓等多國語言及地區(qū)方言的識別 33靈云聽語靈云平臺推出的以語音轉(zhuǎn)文字為核心的云服務(wù)平臺靈云聽語是由捷通華聲開發(fā)的一款專注語音識別轉(zhuǎn)寫的智能化應(yīng)用。由靈云聽語網(wǎng)頁版和靈云聽語App版組成,可分享相同賬號,數(shù)據(jù)聯(lián)通。網(wǎng)頁版能夠?qū)⒁纛l轉(zhuǎn)寫結(jié)果以普通文本或字幕格式導(dǎo)出,支持在線編輯;App版則支持手機(jī)實時錄音邊說邊轉(zhuǎn)和導(dǎo)入音頻文件轉(zhuǎn)寫識別。靈云聽語支持多種音頻格式,使用場景豐富,支持中文、英文、方言識別轉(zhuǎn)寫。中文轉(zhuǎn)寫覆蓋13種專業(yè)領(lǐng)域,廣泛用于辦公會議、錄音整理、訪談演講、課程學(xué)習(xí)、記者采訪、視頻字幕制作等場景。靈云聽語語音轉(zhuǎn)寫功能介紹多種音頻格式轉(zhuǎn)寫服務(wù)覆蓋13種專業(yè)領(lǐng)域mp3/wav/m4a/amr/mp4/flv/mov/avi格式語音識別速度快實時轉(zhuǎn)寫響應(yīng)速度快至500毫秒;非實時轉(zhuǎn)寫通用聊天電話客服教育學(xué)習(xí)金融財經(jīng)政黨會議戀愛心理1小時音頻文件只需5-10分鐘多語種哲學(xué)思想 廣播電臺 企業(yè)辦公 旅游景點支持中、英、方言識別和中、英、數(shù)字混合輸入超大容量網(wǎng)課教學(xué) 醫(yī)療健康 國學(xué)歷史單條大小不超過5G,時長小于3小時來源:艾瑞根據(jù)公開資料研究繪制。?2022.12iResearchInc. 34錄音轉(zhuǎn)文字助手支持手機(jī)端和網(wǎng)頁端服務(wù),主要服務(wù)于C端用戶錄音轉(zhuǎn)文字助手是由上海動起信息科技有限公司開發(fā),可應(yīng)用于安卓、蘋果手機(jī)、iPad、網(wǎng)頁端通用的一款將語音轉(zhuǎn)文字、錄音轉(zhuǎn)文字、音頻文件轉(zhuǎn)文字并翻譯記錄的軟件,適用于會議,采訪,講座,課堂,出國旅游,英語學(xué)習(xí)等各種場合。該應(yīng)用依托迅捷語音的核心語音識別技術(shù),提供視頻轉(zhuǎn)文字、圖片轉(zhuǎn)文字、合成主播等文字轉(zhuǎn)語音應(yīng)用,主要面向各行業(yè)C端用戶。翻譯提供簡體中文、英文、阿拉伯語、德語、法語、葡萄牙語、西班牙語、意大利語、韓語的互譯服務(wù),支持中英文實時對話翻譯

錄音轉(zhuǎn)文字助手業(yè)務(wù)布局與轉(zhuǎn)寫專業(yè)領(lǐng)域文字轉(zhuǎn)語音高辨識度的語音合成功能,模擬真人發(fā)轉(zhuǎn)寫專業(yè)領(lǐng)域聲,讓文字信息變得繪“聲”繪色。如廣告叫賣、專題宣傳、課件培訓(xùn)、方言配音、英語配音等??梢宰远x主播參數(shù)的設(shè)置,如音量、語速、語調(diào),來調(diào)通用聊天會議辦公新聞媒體節(jié)達(dá)到更適合使用場景的發(fā)音錄音轉(zhuǎn)文字快速轉(zhuǎn)換文字,方便進(jìn)行拷貝和編輯等后續(xù)的工作。適用于轉(zhuǎn)寫會議記錄、電情感寫作IT科技教育培訓(xùn)影對白、新聞媒體、情感寫作等多個情景,提高辦公效率,專注生產(chǎn)力的提升。亦提供人工精轉(zhuǎn)服務(wù)來源:艾瑞根據(jù)公開資料研究繪制。?2022.12iResearchInc. 35智能語音轉(zhuǎn)寫行業(yè)——發(fā)展背景篇 1智能語音轉(zhuǎn)寫行業(yè)——市場分析篇 2智能語音轉(zhuǎn)寫行業(yè)典型企業(yè)案例 3智能語音轉(zhuǎn)寫行業(yè)——發(fā)展趨勢篇 436技術(shù)趨勢應(yīng)用價值提升仍受技術(shù)掣肘,轉(zhuǎn)寫場景有望進(jìn)一步泛化當(dāng)下語音識別技術(shù)的精度和速度仍取決于實際應(yīng)用環(huán)境,在常見語種、標(biāo)準(zhǔn)口音、安靜環(huán)境下的語音識別情況已達(dá)到了可規(guī)模化應(yīng)用狀態(tài)。但現(xiàn)實應(yīng)用場景隨機(jī)性極高,面對“混合語種”“嘈雜環(huán)境”下的“多人”“交互”“重疊”等多重因素交織的復(fù)雜語音場景,語音技術(shù)尚未能很好地處理這些問題。如今,語音轉(zhuǎn)寫應(yīng)用多限制在辦公會議、視頻直播等部分較為理想環(huán)境下的固定場景,下一代語音識別技術(shù)的突破創(chuàng)新有望實現(xiàn)轉(zhuǎn)寫場景泛化升級,進(jìn)一步抬升語音技術(shù)的應(yīng)用價值與潛力空間。 智能語音轉(zhuǎn)寫的技術(shù)難點方言語種 環(huán)境噪音 多人聲道眾多漢語方言識別除中英應(yīng)用廣泛外的小眾語種識別多語種混合識別(例:中英粵)如何解決方言及小語種的識別覆蓋范圍?盡可能收集方言及小語種的數(shù)據(jù)集語料進(jìn)行語言模型訓(xùn)練解決低資源問題,通過少量數(shù)據(jù)資源解決方言,小語種識別問題如何解決多語種識別問題?通用建模:將不同語種的建模單元映射成同一套建模單元體系多語種混合模型:不同語種共享一個隱層神經(jīng)網(wǎng)絡(luò),各自有獨(dú)立的一個輸出分類層來源:艾瑞研究院根據(jù)公開資料與專家訪談自主研究繪制。?2022.12iResearchInc.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論