版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 淺析ai語音識別技術(shù)在傳統(tǒng)聽譯上應(yīng)用的可能性 楊茜 袁奧航 胡歡 袁玉 劉鈞鵬 朱奕 阮先玉摘要:隨著全球化的發(fā)展,我國與國外文化交流日益頻繁,英文視頻的需求量大幅上升。ai語音識別技術(shù)的應(yīng)用極大的促進(jìn)了語言產(chǎn)業(yè)的創(chuàng)新。為研究ai語音識別技術(shù)在傳統(tǒng)聽譯工作中應(yīng)用的可能,本文同時使用訊飛聽見、騰訊云、搜狗聽寫三個支持語音識別技術(shù)的軟件,對人工聽譯與ai語音識別聽譯后的文本進(jìn)行了初步分析與總結(jié)。本文發(fā)現(xiàn),ai語音識別較人工聽譯用時短,但正確率有待提高,就如何對兩者的優(yōu)缺點進(jìn)行結(jié)合,本文提出了相應(yīng)思路和方法。關(guān)鍵詞:聽譯;ai語音識別;語音轉(zhuǎn)寫在
2、“引進(jìn)來”和“走出去”戰(zhàn)略的指導(dǎo)下,我們對英文視頻的需求量日益增加。聽譯是指對音頻或視頻中的原聲語音文本進(jìn)行聽寫和識別,便于后續(xù)對音頻或視頻進(jìn)行翻譯的過程。傳統(tǒng)人工聽譯依靠人工提取,對速記員要求較高,受人為因素影響較大。隨著人工智能技術(shù)的日漸成熟,ai語音識別技術(shù)在語音識別和聽寫方面受到更廣泛的認(rèn)可。2017年8月,微軟宣布其旗下語音識別系統(tǒng)的正確率已經(jīng)由原來的94.1%提升至94.9%,其正確率高于部分專業(yè)速記員。然而在語音特征提取的準(zhǔn)確性,識別的穩(wěn)定性等方面亟待改進(jìn)。1.傳統(tǒng)人工聽譯的特點及問題聽譯是一種特殊的語音識別和轉(zhuǎn)換類型,具有書面性,即時性,同步性,跨文化性等特性。針對英文視頻的語
3、音識別,聽譯時并無源語文本作為參考。完成從音頻到書面文本的轉(zhuǎn)換,要求速記員有較高的聽辨能力。然而,英文音頻源文本具有口語化、不規(guī)范性、難以識別性等特征,使得速記員在聽譯時很難辨識。2.ai語音識別聽譯與人工聽譯的分析與比較選用音視頻均來自ted演講、bbc新聞、知名電影片段,ai語音識別軟件采用訊飛聽見、騰訊云、搜狗聽寫三個支持ai語音識別(語音轉(zhuǎn)文字)的軟件。2.1用時以ted演講如何學(xué)好外語為例,速記員人工聽譯平均用時一小時三十七分二十七秒(1:37:27),三個ai語音識別軟件平均用時十一分零九秒(11:09),ai軟件語音識別并生成文本幾乎與原視頻同步。對比之下,筆者組織速記員對50個
4、不同音頻進(jìn)行人工聽譯,并對用時進(jìn)行統(tǒng)計。統(tǒng)計結(jié)果顯示,人工聽譯文本的用時是ai語音識別軟件的3-14倍,倍數(shù)與源語文文本的時長和難度呈正相關(guān)。統(tǒng)計結(jié)果表明,在用時方面,ai語音識別軟件體現(xiàn)出其明顯優(yōu)勢。2.2口音校正速記員在人工聽譯時能針對口音較重的音頻進(jìn)行反復(fù)多次的聽寫,從而達(dá)到終版聽譯文本的準(zhǔn)確。然而,由于大部分語音識別軟件默認(rèn)標(biāo)準(zhǔn)的美式或英式發(fā)音,對部分帶有口音的音頻存在識別障礙。例1:人工:.talking about how this problem is being addressed.搜狗/騰訊:.talking about how this problem is being d
5、angerous.例2:人工:. after the third season, seriously, the dialogue started to make sense.搜狗:. after they turn a season, seriously, the dialogue started to make sense.以上材料均選用帶有印式英語的音頻。不難發(fā)現(xiàn),由于印式英語與美式英語和英式英語之間存在元音障礙和輔音障礙,ai語音識別軟件難以對部分發(fā)音進(jìn)行準(zhǔn)確的識別,使得導(dǎo)出文本出現(xiàn)嚴(yán)重錯誤。2.3斷句例1:人工: a pentagon official said this was to
6、 provide president obama with flexibility.騰訊: a pentagon official said this was to provide president obama with flexibility should military options be required to protect american lives and interests.例2:人工:.people dont listen to them. why is that?搜狗:.people dont listen to them and why is that?騰訊:.pe
7、ople dont listen to them why is that?受原音頻語速和輕重讀音的影響,ai語音識別軟件難以像人工聽譯一樣做到準(zhǔn)確的斷句。但就普遍性而言,50個音頻里斷句錯誤占比較低。絕大多數(shù)情況下,ai語音識別軟件還是能較準(zhǔn)確的對原音頻進(jìn)行斷句。2.4整體準(zhǔn)確性例1:人工:its the instrument we all play. its the most powerful sound in the world. probably its the only one that can start a war or say, i love you.訊飛:its the ins
8、trument we all play. probably see anyone that can start a war or say, i love you.搜狗:its the most powerful instrument well play. its the most powerful sound in the world. probably its the only one that can start a war or say, i love you.騰訊:voice instrument we will play its most powerful sound a world
9、 probably any one can start a war or say i love you.例2:人工:oh no, i cant leave you. i promised i would put your photo up. i promised you would see coco.訊飛:oh no, i cant leave you. i promised i put your photo up. i promise you would see coco.搜狗:its almost sunrise. leave you.騰訊:oh no, i cant leave you.
10、 i promised id put your phone up. i promised you would see coco.例3:人工:remember me though i have to say goodbye. dont let it make you cry. forever if im far away. look, i sing secret song to you. each time you hear sad guitar. know that im with you. the only way that i can be until youre in my arm ag
11、ain.訊飛:remember be so i have to travel for free man army each time you hear cent town with you noise to noise noise yeah yeah noise yeah.搜狗:remember be so i have to travel for free man army each time you hear cent town with you noise to noise yeah noise yeah.騰訊:real number me! do i have to say goodb
12、ye do not let it make you cry far away. i sings secret song to you. each time you hear sand it are. the only way that i can be until youre in my arm again.ai語音識別軟件在識別過程中,存在增聽、漏聽、連讀分辨不清、甚至部語段無法識別等問題,使得識別后的文本正確率較源語文本低。人工聽譯主要依靠速記員的專業(yè)性,聽寫時長長,且可反復(fù)聽寫某一模糊部分,正確率較源語文本高,準(zhǔn)確性較ai語音識別軟件更好。3.總結(jié)字幕聽譯較文本翻譯受到更多因素的限制。筆
13、者通過對人工聽譯與ai語音識別軟件聽譯的分析與對比發(fā)現(xiàn),人工能更好的保證斷句、口音校正和整體的準(zhǔn)確性,但用時長,工作量大,對速記員本身的語言素質(zhì)要求高;由于ai語音識別軟件當(dāng)前固有的問題,ai語音識別整體上已經(jīng)達(dá)到不錯水平,能較為準(zhǔn)確的識別出源音頻。這說明,在日后的聽譯工作中,速記員可嘗試將ai語音識別后的文本作為藍(lán)本進(jìn)行再精聽;將ai語音識別技術(shù)同傳統(tǒng)聽譯結(jié)合起來,采用更加靈活的聽譯策略和方法,更快速準(zhǔn)確的完成聽譯工作。參考文獻(xiàn)1林明月,耿磊.淺析字幕翻譯的特點j.明日風(fēng)尚,2016(18):282.2路雅芝.從功能對等理論淺談字幕聽譯以跨語言訪談類節(jié)目為例j.校園英語,2019(14):229-230.3艾朝陽,周祎,李紅.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智慧城市展覽項目合作協(xié)議4篇
- 2025年度智慧城市基礎(chǔ)設(shè)施顧問合同4篇
- 2025年度企業(yè)人力資源戰(zhàn)略規(guī)劃與執(zhí)行合同3篇
- 2024版經(jīng)營辦公場地租賃合同
- 2025年度石料廠承包與環(huán)保項目融資合作協(xié)議書4篇
- 2025年度智能冷庫建設(shè)與租賃服務(wù)合同范本4篇
- 2024版旅客運輸合同范本
- 2025年度土地承包經(jīng)營權(quán)流轉(zhuǎn)與農(nóng)村土地整治合同4篇
- 2024-2026年中國銀行IT市場供需現(xiàn)狀及投資戰(zhàn)略研究報告
- 中國水力不從心電項目投資可行性研究報告
- 風(fēng)水學(xué)的基礎(chǔ)知識培訓(xùn)
- 吸入療法在呼吸康復(fù)應(yīng)用中的中國專家共識2022版
- 1-35kV電纜技術(shù)參數(shù)表
- 信息科技課程標(biāo)準(zhǔn)測(2022版)考試題庫及答案
- 施工組織設(shè)計方案針對性、完整性
- 2002版干部履歷表(貴州省)
- DL∕T 1909-2018 -48V電力通信直流電源系統(tǒng)技術(shù)規(guī)范
- 2024年服裝制版師(高級)職業(yè)鑒定考試復(fù)習(xí)題庫(含答案)
- 門診部縮短就診等候時間PDCA案例-課件
- 第21課《鄒忌諷齊王納諫》對比閱讀 部編版語文九年級下冊
評論
0/150
提交評論