語(yǔ)音的質(zhì)量評(píng)價(jià)方法_第1頁(yè)
語(yǔ)音的質(zhì)量評(píng)價(jià)方法_第2頁(yè)
語(yǔ)音的質(zhì)量評(píng)價(jià)方法_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上        語(yǔ)音質(zhì)量包括兩方面內(nèi)容:可懂度和自然度。前者對(duì)應(yīng)語(yǔ)音的辨識(shí)水平。而后者則是是衡量語(yǔ)音中字、單詞和句的自然流暢程度??傮w上看可以將語(yǔ)音質(zhì)量評(píng)價(jià)可分為兩大類:主觀評(píng)價(jià)和客觀評(píng)價(jià)。1、主觀評(píng)價(jià)        主觀評(píng)價(jià)以人為主體來(lái)評(píng)價(jià)語(yǔ)音的質(zhì)量。主觀評(píng)價(jià)方法的優(yōu)點(diǎn)是符合人類聽(tīng)話時(shí)對(duì)語(yǔ)音質(zhì)量的感覺(jué),目前得到了廣泛的應(yīng)用。常用的方法有平均意見(jiàn)得分(Mean Opinion Score,MOS得分),診斷韻字測(cè)試(Diagnostic Rhyme Test,DRT得分),診斷滿意度測(cè)量(

2、Diagnostic Acceptability Measure,DAM得分)等。語(yǔ)音質(zhì)量的主觀評(píng)價(jià)要求大量的人、大量次數(shù)的測(cè)聽(tīng)實(shí)驗(yàn),以便能得到普遍接受的結(jié)果。但是由于主觀評(píng)價(jià)耗費(fèi)大、經(jīng)歷時(shí)間長(zhǎng),因此語(yǔ)音質(zhì)量的主觀評(píng)價(jià)不容易實(shí)現(xiàn)。        為了克服主觀評(píng)價(jià)缺點(diǎn),人們尋求一種能夠方便,快捷地給出語(yǔ)音質(zhì)量評(píng)價(jià)的客觀評(píng)價(jià)方法。不過(guò)值得注意的是,研究語(yǔ)音客觀評(píng)價(jià)的目的不是要用客觀評(píng)價(jià)來(lái)完全替代主觀評(píng)價(jià),而是使客觀評(píng)價(jià)成為一種既方便快捷并能夠準(zhǔn)確預(yù)測(cè)出主觀評(píng)價(jià)價(jià)值的語(yǔ)音質(zhì)量評(píng)價(jià)手段。盡管客觀評(píng)價(jià)具有省時(shí)省  力等優(yōu)點(diǎn),但它還不能反映人對(duì)語(yǔ)音質(zhì)量的全

3、部感覺(jué),而且當(dāng)前的大多客觀評(píng)價(jià)方法都是以語(yǔ)音信號(hào)的時(shí)域、頻域及變換域等特征參量作為評(píng)價(jià)依據(jù),沒(méi)有涉及到語(yǔ)義、語(yǔ)法、語(yǔ)調(diào)等影響語(yǔ)音質(zhì)量主觀評(píng)價(jià)的重要因素。MOS評(píng)分:MOS得分方法是由CCITT推薦的主觀評(píng)價(jià)方法,現(xiàn)已廣泛作為不同系統(tǒng)之間的比較標(biāo)準(zhǔn)。它采用五級(jí)評(píng)分制。MOS評(píng)分五級(jí)標(biāo)準(zhǔn):MOS判分    質(zhì)量級(jí)別    失真級(jí)別    5                    優(yōu)        不覺(jué)

4、察    4                    良        剛有覺(jué)察    3                一般            有覺(jué)察且稍覺(jué)可厭    2            &

5、#160;       差      明顯覺(jué)察,可厭仍可忍受    1                極差            不可忍受        MOS評(píng)分中質(zhì)量?jī)?yōu)表示重建語(yǔ)音和原始語(yǔ)音只有很少的細(xì)節(jié)差異,且若不進(jìn)行對(duì)照聽(tīng)比就覺(jué)察不出這種差異;質(zhì)量良表示重建語(yǔ)音的畸變或失真不明顯,不注意聽(tīng)感覺(jué)不到;質(zhì)量一般表示重建語(yǔ)音有比較明顯可

6、感知的畸變成失真,但語(yǔ)音自然度和清晰度仍很好,且聽(tīng)起來(lái)沒(méi)有疲勞感;質(zhì)量差表示重建語(yǔ)音有較強(qiáng)的畸變或失真,聽(tīng)起來(lái)已有疲勞感;質(zhì)量極差表示重建語(yǔ)音的質(zhì)量極差,聽(tīng)覺(jué)無(wú)法忍受。        在數(shù)字語(yǔ)音通信中,通常認(rèn)為MOS分為4.0 4.5為高質(zhì)量數(shù)字化語(yǔ)音,達(dá)到長(zhǎng)途電話網(wǎng)的質(zhì)量要求,接近于透明信道編碼,也常稱之為網(wǎng)絡(luò)質(zhì)量。MOS分為3.5分左右稱為通信質(zhì)量,這時(shí)能感到重建話音質(zhì)量有所下降,但不妨礙正常通話,可以滿足多數(shù)語(yǔ)音通信系統(tǒng)使用要求。MOS分3.0以下常稱為合成語(yǔ)音質(zhì)量,系指一些聲碼器合成的語(yǔ)音所能達(dá)到的質(zhì)量。它雖然有較高的可懂度,但自然度較差。MOS

7、得分法的優(yōu)點(diǎn)是:一、由于編碼系統(tǒng)的質(zhì)量是按數(shù)值大小等級(jí)排列,所以不同失真類型的編碼系統(tǒng)就可以相互比較;二、評(píng)測(cè)者只需實(shí)現(xiàn)進(jìn)行簡(jiǎn)單訓(xùn)練,就可直接參與評(píng)測(cè),因而容易完成。其缺點(diǎn)是:它把不同種類的失真混為一談,沒(méi)有指出失真的原因,不利于算法的改進(jìn)。另外,測(cè)試條件的選擇及其他一些因素會(huì)影響MOS方法的結(jié)果。診斷韻字測(cè)試(Diagnostic Rhyme Test)        判斷韻字測(cè)試是反映語(yǔ)音清晰度或可懂度的一種測(cè)試方法,它主要用于低速率語(yǔ)音編碼的質(zhì)量測(cè)試,因?yàn)檫@時(shí)可懂度已成為主要問(wèn)題。這種測(cè)試方法使用若干對(duì)(通常是96對(duì))同韻母進(jìn)行測(cè)試,例如中文的“為

8、”和“費(fèi)”,英文的fast和vast等。讓受試者每次聽(tīng)到一對(duì)韻字中的某個(gè)音,然后讓他判斷所聽(tīng)到的音是哪一個(gè)字,全體實(shí)驗(yàn)者判斷正確的百分比就是DRT得分,通常認(rèn)為DRT為95%以上時(shí)清晰度為優(yōu),85%-94%為良,75%-84%為中,65%-75%為差而65%以下為不可接受。在實(shí)際通話中,清晰度為50%時(shí),整句的可懂度大約為80%,這是因?yàn)檎渲芯哂休^高的冗余度,即使個(gè)別字聽(tīng)不清楚,人們也能理解整句話的意思。當(dāng)清晰度為90%時(shí),整句話的可懂度已接近100%,所以對(duì)于低速率語(yǔ)音編碼,一般要求其清晰度能達(dá)到90%或以上。診斷滿意度測(cè)量(Diagnostic Acceptability Measure

9、)DAM是對(duì)語(yǔ)音質(zhì)量的綜全評(píng)估,它是在多種條件下對(duì)話音質(zhì)量的接受程度的一種度量。這種評(píng)分體系相當(dāng)全面,也相當(dāng)復(fù)雜,這里就不再贅述。2、客觀評(píng)價(jià)        語(yǔ)音質(zhì)量客觀評(píng)價(jià)方法采用某個(gè)特定的參數(shù)去表征語(yǔ)音通過(guò)增強(qiáng)或編碼系統(tǒng)后的失真程度,并以此來(lái)評(píng)估處理系統(tǒng)的性能優(yōu)劣。信噪比(Signal-to-Noise Ratio,SNR)    SNR一直是衡量針對(duì)寬帶噪聲失真的語(yǔ)音增強(qiáng)算的常規(guī)方法。但要計(jì)算信噪比必需知道純凈語(yǔ)音信號(hào),但在實(shí)際應(yīng)用中這是不可能的。因此,SNR主要用于純凈語(yǔ)音信號(hào)和噪聲信號(hào)都是己知的算法的仿真中。  &

10、#160;     信噪比計(jì)算整個(gè)時(shí)間軸上的語(yǔ)音信號(hào)與噪聲信號(hào)的平均功率之比。由于語(yǔ)音信號(hào)是一種緩慢變化的短時(shí)平穩(wěn)信號(hào),因而在不同時(shí)間段上的信噪比也應(yīng)不一樣。為了改善上面的問(wèn)題,可以采用分段信噪比。坂倉(cāng)距離測(cè)度(Itakura-Saito Distortion, ISD)        坂倉(cāng)距離測(cè)度是通過(guò)語(yǔ)音信號(hào)的線性預(yù)測(cè)分析來(lái)實(shí)現(xiàn)的。ISD基于兩組線性預(yù)測(cè)參數(shù)(分別從原純凈語(yǔ)音和處理過(guò)的語(yǔ)音的同步幀得到)之間的差異。對(duì)數(shù)似然比測(cè)度(Log Likelihood Ratio Measure,LLR)    

11、0;   LLR可以看成一種坂倉(cāng)距離(Itakura Distance,IS),但I(xiàn)S距離需要考慮模型增益。而LLR不考慮模型增益引起的幅度位移,更重視整體譜包絡(luò)的相似度。對(duì)數(shù)譜距離(log spectral distance,LSD)  對(duì)數(shù)譜距離的定義PESQ(Perceptual Evaluation of Speech Quality)        2001年2月,ITU-T推出了P.862 標(biāo)準(zhǔn)窄帶電話網(wǎng)絡(luò)端到端語(yǔ)音質(zhì)量和話音編解碼器質(zhì)量的客觀評(píng)價(jià)方法,推薦使用語(yǔ)音質(zhì)量感知評(píng)價(jià)PESQ算法,該建議是基于輸入-輸出方式的典型算法,效果良好。        PESQ算法需要帶噪的衰減信號(hào)和一個(gè)原始的參考信號(hào)。開(kāi)始時(shí)將兩個(gè)待比較的語(yǔ)音信號(hào)經(jīng)過(guò)電平調(diào)整、輸入濾波器濾波、時(shí)間對(duì)準(zhǔn)和補(bǔ)償、聽(tīng)覺(jué)變換之后, 分別提取兩路信號(hào)的參數(shù), 綜合其時(shí)頻特性, 得到PESQ分?jǐn)?shù), 最終將這個(gè)分?jǐn)?shù)映射到主觀平均意見(jiàn)分(MOS)。PESQ得分范圍在-0.5 - 4.5之間。得分越高表示語(yǔ)音質(zhì)量越好。參考文獻(xiàn):&#

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論