語音質(zhì)量評估_第1頁
語音質(zhì)量評估_第2頁
語音質(zhì)量評估_第3頁
語音質(zhì)量評估_第4頁
語音質(zhì)量評估_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上通常,人既是語音的發(fā)送主體,也是語音的接收主體。語音所具備的自然屬性和社會屬性決定了人對語音的感知涉及到語音信號的物理特征、聽覺器官對語音的聽覺表征及聽覺心理等諸多方面,因此難以對語音質(zhì)量這個概念做出全面、精確的定義。一般說來,語音質(zhì)量至少包括三個方面內(nèi)容:清晰度、可懂度和自然度。清晰度是指語音中語言單元為意義不連貫的(如音素、聲母、韻母等)單元的清晰程度;可懂度是指語音中有意義的語言單元(如單詞、單句等)內(nèi)容的可識別程度;自然度則與語音的保真性密切相關(guān)。目前對語音可懂度、清晰度的主觀評測己有國際和國內(nèi)標準,對語音自然度還缺乏公認的評價準則。語音質(zhì)量受到個人區(qū)別、可理

2、解性、語音特征、周圍環(huán)境、背景噪聲傳輸、網(wǎng)絡(luò)狀況和人的期望等復雜的因素影響.用于評價輸出語音質(zhì)量的方法分為主觀評價和客觀評價兩種1 主觀評價法主觀評價方法以人為主體在某種預設(shè)原則的基礎(chǔ)上對語音的質(zhì)量作出主觀的等級意見或者作出某種比較結(jié)果,它反映聽評者對語音質(zhì)量好壞的主觀印象。不同的主觀評價方法對語音質(zhì)量考察的側(cè)重點不同,常見的主觀評價方法有平均意見分(Mean Opinion Score,MOS)方法、判斷韻字測試(Diagnostic Rhyme Test,DRT)方法、失真平均意見分(Degradation Mean Opinion Score,DMOS)、判斷滿意度測試(Dignosti

3、c Acceptability Measure,DAM)方法和漢語清晰度測試。ITU-T推薦用于傳輸性能的主觀評價有以下幾種14:1.絕對等級評價(Absolute Category Rating,ACR)ACR主要通過平均意見分(MOS)對音質(zhì)進行主觀評價。這種情況下沒有參考語音,聽音人只聽失真語音,然后對該語音作出1-5分的評價。ACR評價方法不需要參考音,比較靈活,然而由于人對不同聲音的喜好不同,這種靈活性會導致一定的不公平性。2.失真等級評價(Degradation Category Rating,DCR)DCR主要通過失真平均意見分(DMOS)來實現(xiàn)音質(zhì)的主觀評價。這種評價方法要求聽

4、音人在給失真語音打分前,先熟悉原始語音(參考語音),再將失真語音與原始語音的差異按一定標準來描述。DCR常用于評價諸如汽車噪聲、街道噪聲或其他說話人干擾等為背景噪聲情況下的音質(zhì)。噪聲的類型和數(shù)量將直接影響評定的失真等級。3.相對等級評價(Comparison Category Rating,CCR)CCR方法主要采用相對平均意見分(CMOS)對音質(zhì)進行主觀評價。CCR類似于DCR,不同的是,在CCR方法中,原始語音和失真語音的播放次序是隨機的,聽音人不知道哪是原始音、哪是失真音。聽音人只是在上一個音的基礎(chǔ)上,評定出當前音相對于上一音的好壞。CCR方法允許對處理后語音(失真語音)的評價高于原始音

5、的評價,因此,它可以用來評價具有噪聲抑制和語音增強功能的編碼器,也可以用來比較兩種未知編碼器的性能優(yōu)劣。MOS得分方法是由CCITT推薦的主觀評價方法,現(xiàn)已廣泛作為不同系統(tǒng)之間的比較標準。它采用五級評分制MOS判分語音質(zhì)量失真覺察程度收聽注意力等級5優(yōu)(excellent)不察覺可完全放松,不需要注意力4良(Good)剛有察覺需要注意,但不需明顯集中3一般(Fair)有察覺且剛覺可惡中等程度的注意力2差(Poor)明顯察覺且可厭但可忍受需要集中注意力1劣(Unacceptable)不可忍受即使努力去聽,也很難聽懂MOS評分中質(zhì)量優(yōu)表示重建語音和原始語音只有很少的細節(jié)差異,且若不進行對照聽比就覺

6、察不出這種差異質(zhì)量良表示重建語音的畸變或失真不明顯,不注意聽感覺不到;質(zhì)量一般表示重建語音有比較明顯可感知的畸變成失真,但語音自然度和清晰度仍很好,且聽起來沒有疲勞感;質(zhì)量差表示重建語音有較強的畸變或失真,聽起來已有疲勞感;質(zhì)量極差表示重建語音的質(zhì)量極差,聽覺無法忍受。在數(shù)字語音通信中,通常認為MOS分為4.0 4.5為高質(zhì)量數(shù)字化語音,達到長途電話網(wǎng)的質(zhì)量要求,接近于透明信道編碼,也常稱之為網(wǎng)絡(luò)質(zhì)量。MOS分為3.5分左右稱為通信質(zhì)量,這時能感到重建話音質(zhì)量有所下降,但不妨礙正常通話,可以滿足多數(shù)語音通信系統(tǒng)使用要求。MOS分3.0以下常稱為合成語音質(zhì)量,指一些聲碼器合成的語音所能

7、達到的質(zhì)量。它雖然有較高的可懂度,但自然度較差MOS得分法的優(yōu)點是: 由于編碼系統(tǒng)的質(zhì)量是按數(shù)值大小等級排列,所以不同失真類型的編碼系統(tǒng)就可以相互比較; 評測者只需實現(xiàn)進行簡單訓練,就可直接參與評測,因而容易完成.其缺點是:它把不同種類的失真混為一談,沒有指出失真的原因,不利于算法的改進。另外,測試條件的選擇及其他一些因素會影響MOS方法的結(jié)果判斷韻字測試(DRT)判斷韻字測試是反映語音清晰度或可懂度的一種測試方法,它主要用于低速率語音編碼的質(zhì)量測試,因為這時可懂度已成為主要問題。這種測試方法使用若干對(通常是96對)同韻母進行測試,例如中文的“為”和“費”,英文的fast

8、和vast等。讓受試者每次聽到一對韻字中的某個音,然后讓他判斷所聽到的音是哪一個字,全體實驗者判斷正確的百分比就是DRT得分,通常認為DRT為95%以上時清晰度為優(yōu),85%-94%為良,75%-84%為中,65%-75%為差而65%以下為不可接受。在實際通話中,清晰度為50%時,整句的可懂度大約為80%,這是因為整句中具有較高的冗余度,即使個別字聽不清楚,人們也能理解整句話的意思。當清晰度為90%時,整句話的可懂度已接近100%,所以對于低速率語音編碼,一般要求其清晰度能達到90%或以上診斷滿意度測量(Diagnostic Acceptability Measure)DAM

9、是對語音質(zhì)量的綜全評估,它是在多種條件下對話音質(zhì)量的接受程度的一種度量。這種評分體系相當全面,也相當復雜主觀評價的優(yōu)點在于直接、易于理解,真實反映語音質(zhì)量的實際情況。然而,主觀評價不但對聽評條件、聽評流程有嚴格要求,為了避免個別聽評者的感知偏差,還需要對大量的聽評者的評價結(jié)果做統(tǒng)計,因此主觀評價費時費力,成本高,靈活性差,重復性不好,難以應(yīng)用于實時性場合。2 客觀評價法音質(zhì)的客觀評價是指用機器自動判別語音質(zhì)量,按是否需要使用輸入語音的角度可分為兩類:基于輸入輸出方式的客觀評價和基于輸出方式的客觀評價?;谳斎胼敵龅目陀^評價比較輸出和輸入語音之間的差異(失真)程度,將差異量值作為語音質(zhì)量的衡量依

10、據(jù);基于輸出的客觀評價則僅由輸出語音就可對語音的質(zhì)量做出評估。在應(yīng)用中,輸入語音也常稱為原始語音或者參考語音,通過系統(tǒng)的輸出語音常稱為失真語音。以往的音質(zhì)客觀評價研究大多集中于輸入輸出方式,隨著技術(shù)發(fā)展、對通信服務(wù)質(zhì)量的關(guān)注等,基于輸出的音質(zhì)評價技術(shù)正得到越來越多的關(guān)注??陀^評價不受人為主觀因素的影響,成本低廉,靈活性好,效率高,具有可重復性,且可實時使用,例如對VoIP網(wǎng)絡(luò)中語音傳輸質(zhì)量的實時監(jiān)控和用于指導系統(tǒng)中設(shè)備參數(shù)調(diào)整等。盡管科學家對人類的感官感知和神經(jīng)信息處理機制做了大量的研究并取得一定的成果,但人們對人類感知的機理和大腦活動的運作方法仍處在一知半解的初級階段,因此我們還無法建立一個

11、能完全模仿人類音質(zhì)感知過程的客觀評價系統(tǒng),只能根據(jù)所獲得的信息作出盡可能正確的評價,所建立的客觀評價系統(tǒng)也與人類所具有的感知評價能力相差甚遠。因此,客觀評價并不能完全取代主觀評價。在實際應(yīng)用中,通常將主觀評價和客觀評價結(jié)合使用??陀^評價常用于系統(tǒng)的設(shè)計、調(diào)整以及現(xiàn)場實時監(jiān)控階段,主觀評價作為實際效果的最終檢驗,兩者相輔相成,用于不同的場合。其次,客觀評價系統(tǒng)的優(yōu)劣取決于由它得到的客觀評價結(jié)果與主觀評價結(jié)果是否具有統(tǒng)計意義上高相關(guān)性以及小的偏差,因此客觀評價系統(tǒng)的設(shè)計必須以主觀評價為基礎(chǔ),并借鑒主觀評價主體的感知功能和智能特性。合格的客觀評價系統(tǒng)可在一定使用范圍內(nèi)中代替主觀評價對語音質(zhì)量做出基本

12、正確的判斷。3 客觀評價原理基于輸入輸出的客觀評價是在信號特征表示的基礎(chǔ)上對失真語音和原始語音進行比較。下圖為基于輸入輸出的客觀評價的模塊原理圖,從流程上分為預處理、語音信號特征提取、客觀失真量計算和質(zhì)量等級映射四大模塊。通信系統(tǒng)原始語音失真語音預處理預處理特征提取特征提取客觀失真量計算映射模塊預處理包括輸入輸出語音信號的同步處理、電平規(guī)整、分幀等處理步驟。同步處理是為了保證所比較的輸入和輸出語音單元之間有正確的對應(yīng)關(guān)系,否則將對客觀評價結(jié)果產(chǎn)生巨大的偏差;為了消除語音信號幅度差異對主觀聽覺的影響,必須通過電平規(guī)整保證輸入和輸出語音的聲壓級基本相同;雖然語音是時變的非平穩(wěn)信號,但是在一個短時間

13、范圍內(nèi)(1Oms-30ms),其特性相對穩(wěn)定,因此可以將連續(xù)語音信號分割為短時間范圍的時間片序列以便于后續(xù)的特征參數(shù)分析。這樣,對于整體的語音信號,通過預處理環(huán)節(jié)后,語音信號被分割為以幀為單位、加窗處理過的短時信號。語音信號分析是語音信號處理的前提和基礎(chǔ),分析的目的是提取需要的信息,獲取特征表示參數(shù)。曾有語音處理專家在論文中表示:語音信號的表示是人類近代科學研究中很少碰到的難題之一18。雖然語音信號是一維波形信號,但僅從時域上描述其特性是遠遠不夠的,特別是在音質(zhì)評價中,兩個時域波形差別很大的語音信號的主觀音質(zhì)感覺可能基本相同,因此需要使用頻域分析及其它信號分析方法表示語音信號的特征。對于語音幀

14、序列,語音信號特征提取模塊使用適當?shù)姆治龇椒?,得到表示語音信號的特征參數(shù)。特征參數(shù)對音質(zhì)評價效果有極其重要的影響,音質(zhì)評價的特殊性對所使用的語音特征參數(shù)有著獨特的要求??陀^失真量計算模塊用于計算失真量。所謂失真量是指原始語音和輸出語音特征參數(shù)之間的總體差異量,該量值反映語音通過系統(tǒng)后的質(zhì)量變化,即輸出語音對于原始語音的失真程度。由于尚不清楚人類聽覺系統(tǒng)、感知神經(jīng)系統(tǒng)以及大腦思維在判斷語音質(zhì)量過程中的相互作用,無法建立人類感知語音失真程度的真實數(shù)學模型,因此常采用Lp,范數(shù)形式計算客觀失真量。為了與主觀評價等級一致,通常將客觀評價所得到的失真量映射為主觀評價的尺度表示,如MOS的5級表示,映射模塊即完成此功能。映射模塊可按二次或者三次多項式函數(shù)擬合形式建立客觀失真量與主觀等級分之間的對應(yīng)關(guān)系。使用基于輸入輸出的客觀評價時要求原始語音和失真語音之間做到嚴格同步,而在實際應(yīng)用中,嚴格同步

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論