《媒體信號編碼》課件第2章

上傳人：1*** IP屬地：廣東上傳時間：2025-03-11 格式：PPT 頁數(shù)：103 大?。?.92MB 積分：15 舉報 版權申訴

已閱讀5頁，還剩98頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

第2章媒體信號分析及編碼系統(tǒng)評價2.1媒體信號的量化

2.2媒體信號的數(shù)字化

2.3媒體編碼系統(tǒng)的性能評價

習題與思考題

2.1媒體信號的量化

2.1.1媒體信號的數(shù)字化

圖2-1是模擬信號數(shù)字化系統(tǒng)的一般框圖，它由抗混疊濾波器和A/D轉換電路兩部分組成?？够殳B濾波器的作用主要是濾除信號中的多余成分，使其滿足采樣定理的要求。A/D轉換電路完成實際的模擬信號數(shù)字化過程，一般由采樣(時間離散化)、量化(幅度離散化)和編碼三個過程組成。A/D轉換有兩個關鍵參數(shù)，即采樣頻率和量化位寬(每個樣點的量化比特數(shù))。一般采樣頻率根據(jù)采樣定理決定，量化位寬根據(jù)允許的失真決定。圖2-1模擬信號數(shù)字化的一般框圖

【定理2-1】(一維采樣)如果模擬信號g(t)的頻率f限制在|f|≤fc，則只要采樣頻率滿足fs＞2fc，就可以通過截止頻率為fc的理想低通濾波器將所采樣準確地恢復成原始信號。

【定理2-2】(二維采樣)若二維信號f(x,y)的空間頻率u和v分別限制在|u|≤Uc和|v|≤Vc，那么只要采樣周期Δx、Δy滿足和，就可以準確地由采樣信號恢復該信號。需要指出的是，由于在實際應用中無法做到理想采樣和理想低通濾波器，因而經(jīng)過A/D轉換后，是不可能無失真地恢復出原始的模擬信號的。

媒體信號采樣后的量化是媒體信號數(shù)字化的核心環(huán)節(jié)，也是現(xiàn)代媒體信號壓縮編碼技術中的基本技術。采樣定理確定了恢復模擬信號所必需的最低采樣頻率，即每秒的采樣數(shù)已經(jīng)確定。因此數(shù)字信號的數(shù)據(jù)率或信噪比在采樣頻率確定后，主要取決于本節(jié)要討論的量化問題。量化系統(tǒng)設計中的關鍵問題是：對一定質量(保真度)要求來說，至少需要多大的數(shù)據(jù)速率(即每秒或每個采樣的比特數(shù))；或者說在限定比特率情況下，其量化噪聲有多大。2.1.2量化的基本概念

量化的目的是使信號的幅值離散化，量化的過程始于采樣。每一次采樣都得到一個采樣值，理論值域為一維坐標軸上的一段區(qū)間甚至整個坐標軸。量化器要完成的功能就是按一定的規(guī)則對采樣值做近似表示，使經(jīng)過量化器輸出的幅值為有限個數(shù)。

量化器的一般數(shù)學公式可以表示為

Y=Q(X) (2-1)

其中，X∈(a,b)，Y={y1,y2,…,yN}，即X的定義域為一段連續(xù)區(qū)間，而Y的值域為N個數(shù)的集合；Q為量化函數(shù)，N為量化級數(shù)。從式(2-1)可以看到，量化是一個從連續(xù)區(qū)間到有限集合的映射，因而量化必然是一個不可逆過程，即經(jīng)過量化后的信號不可能精確恢復為原來的采樣值。這就是說，量化過程一定會產(chǎn)生誤差，該誤差一般稱為量化噪聲。

量化主要分為無記憶量化和有記憶量化。對于無記憶量化，其輸出僅由當前的采樣值決定，與以前的采樣值無關；對于有記憶量化，其輸出不僅與當前的采樣值有關，而且與以前的采樣值也有關。

一個無記憶的N級量化器Q可描述如下：

①設置N+1個采樣判決點x0,x1,…,xN；其中x0為信號最小值(或者為－∞)，xN為信號最大值(或者為+∞)；②這N+1個點將輸入空間分割成N個量化區(qū)間Ri={xi－1<x≤xi}(i=1,2,…,N)，并在這N個量化區(qū)間各取一個對應的輸出電平，分別為y1,y2,…,yN；

③當輸入信號的采樣值x屬于第i個量化區(qū)間Ri時，量化器輸出yi。

這樣，量化器Q就把幅度連續(xù)的輸入映射成離散的N個輸出，圖2-2為最簡單的無記憶量化器的輸入/輸出特性。圖2-2量化器特性前面已經(jīng)說過，以有限個離散值近似表示無限個連續(xù)值，一定會產(chǎn)生誤差，這個誤差稱為量化誤差。量化誤差的數(shù)學表示是量化器的輸出與原始信號的差值，即

e(x)=Q(x)－x (2-2)

它與輸入信號是一種非線性關系，如圖2-3所示。圖2-3量化誤差的非線性特性圖2-3中，輸出電平取區(qū)間中點電平。由圖2-3可見，當輸入樣值x在區(qū)間(x0,x7)內時，噪聲表現(xiàn)為“顆粒噪聲”，其值有限。顆粒噪聲得名于當信號均值正好等于量化區(qū)間的判決電平xk時，輸入信號幅度稍低于xk，量化器輸出yk－1；輸入信號稍高于xk，量化器輸出yk。也就是說，此時輸入信號微小的變化會造成量化器輸出在兩個相鄰的量化級之間跳變。虛假的輸出信號的峰值差yk－yk－1為矩形波，它嚴重放大了輸入信號的變化。這種矩形波的假輸出在圖像中的表現(xiàn)類似于點狀噪聲，所以稱為顆粒噪聲。當輸入樣值落入?yún)^(qū)域x≤x0或x>x7時，噪聲表現(xiàn)為“過載噪聲”，其值可能為無限大。一般來說，出現(xiàn)無限大的“過載噪聲”的概率極小，因此“過載噪聲”不會很大。一般稱判決點x0和x7為“過載點”。總的量化噪聲應該是顆粒噪聲和過載噪聲之和，其大小與信號的概率分布密度p(x)、量化級數(shù)N、過載點選擇及量化方法相關。量化系統(tǒng)的量化噪聲一般通過量化誤差的均方誤差來度量，即將量化誤差當做一種隨機變量，其均方誤差計算為(2-3)若假設“過載區(qū)”的p(x)近似為0，即輸入信號的樣值在過載區(qū)的概率可以忽略，另外假設量化級數(shù)N足夠大，使得量化區(qū)域間隔Δi=xi－xi－1足夠小，即對每一個小區(qū)域來說，p(x)幾乎相等，并用p(yi)來表示，其中yi取區(qū)間的中點坐標值，yi=(xi+xi－1)/2。這時，式(2-3)可以化簡為(2-4)在采用均勻量化(量化區(qū)域是等間隔分布)時，Δi=Δ，于是式(2-4)可化簡為

由于假設“過載區(qū)”的p(x)近似為0，因此有 ,于是對于均勻量化有

式(2-6)表明：均勻量化器的均方誤差與量化間隔的平方成正比。這個式子也給出了量化器產(chǎn)生的量化誤差的大致數(shù)量概念，可以用來對量化器的性能做粗略的估計和比較。(2-5)(2-6)上面討論的量化均方誤差只能反映量化噪聲的客觀大小，不能準確反映它對信號的影響。舉例來說，如果兩個量化器有相同的量化均方誤差，但兩個量化器的輸入信號大小不同，此時量化噪聲產(chǎn)生的影響效果就不同。相同的量化噪聲對小信號的影響要大于對大信號的影響。因此，在實際的系統(tǒng)中，采用量化“信噪比”的度量更有意義，它定義為

或者采用“分貝信噪比”，它定義為(2-7)(2-8)現(xiàn)在我們來推導均勻量化的信噪比公式。首先，定義比值

于是均勻量化的量化間隔也可表示為，代入式(2-6)，有(2-9)將式(2-9)代入式(2-8)，且考慮到量化級數(shù)N與量化比特數(shù)b滿足N=2b的關系，有(2-10)2.1.3壓擴量化

由于實際信號的分布并不均勻，因此上面討論的均勻量化器在大部分情況下性能并不理想。比如語音信號的分布，它表現(xiàn)為低電平信號的概率遠遠大于高電平的概率。于是人們想到用非均勻間隔的量化器來改善性能,其基本思想是概率出現(xiàn)大的信號電平區(qū)間量化間隔小，概率出現(xiàn)小的信號電平區(qū)間的量化間隔大，從而使總體的量化噪聲減小。

實現(xiàn)時，先用一個非線性函數(shù)y=F(x)將信號“壓縮”，然后進行均勻量化；恢復時,用該非線性函數(shù)的逆函數(shù)x=F－1(y)對量化值進行“擴展”就可得到重建信號。壓擴量化器的基本原理框圖如圖2-4所示。圖2-4壓擴量化原理框圖用作壓縮信號的非線性函數(shù)F(x)必須具有圖2-5所示的函數(shù)圖形。經(jīng)過該函數(shù)變換后，均勻間隔被變換成低電平處間隔密(量化間隔Δ小)、高電平處間隔疏(量化間隔Δ大)的不均勻間隔分布。這樣就造成低電平區(qū)間量化間隔密、量化噪聲小，高電平區(qū)間量化間隔疏、量化噪聲大。同時，由于信號出現(xiàn)低電平的概率大，出現(xiàn)高電平的概率小，因此總的量化噪聲會減小，從而提高了量化信噪比。圖2-5歸一化的非線性函數(shù)F(x)壓擴量化主要在語音壓縮編碼中使用，常用的壓擴量化函數(shù)有兩種：μ律曲線和A律曲線。英、美、日、加拿大等國用μ律曲線，一般取μ=255，壓擴函數(shù)如下:

我國和歐洲各國采用CCITT建議的A律曲線，一般取A=87.6，壓擴函數(shù)如下:(2-11)(2-12)

A律與μ律性能差不多(在大信號區(qū),A律信噪比高于μ律；但在小信號區(qū)，A律量化器則不如μ律量化器)，但A律具有實現(xiàn)方面的優(yōu)勢，它可以采用13折線進行逼近，降低實現(xiàn)時的復雜度。具體實現(xiàn)如下：將歸一化的y坐標8等分取1/8、2/8、3/8、4/8、5/8、6/8、7/8，將歸一化的x坐標按2的負冪次方取1/2、1/4、1/8、1/16、1/32、1/64、1/128；從(0，0)到(1，1)連接對應坐標點，x負方向按原點對稱作出。這樣共得到16段折線，但原點前后4段折線的斜率一樣，可看成1段折線，這樣總共就有13段折線，如圖2-6所示。圖2-6

A律的13折線逼近函數(shù)2.1.4矢量量化

前面所討論的標量量化方法，其基本出發(fā)點都是把信號的各個樣值看成是彼此獨立的，然后單個進行量化。這樣實現(xiàn)起來雖比較簡單，效果卻不一定最好。這是因為大多數(shù)實際媒體信號的前后樣值之間一般都存在相關性，即若知道一個樣值，對其鄰近樣值也可以作出一些推斷。也就是說，如果合理利用這些已知樣值與未知樣值的相關性，就能進一步壓縮數(shù)據(jù)率。當然，這就需要更加復雜的信號處理技術和設備，成本也會增加。實際上，在語音、圖像等實際媒體信源的數(shù)字化過程中，大多使用帶記憶量化器，如預測差值編碼、矢量量化(VectorQuantization，VQ)、增量調制等。本節(jié)主要介紹矢量量化的基本原理。設=(x1,x2,…,xK)T為K維矢量，其分量{xi|1≤i≤K}為實的、幅值連續(xù)的隨機變量。VQ可以看做是一個K維矢量空間RK到RK的一個有限子集Y的映射，即

Q：RK→Y

(2-13)

其中，Y={yi|i=1,2,…,N},是一個重建矢量集，N為Y中的矢量個數(shù)。Y中的每一個矢量yi=(yi1,yi2,…,yiK)T叫做碼矢量。Y叫做碼書,碼書的大小N也叫做電平數(shù)，這是借用標量量化的一個術語，也稱為N-電平碼書或N-電平量化器。矢量量化器完全由碼書Y與輸入矢量空間RK的分割P={R1,R2,…,RN}的一一對應來描述，其中，Ri是RK分割成的子空間，它滿足:

這樣，映射Q可表示Ri與yi的一一映射，即

Q(x)=yi;

x∈Ri,

i=1,2,…，N

(2-15)

圖2-7是一個具有10個碼矢量的二維矢量量化的例子(K=2，N=10)。圖中的黑點表示矢量yi，虛線表示Ri的區(qū)間邊界。處在Ri范圍內的任何輸入矢量都被量化為yi?？梢钥吹?，矢量量化的壓縮比例是非常大的，當然其失真也非常大。矢量量化的一個關鍵問題就是如何劃分Ri的范圍。(2-14)圖2-7二維矢量量化實例在實踐中，一個矢量量化器可以看成是由編碼器和解碼器兩個映射聯(lián)合構成的，它們分別是：

C:RK→I;

D：I→Y

(2-16)

其中，I={i|1≤i≤N}是標號集，每個標號集對應著一個碼矢量yi。

編碼器計算輸入矢量x與碼書中的每一個碼矢量之間的失真，然后輸出一個由Q(x)根據(jù)最近鄰準則(比如最小失真準則)指定的碼矢量yi的標號i。解碼器根據(jù)接收到的標號i從與編碼器完全相同的碼書中找到碼矢量yi，并用yi代替輸入矢量x，作為輸出矢量x′。VQ的基本結構如圖2-8所示。圖2-8

VQ的基本結構

VQ可以這樣形象地近似為：全部輸入矢量空間RK構成一本有N頁的字典，而字典的每頁有唯一的代表碼字yi，其中i代表字典的頁碼。由于收、發(fā)雙方有同樣的字典，故發(fā)方無需將具體漢字x(輸入矢量)告訴收方，只需告訴其所在的頁碼i，因此收方在收到這個矢量所在的頁碼i后，雖然不能精確知道這個漢字是什么，但可以得知這個漢字的近似表示yi。由于一個yi可能近似表示許多個x，因此VQ的壓縮能力非常強。VQ的比特率為(2-17)綜上所述，VQ具有如下特點：

(1)壓縮能力強，壓縮比可以精確預知。

(2)一定產(chǎn)生失真，失真大小主要取決于RK劃分得是否精細。劃分得越細，失真就越小，碼書的容量就越大，比特率也就越大。

(3)編碼器復雜度高。編碼器每輸入一個矢量x，都要與N個碼矢量yi逐一比較，以確定x與誰最接近。由于x和yi都為K維矢量，所以計算復雜度非常高。

(4)VQ是定長碼，這對于通信非?？少F。定長碼在信道上的可靠傳輸比變長碼易于實現(xiàn)。2.1.5矢量量化的最優(yōu)碼書設計

在進行矢量量化的碼書設計時，首先要選擇一個合適的失真測度。失真測度用代價函數(shù)d(x,y)表示，其物理意義為用矢量y代表輸入矢量x造成的失真。一個理想的失真測度應該具有如下性質：

(1)具有主觀上的意義，即失真大小與信號的主觀質量一致；

(2)容易處理,適于數(shù)學分析,便于實際實現(xiàn)；

(3)運算量小。

常用的失真測度函數(shù)為(2-18)在一般情況下，在給定失真測度函數(shù)后，可以定義一個總平均失真D，即

其中，是xi的重建矢量，一般設為yi。如果隨機矢量是平穩(wěn)各態(tài)歷經(jīng)的，則式(2-19)可以簡化為(2-19)(2-20)要想實現(xiàn)最優(yōu)矢量量化，必須要得到一個能將平均失真D降為最小的包含N個碼矢量的碼書。如果沒有其他的碼書能達到比所設計的碼書更低的平均失真，那么該碼書就是最優(yōu)碼書。最優(yōu)碼書設計是一個非線性問題，為解決這個問題，一般要利用如下兩個必要條件：

(1)對于被量化的矢量x，最優(yōu)量化器選擇的碼矢量yi應能使x和yi間的失真最小，即

(2)每個碼矢量yi必須能使子區(qū)間Ri內的平均失真D最小，即yi能使(2-21)(2-22)條件(1)給出了由失真測度d(x,yi)與所有的碼矢量yi(1≤i≤N)一起確定了全部子區(qū)間Ri(1≤i≤N)的方法。條件(2)給出了一個由Ri和失真測度d(x,yi)確定yi的方法。這兩個條件說明，對于給定的一個失真測度d(x,yi)，碼矢量和子區(qū)間劃分彼此是不獨立的。事實上，碼矢量確定后，子區(qū)間劃分也隨之確定；反之也一樣。因此，在碼書中僅有碼矢量本身已經(jīng)足夠了，不需要在碼書中存儲關于子區(qū)間劃分的有關信息。

這兩個條件還提供了一個設計最優(yōu)量化器(最優(yōu)碼書)的迭代步驟。假設從一個碼書Y的初始估計開始，給定yi和失真度測量d(x,yi)，從理論上可以確定Ri。具體步驟是：

(1)對于所有可能的x值，利用式(2-21)，確定相應的yi，這樣就得到一個Ri的估計。

(2)利用式(2-22)計算Ri的矩心，這樣得到的矩心是碼矢量yi的一個更新估計值。

(3)利用這個更新的碼書重新計算，程序依此迭代運行。

但是上述迭代程序在實際應用中存在兩個方面的問題：首先它要求對所有可能的x確定yi；其次，在計算中用到x的多維概率密度函數(shù)p(x)在實際應用中經(jīng)常無法得到精確的估計?？紤]到這些實際困難，在設計矢量量化器碼書時經(jīng)常會使用一組訓練數(shù)據(jù)，利用訓練數(shù)據(jù)代表需要量化編碼的實際數(shù)據(jù)，矢量量化的碼矢量(碼書)和區(qū)間劃分通過重復利用這些訓練數(shù)據(jù)迭代產(chǎn)生。 2.2媒體信號的數(shù)字化

2.2.1聲音信號的數(shù)字化

從物理上說，聲音是人耳可聽見的振動波，是隨時間連續(xù)變化的物理量。數(shù)學上，聲音信號可由一維連續(xù)函數(shù)f(t)來描述。聲音信號按頻率可分為三類：次聲(頻率低于20Hz)、超聲(頻率大于20kHz)和可聽聲。次聲和超聲這兩類聲音是人耳聽不到的；人耳可以聽到的聲音是頻率在20Hz~20kHz之間的聲波，稱為可聽聲，本書所指的聲音信號就是這一類聲音。聲音信號的數(shù)字化由時間和幅值離散化組成，時間離散化由采樣完成，幅值離散化由量化完成。數(shù)字化后的聲音信號的原始比特率I計算如下：

I=fs×R

(bit/s或b/s)

(2-23)其中，fs為采樣頻率，一般按一維采樣定理的要求取2倍信號最高頻率；R為每個樣值采用二進制編碼需要的位數(shù)，也就是量化器的量化比特數(shù)b。常見聲音信號數(shù)字化時的采樣與量化比特數(shù)如表2-1所示。表2-1數(shù)字化聲音格式2.2.2圖像信號的數(shù)字化

圖像信號是二維信號，它存在空間離散化和幅值離散化；對于視頻信號，還存在時間離散化。下面以最簡單的灰度靜止圖像討論圖像數(shù)據(jù)的數(shù)字化問題。

一個二維灰度靜止圖像可以用一個二維連續(xù)函數(shù)f(x，y)來表示，其中(x，y)為二維空間域中直角坐標系的坐標，如圖2-9所示。圖中的坐標軸與常用坐標軸相比，順時針旋轉了90°，這是因為在圖像中一般用x坐標表示掃描行數(shù)，用y坐標表示掃描行中各列的位置，這樣會在處理中帶來一定方便。f(x，y)是這個二維圖像的亮度值(亮度用來描述光作用于人眼時所引起的明亮程度)。圖2-9二維靜止圖像的數(shù)學表達圖像的亮度值是非負的有界值，它總滿足

0≤f(x,y)<某個常數(shù) (2-24)

此外，假設這個圖像是矩形，即滿足

圖像的數(shù)字化可分為兩步：第一步將二維圖像f(x，y)在二維空間域離散化，即空間采樣；第二步將經(jīng)過空間采樣后的亮度值f(i，j)進行幅值離散化，即量化。圖像在二維空間域中采用的采樣結構有多種，最常用的是正交結構，如圖2-10(a)所示，但也有采用斜交結構的，如圖2-10(b)所示。圖2-10二維靜止圖像的空間采樣結構假設f(x，y)的x和y軸方向上的空間域頻率分別為u和v。由于受圖像空間域實際變化或觀測儀器或視覺心理的限制，u和v總是有界的，它們滿足：

|u|≤u0,

|v|≤v0

其中,u0和v0為常數(shù)，分別代表u和v的上限。根據(jù)二維空間采樣定理，對二維圖像f(x，y)采樣要求f(i，j)的M×N個采樣點的采樣密度滿足

才不致發(fā)生f(i，j)的二維空間域頻譜的相互混疊現(xiàn)象，并由f(i，j)不失真恢復原始圖像f(x，y)。(2-25)圖像數(shù)字化的第二步，是將空間上離散的函數(shù)f(i，j)的數(shù)值，由連續(xù)值經(jīng)過數(shù)值量化過程變?yōu)殡x散值，這就是前面討論的量化過程。圖像中常用的量化過程是均勻量化，并且一般取R=8bit，即一個采樣點用8bit進行量化。

對于視頻信號，還存在一個時間離散化的問題。在視頻信號的時間離散化過程中，利用了人眼的視覺滯留現(xiàn)象，即指當人眼所看到的影像消失后，人眼仍能繼續(xù)保留其影像1/24秒左右的圖像。利用人眼的視覺滯留效應，一般每秒采樣25幀以上圖像，然后在1秒內將這些圖像按順序播放，人眼就認為這些圖像是運動且連續(xù)的。綜上所述，視頻信號數(shù)字化后的數(shù)碼率I公式可表示如下：

I=M×N×R×fs

(2-26)

其中，M×N為幀圖像的像素點數(shù)，R為每個像素的量化比特數(shù)，fs為幀頻。常見視頻信號數(shù)字化時的采樣與量化格式如表2-2所示。表2-2常見視頻信號的數(shù)字化2.2.3圖像的色彩空間

上面討論的圖像和視頻數(shù)碼率公式主要是針對灰度圖像和視頻的，但實際生活中，我們接觸更多的是彩色圖像和視頻。彩色圖像數(shù)字化時主要采用兩種色彩空間：RGB色彩空間和YCbCr色彩空間。R、G、B分別代表光的三原色：紅色(Red)、綠色(Green)和藍色(Blue)。當彩色圖像是在RGB色彩空間進行采樣時，首先需要通過3組傳感器將紅、綠、藍三種色彩分量提取出來，然后分開進行采樣和量化，每一路的數(shù)碼率公式如式(2-26)所示。顯示時，需要分別按照紅、綠、藍三種分量的強度顯示每一個像素。當人們在一定距離觀看獨立的色彩分量時，它們相互混合就產(chǎn)生了“真實的彩色圖像”。YCbCr的Y代表圖像亮度信號，它是不同權重的R、G和B的平均；CbCr則為色差信號，每一個色差信號表示了RGB與Y的差。因此，RGB和YCbCr色彩空間是可以互相轉換的，具體如下：(2-27)

ITU-R推薦的BT.601建議中定義的RGB和YCbCr互相轉換的公式為(2-28)(2-29)2.2.4計算機常見圖像格式

1.BMP

BMP(BasicMultilingualPlane)是一種與硬件設備無關的圖像文件格式，使用非常廣泛。BMP采用位映射存儲格式，除了圖像深度(每個像素的量化比特數(shù))可選以外，一般不采用其他任何壓縮算法，因此BMP文件所占用的存儲空間很大。BMP文件的圖像深度可選1比特(單色)、4比特(16色)、8比特(256色)及24比特(真彩色)。BMP文件存儲數(shù)據(jù)時，圖像的掃描方式按從左到右、從下到上的順序進行。典型的BMP圖像文件由四部分組成：

(1)位圖文件頭數(shù)據(jù)結構，包含BMP圖像文件的類型、顯示內容等信息；

(2)位圖信息數(shù)據(jù)結構，包含BMP圖像的寬、高、壓縮方法，以及定義顏色等信息，對16色或者256色圖像，可以采用游程編碼(RLE)方法進行壓縮；

(3)調色板，這個部分是可選的，有些位圖需要調色板，有些位圖(比如真彩色圖)就不需要調色板；

(4)位圖數(shù)據(jù)，這部分的內容根據(jù)BMP位圖使用的位數(shù)不同而不同。在24位圖中直接使用RGB，而其他小于24位的圖則使用調色板中的顏色索引值。

2.GIF

GIF(GraphicsInterchangeFormat，圖像互換格式)是CompuServe公司于1987年開發(fā)的圖像文件格式。GIF文件的數(shù)據(jù)是一種基于字典編碼(LZW算法)的連續(xù)色調的無損壓縮格式，其壓縮率一般在50％左右。GIF格式的另一個特點是其在一個GIF文件中可以存放多幅彩色圖像，如果把存于一個文件中的多幅圖像數(shù)據(jù)逐幅讀出并顯示到屏幕上，就可構成一種最簡單的動畫，即GIF圖片可以以簡單動畫的方式顯示出來。GIF格式只支持256色，如果圖像顏色深度多于256色，則必須先將其處理成256色。

GIF格式自1987年開發(fā)以來，因其顏色深度少且經(jīng)過一定的壓縮，所以文件較小而圖像質量尚可，特別適合于初期慢速的互聯(lián)網(wǎng)。然而，256色的限制大大局限了GIF文件的應用范圍，如彩色相機、高質量圖像等，因此GIF格式普遍適用于圖表、按鈕等只需少量顏色的圖像。

3.JPG

JPG的全名是JPEG(JointPhotographicExpertsGROUP，聯(lián)合圖像專家小組)，它是由國際標準組織ISO和國際電話電報咨詢委員會CCITT為靜態(tài)圖像所建立的第一個國際數(shù)字圖像壓縮標準，也是至今一直在使用的、應用最廣的圖像壓縮標準。JPEG主要面向有損壓縮，因此壓縮比可以達到其他傳統(tǒng)壓縮算法無法比擬的程度。

JPEG是一種支持8位和24位色彩的壓縮位圖格式，與平臺無關，支持可變級的壓縮，從而可以得到不同的文件大小。一般來說,圖像質量與文件大小成比例，壓縮比高則文件小，圖像質量也相對下降；反之，則圖像質量提高。也就是說，如果追求高品質的圖像，則不宜采用過高壓縮比例。

JPEG壓縮比率可以高達100∶1，它可在10∶1～20∶1的壓縮比率范圍內輕松地壓縮文件，而圖片質量不會明顯下降。JPEG壓縮可以很好地處理寫實攝影作品。但是，對于顏色較少、對比級別強烈、實心邊框或純色區(qū)域大的較簡單的作品，JPEG壓縮無法提供理想的結果。JPEG的升級版為JPEG2000，其壓縮率比JPEG約高30％，同時支持有損壓縮和無損壓縮，具有流式瀏覽等新特點。

4.TIFF

TIFF(TaggedImageFileFormat，標簽圖像文件格式)是一種復雜的位圖文件格式。TIFF是基于標記的文件格式，它廣泛地應用于對圖像質量要求較高的圖像的存儲與轉換。由于TIFF的結構靈活和包容性大，已成為圖像文件格式的一種標準，絕大多數(shù)圖像系統(tǒng)都支持這種格式。

TIFF最初的設計目的是為20世紀80年代中期桌面掃描儀廠商提供的一個公用掃描圖像文件格式。在剛開始的時候，TIFF只是一個二值圖像格式，因為當時的桌面掃描儀只能處理這種格式。隨著掃描儀的功能越來越強大，并且桌面計算機的磁盤空間越來越大，TIFF逐漸支持灰階圖像和彩色圖像。

TIFF通過在文件頭中包含“標簽”使它能夠在一個文件中處理多幅圖像和數(shù)據(jù)。標簽能夠標明圖像的基本信息，如圖像大小等空間分辨率信息、定義圖像數(shù)據(jù)是如何排列的以及是否使用了各種各樣的圖像壓縮選項。TIFF可以包含JPEG和游程長度編碼壓縮的圖像。TIFF文件也可以包含基于矢量的裁剪區(qū)域(剪切或者構成主體圖像的輪廓)。使用無損格式存儲圖像的能力使TIFF文件成為圖像存檔的有效方法。與JPEG不同，TIFF文件可以被編輯后重新存儲，而不會有壓縮損失。

5.PNG

PNG(PortableNetworkGraphicFormat，便攜網(wǎng)絡圖像格式)的目的是試圖替代GIF和TIFF文件格式，同時增加一些GIF文件格式所不具備的特性。PNG文件格式的主要特點如下：

(1)無損壓縮。PNG使用從LZ77(一種基于字典的壓縮算法)派生的無損數(shù)據(jù)壓縮算法，其結果是獲得較高的壓縮比而不損失數(shù)據(jù)。與GIF格式相比，PNG-8格式可以節(jié)省30%的碼率。

(2)索引彩色模式。與GIF格式一樣，PNG采用調色板將RGB圖像轉換為索引彩色圖像，支持PNG-8(256色)、PNG-24(真彩色)、最大彩色深度可達48位，即PNG-48。

(3)優(yōu)化網(wǎng)絡顯示。PNG圖像在瀏覽器上采用流式瀏覽，即經(jīng)過交錯處理的圖像會在完全下載前提供給瀏覽者一個基本圖像內容(圖像輪廓)，然后使其逐漸清晰起來。

(4)支持透明效果，支持真彩色和灰度圖像的Alpha通道透明度，允許對每一個像素的透明度進行設置，可以建立完全透明或局部透明的效果。

2.2.5視頻的YCbCr采樣格式及制式

圖2-11顯示了實際的視頻信號的YCbCr的4種采樣格式：4∶4∶4、4∶2∶2、4∶1∶1和4∶2∶0。4∶4∶4采樣是指每一個分量Y、Cb和Cr都有相同的分辨率，即在每個像素點都同時采樣Y、Cb和Cr信號，如圖2-11(a)所示。在4∶2∶2采樣格式中，色差信號在垂直方向的分辨率與亮度信號相同，而在水平方向上只有亮度信號的一半，即在水平方向上每4個亮度點對應2個Cb和2個Cr色差點，如圖2-11(b)所示。這種格式一般用于高質量的彩色視頻中。在4∶1∶1采樣格式中，色差信號在垂直方向的分辨率與亮度信號相同，而水平方向上只有亮度信號的1/4，即在水平方向上每4個亮度點對應1個Cb和1個Cr色差點，如圖2-11(c)所示。最常見的是4∶2∶0采樣格式，它在水平方向和垂直方向上色差信號的分辨率都只有亮度信號的一半，如圖2-11(d)所示。4∶2∶0實質上每2×2=4個亮度點對應1個Cb和1個Cr，采樣總點數(shù)和4∶1∶1采樣格式是一樣的。圖2-11

YCbCr的4種采樣格式

4∶2∶0采樣有時也被稱為“12比特每像素”。這是因為對一個2×2的圖像塊來說，如果采用4∶4∶4采樣，1個Y對應1個Cb和1個Cr，每個分量需要用8比特量化，則一共需要2×2×3×8=96比特，平均每個像素需要96/4=24比特。而采用4∶2∶0采樣，4個Y對應1個Cb和1個Cr，則一共需要4×8+2×8=48比特，平均每個像素需要48/4=12比特。可以看到,采用4∶2∶0采樣的原始數(shù)碼率只有4∶4∶4采樣的數(shù)碼率的一半。電視信號有PAL和NTSC兩種制式。PAL和NTSC兩種制式由ITU-RBT.601-5建議定義。電視信號以13.5MHz的亮度采樣頻率和6.75MHz的色度采樣頻率來產(chǎn)生4∶2∶2的YCbCr格式，PAL和NTSC兩種制式的詳細參數(shù)如表2-3所示。我國電視信號一般采用PAL制，而歐洲國家一般采用NTSC制。理論上每個亮度采樣點用8比特量化，取值為0～255；但實際亮度取值范圍為16(黑)～235(白)。表2-3

ITU-RBT.601-5規(guī)定的PAL和NTSC參數(shù)

2.3媒體編碼系統(tǒng)的性能評價

2.3.1編碼質量的客觀度量

1.基于均方誤差(MMSE)的質量度量

在媒體信號編碼中，一般用失真信號(也稱誤差信號)e(k)的均方誤差σ2e作為編碼質量的客觀評定標準。e(k)及σ2e

(這里假設了失真信號的均值為零)的定義如下：(2-31)(2-30)另外，由于σ2e反映的是差值信號絕對能量的大小，未反映出差值信號與原始信號能量大小的相對關系。事實上，在實際的媒體編碼系統(tǒng)中，更關心的是原始信號能量與失真信號能量的比值。因此，經(jīng)常采用的媒體信號編碼質量的客觀度量是原始信號方差σ2x與失真信號方差σ2e的比值，有時也被稱為信噪比(SNR)，定義如下：

對于圖像編碼而言，由于是空間的二維信號，其計算要比上面稍微復雜一點。首先，一般用M×N大小的圖像的空間平均來代替它的集合平均，即(2-32)

其次，由于圖像的均值一般都為正數(shù)，因此為計算簡便，通常用x(m,n)的最大值xmax來代替式(2-33)的均方根值σ2x，得到的峰值信噪比(PSNR)為(2-33)(2-34)(2-35)根據(jù)式(2-34)計算出的PSNR值比式(2-32)計算出的SNR值約大10dB。另外，由于圖像一般用8位量化，因此xmax最大為255，因此式(2-34)可以改寫為

MMSE和PSNR計算復雜度小，易于實現(xiàn)，已在圖像處理領域中廣泛應用。但它們給出的數(shù)值與圖像的感知質量之間沒有必然聯(lián)系，因而也存在明顯不足。(2-36)

2.基于結構相似度(SSIM)的圖像質量度量

自然圖像具有特定的結構，像素間有很強的從屬關系，這些從屬關系反映了視覺場景中的結構信息。由此，Wang等人［18］提出了基于結構失真的圖像質量評價方法，稱為結構相似度(SSIM)方法(如圖2-12所示)。該方法認為光照對于物體結構是獨立的，而光照改變主要來源于亮度和對比度,所以它將亮度和對比度從圖像的結構信息中分離出來，并結合結構信息對圖像質量進行評價。該類方法在某種程度上繞開了自然圖像內容的復雜性及多通道去相關問題，直接評價圖像信號的結構相似性。該算法實現(xiàn)復雜度較低，應用性較強。圖2-12

SSIM算法結構框圖由圖2-12可見，SSIM算法從參考圖像和失真圖像的亮度、對比度和結構相似性等三方面進行比較，構造出相應的模型，最后將三個模型綜合成一個SSIM值，其計算公式為(2-38)(2-37)

3.基于感知語音質量評價PESQ的語音客觀度量

PESQ(PerceptualEvaluationofSpeechQuality)是ITU新推出的語音編碼質量客觀評價標準，其建議號為P.862，主要解決窄帶電話網(wǎng)絡端到端語音質量和語音編解碼器質量的客觀評價。PESQ算法得到的評分結果與主觀評價的MOS得分(參見下一小節(jié))的相關度平均可以達到0.9以上，是現(xiàn)有的基于聽覺模型的客觀評價算法中效果最好的?；赑ESQ的語音客觀度量框圖如圖2-13所示。圖2-13基于PSEQ的語音客觀度量框圖2.3.2編碼質量的主觀度量

1.主觀質量測定方法

歷史上，人們提出過多種主觀質量的評定方法，主要有以下幾種。

(1)二元判決，主要有兩種形式的二元判決：一種是采用二級計分機制，分為可接受和不可接受，受測者可二選一；另一種是激勵源A和B成對出現(xiàn)，受測者挑選出他認為主觀質量更好的激勵源。

(2)主觀信噪比：將編解碼器輸出與某個帶加性噪聲的參考信號作比較，調節(jié)噪聲能量使二者對受測者來說有相同的主觀感受。此時含噪聲參考源的信噪比就可定義為編碼器的等效主觀信噪比。

(3)平均判分(MOS)：請受測者每人對待測激勵源進行N級主觀質量判分。常采用對信號質量或失真進行描述性的五級判分。

(4)等偏愛度曲線：最簡單的情況是以編碼器的兩個獨立參數(shù)P1和P2為自變量，以非相關噪聲電平λ為參變量而作出的一組平面曲線。每個λ值可根據(jù)半數(shù)受測者的意見等效為編碼器參數(shù)。

在上述幾種方法中，最常用的是MOS。另外，國際上對如何組織MOS測試也有詳細的標準，標準中詳細規(guī)定了測試的環(huán)境、測試流程、評分標準等一系列具體實施細節(jié)。

2.語音編碼質量的主觀評價

在語音編碼領域，五級質量的MOS判分(如表2-4所示)已經(jīng)被廣泛接受并沿用至今，有時輔之可懂度(DRT)和可接受度進行測試。表2-4主觀評定等級表若以5分代表最高音質，則通常4～4.5分被認為是對公用電話質量即長途電話質量的必要指標。當達到4.5分時，在進行語音激勵源成對比較的主觀測試中，已經(jīng)很難區(qū)分是數(shù)字化語音和還是模擬語音，4.5分也意味著在可懂度測試中數(shù)字語音編碼和原始語音相同。3.5分左右稱做通信質量，這時受測者能感覺到語音質量有所下降，但不影響正常的通話，可以滿足多數(shù)通信系統(tǒng)使用要求。3.0分以下常稱為合成語音質量，這種語音一般只有足夠高的可懂度，但是自然度較差，不容易識別講話者。當編碼碼流極低或對傳輸要求極其苛刻時，語音編碼器輸出的可懂度就成為主要問題。此時語音的音質不再是測試評價的重點，語音的可懂度測試成為關鍵。語音可懂度測試要求受測者能辨別由離散音節(jié)、單詞、詞組和句子組成的專門發(fā)音。常見的語音可懂度測試方法有以下幾種。

(1)判斷韻字測試法(DiagnosticRhymeTest,DRT)是美國國家標準學會制定的標準之一(ANSIS3.2-1989)。這種測試方法使用若干對(通常為96對)同韻母單字或單音節(jié)詞進行測試，例如中文的“為”和“費”，英文的“veal”和“feel”等。測試中讓評聽人每次聽一對韻字中的某一個音，然后讓他判斷所聽到的音是哪一個字，全體評聽人判斷正確的百分比就是DRT得分。在實際通信中，清晰度為50%時，整句的可懂度大約為80%。這是因為整句中具有較高的冗余度，即使個別字聽不清楚，人們也能理解整句話的意思。當清晰度為90%時，整句話的可懂度已接近100%。所以對于低速率語音編碼，一般要求其清晰度能達到90%以上。

(2)改進的韻字測試法(ModifiedRhymeTest,MRT)也是評測通信系統(tǒng)語音可懂度的ANSI標準之一(ANSIS3.2-1989)。測試材料由6組、每組50個同韻母的字或詞組成，例如，漢語中“干、捍、爛、旦、半、亂”，英語中“pin、sin、tin,fin、din、win”，主要用于區(qū)分起始輔音或末尾輔音。評聽人針對所聽內容選擇出6個詞中哪個與之相符。

(3)從DRT還演變出來另外兩種可懂度測試方法，即判斷中間輔音測試(DiagnosticMedialConsonantTest,DMCT)和判斷頭韻測試(DiagnosticAuiterationTest,DAT)，分別用于聽辨中間輔音，如英語中的“stopper”和“stoker”；或者末尾輔音，如英語中的“pack”和“pat”。這二者一般不適用于漢語。

3．音頻編碼質量的主觀評價

對于音頻編碼質量的主觀評價，一般采用ITU-R推薦的BS.1116建議。該建議正式地指定了測試環(huán)境和測試流程，經(jīng)過專門訓練的評委在標準聽音位置對聲音質量進行聽音打分。主觀評價通常采用“帶隱含基準的三次聽音雙盲評定法”。具體過程如下：在進行聲評時，以未壓縮的原音作為參考基準信號，而將編碼壓縮的信號作為被評信號，如圖2-14所示。聽音評價的順序如下：

(1)開關S1置R位置，并告訴評價人是基準信號；

(2)開關S1置A位置，對A信號進行評價打分；

(3)開關S1置B位置，對B信號進行打分。在聽A、B信號時，S2的位置是隨機的，即S2是置1還是置2并不固定，而且在聽A、B音時并不知道哪一個是隱含的基準信號，哪一個是被評的編碼信號，即“雙盲”評價。在聽音過程中允許評委反復切換開關。圖2-14音頻主觀評價的激勵源評價打分采用5分制，精確到小數(shù)點后一位。凡與基準信號的差異均視為失真。在進行打分數(shù)據(jù)評價時，首先對各位評委的數(shù)據(jù)作可靠性檢驗，只有當評委判斷隱含基準的準確率達到95％時，評價數(shù)據(jù)才認為是可靠的。對被評信號得分進行計算只采用可靠數(shù)據(jù)。圖2-15是ITU-T的5分評判標準，絕對分越高越好，5分為滿分，代表無法區(qū)別基準信號和被評信號，此時差異分為0。圖2-15

ITU-T音頻5分評判標準

4.圖像編碼質量的主觀評價

由于人眼是圖像或視頻編碼系統(tǒng)的最終信宿，因而判斷圖像質量的最常用和最可靠的方法，是作為觀察者，即人的主觀評價。圖像質量的主觀評價結果和許多因素有關，如評判人的經(jīng)驗和愛好，所選用的圖像內容，以及觀看條件(如室內光照、對比度、觀看距離、圖像大小)等，這些因素不同程度地影響主觀評價結果。因此，為避免這些因素對測試結果引起偏差，精心進行實驗設計非常必要。為此，1974年,CCIR(國際無線電咨詢委員會)對電視圖像質量的主觀評價方法提出了自己的建議CCIR-R500，這個建議對在不同的時間、不同的地點、不同的人所取得的研究成果進行比較提供了可能。該建議對如何進行主觀評價實驗做了如下規(guī)定。

1)評價人員

進行主觀評價的人員可以是一些未受過訓練的、對圖像質量評價不內行的、沒有經(jīng)驗的一般人員(外行)，這時得到的圖像質量代表平均觀察者的一般感覺；也可以是訓練有素的本領域有經(jīng)驗的專家(內行)，這些人在圖像處理方面是有經(jīng)驗的，并能在圖像質量方面提出嚴格的判斷。內行的觀察者往往具有注意細小程度圖像質量下降的能力，而這些正是外行的觀察者所缺少的。進行評價時，內行和外行分開進行；為保證統(tǒng)計的可靠性，內行一般不少于10人，外行一般不少于20人。

2)評價方法

圖像主觀質量評價主要采用兩種評價方法：等級評價和比較評價。

進行等級評價時，一組評價人員在規(guī)定的觀看條件下觀看預先定好的圖像序列，并對所看到的每幅圖像進行評價，給出一個質量等級。評價尺度有兩種：一種叫品質尺度，一種叫妨礙尺度，見表2.5中的(a)和(b)；前者供外行使用，后者供內行使用。等級評價結果經(jīng)常用MOS分表示，可由下式計算：(2-39)表2-5圖像主觀評價的評分尺度比較評價法采用相對尺度來評價一組圖像和某參考圖像的相對質量。比較評價的實施方法又分兩種。一種與進行主觀信噪比判定類似，評價人員將一個有質量損傷或受到干擾的測試圖像與一個已經(jīng)疊加了某一標準類型損傷或干擾的參考圖像進行主觀質量比較，加到參考圖像上的損傷逐漸增強，直到受測者認為兩幅圖像主觀質量相當為止。此時測試圖像的質量等級可借助對參考圖像的質量等級評價表示，如圖2-16所示。另一種工作方式是受測者對含有不同程度損傷的測試圖像與參考圖像進行比較，以參考圖像的質量為基準，就兩幅圖像的相對質量打分，評分尺度如表2-5(c)所示。圖2-16參考圖像在白噪聲下的妨礙尺度與加權信噪比的對應關系

3)測試圖像

為測試一個編碼系統(tǒng)或編碼算法的性能，一般要選用5個左右不同類型的測試圖像。這些測試圖像的質量和效果應該平均起來比一般圖像稍苛刻些。實際上，無論是圖像測試或視頻測試，國際上現(xiàn)在都有不同類型、事實上的標準測試圖像和標準測試視頻。

4)測試條件

觀測條件大致有：觀看距離等于6倍像素高；黑白畫面中最白與底色黑之間的對比度在100左右；周圍環(huán)境照度要低。為避免閃爍的影響，平均亮度對于場頻為50Hz的系統(tǒng)一般要比場頻為60Hz的系統(tǒng)低一些。

5)畫面顯示

不同質量等級和不同質量損傷的圖像要以隨機的順序顯示，并且顯示順序上要保證兩個具有相同或不同損傷程度的同一幅圖像不能相繼出現(xiàn)。

人人文庫> 全部分類> 專業(yè)文獻 > IT計算機

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《媒體信號編碼》課件第2章

文檔簡介

溫馨提示

最新文檔

評論

《媒體信號編碼》課件第2章

文檔簡介

溫馨提示

最新文檔

評論

相關文檔