第二章 信源編碼及數據壓縮本2_第1頁
第二章 信源編碼及數據壓縮本2_第2頁
第二章 信源編碼及數據壓縮本2_第3頁
第二章 信源編碼及數據壓縮本2_第4頁
第二章 信源編碼及數據壓縮本2_第5頁
已閱讀5頁,還剩132頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第二章信源編碼與數據壓縮

數字通信系統(tǒng)具有許多優(yōu)點而成為當今通信的發(fā)展方向。然而自然界的許多信息經各種傳感器感知后都是模擬信號,例如語音信號、視頻信號等都是模擬信號。若要利用數字通信系統(tǒng)傳輸模擬信號,首先需要將模擬信號轉換成數字信號。對于語音信號實現這種變換就稱為語音編碼。模擬信號實現數字化通信一般需要三個步驟:(1)把模擬信號數字化,即模數轉換(A/D);(2)進行數字方式傳輸;(3)把數字信號還原為模擬信號,即數模轉換(D/A)。由于A/D或D/A變換的過程通常由信源編(譯)碼器實現,所以我們把發(fā)端的A/D變換稱為信源編碼,而收端的D/A變換稱為信源譯碼。語音的編碼技術通常分為三類:波形編碼、參量編碼和混合編碼。語音編碼的分類如圖2-3所示。其中,波形編碼和參量編碼是兩種基本類型。(1)波形編碼波形編碼是將時間域信號直接變換為數字代碼,力圖使重建語音波形保持原語音信號的波形形狀。波形編碼比較簡單,先根據采樣定理對模擬語音信號進行采樣,然后進行幅度量化,再進行二進制編碼。譯碼是其反過程,將收到的數字序列經過譯碼和低通濾波恢復出發(fā)送的語音信號,這就是最簡單的脈沖編碼調制(PCM)。波形編碼的目標是讓譯碼器恢復出的模擬信號在波形上盡量與編碼前原始波形相一致,也即失真要最小。

波形編碼的方法簡單,具有適應能力強、語音質量好等優(yōu)點,但所用的編碼速率高,在對信號帶寬要求不太嚴格的通信中得到應用,而對頻率資源相對緊張的移動通信來說,這種編碼方式顯然不合適。脈沖編碼調制(PCM)和增量調制(△M),以及它們的各種改進型自適應增量調制(ADM),自適應差分編碼(ADPCM)、子帶編碼(SB)、自適應變換編碼(ATC)等,都屬于波形編碼技術。它們分別在64以及16Kbit/s的速率上,能給出較高的編碼質量,當速率進一步下降時,其性能下降較快。(2)參量編碼參量編碼又稱聲源編碼,是以發(fā)音模型作為基礎,在頻率域或其它正交變換域提取模擬話音信號特征參量,并將其變換成數字代碼進行傳輸。解碼為其反過程,將收到的數字序列經變換恢復特征參量,再根據特征參量重建語音信號。具體說,參量編碼是通過對語音信號特征參數的提取和編碼,力圖使重建語音信號具有盡可能高的可靠性,即保持原語音的語意,但重建信號的波形同原語音信號的波形可能會有相當大的差別。這種編碼技術可實現低速率語音編碼,比特率可壓縮到2kbit/s-4.8kbit/s,甚至更低,但語音質量只能達到中等,特別是自然度較低。線性預測編碼(LPC)及其它各種改進型都屬于參量編碼。(3)混合編碼混合編碼是將波形編碼和參量編碼組合起來,克服了原有波形編碼和參量編碼的弱點,結合各自的長處,力圖保持波形編碼的高質量和參量編碼的低速率,在4-16Kbit/s速率上能夠得到高質量的合成語音。多脈沖激勵線性預測編碼(MPLPC),規(guī)則脈沖激勵線性預測編碼(KPELPC),碼本激勵線性預測編碼(CELP)等都是屬于混合編碼技術?;旌暇幋a是適合于數字移動通信的語音編碼技術。

2.1波形編碼抽樣定理

抽樣是把時間上連續(xù)的模擬信號變成一系列時間上離散的抽樣值的過程。能否由此樣值序列恢復原信號,是抽樣定理要回答的問題。抽樣定理的原理是,如果對一個頻帶有限的時間連續(xù)的模擬信號抽樣,當抽樣速率達到一定數值時,那么根據它的抽樣值就能恢復原信號。也就是說,若要傳輸模擬信號,不一定要傳輸模擬信號本身,只需傳輸按抽樣定理得到的抽樣值即可。因此,抽樣定理是模擬信號數字化的理論依據。

1抽樣定理:一個頻帶限制在(0,fH)赫內的時間連續(xù)信號,如果以Ts=1/fH秒的間隔對它進行等間隔(均勻)抽樣,則該信號將被所得到的抽樣值完全確定。抽樣定理告訴我們:若m(t)的頻譜在某一頻率以上為零,則m(t)中的全部信息完全包含在其間隔不大于Ts秒的均勻抽樣序列里。

2量化原理

利用預先規(guī)定的有限個電平來表示模擬信號抽樣值的過程稱為量化。時間連續(xù)的模擬信號經抽樣后的樣值序列,雖然在時間上離散,但在幅度上仍然是連續(xù)的,即抽樣值可以取無窮多個可能值,因此仍屬模擬信號。如果用N位二進制碼組來表示該樣值的大小,以便利用數字傳輸系統(tǒng)來傳輸的話,那么N位二進制碼組只能同M個電平樣值相對應,而不能同無窮多個可能取值相對應。這就需要把取值無限的抽樣值劃分成有限的M個離散電平,此電平被稱為量化電平。

均勻量化:把輸入信號的取值域按等距離分割的量化稱為均勻量化。非均勻量化:非均勻量化是一種在整個動態(tài)范圍內量化間隔不相等的量化。

A律壓擴特性

律壓擴特性

3脈沖編碼調制(PCM)

脈沖編碼調制(PCM)簡稱脈碼調制,它是一種用一組二進制數字代碼來代替連續(xù)信號的抽樣值,從而實現通信的方式。由于這種通信方式抗干擾能力強,它在光纖通信、數字微波通信、衛(wèi)星通信中均獲得了極為廣泛的應用。PCM是一種最典型的語音信號數字化的波形編碼方式。首先,在發(fā)送端進行波形編碼,主要包括抽樣、量化和編碼三個過程,把模擬信號變換為二進制碼組。編碼后的PCM碼組的數字傳輸方式,可以是直接的基帶傳輸,也可以是對微波、光波等載波調制后的調制傳輸。在接收端,二進制碼組經譯碼后還原為量化后的樣值脈沖序列,然后經低通濾波器濾除高頻分量,便可得到恢復信號。

A律13折線編碼A律13折線的產生是從非均勻量化的基點出發(fā),設法用13段折線逼近A=87.6的A律壓縮特性。具體方法是:把輸入x軸和輸出y軸用兩種不同的方法劃分。對x軸在0~1(歸一化)范圍內不均勻分成8段,分段的規(guī)律是每次以二分之一對分。第一次在0到1之間的1/2處對分,1/2到1之間稱為第8段;第二次在0到1/2之間的1/4處對分,1/4到1/2之間稱為第7段;其余類推。第三次在0到1/4之間在1/8處對分,其余類推。

0到1/128之間為第1段,1/128到1/64之間為第2段。對y軸在0~1(歸一化)范圍內采用等分法,均勻分成8段,每段間隔均為1/8。然后把x,y各對應段的交點連接起來構成8段直線,得到折線壓擴特性,其中第1、2段斜率相同(均為16),因此可視為一條直線段,故實際上只有7根斜率不同的折線。

在13折線編碼中,采用8位二進制碼編碼,這8位碼的安排如下:極性碼段落碼段內碼

編碼原理

實現編碼的具體方法和電路很多,如有低速編碼和高速編碼、線性編碼和非線性編碼;逐次比較型、級聯型和混合型編碼器。目前常用的逐次比較型編碼器原理。

PCM信號的碼元速率和帶寬由于PCM要用N位二進制代碼表示一個抽樣值,即一個抽樣周期內要編N位碼,因此碼位越多,碼元寬度越小,占用帶寬越大。顯然,傳輸PCM信號所需要的帶寬要比模擬基帶信號的帶寬大得多。對于語音信號,則碼元傳輸速率為

4自適應脈沖編碼調制自適應脈沖編碼調制(adaptivepulsecodemodulation,APCM)是根據輸入信號幅度大小來改變量化階大小的一種波形編碼技術。這種自適應可以是瞬時自適應,即量化階的大小每隔幾個樣本就改變,也可以是音節(jié)自適應,即量化階的大小在較長時間周期里發(fā)生變化。

改變量化階大小的方法有兩種:一種稱為前向自適應(forwardadaptation),另一種稱為后向自適應(backwardadaptation)。前者是根據未量化的樣本值的均方根值來估算輸入信號的電平,以此來確定量化階的大小,并對其電平進行編碼作為邊信息(sideinformation)傳送到接收端。后者是從量化器剛輸出的過去樣本中來提取量化階信息。由于后向自適應能在發(fā)收兩端自動生成量化階,所以它不需要傳送邊信息。

5差分脈沖編碼調制(DPCM)編碼原理在PCM中,每個波形樣值都獨立編碼,與其他樣值無關,這樣,樣值的整個幅值編碼需要較多位數,比特率較高,造成數字化的信號帶寬大大增加。然而,大多數以奈奎斯特或更高速率抽樣的信源信號在相鄰抽樣間表現出很強的相關性,有很大的冗余度。利用信源的這種相關性,一種比較簡單的解決方法是對相鄰樣值的差值而不是樣值本身進行編碼。由于相鄰樣值的差值比樣值本身小,可以用較少的比特數表示差值。這樣,用樣點之間差值的編碼來代替樣值本身的編碼,可以在量化臺階不變的情況下(即量化噪聲不變),編碼位數可以顯著減少,信號帶寬大大壓縮。這種,利用差值的PCM編碼稱為差分PCM(DPCM)。

DPCM系統(tǒng)的組成方框圖

6自適應差分脈沖編碼調制

值得注意的是,DPCM系統(tǒng)性能的改善是以最佳的預測和量化為前提的。但對語音信號進行預測和量化是復雜的技術問題,這是因為語音信號在較大的動態(tài)范圍內變化,為了能在相當寬的變化范圍內獲得最佳的性能,需要在DPCM基礎上引入自適應系統(tǒng)。有自適應系統(tǒng)的DPCM稱為自適應差分脈沖編碼調制(AdaptiveDifferencePulseCodeModulation),簡稱ADPCM。

ADPCM的主要特點是用自適應量化器取代固定量化器,用自適應預測器取代固定預測器。自適應量化器和自適應預測器的參數能根據輸入信號的統(tǒng)計特性自適應于最佳或接近于最佳參數狀態(tài)。在維持相同的語音質量下,ADPCM允許用32kbit/s比特率編碼,這是標準64kbit/sPCM的一半。目前CCITT標準G.721ADPCM廣泛應用于無繩電話系統(tǒng),如CT2和DECT等。

ADPCM編碼器的原理圖如上圖所示。對于編碼器,為了便于電路進行算術運算,要將A律或μ律八位非線性PCM碼轉換為12位線性碼。輸入信號減去預測信號便得到差分信號。4bit自適應量化器將差分信號自適應量化為15個電平,用4個二進制碼表示。這4個二進制碼表示一個差值信號樣點,既為ADPCM編碼器輸出,其傳輸速率為32kb/s。同時,這4個二進制碼送入自適應逆量化器,產生一個量化的差分信號,它再與預測信號相加產生重構信號。重建信號和量化差分信號經自適應預測器運算,產生輸入信號估值(預測信號),從而完成反饋。

譯碼器是編碼器的逆變換過程,它包括一個與編碼器反饋部分相同的結構以及線性PCM碼到A律或μ律的轉換器和同步編碼調整單元。同步編碼調整單元解決在某些情況下同步級聯編碼中所發(fā)生的累計失真。

7增量調制增量調制(DeltaModulation)簡稱DM,它是繼PCM后出現的又一種模擬信號數字傳輸的方法,他可以看成是DPCM的一個重要特例。其目的在于簡化語音編碼方法。

一個語音信號,如果抽樣速率很高(遠大于奈奎斯特速率),則抽樣間隔很小,那么相鄰樣點之間的幅度變化不會很大,相鄰抽樣值的相對大?。ú钪担┩瑯幽芊从衬M信號的變化規(guī)律。

若將這些差值編碼傳輸,同樣可傳輸模擬信號所含的信息。此差值又稱“增量”,其值可正可負。這種用差值編碼進行通信的方式,就稱為“增量調制”。簡單增量調制原理波形圖。DM(ΔM)編碼器原理圖

2.2聲碼器

聲碼器是一類語音編碼系統(tǒng)。在發(fā)送端,聲碼器分析語音信號參數,在信道中傳輸分析得到的參數。在接收端,聲碼器根據這些參數合成語音信號。聲碼器系統(tǒng)在語音生成過程中,將語音信號建模為動態(tài)系統(tǒng),并將系統(tǒng)中的某些物理約束量化,這些物理約束是語音信息的有限的描述。

2.2.1語音信號的數字模型

利用數字技術來模擬語音信號的產生稱為語音信號的數字模型。根據發(fā)音器官構成的數字模型能產生與發(fā)音器官產生的聲波相對應的信號。這種模型是一種線性系統(tǒng),它的一組參數選定之后,系統(tǒng)的輸出就具有所希望的語音性質。發(fā)音系統(tǒng)可以由激勵源(聲源)和聲道濾波器來描述,其激勵和聲道形狀都是隨時間慢變化的。通常認為激勵和聲道的面積函數在一個音節(jié)(10~20ms)時間范圍內是近似不變的。

聲道系統(tǒng)可以用全極點模型來描述,其系統(tǒng)函數為(2.2-1)

系統(tǒng)函數H(Z)的分子G反映的是語音強度,H(Z)的極點對應于語音的共振峰。對大多數語音來說,全極點模型能很好地模擬聲道的功能。

濁音激勵信號產生的原理圖如下圖所示。沖激串產生器輸出單位沖激序列,沖激序列之間的間隔即為所要求的基音周期。用單位沖激序列去激勵傳輸函數為U(Z)的線性系統(tǒng),經過幅度控制后的輸出u(n)即為所要求的濁音激勵。

清音是由氣流通過一個物理約束摩擦產生的,因此可以用白噪聲作為清音激勵。通常采用均值為零、方差為1并在幅度和時間都為白色分布的序列。將聲道系統(tǒng)、濁音激勵和清音激勵綜合在一起構成的語音信號產生數字模型如下圖所示。

該模型采用濁音激勵和清音激勵交替對聲道系統(tǒng)進行激勵,因此稱為二元激勵。該模型的相關參數包括基音、聲道系統(tǒng)濾波器的極點頻率、幅度參數等。多數人語音的基音頻率低于300Hz,成人語音的共振峰集中在500Hz、1500Hz、2500Hz、3500Hz。通過仔細調整語音信號數字模型中的參數,就可以合成高質量的語音信號。

2.2.2線性預測編碼聲碼器

線性預測編碼聲碼器(LPC)屬于時域編碼聲碼器,這類聲碼器從時間波形中提取語音信號的重要特征參數,再將特征參數編碼、傳輸、解碼,實現語音合成。

線性預測編碼系統(tǒng)原理圖

線性預測編碼系統(tǒng)用全極點線性濾波器模擬聲道系統(tǒng),可以采用線性預測技術在時域得到全極點濾波器的參數。合成器的激勵根據是濁音還是清音選擇基音頻率上的沖激序列或白噪聲序列。發(fā)端編碼器原理圖

收端譯碼器原理圖

2.3數字移動通信中的語音編碼2.4IS-96CDMA語音編碼2.5用于第三代移動通信系統(tǒng)的自適應多速率(AMR)語音編碼2.5.1AMR語音編碼器原理2.5.2AMR語音編碼器的算法及實現2.5.3采用AMR的實際系統(tǒng)模型基于電路交換的多媒體3GPP系統(tǒng)說明2.6圖象壓縮編碼

人類感覺器官所接受的各類信息中,約有70%來自視覺。圖像能給人們以直觀而具體的立體彩色形象。而且,通過視頻獲得的視頻圖像信息往往比通過聽覺獲得的音頻信息具有更大的信息量。同時,視頻圖像還具有很多的特點,例如直觀、確切、具體、生動等等。所以視頻技術被廣泛的應用于廣播電視,通信,軍事等諸多領域。

2.6.1圖像壓縮編碼的基本概念

圖像的信息量比起語音,文本等的信息量要大的多。例如:一幅512×512象素的圖像,若其灰度為8bit(相當于256個灰度),則其總比特數為。

如果要在一秒中傳輸完成的話,則數碼率不應低于2.09Mbit/s。

在現實生活中,數字圖像信息無論是存儲還是傳輸,都必須經過極大的壓縮,否則很難在實際中應用,這就是為什么數字視頻信號要采用視頻壓縮技術進行壓縮的關鍵所在。

圖像壓縮編碼的研究對象是數字編碼。它的目的是完成對圖像的壓縮。圖像信號的固有的統(tǒng)計特性表明,其相鄰象素之間,相鄰行之間或者相鄰幀之間,都存在著較強的相關特性。利用某種編碼方式在一定程度上消除這些相關性,便可實現圖像信息的壓縮,這就是圖像編碼的核心思想。通過減少圖像序列間的相關性,減少圖像內容之間的冗余,用較少的比特數來表示圖像,從而實現圖像的壓縮。

要對圖像進行壓縮,就要對圖像的冗余進行分析,一般來說,主要將冗余分為以下幾種:

(1)統(tǒng)計冗余統(tǒng)計冗余又分為三類,一類叫空間冗余,是指在同一幀畫面中,相鄰的象素間存在的相關性。它取決于圖像中圖案粗細程度,例如,規(guī)則的條紋圖像和平坦圖像,它們的空間冗余就很大。另一類叫做時間冗余,通常對視頻序列而言,除非場景發(fā)生變化,否則相繼幀在時間上都是連續(xù)的。在前后兩幀中往往包含與當前幀相同的背景和對象。只是由于鏡頭的轉動或對象的移動使得空間位置變化,運動越緩慢,位置額變化越小,因此視頻序列在時間上具有很強的相關性。第三類叫做信息熵冗余,對于編碼符號,其平均碼長高于所表示的信息熵,這個差值就形成了信息熵冗余。它也叫作編碼冗余??臻g冗余,時間冗余,信息熵冗余都依賴于圖像數據的統(tǒng)計特性。

(2)視覺冗余通常來說,往往是人的眼睛來接受圖像的信息。人眼視覺所感知的事物是非均勻的。所以人眼視覺對空間的某些頻率感覺比較遲鈍。因此對于人眼系統(tǒng)而言,存在頻域冗余。所以可以根據人類視覺系統(tǒng)的這個特點來達到較高的壓縮比。換言之,視頻中不同頻率內容的重要性是不一樣的。例如:人眼視覺系統(tǒng)對亮度信號變化相對于色度信號變化的要更敏感一些,所以對色度分量可以進行降采樣,同時保持主觀視覺質量不變。YUV4:2:2的色差格式就是對色差分量在水平和垂直兩個方向上進行2:1的降采樣。此外,對信號頻域的各個分量可以采取不同的量化步長,將人眼視覺不敏感的分量去除,而不會引起主觀質量的下降。

(3)結構和知識冗余在某些圖像的某些區(qū)域存在非常強的紋理結構,圖像象素值有明顯的分布形式,形成結構冗余,例如自相似性等?;蛘邎D像中包含的信息與某些先驗知識有關,例如人的五官位置對于人臉而言就是一種先驗知識,這種冗余構成知識冗余。

2.6.2圖像編碼方法分類

(1)按圖像壓縮后是否能恢復為原來圖像,分為有損壓縮(Lossless)和無損壓縮(Lossy)。無損壓縮又叫做無失真編碼或者可逆編碼。有損壓縮又叫做限失真編碼或不可逆編碼。對于無損壓縮,一方面它可以精確的恢復出原有數據,但是從另一方面來說,它的壓縮率通常都很低,約在2:1左右,很難達到實際應用的要求。所以在實際生活中,都是采用有損壓縮的方法。它用一定的失真來換取壓縮比的增加,現在所有的視頻壓縮標準均采用有損壓縮。

(2)按壓縮算法分類,可以分為預測編碼、變換編碼、矢量量化、分層編碼、頻帶分割編碼、結構抽取編碼、熵編碼等?,F在的主流算法是預測編碼(包括運動補償)和變換編碼(特別是二維DCT編碼)。在低速的情況下,矢量量化也是有效的手段之一。此外,分層編碼的思路在精致圖像編碼中已成為必須考慮的方法。結構抽取編碼和智能編碼(分析綜合編碼)雖然尚未達到實用化,但其研究已經非常活躍。

2.6.3圖像編碼技術的發(fā)展和國際標準

圖像壓縮編碼技術自從上個世紀40年代研究以來,已經有60年的發(fā)展歷史。圖像壓縮編碼技術可以追溯到1948年提出的電視信號數字化,已有50多年的歷史。20世紀50年代的圖像壓縮編碼技術由于受到電路技術的制約,僅僅停留在預測編碼、亞采樣以及內插復原等技術的研究,還很不成熟。

1969年在美國召開的第一屆“圖像編碼會議”標志著圖像編碼作為一門獨立學科的誕生。到了七八十年代,圖像壓縮技術的主要成果體現在變換編碼技術上,矢量量化編碼技術也有較大的發(fā)展。80年代末,小波變換理論、分形理論、人工神經網絡理論、視覺仿真理論建立,人們開始突破傳統(tǒng)的信源編碼理論,圖像壓縮編碼向著更高的壓縮率和更好的壓縮質量的方向發(fā)展,進入了一個嶄新的發(fā)展時期。隨著CCITT,ISO,ITU等國際組織開始積極致力于圖像處理的標準化工作以來,圖像壓縮標準已經日益成熟,

(1)H.261標準H.261標準是由國際電報電話咨詢委員會CCITT的一個專家組1990年12月制定。它是最早出現的視頻編碼建議,它的輸出碼率是p×64Kbit/s(p為1到30的整數,當時,只能傳清晰度不太高的圖像,適合于面對面的電視電話;當可以傳輸清晰度較好的圖像時,適用于電視會議)。H.261主要是應用于ISDN的會議電視和可視電話,采用的算法結合了可減少時間冗余的幀間預測和可減少空間冗余的DCT(離散余弦變換)的混合編碼方法。

(2)H.263標準

1995年,ITU在總結當時視頻編碼技術的最新進展的基礎上,針對低比特率視頻應用制定了H.263標準,標準的設計目標定義為在低比特率的條件下提供中高質量運動圖像質量。隨后的幾年中,ITU進行了多次補充以提高其編碼效率,增強編碼功能,進一步的補充修訂的版本有1998年的H.263+,2000年的H.263++。H.263系列標準特別適用于在PSTN網絡、無線網絡和因特網等環(huán)境下提供視頻業(yè)務,并已經被多種可視電話系統(tǒng)采納為終端標準。

(3)MPEG-1和MPEG-2標準MPEG標準是由國際標準化組織的MPEG專家組制定的。MPEG1標準的碼率為1.2Mbit/s左右,可提供30幀CIF(352×288)質量的圖像,是為CD—ROM光盤的視頻存儲和播放所制定的。MPEG-1標準視頻編碼部分的基本算法與H.261/H.263相似,采用運動補償技術減少幀間冗余度,二維DCT變換去除空間相關性,量化后的DCT系數進行VLC(變長編碼)的游程編碼,每個數據塊的直流分量(DC)進行預測差分編碼。MPEG-1中的圖像類型共分四種:幀內幀(I)、預測幀(P)、雙向預測幀(B)和直流幀(D)。D幀圖像中只含直流分量,是為播出中的“快放”等功能而設計的。

MPEG2標準在提高圖像分辨率、兼容數字電視等方面做了一些改進,例如它的運動矢量的精度為半像素;在編碼運算中(如運動估計和DCT)區(qū)分“幀”和“場”;引入了編碼的可分級性技術,如空間可分級性、時間可分級性和信噪比可分級性等。

(4)MPEG-4標準1992底,國際標準化組織的MPEG專家組決定開發(fā)新的適應極低比特率(即小于64kb/s)環(huán)境的音頻/視頻(AV,audio-video)編碼的國際標準,即MPEG-4。但由于隨后的H.263系列標準的成功,并考慮到AV領域中消費電子、通信和計算機(3C)在數字化的基礎上交叉融合的趨勢后,最終MPEG專家組將MPEG-4標準定位為多媒體的多領域應用的一般性框架,而不僅僅針對極低比特率的多媒體通信。MPEG-4的第一個版本在1999年推出,即國際標準ISO/IEC14496,相比于先前制定的MPEG標準,MPEG-4標準的目標定義為支持低比特率的多媒體通信和多產業(yè)的多媒體通信的綜合。

在視頻編碼方面,MPEG-4采用了不同以往的編碼技術——基于視頻內容(Content-based)的面向視頻對象VO(VideoObjects)的編碼技術。定義在一定的視角下,VO的n個形狀規(guī)則的、具有一定紋理剖面的組合的連續(xù)運動序列為視頻對象面VOP(VideoObjectProfile)。VOP描述了VO在一定視角條件下的表面特性。MPEG-4將VOP作為基本的編碼單元,VOP的編碼主要由兩部分組成:一個是形狀編碼,另一個是紋理和運動信息編碼。

總之,MPEG-4作為新一代視頻編碼標準,實現了基于像素的傳統(tǒng)編碼技術向基于內容的先進編碼技術的轉變。其中提出的新的視頻編碼理論和技術也是現在視頻編碼研究的熱點。需要指出的是,當前實現MPEG-4的編碼方案仍是基于子塊的混合編碼方案,完全實現MPEG-4提出的目標還有大量的工作需要完成。

(5)H.264標準1998年,國際標準化組織(ISO)的活動圖像專家組(MPEG)認識到H.26L的潛在優(yōu)點,隨之便成立了聯合視頻組(JVT)。他們一起制定了H.264標準。由于H.264標準采用了許多不同于以往標準中使用的先進技術,所以相對于以往的標準,在相同的碼率下用H.264標準編碼能夠獲得更高的主客觀質量。但該標準也具有較高的復雜度,針對標準中現有的技術,可以進行算法上的優(yōu)化,在主客觀質量損傷很小的情況下降低復雜度,以達到處理器的實時編解碼。同時H.264的巨大成功也表明視頻編解碼技術仍然具有較廣闊的研究空間。

2.6.4靜止圖象壓縮編碼及其標準JPEG

靜態(tài)圖象是指單幀圖象進行壓縮編碼后的圖象,與前后幀無關,它完全使用本幀的信息進行編碼處理,所以又稱幀內編碼。位圖方式的圖象不是一種有效的存儲方式,在這種形式的圖象數據中,像素和像素之間無論在行還是列方向上都具有很大的相關性,整體數據的冗余度大。在允許一定限度的失真的情況下,可以對圖象數據進行很大程度的壓縮。

1.JPEG靜態(tài)圖象壓縮標準是由聯合攝影專家組(JointPhotographicExpertsGroup)制定的。其標準定義了2種基本壓縮編碼方案。(1)變換編碼法(非可逆編碼,有損編碼),它是基于DCT(離散余弦變換)壓縮的編碼方案,可以用較少的bit數得到較好品質的恢復圖象,作為JPEG標準的基礎;(2)預測編碼法(可逆編碼),是以二維空間的差分脈沖編碼調制(DPCM)為基礎。這種壓縮標準雖然壓縮率低,但屬于可以完全復原的可逆編碼無損壓縮。2.基于DCT壓縮的編碼方案

原理:單幀圖象的變換法壓縮是基于圖象的高度相關性,即在圖象的一個局部小區(qū)域內,它們的像素變化不大,利用余弦變換可使能量集中在少數系數的特點,使該小區(qū)域在變換后大部分系數等于或接近于0,這樣達到了用少數小值范圍的系數來表示區(qū)域里全部像素的目的。然后進行進一步壓縮處理,從而取得較高的壓縮比,這就是基于DCT壓縮編碼的原理?;贒CT壓縮編碼的算法包括基本系統(tǒng)和增強系統(tǒng),并且規(guī)定了2種不同類型的工作方式:順序型和累進型?;鞠到y(tǒng)采用順序工作方式,編碼過程中只采用huffman編碼,解碼器只存儲兩張huffman表。增強系統(tǒng)是在基本系統(tǒng)的基礎上擴充或增強,因此增強系統(tǒng)必須包含基本系統(tǒng)。增強系統(tǒng)采用累進的工作方式,編碼過程可采用自適應能力的算術編碼。

基本系統(tǒng)

離散余弦變換(DCT)DCT可是看成是一個諧波分析儀,它將光強度數組轉換成頻率數組,該頻率數組體現了光強度變化的快慢,而DCT逆變換可看成是一個諧波合成器。假設原始圖象的尺寸為M×M像素,若對整個M×M大的數據塊做一次DCT,則所需的存儲空間和運算時間都很大,所以將M×M分為若干個N×N的小塊,當N小到一定程度時,若采用變換處理,可能使塊與塊之間邊界上存在著被稱為“邊界效應”的不連續(xù)的點。當N<8時,邊界效應比較明顯,所以JPEG確定DCT用8*8的像素矩陣。

FDCT(ForwardDCT離散余弦正變換)把8*8個像素變換成64個空間頻率分量的系數,這些空間頻率系數組成了輸入信號的頻譜。FDCT輸出64個基信號的幅值稱作DCT系數,即DCT變換系數值,64個變換系數中包括一個代表直流分量的DC系數和63個代表交流分量的AC系數。原始的圖像塊經DCT變換后,相應頻域的系數組成的圖像塊具有如下特點,即圖像的均值(直流系數)位于頻域圖像塊的左上角,離直流分量的距離越遠,系數代表的圖像交流成分的頻率越高,更具體地說,頻率圖像塊中元素的行值越大,則代表原始圖像塊中在列方向上的交流頻率越高。頻率圖像塊中元素的列值越大,則代表原始圖像塊中在行方向上的交流頻率越高。

IDCT(InverseDCT離散余弦逆變換)是FDCT的逆過程。把64個DCT變換系數經逆變換運算,重建一個64點的輸出圖像,如果FDCT和IDCT變換計算所使用的設備的計算精度足夠高,且系統(tǒng)未經過量化,那么原始的64點信號就能精確地恢復。由于圖像的相關性,這63個AC系數值大多數都很小或趨于0值。

量化在JPEG圖像壓縮標準中,采用的線形均勻量化器,量化公式如下:公式中的A(u,v)是量化器的步長,它與(u,v)值有關,就是說隨DCT系數位置的不同會有不同的值。它們組成了量化表,量化表的尺寸為8*8,與64個變換系數一一對應。這個量化表由用戶規(guī)定,并作為編碼器的一個輸入。量化表中的每個元素值為1~255之間的任意整數,其值規(guī)定了它所對應DCT系數的量化器步長。

3.差分編碼和行程編碼

8*8子塊的64個變換系數經量化后需進一步做編碼處理。自然景物的特點是圖像的灰度變化比較平穩(wěn),所以相鄰直流項系數DC的數值差別一般都不大,相鄰子塊之間的直流分量系數值DC有很強的相關性,JPEG對DC系數采用DPCM編碼或差分編碼。DPCM編碼的做法是將整幅圖像中每一個8*8的變換塊,按從左到右,從上至下的光柵掃描順序抽取其中的直流項系數進行差分編碼。DPCM編碼方式的基本思想是在相鄰數據幅度變化不大的情況下,首先存儲第一個數據,以后陸續(xù)存儲后一個數據與當前數據的差值。解碼時,有了第一個數據,通過把當前數據與接收到的數據相加,就可以陸續(xù)恢復原來的數據。

即采用下面的方法進行編碼和解碼:DPCM編碼公式:DPCM解碼公式:

JPEG對交流系數AC矩陣用一維編碼方法進行處理,并使其按照頻率的次序排列,可以將量化后的AC系數矩陣,通過Z形掃描(ZigzagSequence)方法展開,將塊的所有交流項系數連成一個一維的數據串,這樣就使代表相同或相近頻率分量的系數在一維數據中相鄰或相近的位置,之后用行程編碼進行編碼。

經過DPCM編碼的直流項系數和經過行程編碼的交流項系數,仍然能進一步壓縮,做熵編碼。在JPEG算法中一般采用huffman編碼。

4.熵編碼熵編碼是DCT編碼系統(tǒng)的最后一個處理步驟,熵編碼按DCT系數(AC和DC系數)的統(tǒng)計特性進一步編碼,實現無損壓縮。JPEG規(guī)定兩種熵編碼方法:Huffman編碼和算術編碼,Huffman編碼需要一套或多套Huffman表。

5.JPEG算法的解碼過程

在以上的解碼過程中,如果熵編碼方法是Huffman編碼方法,則熵解碼過程是信息保持不變的,因而是無失真的,即解碼器的輸出能完全恢復編碼前的數據。因為量化過程會帶來失真,因此反量化過程不能精確恢復量化前的系數值,正是因為這樣才使我們獲得了較高的壓縮比,所以量化器的設計是整個壓縮算法的關鍵環(huán)節(jié)。JPEG解碼過程的最后一個環(huán)節(jié)是反向離散余弦變換IDCT,最終得到原始光柵格式的圖像數據。

JPEG算法的編解碼過程中,在離散余弦變換、量化、編碼模型和熵編碼4部分中,只有量化過程是不可逆的,但結合人眼特性,有目的地設計量化器,就能獲得較高的壓縮比而能很好地保持原有圖像的質量。JPEG算法可以用軟件實現也可以用硬件實現。

2.6.5動態(tài)圖像壓縮編碼標準1.動態(tài)圖像的一般特征動態(tài)圖像是指隨時間變化的一系列圖像,又稱圖像序列。每秒25-30幀圖像序列就可表示動態(tài)圖像,人的眼睛感覺不到幀間物體的跳躍變化。但動態(tài)圖像的數據量將是非常大,僅靠JPEG技術對每一幀圖像壓縮是不夠的。

2.動態(tài)圖像的壓縮原理壓縮原理一(運動補償):在動態(tài)圖像序列中,幀與幀之間存在高度的相關性,即2個相鄰圖像的變化是十分相似的,那么可以對兩幀圖像的運動變化部分用一定的方法描述,例如運動矢量,則第二幀圖像可以看成它的前幀圖像補償該運動的結果,也就是若知道運動補償,就可以根據前幀圖像大致確定本幀圖像。壓縮原理二(插補法):若已知存在一定時間間隔的2幀圖像,只要該時間間隔不是很長,假設為1/5seconds,那么它們中間幀圖像的變化基本上是該2幀圖像的平均變化,即利用該2幀圖像進行插補,就大致得到第3幀圖像。

3.MPEG標準MPEG(MotionPhotographicExpertsGroup)標準不僅涉及視頻壓縮、視頻伴音還涉及到二者的系統(tǒng)同步問題,分為三個部分:視頻MPEG-Video、音頻Mpeg-Audio和系統(tǒng)Mpeg-system。

大多數MPEG標準的產品都是對SIF(SourceInputFormat)格式(352*240*30幀或352*288*25幀)的運動圖像進行壓縮,能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論