多媒體技術(shù)與應(yīng)用視頻課件2_第1頁
多媒體技術(shù)與應(yīng)用視頻課件2_第2頁
多媒體技術(shù)與應(yīng)用視頻課件2_第3頁
多媒體技術(shù)與應(yīng)用視頻課件2_第4頁
多媒體技術(shù)與應(yīng)用視頻課件2_第5頁
已閱讀5頁,還剩139頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第二章多媒體數(shù)據(jù)壓縮技術(shù)

數(shù)字音頻編碼數(shù)字圖像編碼數(shù)字視頻編碼常用的數(shù)據(jù)壓縮技術(shù)多媒體數(shù)據(jù)轉(zhuǎn)換第二章多媒體數(shù)據(jù)壓縮技術(shù)數(shù)字音頻編碼12.1

數(shù)字音頻編碼2.1數(shù)字音頻編碼2音頻的基本特性

聲音是由振動的聲波所組成,在任一時刻t,聲波可分解為一系列正弦波線性疊加:f(t)=ΣAnsin(nωt+φn)其中,ω稱為基頻或基音,它決定聲音的高低;nω稱為ω的n次諧波分量或稱為泛音,與聲音的音色有關(guān);An是振幅,表示聲音的強弱;φn是n次諧波的初相位。音頻的基本特性聲音是由振動的聲波所組成,在任一時刻t,聲波3音頻數(shù)字化

波形音頻是以數(shù)字方式表示音波。它是用聲卡(包含ADC和DAC)來錄制與執(zhí)行播出聲音的。計算機對聲音表示主要通過采樣產(chǎn)生一系列聲音數(shù)據(jù)。事實上,聲波按頻率可分為4類,其中多媒體系統(tǒng)僅處理人類的聽力所接受的頻率范圍的聲音,我們稱之為音頻,這個頻率范圍的音波稱之為聲音信號。

音頻數(shù)字化波形音頻是以數(shù)字方式表示音波。它是用聲卡(包含4聲音的頻率分類聲音分類頻率范圍亞聲波0~20Hz人類的聽力所接受的頻率20Hz~20kHz超聲波20kHz~1GHz超高聲波1GHz~10THz聲音的頻率分類聲音分類頻率范圍亞聲波0~20Hz人類的聽力所5通過規(guī)則時間間隔測出音波振動幅度從而產(chǎn)生一系列聲音數(shù)據(jù)。這種測出數(shù)據(jù)方法稱之為采樣,一秒內(nèi)采樣次數(shù)叫采樣率。采樣的離散音頻數(shù)據(jù)要轉(zhuǎn)換成計算機能夠表示的數(shù)據(jù)范圍,這個過程稱之為量化。量化后數(shù)字音頻存儲量計算公式

音頻數(shù)據(jù)存儲量(字節(jié))=采樣率(Hz)×量化位數(shù)(位)×聲道數(shù)×音頻長度(秒)/8通過規(guī)則時間間隔測出音波振動幅度從而產(chǎn)生一系列聲音數(shù)據(jù)。這種6例2.1激光數(shù)字唱盤CD-DA的標準采樣頻率為44.1Hz,量化位數(shù)為16位,立體聲,這即CD音質(zhì)??紤]一下CD-DA播放一分鐘音樂所需要的存儲量是多少?例2.1激光數(shù)字唱盤CD-DA的標準采樣頻率為44.1H7MIDI

音頻

1980年制定一項工業(yè)標準,目的是讓音樂及合成音可以經(jīng)由一串消息在不同的設(shè)備上交流傳輸。MIDI提供了計算機外部的電子樂器與計算機內(nèi)部之間的連接器接口。這種連接接口定義物理連接與電子樂器溝通的協(xié)議。MIDI也定義音頻的形態(tài)與存儲的方法。MIDI音頻是以消息的方式而非波形的方式組成。MIDI有三種連接器(In、Out、Thru)。In為輸入,Out為輸出,而Thru是用來擴充MIDI與其它設(shè)備連接用的。MIDI音頻1980年制定一項工業(yè)標準,目的是讓音樂及合8

音序器可以將音樂等聲音以一種序列來儲存。所謂序列便是一連串的音符加上系統(tǒng)事件的命令。

MIDI適配器是用來改變頻道、路徑與按鍵的。當(dāng)電子琴的鍵盤與一般的MIDI規(guī)格不一致時可以經(jīng)由適配器來修正使兩者一致。音序器可以將音樂等聲音以一種序列來儲存。所謂序列便是9MIDI音頻文件

MIDI音頻文件是一串時序命令,它記錄音樂的行為。命令消息分為頻道消息(頻道聲音消息、頻道模式消息)和系統(tǒng)消息(系統(tǒng)實時消息、系統(tǒng)通用消息與系統(tǒng)專用消息)。它是以某種樂器的發(fā)聲為其數(shù)據(jù)記錄的基礎(chǔ)。它的文件占用很少存儲器空間,且可以做細部的修改,如修改節(jié)拍等。其聲音效果不會因改變節(jié)拍而變調(diào)。MIDI不適合編制口語旁白的音頻。MIDI音頻文件MIDI音頻文件是一串時序命令,它記錄音樂10波形音頻可從麥克風(fēng)、錄音帶、CD、電視及其它來源獲取。它把聲音轉(zhuǎn)換成儲存體中數(shù)字信息。波形音頻較為穩(wěn)定,容易保持一致性,音頻品質(zhì)也較易獲得保證。缺點是記錄非常詳盡,數(shù)據(jù)量極大,文件較MIDI音頻大出200倍以上。要修改數(shù)字音頻細節(jié)非常困難,大大地增加了CPU的負擔(dān)。它可以適合任何一種音響,包括人的口語在內(nèi),故大多數(shù)節(jié)目仍采用這種音頻。

波形音頻可從麥克風(fēng)、錄音帶、CD、電視及其它來源獲取。它把聲113D音頻三維環(huán)繞立體聲能產(chǎn)生更加逼真的音頻效果,是用戶在用計算機時能感覺聲音來自不同的方向。人耳的基本聲音定位原理是兩側(cè)聲音強度差別和兩側(cè)聲音時間延遲差別。耳廓的作用是濾波器,根據(jù)聲音的不同角度,加強、減弱音波能量,過濾后傳給大腦,讓人準確的定位聲源。3D音頻三維環(huán)繞立體聲能產(chǎn)生更加逼真的音頻效果,是用戶在用計123D音頻3D音效的兩個因素是定位和交互。定位即讓人們準確的判斷出聲音的來源,可以通過事先錄制,在進行特定的解碼來實現(xiàn)。交互就是實時的定位,可以根據(jù)用戶的控制來決定聲音的位置。即時交互的聲音對設(shè)備的要求比預(yù)先錄制音軌的放音設(shè)備更高一些。3D音頻3D音效的兩個因素是定位和交互。133D音頻3D音效可分為以下幾類:(1)擴展式立體聲。(2)環(huán)繞立體聲。(3)交互式3D音效。3D音效的控制是通過軟件來實現(xiàn)的,稱為應(yīng)用程序接口(API)。3D音頻3D音效可分為以下幾類:143D音頻支持3D音頻API種類:DirectXDirectSound3D;Aureal3D;

EAX;

Sensaura;Qsound;杜比AC-3;數(shù)字化影院系統(tǒng)DTS

3D音頻支持3D音頻API種類:152.2

數(shù)字圖像編碼2.2數(shù)字圖像編碼162.2.1

色彩的基本概念色彩的基本概念:色調(diào),飽和度,亮度。色調(diào)是指某種顏色的性質(zhì)和特點,是由物體表面反射的光線中什么波長占優(yōu)勢決定的。色調(diào)和光波的波長相關(guān),而亮度和飽和度與光波的幅度相關(guān)。P18圖。主要采用數(shù)字化方式對聲音、文字等處理。2.2.1色彩的基本概念色彩的基本概念:色調(diào),飽和度,亮度172.2.1

色彩的基本概念例如:在彩色電視信號表示時,設(shè)代表光強、色彩和色飽和度的YIQ彩色空間中各分量的帶寬分別為4.2MHZ、1.5MHZ、0.5MHZ。再設(shè)各分量均被數(shù)字化為8b。從而一秒鐘電視信號的數(shù)據(jù)量:(4.2+1.5+0.5)*2*8=99.2Mb(CD容量是650MB)數(shù)字化處理面臨的主要問題是數(shù)據(jù)量巨大,尤其是對動態(tài)圖像和視頻圖像。2.2.1色彩的基本概念例如:在彩色電視信號表示時,設(shè)代表182.2.2彩色空間及其轉(zhuǎn)換彩色空間即彩色的表示模型??捎?位、9位、16位、24位、32位表示。常見模型:

RGB彩色空間

HSI彩色空間

YUV彩色空間

YIQ彩色空間2.2.2彩色空間及其轉(zhuǎn)換彩色空間即彩色的表示模型??捎?位19RGB彩色空間R、G、B是彩色最基本表示模型,也是計算機系統(tǒng)中所使用的彩色模型。

RGB5:5:5方式用2個字節(jié)表示一個象素,具體位分配。RGB5:5:5方式RGB8:8:8方式R、G、B三個分量各占一個字節(jié)。T(1b)R(5b)G(5b)B(5b)RGB彩色空間R、G、B是彩色最基本表示模型,也是計算機系統(tǒng)20HSI彩色空間這種模型中,用H(Hue,色調(diào))、S(Saturation,飽和度)、I(Intensity,光強度)3個分量來表示一種顏色,這種表示更適合人的視覺特性。HSI彩色空間這種模型中,用H(Hue,色調(diào))、S(Sat21YUV彩色空間Y為亮度信號,U、V是色差信號(B-Y,R-Y)。

PAL制式彩色空間即為YUV。優(yōu)點是亮度和色差信號分離,容易使彩色電視系統(tǒng)與黑白電視信號兼容。國際無線電咨詢委員會根據(jù)實驗認為采用雙倍度采樣4:2:2方案效果較好,提出CCIR601標準。變換公式(YUV<--->RGB)Y=0.299*R+0.587*G+0.114*B;U=-0.169*R-0.332*G+0.500*B;V=0.500*R+0.419*G-0.081*BYUV彩色空間Y為亮度信號,U、V是色差信號(B-Y,R-Y22YIQ彩色空間廣播電視系統(tǒng)另一種常用的亮度與色差分離的模型。NTSC制式彩色空間即為YIQ。這里Y是亮度,I和Q共同描述圖象的色調(diào)和飽和度。變換公式(YIQ<--->RGB)

Y=0.299*R+0.587*G+0.114*B;I=0.211*R-0.523*G+0.312*B;Q=0.596*R-0.275*G-0.322*BYIQ彩色空間廣播電視系統(tǒng)另一種常用的亮度與色差分離的模型。232.2.2數(shù)字圖象文件格式

TIFPCXGIF、TGA、BMP、DVI、JPEG等

2.2.2數(shù)字圖象文件格式TIF24TIF文件格式由美國AldusDeveloper’sDesk和Microsoft制定結(jié)構(gòu)文件頭(8B)參數(shù)指針表參數(shù)數(shù)據(jù)表圖象數(shù)據(jù)TIF文件格式由美國AldusDeveloper’sDe25

TIF文件格式文件頭含字節(jié)順序(2B,表示存貯格式:II-Intel格式;MM—Motorola格式);標記號(2B,版本信息);指向第一個參數(shù)指針表的編碼(4B)。參數(shù)指針表由每個長為12B參數(shù)塊構(gòu)成,描述壓縮種類、長寬、彩色數(shù)、掃描密度等參數(shù)。較長參數(shù)(如調(diào)色板)只給出指針,參數(shù)放在參數(shù)數(shù)據(jù)表中。其結(jié)構(gòu)定義如下:TIF文件格式文件頭26

typedefstruct{inttag-type;intnumber-size;longlength;longoffset;}TIF-FIELD;

圖像參數(shù)表圖象數(shù)據(jù)按參數(shù)表中描述的形式按行排列typedefstruct{27PCX文件格式由ZSoft公司最初制定結(jié)構(gòu)文件頭(128字節(jié))數(shù)據(jù)部分(采用行程長度編碼)文件頭結(jié)構(gòu)定義PCX文件格式由ZSoft公司最初制定28

typedefstruct{charmanufacture;/*always0xa0*/charversion;charencoding;/*always1*/charbits-per-pixel;/*colorbits*/intXmin,Ymin;/*imageorigin*/intXmax,Ymax;/*imagedimension*/inthres;/*resolutionvalues*/intvres;charpalette[48];/*colorpalette*/charreserved;charcolor-planes;/*colorplanes*/intbytes-per-line;/*linebuffersize*/intpalette-type;/*greyorcolorpalette*/charfiller[58];}PCXHEAD;

其中Version若為5,文件內(nèi)有個256色調(diào)色板,數(shù)據(jù)768字節(jié),在文件最后。

typedefstruct{29

文件體對象素數(shù)據(jù)采用行程長度編碼,由包含Keybyte和Databyte的包組成。分2種情況:

(1)若Keybyte最高位為11,則低6位(index)為重復(fù)次數(shù)。但最多重復(fù)63次,若再長重建一個包.PCX數(shù)據(jù)包的結(jié)構(gòu)

(2)若Keybyte最高位不是11,那么該Databyte按原樣寫入圖象文件。對一個字符的表示用長度為1的包。11IndexDatabyte111Databyte文件體對象素數(shù)據(jù)采用行程長度編碼,由包含Keybyt302.3

數(shù)字視頻編碼2.3數(shù)字視頻編碼312.3.1數(shù)字視頻的結(jié)構(gòu)

數(shù)字視頻是連續(xù)的數(shù)字圖像序列。它與模擬視頻相比:很高的存儲質(zhì)量和交互性,易于實現(xiàn)視頻數(shù)據(jù)加密等優(yōu)點。但是相鄰圖像之間有相關(guān)性。基本單位是幀。幀就是一幅靜態(tài)的圖像,是構(gòu)成視頻的最小的單位。若干同一場景的一系列幀構(gòu)成鏡頭。若干鏡頭構(gòu)成情節(jié)(場景)若干情節(jié)構(gòu)成故事節(jié)目(幕)2.3.1數(shù)字視頻的結(jié)構(gòu)數(shù)字視頻是連續(xù)的數(shù)字圖像序列。它與322.3.2國際視頻標準

NTSC

美國研制,是目前廣泛使用的電視制式。它以525條橫掃描線來組成一個屏幕幀,每秒30幀,其圖象改變采用偶數(shù)線與奇數(shù)線相互交錯更新的方式,造成視覺動態(tài)圖象。PAL

中國、英國等國采用制式,W.Bruch1963年發(fā)明的,其基本原理類似于NTSC制式。以625條掃描線,每秒25幀,也是以奇偶數(shù)掃描線交錯方式造成動態(tài)圖象。SECAM

法國、俄羅斯等國采用制式。同樣采用625條線和25幀,但與NTSC和PAL相比,其基礎(chǔ)技術(shù)是采用頻率調(diào)制,傳播方式也不同于以上兩種。2.3.2國際視頻標準NTSC美國研制,是目前廣泛使用332.3.3數(shù)字視頻CCIR601編碼標準數(shù)字視頻CCIR601是國際無線電咨詢委員會制定的廣播級質(zhì)量的數(shù)字電視標準。主要對采樣頻率、采樣結(jié)構(gòu)、色彩空間轉(zhuǎn)換等給出了嚴格的標準。采樣頻率:為了保證信號同步,采樣頻率必須是電視信號行頻的倍數(shù)。CCIR為NTSC、PAL和SECAM制式制定的共同的電視圖像采樣標準為fs=13.5MHZ。分辨率2.3.3數(shù)字視頻CCIR601編碼標準數(shù)字視頻CCIR60342.4

常用數(shù)據(jù)壓縮技術(shù)2.4常用數(shù)據(jù)壓縮技術(shù)352.4.1數(shù)據(jù)壓縮的基本原理傳統(tǒng)上用模擬方式表示聲音和圖象信息

易出故障,常產(chǎn)生噪音和信號丟失,且拷貝過程中噪音和誤差逐步積累;模擬信號不適合數(shù)字計算機加工處理。數(shù)字化處理:巨大的數(shù)據(jù)量2.4.1數(shù)據(jù)壓縮的基本原理傳統(tǒng)上用模擬方式表示聲音和圖象36采樣定理:

僅當(dāng)采樣頻率≥2倍的原始信號頻率時,才能保證采樣后信號可被保真地恢復(fù)為原始信號。采用8bit數(shù)字化,從而1秒鐘電視信號的數(shù)據(jù)量約為99.2Mbits。即約為100Mbps。650MB的CD-ROM僅能存約1分鐘的原始電視數(shù)據(jù)。若HDTV(1.2Gbps),一張CD-ROM還存不下6秒鐘的HDTV圖象。采樣定理:37

人說話的音頻一般在20Hz到4KHz,即人類語音的帶寬為4KHz。依據(jù)采樣定理,設(shè)數(shù)字化精度為8b,則1秒鐘信號量為64Kbits。

因此,人講1分鐘話的數(shù)據(jù)量為480KB。數(shù)字化處理的關(guān)鍵問題-數(shù)據(jù)壓縮(去掉信號數(shù)據(jù)的冗余性)人說話的音頻一般在20Hz到4KHz,即人類語音的帶寬為38壓縮的基礎(chǔ)-數(shù)據(jù)冗余

空間冗余時間冗余信息熵冗余結(jié)構(gòu)冗余知識冗余視覺冗余其它冗余壓縮的基礎(chǔ)-數(shù)據(jù)冗余空間冗余39空間冗余這是圖象數(shù)據(jù)中經(jīng)常存在的一種冗余。在同一幅圖象中,規(guī)則物體和規(guī)則背景的表面物理特性具有相關(guān)性,這些相關(guān)性的光成象結(jié)構(gòu)在數(shù)字化圖象中就表現(xiàn)為數(shù)據(jù)冗余。

空間冗余這是圖象數(shù)據(jù)中經(jīng)常存在的一種冗余。40時間冗余這是序列圖象和語音數(shù)據(jù)中所經(jīng)常包含的冗余。圖象序列中的兩幅相鄰的圖象之間有較大的相關(guān)性,這反映為時間冗余。人在說話時發(fā)音音頻是一連續(xù)的漸變過程,而不是一個完全時間上獨立的過程,因而存在時間冗余。

時間冗余這是序列圖象和語音數(shù)據(jù)中所經(jīng)常包含的冗余。41信息熵冗余信息熵是指一組數(shù)據(jù)所攜帶的信息量,它定義為:H=-∑i=0N-1Pilog2Pi

N為數(shù)據(jù)類數(shù)或碼元個數(shù),Pi為碼元yi發(fā)生的概率.為使信息編碼單位數(shù)據(jù)量d接近于或等于H,應(yīng)設(shè):d=∑i=0N-1Pib(yi)

其中b(yi)是分配給碼元yi的比特數(shù),理論上應(yīng)取b(yi)=-log2Pi.實際一般取b(y0)=b(y1)=…=b(yK-1).例如,英文字母編碼碼元長為7bit,即b(y0)=b(y1)=…=b(yK-1)=7,這樣d必然大于H,由此帶來的冗余稱為信息熵冗余或編碼冗余。

信息熵冗余信息熵是指一組數(shù)據(jù)所攜帶的信息量,它定義為:42結(jié)構(gòu)冗余有些圖象從大域上看存著非常強的紋理結(jié)構(gòu),我們稱它們在結(jié)構(gòu)上存在有冗余.例如布紋圖象和草席圖象結(jié)構(gòu)冗余有些圖象從大域上看存著非常強的紋理結(jié)構(gòu),我們稱它們在43知識冗余有許多圖象的理解與某些基礎(chǔ)知識有相當(dāng)大的相關(guān)性。例如,人臉的圖象有固定的結(jié)構(gòu)。比如說嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于正臉圖象的中線上等等。這類規(guī)律性的結(jié)構(gòu)可由先驗知識和背景知識得到,我們稱此類冗余為知識冗余。知識冗余有許多圖象的理解與某些基礎(chǔ)知識有相當(dāng)大的相關(guān)性。44視覺冗余人類視覺系統(tǒng)對于圖象場的任何變化,并不是都能感知的。例如,對于圖象的編碼處理時,由于壓縮或量化截斷引入了噪聲而使圖象發(fā)生了一些變化,如果這些變化不能為視覺所感知,仍認為圖象足夠好。事實上人類視覺系統(tǒng)一般分辨能力約為26灰度等級,而一般圖象量化采用28灰度等級,這類冗余我們稱為視覺冗余。

視覺冗余人類視覺系統(tǒng)對于圖象場的任何變化,并不是都能感知的。45其他冗余例如由圖象的空間非定常特性所帶來的冗余。

其他冗余例如由圖象的空間非定常特性所帶來的冗余。462.4常用的數(shù)據(jù)壓縮技術(shù)

根據(jù)解碼后數(shù)據(jù)與原始數(shù)據(jù)是否完全一致,數(shù)據(jù)壓縮方法劃分為兩類:

可逆編碼(無失真編碼)

解碼圖象與原始圖象嚴格相同,壓縮大約在2:1到5:1之間。如Huffman編碼、算術(shù)編碼、行程長度編碼等。不可逆編碼(有失真編碼)

還原圖象與原始圖象存在一定的誤差,但視覺效果一般可以接受,壓縮比可以從幾倍到上百倍來調(diào)節(jié)。常用的有變換編碼和預(yù)測編碼2.4常用的數(shù)據(jù)壓縮技術(shù)根據(jù)解碼后數(shù)據(jù)與原始數(shù)據(jù)是否完全47

根據(jù)壓縮的原理分類:

預(yù)測編碼

利用空間中相鄰數(shù)據(jù)的相關(guān)性來預(yù)測未來點的數(shù)據(jù)。差分脈沖編碼調(diào)制(DPCM)和自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)。

變換編碼

將圖象時域信號變換到頻域空間處理。時域空間有強相關(guān)信號,反映在頻域上是某些特定區(qū)域內(nèi)能量集中,從而實現(xiàn)壓縮.正交變換如離散余弦變換,離散付立葉變換和Walsh-Hadamard變換.量化與向量量化編碼

為了使整體量化失真最小,就必須依照統(tǒng)計的概率分布設(shè)計最優(yōu)的量化器。已知最優(yōu)量化器是Max量化器。對象元點進行量化時,也可以考慮一次量化多個點的向量量化。根據(jù)壓縮的原理分類:48

信息熵編碼

根據(jù)信息熵原理,讓出現(xiàn)概率大的用短的碼字表達,反之用長的碼字表示。最常見的方法如Huffman編碼、Shannon編碼以及算術(shù)編碼。

子帶編碼

將圖象數(shù)據(jù)變換到頻域后,按頻域分帶,然后用不同的量化器進行量化,從而達到最優(yōu)的組合?;蛘叻植綕u近編碼,隨著解碼數(shù)據(jù)的增加,圖象逐漸清晰。

模型編碼

編碼時首先將圖象中邊界、輪廓、紋理等結(jié)構(gòu)特征找出來,保存這些參數(shù)信息。解碼時根據(jù)結(jié)構(gòu)和參數(shù)信息進行合成,恢復(fù)出原圖象。具體方法有輪廓編碼、域分割編碼、分析合成編碼、識別合成編碼、基于知識的編碼、分形編碼等。多媒體技術(shù)與應(yīng)用視頻課件2492.4.1

預(yù)測編碼線性預(yù)測-DPCM基本原理是基于圖象中相鄰象素之間具有較強的相關(guān)性。每個象素可根據(jù)已知的前幾個象素來作預(yù)測。因此在預(yù)測編碼中,編碼和傳輸?shù)牟⒉皇窍笏夭蓸又当旧?,而是這個采樣值的預(yù)測值與其實際值之間的差值非線性預(yù)測(不討論)2.4.1預(yù)測編碼線性預(yù)測-DPCM50DPCM系統(tǒng)原理框圖預(yù)測器量化器編碼器解碼器預(yù)測器信道接收端輸出XN’+++XNe’NXNeNe’NXN’++輸入^XN^發(fā)送端+-DPCM系統(tǒng)原理框圖預(yù)測器量化器編碼器解碼器預(yù)測器接51XN為tN時刻的亮度采樣值;XN為根據(jù)tN時刻以前已知X1,X2,…,XN-1對XN所作的預(yù)測值;eN=XN-XN為差值信號;eN’為量化器輸出信號;XN’為接收端輸出,XN’

=XN+eN’

。因為:XN-XN’=XN-(XN+eN’)=(XN-XN)-eN’=eN-eN’所以,DPCM系統(tǒng)中的誤差來源是發(fā)送端的量化器,而與接收端無關(guān),若去掉量化器使eN=eN’,則XN=XN’,即實現(xiàn)信息保持編碼。事實上,這種量化誤差是不可避免的。^^^^^^^^^^522.4.2

變換編碼輸入圖象G經(jīng)正交變換U變換到頻域空間,象素之間相關(guān)性下降,能量集中在變換域中少數(shù)變換系數(shù)上,已經(jīng)達到了數(shù)據(jù)壓縮的效果。對變換系數(shù)A中那些幅度大元素予以保留,其它數(shù)量多的幅度小的變換系數(shù),全部當(dāng)作零不予編碼,再輔以非線性量化,進一步壓縮圖象數(shù)據(jù)。由于量化器存在,量化后變換系數(shù)A′和A間必然存在量化誤差,從而引起輸入圖象G和輸出圖象G′間存在誤差。圖中U′是U的逆變換。2.4.2變換編碼輸入圖象G經(jīng)正交變換U變換到頻域空間,象53變換編碼原理框圖

變換量化編碼器解碼器逆變換信道輸入發(fā)送端接收端輸出GG’U’UA’A變換編碼原理框圖變換量化編碼器解碼器逆變換信道輸入發(fā)送端接54變換編碼數(shù)據(jù)壓縮主要是去除信源的相關(guān)性。設(shè)信源序列為X={X0,X1,…,XN-1},表征相關(guān)性的統(tǒng)計特性就是協(xié)方差矩陣:

ΦX=

其中σi,j=E{(Xi-EXi)(Xj-EXj)}.當(dāng)協(xié)方差矩陣Φx除對角線上元素之外各元素均為0時,就等效于相關(guān)性為0。為了有效壓縮,希望變換后的協(xié)方差矩陣為對角矩陣,并希望主對角線元素隨i,j增加盡快衰減。

σ0,02σ0,12σ0,N-12σ1,02σ1,12σN-1,02σ1,N-12σN-1,12σN-1,N-12…………………變換編碼數(shù)據(jù)壓縮主要是去除信源的相關(guān)性。σ0,02σ0,155

已知X的條件下,根據(jù)它的協(xié)方差矩陣去尋找一種正交變換T,使變換后的協(xié)方差矩陣滿足或接近為一對角陣。Karhunen-Loeve變換即是這樣一種變換,又稱為最佳變換,它能使變換后協(xié)方差矩陣為對角陣,并且有最小均方誤差。它的計算比較復(fù)雜。實際應(yīng)用中采用了一些準最佳變換如DCT,DFT和WHT等,使用這些變換后的協(xié)方差矩陣一般都接近一對角陣。已知X的條件下,根據(jù)它的協(xié)方差矩陣去尋找一種正交變換T,使562.4.3

信息熵編碼又稱為統(tǒng)計編碼,它是根據(jù)信源符號出現(xiàn)概率的分布特性而進行的壓縮編碼。基本思想:在信源符號和碼字之間建立明確的一一對應(yīng)關(guān)系,以便在恢復(fù)時能準確地再現(xiàn)原信號,同時要使平均碼長或碼率盡量小。如Huffman編碼、算術(shù)編碼。2.4.3信息熵編碼又稱為統(tǒng)計編碼,它是根據(jù)信源符號出現(xiàn)概57Huffman定理定理在變長編碼中,對出現(xiàn)概率大的信源符號賦于短碼字,而對于出現(xiàn)概率小的信源符號賦于長碼字。如果碼字長度嚴格按照所對應(yīng)符號出現(xiàn)概率大小逆序排列,則編碼結(jié)果平均碼字長度一定小于任何其它排列方式。Huffman定理是Huffman編碼的理論基礎(chǔ)Huffman定理定理在變長編碼中,對出現(xiàn)概率大的信源符號58例2.2設(shè)一組音源符號為{X1,X2,X3,X4,X5,X6,X7,X8},這些符號出現(xiàn)的概率分別為{0.40,0.18,0.10,0.10,0.07,0.06,0.05,0.04},求它們的Huffman編碼。例2.2設(shè)一組音源符號為{X1,X2,X3,X4,X5,X659實現(xiàn)步驟

(1)將信源符號按概率遞減順序排列;(2)把二個最小概率相加作為新符號的概率,并按(1)重排;(3)重復(fù)(1)、(2),直到概率為1;(4)在每次合并信源時,將合并的信源分別賦“0”和“1”(如概率大的賦“0”,概率小的賦“1”);(5)尋找從每一信源符號到概率為1處的路徑,記錄下路徑上的“1”和“0”;(6)寫出每一符號的“1”、“0”序列(從樹根到信源符號節(jié)點)。實現(xiàn)步驟(1)將信源符號按概率遞減順序排列;60Huffman編碼

信源符號概率編碼過程碼字碼長(βi)x1x2x3x4x5x6x7x80.400.180.100.100.070.060.050.0410010110000010001010001000011133444550101010.090.130.190.230.370.601010011Huffman編碼信源符號概率編碼過程碼字碼長(βi)x161

上述編碼的平均碼字長度:

R=∑Piβi=0.40×1+0.18×3+0.10×3+0.10×4+0.07×4+0.06×4+0.05×5+0.04×5=2.61上述編碼的平均碼字長度:62算術(shù)編碼六十年代初,Elias提出了算術(shù)編碼概念。1976年,Rissanen和Pasco首次介紹了它的實用技術(shù)。其基本原理是將編碼的信息表示成實數(shù)0和1之間的一個間隔(Interval),信息越長,編碼表示它的間隔就越小,表示這一間隔所需的二進制位就越多。算術(shù)編碼六十年代初,Elias提出了算術(shù)編碼概念。63算術(shù)編碼舉例采用固定模式符號概率分配如下:

字符:aeiou

概率:0.20.30.10.20.2范圍:[0,0.2)[0.2,0.5)[0.5,0.6)[0.6,0.8)[0.8,1.0)編碼數(shù)據(jù)串為eai。令high間隔的高端,low為低端,range為間隔的長度,rangelow為編碼字符分配的間隔低端,rangehigh為編碼字符分配的間隔高端。算術(shù)編碼舉例采用固定模式符號概率分配如下:64

初始high=1,low=0,range=high-low,一個字符編碼后新的low和high按下式計算:

low=low+range×rangelow;high=low+range×rangehigh。(1)在第一個字符e被編碼時,e的rangelow=0.2,rangehigh=0.5,因此:

low=0+1×0.2=0.2high=0+1×0.5=0.5range=high-low=0.5-0.2=0.3

此時分配給e的范圍為[0.2,0.5)初始high=1,low=0,range=high-lo65

(2)第二個字符a編碼時使用新生成范圍[0.2,0.5),a的rangelow=0,rangehigh=0.2,因此:

low=0.2+0.3×0=0.2high=0.2+0.3×0.2=0.26range=0.06

范圍變成[0.2,0.26)(2)第二個字符a編碼時使用新生成范圍[0.2,0.5)66

(3)對下一個字符i編號,i的rangelow=0.5,rangehigh=0.6,range=0.06,則:

low=0.2+0.06×0.5=0.23high=0.2+0.06×0.6=0.236結(jié)果:用[0.23,0.236)表示數(shù)據(jù)串eai,如果解碼器知道最后范圍是[0.23,0.236),它馬上可解得一個字符為e,然后依次得到唯一解a、i,最終得到eai。

(3)對下一個字符i編號,i的rangelow=0.567

算術(shù)編碼過程表示1e0.5ea0.260.2360.80.60.50.20uoieauoieauoieauoiea0.20.20.23eai算術(shù)編碼過程表示1e0.5ea0.260.2360.68算術(shù)編碼的特點不必預(yù)先定義概率模型,自適應(yīng)模式具有獨特的優(yōu)點;信源符號概率接近時,建議使用算術(shù)編碼,這種情況下其效率高于Huffman編碼(約5%)。JPEG擴展系統(tǒng)采用。算術(shù)編碼的特點不必預(yù)先定義概率模型,自適應(yīng)模式具有獨特的優(yōu)點692.5多媒體數(shù)據(jù)轉(zhuǎn)換

不同媒體表示不同的信息表示方式。研究媒體之間轉(zhuǎn)換十分有意義。有些媒體之間的轉(zhuǎn)換是非常困難的事情,需要研究人類本身對各種媒體理解原理和解釋過程。有些媒體之間的轉(zhuǎn)換則相對容易,幾乎不用做什么工作。2.5多媒體數(shù)據(jù)轉(zhuǎn)換不同媒體表示不同的信息表示方式。研究70

部分媒體的轉(zhuǎn)換關(guān)系轉(zhuǎn)換位圖圖像圖形語音音樂文本視頻數(shù)值位圖圖像-*映射??*映射*凍結(jié)?圖形***輪廓或理解-*波形*樂譜**矢量化?*可視化語音??-*波形**語音合成?*合成音樂??***識別-*音樂合成??文本***文字識別**識別**語音識別*轉(zhuǎn)換-?*符號化視頻**序列化**序列化???-?數(shù)值?**計算***識別?*轉(zhuǎn)換?-部分媒體的轉(zhuǎn)換關(guān)系轉(zhuǎn)換位圖圖像圖形語音音樂文本視頻數(shù)值位圖71本章小結(jié)1.多媒體數(shù)據(jù)的表示方法。2.數(shù)字音頻編碼,數(shù)字圖像編碼和視頻數(shù)據(jù)編碼。3.多媒體數(shù)據(jù)常用的壓縮方法。4.多媒體數(shù)據(jù)類型的轉(zhuǎn)換。本章小結(jié)1.多媒體數(shù)據(jù)的表示方法。72第二章多媒體數(shù)據(jù)壓縮技術(shù)

數(shù)字音頻編碼數(shù)字圖像編碼數(shù)字視頻編碼常用的數(shù)據(jù)壓縮技術(shù)多媒體數(shù)據(jù)轉(zhuǎn)換第二章多媒體數(shù)據(jù)壓縮技術(shù)數(shù)字音頻編碼732.1

數(shù)字音頻編碼2.1數(shù)字音頻編碼74音頻的基本特性

聲音是由振動的聲波所組成,在任一時刻t,聲波可分解為一系列正弦波線性疊加:f(t)=ΣAnsin(nωt+φn)其中,ω稱為基頻或基音,它決定聲音的高低;nω稱為ω的n次諧波分量或稱為泛音,與聲音的音色有關(guān);An是振幅,表示聲音的強弱;φn是n次諧波的初相位。音頻的基本特性聲音是由振動的聲波所組成,在任一時刻t,聲波75音頻數(shù)字化

波形音頻是以數(shù)字方式表示音波。它是用聲卡(包含ADC和DAC)來錄制與執(zhí)行播出聲音的。計算機對聲音表示主要通過采樣產(chǎn)生一系列聲音數(shù)據(jù)。事實上,聲波按頻率可分為4類,其中多媒體系統(tǒng)僅處理人類的聽力所接受的頻率范圍的聲音,我們稱之為音頻,這個頻率范圍的音波稱之為聲音信號。

音頻數(shù)字化波形音頻是以數(shù)字方式表示音波。它是用聲卡(包含76聲音的頻率分類聲音分類頻率范圍亞聲波0~20Hz人類的聽力所接受的頻率20Hz~20kHz超聲波20kHz~1GHz超高聲波1GHz~10THz聲音的頻率分類聲音分類頻率范圍亞聲波0~20Hz人類的聽力所77通過規(guī)則時間間隔測出音波振動幅度從而產(chǎn)生一系列聲音數(shù)據(jù)。這種測出數(shù)據(jù)方法稱之為采樣,一秒內(nèi)采樣次數(shù)叫采樣率。采樣的離散音頻數(shù)據(jù)要轉(zhuǎn)換成計算機能夠表示的數(shù)據(jù)范圍,這個過程稱之為量化。量化后數(shù)字音頻存儲量計算公式

音頻數(shù)據(jù)存儲量(字節(jié))=采樣率(Hz)×量化位數(shù)(位)×聲道數(shù)×音頻長度(秒)/8通過規(guī)則時間間隔測出音波振動幅度從而產(chǎn)生一系列聲音數(shù)據(jù)。這種78例2.1激光數(shù)字唱盤CD-DA的標準采樣頻率為44.1Hz,量化位數(shù)為16位,立體聲,這即CD音質(zhì)。考慮一下CD-DA播放一分鐘音樂所需要的存儲量是多少?例2.1激光數(shù)字唱盤CD-DA的標準采樣頻率為44.1H79MIDI

音頻

1980年制定一項工業(yè)標準,目的是讓音樂及合成音可以經(jīng)由一串消息在不同的設(shè)備上交流傳輸。MIDI提供了計算機外部的電子樂器與計算機內(nèi)部之間的連接器接口。這種連接接口定義物理連接與電子樂器溝通的協(xié)議。MIDI也定義音頻的形態(tài)與存儲的方法。MIDI音頻是以消息的方式而非波形的方式組成。MIDI有三種連接器(In、Out、Thru)。In為輸入,Out為輸出,而Thru是用來擴充MIDI與其它設(shè)備連接用的。MIDI音頻1980年制定一項工業(yè)標準,目的是讓音樂及合80

音序器可以將音樂等聲音以一種序列來儲存。所謂序列便是一連串的音符加上系統(tǒng)事件的命令。

MIDI適配器是用來改變頻道、路徑與按鍵的。當(dāng)電子琴的鍵盤與一般的MIDI規(guī)格不一致時可以經(jīng)由適配器來修正使兩者一致。音序器可以將音樂等聲音以一種序列來儲存。所謂序列便是81MIDI音頻文件

MIDI音頻文件是一串時序命令,它記錄音樂的行為。命令消息分為頻道消息(頻道聲音消息、頻道模式消息)和系統(tǒng)消息(系統(tǒng)實時消息、系統(tǒng)通用消息與系統(tǒng)專用消息)。它是以某種樂器的發(fā)聲為其數(shù)據(jù)記錄的基礎(chǔ)。它的文件占用很少存儲器空間,且可以做細部的修改,如修改節(jié)拍等。其聲音效果不會因改變節(jié)拍而變調(diào)。MIDI不適合編制口語旁白的音頻。MIDI音頻文件MIDI音頻文件是一串時序命令,它記錄音樂82波形音頻可從麥克風(fēng)、錄音帶、CD、電視及其它來源獲取。它把聲音轉(zhuǎn)換成儲存體中數(shù)字信息。波形音頻較為穩(wěn)定,容易保持一致性,音頻品質(zhì)也較易獲得保證。缺點是記錄非常詳盡,數(shù)據(jù)量極大,文件較MIDI音頻大出200倍以上。要修改數(shù)字音頻細節(jié)非常困難,大大地增加了CPU的負擔(dān)。它可以適合任何一種音響,包括人的口語在內(nèi),故大多數(shù)節(jié)目仍采用這種音頻。

波形音頻可從麥克風(fēng)、錄音帶、CD、電視及其它來源獲取。它把聲833D音頻三維環(huán)繞立體聲能產(chǎn)生更加逼真的音頻效果,是用戶在用計算機時能感覺聲音來自不同的方向。人耳的基本聲音定位原理是兩側(cè)聲音強度差別和兩側(cè)聲音時間延遲差別。耳廓的作用是濾波器,根據(jù)聲音的不同角度,加強、減弱音波能量,過濾后傳給大腦,讓人準確的定位聲源。3D音頻三維環(huán)繞立體聲能產(chǎn)生更加逼真的音頻效果,是用戶在用計843D音頻3D音效的兩個因素是定位和交互。定位即讓人們準確的判斷出聲音的來源,可以通過事先錄制,在進行特定的解碼來實現(xiàn)。交互就是實時的定位,可以根據(jù)用戶的控制來決定聲音的位置。即時交互的聲音對設(shè)備的要求比預(yù)先錄制音軌的放音設(shè)備更高一些。3D音頻3D音效的兩個因素是定位和交互。853D音頻3D音效可分為以下幾類:(1)擴展式立體聲。(2)環(huán)繞立體聲。(3)交互式3D音效。3D音效的控制是通過軟件來實現(xiàn)的,稱為應(yīng)用程序接口(API)。3D音頻3D音效可分為以下幾類:863D音頻支持3D音頻API種類:DirectXDirectSound3D;Aureal3D;

EAX;

Sensaura;Qsound;杜比AC-3;數(shù)字化影院系統(tǒng)DTS

3D音頻支持3D音頻API種類:872.2

數(shù)字圖像編碼2.2數(shù)字圖像編碼882.2.1

色彩的基本概念色彩的基本概念:色調(diào),飽和度,亮度。色調(diào)是指某種顏色的性質(zhì)和特點,是由物體表面反射的光線中什么波長占優(yōu)勢決定的。色調(diào)和光波的波長相關(guān),而亮度和飽和度與光波的幅度相關(guān)。P18圖。主要采用數(shù)字化方式對聲音、文字等處理。2.2.1色彩的基本概念色彩的基本概念:色調(diào),飽和度,亮度892.2.1

色彩的基本概念例如:在彩色電視信號表示時,設(shè)代表光強、色彩和色飽和度的YIQ彩色空間中各分量的帶寬分別為4.2MHZ、1.5MHZ、0.5MHZ。再設(shè)各分量均被數(shù)字化為8b。從而一秒鐘電視信號的數(shù)據(jù)量:(4.2+1.5+0.5)*2*8=99.2Mb(CD容量是650MB)數(shù)字化處理面臨的主要問題是數(shù)據(jù)量巨大,尤其是對動態(tài)圖像和視頻圖像。2.2.1色彩的基本概念例如:在彩色電視信號表示時,設(shè)代表902.2.2彩色空間及其轉(zhuǎn)換彩色空間即彩色的表示模型??捎?位、9位、16位、24位、32位表示。常見模型:

RGB彩色空間

HSI彩色空間

YUV彩色空間

YIQ彩色空間2.2.2彩色空間及其轉(zhuǎn)換彩色空間即彩色的表示模型??捎?位91RGB彩色空間R、G、B是彩色最基本表示模型,也是計算機系統(tǒng)中所使用的彩色模型。

RGB5:5:5方式用2個字節(jié)表示一個象素,具體位分配。RGB5:5:5方式RGB8:8:8方式R、G、B三個分量各占一個字節(jié)。T(1b)R(5b)G(5b)B(5b)RGB彩色空間R、G、B是彩色最基本表示模型,也是計算機系統(tǒng)92HSI彩色空間這種模型中,用H(Hue,色調(diào))、S(Saturation,飽和度)、I(Intensity,光強度)3個分量來表示一種顏色,這種表示更適合人的視覺特性。HSI彩色空間這種模型中,用H(Hue,色調(diào))、S(Sat93YUV彩色空間Y為亮度信號,U、V是色差信號(B-Y,R-Y)。

PAL制式彩色空間即為YUV。優(yōu)點是亮度和色差信號分離,容易使彩色電視系統(tǒng)與黑白電視信號兼容。國際無線電咨詢委員會根據(jù)實驗認為采用雙倍度采樣4:2:2方案效果較好,提出CCIR601標準。變換公式(YUV<--->RGB)Y=0.299*R+0.587*G+0.114*B;U=-0.169*R-0.332*G+0.500*B;V=0.500*R+0.419*G-0.081*BYUV彩色空間Y為亮度信號,U、V是色差信號(B-Y,R-Y94YIQ彩色空間廣播電視系統(tǒng)另一種常用的亮度與色差分離的模型。NTSC制式彩色空間即為YIQ。這里Y是亮度,I和Q共同描述圖象的色調(diào)和飽和度。變換公式(YIQ<--->RGB)

Y=0.299*R+0.587*G+0.114*B;I=0.211*R-0.523*G+0.312*B;Q=0.596*R-0.275*G-0.322*BYIQ彩色空間廣播電視系統(tǒng)另一種常用的亮度與色差分離的模型。952.2.2數(shù)字圖象文件格式

TIFPCXGIF、TGA、BMP、DVI、JPEG等

2.2.2數(shù)字圖象文件格式TIF96TIF文件格式由美國AldusDeveloper’sDesk和Microsoft制定結(jié)構(gòu)文件頭(8B)參數(shù)指針表參數(shù)數(shù)據(jù)表圖象數(shù)據(jù)TIF文件格式由美國AldusDeveloper’sDe97

TIF文件格式文件頭含字節(jié)順序(2B,表示存貯格式:II-Intel格式;MM—Motorola格式);標記號(2B,版本信息);指向第一個參數(shù)指針表的編碼(4B)。參數(shù)指針表由每個長為12B參數(shù)塊構(gòu)成,描述壓縮種類、長寬、彩色數(shù)、掃描密度等參數(shù)。較長參數(shù)(如調(diào)色板)只給出指針,參數(shù)放在參數(shù)數(shù)據(jù)表中。其結(jié)構(gòu)定義如下:TIF文件格式文件頭98

typedefstruct{inttag-type;intnumber-size;longlength;longoffset;}TIF-FIELD;

圖像參數(shù)表圖象數(shù)據(jù)按參數(shù)表中描述的形式按行排列typedefstruct{99PCX文件格式由ZSoft公司最初制定結(jié)構(gòu)文件頭(128字節(jié))數(shù)據(jù)部分(采用行程長度編碼)文件頭結(jié)構(gòu)定義PCX文件格式由ZSoft公司最初制定100

typedefstruct{charmanufacture;/*always0xa0*/charversion;charencoding;/*always1*/charbits-per-pixel;/*colorbits*/intXmin,Ymin;/*imageorigin*/intXmax,Ymax;/*imagedimension*/inthres;/*resolutionvalues*/intvres;charpalette[48];/*colorpalette*/charreserved;charcolor-planes;/*colorplanes*/intbytes-per-line;/*linebuffersize*/intpalette-type;/*greyorcolorpalette*/charfiller[58];}PCXHEAD;

其中Version若為5,文件內(nèi)有個256色調(diào)色板,數(shù)據(jù)768字節(jié),在文件最后。

typedefstruct{101

文件體對象素數(shù)據(jù)采用行程長度編碼,由包含Keybyte和Databyte的包組成。分2種情況:

(1)若Keybyte最高位為11,則低6位(index)為重復(fù)次數(shù)。但最多重復(fù)63次,若再長重建一個包.PCX數(shù)據(jù)包的結(jié)構(gòu)

(2)若Keybyte最高位不是11,那么該Databyte按原樣寫入圖象文件。對一個字符的表示用長度為1的包。11IndexDatabyte111Databyte文件體對象素數(shù)據(jù)采用行程長度編碼,由包含Keybyt1022.3

數(shù)字視頻編碼2.3數(shù)字視頻編碼1032.3.1數(shù)字視頻的結(jié)構(gòu)

數(shù)字視頻是連續(xù)的數(shù)字圖像序列。它與模擬視頻相比:很高的存儲質(zhì)量和交互性,易于實現(xiàn)視頻數(shù)據(jù)加密等優(yōu)點。但是相鄰圖像之間有相關(guān)性?;締挝皇菐褪且环o態(tài)的圖像,是構(gòu)成視頻的最小的單位。若干同一場景的一系列幀構(gòu)成鏡頭。若干鏡頭構(gòu)成情節(jié)(場景)若干情節(jié)構(gòu)成故事節(jié)目(幕)2.3.1數(shù)字視頻的結(jié)構(gòu)數(shù)字視頻是連續(xù)的數(shù)字圖像序列。它與1042.3.2國際視頻標準

NTSC

美國研制,是目前廣泛使用的電視制式。它以525條橫掃描線來組成一個屏幕幀,每秒30幀,其圖象改變采用偶數(shù)線與奇數(shù)線相互交錯更新的方式,造成視覺動態(tài)圖象。PAL

中國、英國等國采用制式,W.Bruch1963年發(fā)明的,其基本原理類似于NTSC制式。以625條掃描線,每秒25幀,也是以奇偶數(shù)掃描線交錯方式造成動態(tài)圖象。SECAM

法國、俄羅斯等國采用制式。同樣采用625條線和25幀,但與NTSC和PAL相比,其基礎(chǔ)技術(shù)是采用頻率調(diào)制,傳播方式也不同于以上兩種。2.3.2國際視頻標準NTSC美國研制,是目前廣泛使用1052.3.3數(shù)字視頻CCIR601編碼標準數(shù)字視頻CCIR601是國際無線電咨詢委員會制定的廣播級質(zhì)量的數(shù)字電視標準。主要對采樣頻率、采樣結(jié)構(gòu)、色彩空間轉(zhuǎn)換等給出了嚴格的標準。采樣頻率:為了保證信號同步,采樣頻率必須是電視信號行頻的倍數(shù)。CCIR為NTSC、PAL和SECAM制式制定的共同的電視圖像采樣標準為fs=13.5MHZ。分辨率2.3.3數(shù)字視頻CCIR601編碼標準數(shù)字視頻CCIR601062.4

常用數(shù)據(jù)壓縮技術(shù)2.4常用數(shù)據(jù)壓縮技術(shù)1072.4.1數(shù)據(jù)壓縮的基本原理傳統(tǒng)上用模擬方式表示聲音和圖象信息

易出故障,常產(chǎn)生噪音和信號丟失,且拷貝過程中噪音和誤差逐步積累;模擬信號不適合數(shù)字計算機加工處理。數(shù)字化處理:巨大的數(shù)據(jù)量2.4.1數(shù)據(jù)壓縮的基本原理傳統(tǒng)上用模擬方式表示聲音和圖象108采樣定理:

僅當(dāng)采樣頻率≥2倍的原始信號頻率時,才能保證采樣后信號可被保真地恢復(fù)為原始信號。采用8bit數(shù)字化,從而1秒鐘電視信號的數(shù)據(jù)量約為99.2Mbits。即約為100Mbps。650MB的CD-ROM僅能存約1分鐘的原始電視數(shù)據(jù)。若HDTV(1.2Gbps),一張CD-ROM還存不下6秒鐘的HDTV圖象。采樣定理:109

人說話的音頻一般在20Hz到4KHz,即人類語音的帶寬為4KHz。依據(jù)采樣定理,設(shè)數(shù)字化精度為8b,則1秒鐘信號量為64Kbits。

因此,人講1分鐘話的數(shù)據(jù)量為480KB。數(shù)字化處理的關(guān)鍵問題-數(shù)據(jù)壓縮(去掉信號數(shù)據(jù)的冗余性)人說話的音頻一般在20Hz到4KHz,即人類語音的帶寬為110壓縮的基礎(chǔ)-數(shù)據(jù)冗余

空間冗余時間冗余信息熵冗余結(jié)構(gòu)冗余知識冗余視覺冗余其它冗余壓縮的基礎(chǔ)-數(shù)據(jù)冗余空間冗余111空間冗余這是圖象數(shù)據(jù)中經(jīng)常存在的一種冗余。在同一幅圖象中,規(guī)則物體和規(guī)則背景的表面物理特性具有相關(guān)性,這些相關(guān)性的光成象結(jié)構(gòu)在數(shù)字化圖象中就表現(xiàn)為數(shù)據(jù)冗余。

空間冗余這是圖象數(shù)據(jù)中經(jīng)常存在的一種冗余。112時間冗余這是序列圖象和語音數(shù)據(jù)中所經(jīng)常包含的冗余。圖象序列中的兩幅相鄰的圖象之間有較大的相關(guān)性,這反映為時間冗余。人在說話時發(fā)音音頻是一連續(xù)的漸變過程,而不是一個完全時間上獨立的過程,因而存在時間冗余。

時間冗余這是序列圖象和語音數(shù)據(jù)中所經(jīng)常包含的冗余。113信息熵冗余信息熵是指一組數(shù)據(jù)所攜帶的信息量,它定義為:H=-∑i=0N-1Pilog2Pi

N為數(shù)據(jù)類數(shù)或碼元個數(shù),Pi為碼元yi發(fā)生的概率.為使信息編碼單位數(shù)據(jù)量d接近于或等于H,應(yīng)設(shè):d=∑i=0N-1Pib(yi)

其中b(yi)是分配給碼元yi的比特數(shù),理論上應(yīng)取b(yi)=-log2Pi.實際一般取b(y0)=b(y1)=…=b(yK-1).例如,英文字母編碼碼元長為7bit,即b(y0)=b(y1)=…=b(yK-1)=7,這樣d必然大于H,由此帶來的冗余稱為信息熵冗余或編碼冗余。

信息熵冗余信息熵是指一組數(shù)據(jù)所攜帶的信息量,它定義為:114結(jié)構(gòu)冗余有些圖象從大域上看存著非常強的紋理結(jié)構(gòu),我們稱它們在結(jié)構(gòu)上存在有冗余.例如布紋圖象和草席圖象結(jié)構(gòu)冗余有些圖象從大域上看存著非常強的紋理結(jié)構(gòu),我們稱它們在115知識冗余有許多圖象的理解與某些基礎(chǔ)知識有相當(dāng)大的相關(guān)性。例如,人臉的圖象有固定的結(jié)構(gòu)。比如說嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于正臉圖象的中線上等等。這類規(guī)律性的結(jié)構(gòu)可由先驗知識和背景知識得到,我們稱此類冗余為知識冗余。知識冗余有許多圖象的理解與某些基礎(chǔ)知識有相當(dāng)大的相關(guān)性。116視覺冗余人類視覺系統(tǒng)對于圖象場的任何變化,并不是都能感知的。例如,對于圖象的編碼處理時,由于壓縮或量化截斷引入了噪聲而使圖象發(fā)生了一些變化,如果這些變化不能為視覺所感知,仍認為圖象足夠好。事實上人類視覺系統(tǒng)一般分辨能力約為26灰度等級,而一般圖象量化采用28灰度等級,這類冗余我們稱為視覺冗余。

視覺冗余人類視覺系統(tǒng)對于圖象場的任何變化,并不是都能感知的。117其他冗余例如由圖象的空間非定常特性所帶來的冗余。

其他冗余例如由圖象的空間非定常特性所帶來的冗余。1182.4常用的數(shù)據(jù)壓縮技術(shù)

根據(jù)解碼后數(shù)據(jù)與原始數(shù)據(jù)是否完全一致,數(shù)據(jù)壓縮方法劃分為兩類:

可逆編碼(無失真編碼)

解碼圖象與原始圖象嚴格相同,壓縮大約在2:1到5:1之間。如Huffman編碼、算術(shù)編碼、行程長度編碼等。不可逆編碼(有失真編碼)

還原圖象與原始圖象存在一定的誤差,但視覺效果一般可以接受,壓縮比可以從幾倍到上百倍來調(diào)節(jié)。常用的有變換編碼和預(yù)測編碼2.4常用的數(shù)據(jù)壓縮技術(shù)根據(jù)解碼后數(shù)據(jù)與原始數(shù)據(jù)是否完全119

根據(jù)壓縮的原理分類:

預(yù)測編碼

利用空間中相鄰數(shù)據(jù)的相關(guān)性來預(yù)測未來點的數(shù)據(jù)。差分脈沖編碼調(diào)制(DPCM)和自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)。

變換編碼

將圖象時域信號變換到頻域空間處理。時域空間有強相關(guān)信號,反映在頻域上是某些特定區(qū)域內(nèi)能量集中,從而實現(xiàn)壓縮.正交變換如離散余弦變換,離散付立葉變換和Walsh-Hadamard變換.量化與向量量化編碼

為了使整體量化失真最小,就必須依照統(tǒng)計的概率分布設(shè)計最優(yōu)的量化器。已知最優(yōu)量化器是Max量化器。對象元點進行量化時,也可以考慮一次量化多個點的向量量化。根據(jù)壓縮的原理分類:120

信息熵編碼

根據(jù)信息熵原理,讓出現(xiàn)概率大的用短的碼字表達,反之用長的碼字表示。最常見的方法如Huffman編碼、Shannon編碼以及算術(shù)編碼。

子帶編碼

將圖象數(shù)據(jù)變換到頻域后,按頻域分帶,然后用不同的量化器進行量化,從而達到最優(yōu)的組合。或者分步漸近編碼,隨著解碼數(shù)據(jù)的增加,圖象逐漸清晰。

模型編碼

編碼時首先將圖象中邊界、輪廓、紋理等結(jié)構(gòu)特征找出來,保存這些參數(shù)信息。解碼時根據(jù)結(jié)構(gòu)和參數(shù)信息進行合成,恢復(fù)出原圖象。具體方法有輪廓編碼、域分割編碼、分析合成編碼、識別合成編碼、基于知識的編碼、分形編碼等。多媒體技術(shù)與應(yīng)用視頻課件21212.4.1

預(yù)測編碼線性預(yù)測-DPCM基本原理是基于圖象中相鄰象素之間具有較強的相關(guān)性。每個象素可根據(jù)已知的前幾個象素來作預(yù)測。因此在預(yù)測編碼中,編碼和傳輸?shù)牟⒉皇窍笏夭蓸又当旧?,而是這個采樣值的預(yù)測值與其實際值之間的差值非線性預(yù)測(不討論)2.4.1預(yù)測編碼線性預(yù)測-DPCM122DPCM系統(tǒng)原理框圖預(yù)測器量化器編碼器解碼器預(yù)測器信道接收端輸出XN’+++XNe’NXNeNe’NXN’++輸入^XN^發(fā)送端+-DPCM系統(tǒng)原理框圖預(yù)測器量化器編碼器解碼器預(yù)測器接123XN為tN時刻的亮度采樣值;XN為根據(jù)tN時刻以前已知X1,X2,…,XN-1對XN所作的預(yù)測值;eN=XN-XN為差值信號;eN’為量化器輸出信號;XN’為接收端輸出,XN’

=XN+eN’

。因為:XN-XN’=XN-(XN+eN’)=(XN-XN)-eN’=eN-eN’所以,DPCM系統(tǒng)中的誤差來源是發(fā)送端的量化器,而與接收端無關(guān),若去掉量化器使eN=eN’,則XN=XN’,即實現(xiàn)信息保持編碼。事實上,這種量化誤差是不可避免的。^^^^^^^^^^1242.4.2

變換編碼輸入圖象G經(jīng)正交變換U變換到頻域空間,象素之間相關(guān)性下降,能量集中在變換域中少數(shù)變換系數(shù)上,已經(jīng)達到了數(shù)據(jù)壓縮的效果。對變換系數(shù)A中那些幅度大元素予以保留,其它數(shù)量多的幅度小的變換系數(shù),全部當(dāng)作零不予編碼,再輔以非線性量化,進一步壓縮圖象數(shù)據(jù)。由于量化器存在,量化后變換系數(shù)A′和A間必然存在量化誤差,從而引起輸入圖象G和輸出圖象G′間存在誤差。圖中U′是U的逆變換。2.4.2變換編碼輸入圖象G經(jīng)正交變換U變換到頻域空間,象125變換編碼原理框圖

變換量化編碼器解碼器逆變換信道輸入發(fā)送端接收端輸出GG’U’UA’A變換編碼原理框圖變換量化編碼器解碼器逆變換信道輸入發(fā)送端接126變換編碼數(shù)據(jù)壓縮主要是去除信源的相關(guān)性。設(shè)信源序列為X={X0,X1,…,XN-1},表征相關(guān)性的統(tǒng)計特性就是協(xié)方差矩陣:

ΦX=

其中σi,j=E{(Xi-EXi)(Xj-EXj)}.當(dāng)協(xié)方差矩陣Φx除對角線上元素之外各元素均為0時,就等效于相關(guān)性為0。為了有效壓縮,希望變換后的協(xié)方差矩陣為對角矩陣,并希望主對角線元素隨i,j增加盡快衰減。

σ0,02σ0,12σ0,N-12σ1,02σ1,12σN-1,02σ1,N-12σN-1,12σN-1,N-12…………………變換編碼數(shù)據(jù)壓縮主要是去除信源的相關(guān)性。σ0,02σ0,1127

已知X的條件下,根據(jù)它的協(xié)方差矩陣去尋找一種正交變換T,使變換后的協(xié)方差矩陣滿足或接近為一對角陣。Karhunen-Loeve變換即是這樣一種變換,又稱為最佳變換,它能使變換后協(xié)方差矩陣為對角陣,并且有最小均方誤差。它的計算比較復(fù)雜。實際應(yīng)用中采用了一些準最佳變換如DCT,DFT和WHT等,使用這些變換后的協(xié)方差矩陣一般都接近一對角陣。已知X的條件下,根據(jù)它的協(xié)方差矩陣去尋找一種正交變換T,使1282.4.3

信息熵編碼又稱為統(tǒng)計編碼,它是根據(jù)信源符號出現(xiàn)概率的分布特性而進行的壓縮編碼?;舅枷?在信源符號和碼字之間建立明確的一一對應(yīng)關(guān)系,以便在恢復(fù)時能準確地再現(xiàn)原信號,同時要使平均碼長或碼率盡量小。如Huffman編碼、算術(shù)編碼。2.4.3信息熵編碼又稱為統(tǒng)計編碼,它是根據(jù)信源符號出現(xiàn)概129Huffman定理定理在變長編碼中,對出現(xiàn)概率大的信源符號賦于短碼字,而對于出現(xiàn)概率小的信源符號賦于長碼字。如果碼字長度嚴格按照所對應(yīng)符號出現(xiàn)概率大小逆序排列,則編碼結(jié)果平均碼字長度一定小于任何其它排列方式。Huffman定理是Huffman編碼的理論基礎(chǔ)Huffman定理定理在變長編碼中,對出現(xiàn)概率大的信源符號130例2.2設(shè)一組音源符號為{X1,X2,X3,X4,X5,X6,X7,X8},這些符號出現(xiàn)的概率分別為{0.40,0.18,0.10,0.10,0.07,0.06,0.05,0.04},求它們的Huffman編碼。例2.2設(shè)一組音源符號為{X1,X2,X3,X4,X5,X6131實現(xiàn)步驟

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論