多媒體技術(shù)原理及應(yīng)用(馬華東第二版)3第三章

上傳人：5*** IP屬地：湖北上傳時間：2022-04-30 格式：PPT 頁數(shù)：115 大?。?89.50KB 積分：35 舉報 版權(quán)申訴

已閱讀5頁，還剩110頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、第三章多媒體數(shù)據(jù)編碼標準靜態(tài)圖像編碼標準JPEG 運動圖像編碼標準MPEG 視聽通信編碼解碼標準H.26X AVS標準聲音壓縮標準3.1 JPEG標準 3.1.1 JPEG標準主要內(nèi)容 nISO/IEC 10918號標準“多灰度連續(xù)色調(diào)靜態(tài)圖象壓縮編碼”即JPEG標準, 選定ADCT作為靜態(tài)圖象壓縮的標準化算法。n該標準為保證通用性,包含以下兩種方式：n空間方式可逆編碼空間方式對于基本系統(tǒng)和擴展系統(tǒng)來說,被稱為獨立功能。nDCT方式非可逆編碼, 包含基本系統(tǒng)(必須保證的功能)和擴展系統(tǒng)(擴充功能) n基本系統(tǒng)是實現(xiàn)DCT編碼與解碼所需的最小功能集, 大多數(shù)的應(yīng)用系統(tǒng)只要用此標準,

2、就能基本上滿足要求。n擴展系統(tǒng)是為了滿足更為廣闊領(lǐng)域的應(yīng)用要求而設(shè)置的。1. 基于DPCM的無失真編碼預測器熵編碼器表說明無失真編碼器源圖象數(shù)據(jù)壓縮圖象數(shù)據(jù)無失真編碼簡化框圖n基于DPCM的無失真編碼優(yōu)點是硬件易實現(xiàn)，重建圖象質(zhì)量好。n缺點是壓縮比太低, 大約為2:1。 n工作原理是對X的預測值X,將X-X進行無失真熵編碼。對X的求法見圖給出的預測方式。 cbax選擇值選擇值預測預測選擇值選擇值預測預測 0 1 2 3非預測 a b c 4 5 6 7a+b-ca+(b-c)/2b+(a-c)/2(a+b)/2(a) X鄰域(b) 預測方式預測器2. 基于DCT的有失真壓縮編碼 n離散余弦變

3、換n量化處理nDC系數(shù)的編碼和AC系數(shù)的行程編碼 n熵編碼基于DCT編碼過程FDCT熵編碼器表說明無失真編碼器源圖象數(shù)據(jù)壓縮圖象數(shù)據(jù)量化器表說明88塊（YUV每個分量）解碼過程熵解碼器IDCT表說明解碼器逆量化器表說明88塊壓縮圖象數(shù)據(jù)恢復的圖象數(shù)據(jù)離散余弦變換 (1)首先把原始圖象順序分割成88子塊;(2)采樣精度為P位(二進制), 把0, 2P-1范圍的無符號數(shù)變換成-2P-1,2P-1范圍的有符號數(shù), 作為離散余弦正變換(FDCT)的輸入;(3)在輸出端經(jīng)離散余弦逆變換(IDCT)后又得到一系列88子塊, 需將數(shù)值范圍-2P-1,2P-1變換回0, 2P-1來重構(gòu)圖象。n這里用的88 F

4、DCT的數(shù)學定義為： F(u, v)=(1/4)C(u) C(v) x=07y=07 f(x,y) cos(2x+1)u/16)cos(2y+1)v/16) n88 IDCT的數(shù)學定義為： f(x, y)= (1/4)u=07v=07 C(u)C(v)F(u,v) cos(2x+1)u/16)cos(2y+1)v/16) 其中:C(u), C(v)= 1/2 當u, v=0 C(u), C(v)=1 其它n下面的編碼針對FDCT輸出的64個基信號的幅值(F(0,0),F(7,7)稱作DCT系數(shù))來進行量化處理 n量化是一個“多到一”的過程,失真原因n關(guān)鍵是找最小量化失真的量化器, JPEG采

5、用線性均勻量化器,定義為對64個DCT系數(shù)除以量化步長, 然后四舍五入取整:FQ(u, v)=Integer RoundF(u, v)/Q(u, v)nQ(u,v)是量化器步長,它是量化表的元素。量化表元素隨DCT系數(shù)的位置和彩色分量不同有不同的值,量化表尺寸為88與64個變換系數(shù)一一對應(yīng)。n這個量化表應(yīng)由用戶規(guī)定(JPEG給出參考值-見表2.2,2.3), 并作為編碼器的一個輸入。 1611101624405161121214192658605514131624405769561417222951878062182237566810910377243555648110411392496478

6、871031211201017292959811210010399亮度量化表 17182447999999991821266699999999242656999999999947669999999999999999999999999999999999999999999999999999999999999999999999999999色度量化表 n量化的作用: 在一定主觀保真度圖象質(zhì)量前提下,丟掉那些對視覺影響不大的信息,通過量化可調(diào)節(jié)數(shù)據(jù)壓縮比。 DC系數(shù)的編碼 n64個變換系數(shù)經(jīng)量化后, 坐標u=v=0的F(0, 0)稱DC系數(shù)(直流分量), 它即64個空域圖象采樣值的平均值。n相鄰88塊之

7、間DC系數(shù)有強相關(guān)性。JPEG對量化后的DC系數(shù)采用DPCM 編碼, 即對DIFF= DCi-DCi-1編碼。 blocki-1blockiDCi-1DCi DC系數(shù)差分編碼AC系數(shù)的行程編碼 n其余63個交流系數(shù)(AC)采用行程編碼。n從左上方AC0,1開始沿對角線方向“Z”字形掃描直到AC7,7掃描結(jié)束, 這樣可增加行程中連續(xù)0的個數(shù)。nAC系數(shù)編碼的碼字用兩個字節(jié)表示,如圖所示: Z字形掃描AC系數(shù)行程編碼碼字兩個非0值間連續(xù)0的個數(shù) 表示下一個非0值需要的bit數(shù) 下一個非0實際值7430字節(jié)1字節(jié)2例子例子：對“,3,0,0,0,0,0,12,0,0,”編碼 ,(5,4),(12),

8、.熵編碼 n為了進一步壓縮數(shù)據(jù),需對DC碼和AC行程編碼的碼字再做基于統(tǒng)計特性的熵編碼。nJPEG建議的熵編碼是Huffman編碼和自適應(yīng)二進制算術(shù)編碼。n熵編碼可分成兩步進行:n把DC碼和AC行程碼轉(zhuǎn)換為中間符號序列n給這些符號賦以變長碼字變長碼字 AC系數(shù)熵編碼的中間格式 n熵編碼的中間格式由兩個符號組成:n符號1: (行程,尺寸)n符號2: (幅值)n第一個信息參數(shù)“行程”表示前后兩個非0的AC系數(shù)之間連續(xù)0的個數(shù)。n第二個信息參數(shù)“尺寸”是后一個非0的AC系數(shù)幅值編碼所需比特數(shù)。n行程取值范圍為115, 超過15時用擴展符號1 (15, 0)來擴充, 63個AC系數(shù)最多增加3個擴展符號

9、1。編碼結(jié)束時用(0,0)表示。n“尺寸”取值范圍為010。 n“幅值”用以表示非0的AC系數(shù)的值, 范圍為-210, 210-1(最長10bit), 結(jié)構(gòu)形式如表2-4所示。1 -1,12 -3.-2,2.33 -7.-4,4.74 -15.-8,8.1567 89 -511.-256,25651110 -1023.-512,5121023符號2結(jié)構(gòu)DC系數(shù)的熵編碼n對于直流分量DC也有類似于AC系數(shù)的編碼格式n符號1：(尺寸)n符號2：(幅值)n“尺寸”表示DC差值的幅值編碼所需的比特數(shù), 而“幅值”表示DC差值的幅值, 范圍為-211,211-1。可在表2.4中多加一級, 幅值尺寸以1到

10、11比特表示。 n將63個AC系數(shù)表示成為符號1和符號2序列,其中連續(xù)0的長度超過15時,有多個符號1; 塊結(jié)束(EOB)時僅有一個符號1(0,0)。 “4,0,0,0,0,0,0,0,0,3,0”. 4,3之間有31個0. (15,0),(15,0),(1,2),(3)n可變長度熵編碼就是對上述序列進行變長編碼。n對DC系數(shù)、AC系數(shù)中的符號1采用Huffman表中的變長碼編碼(VLC),這里Huffman變長碼表必須作為JPEG編碼器輸入。n符號2用碼字長度在表2.4中給出的變長整數(shù)VLI碼編碼。VLI是變長碼,但不是Huffman碼。VLI的長度存放在VLC中, JPEG提供VLI碼字表

11、供用戶使用nJPEG提供2套Huffman碼表: 亮度和色度。每套又有DC表和AC表各1個。共有4個表。n表定義（亮度DC系數(shù)碼表） 16B說明碼字長度： X00 01 05 01 01 01 01 01 01 00 00 00 00 00 00 00 第i個(1-16)元素值表示長度為i的Huffman碼個數(shù)。緊跟一組值說明亮度表分類： X00 01 02 03 04 05 06 07 08 09 0A 0B亮度DC系數(shù)表分類分類碼長碼長碼字碼字分類分類碼長碼長碼字碼字 0 2 00 6 4 1110 1 3 010 7 5 11110 2 3 011 8 6 111110 3 3

12、 100 9 7 1111110 4 3 101 10 8 11111110 5 3 110 11 9 111111110色度DC系數(shù)表分類分類碼長碼長碼字碼字分類分類碼長碼長碼字碼字 0 2 00 6 6 111110 1 2 01 7 7 1111110 2 2 10 8 8 11111110 3 3 110 9 9 111111110 4 4 1110 10 10 1111111110 5 5 11110 11 11 11111111110JPEG壓縮效果評價壓縮效果壓縮效果( (比特比特/ /象素象素) ) 質(zhì)質(zhì) 量量 0.250.50 中好 0.500.75 好很好 0.75

13、1.5 極好 1.22.0 與原始圖象分不出來3. 基于DCT的累進操作方式編碼 n順序方式: 每個圖象分量的編碼一次掃描完成的; 累進方式: 圖象分量編碼要經(jīng)過多次掃描才完成。n累進方式第一次掃描只進行一次粗糙圖象的掃描壓縮, 以相對于總的傳輸時間快得多的時間傳輸粗糙圖象, 并重建一幀質(zhì)量較低的可識別圖象; 在隨后的掃描中再對圖象作較細的壓縮, 這時只傳遞增加的信息,可重建一幅質(zhì)量提高一些的圖象。這樣不斷累進, 直到滿意的圖象為止。n需在量化器的輸出與熵編碼的輸入之間,增加一個足以存儲量化后DCT系數(shù)的緩沖區(qū),對緩沖區(qū)中存儲的DCT系數(shù)多次掃描, 分批編碼。n兩種累進方式：n頻譜選擇法掃

14、描中只對64個DCT變換系數(shù)中某些頻帶的系數(shù)進行編碼、傳送, 隨后對其它頻帶編碼、傳送, 直到全部系數(shù)傳送完畢為止。n 按位逼近法沿著DCT量化系數(shù)有效位方向分段累進編碼。如第1次掃描只取最高有效位的n位編碼、傳送, 然后對其余位進行編碼、傳送。4. 基于DCT的分層操作方式 n分層方式是對一幅原始圖象的空間分辨率,分成多個分辨率進行“錐形”的編碼方法,水平(垂直)方向分辨率的下降以2的倍數(shù)因子改變。分層操作方式分層操作方式的過程(1)把原始圖象空間分辨率降低。(2)對已降低分辨率的圖象采用基于DCT的順序方式、累進方式或無失真預測編碼中的任何一種編碼方法進行編碼。(3)對低分辨率的圖象解

15、碼,重建圖象,使用插值濾波器,對它插值,恢復圖象的水平和垂直分辨率。(4)把分辨率已升高的圖象作為原始圖象的預測值,對它們的差值采用基于DCT的順序方式、累進方式或用無失真方式進行編碼。(5)重復(3)、(4)直到圖象達到完整的分辨率編碼。 3.1.2 JPEG2000簡介n基于Internet的多媒體應(yīng)用給圖像編碼提出了新的要求. 2000年12月公布JPEG 2000標準(ISO 15444), 其目標是在高壓縮率情況下保證圖像傳輸質(zhì)量。nJPEG中采用DCT變換考察整個時域過程的頻域特征或整個頻域過程的時域特征。JPEG2000采用以小波變換為主的多分辨率編碼方式。 nJPEG2000統(tǒng)

16、一了面向靜態(tài)圖像和二值圖像的編碼方式, 是既支持低比率壓縮又支持高比率壓縮的通用編碼方式。 n該算法主要特點如下：(1)高壓縮率。與JPEG相比,可修復約30的速率失真特性。JPEG和JPEG2000在壓縮率相同時, JPEG2000的信噪比將提高30左右;(2)無損壓縮。預測編碼作為對圖像進行無損編碼的成熟方法被集成在JPEG2000中;(3)漸進傳輸。JPEG2000可實現(xiàn)以空間清晰度和信噪比為首的各種可調(diào)節(jié)性,從而實現(xiàn)漸進傳輸,即具有“漸現(xiàn)”特性.(4)感興趣區(qū)域壓縮。JPEG2000 支持所謂的“感興趣區(qū)域”。 3.2 運動圖像壓縮標準MPEG3.2.1 MPEG標準簡介nMPEG標準

17、是面向運動圖象壓縮的一個系列標準。n最初MPEG專家組工作項目是3個,即在1.5Mbps, 10Mbps,40Mbps傳輸速率下圖象編碼, 分別命名為MPEG-1,MPEG-2, MPEG-3。MPEG-3后被取消.n為了滿足不同的應(yīng)用要求, MPEG又將陸續(xù)增加其它一些標準MPEG-4,MPEG-7,MPEG-21。 nMPEG算法編碼過程和解碼過程是一種非鏡象對稱算法(不對稱), 解碼過程要比編碼過程相對簡單些。nMPEG-1和MPEG-2只規(guī)定了解碼的方案, 重點將解碼算法標準化。因而用硬件實現(xiàn)MPEG算法時, 人們首先實現(xiàn)MPEG的解碼器,如C-Cube公司CL450解碼器系列。n隨著

18、MPC性能提高,軟件解壓功能得到支持。3.2.2 MPEG-1系統(tǒng)n “用于數(shù)字存儲媒體運動圖象及其伴音速率為1.5Mbps的壓縮編碼”簡稱MPEG-1, 作為ISO/IEC 11172號建議于1992年通過。n主要用于在CD-ROM存儲運動視頻圖像, 它針對標準分辨率(NTSC制為352240; PAL制為352288)的圖像進行壓縮, 每秒30幀畫面, 具備CD音質(zhì)。n它還用于數(shù)字電話網(wǎng)絡(luò)上的視頻傳輸, 如非對稱數(shù)字用戶線路(ADSL)、視頻點播、教育網(wǎng)絡(luò)等。n使用MPEG-1的壓縮算法, 可將一部120分鐘長的電影壓縮到1.2GB左右。因此, 它被廣泛地應(yīng)用于VCD制作。 MPEG-1分

19、為5個部分(1)MPEG系統(tǒng)(11172-1), 定義音頻、視頻及有關(guān)數(shù)據(jù)的同步;(2)MPEG視頻(11172-2), 定義視頻數(shù)據(jù)的編碼和重建圖象所需的解碼過程,亮度信號分辨率為360240, 色度信號分辨率為180120;(3)MPEG音頻(11172-3), 定義音頻數(shù)據(jù)的編碼和解碼; (4)一致性測試(11172-4);(5) 軟件模擬(11172-5)。 MPEG-1解碼器原型 MPEG-1編解碼器原型:n多路復合而成的碼流假設(shè)以介質(zhì)特定格式存儲在數(shù)字存儲介質(zhì)(DSM)或網(wǎng)絡(luò)上, 標準不規(guī)定介質(zhì)特定格式。n系統(tǒng)解碼器從輸入多路復合流中抽取定時信息,并對輸入流進行分流處理, 輸出兩個

20、基本流分別給視頻和音頻解碼器。n視頻和音頻解碼器分別解碼輸出視頻和聲音信號。 n系統(tǒng)、視頻、音頻和介質(zhì)4個解碼器之間用定時信息進行同步。n多路復合流構(gòu)造為2層: 系統(tǒng)層和壓縮層。系統(tǒng)解碼輸入的是系統(tǒng)層; 而視頻、音頻解碼器輸入的是壓縮層。 n系統(tǒng)解碼器執(zhí)行兩類操作:n一類是作用在整個多路復合流上的操作,稱為復合流操作;n另一類是作用在單個基本流上的操作,稱為特定流操作。n系統(tǒng)層分為兩個子層:n一個子層稱為包(pack),是復合流操作對象;n另一個子層稱為組(packet),它用于特定流操作。 MPEG音頻標準的特點:n音頻信號采樣率可以是32KHz,44.1KHz或48KHz。n壓縮后的比特流

21、可以按以下4種模式之一支持單聲道或雙聲道:n提供給單音頻通道的單聲道模式；n提供給兩個獨立的單音頻通道的雙-單聲道模式；n提供給立體聲通道的立體聲模式；n聯(lián)合立體聲模式,利用立體聲通道之間的關(guān)聯(lián)或通道之間相位差的無關(guān)性,或者對兩者同時利用。 nMPEG音頻標準提供3個獨立的壓縮層次,用戶可在復雜性和壓縮質(zhì)量之間權(quán)衡選擇。n層1最簡單,使用比特率384Kbps,主要用于DCC; n層2的復雜度中等,使用比特率192Kbps左右, 主要應(yīng)用于數(shù)字廣播的音頻編碼、CD-ROM上的音頻信號以及CD-I和VCD。 n層3最為復雜,使用比特率64Kbps,尤其適用于ISDN上的音頻傳輸,有損壓縮但音質(zhì)保持

22、逼真效果。MP3音樂是利用 MPEG Audio Layer 3 的技術(shù), 聲音采用 1:10 甚至 1:12 的壓縮率 n壓縮后的比特流具有預定義的比特率之一。MPEG音頻標準也支持用戶使用預定義的比特率之外的比特率。 n編碼后的比特流支持循環(huán)冗余校驗(CRC)。nMPEG音頻標準還支持在比特流中載帶附加信息。3.2.3 MPEG視頻數(shù)據(jù)流的結(jié)構(gòu) 運動圖象序列圖片組圖片圖片切片宏塊塊8象素8象素 MPEG-1數(shù)據(jù)結(jié)構(gòu) n運動序列 n圖象組 n圖象信號分3個部分: 一個亮度信號Y和兩個色度信號U、V。亮度信號Y由偶數(shù)個行和偶數(shù)個列組成, 色度信號U、V分別取Y信號在水平、垂直方向的1/2。如

23、圖所示, 黑點代表色度U、V位置,亮度Y位置用白圈表示。色度和亮度的位置關(guān)系 n塊: 一個塊由一個88的亮度信息或色度信息組成。n宏塊一個宏塊由一個1616的亮度信息和兩個88色度信息構(gòu)成，如圖所示。n圖象切片由一個或多個連續(xù)的宏塊構(gòu)成。 YUV8X88X8123456宏塊的組成 3.2.4 MPEG-1視頻編碼技術(shù) n主要問題:一方面無法達到很高的壓縮比，另一方面用單一的靜止幀內(nèi)編碼方法能最好地滿足隨機存取的要求。n解決方法：對這兩個方面做了折衷考慮。即為了減少時間上冗余性的基于塊的運動補償技術(shù)和基于DCT變換的減少空間上冗余性的ADCT技術(shù) n在MPEG中將圖象分為3種類型：nI圖象利

24、用圖象自身的相關(guān)性壓縮, 提供壓縮數(shù)據(jù)流中的隨機存取的點.nP圖象用最近的前一個I圖象(或P圖象)預測編碼得到(前向預測)。nB圖象 B圖象在預測時, 既可使用了前一個圖象作參照, 也可使用下一個圖象做參照或同時使用前后兩個圖象作為參照圖象(雙向預測)。幀間預測1I2B3B4B5P6B7B8B1I前向預測雙向預測 1秒?yún)⒄諑g有2個B圖象每0.5秒1幀I圖象 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30I B B P B B P B B P B B P B B I B B

25、P B B P B B P B B P B B典型的圖象類型的顯示次序運動序列流的組成傳輸順序nMPEG編碼器需對上述圖象重新排序, 以便解碼器高效工作, 因為參照圖象必須先于B圖象恢復之前恢復。上述17幀圖象重排后圖象組次序為：4213756IPBBPBB運動補償技術(shù)n運動補償技術(shù): 用于消除P圖象和B圖象在時間上的冗余性提高壓縮效率。 MPEG中,運動補償技術(shù)工作在宏塊一級。nB圖象宏塊有4種類型幀內(nèi)宏塊, 簡稱I塊；前向預測宏塊, 簡稱F塊；后向預測宏塊, 簡稱B塊；平均宏塊, 簡稱A塊。n對于P圖象, 其宏塊只有I塊和F塊兩種。 n無論B圖象和P圖象,I塊處理技術(shù)都與I圖象中

26、采用技術(shù)一致即ADCT技術(shù)。n對于F塊、B塊和A塊,MPEG都采用基于塊的運動補償技術(shù)。nF塊預測時其參照為前一個I圖象或P圖象nB塊預測時其參照為后一個I圖象或P圖象n對于A塊預測其參照為前后兩個I圖象或P圖象基于塊的運動補償技術(shù)n基于塊的運動補償技術(shù),就是在其參照幀中尋找符合一定條件,當前被預測塊的最佳匹配塊。n找到匹配塊后,有兩種處理方法：n一是在恢復被預測塊時,用匹配塊代替；n二是對預測的誤差采用ADCT技術(shù)編碼,在恢復被預測塊時,用匹配塊加上預測誤差。宏塊的預測方式宏塊類型宏塊類型預測器預測器預測誤差預測誤差I(lǐng)塊I1(X)=128I1(X)-I1(X)F塊I1(X)= I0(X+ m

27、v01)I1(X)-I1(X)B塊I1(X)= I2(X+ mv21)I1(X)-I1(X)A塊I1(X)= (I0(X+ mv01)+I2(X+ mv21)/2I1(X)-I1(X)MPEG-1視頻系統(tǒng) 簡化的視頻編碼框圖基本的視頻解碼器框圖 3.2.5 MPEG-2標準nMPEG-2(ISO/IEC 13818)標準制定于1994年。它利用網(wǎng)絡(luò)3100Mbps的數(shù)據(jù)傳輸率來支持具有更高分辨率圖象的壓縮和更高的圖象質(zhì)量。nMPEG-2可支持交迭圖象序列,支持可調(diào)節(jié)性編碼,多種運動估計方式,提供一個較廣的范圍改變壓縮比,以適應(yīng)不同畫面質(zhì)量、存儲容量和帶寬的要求。n它與MPEG-1兼容基礎(chǔ)上實

28、現(xiàn)了低碼率和多聲道擴展：MPEG-2可以將一部120分鐘長的電影壓縮到48GB(DVD質(zhì)量),其音頻編碼可提供左右中及兩個環(huán)繞聲道、一個加重低音聲道和多達7個伴音聲道。 n除了作為DVD指定標準外，MPEG-2還可用于為廣播、有線電視網(wǎng)、電纜網(wǎng)絡(luò)等提供廣播級數(shù)字視頻. nMPEG-2 Video 定義了不同的功能檔次(Profiles)n每個檔次又分為幾個等級(Levels),一個等級為N的解碼器能夠?qū)ψ罡邽樵摰燃壍臄?shù)碼流解碼。 5個檔次簡單型（Simple）基本型（Main）信噪比可調(diào)型（SNR Scalable）空間可調(diào)型（Spatial Scalable）增強型（High） 4

29、個等級低級（Low） 35228830, 它面向VCR并與MPEG-1兼容；基本級（Main） 72046030或72057625，它面向視頻廣播信號；高1440級（High-1440） 1440108030或1440115225，它面向HDTV；高級（High） 1920108030或1920115225，它面向HDTV。 11種規(guī)范高級的基本型 MPHL高級的增強型 HPHL高-1440級的基本型 MPH1440高-1440級的空間可調(diào)型 SSPH1440高-1440級的的增強型 HPH1440基本級的簡單型 SPML基本級基本型 MPML基本級的信噪比可調(diào)型 SNPML基本級的增

30、強型 HPML低級的基本型 MPLL低級的信噪比可調(diào)型 SNPLLMPEG-2音頻n基本特性之一是向后與MPEG-1音頻兼容。n可以是5.1也可以是7.1通道的環(huán)繞立體聲。n5.1也稱為“3/2-立體聲加LFE”,其含義是播音現(xiàn)場前面可有3個喇叭通道(左、中、右),后面可有2個環(huán)繞聲喇叭通道。LFE是低頻音效加強通道。n7.1通道環(huán)繞立體聲與5.1類似,它另有中左、中右2個喇叭通道。MPEG-2編碼方法 nMPEG-2的編碼方法和MPEG-1區(qū)別主要是在隔行掃描制式下, DCT變換是在場內(nèi)還是在幀內(nèi)進行由用戶自行選擇, 亦可自適應(yīng)選擇。n一般情況下, 對細節(jié)多、運動部分少的圖象在幀內(nèi)進行DCT

31、, 而細節(jié)少、運動分量多的圖象在場內(nèi)進行DCT。 nMPEG-2采用可調(diào)型和非可調(diào)型兩種編碼結(jié)構(gòu)。還可以使用一個基本層加上多個增強型的多層編碼結(jié)構(gòu),這由用戶按質(zhì)量和壓縮比要求選擇使用.MPEG-2亮度宏塊結(jié)構(gòu) 空間可調(diào)型MPEG-2編碼器原理框圖3.2.6 MPEG-4標準nMPEG-4“甚低速率視聽編碼”1998年11月公布, 它針對低速率視音頻編碼,更加注重系統(tǒng)交互性和靈活性。nMPEG-4引入了AV對象(AVO), 使得更多的交互操作成為可能：“AV對象”可以是一個孤立的人,也可以是這個人的語音或一段背景音樂等。 nMPEG-4對AV對象的操作主要有：采用AV對象來表示聽覺、視覺或者視

32、聽組合內(nèi)容；組合已有AV對象來生成復合的AV對象，并生成AV場景；對AV對象的數(shù)據(jù)靈活地多路合成與同步，以便選擇合適的網(wǎng)絡(luò)來傳輸這些AV對象數(shù)據(jù)；允許接收端用戶在AV場景中對AV對象進行交互操作等。 nMPEG-4標準主要構(gòu)成部分標準主要構(gòu)成部分：(1)傳輸多媒體集成框架傳輸多媒體集成框架(DMIF)。主要用于解決交互網(wǎng)絡(luò)中、廣播環(huán)境下以及光盤應(yīng)用中多媒體應(yīng)用操作問題。它是MPEG-4制訂會話協(xié)議,用來管理多媒體數(shù)據(jù)流。通過傳輸多路合成比特信息來建立客戶端和服務(wù)器端的連接與傳輸。(2)場景描述場景描述。場景聲音視頻對象間的關(guān)系的描述體現(xiàn)在兩個層次：BIFS描述場景中對象的空間時間安排,觀

33、察者可以有與這些對象交互的可能性；在較低的層次上,對象描述子定義針對每個對象的基本流的關(guān)系，并提供諸如訪問基本流需要的URL地址、譯碼器的特性、知識產(chǎn)權(quán)等其它信息。 MPEG-4具備與Web3D X3D和W3C SMIL的互操作性。XMT格式可在SMIL播放器、VRML 和 MPEG-4 播放器間互換。(3)音頻編碼。音頻編碼。MPEG-4不僅支持自然聲音,而且支持合成聲音。MPEG-4的音頻部分將音頻的合成編碼和自然聲音的編碼相結(jié)合,并支持音頻的對象特征。支持MIDI和TTS.(4)視頻編碼視頻編碼。MPEG-4也支持對自然和合成的視覺對象的編碼。合成的視覺對象包括2D、3D動畫和人面部表情

34、動畫等。(5)緩沖區(qū)管理和實時解碼緩沖區(qū)管理和實時解碼。MPEG-4定義了一個系統(tǒng)解碼模式(SDM), 該解碼模式描述了一種理想的處理比特流句法語義的解碼裝置,它要求特殊的緩沖區(qū)和實時模式。通過有效地管理,可以更好地利用有限的緩沖區(qū)空間。 n與MPEG-1和2相比,MPEG-4更適于交互AV服務(wù)以及遠程監(jiān)控,其設(shè)計目標使它具有更廣適應(yīng)性和可擴展性：傳輸速率可在4.8-64kbps之間,分辨率為176144, 可以利用很窄帶寬通過幀重建技術(shù)壓縮和傳輸數(shù)據(jù)。n它將應(yīng)用在數(shù)字電視、動態(tài)圖像、互聯(lián)網(wǎng)、實時多媒體監(jiān)控、移動多媒體通信、Internet/Intranet上的視頻流與可視游戲、DVD上的交互

35、多媒體等方面。nMPEG-4用MPEG-4壓縮算法的ASF可以將120分鐘的電影壓縮為300MB左右的視頻流；采用MPEG-4壓縮算法的DIVX編碼技術(shù)可以將120分鐘的電影壓縮600MB左右，也可以將一部 DVD影片壓縮到 2 張 CD-ROM上. nMPEG-4屬于一種高比率有損壓縮算法,其圖像質(zhì)量始終無法和DVD的MPEG-2相比, 畢竟DVD的存儲容量較大。n要想保證高速運動的圖像畫面不失真, 必須有足夠的碼率,目前MPEG-4的碼率雖然可以調(diào)到和DVD差不多,但總體效果還有不小的差距。因此, 對圖像質(zhì)量要求較高的專業(yè)視頻領(lǐng)域暫時還不能采用。MPEG-4視頻編碼器的算法方框圖 MPEG

36、-4終端的構(gòu)成(接收端) MPEG-4應(yīng)用實例背景全景圖+視頻對象(VO)=合成圖象 3.3 視聽通信編碼解碼標準H.26X 3.3.1 H.261nITU推薦H.261方案標題“64Kbps視聲服務(wù)用視象編碼方式”, 又稱為P64Kbps視頻編碼標準。視頻編碼標準。nP 取值范圍為 1 - 3 0 。 P = 1 或 2 時 , 僅能支持QCIF(176144)分辨率格式, 每秒幀數(shù)較低的可視電話 ; 當 P 6 時 , 則可支持圖象分辨率格式為CIF(352288)的電視會議。nP64Kbps壓縮算法采用基于DCT的變換編碼和帶有運動預測的DPCM預測編

37、碼的混合方法。nP64Kbps標準的壓縮算法與MPEG-1標準有許多共同之處, 只是傳輸速率P64Kbps覆蓋較寬的信道頻帶, 而MPEG-1是基于較窄的頻帶上傳輸。 H.261編碼器利用CIF的優(yōu)點3.3.2 視頻層次數(shù)據(jù)結(jié)構(gòu) nP64Kbps標準采用層次塊的視頻數(shù)據(jù)結(jié)構(gòu)形式, 使高壓縮視頻編碼算法得以實現(xiàn)。nP64Kbps標準的視頻編碼定義一個視頻數(shù)據(jù)結(jié)構(gòu)CIF保證解碼器對接收到的比特流進行沒有二義性的正確解碼。n利用CIF格式, 可使不同制式的各國電視信號變換為統(tǒng)一的中間格式, 然后輸入給編碼器, 從而使編碼器本身不必意識信號是來自哪種制式的。nH.261標準適合各種各樣實時視覺應(yīng)用,

38、如位率不同(P不同), 運動效果和圖象質(zhì)量不同,位率提高、畫面質(zhì)量改善。圖像頭QCIF幀圖塊組1塊組2塊組3塊組1頭宏塊1宏塊2宏塊33宏塊1頭亮度塊1亮度塊4色度塊1色度塊2DCT系數(shù)DCT系數(shù)塊結(jié)束視頻數(shù)據(jù)結(jié)構(gòu)圖圖象數(shù)據(jù)層次結(jié)構(gòu) 123456789101112135幀QCIF123456789101112131415161718192021222324252627282930313233塊組123456宏塊88CIF塊 n為了適應(yīng)B-ISDN ATM傳輸需要, ITU與MPEG聯(lián)合發(fā)布ISO/IEC 13818, 分別稱為H.262和MPEG-2標準, 它與H.261和MPEG-1兼容。

39、 nH.263是ITU-T制定的適合于低速視頻信號壓縮標準。大多數(shù)用戶最方便的是公用電話線, 以V.34為標準的調(diào)制解調(diào)器支持在電話線中傳輸速率可達28.8kbps或33.6kbps, 甚至56kbps.n與MPEG-4基于對象編碼不同,H.263采用基于幀編碼.nH.263是在H.261基礎(chǔ)上擴展形成的, 支持的圖象格式包括Sub-QCIF(12896), QCIF, CIF, 4CIF, 16CIF (14081152)等。其中主要采用的改進技術(shù)有：2.5.3 H.263標準 (1)(1)半象素精度的運動補償半象素精度的運動補償在H.261中,運動矢量的精度為1個象素, H.263運動矢

40、量的估值精度達到半個象素。精度的提高使運動補償后的幀間誤差減少,從而降低了碼率。(2)(2)不受限的運動矢量不受限的運動矢量當運動跨越圖象邊界時, 由運動矢量所確定的宏塊位置可能有一部分落在邊界之外, 此時可以用邊界上的象素值表示界外的象素值,從而降低預測誤差。(3) (3) 用基于句法的算術(shù)編碼代替用基于句法的算術(shù)編碼代替HuffmanHuffman編碼編碼(可選項) 這是一種效率較高的自適應(yīng)算術(shù)編碼。 ( (4) 4) 先進的預測模式先進的預測模式( (可選項可選項) ) 對宏塊中的4個亮度塊分別進行運動估值獲得4個運動矢量。雖然此時傳輸運動矢量的比特數(shù)增加一些,但由于預測誤差的大幅度降

41、低,仍然使總碼率降低。(5) PB(5) PB幀模式幀模式( (可選項可選項) ) 雖然使用雙向預測B幀可以降低碼率, 但卻要引入附加的編碼延時和解碼延時.為降低延時, H.263采用了P幀和B幀作為一個單元來處理的方式, 即將P幀和由該幀與上一個P幀所共同預測的B幀一起進行編碼。 2.5.4 H264/AVC標準nITU-T和ISO/IEC聯(lián)合開發(fā)組共同開發(fā)的最新標準，同等質(zhì)量下壓縮效率比提高了2倍以上。nH.264最大的技術(shù)優(yōu)勢體現(xiàn)在4個方面： 1）將每個視頻幀分離成由像素組成的塊，因此視頻幀的編碼處理的過程可以達到塊的級別。 2）采用空間冗余方法，對視頻幀一些原始塊進行空間預測、轉(zhuǎn)換、優(yōu)

42、化和熵編碼。 3）對連續(xù)幀的不同塊采用臨時存放的方法，這樣只需對連續(xù)幀中有改變的部分進行編碼。 4）采用剩余空間冗余技術(shù),對視頻幀里殘留塊進行編碼。對源塊和相應(yīng)預測塊不同,再次采用轉(zhuǎn)換、優(yōu)化和熵編碼。 nH.264是保留了以往壓縮技術(shù)的長處又具有其它壓縮技術(shù)無法比擬的許多優(yōu)點。 1）低碼流：采用H.264技術(shù)壓縮后的數(shù)據(jù)量只有MPEG-2的1/8, MPEG-4的1/3。 2）高質(zhì)量的圖像：H.264能提供連續(xù)、流暢的高質(zhì)量圖像（DVD質(zhì)量）。 3）容錯能力強：H.264提供了解決在不穩(wěn)定網(wǎng)絡(luò)環(huán)境下容易發(fā)生的丟包等錯誤的必要工具。 4）網(wǎng)絡(luò)適應(yīng)性強：H.264提供了網(wǎng)絡(luò)適配層 , 使得H.26

43、4的文件能容易地在不同網(wǎng)絡(luò)上傳輸(例如互聯(lián)網(wǎng), CDMA, GPRS, WCDMA, CDMA2000等)。 3.4 AVS標準nAVS標準是信息技術(shù)-先進音視頻編碼系列標準的簡稱，它包括9個部分：系統(tǒng)(第1部分)、視頻(第2部分)、音頻(第3部分)、數(shù)字版權(quán)管理(第6部分)技術(shù)標準、一致性測試(第4部分)、參考軟件(第5部分)、移動視頻(第7部分)、系統(tǒng)知識產(chǎn)權(quán)IP(第8部分)、文件格式(第9部分)等支撐標準。n2006年2月22日，國家標準化管理委員會頒布通知：信息技術(shù)-先進音視頻編碼第2部分視頻（GB/T 20090.2）于2006年3月1日起開始實施。標準其他部分將繼續(xù)開展工作, 陸續(xù)

44、進入標準報批和審核程序。n我國具備自主知識產(chǎn)權(quán)的第二代信源編碼標準，它是數(shù)字音視頻產(chǎn)業(yè)的共性基礎(chǔ)標準。nAVS標準具備先進性、自主性、開放性。nAVS是基于我國創(chuàng)新技術(shù)和部分公開技術(shù)的自主標準，技術(shù)方案簡潔,芯片實現(xiàn)復雜度低,達到第2代標準最高水平；nAVS通過簡潔的一站式許可政策，解決了AVC專利許可問題死結(jié)，制定過程開放、國際化，是開放式制訂的國家、國際標準，易于推廣；nAVC僅是一個視頻編碼標準,而AVS是一套包含系統(tǒng)、視頻、音頻、媒體版權(quán)管理在內(nèi)的完整標準體系，為數(shù)字音視頻產(chǎn)業(yè)提供更全面的解決方案。2.5 聲音壓縮標準 3.5.1 聲音編碼 n聲音包括語音和音樂, 是多媒體系統(tǒng)中兩類重

45、要數(shù)據(jù)。n聲音數(shù)據(jù)表征是一個一維時變系統(tǒng),特別對于語音數(shù)據(jù),人們已經(jīng)找到了較合理的聲道模型,因此聲音數(shù)據(jù)的壓縮要比圖象數(shù)據(jù)的壓縮容易。 n統(tǒng)計表明,語音過程是一個近似的短時平穩(wěn)隨機過程. 短時是指在1030ms的范圍。n由于語音信號的這一性質(zhì),使得我們有可能將語音信號劃分為一幀一幀進行處理,每一幀內(nèi)的信號近似地滿足同一模型這是本方法假設(shè)的基本前提。n在實用中,一般一幀的寬度為20ms。 n語音的基本參數(shù)包括n基音周期n共振峰n語音譜n聲強。語音生成機構(gòu)的模型語音生成機構(gòu)的模型n語音生成機構(gòu)的模型由3部分組成 n聲源n共鳴機構(gòu) n放射機構(gòu) n聲源共有3類: 元音、摩擦音、爆破音。n共鳴機構(gòu) 也

46、稱聲道,由鼻腔、口腔與舌頭組成。n放射機構(gòu) 由嘴唇和鼻孔組成,是功能是發(fā)出聲音并傳播出去。語音生成機構(gòu)的數(shù)字模型模型的描述n與此語音生成機構(gòu)模型相對應(yīng)的聲源由基音周期參數(shù)描述, 聲道由共振峰參數(shù)描述, 放射機構(gòu)則由語音譜和聲強描述。nDPCM,ADPCM等波形預測技術(shù)是音樂和實時語音數(shù)據(jù)壓縮技術(shù)的主要方法。n雖然該方法與基于語音識別的方法和基于參數(shù)分析合成的方法相比有壓縮能力差的缺點, 但算法簡單,容易實現(xiàn), 以及能夠較好地保持原有聲音的特點等優(yōu)點, 因而在語音數(shù)據(jù)壓縮的標準化推薦方案中最先被考慮。 n參數(shù)編碼的壓縮率很大, 但計算量大, 保真度不高, 適合語音信號的編碼。n混合編碼介于波形編碼和參數(shù)編碼之間, 集中了兩者優(yōu)點。2.5.2 ITU語音標準化方案 n16Kbps ITU語音標準化方案G.728 n32Kbps ITU語音標準化方案G.721 n64Kbps ITU語音標準化方案G.722 1. 16Kbps語音標準化方案G.728 n使用領(lǐng)域統(tǒng)一在包括可視電話、數(shù)字移動通信、無繩電話、衛(wèi)星通信、DCME、ISDN等范圍內(nèi)。n對于以

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

多媒體技術(shù)原理及應(yīng)用(馬華東第二版)3第三章

文檔簡介

溫馨提示

最新文檔

評論

多媒體技術(shù)原理及應(yīng)用(馬華東第二版)3第三章

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔