第8講多媒體數(shù)據(jù)壓縮

上傳人：7*** IP屬地：湖北上傳時間：2022-03-27 格式：PPTX 頁數(shù)：67 大?。?20.80KB 積分：28 舉報 版權申訴

已閱讀5頁，還剩62頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、8.1 多媒體數(shù)據(jù)壓縮概述8.2 多媒體數(shù)據(jù)壓縮方法8.3 多媒體數(shù)據(jù)壓縮編碼的標準多媒體數(shù)據(jù)量很大，需要進行壓縮處理，而多媒體數(shù)據(jù)本身存在很大的冗余度，使其可以被壓縮。8.1.1 多媒體數(shù)據(jù)壓縮的必要性8.1.2 多媒體數(shù)據(jù)壓縮的可能性8.1.3 多媒體數(shù)據(jù)壓縮的相關問題多媒體應用中涉及到的媒體有文字、圖形、圖像、音頻、動畫、視頻等。其中文字的數(shù)據(jù)量較小，一本書的文本文件大概只要幾百字節(jié)；圖形文件的數(shù)據(jù)量和其表達內(nèi)容以及文件格式等相關，數(shù)據(jù)量通常大于文字媒體；計算機制作的動畫通常是基于兩種格式，一種是基于矢量格式的，一種是基于點陣格式，基于矢量格式的動畫的數(shù)據(jù)量小于基于點陣格式的動畫；絕大部

2、分的媒體如圖像、音頻及視頻的數(shù)據(jù)量都非常大，表8-1列舉了一些多媒體數(shù)據(jù)的數(shù)據(jù)量。以多媒體視頻為例，如果圖像的分辨率為640像素 480像素，每個像素使用三個字節(jié)（即24位）來存儲，采用PAL制傳輸，即幀頻為25幀/秒，那么一秒的數(shù)據(jù)量大約是176MB，普通的容量為650MB左右的CD-ROM光盤，只能存儲不到30秒的數(shù)據(jù)，而且傳輸速率為176Mbit/s，普通網(wǎng)絡的帶寬很難承受。由此可見，多媒體應用中面對著存儲和傳輸兩個問題，對于這兩個問題，可以從硬件和軟件兩個方面來解決。在硬件方面，隨著計算機技術的發(fā)展，存儲介質(zhì)的容量、傳輸速率以及系統(tǒng)和網(wǎng)絡的傳輸速度都在不斷提高，但硬件在發(fā)展，多媒體應用

3、的需求也在發(fā)展，現(xiàn)在硬件發(fā)展的速度和程度仍然不能和當前多媒體應用的需求相匹配。所以，面對數(shù)字化了的音頻、視頻信號巨大的數(shù)據(jù)量，單靠硬件技術的提高是不夠的，對媒體數(shù)據(jù)的壓縮才是最終的解決方案。所謂壓縮就是把媒體的數(shù)據(jù)量變小，然后再進行存儲和傳輸，當應用時再從數(shù)據(jù)量小的文件中恢復回原來的媒體表達。多媒體數(shù)據(jù)必須進行壓縮才可以解決多媒體數(shù)據(jù)的存儲和傳輸問題，才可以有效地利用有限資源，節(jié)省存儲空間，提高傳輸效率。多媒體數(shù)據(jù)之所以能夠被壓縮，主要基于兩個原因，一是由于人的視覺和聽覺的生理局限性；二是由于音頻、圖像、視頻等數(shù)據(jù)的冗余度很大，具有很大的壓縮潛力。下面分別討論。1感官的生理局限性2多媒體數(shù)據(jù)的

4、冗余人類的聽覺和視覺等感覺器官受人體機能的限制，具有一定的局限性。（1）聽覺局限性：主要表現(xiàn)在三個方面，一是人的聽覺具有掩蔽效應，強弱不同的聲音同時存在時，強聲會使弱聲難以被聽見；二是人耳對不同頻段的聲音敏感程度不同，通常對低頻信號更敏感些；三是人耳對語音信號相位變化不敏感。（2）視覺局限性：主要表現(xiàn)在兩個方面，一是人類視覺的掩蓋效應，對圖像場的某些變化感覺不靈敏；二是視覺系統(tǒng)的色彩分辨能力有限，一般只有6位灰度級，一個真彩系統(tǒng)可以表達16777216種不同顏色，而一個專家能識別的顏色也就只有幾百種，通常說來人類對圖像色彩的感知能力遠不如對亮度的感知能力。音頻、圖像、視頻這些多媒體數(shù)據(jù)最終是

5、要由人類的感覺器官來感知的，因此對多媒體數(shù)據(jù)的記錄和存儲要充分利用聽覺系統(tǒng)和視覺系統(tǒng)的特點，對于人的感官感覺不到的信息或不敏感的信息可以進行必要的舍棄，避免做無用功。除了人的感官方面的局限性之外，實際上圖像、音頻和視頻數(shù)據(jù)本身也具有很大的冗余性。（1）空間冗余（2）時間冗余（3）統(tǒng)計冗余（4）結(jié)構(gòu)冗余（5）知識冗余（1）空間冗余：一幅靜態(tài)圖像中，物體和背景的表面顏色常常具有空間連貫性，如一堵白墻的圖像，盡管上面可能掛著其他東西需要存儲，但是整個墻的背景顏色都是白色，如果存儲每一個白點，就會造成極大的浪費。即使像素塊不是由同一種顏色構(gòu)成的，但一個點的顏色值和周圍點的平均值離得較遠的概率比靠得較近

6、的概率小得多。這些相關性在數(shù)字化圖像中就表現(xiàn)為空間冗余。空間冗余是靜態(tài)圖像存在的最主要的數(shù)據(jù)冗余形式。（2）時間冗余：音頻和視頻數(shù)據(jù)是一連續(xù)的漸變過程，而不是一個完全在時間上獨立的過程，因而存在時間冗余。音頻相鄰采樣點數(shù)據(jù)的幅度值很相近，視頻圖像序列中的兩幅相鄰的圖像中，后一幅圖像與前一幅圖像之間往往有較大的相關性，動畫中的相鄰兩幀有時幾乎相同，這都是一種時間冗余。（3）統(tǒng)計冗余：數(shù)據(jù)中進行編碼中各種符號的出現(xiàn)頻率不同，如果給每一種符號相同的存儲位數(shù)，這樣也會產(chǎn)生冗余，叫統(tǒng)計冗余。（4）結(jié)構(gòu)冗余：有些圖像中一些區(qū)域的“條紋”較密，沒有“通?！钡目臻g冗余，但從大的區(qū)域上看存在著非常強的紋理結(jié)構(gòu)，

7、例如布紋圖像和草席圖像等。（5）知識冗余：有許多圖像的理解與某些基礎知識有相當大的相關性。例如，人臉的圖像有固定的結(jié)構(gòu)，嘴的上方有鼻子，鼻子的上方有眼睛，鼻子位于正面圖像的中線上等。這類規(guī)律性的結(jié)構(gòu)可由先驗知識和背景知識得到，此類冗余被稱為知識冗余。1壓縮的本質(zhì)2壓縮和解壓縮3壓縮的衡量標準通過對多媒體數(shù)據(jù)壓縮的必要性和可能性的討論可知，數(shù)字多媒體信息對數(shù)據(jù)傳輸和數(shù)據(jù)存儲構(gòu)成了巨大的壓力，因此必須進行壓縮，而由于多媒體數(shù)據(jù)本身具有冗余的數(shù)據(jù)，因此多媒體數(shù)據(jù)有可能被壓縮。數(shù)據(jù)壓縮就是按照某種方法從給定的數(shù)字信號（如音頻、圖像、視頻）中推出簡化的數(shù)據(jù)表述，從而降低數(shù)據(jù)量的過程，這個過程也被稱為數(shù)據(jù)

8、編碼。多媒體數(shù)據(jù)壓縮的目的是為了最有效地利用有限的存儲器資源、信道資源和計算資源等。數(shù)據(jù)壓縮的本質(zhì)就是去掉數(shù)字信號數(shù)據(jù)中的冗余數(shù)據(jù)，減小數(shù)據(jù)量。當然，這種數(shù)據(jù)的壓縮并不是無限度地減小數(shù)據(jù)量，因為壓縮文件在應用時還要恢復原始數(shù)據(jù)，所以必須保證壓縮的文件能被恢復。在多媒體技術中，不需要把信號完全無損地恢復，但要能保存原來數(shù)據(jù)的關鍵信息。因此，多媒體技術中壓縮的任務是保持源信號在一個可以接受的前提下把需要的比特數(shù)減到最少程度，即用盡可能少的比特數(shù)來表示源信號并能將其還原。數(shù)據(jù)壓縮就是去掉信號數(shù)據(jù)的冗余性，也稱為數(shù)據(jù)編碼。與此對應，數(shù)據(jù)壓縮的逆過程稱為數(shù)據(jù)解壓縮，簡稱為數(shù)據(jù)解碼。壓縮的多媒體數(shù)據(jù)需要解

9、壓縮才能使用，圖8-1表達了多媒體數(shù)據(jù)壓縮和解壓縮的過程。按壓縮和解壓縮算法耗費代價的不同，可以把多媒體應用分為對稱應用和非對稱應用。在對稱應用中編碼和解碼代價應基本相同，如視頻會議系統(tǒng)，數(shù)據(jù)在各個終端被壓縮和解壓縮，此時要求壓縮和解壓縮所耗費的時間和資源基本相當；在非對稱應用中，解碼過程比編碼過程耗費的代價要小，例如網(wǎng)絡視頻系統(tǒng)，它的數(shù)據(jù)壓縮的過程僅一次，采樣的時間不限，而解壓縮經(jīng)常用到并需要迅速完成，因此實時解碼成為基本要求，而編碼所需的時間則不限。衡量一個壓縮技術的好壞，有如下四個標準。（1）壓縮比要大，即壓縮前后所需的信息存儲量之比要大，使數(shù)據(jù)盡可能地被壓縮。（2）恢復效果要好。要盡

10、可能地恢復原始數(shù)據(jù)。（3）壓縮、解壓速度快，即實現(xiàn)壓縮的算法要簡單，盡可能地做到實時壓縮、解壓。在不對稱應用中，解壓速度的提高顯得更為重要。（4）壓縮及解壓的成本盡可能小，即實現(xiàn)壓縮和解壓縮的軟硬件開銷要盡可能小。事實上，一種壓縮算法或壓縮標準，不可能同時達到以上四個要求，因此常常根據(jù)應用的不同選擇盡可能適用的壓縮方法，即在壓縮能力、實現(xiàn)復雜性與成本等方面進行平衡與折中。8.2.1 壓縮方法分類8.2.2 RLE編碼8.2.3 統(tǒng)計編碼8.2.4 預測編碼8.2.5 變換編碼多媒體數(shù)據(jù)壓縮方法根據(jù)不同的標準有多種分類方法，例如從壓縮算法的原理上可以分為統(tǒng)計壓縮編碼、變換壓縮編碼、預測壓縮

11、編碼、模型壓縮編碼等；從壓縮面向的對象上可以分為針對音頻的壓縮編碼（如波形編碼、參數(shù)編碼）和針對視頻的壓縮編碼（如幀內(nèi)壓縮編碼技術、幀間壓縮編碼技術）等，根據(jù)算法是否自適應分為自適應壓縮編碼和非適應性壓縮編碼等；根據(jù)數(shù)據(jù)質(zhì)量有無損失分為有損壓縮編碼和無損壓縮編碼。在實際應用中往往是采用多種不同方法對原始數(shù)據(jù)進行綜合壓縮編碼，反復壓縮，以取得較高的壓縮率，這種綜合壓縮編碼方式統(tǒng)稱為混合編碼。根據(jù)質(zhì)量有無損失分類方式涵蓋了所有的多媒體壓縮方法，即所有的壓縮方法必然可以歸入這兩種類型中的一種。從信息論的觀點看，描述信源的數(shù)據(jù)是信息量和信息冗余量之和。在壓縮過程中，去掉冗余數(shù)據(jù)，減少數(shù)據(jù)量但并不減少信

12、息量，解壓縮時仍可原樣恢復數(shù)據(jù)，這樣的壓縮就是無損壓縮，也被稱為冗余壓縮法。因為無損壓縮是可逆的，因此也被稱為可逆壓縮法。如果在壓縮過程中不但減少了數(shù)據(jù)量，同時數(shù)據(jù)的信息量也減少了，此時解壓縮后數(shù)據(jù)則不能完全恢復，只能近似地恢復，這種壓縮方法被稱為有損壓縮或不可逆壓縮法。在信息論中，平均信息量定義為熵，因此無損壓縮方法也被稱為熵編碼法，而有損壓縮方法也被稱為熵壓縮法。無損的壓縮常用于原始數(shù)據(jù)的存檔、應用軟件壓縮以及專業(yè)數(shù)據(jù)的精密處理，例如醫(yī)療圖像讀取和解析、衛(wèi)星數(shù)據(jù)判讀等。而有損壓縮通常用于普通音頻和視頻的壓縮，人類的視覺和聽覺器官對音頻和視頻中某些信息不大敏感，有損壓縮以犧牲這部分信息為代價

13、，換取了較高的壓縮比。實驗證明，一般情況下?lián)p失的部分信息對理解原圖像或聲音基本沒有影響，即有損壓縮丟失的信息對用戶來說并不重要，用戶感覺不到，因此這部分信息可以忽略。常用的無損壓縮方法有RLE編碼、統(tǒng)計編碼（如Huffman編碼、算術編碼）和LZW編碼等。常用的有損壓縮方法有PCM（脈沖編碼調(diào)制）、預測編碼、變換編碼、矢量量化和子帶編碼等。RLE（Run Length Encoding）編碼也被稱為行程編碼。RLE壓縮編碼主要適用于圖像，對減少圖像文件的存儲空間非常有效，在圖像中具有相同顏色并且是連續(xù)的像素數(shù)目被稱為行程長度。一幅圖像中往往具有許多顏色相同的圖塊。在這些圖塊中，許多行上都具有相

14、同的顏色，或者在一行上有許多連續(xù)的像素都具有相同的顏色值。RLE編碼在這種情況下存儲的不是每一個像素的顏色值，而僅僅存儲一個像素的顏色值以及具有相同顏色的像素數(shù)目就可以，或者存儲一個像素的顏色值以及具有相同顏色值的行數(shù)。RLE編碼解碼時按照與編碼時采用的相同規(guī)則進行，還原后得到的數(shù)據(jù)與壓縮前的數(shù)據(jù)完全相同。因此，RLE編碼屬于無損壓縮技術。RLE編碼的優(yōu)點在于技術直觀算法簡單。然而，RLE對顏色豐富的自然圖像不太適用，顏色豐富的自然圖像在同一行上具有相同顏色的連續(xù)像素往往很少，而連續(xù)幾行都具有相同顏色值的連續(xù)行數(shù)就更少，此時如果仍然使用RLE編碼方法，不僅不能壓縮圖像數(shù)據(jù)，反而可能使原來的圖像

15、數(shù)據(jù)變得更大。RLE所能獲得的壓縮比有多大，這主要是取決于圖像本身的特點。如果圖像中具有相同顏色的圖像塊越大，圖像塊數(shù)目越少，獲得的壓縮比就越高，反之，壓縮比就越小。通常RLE編碼和其他的壓縮編碼技術聯(lián)合應用。統(tǒng)計編碼是根據(jù)信源符號出現(xiàn)概率的分布特性而進行的壓縮編碼，使用一種變長碼，將出現(xiàn)次數(shù)較多的符號用較短的碼字表示，以便使平均碼長或碼率盡量小。哈夫曼編碼是由Huffman在1952年提出的一種典型的統(tǒng)計編碼，它的基本原理是按信源符號出現(xiàn)的概率大小進行排序，出現(xiàn)概率大的分配短碼，出現(xiàn)概率小的則分配長碼。下面來看一個實際的例子。假設有一個系統(tǒng)只對7段文字進行編碼，這7段文字內(nèi)容分別為“i am

16、 a baby”、“i am a boy”、“i am a girl”、“i am a man”、“i am a woman”、“i am an old man”、“i am an old woman”，7段文字總長度為86，共涉及到了13種不同字符，一個系統(tǒng)用二進制表達13種字符，如果采用定長碼，則每個字符至少需要4位，每一段文字需要的編碼長度見表8-2。但這13種字符出現(xiàn)的頻率不同（如表8-3所示），對每一種字符都用同樣的碼長有些浪費，所以希望讓出現(xiàn)頻繁的字符碼長短一些，較少出現(xiàn)的字符碼長長一些。哈夫曼編碼就是針對信源符號出現(xiàn)的概率不同的情況進行的編碼。哈夫曼編碼過程如下：（1）首先把待編

17、碼的每一個符號看成一個節(jié)點，所有待編碼字符看做原始節(jié)點序列。（2）從節(jié)點序列中選擇概率最小的兩個節(jié)點。（3）構(gòu)造一個新節(jié)點，新節(jié)點的概率等于剛才兩個節(jié)點概率之和，新節(jié)點的兩個分支分別是剛才的兩個節(jié)點。（4）將第（2）步選擇的兩個節(jié)點從節(jié)點序列中刪除，將第（3）步構(gòu)造的新節(jié)點加入到節(jié)點序列中。（5）重復第（2）步到第（4）步，直到節(jié)點序列只有一個節(jié)點為止。（6）這樣得到一棵編碼樹，對編碼樹的每一下分支賦值為1，上分支賦值為0，從編碼樹的根開始回溯到原始的符號，記錄經(jīng)過分支的值，即得到哈夫曼編碼。針對前面的系統(tǒng)，采用哈夫曼編碼對系統(tǒng)中的13個字符進行編碼，編碼過程如圖8-2所示。該例中用字符出現(xiàn)

18、的次數(shù)代替出現(xiàn)的概率，最后根節(jié)點的值為86，恰好是整個系統(tǒng)涉及的字符的個數(shù)。單個字符的編碼如表8-3所示，系統(tǒng)中每段文字編碼如表8-2所示。從表8-2可知，采用哈夫曼編碼，平均每個字符的碼長為3.08，大大少于定長碼編碼。從哈夫曼編碼的過程可知，哈夫曼編碼并不唯一，當幾個節(jié)點的概率值相同時，選擇方式的不同和構(gòu)造新節(jié)點的兩個子節(jié)點位置關系不同都可以導致不同的編碼，但不同的編碼方案平均碼長基本一致。預測編碼（Predictive Coding）是根據(jù)離散信號之間存在著一定關聯(lián)性的特點，利用前面一個或多個信號預測下一個信號進行，然后對實際值和預測值的差（預測誤差）進行編碼。1預測編碼的原理2預測編碼

19、算法原始的編碼系統(tǒng)通常被稱作脈沖編碼調(diào)制（Pulse Code Modulation），簡稱為PCM編碼，實際上它就是通過采樣和量化，將模擬量變換得到二進制編碼的過程。注意：量化的方法有多種，量化時采用的量化方法和量化位數(shù)不同，量化后的數(shù)據(jù)量也就不同。因此，可以說量化也是一種壓縮數(shù)據(jù)的方法。直接采用PCM編碼獲得的音頻數(shù)據(jù)和視頻數(shù)據(jù)的數(shù)據(jù)量很大，如高保真聲音和BMP格式的真彩色圖像，因此需要對數(shù)據(jù)進行壓縮，此時一般首先要使用預測編碼。預測編碼的原理是利用相鄰數(shù)據(jù)的相關性，如果頻數(shù)據(jù)中相鄰的樣本差別很小，圖像的相鄰像素間差別也較小，所以當前樣本或當前像素的值可以通過前一個樣本和前一個像素值進行

20、預測，然后對預測值和實際值求差，如果預測比較準確，誤差就會很小。誤差信號的幅度一般遠遠小于原始信號，量化這個差值所需的比特數(shù)就能比量化原始信號所需的比特數(shù)少，從而實現(xiàn)數(shù)據(jù)的壓縮。預測編碼的步驟如下：（1）建立一個供預測用的數(shù)學模型。（2）利用以往的樣本數(shù)據(jù)對新樣本值進行預測。（3）將預測值與實際值相減，對其差值進行編碼。預測編碼主要是減少了數(shù)據(jù)時間和空間上的相關性，即針對時間冗余和空間冗余。尤其對于時間序列數(shù)據(jù)有著廣泛的應用價值。預測編碼的優(yōu)點是直觀、簡捷、易于實現(xiàn)，特別是用于硬件實現(xiàn)，但壓縮能力非常有限，例如DPCM只能壓縮到24bit/像素。常見的預測編碼方法根據(jù)使用的預測模型不同分為線性

21、預測編碼方法和非線性預測編碼方法。線性預測編碼方法中主要有差分脈沖編碼調(diào)制（Differential Pulse Code Modulation，DPCM）和自適應差分脈沖編碼調(diào)制（Adaptive Differential Pulse Code Modulation，ADPCM）。面向的壓縮對象不同，預測編碼的技術也不盡相同，其中比較典型的有針對運動圖像編碼的幀間編碼技術。下面主要以DPCM編碼為例介紹預測編碼算法。DPCM在編碼器和解碼器中各設置一個使用相同數(shù)學模型的預測器對信號進行預測，編碼時對預測值與信號實際值的差進行編碼，解碼時將碼值加上預測值，然后進行恢復從而得到原始數(shù)據(jù)。DPCM

22、系統(tǒng)原理框圖如圖8-3所示。對于一些復雜的圖像而言，空間相關性并不十分明顯，這時采用RLE編碼和預測編碼得到的壓縮效果不是很好。如果采用某種數(shù)學變換，能使圖像數(shù)據(jù)在變換域中變得簡單或具有更好的統(tǒng)計特性，然后在變換域中使用RLE編碼或預測編碼，可以使數(shù)據(jù)壓縮比率變大。解壓縮時，需要根據(jù)最后采用的壓縮規(guī)則，將變換域的數(shù)據(jù)恢復，然后再用所使用變換的反變換，將數(shù)據(jù)恢復回空間域。這種使用一種符合源數(shù)據(jù)本身內(nèi)在特性的數(shù)學變換將空間域中的復雜圖像變換，使數(shù)據(jù)在變換域呈現(xiàn)更好的特性，以便于進行壓縮編碼的方法被稱為變換編碼。變換編碼是先對信號進行某種函數(shù)變換，從一種域信號變換到另一種域信號，然后再對信號進行編碼

23、。變換編碼壓縮數(shù)據(jù)要經(jīng)過變換、變換域采樣和量化或壓縮三個步驟，如圖8-4所示。變換本身并不進行數(shù)據(jù)壓縮，它只把信號映射到另一個域，使信號在變換域里容易進行壓縮，變換后的樣值更獨立和有序。變換編碼基于兩個原因，一是聲音、圖像大部分信號都是低頻信號，在頻域中信號的能量較集中，重新進行采樣、編碼，可以獲得比原來的數(shù)據(jù)比特數(shù)少的壓縮數(shù)據(jù)；二是對于一些復雜的、空間相關性并不明顯的圖像，卻在頻率域中表現(xiàn)了很強的相關性，而且這種相關性又與圖像的復雜程度無關，因此可以利用這樣的特點，設計出各種不同的壓縮算法，以求得從不同角度（域中）獲得較徹底的去除圖像信號相關性的方法。變換編碼比較經(jīng)常使用的有離散余弦變換、小

24、波變換等，著名的圖像壓縮算法JPEG即使用了變換編碼。為了使多媒體信息具有互操作性，并且確保未來的兼容性，各國際技術組織的一個重要任務是綜合各種編碼技術，制定統(tǒng)一的國際或區(qū)域的標準。8.3.1 數(shù)字音頻壓縮標準8.3.2 數(shù)字圖像壓縮標準8.3.3 數(shù)字視頻壓縮標準在多媒體音頻數(shù)據(jù)的存儲和傳輸中，數(shù)據(jù)壓縮是必需的。通常數(shù)據(jù)的壓縮造成音頻質(zhì)量的下降、計算量的增加，因此在數(shù)字音頻的壓縮標準制定時需要考慮質(zhì)量、數(shù)據(jù)量、計算復雜度三個方面。音頻信號的壓縮方法有多種，其中包括基于音頻數(shù)據(jù)的統(tǒng)計特性進行的編碼，例如波形編碼和熵編碼；基于音頻的聲學參數(shù)進行的編碼，如參數(shù)編碼和感知編碼；基于人的聽覺特性進行的

25、編碼；還有集中了不同方法的優(yōu)點的混合編碼。按照帶寬，音頻信號可分為電話質(zhì)量級的信號、調(diào)幅廣播質(zhì)量級的信號和高保真立體聲信號。國際電報電話咨詢委員會（CCITT目前已被ITU取代）和國際標準化組織（ISO）針對不同類型的音頻信號先后提出了一系列音頻編碼的建議。（1）電話質(zhì)量級和調(diào)幅廣播級音頻信號的國際標準（2）高保真立體聲音頻壓縮標準（1）電話質(zhì)量級和調(diào)幅廣播級音頻信號的國際標準電話質(zhì)量級的音頻信號的頻率范圍為200Hz3.4kHz，調(diào)幅廣播質(zhì)量音頻信號的頻率范圍為50Hz7kHz，它們的壓縮編碼國際標準主要為G系列標準。G.711標準：1972年制定，面向電話質(zhì)量級語音信號。采用PCM編碼，采

26、樣頻率為8kHz，每個樣本采用8位二進制編碼，非線性量化。數(shù)據(jù)傳輸速率為64kbit/s。G.721標準：1984年制定，面向電話質(zhì)量級語音信號。采用自適應差分編碼調(diào)制ADPCM算法，數(shù)據(jù)傳輸速率32kbit/s。ADPCM是一種對中等介質(zhì)音頻信號進行高效編碼的有效方法。G.722標準：1984年制定，既適用于電話質(zhì)量級語音信號又適用于調(diào)幅廣播級音頻信號。該標準寬帶音頻壓縮仍采用波形編碼技術，采用高低兩個子帶內(nèi)的ADPCM方案，高低子帶的劃分以4kHz為界，然后再對每個子帶內(nèi)采用類似G.721標準的ADPCM編碼。G.728標準：1992年制定，面向電話質(zhì)量級語音信號。采用基于短延時碼本激勵預

27、測編碼LD-CELP算法，數(shù)據(jù)傳輸速率為16kbit/s，信號質(zhì)量與32kbit/s的G.721相當。（2）高保真立體聲音頻壓縮標準高保真立體聲音頻信號的頻率范圍為20Hz20 kHz，數(shù)據(jù)量很大。國際標準化組織國際電工委員會為音頻壓縮制定了MPEG標準。其中ISO /IEC11172-3作為MPEG音頻標準，成為國際上公認的高保真立體聲音頻壓縮標準，一般稱為“MPEG-1音頻”。MPEG音頻壓縮技術的數(shù)據(jù)速率為每聲道32448kbit/s，適合于CD-DA光盤應用。MPEG音頻根據(jù)算法不同分為三層。第一層次和第二層次編碼是將輸入音頻信號進行采樣頻率為48kHz、44.1kHz、32kHz的采

28、樣，經(jīng)濾波器組將其分為32個子帶，同時利用人耳屏蔽效應，根據(jù)音頻信號的性質(zhì)計算各頻率分量的人耳屏蔽門限，選擇各子帶的量化參數(shù)，獲得高的壓縮比。MPEG第三層次是在上述處理后再引入輔助子帶、非均勻量化和熵編碼技術，再進一步提高壓縮比。MPEG-1音頻編碼標準包括三部分，分別對應第1、2和3層（Layer 1/2/3）。層次越高，其性能和復雜度也越高。用戶可在復雜性和聲音質(zhì)量之間權衡對層次作出選擇。層1包括將數(shù)字音頻變成32個子帶的基本映射，將數(shù)據(jù)格式化成塊的固定分段，決定自適應位分配的心理聲學模型，層1標準理論上解碼的最小延時為19ms；層2提供了位分配、縮放因子和抽樣的附加編碼，使用了不同的幀

29、格式，層2理論上解碼的最小延時為35ms；層3采用混合帶通濾波器來提高頻率分辨率，它增加了差值量化、自適應分段和量化值的熵編碼，層3理論上解碼的最小延時為59ms。MPEG音頻標準中編碼的算法并沒有標準化，可以使用多種算法，只要編碼器輸出的數(shù)據(jù)能符合本標準的解碼器解出適用的音頻流。MPEG-1音頻有四種不同的編碼模式，分別是單聲道模式、雙聲道模式、立體聲模式和聯(lián)合立體聲模式。MPEG音頻解碼時對位數(shù)據(jù)流進行解碼，恢復被量化的子帶樣本值以重建聲音信號。由于解碼時無需心理聲學模型，只需拆包、重構(gòu)子帶樣本和把它們變換回聲音信號，因此解碼器的構(gòu)造相應比編碼器簡單。在多媒體應用中，圖像媒體占了很大的比

30、重，通常說來圖像信息存在著大量的冗余，因而在多媒體技術中，圖像壓縮技術非常重要。圖像壓縮方法有多種，屬于無損壓縮的有RLE游程編碼、統(tǒng)計編碼等，屬于有損壓縮的有預測編碼、交換編碼、模型編碼等，這些方法并不是單獨使用，而是聯(lián)合起來共同實現(xiàn)圖像的壓縮。1JPEG概述2JPEG的壓縮流程JPEG標準是國際上通用的靜態(tài)圖像壓縮標準。JPEG（Joint Photographic Experts Group）是一個由ISO和IEC兩個組織機構(gòu)聯(lián)合組成的一個專家組，專門負責制定靜態(tài)的數(shù)字圖像數(shù)據(jù)壓縮編碼標準，該組織在1991年首次提出了JPEG算法。JPEG標準適用于靜態(tài)灰度圖像、靜態(tài)彩色圖像和動態(tài)圖像的

31、幀內(nèi)壓縮。JPEG標準定義了兩種相互獨立的基本壓縮算法，一種是以預測技術（即DPCM）為基礎的無損壓縮算法；另一種是以離散余弦變換（Discrete Cosine Transform，DCT）為基礎的有損壓縮算法。后一種算法的壓縮比遠遠大于第一種算法，但壓縮后的圖像的效果仍然很好。使用有損壓縮算法時，在壓縮比為25:1的情況下，壓縮后還原得到的圖像與原始圖像相比較，非圖像專家難于找出它們之間的區(qū)別，因此基于DCT技術的有損壓縮JPEG算法得到了廣泛的應用?；贒CT技術的JPEG有損壓縮算法又有三種工作模式，分別是順序（Sequential DCT-based）模式、累進（Progressiv

32、e DCT-based）模式和分層（Hierarchical）模式。（1）基于DCT的順序模式：從左到右，從上到下掃描信號，為每個圖像編碼，編碼過程在一次掃描中完成。（2）基于DCT的累進模式：圖像編碼在多次掃描中完成。第一次掃描只進行一次粗糙的壓縮，壓縮后的數(shù)據(jù)量很小，重建后得到的是質(zhì)量較低的圖像。接著再次對圖像進行比上次細致的掃描，重建后得到的圖像好于上一次。這樣不斷重復下去，直到滿意為止。累進模式編碼傳輸時間長，接收端收到的圖像是多次掃描由粗糙到清晰的累進過程。（3）基于DCT的分層模式：這個模式下首先將圖像變換為一系列低分辨率的圖像，如一幅1024像素 1024像素的圖像可以被變換成5

33、12像素 512像素的圖像，這個過程要繼續(xù)進行直到圖像分辨率不能再降低。然后進行下面的工作。第1步：壓縮最低分辨率的圖像。第2步：對前一步的結(jié)果解碼，然后內(nèi)插生成下一幅較高分辨率的圖像。第3步：用第2步的結(jié)果作為這一分辨率的實際圖像的預測，并且生成一個誤差矩陣。壓縮該矩陣。第4步：重復第2步和第3步，直到全部分辨率圖像已經(jīng)被編碼。該模式下圖像在多個空間分辨率進行編碼。如果在信道傳送速率慢，接收端顯示器分辨率也不高的情況下，只需做低分辨率圖像解碼即可。在JPEG標準的基礎上，2000年3月JPEG專家組提出了JPEG 2000標準，JPEG 2000是一種使用離散小波變換（Digital Wa

34、velet Transform， DWT）的分辨率編碼技術，和以前的JPEG相比，在大致相同的圖像質(zhì)量下，JPEG 2000的壓縮比提高了20%40%。JPEG 2000除了提高了壓縮比外，還有以下幾個優(yōu)點。（1）將無損壓縮的成熟方法集成到標準中，擴大了JPEG文件的應用領域。（2）加強了對漸進傳輸?shù)闹С郑琂PEG 2000在傳輸圖像時可以先傳輸圖像的輪廓數(shù)據(jù)，然后再傳輸其他數(shù)據(jù)。（3）提出了感興趣區(qū)域概念，在壓縮時允許指定圖像上感興趣的區(qū)域的壓縮質(zhì)量，還允許選擇指定的部分先解壓縮。JPEG標準和JPEG 2000標準對圖像的壓縮都需要四步，分別是圖像數(shù)據(jù)預處理、數(shù)據(jù)變換、對變換系數(shù)進行量化，最后進行熵編碼，如圖8-5所示。（1）數(shù)據(jù)預處理：標準中規(guī)定了對圖像預處理的方式，JPEG標準將源圖像分成8 8的數(shù)據(jù)塊，而JPEG 2000支持把圖像分成多種成分，首先圖像被分解成分量（components），然后圖像和圖像分量又被分解成矩形片（tiles）。片分量（tile-component）是JPEG 2000原始或重建圖像的基本單位。（2）數(shù)據(jù)變換：JPEG標準使用DCT變換，JPEG 2

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第8講多媒體數(shù)據(jù)壓縮

文檔簡介

溫馨提示

最新文檔

評論

第8講多媒體數(shù)據(jù)壓縮

文檔簡介

溫馨提示

最新文檔

評論

相關文檔