第七章多媒體數據壓縮與音視頻處理技術

上傳人：5*** IP屬地：湖北上傳時間：2022-01-14 格式：DOCX 頁數：37 大小：4.74MB 積分：30 舉報 版權申訴

已閱讀5頁，還剩32頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、第七章多媒體數據壓縮和音視頻處理技術7.3多媒體數據壓縮編碼技術17.3.1 概述17.3.2 數據壓縮的理論及主要技術27.3.3 靜態(tài)圖像壓縮編碼標準JPEG47.3.4 運動圖像（視頻）壓縮編碼標準MPEG77.3.5 常見圖像壓縮格式評價117.4 多媒體音頻/視頻數據的處理157.4.1數字音頻的編輯處理157.4.2.數字視頻制作和處理247.6常用多媒體工具軟件347.6.1圖像圖形制作和圖像瀏覽工具347.6.2音視頻播放工具367.3多媒體數據壓縮編碼技術7.3.1 概述多媒體技術的出現大大的改善了人們傳遞信息的方式，使得信息能夠以人類更容易接受和學習的方式進行傳遞，增強信

2、息傳遞的效率。但是同時由于多媒體數據中蘊含了多種媒體的信息（通常表現為大量數字化了的聲音、圖片和視頻信息等），需要傳遞或者處理的數據量非常大。舉例來說，假設有一幀分辨率為800 ×600的24位真彩色數字圖像，如果沒有經過壓縮處理，則其存儲數據量約為每幀11.52Mb（這里只計算了純數據的容量，實際中會有一些控制數據會產生額外開銷）。如果把這樣的圖片制作成動畫來顯示，按照每秒24幀的動態(tài)顯示要求，每秒所需傳輸和處理的數據量為276.48Mb，這樣的傳輸速率當前大多數網絡環(huán)境都很難勝任。如果再加上聲音數據，需要傳輸和處理的數據量將會變得更大。如果不進行處理，現有多數的計算機系統和網絡環(huán)

3、境要實現動畫和聲音多媒體數據的實時傳輸就比較困難。為了節(jié)約數據的存儲空間，獲得連貫的高質量視頻播放效果和聽覺效果，實現多媒體數據的實時交換，除了不斷提高計算機本身的性能及通信信道的帶寬外，目前更有效的的方法是對多媒體數據進行有效的壓縮。由于可以幫助減少如硬盤空間與連接帶寬這樣的昂貴資源的消耗，所以壓縮非常重要，然而壓縮需要消耗信息處理資源，這也可能是非常昂貴的。所以數據壓縮機制的設計需要在壓縮能力、失真度、所需計算資源以及其它需要考慮的不同因素之間進行折中。多媒體數據特別適合壓縮，這個是由多媒體數據的特點和應用對象決定的。多媒體數據的特點是整體上數據的冗余度很大，這就決定了多媒體可以被大幅度壓

4、縮。例如，一幅風景圖像中的背景是藍天和綠地，而這部分數據中許多像素值是相同的，如果逐點存儲就會浪費許多空間，這種冗余方式稱為空間冗余。又例如，在電視和動畫的相鄰序列中，只有運動物體有少許變化，僅存儲差異部分即可，這稱為時間冗余。此外還有結構冗余、視覺冗余等，這些都為多媒體數據的壓縮提供了條件。另一方面，多媒體數據的最終應用對象是人，即要把數據以視聽的方式呈現給人，實現人機信息交流，而我們人類具有模糊識別的能力，這便意味著即使在壓縮過程中損失了一些細節(jié)數據（一定程度上），將不會影響人類從多媒體數據中獲取信息。因此，采用合適的壓縮技術，可以對多媒體數據的數據量進行大幅度壓縮而基本不影響人們從多媒體

5、數據中獲取信息。數據壓縮的定義是在不丟失信息的前提下，縮減數據量以減少存儲空間，提高其傳輸、存儲和處理效率的一種技術方法?；虬凑找欢ǖ乃惴▽祿M行重新組織，減少數據的冗余和存儲的空間。下面對壓縮理論和數據壓縮技術做簡要介紹。 7.3.2 數據壓縮的理論及主要技術數據壓縮的主要理論基礎是信息論，這個領域的研究工作是由信息論的創(chuàng)始人克勞德·艾爾伍德·香農（Claude Elwood Shannon拓展閱讀：/wiki/Claude_Shannon）奠定的，他在二十世紀40年代末期到50年代早期發(fā)表了這方面的基礎性的論文。另外密碼學、

6、統計學和編碼理論也是和數據壓縮關系密切的學科。從數學上講，可以將壓縮看做是一種變換。具體操作時，數據的壓縮實際上是一個編碼過程，即把原始的數據進行編碼壓縮。數據的解壓縮是數據壓縮的逆過程，即把壓縮的編碼還原為原始數據。因此數據壓縮方法也稱為編碼方法。隨著基礎學科理論的不斷發(fā)展，目前數據壓縮技術也日新月異，適應各種應用場合的編碼方法不斷產生。針對多媒體數據冗余類型的不同，相應地有不同的壓縮方法。根據解碼后數據與原始數據是否完全一致可將壓縮方法分為無損壓縮算法（lossy compression）和有損壓縮算法（lossness compression）兩大類。無損壓縮算法是指去掉或減少數據中的冗

7、余，但這些冗余值是可以重新插入到數據中的，因此冗余壓縮是可逆的過程。例如在一幅圖像中，有一部分數據排列為“藍色的點，藍色的點藍色的點”共計300個，壓縮后的圖像可以記錄為“300個藍色的點”，這樣就節(jié)省了大量的存儲空間。在多媒體技術中，無損壓縮經常用于一般文本、數據的壓縮，它能保證百分之百地恢復原始數據。但這種方法壓縮比較低。統計編碼就是一種無失真編碼。它是根據信息出現概率的分布而進行的壓縮編碼。編碼時某種比特或字節(jié)模式的出現概率大，用較短的碼字表示；出現概率小，用較長的碼字表示。這樣，可以保證總的平均碼長最短。無損壓縮使用最廣泛的是LZ（ LempelZiv )壓縮算法。常用的無損壓縮算法基

8、本都是從LZ壓縮算法演化而來，例如GIF圖像中用到的LZW(Lenpel-Ziv & Welch)壓縮算法，PNG圖像中用到的 DEFLATE壓縮算法和Zip格式壓縮文件中用到的LZR(Lepel-Ziv-Renau)壓縮算法。無損壓縮常用的技術如下： RLE(Run-length encoding)被稱為行程長度編碼，是一種非常簡單的無損壓縮方法，這種方法使用數據及數據長度這樣簡單的編碼代替重復出現的連續(xù)數據。例如有一幅簡單圖像是白色背景上面有一些黑點，這樣就會有很多白點為重復數據。如果用W表示白色的點，用B來表示黑色的點，圖像中的一行就可以簡單表示如下： WWWWWWWWWWWWB

9、WWWWWWWWWWWWBBBWWWWWWWWWWWWWWWWWWWWWWWWBWWWWWWWWWWWWWW對于這一行數據用RLE壓縮后變?yōu)椋?12W1B12W3B24W1B14WLempel-Ziv（LZ）壓縮方法是最流行的無損存儲算法之一。LZ 方法使用基于表格的壓縮模型，其中表格中的條目用重復的數據串替換。對于大多數的 LZ 方法來說，這個表格是從最初的輸入數據動態(tài)生成的。微軟公司的 CAB 格式采用的壓縮方式LZX就是基于LZ編碼機制的。DEFLATE是另外一種 LZ算法的變體，它針對解壓速度與壓縮率進行了優(yōu)化，可以獲得比較高的壓縮率，但是有時候壓縮速度可能會比較緩慢， PNG格式圖像

10、就使用的是 DEFLATE壓縮算法。LZW （Lempel-Ziv-Welch）也是從LZ壓縮算法演化而來，這種方法用于 GIF 圖像。由于這個算法曾經是 Unisys 公司的專利（2003年6月專利到期限），因此在很長一段時間內影響了GIF圖像的應用。另外還有Zip壓縮文件采用的 LZR (LZ-Renau) 方法。有損壓縮法是指在不影響人類理解的情況下，丟棄一些細節(jié)信息來獲得更高的壓縮比，這些丟棄的信息是不能再恢復的，因此這種壓縮法是不可逆的（即解壓后的數據和壓縮前的數據不完全一樣）。有損壓縮多用于由人的視覺或者聽覺對解壓縮后的數據進行識別的場合。這些壓縮算法利用了人在識別信息時的一些生

11、理特點。例如，人的視覺對于亮度的變化特別敏感而對顏色的變化不敏感；人的耳朵能夠識別的聲波頻段范圍非常有限等。因此很多最終由人類的視覺系統和聽覺系統接收的圖像、音視頻數據就可以采用有損壓縮，在壓縮時可以丟掉一不敏感或者無法感知些數據，不會對數據所表達的意思產生誤解，但卻可以大大提高壓縮比。有損壓縮算法經常需要處理的一個問題就是在壓縮解壓時間、保留信息量和減小數據存儲空間之間尋找一個折中。需要注意的是在某些特殊情況下，例如醫(yī)學診斷或者刑偵等場合，為了不遺漏任何信息細節(jié)，一般不采用有損壓縮算法。有損圖像壓縮技術應用最廣泛的的是JEPG圖像壓縮技術，大量的用于數碼相機和互聯網上圖像，可以大幅度地提高

12、了存儲能力，同時圖像質量幾乎沒有降低。在有損音頻壓縮中，經常利用心理聲學的原理來去除信號中聽不見或者很難聽見的成分。人類語音的壓縮經常使用更加專業(yè)的技術，因此人們有時也將“語音壓縮”或者“語音編碼”作為一個獨立的研究領域與“音頻壓縮”區(qū)分開來，其中語音壓縮比較常見的應用是因特網電話。不同的音頻和語音壓縮標準都屬于音頻編解碼范疇。視頻壓縮技術中絕大多數都是有損壓縮，有損視頻壓縮的一個最常用技術就是可同時對音視頻數據進行壓縮的MPEG-x系列技術。無論是無損壓縮還是有損壓縮，其壓縮算法是基于軟件的，也就是其需要一定的處理時間，因此在很多實時性要求比較高的環(huán)境中，會對硬件的性能提出一些要求從而保證其

13、實時性。而在文件備份、歸檔過程中的壓縮一般不會有什么問題。另外需要注意，有些文件已經被壓縮，進一步的外部壓縮不會有任何好處，一些圖形文件格式，如標簽映象文件格式（TIFF），就已經包含了壓縮。由于數據壓縮在使用計算機存儲、傳輸和處理數據的過程中非常常用，在數據壓縮發(fā)展的早期出現了各種壓縮算法，這些各具特色的壓縮算法降低了文件的可移植性，除非在數據交換時把解壓縮軟件也與文件一起傳送，否則將會出現一個用戶的壓縮數據傳輸給另一個用戶時無法打開的現象。為了便于不同的用戶之間能夠更好的交流數據，有必要制定一些國際標準來規(guī)范壓縮算法，以促進不同用戶之間數據交流的效率。促進數據壓縮算法標準產生的組織主要有國

14、際標準化組織ISO、國際電工委員會 IEC和國際電信聯盟電信標準化部門 ITU-T。其制定的通用壓縮編碼標準認可度比較高且應用比較廣泛的大致有四種：H.261、JPEG、 MPEG和DVI。其中H.261是1990年ITU-T制定的一個視頻編碼標準，屬于視頻編解碼器。設計的目的是能夠在帶寬為64kbps的倍數的綜合業(yè)務數字網（ISDN for Integrated Services Digital Network）上傳輸質量可接受的視頻信號。隨著新的軟硬件技術發(fā)展，視頻編碼標準也在不斷演化，但后來的視頻編碼標準基本都是在H.261的基礎上進行改進。H.261使用兩種類型的壓縮：用于幀內的基于D

15、CT（離散余弦變換）的有損壓縮和用于幀間壓縮的無損編碼，并在此基礎上使編碼器采用帶有運動估計的DCT和DPCM（差分脈沖編碼調制）的混合方式。這種標準與JPEG及MPEG標準間有明顯的相似性，但關鍵區(qū)別是它是為動態(tài)使用設計的，并提供完全包含的組織和高水平的交互控制。現在的H.261成為了過時的標準，已經基本上看不到使用H.261的產品了，但是在視頻編碼歷史上H.261的地位非常重要，是一個重要的里程碑式的標準。JPEG、 MPEG和DVI壓縮算法將在后續(xù)部分詳細介紹。7.3.3 靜態(tài)圖像壓縮編碼標準JPEG JPEG（發(fā)音為 depg）的本義是全稱是聯合照片專家組，英文全名為Joint Pho

16、tographic Experts Group。此小組創(chuàng)建于1986年，其由國際標準化組織、國際電工委員會和國際電信聯盟電信標準化部門（前身為國際電報電話咨詢委員會CCITT，1993年更名為國際電信聯盟電信標準化部門）共同組成，并于1992年發(fā)布了JPEG圖像壓縮解壓算法。通常所說的JPEG都是是指由這個專家組制定的這個靜止圖像壓縮和解壓縮算法，并在1994年被采納成為國際標準。人們在提到JPEG壓縮算法時往往指的的有損壓縮，實際上在JPEG標準中也支持一種被稱為Lossless JPEG的無損壓縮方式，但Lossless JPEG并沒有受到廣泛的支持和應用。JPEG壓縮算法通常包含色彩空

17、間轉換、縮減取樣、離散余弦變換、量化幾個步驟。其中色彩空間轉換和縮減取樣兩個步驟的目的是把圖像色彩轉換到由YUV色彩空間后，保留亮度成分（也就是“Y”，人眼敏感的成分）成分，而對其它人眼睛不敏感的成分色度“U”和飽和度“V”進行縮減（關于YUV空間的概念將在后面學習運動圖像的編碼標準時介紹）。縮減抽樣步驟是JPEG壓縮步驟中有損的一個步驟，會丟棄一些人眼不敏感的信息。后續(xù)的壓縮步驟將分別對三個成分進行相同的處理。離散余弦變換是把圖像轉換到用頻率表達的空間，進行轉換的目的是便于后續(xù)步驟中有針對性的對圖像中的高頻成分進行壓縮。離散余弦變化過程是一個可逆的過程。量化的過程本身是一種壓縮，其原理在于人

18、類的眼睛對一個相對比較大范圍內的微小亮度變化非常敏感，但在高頻率的亮度變化時，對具體亮度值卻難以分辨。因此量化的思路就是在進行離散余弦變換后的圖像上，減小高頻率成分的信息數量。量化的過程很簡單，就是把轉換后的圖像中的每一個成分，除以一個針對于該成分的常數再舍位取最接近的整數即可。量化過程也是有損運算，而且是整個壓縮過程中的主要有損運算。量化的過程經常會把很多更高頻率的成分舍位成為接近0，且剩下很多會變成小的正數或者負數。從量化的原理也可以看出，JPEG壓縮特別適合相機等拍攝的實景自然圖像，壓縮后可以獲得很好的視覺效果。但并不適合于線條繪圖、圖標、圖形或者含有文字的圖像，這類圖像使用經典的無損壓

19、縮例如（PNG格式圖像采用的DEFLATE壓縮）會取得更好的視覺效果。JPEG壓縮算法的壓縮比是可以調節(jié)的，可以根據需要在圖像質量和存儲量大小之間尋找一個最佳值。通常情況下壓縮比為10:1時只會給圖像質量帶來微小的損失。圖7-3-1顯示了不同壓縮比帶來的圖像質量變化。(a) 未壓縮圖像，大小725K (b) JPG低壓縮比，大小111K (c) JPG高壓縮比，大小36K圖7-3-1 不同JPEG壓縮比例對比圖需要注意的是JPEG標準本身只描述了如何將一個圖像轉換為字節(jié)的數據流，并沒有說明這些字節(jié)如何在任何特定的存儲媒體上進行存儲。如果要把這些壓縮后的數據流存放在計算機硬盤等存儲媒體上，其存

20、儲格式也需要規(guī)范。為了解決這個問題，在1991年一個名叫C-Cube Microsystems的公司聯合其它公司創(chuàng)建了一個額外的標準，稱為JFIF（JPEG File Interchange Format，JPEG文件交換格式）詳細說明如何從一個JPEG數據流，產出一個適合于計算機存儲和傳輸的文件。JPEG/JFIF 支持的最大圖像尺寸是 65535×65535。JPEG/JFIF是萬維網（World Wide Web）上最普遍的圖片存儲和傳輸格式。另外一個標準是由日本電子工業(yè)發(fā)展協會在1996年制定的。稱為可交換圖像文件（Exchangeable image file forma

21、t, EXIF），是專門為數碼相機的照片設定的，可以記錄數碼照片的屬性信息和拍攝數據。EXIF可以附加于JPEG、TIFF、RIFF等文件之中，為其增加有關數碼相機拍攝信息的內容和索引圖或圖像處理軟件的版本信息。在Windows 7操作系統中，最簡單的查看EXIF信息的方法是右鍵單擊JPEG圖片打開快捷菜單，單擊“屬性”再切換到“詳細信息”標簽下即可，如圖7-3-2。圖7-3-2 Exif JPEG文件提供的圖像信息在日常使用中，當有人說一個“JPEG文件”，一般而言是意指一個JFIF文件，或者是一個Exif JPEG文件。使用JPEG格式壓縮的圖片文件一般也被稱為JPEG Files，使用的

22、最普遍的文件擴展名格式為“.jpg”和“.jpeg”。其它還有：“.jpe”、“.jfif”以及“.jif”。JPEG格式的數據也能被嵌進其他類型的文件格式中，例如在TIFF類型的文件中就可以嵌入JPEG數據，作為圖像的縮略圖；在壓縮音頻數據mp3中也可以嵌入JPEG數據作為歌曲或者唱片集的封面，這就是為什么在播放mp3歌曲時有的播放器能顯示出該歌曲對應的唱片集的封面圖像。關于JPEG標準的最新進展，值得一提的是JPEG 2000。JPEG 2000也是由聯合照片專家組創(chuàng)建和維護的標準拓展閱讀：/wiki/JPEG_2000。和經典的JPEG標準相比

23、，JPEG 2000是用基于小波變換替代了基于離散余弦變換。JPEG 2000的優(yōu)勢比較明顯，它的壓縮比更高，而且不會產生原先的基于離散余弦變換的JPEG標準產生的塊狀模糊瑕疵。JPEG 2000同時支持有損數據壓縮和無損數據壓縮。另外，JPEG 2000也支持更復雜的漸進式顯示和下載。因此JPEG 2000通常被認為是未來取代基于離散余弦變換的的下一代圖像壓縮標準。JPEG 2000文件的文檔后綴名通常為“.jp2”。雖然JPEG 2000在技術上有一定的優(yōu)勢，但是目前互聯網上采用JPEG 2000技術制作的圖像文件數量仍然很少，并且大多數的瀏覽器仍然不支持JPEG 2000圖像文件的顯示。

24、使用JPEG可能要承擔版權和專利的風險，這也許是目前JPEG 2000技術沒有得到廣泛應用的原因之一。JPEG 2000標準本身是沒有授權費用，但是因為編碼的核心部分的各種算法被大量注冊專利。如果要開發(fā)基于JPEG 2000的商用軟件，一般不太可能避開這些專利費用而開發(fā)出免授權費的編碼器。由于JPEG 2000在無損壓縮下仍然能有比較好的壓縮率，所以JPEG 2000在圖像品質要求比較高的醫(yī)學圖像的分析和處理中已經有了一定程度的應用。7.3.4 運動圖像（視頻）壓縮編碼標準MPEG視頻壓縮的目標是在盡可能保證視覺效果的前提下減少視頻數據率。視頻壓縮比一般指壓縮后的數據量與壓縮前的數據量之比。由

25、于視頻是連續(xù)的靜態(tài)圖像，因此其壓縮編碼算法與靜態(tài)圖像的壓縮編碼算法有某些共同之處，但是由于其運動導致視頻壓縮有其自身的特性，在壓縮時還應考慮其運動特性才能達到高壓縮的目標。在視頻壓縮中常需用到概念有幀內壓縮、幀間壓縮、對稱性、位速、AVI和YUV等。幀內（Intraframe）壓縮也稱為空間壓縮（Spatial compression）。當壓縮一幀圖像時，僅考慮本幀的數據而不考慮相鄰幀之間的冗余信息，這實際上與靜態(tài)圖像壓縮類似。幀內一般采用有損壓縮算法，由于幀內壓縮時各個幀之間沒有相互關系，所以壓縮后的視頻數據仍可以以幀為單位進行編輯。幀內壓縮一般達不到很高的壓縮。采用幀間（Interfram

26、e）壓縮是基于許多視頻或動畫的連續(xù)前后兩幀具有很大的相關性，或者說前后兩幀信息變化很小的特點。也即連續(xù)的視頻其相鄰幀之間具有冗余信息，根據這一特性，壓縮相鄰幀之間的冗余量就可以進一步提高壓縮量，減小壓縮比。幀間壓縮也稱為時間壓縮（Temporal compression），它通過比較時間軸上不同幀之間的數據進行壓縮。例如有一段60秒的視頻，這個視頻中的前景一直在變化，但是在背景中的同一位置始終有一把椅子。那么壓縮算法可能就會把一幀圖像中椅子的數據存儲下來，以在接下來的幀中使用，從而實現壓縮的效果。幀間壓縮一般是無損的。幀差值（Frame differencing）算法是一種典型的時間壓縮法，它

27、通過比較本幀與相鄰幀之間的差異，僅記錄本幀與其相鄰幀的差值，這樣可以大大減少數據量。對稱性（symmetric）是壓縮編碼的一個關鍵特征。對稱意味著壓縮和解壓縮占用相同的計算處理能力和時間，對稱算法適合于實時壓縮和傳送視頻，如視頻會議應用就以采用對稱的壓縮編碼算法為好。而在電子出版和其它多媒體應用中，一般是把視頻預先壓縮處理好，然后再播放，因此可以采用不對稱（asymmetric）編碼。不對稱或非對稱意味著壓縮時需要花費大量的處理能力和時間，而解壓縮時則能較好地實時回放，也即以不同的速度進行壓縮和解壓縮。一般地說，壓縮一段視頻的時間比回放（解壓縮）該視頻的時間要多得多。例如，壓縮一段三分鐘的視

28、頻片斷可能需要10多分鐘的時間，而該片斷實時回放時間只有三分鐘。位速（bit rate）是指在一個數據流中每秒鐘能通過的信息量，通常都是用每秒鐘通過的比特量（bps）來表示。由于比特是一個很小的單位，因此實際中常用的單位是Kbps、Mbps和Gbps，分別代表103bps，106bps和109bps。位速越高，信息量越大，對這些信息進行解碼的處理量就越大，文件需要占用的空間也就越多。CD中的數字音樂比特率為1411.2Kbps（也就是記錄1秒鐘的CD音樂，需要1411.2×1024比特的數據），近乎于CD音質的MP3數字音樂需要的比特率大約是112Kbps128Kbps。另外如何選擇

29、適當的位速取決于播放目標。如果要把制作的 VCD 放在 DVD 播放器上播放，那么視頻必須是 1150 Kbps，音頻必須是 224 Kbps。AVI是將語音和影像同步組合在一起的文件格式。它對視頻文件采用了一種有損壓縮方式，但壓縮比較高，因此盡管面面質量不是太好，但其應用范圍仍然非常廣泛。AVI支持256色和RLE壓縮。AVI信息主要應用在多媒體光盤上，用來保存電視、電影等各種影像信息。YUV有時候也寫作YCrCb，是歐洲電視系統所采用的一種顏色編碼方法。YUV主要用于優(yōu)化彩色視頻信號的傳輸并兼容老式黑白電視。與RGB視頻信號傳輸相比，它最大的優(yōu)點在于只需占用極少的帶寬（RGB要求三個獨立的

30、視頻信號同時傳輸）。其中“Y”表示明亮度（Luminance或Luma），也就是灰階值；而“U”和“V”表示的則是色度和濃度（Chrominance或Chroma），用于指定像素的顏色。如果把UV信息去掉，則剩下的就是和早期黑白電視兼容的亮度信息。RGB色彩空間可以通過公式直接轉換到YUV空間。在前面學習JPEG壓縮原理時，第一步就是把圖像色彩從RGB轉化到YUV空間。由于視頻的每一幀都是由像素柵格構成的。如果在水平方向上（也就是每行）有W個像素，而在垂直方向上（每列）有H個像素，則稱為幀大小為W×H。像素的唯一屬性就是顏色，一般用一定數量的比特來表示。用的比特數越多，表達的顏色變化

31、就越豐富，這個稱為視頻的顏色深度。顏色深度為n則可以表達的顏色數為2n個。假設有一部時間長度為1個小時的視頻，其幀大小為1280 x 720，顏色深度為24，按照幀率25進行播放。那么可以計算出此視頻的以下屬性：每幀像素數= 1280 * 720= 921600每幀比特數= 每幀像素數 *24b = 921600*24b = 22118400b 21Mb比特率 =每幀比特數*幀率 =21Mb/幀 * 25幀/s= 525 Mb/s視頻大小 = 比特率*時間 = 525 Mb/s * 3600s = 1890000Mb = 236250MB231GB從這個計算可以看出，一部普通的時常為1小時的

32、視頻數據，如果不進行壓縮，其占用的存儲空間已經非常巨大。隨著數字視頻的發(fā)展，一些三維視頻技術也開始出現，可以預料，其數據量會越來也大。因此有必要研究視頻的壓縮技術，從而使視頻的存儲、處理和傳輸更加方便。和圖像的壓縮相似，數字視頻壓縮以后基本不影響作品的最終視覺效果。例如，雖然顏色深度為24的視頻可以呈現的顏色有上千萬種，但是人類肉眼只能辨別大約 1024 種。因為我們覺察不到一種顏色與其鄰近顏色的細微差別，所以也就沒必要將每一種顏色都保留下來。另外和圖像相似、視頻數據也有冗余的問題。例如在視頻作品中經常可以看到在一個較短的時間段內，視頻的背景很少發(fā)生變化或者就根本不發(fā)生變化。在這種情況下，這個

33、時間段內的多個幀的背景數據就會出現大量冗余數據，在視頻數據的壓縮中可以用類似行程長度編碼的思路來設計壓縮算法。標準的數字攝像機的壓縮率為 5 比 1，有的格式可使視頻的壓縮率達到 100 比 1。需要注意的是，過分壓縮也不是件好事。因為壓縮得越多，丟失的數據就越多。如果丟棄的數據太多，產生的影響就越來越明顯。過分壓縮的視頻會導致觀看者無法辨認。和JPEG類似，MPEG是運動圖像專家組（Moving Picture Experts Group）的簡稱。這個名字本義是指成立于1988年的研究視頻和音頻編碼標準的“動態(tài)圖像專家組”。MPEG是隸屬于國際標準化組織和國際電工委員會的工作組，它的官方頭銜

34、為：第一技術委員會第二十九子委員會第十一號工作組正式審核程序，英文為ISO/IEC JTC1/SC29 WG11。MPEG大約每2-3個月舉行一次會議，每次會議大約持續(xù)5天，在會議期間，新的建議和技術細節(jié)先在小組中討論，成熟后進入標準化的正式審核程序?，F在人們所說的MPEG泛指由該工作組制定的一系列視頻編碼標準正式審核程序。該工作組從1988年至今已經制定了MPEG-1、MPEG-2、MPEG-3、MPEG-4、MPEG-7等多個標準，MPEG-21正在制定中。MPEG的標志如圖7-3-3。圖7-3-3 MPEG的標志（圖片來源：Moving Picture Experts Group）MPE

35、G圖像編碼是基于變換的有損壓縮。光學信號線經過采樣形成視頻信號形成一系列幀圖像，然后幀被分區(qū)成小塊做變換編碼，然后量化，最后進行熵編碼。MPEG-1、MPEG-2、MPEG-4采用了的動量估計和動量補償技術。在利用了動量補償的幀中，被編碼的是經過動量補償的參考幀與目前圖像的差。與傳統圖像編碼技術不同，MPEG并不是每格圖像進行壓縮，而是以一秒時段作為單位，將時段內的每一格圖像做比較，由于一般視頻內容都是背景變化小、主體變化大，MPEG技術就應用這個特點，以一幅圖像為主圖，其余圖像格只記錄參考資料及變化數據，更有效記錄動態(tài)圖像。從MPEG-1到MPEG-4，其核心技術基本都是這個原理，各個版本的

36、區(qū)別主要在于比較的過程和分析的復雜性等。MPEG只規(guī)定比特流的格式與解碼精確度，實際上相當于對解碼的方法進行了規(guī)定。這樣的好處在于任何人都可以依照MPEG標準以不同方式實現編碼器程序，而MPEG標準的主要目的在于確保不同的編碼器所產生的比特流可被其他解碼器正確的解碼。由于解碼方法是通用的，因此可以大大減少因編碼專利造成的商業(yè)利益糾紛外，也促進了標準的應用和普及。下面對各個時段的MPEG標準做簡要介紹。MPEG-1是第一個官方的視頻音頻壓縮標準，該標準是一個面向家庭電視質量級的視頻、音頻壓縮標準。MPEG-1主要用于傳輸15Mbps數據傳輸率的數字存儲媒體運動圖像及其伴音的編碼，經過MPEG-1

37、標準壓縮后，視頻數據壓縮率為1/100-1/200，音頻壓縮率為1/6.5。MPEG-1提供每秒30幀352*240分辨率的圖像，當使用合適的壓縮技術時，具有接近家用視頻制式（VHS）錄像帶的質量。MPEG-1允許超過70分鐘的高質量的視頻和音頻存儲在一張CD-ROM盤上。VCD采用的就是MPEG-1的標準。值得一提的是MPEG音頻壓縮的第三級（MPEG-1 Layer 3）簡稱MP3，是目前比較流行的音頻壓縮格式。 MPEG-2是廣播質量的視訊、音頻和傳輸協議。被用于無線數字電視、數字衛(wèi)星電視、數字有線電視信號和DVD視頻光盤技術中。傳輸速率為10Mbps，與MPEG-1兼容，適用于1.5-

38、60Mbps甚至更高的編碼范圍。MPEG-2有每秒30幀704*480的分辨率，是MPEG-1播放速度的四倍，適用于高要求的廣播和娛樂應用程序。MPEG-3原本目標是為高分辨率電視（HDTV）設計，后來發(fā)現MPEG-2已足夠HDTV應用，故MPEG-3的研發(fā)便中止。MPEG-4是2003年發(fā)布的壓縮標準，主要是擴展MPEG-1、MPEG-2等標準以支持視頻音頻對象的編碼、3D內容、低比特率編碼和數字版權管理。MPEG-7并不是一個壓縮標準，它是一個多媒體內容的描述標準。MPEG-21是一個正在制定中的標準，它的目標是為未來多媒體的應用提供一個完整的平臺。主要MPEG視頻編碼標準應用關系如圖7-

39、3-4。圖7-3-4 目前比較成熟的MPEG視頻編碼標準的應用提到MPEG，就不得不提到國際電信聯盟電信標準化部門制定的 VCEG標準。和MPEG類似，VCEG是Video Coding Experts Group的簡稱，也可直接稱為VCEG，中文名稱為視頻編碼專家組。VCEG開發(fā)制定了一系列視頻通信協議和標準，包括H.261視頻會議標準，和其后續(xù)版本H.263、H.263 plus、H.263 plus plus、H.264等。最新的標準是H.265（或稱為High Efficiency Video Coding， HEVC）。H.264和H.265均是由VCEG和MPEG合作共同發(fā)布的標準

40、。其中H.264的第10部分由ISO/IEC和ITU-T聯合發(fā)布，稱為H.264/MPEG-4 Part 10。很多視頻編解碼標準可以很容易的在個人計算機和消費電子產品上實現，這使得在這些設備上有可能同時實現多種視頻編解碼標準，避免了由于兼容性原因使得某種占優(yōu)勢的編解碼標準影響其它編解碼標準的發(fā)展和推廣。綜合以上介紹，把一些主流的視頻編解碼標準按照它們成為國際標準的時間整理如表7-3-1所示。表7-3-1視頻編碼標準發(fā)展年份標準制定組織主要應用1984H.120ITU-T1990H.261ITU-T視頻會議、視頻通話1993MPEG-1 第二部份ISOIEC影音光盤（VCD）1995H.262

41、/MPEG-2 第二部份ISOIEC、ITU-TDVD影碟（DVD-Video）、藍光（Blu-Ray）影碟、數字視頻廣播（DVB）、SVCD1996H.2636ITU-T視頻會議、視頻通話、3G手機視頻（3GP）1999MPEG-4 第二部份ISOIEC更加注重多媒體系統的交互性和靈活性2003H.264/MPEG-4 AVC1ISOIEC、ITU-T藍光（Blu-Ray）影碟、數字視頻廣播（DVB）、iPod視頻、高畫質DVD（HD DVD）2013High Efficiency Video CodingITU-T尚未普及7.3.5 常見圖像壓縮格式評價前面介紹的JPEG壓縮編碼方式外，比

42、較常用的還有無損圖像壓縮格式還有GIF和PNG，采用的壓縮算法分別為LZW和DEFLATE壓縮算法。其中GIF（Graphics Interchange Format）是一種位圖文件格式，以8位色（即256種顏色）重現真彩色的圖像。是目前廣泛應用于網絡傳輸的圖像格式之一。PNG（Portable Network Graphics）簡稱便攜式網絡圖形，也是一種無損壓縮的位圖圖像格式，支持索引、灰度、RGB三種顏色方案以及Alpha通道等特性。PNG最初的開發(fā)目標是改善并取代GIF作為適合網絡傳輸的格式而不需專利許可，目前也被廣泛應用于互聯網圖像交換上。下面對這幾種常見的壓縮文件進行比較評價。評價

43、用參考圖像如圖7-3-5，其原始格式為顏色深度24位的位圖格式。圖7-3-5未壓縮的位圖格式圖像（大小764K）1. JPEG 2000和JPEG的比較在有損壓縮下，JPEG 2000一個比較明顯的優(yōu)點就是沒有JPEG壓縮中的馬賽克失真效果。JPEG 2000的失真主要是模糊失真。模糊失真產生的主要原因是在編碼過程中高頻量一定程度的衰減。傳統的JPEG壓縮也存在模糊失真的問題。就圖像整體壓縮性能來說，在低壓縮比情形下（比如壓縮比小于10:1），傳統的JPEG圖像質量有可能要比JPEG 2000要好。JPEG 2000在壓縮比較高的情形下，優(yōu)勢才開始明顯。整體來說，和傳統的JPEG相比，JPEG

44、 2000仍然有很大的技術優(yōu)勢，通常壓縮性能大概可以提高20%以上。一般在壓縮比達到100:1的情形下，采用JPEG壓縮的圖像已經嚴重失真并開始難以識別了，但JPEG 2000的圖像仍可識別。有損壓縮圖像質量或失真程度一般用峰值信噪比（PSNR）指標來衡量。雖然峰值信噪比不能完全反映人類視覺效果，但是它仍是一個目前比較流行的量化指標。圖7-3-6 顯示了JPG2000和JPG格式壓縮效果對比，壓縮比大約為20:1，此時可以看到JPG的效果要略優(yōu)于JPG2000。(a) JPG2000有損壓縮（大小31K ） (b) JPG壓縮（大小37K）圖7-3-6 JPG2000和JPG格式壓縮對比2

45、. PNG 和JPEG的比較由于采用的壓縮算法不同，JPEG和PNG兩種圖像格式適用的圖片內容也有差異。JPEG采用了一種針對照片圖像的特定有損編碼方法，這種編碼適用于低對比、顏色過渡平滑、噪音多且結構不規(guī)則的圖像，因此JPEG可以對真實世界照片（或類似）圖像生成更小的文件。而如果用PNG文件格式來壓縮存儲此類數據，文件尺寸則會增大很多，雖然此時是無損壓縮，但是和有損壓縮的JPEG相比，圖像質量的提高有限。如果需要保存的圖像中含有文本、線條或類似的邊緣清晰，有大塊相同顏色區(qū)域的圖像，PNG格式的壓縮效果就要比JPEG好很多，并且不會出現JPEG那樣的高對比度區(qū)域的圖像有損。如果圖像既有清晰邊緣

46、，又有照片圖像的特點，則需要根據實際應用需求在這兩種格式之間權衡。由于JPEG是有損壓縮，會產生迭代有損，在重復壓縮和解碼的過程中會不斷丟失信息使圖像質量下降。而PNG是無損的，因此如果要保存需要被反復編輯的圖像，PNG格式更好一些。對于將要發(fā)布的圖像，用JPEG壓縮一次不會造成明顯的圖像質量降低。PNG和JPEG的另一個區(qū)別是JPEG不支持透明度。圖7-3-7 顯示了PNG和JPG格式壓縮效果對比，壓縮比大約為20:1。由于此圖像邊緣清晰，有大塊相同顏色區(qū)域，因此可以看到PNG的壓縮效果要明顯優(yōu)于JPG壓縮。(a) PNG壓縮（大小33K ） (b) JPG壓縮（大小37K）圖7-3-7

47、 PNG和JPG格式壓縮對比3. GIF和JPEG比較GIF是CompuServe公司在 1987年開發(fā)的圖像文件格式，因其體積小而成像相對清晰，特別適合于初期慢速的互聯網而大受歡迎。GIF采用無損壓縮技術，只要圖像不多于256色，則可既減少文件的大小，又保持成像的質量。GIF顏色深度是8決定了GIF并不適合存儲彩色豐富的照片，當然顏色深度很小也意味著存儲的數據量很小。和JPEG圖像一樣，GIF也是互聯網上很流行的一種圖像格式。但GIF的特點是可以做成透明的，也可以做成動畫，這些特點都是JPEG所無法實現的。因此對于有這些特殊需求的圖像，適合用GIF圖像格式壓縮存放。由于GIF是無損壓縮，因此

48、對于顏色簡單的圖像、或者圖像中含有文本、線條或類似的邊緣清晰、有大塊相同顏色區(qū)域等不適合采用JPEG方式壓縮的圖像，GIF也是比JPEG更好的一個選擇。一般情況下，JPEG允許壓縮比大一些。GIF的壓縮比小一些。因此對于比較大的圖像，宜采用JPEG格式進行壓縮存儲。圖7-3-8 顯示了GIF和JPG格式壓縮效果對比，壓縮比大約為20:1。由于圖像固有的特點（邊緣清晰，有大塊相同顏色區(qū)域），可以明顯看到 JPG壓縮效果要差一些。(a) GIF壓縮（大小38K ） (b) JPG壓縮（大小37K）圖7-3-8 GIF和JPG格式壓縮對比4. 圖像壓縮格式匯總在圖像壓縮的發(fā)展過程中，根據壓縮圖像

49、的特點不同，壓縮最終應用的目的不同，壓縮算法的設計各具特色，出現了各種各樣的壓縮算法。除了ISO組織、IEC和ITU-T等權威的標準化制定者，也有很多第三方組織結構提出一些壓縮算法并獲得了很好的應用。表7-3-2列出了前面學習的一些格式，也列出其它一些常見的圖像壓縮格式。表7-3-2常見圖像壓縮格式匯總制定者壓縮格式ISO/IEC/ITU-TJPEG， JPEG 2000， JPEG XR， lossless JPEG，JBIG， JBIG2， PNG， WBMP其它APNG， BMP， DjVu， EXR， GIF， ICER， ILBM， MNG， PCX， PGF， TGA， TIFF，

50、QTVR，WebP7.4 多媒體音頻/視頻數據的處理7.4.1數字音頻的編輯處理1. 概述數字音頻是指使用脈沖編碼調制、數字信號來錄音。其中包含了數字模擬轉換器、模擬數字轉換器、貯存以及傳輸。相比而言，它具有存儲方便、存儲成本低廉、存儲和傳輸的過程中沒有聲音的失真、編輯和處理非常方便等特點。數字音頻處理涉及到很多種技術，如：音頻采集、語音編碼/解碼、音樂合成、語音識別與理解、音頻數據傳輸、音視頻同步、音頻效果與編輯等。限于篇幅，我們這里僅僅介紹利用音頻處理軟件Audition來對數字音頻完成分割、裁剪、合并和混縮等一些簡單的操作。2. Adobe Audition數字音頻的制作和處理Adobe

51、 Audition是Adobe公司開發(fā)的一款多軌錄音和音頻處理軟件。它是一個非常出色的數字音樂編輯器和MP3制作軟件，其主界面如圖7-4-1。和眾多Windows操作系統下的程序相似，Audition的編輯界面由位于中央的工作區(qū)和左側的素材框組成，在素材框上方的選項卡里可以選擇效果調板和收藏夾調板。圖7-4-1 Audition的主界面下面分別介紹如何使用Adobe Audition進行聲音錄制和對已有的音頻進行編輯處理。（1）聲音的錄制選擇“文件”菜單中的“新建”命令或者直接直接單擊傳送器調板上的錄音鍵進行錄音，可以新建一個音頻文件。首先Audition會彈出一個“新建波形”窗口讓用戶來選

52、擇采樣率、通道和分辨率三個參數，如圖7-4-2。圖7-4-2 新建波形參數選擇窗口選擇參數后按下“確定”按鈕即可按照指定的參數開始錄音，在工作區(qū)可以看到聲音的波形，如圖7-4-3。圖7-4-3 Audition開始錄制聲音在實際的音頻制作中，為了能夠獲得更好的錄制效果，擬制環(huán)境噪音，可以先錄制10秒左右的環(huán)境噪音，然后再開始正式錄音，這樣在后期制作時可以利用前面10秒中的環(huán)境噪音采樣對整個錄音進行降噪處理。環(huán)境噪音樣本文件可以單獨存一個文件，也可以錄制在正式錄音的音頻前段。如果環(huán)境噪音文件和正式錄音錄制在一起，可以在處理完畢后可以把環(huán)境噪音部分剪裁掉。錄制完畢時再次單擊傳送器調板上的錄音鍵停止

53、錄音，然后對錄音文件進行保存。保存時最好是選擇“wav”或者是其他的無損或高質量的音頻格式，以便于后續(xù)的編輯處理。（2）音頻的編輯對于單個音頻，比較常見的操作是剪裁和降噪。剪裁的方法非常簡單，首先用鼠標在工作區(qū)拖動選擇，選中部分會反色顯示，如圖7-4-4。然后在傳送器調板按下播放按鈕可以試聽選擇部分，鼠標可以調整選擇區(qū)域，確認后利用“編輯”菜單中對應的命令或者直接按下delete鍵就可以完成選擇部分的音頻剪裁。圖7-4-4 選擇部分波形降噪處理是基于提前錄制的環(huán)境噪音樣本進行的。這里假設環(huán)境噪音是和正式錄音被錄制在同一個音頻文件中。打開音頻文件后，定位到正式錄音前所錄制的10秒鐘環(huán)境噪音部分

54、，若要獲得較好的降噪效果，在選擇噪音樣本時應當盡量選擇一段平穩(wěn)且單純的環(huán)境噪音片段。然后在素材框上，選擇效果調板，選擇“修復”“降噪器（進程）”打開降噪器窗口，如圖7-4-5。單擊“獲取特性”按鈕進行分析獲得噪音特性，結果如圖7-4-6。圖7-4-5 降噪器窗口圖7-4-6 降噪器窗口獲取噪音特性分析完成后可以將噪音的樣本保存為單獨的文件。關閉降噪器窗口回到工作區(qū)，選擇整個波形，再打開降噪器，單擊“加載”，將剛才保存的噪音樣本打開，如圖7-4-7。為了獲得較好的降噪效果，一次降噪的降噪級別不宜太高，本例中選擇15%。單擊“確定”按鈕完成降噪。圖7-4-7 降噪器窗口載入噪音特性文件還有一種簡

55、單的降噪方法就是適應性降噪，適應性降噪的特點是無需采樣，Audition可以按照音頻文件進行分析自動完成降噪。其操作方法是選擇效果調板，選擇“修復”“適應性降噪”，打開窗口，在窗口頂端“預設效果”下拉列表區(qū)域選擇Light Noise Reduction預置，再勾選“高質量模式（緩慢）”，如圖7-4-8。然后慢慢調整“降噪級別”一個參數即可。除了最主要的降噪器工具，還可以用“消除嘶聲”工具，“自動移除咔噠聲“工具和”破音修復“工具進行其他噪聲的消除處理。圖7-4-8 適應性降噪如果需要對多個音頻文件進行編輯，則需要進入到多軌模式下進行。在菜單“視圖”中選擇“多軌視圖”命令即可進入多軌模式。在文

56、件調板中導入多個要編輯的音頻文件后，可以用鼠標拖動逐個放到工作區(qū)的對應軌道上。此時工作區(qū)上方的工具欄變成如圖7-4-9所示。工具欄最左側為工作區(qū)三種工作模式：編輯、多軌（當前選擇狀態(tài)）和CD，在CD的右側為四個操作工具，從左到右依次為混合工具、時間選擇工具、移動/復制剪輯工具和刷選工具。圖7-4-9 多軌查看模式在多軌模式下，可以很靈活地對多個音軌的剪輯進行分離、復制、剪切、粘貼、合并、混縮等操作。所有的操作基本都遵循一個原則，即利用時間選擇工具選擇部分或者全部音頻剪輯，通過分離合作、剪切、復制/移動等操作使得選中剪輯的變成一段獨立的剪輯塊。把每一段獨立的剪輯塊可以看成是一個對象，然后再利

57、用工具實現合并或者混縮等操作形成新的剪輯塊對象。對于每一個剪輯塊對象，在選中狀態(tài)下，可以添加特殊的效果。其操作方法和前面降噪的操作類似，通過選擇效果調板中對應的操作就可以完成。當對多軌音頻編輯全部完成之后，刪除不需要的音軌，選擇“編輯”“混縮到新文件”命令，然后根據需求輸出到文件?！緦嵗?-4-1】：消除音頻mp3中的原唱聲音。打開需要進行操作的MP3文件。選中整個波形文件，然后選擇“效果”“立體聲聲像”“聲道重混縮”命令，打開通道重混縮對話框。分別如圖7-4-10和圖7-4-11所示圖7-4-10打開聲音重混縮對話框圖7-4-11聲道重混縮對話框在聲道重混縮窗口頂部預設效果下拉列表中選擇“V

58、ocal Cut”選項，然后單擊“確定”按鈕便可以完成原聲消除。處理完成后返回到主界面窗口，便可以把處理后的音頻以“另存為”的方式保存成一個新的只保留伴奏的mp3文件。上述操作非常簡單，實際上對于不同的mp3文件處理的效果也有差異，比較常見的情況是按照上述步驟處理后原唱的聲音沒有消除干凈，依然隱約能聽到原唱的聲音；還有就是伴奏的聲音也發(fā)生了一些變化。因此在要求不高的場合這個操作已經可以滿足需求。如果想獲得更好的“消音”效果，那么需要 “效果”菜單里多個功能來綜合實現，讀者可以搜索相關材料自行閱讀實現。7.4.2.數字視頻制作和處理1. 概述數字視頻的一大優(yōu)點是可重用性，如果需要重用某一部分，只需要在計算機里執(zhí)行復制和粘貼這樣的操作即可；即使視頻中沒有任何可重用的部分，使用數

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第七章多媒體數據壓縮與音視頻處理技術

文檔簡介

溫馨提示

最新文檔

評論

第七章多媒體數據壓縮與音視頻處理技術

文檔簡介

溫馨提示

最新文檔

評論

相關文檔