![信息論之視頻壓縮講稿課件_第1頁(yè)](http://file4.renrendoc.com/view/7c935171b76ce07afae7ecfe23f9a5fb/7c935171b76ce07afae7ecfe23f9a5fb1.gif)
![信息論之視頻壓縮講稿課件_第2頁(yè)](http://file4.renrendoc.com/view/7c935171b76ce07afae7ecfe23f9a5fb/7c935171b76ce07afae7ecfe23f9a5fb2.gif)
![信息論之視頻壓縮講稿課件_第3頁(yè)](http://file4.renrendoc.com/view/7c935171b76ce07afae7ecfe23f9a5fb/7c935171b76ce07afae7ecfe23f9a5fb3.gif)
![信息論之視頻壓縮講稿課件_第4頁(yè)](http://file4.renrendoc.com/view/7c935171b76ce07afae7ecfe23f9a5fb/7c935171b76ce07afae7ecfe23f9a5fb4.gif)
![信息論之視頻壓縮講稿課件_第5頁(yè)](http://file4.renrendoc.com/view/7c935171b76ce07afae7ecfe23f9a5fb/7c935171b76ce07afae7ecfe23f9a5fb5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
信息論之視頻壓縮講稿景麟2007.05信息論之視頻壓縮講稿景麟2007.051
主要討論的問(wèn)題:1.視頻壓縮的必要性2.視頻壓縮的信息論基礎(chǔ)3.常用的視頻壓縮方法4.視頻壓縮的關(guān)鍵技術(shù)5.MPEG-2運(yùn)動(dòng)視頻壓縮標(biāo)準(zhǔn)6.作業(yè)
21視頻壓縮的必要性一幅中等分辨率24位真彩色的位圖圖像(640×480,24位/像素),典型參數(shù)為:●圖像分辨率:640×480●圖像顏色數(shù):16,777,216(=224
)●顏色深度(位):24●數(shù)據(jù)量為:約0.9MB,根據(jù)下式計(jì)算
: 對(duì)于以上數(shù)據(jù)量,若用NTSC制式(30幀/秒)播放動(dòng)態(tài)視頻,需要約27MB/秒的視頻傳輸速度,在650MB的光盤中存放時(shí)間約24秒。
1視頻壓縮的必要性一幅中等分辨率24位真彩色的位圖圖像(631視頻壓縮的必要性 可見(jiàn),在不經(jīng)過(guò)數(shù)據(jù)壓縮情況下,CD視頻播放機(jī)根本無(wú)法達(dá)到實(shí)用目的。目前一張650MB的CD激光視盤可以連續(xù)播放75分鐘的視頻電影。說(shuō)明壓縮的余地相當(dāng)大。 同樣,傳輸中也存在同樣的困難。網(wǎng)絡(luò)帶寬受限。1視頻壓縮的必要性 可見(jiàn),在不經(jīng)過(guò)數(shù)據(jù)壓縮情況下,CD視42視頻壓縮的信息論基礎(chǔ)信息論是視頻數(shù)據(jù)壓縮的重要理論基礎(chǔ)。信息之所以能進(jìn)行壓縮,是因?yàn)樾畔⒈旧硗ǔ4嬖诤艽蟮娜哂嗔?。根?jù)信息論的觀點(diǎn),若信源編碼的熵大于信源的實(shí)際熵,則該信源中一定存在冗余。因此,在數(shù)據(jù)存儲(chǔ)或傳輸時(shí),通過(guò)對(duì)信源選擇優(yōu)化的編碼方案,消除了冗余,也就達(dá)到了數(shù)據(jù)壓縮目的。2視頻壓縮的信息論基礎(chǔ)信息論是視頻數(shù)據(jù)壓縮的重要理論基礎(chǔ)。5信息冗余三種基本的信息冗余編碼冗余自然碼,碼字長(zhǎng)度L編碼效率像素間冗余與像素間相關(guān)性直接聯(lián)系著的數(shù)據(jù)冗余(統(tǒng)計(jì)冗余)結(jié)構(gòu)\空間冗余\(幾何冗余)心理視覺(jué)冗余人眼不是對(duì)所有視覺(jué)信息有相同的敏感度。馬赫帶效應(yīng)知識(shí)冗余信息冗余三種基本的信息冗余6統(tǒng)計(jì)冗余 圖像數(shù)據(jù)存在大量的統(tǒng)計(jì)特征的重復(fù),這種重復(fù)包括靜態(tài)單幀圖像數(shù)據(jù)在空間上的冗余和視頻數(shù)據(jù)在時(shí)間上的冗余。
在動(dòng)態(tài)圖像序列中,前后兩幀圖像之間具有較大的相關(guān)性,表現(xiàn)出幀與幀之間的重復(fù),因而存在時(shí)間冗余。統(tǒng)計(jì)冗余 圖像數(shù)據(jù)存在大量的統(tǒng)計(jì)特征的重復(fù),這種重復(fù)包括靜7結(jié)構(gòu)冗余 有些圖像從大面積上或整體上看存在著重復(fù)出現(xiàn)的相同或相近的紋理結(jié)構(gòu),例如布紋圖像和草席圖像,被稱為結(jié)構(gòu)冗余。結(jié)構(gòu)冗余 有些圖像從大面積上或整體上看存在著重復(fù)出現(xiàn)的相同8幾何冗余幾何冗余9知識(shí)冗余 有許多圖像的理解與圖像所表現(xiàn)內(nèi)容的基礎(chǔ)知識(shí)(先驗(yàn)或背景知識(shí))有相當(dāng)大的相關(guān)性,從這種知識(shí)出發(fā)可以歸納出圖像的某種規(guī)律性變化,這類冗余稱為知識(shí)冗余。知識(shí)冗余的一個(gè)典型例子是對(duì)人像的理解,比如,鼻子上方有眼睛,鼻子又在嘴的上方等。
知識(shí)冗余 有許多圖像的理解與圖像所表現(xiàn)內(nèi)容的基礎(chǔ)知識(shí)(先驗(yàn)10視覺(jué)冗余 人類的視覺(jué)系統(tǒng)實(shí)際上只在一定程度上對(duì)圖像的變化產(chǎn)生敏感,即圖像數(shù)據(jù)中存在著大量人類視覺(jué)覺(jué)察不到的細(xì)節(jié)。事實(shí)上,人類視覺(jué)系統(tǒng)的一般分辨力為64級(jí)灰度,而一般圖像量化采用的是256級(jí)灰度,這類冗余稱為視覺(jué)冗余。256色標(biāo)準(zhǔn)圖像轉(zhuǎn)換成的灰度圖24比特標(biāo)準(zhǔn)圖像轉(zhuǎn)換成的灰度圖視覺(jué)冗余 人類的視覺(jué)系統(tǒng)實(shí)際上只在一定程度上對(duì)圖像的變化11視頻編碼的基本思想是去除視頻圖像中的冗余信息。而信息論和Shannon三大編碼定理是視頻編碼技術(shù)的理論基礎(chǔ)。Shannon三大編碼定理: 無(wú)失真信源編碼定理 有噪離散信道編碼定理 限失真信源編碼定理視頻編碼的基本思想是去除視頻圖像中的冗余信息。而信息論和Sh123常用的視頻壓縮方法(1)數(shù)據(jù)壓縮方法分類從信息保持的角度可分為兩大類: 無(wú)損壓縮和有損壓縮。① 無(wú)損壓縮是利用信源的統(tǒng)計(jì)冗余,數(shù)據(jù)間的相關(guān)性,可完全恢復(fù)數(shù)據(jù)而不引入失真,由于整個(gè)編解碼過(guò)程中,信源信息的熵始終保持不變,因此無(wú)損壓縮又被稱為熵保持編碼,無(wú)損壓縮的編碼效率受信息的熵限制,壓縮率通常在2至5倍。無(wú)損編碼包括:變換編碼、Huffman量化、游程編碼、算術(shù)編碼等。3常用的視頻壓縮方法(1)數(shù)據(jù)壓縮方法分類133常用的視頻壓縮方法②有損編碼則是利用人眼視覺(jué)特性(HVS:HumanVisionSystem),對(duì)人眼不敏感的某些圖像細(xì)節(jié)信息進(jìn)行壓縮甚至忽略不編碼,因此在解碼恢復(fù)的過(guò)程時(shí),不能完全恢復(fù)數(shù)據(jù)的全部信息,引入了失真,但是對(duì)于圖像的最終接收者―人眼而言,獲得的信息的變化不大(即無(wú)大的視覺(jué)失真),同時(shí)獲得較大的壓縮率(10到200倍)。3常用的視頻壓縮方法②有損編碼則是利用人眼視覺(jué)特性(HV143常用的視頻壓縮方法 在常用的視頻編碼應(yīng)用中,有損編碼是與無(wú)損編碼進(jìn)行混合編碼,并以無(wú)損編碼為基礎(chǔ)。3常用的視頻壓縮方法 在常用的視頻編碼應(yīng)用中,有損編碼是與153常用的視頻壓縮方法(2)常用的數(shù)據(jù)壓縮算法
①預(yù)測(cè)編碼(DPCM、ADPCM)
②變換編碼(最佳變換、KLT、DCT)
③統(tǒng)計(jì)編碼(Huffman碼、Shannon-Fano碼、算術(shù)編碼)
④分形圖像編碼(概念、特點(diǎn)、原理、技術(shù)、過(guò)程)
⑤游程編碼(Zig-Zag編碼)⑥輪廓編碼
⑦混合編碼
3常用的視頻壓縮方法(2)常用的數(shù)據(jù)壓縮算法164視頻編碼的關(guān)鍵技術(shù)運(yùn)動(dòng)圖像是視頻編碼的基礎(chǔ)利用人眼的視覺(jué)惰性作用:對(duì)亮度信號(hào)保持感覺(jué)1/20~1/10秒序列圖象、圖形(動(dòng)畫(huà))(25~30幀/秒)形成運(yùn)動(dòng)感覺(jué)4視頻編碼的關(guān)鍵技術(shù)運(yùn)動(dòng)圖像是視頻編碼的基礎(chǔ)174視頻編碼的關(guān)鍵技術(shù)(1)色彩模型 MPEG的視頻圖像使用的是YCbCr(Y色度CbCr為亮度)顏色模型,而不是計(jì)算機(jī)上最常用的RGB。YCbCr模型更適合圖形壓縮,因?yàn)槿搜蹖?duì)圖像上的亮度Y的變化遠(yuǎn)比色度CbCr的變化敏感。我們完全可以每個(gè)點(diǎn)保存一個(gè)8bit的亮度值,每2x2個(gè)點(diǎn)保存一個(gè)CbCr值,而圖象在肉眼中的感覺(jué)不會(huì)起太大的變化。所以,原來(lái)用RGB模型,4個(gè)點(diǎn)需要4x3=12字節(jié)。而現(xiàn)在僅需要4+2=6字節(jié);平均每個(gè)點(diǎn)占12bit,簡(jiǎn)寫(xiě)為YUV12。4視頻編碼的關(guān)鍵技術(shù)(1)色彩模型184視頻編碼的關(guān)鍵技術(shù)RGB->YCbCr的轉(zhuǎn)換:YCbCr->RGB的轉(zhuǎn)換:4視頻編碼的關(guān)鍵技術(shù)RGB->YCbCr的轉(zhuǎn)換:194視頻編碼的關(guān)鍵技術(shù)(2)預(yù)測(cè)編碼(幀間編碼)幀間編碼技術(shù)處理的對(duì)象是序列圖像(也稱為運(yùn)動(dòng)圖像);ASIC的迅速發(fā)展,已有可能把幾幀圖像存儲(chǔ)起來(lái)作實(shí)時(shí)處理,利用幀間的時(shí)間相關(guān)性進(jìn)一步消除圖像信號(hào)的冗余度,提高壓縮比。幀間編碼的技術(shù)基礎(chǔ)是運(yùn)動(dòng)預(yù)測(cè)和補(bǔ)償。4視頻編碼的關(guān)鍵技術(shù)(2)預(yù)測(cè)編碼(幀間編碼)204視頻編碼的關(guān)鍵技術(shù)(2.1)運(yùn)動(dòng)預(yù)測(cè)和補(bǔ)償目前,從H.26x到MPEG-1,2,4都無(wú)一例外地采用“簡(jiǎn)單幀間預(yù)測(cè)運(yùn)動(dòng)補(bǔ)償”(或者“簡(jiǎn)單幀間預(yù)測(cè)+有條件地切換為幀內(nèi)編碼”)的技術(shù)框架。運(yùn)動(dòng)補(bǔ)償(MotionCompensation)簡(jiǎn)寫(xiě)為MC。4視頻編碼的關(guān)鍵技術(shù)(2.1)運(yùn)動(dòng)預(yù)測(cè)和補(bǔ)償21運(yùn)動(dòng)補(bǔ)償運(yùn)動(dòng)補(bǔ)償是MPEG中使用的主要技術(shù)之一。對(duì)提高編碼壓縮比很有好處。尤其對(duì)于運(yùn)動(dòng)部分只占整個(gè)畫(huà)面較小的會(huì)議電視和可視電話,此技術(shù)后,壓縮比可以提高很多。用這一技術(shù)計(jì)算圖像中運(yùn)動(dòng)部分位移的兩個(gè)分量可使預(yù)測(cè)效果大大提高。運(yùn)動(dòng)補(bǔ)償方法是跟蹤畫(huà)面內(nèi)的運(yùn)動(dòng)情況對(duì)其加以補(bǔ)償之后再進(jìn)行幀間預(yù)測(cè)。這項(xiàng)技術(shù)的關(guān)鍵是運(yùn)動(dòng)向量的計(jì)算。運(yùn)動(dòng)補(bǔ)償運(yùn)動(dòng)補(bǔ)償是MPEG中使用的主要技術(shù)之一。對(duì)提高編碼壓22運(yùn)動(dòng)補(bǔ)償運(yùn)動(dòng)預(yù)測(cè)和補(bǔ)償通常由下面幾方面組成:①把圖象分割為靜止和運(yùn)動(dòng)兩部分,并假設(shè)運(yùn)動(dòng)物體僅作平移。②估計(jì)物體的位移值。③用位移估值(即運(yùn)動(dòng)矢量)進(jìn)行運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)。④預(yù)測(cè)信息編碼。運(yùn)動(dòng)補(bǔ)償運(yùn)動(dòng)預(yù)測(cè)和補(bǔ)償通常由下面幾方面組成:23運(yùn)動(dòng)預(yù)測(cè)補(bǔ)償示意圖例如圖中將當(dāng)前預(yù)測(cè)值的位置沿物體平移的方向錯(cuò)開(kāi)Dx個(gè)象素再進(jìn)行預(yù)測(cè),稱運(yùn)動(dòng)預(yù)測(cè)補(bǔ)償。運(yùn)動(dòng)預(yù)測(cè)補(bǔ)償示意圖例如圖中將當(dāng)前預(yù)測(cè)值的位置沿物體平移的方向24運(yùn)動(dòng)預(yù)測(cè)與補(bǔ)償技術(shù)示意運(yùn)動(dòng)預(yù)測(cè)與補(bǔ)償技術(shù)示意25圖象分割圖象分割(ImageSegmentation)是運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)的基礎(chǔ),分割的辦法:①實(shí)際分割成不同運(yùn)動(dòng)的物體,但較困難。②把圖象分為矩形子塊,將子塊分為動(dòng)與不動(dòng)兩種,估計(jì)出運(yùn)動(dòng)子塊的位移。③對(duì)每個(gè)象素的位移都進(jìn)行遞歸估計(jì),計(jì)算量大。圖象分割圖象分割(ImageSegmentation)是運(yùn)26塊匹配法則 塊匹配法則(BlockMatchingAlgorithm)簡(jiǎn)稱BMA,它假設(shè)塊內(nèi)各象素只作相等的平移,H.26x和MPEG都采用了BMA。 首先確定M×N塊與搜索區(qū)的幾何關(guān)系如右圖,用M×N子塊在搜索區(qū)內(nèi)尋求最優(yōu)匹配來(lái)得到運(yùn)動(dòng)矢量估值(dx,dy)。搜索區(qū)域塊匹配法則 塊匹配法則(BlockMatchingAl27塊匹配法則最佳匹配塊判決準(zhǔn)則①互相關(guān)函數(shù)(CCF,CrossCorrelationFunc)②均方誤差(MSE,MeanSquaredError)
為第k幀中(m,n)位置的像素亮度值。塊匹配法則最佳匹配塊判決準(zhǔn)則28塊匹配法則③絕對(duì)差值和(SAD,SumofAbsoluteDifference)
為第k幀中(m,n)位置的像素亮度值。其中CCF計(jì)算量大,運(yùn)用較少;MSE匹配效果最好,實(shí)驗(yàn)中多為采用;MAD計(jì)算量小,效果接近于MSE,多在快速算法中使用。塊匹配法則③絕對(duì)差值和(SAD,SumofAbsolu29搜索方法全搜索(FS,FullSearch) 精度最高,最為復(fù)雜,必須對(duì)搜索范圍內(nèi)所有塊進(jìn)行匹配運(yùn)算。上圖區(qū)域總共需要搜索2Mx×2My次(整象素搜索)??焖偎惴á偃椒?3SS,ThreeStepSearch)②四步法(4SS,FourStepSearch)③二維對(duì)數(shù)搜索法(LOGS,LogarithmicSearch)④菱形搜索法(CS,CrossSearch)⑤鉆石搜索法(DS,DiamondSearch)搜索方法全搜索(FS,FullSearch)30塊匹配法則存在的問(wèn)題:塊尺寸的選擇,塊小的時(shí)候才可近似認(rèn)為塊內(nèi)各點(diǎn)作相等平移,但塊太小易受干擾噪聲的影響,不可靠,而且矢量場(chǎng)比特?cái)?shù)多,塊大可減輕噪聲影響,但影響估值精度。而且大的塊常包含多個(gè)不同運(yùn)動(dòng)的物體,塊內(nèi)運(yùn)動(dòng)一致性難于滿足。H.26x和MPEG的建議選16×16作為“宏塊”。估值得到的運(yùn)動(dòng)矢量場(chǎng)一致性不夠好,這是由于分割圖象為塊的緣故。塊匹配法則存在的問(wèn)題:塊尺寸的選擇,塊小的時(shí)候才可近似認(rèn)為塊31(3)離散余弦變換(DCT)MPEG采用8×8子塊的二維離散余弦變換算法。DCT的實(shí)質(zhì)與特點(diǎn):①利用正交變換實(shí)現(xiàn)圖象數(shù)據(jù)壓縮的實(shí)質(zhì),是通過(guò)圖象取樣信息從空間域轉(zhuǎn)到變換域,其能量集中且保持不變,相鄰系數(shù)近似于不相關(guān),從而保留能量集中部分即可使頻帶壓縮。②DCT是離散傅里葉變換(DFT)的實(shí)部。DCT的均方誤差編碼性能在理論上最接近于在馬爾科夫模型假定下的最佳統(tǒng)計(jì)匹配正交變換(KLT)。③DCT可用快速算法來(lái)實(shí)現(xiàn)。(3)離散余弦變換(DCT)MPEG采用8×8子塊的二維離散32(3)離散余弦變換(DCT)8×8的子圖像塊的變換示意圖(3)離散余弦變換(DCT)8×8的子圖像塊的變換示意圖33(3)離散余弦變換(DCT)DCT公式(DiscreteCosineTransform)①正向DCT(FDCT)上式表明將圖象f從空間域(xy平面)轉(zhuǎn)換到變換域(uv平面)。其中。當(dāng)u=v=0時(shí),;
為所有系數(shù)的均值,稱為DC系數(shù)。當(dāng)u,v不同時(shí)為0,;g(u,v)稱為AC系數(shù)。(3)離散余弦變換(DCT)DCT公式(DiscreteC34(3)離散余弦變換(DCT)二維DCT的矩陣形式:其中:(3)離散余弦變換(DCT)二維DCT的矩陣形式:35(3)離散余弦變換(DCT)顯然:所以,即二維反向DCT(IDCT)的變換式。(3)離散余弦變換(DCT)顯然:36(3)離散余弦變換(DCT)②反向DCT(IDCT)式(2)展開(kāi)為求和形式為:(3)離散余弦變換(DCT)②反向DCT(IDCT)37DCT的可分離性二維DCT可分成行向一維DCT和列向一維DCT組合運(yùn)算。由公式(1)是F每行的一維DCT變換,為G’所有列的一維DCT變換。DCT的可分離性二維DCT可分成行向一維DCT和列向一維DC38DCT的快速算法二維快速DCT是把8×8塊不斷分成更小的無(wú)交疊子塊,直接對(duì)數(shù)據(jù)塊進(jìn)行運(yùn)算操作。AA&N優(yōu)化算法,在Intel主頁(yè)上可以找到AA&NIDCT的MMX優(yōu)化代碼。(Intel主頁(yè)上的代碼,輸入數(shù)據(jù)為12.4的定點(diǎn)數(shù),輸入矩陣需要轉(zhuǎn)置90度)DCT的快速算法二維快速DCT是把8×8塊不斷分成更小的無(wú)交39(3)離散余弦變換(DCT)FDCT輸出64個(gè)基信號(hào)的幅值稱作“DCT系數(shù)”,即DCT變換系數(shù)值。64個(gè)變換系數(shù)中包括一個(gè)代表直流分量的“DC系數(shù)”和63個(gè)代表交流分量的“AC”系數(shù)。IDCT是FDCT的逆過(guò)程,它把64個(gè)DCT變換系數(shù)經(jīng)逆變換運(yùn)算,重建一個(gè)64點(diǎn)的輸出圖象。在所用設(shè)備的計(jì)算精足夠高的前提下,且系數(shù)未經(jīng)過(guò)量化,原始的64點(diǎn)信號(hào)就能夠精確地恢復(fù)。(DCT可以看做是無(wú)損的)(3)離散余弦變換(DCT)FDCT輸出64個(gè)基信號(hào)的幅值稱40(4)量化量化的作用是在一定的主觀保真度圖象質(zhì)量前提下,丟掉那些對(duì)視覺(jué)影響不大的信息,不同頻率的DCT系數(shù)對(duì)視覺(jué)影響不同,可以根據(jù)不同頻率的視覺(jué)閾值來(lái)選擇量化表中的元素值的大小。這樣通過(guò)心理視覺(jué)實(shí)驗(yàn),去確定對(duì)應(yīng)于不同頻率的視覺(jué)閾值,以確定不同頻率的量化器步長(zhǎng)。(4)量化量化的作用是在一定的主觀保真度圖象質(zhì)量前提下,丟掉41(4)量化MPEG-2中采用線性量化器,量化定義為對(duì)64個(gè)DCT系數(shù)除以量化步長(zhǎng)(QP),四舍五入取整。所以量化的過(guò)程是有損的。
QP由量化表給出,并可以加權(quán)伸縮。MPEG-2給出的量化表,是根據(jù)人類視覺(jué)系統(tǒng)(HVS)特性而得到的。并對(duì)于內(nèi)部塊和殘差塊采用不同的量化表。(4)量化MPEG-2中采用線性量化器,量化定義為對(duì)64個(gè)D42(4)量化亮度量化表和色度量化表非內(nèi)部塊(亮度和色度)默認(rèn)量化表內(nèi)部塊(亮度和色度)默認(rèn)量化表低頻分量部分,量化步距較小(4)量化亮度量化表和色度量化表非內(nèi)部塊(亮度和色度)默認(rèn)量43(5)DC系數(shù)編碼64個(gè)變換系數(shù)經(jīng)量化后,坐標(biāo)(u,v)=(0,0)的DC系數(shù)是直流分量,即64個(gè)空域圖象采樣值的平均值。由于相鄰塊(8×8)之間的DC系數(shù)相關(guān)性強(qiáng),MPEG對(duì)DC系數(shù)采用DPCM(差分編碼)方法,即Diff=DCi
-DCi-1。即對(duì)相鄰像素塊之間DC系數(shù)的差值進(jìn)行編碼。(5)DC系數(shù)編碼64個(gè)變換系數(shù)經(jīng)量化后,坐標(biāo)(u,v)44(5)DC系數(shù)編碼根據(jù)DC系數(shù)的特點(diǎn),MPEG算法使用了差分脈沖調(diào)制編碼(DPCM)技術(shù),即對(duì)相鄰塊之間的DC系數(shù)的差值:
Diff=DCi
-DCi-1 進(jìn)行編碼。
圖DC系數(shù)差分編碼(5)DC系數(shù)編碼根據(jù)DC系數(shù)的特點(diǎn),MPEG算法使用了差45(6)行程編碼其余63個(gè)交流系數(shù)(AC系數(shù))采用行程編碼從左上方AC1開(kāi)始,沿對(duì)角線方向,以“Z”字形(Zig-Zag)行程掃描,直至AC63掃描結(jié)束。量化后的AC系數(shù)通常會(huì)有許多零值,以“Z”字形路經(jīng)進(jìn)行行程編碼,可增加行程中連續(xù)零的個(gè)數(shù),63個(gè)AC系數(shù)行程編碼的碼字甚至可用兩個(gè)字節(jié)表示。(6)行程編碼其余63個(gè)交流系數(shù)(AC系數(shù))采用行程編碼從左46(6)行程編碼(6)行程編碼47(6)行程編碼編排的方法是按照Z(yǔ)字形的式樣編排。這樣就把一個(gè)8×8的矩陣變成一個(gè)1×64的矢量,頻率較低的系數(shù)放在矢量的頂部。(6)行程編碼編排的方法是按照Z(yǔ)字形的式樣編排。這樣就把一個(gè)48(7)變長(zhǎng)編碼(VLC)經(jīng)過(guò)行程編碼后的矢量中有許多連續(xù)的0。為了壓縮掉這些連續(xù)的0,可對(duì)DC和AC行程編碼的碼字再作基于統(tǒng)計(jì)特性的熵編碼,MPEG采用基于統(tǒng)計(jì)的哈夫曼熵編碼(Huffman)。變長(zhǎng)編碼步驟:①把DC系數(shù)和行程AC系數(shù)進(jìn)行run-level編碼;②查變長(zhǎng)碼表將(run,level)碼字轉(zhuǎn)換成變長(zhǎng)的二進(jìn)制碼字;③串行地輸出變長(zhǎng)碼字作為輸入碼流。(7)變長(zhǎng)編碼(VLC)經(jīng)過(guò)行程編碼后的矢量中有許多連續(xù)的049(7)變長(zhǎng)編碼(VLC)run-level編碼:計(jì)算每個(gè)非零DCT系數(shù)前連續(xù)0的個(gè)數(shù)記為run,然后和當(dāng)前DCT系數(shù)的幅值(level)配對(duì)作為一個(gè)(run,level)碼字。例如:有一組矢量(64個(gè)的后63個(gè))是40,31,0,0,0,0,2,0,-30,-16,0,0,1,0,0,0,0,0,0,0,..,0 經(jīng)過(guò)run-level編碼后就是
(0,40);(0,31);(4,2);(1,-30);(0,-16);(2,1)(7)變長(zhǎng)編碼(VLC)run-level編碼:計(jì)算每個(gè)非50(7)變長(zhǎng)編碼(VLC)查VLC碼表將(run,level)轉(zhuǎn)換成二進(jìn)制變長(zhǎng)碼。VLC碼表是基于統(tǒng)計(jì)的Huffman表,其制定原則是根據(jù)MPEG組織對(duì)大量的(run,level)進(jìn)行統(tǒng)計(jì)后,對(duì)于出現(xiàn)頻率高的(run,level)用短碼來(lái)表示,對(duì)于出現(xiàn)頻率低的(run,level)用長(zhǎng)碼來(lái)表示,對(duì)于極少出現(xiàn)的(run,level)用定長(zhǎng)碼(轉(zhuǎn)碼)來(lái)表示。所有VLC碼都是即時(shí)碼,即任一變長(zhǎng)碼不是其他變長(zhǎng)的前綴,滿足Huffman碼的特征。(7)變長(zhǎng)編碼(VLC)查VLC碼表將(run,level51(7)變長(zhǎng)編碼(VLC)接上例,查VLC碼表:(0,40)->0000000000100000;(0,31)->000000000100000;(4,2)->1111110110;(1,-30)->000001(換碼)000001(run)111111100010(level);(0,-16)->000000000111111;(2,1)->001010。(7)變長(zhǎng)編碼(VLC)接上例,查VLC碼表:525MPEG-2運(yùn)動(dòng)視頻壓縮標(biāo)準(zhǔn)MPEG-2是國(guó)際標(biāo)準(zhǔn)化組織于1994年發(fā)布的面向演播級(jí)的視頻、音頻壓縮標(biāo)準(zhǔn)。MPEG-2編碼碼率從3M~100Mbps,標(biāo)準(zhǔn)的正式規(guī)范在ISO/IEC13818中。MPEG-2不是MPEG-1的簡(jiǎn)單升級(jí),MPEG-2在系統(tǒng)和傳送方面作了更加詳細(xì)的規(guī)定和進(jìn)一步的完善。MPEG-2特別適用于廣播級(jí)的數(shù)字電視的編碼和傳送,被認(rèn)定為SDTV和HDTV的編碼標(biāo)準(zhǔn)。5MPEG-2運(yùn)動(dòng)視頻壓縮標(biāo)準(zhǔn)MPEG-2是國(guó)際標(biāo)準(zhǔn)化組535MPEG-2運(yùn)動(dòng)視頻壓縮標(biāo)準(zhǔn)(1)MPEG-2視頻流數(shù)據(jù)層次 MPEG-2標(biāo)準(zhǔn)定義了視頻流數(shù)據(jù)結(jié)構(gòu)的層次如下圖所示:5MPEG-2運(yùn)動(dòng)視頻壓縮標(biāo)準(zhǔn)(1)MPEG-2視頻流數(shù)據(jù)545MPEG-2運(yùn)動(dòng)視頻壓縮標(biāo)準(zhǔn)比特流的語(yǔ)法層及其功能如下表所示(結(jié)合上圖):5MPEG-2運(yùn)動(dòng)視頻壓縮標(biāo)準(zhǔn)比特流的語(yǔ)法層及其功能如下表555MPEG-2運(yùn)動(dòng)視頻壓縮標(biāo)準(zhǔn)其中包括:視頻序列(VideoSequence)由一系列的頭,一個(gè)或多個(gè)圖組,和一個(gè)序列結(jié)束碼組成。圖組(GroupofPictures)是一個(gè)或多個(gè)幀圖片序列。允許隨機(jī)訪問(wèn)其序列。圖(Picture)是一個(gè)視頻序列的基本編碼單元,圖片由三個(gè)正交的本色組成,包括亮度Y,兩個(gè)色度CbCr的值。5MPEG-2運(yùn)動(dòng)視頻壓縮標(biāo)準(zhǔn)其中包括:565MPEG-2運(yùn)動(dòng)視頻壓縮標(biāo)準(zhǔn)切片(Slice)是一個(gè)或多個(gè)結(jié)構(gòu)宏塊,在Slice里宏塊的順序是從左到右,從上到下。在差錯(cuò)處理時(shí)Slice是很重要。如果位流有一個(gè)錯(cuò)誤,解碼器可以從下一個(gè)Slice起點(diǎn)開(kāi)始解碼,這有利于改善圖像質(zhì)量。宏塊(Macroblock)是一個(gè)16×16的亮度分區(qū)和相應(yīng)的8×8色度分量分區(qū)。宏塊是進(jìn)行運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償?shù)幕締卧?。塊(Block)是一個(gè)8×8的亮度分區(qū)和相應(yīng)的4×4色度分量分區(qū)。塊是進(jìn)行編碼的基本單元。5MPEG-2運(yùn)動(dòng)視頻壓縮標(biāo)準(zhǔn)切片(Slice)是一個(gè)或多575MPEG-2運(yùn)動(dòng)視頻壓縮標(biāo)準(zhǔn)(2)編碼幀類型 MPEG-2標(biāo)準(zhǔn)專門定義3種編碼幀類型: Intra、Predicted和Bidirectional。Intra-Pictures即稱Ⅰ圖,編碼時(shí)僅使用本圖信息,Ⅰ圖提供所有可能的隨機(jī)訪問(wèn)點(diǎn)進(jìn)入壓縮的視頻數(shù)據(jù),Ⅰ圖僅使用變換編碼,因此它提供適度的壓縮倍數(shù),典型的約每象素2位為宜。5MPEG-2運(yùn)動(dòng)視頻壓縮標(biāo)準(zhǔn)(2)編碼幀類型58I幀的壓縮編碼算法框圖I幀的壓縮編碼算法框圖59PredictedPictures稱為P圖,它被編碼時(shí)參考最接近的前面的Ⅰ或P圖作運(yùn)動(dòng)預(yù)測(cè)和補(bǔ)償,這種技術(shù)稱之為前向預(yù)測(cè),如下圖:PredictedPictures稱為P圖,它被編碼時(shí)參考60P幀的壓縮編碼算法框圖P幀的壓縮編碼算法框圖61BidirectionalPictures稱為B圖,它使用I圖或過(guò)去的或?qū)?lái)的P圖作參考幀,這種技術(shù)稱為雙向預(yù)測(cè)。如下面圖所示,B類圖提供最大的壓縮并不會(huì)產(chǎn)生誤差,因?yàn)樗粫?huì)被用作參考圖。由于它對(duì)兩幀起了平均作用,雙向預(yù)測(cè)還減少了噪聲的影響。BidirectionalPictures稱為B圖,它使用62B幀的壓縮編碼算法框圖B幀的壓縮編碼算法框圖63(3)視頻流IPB典型布局 MPEG-2算法允許編碼時(shí)選擇頻率并定位Ⅰ圖,這種選擇基于對(duì)隨機(jī)訪問(wèn)性在應(yīng)用時(shí)的需要(例如實(shí)驗(yàn)快進(jìn)、快退),并定位在視頻序列里場(chǎng)景的剪切。在應(yīng)用中隨機(jī)訪問(wèn)是重要的,I圖典型地用于每秒兩次。(3)視頻流IPB典型布局64下圖表示一個(gè)典型的I、P和B圖的布局,按顯示順序布局。
123456789101112131415 IBBPBBPBBPBB--PAL制 IBBPBBPBBPBBPBB --NTSC制下圖表示一個(gè)典型的I、P和B圖的布局,按顯示順序布局。65幀重排MPEG編碼器在視頻流里重排圖片順序,提交給解碼器,以最有效的序列方式來(lái)表示圖片。實(shí)際上,在組合B圖之前參考的P圖需要先重構(gòu)出來(lái)。幀重排MPEG編碼器在視頻流里重排圖片順序,提交給解碼器,以66作業(yè)實(shí)現(xiàn)一個(gè)簡(jiǎn)單的基于MPEG-2標(biāo)準(zhǔn)的編碼器,包括以下內(nèi)容:基于宏塊的運(yùn)動(dòng)估計(jì)補(bǔ)償(塊匹配準(zhǔn)則、搜索范圍、搜索算法);離散余弦變換(DCT),快速算法;量化(Quantization);DC系數(shù)的差分編碼(DPCM);AC系數(shù)的行程編碼(RLE);基于run-level的變長(zhǎng)編碼(VLC)。GOP布局為IBBPBBP,至少一個(gè)GOP的編碼。作業(yè)實(shí)現(xiàn)一個(gè)簡(jiǎn)單的基于MPEG-2標(biāo)準(zhǔn)的編碼器,包括以下內(nèi)容67信息論之視頻壓縮講稿景麟2007.05信息論之視頻壓縮講稿景麟2007.0568
主要討論的問(wèn)題:1.視頻壓縮的必要性2.視頻壓縮的信息論基礎(chǔ)3.常用的視頻壓縮方法4.視頻壓縮的關(guān)鍵技術(shù)5.MPEG-2運(yùn)動(dòng)視頻壓縮標(biāo)準(zhǔn)6.作業(yè)
691視頻壓縮的必要性一幅中等分辨率24位真彩色的位圖圖像(640×480,24位/像素),典型參數(shù)為:●圖像分辨率:640×480●圖像顏色數(shù):16,777,216(=224
)●顏色深度(位):24●數(shù)據(jù)量為:約0.9MB,根據(jù)下式計(jì)算
: 對(duì)于以上數(shù)據(jù)量,若用NTSC制式(30幀/秒)播放動(dòng)態(tài)視頻,需要約27MB/秒的視頻傳輸速度,在650MB的光盤中存放時(shí)間約24秒。
1視頻壓縮的必要性一幅中等分辨率24位真彩色的位圖圖像(6701視頻壓縮的必要性 可見(jiàn),在不經(jīng)過(guò)數(shù)據(jù)壓縮情況下,CD視頻播放機(jī)根本無(wú)法達(dá)到實(shí)用目的。目前一張650MB的CD激光視盤可以連續(xù)播放75分鐘的視頻電影。說(shuō)明壓縮的余地相當(dāng)大。 同樣,傳輸中也存在同樣的困難。網(wǎng)絡(luò)帶寬受限。1視頻壓縮的必要性 可見(jiàn),在不經(jīng)過(guò)數(shù)據(jù)壓縮情況下,CD視712視頻壓縮的信息論基礎(chǔ)信息論是視頻數(shù)據(jù)壓縮的重要理論基礎(chǔ)。信息之所以能進(jìn)行壓縮,是因?yàn)樾畔⒈旧硗ǔ4嬖诤艽蟮娜哂嗔?。根?jù)信息論的觀點(diǎn),若信源編碼的熵大于信源的實(shí)際熵,則該信源中一定存在冗余。因此,在數(shù)據(jù)存儲(chǔ)或傳輸時(shí),通過(guò)對(duì)信源選擇優(yōu)化的編碼方案,消除了冗余,也就達(dá)到了數(shù)據(jù)壓縮目的。2視頻壓縮的信息論基礎(chǔ)信息論是視頻數(shù)據(jù)壓縮的重要理論基礎(chǔ)。72信息冗余三種基本的信息冗余編碼冗余自然碼,碼字長(zhǎng)度L編碼效率像素間冗余與像素間相關(guān)性直接聯(lián)系著的數(shù)據(jù)冗余(統(tǒng)計(jì)冗余)結(jié)構(gòu)\空間冗余\(幾何冗余)心理視覺(jué)冗余人眼不是對(duì)所有視覺(jué)信息有相同的敏感度。馬赫帶效應(yīng)知識(shí)冗余信息冗余三種基本的信息冗余73統(tǒng)計(jì)冗余 圖像數(shù)據(jù)存在大量的統(tǒng)計(jì)特征的重復(fù),這種重復(fù)包括靜態(tài)單幀圖像數(shù)據(jù)在空間上的冗余和視頻數(shù)據(jù)在時(shí)間上的冗余。
在動(dòng)態(tài)圖像序列中,前后兩幀圖像之間具有較大的相關(guān)性,表現(xiàn)出幀與幀之間的重復(fù),因而存在時(shí)間冗余。統(tǒng)計(jì)冗余 圖像數(shù)據(jù)存在大量的統(tǒng)計(jì)特征的重復(fù),這種重復(fù)包括靜74結(jié)構(gòu)冗余 有些圖像從大面積上或整體上看存在著重復(fù)出現(xiàn)的相同或相近的紋理結(jié)構(gòu),例如布紋圖像和草席圖像,被稱為結(jié)構(gòu)冗余。結(jié)構(gòu)冗余 有些圖像從大面積上或整體上看存在著重復(fù)出現(xiàn)的相同75幾何冗余幾何冗余76知識(shí)冗余 有許多圖像的理解與圖像所表現(xiàn)內(nèi)容的基礎(chǔ)知識(shí)(先驗(yàn)或背景知識(shí))有相當(dāng)大的相關(guān)性,從這種知識(shí)出發(fā)可以歸納出圖像的某種規(guī)律性變化,這類冗余稱為知識(shí)冗余。知識(shí)冗余的一個(gè)典型例子是對(duì)人像的理解,比如,鼻子上方有眼睛,鼻子又在嘴的上方等。
知識(shí)冗余 有許多圖像的理解與圖像所表現(xiàn)內(nèi)容的基礎(chǔ)知識(shí)(先驗(yàn)77視覺(jué)冗余 人類的視覺(jué)系統(tǒng)實(shí)際上只在一定程度上對(duì)圖像的變化產(chǎn)生敏感,即圖像數(shù)據(jù)中存在著大量人類視覺(jué)覺(jué)察不到的細(xì)節(jié)。事實(shí)上,人類視覺(jué)系統(tǒng)的一般分辨力為64級(jí)灰度,而一般圖像量化采用的是256級(jí)灰度,這類冗余稱為視覺(jué)冗余。256色標(biāo)準(zhǔn)圖像轉(zhuǎn)換成的灰度圖24比特標(biāo)準(zhǔn)圖像轉(zhuǎn)換成的灰度圖視覺(jué)冗余 人類的視覺(jué)系統(tǒng)實(shí)際上只在一定程度上對(duì)圖像的變化78視頻編碼的基本思想是去除視頻圖像中的冗余信息。而信息論和Shannon三大編碼定理是視頻編碼技術(shù)的理論基礎(chǔ)。Shannon三大編碼定理: 無(wú)失真信源編碼定理 有噪離散信道編碼定理 限失真信源編碼定理視頻編碼的基本思想是去除視頻圖像中的冗余信息。而信息論和Sh793常用的視頻壓縮方法(1)數(shù)據(jù)壓縮方法分類從信息保持的角度可分為兩大類: 無(wú)損壓縮和有損壓縮。① 無(wú)損壓縮是利用信源的統(tǒng)計(jì)冗余,數(shù)據(jù)間的相關(guān)性,可完全恢復(fù)數(shù)據(jù)而不引入失真,由于整個(gè)編解碼過(guò)程中,信源信息的熵始終保持不變,因此無(wú)損壓縮又被稱為熵保持編碼,無(wú)損壓縮的編碼效率受信息的熵限制,壓縮率通常在2至5倍。無(wú)損編碼包括:變換編碼、Huffman量化、游程編碼、算術(shù)編碼等。3常用的視頻壓縮方法(1)數(shù)據(jù)壓縮方法分類803常用的視頻壓縮方法②有損編碼則是利用人眼視覺(jué)特性(HVS:HumanVisionSystem),對(duì)人眼不敏感的某些圖像細(xì)節(jié)信息進(jìn)行壓縮甚至忽略不編碼,因此在解碼恢復(fù)的過(guò)程時(shí),不能完全恢復(fù)數(shù)據(jù)的全部信息,引入了失真,但是對(duì)于圖像的最終接收者―人眼而言,獲得的信息的變化不大(即無(wú)大的視覺(jué)失真),同時(shí)獲得較大的壓縮率(10到200倍)。3常用的視頻壓縮方法②有損編碼則是利用人眼視覺(jué)特性(HV813常用的視頻壓縮方法 在常用的視頻編碼應(yīng)用中,有損編碼是與無(wú)損編碼進(jìn)行混合編碼,并以無(wú)損編碼為基礎(chǔ)。3常用的視頻壓縮方法 在常用的視頻編碼應(yīng)用中,有損編碼是與823常用的視頻壓縮方法(2)常用的數(shù)據(jù)壓縮算法
①預(yù)測(cè)編碼(DPCM、ADPCM)
②變換編碼(最佳變換、KLT、DCT)
③統(tǒng)計(jì)編碼(Huffman碼、Shannon-Fano碼、算術(shù)編碼)
④分形圖像編碼(概念、特點(diǎn)、原理、技術(shù)、過(guò)程)
⑤游程編碼(Zig-Zag編碼)⑥輪廓編碼
⑦混合編碼
3常用的視頻壓縮方法(2)常用的數(shù)據(jù)壓縮算法834視頻編碼的關(guān)鍵技術(shù)運(yùn)動(dòng)圖像是視頻編碼的基礎(chǔ)利用人眼的視覺(jué)惰性作用:對(duì)亮度信號(hào)保持感覺(jué)1/20~1/10秒序列圖象、圖形(動(dòng)畫(huà))(25~30幀/秒)形成運(yùn)動(dòng)感覺(jué)4視頻編碼的關(guān)鍵技術(shù)運(yùn)動(dòng)圖像是視頻編碼的基礎(chǔ)844視頻編碼的關(guān)鍵技術(shù)(1)色彩模型 MPEG的視頻圖像使用的是YCbCr(Y色度CbCr為亮度)顏色模型,而不是計(jì)算機(jī)上最常用的RGB。YCbCr模型更適合圖形壓縮,因?yàn)槿搜蹖?duì)圖像上的亮度Y的變化遠(yuǎn)比色度CbCr的變化敏感。我們完全可以每個(gè)點(diǎn)保存一個(gè)8bit的亮度值,每2x2個(gè)點(diǎn)保存一個(gè)CbCr值,而圖象在肉眼中的感覺(jué)不會(huì)起太大的變化。所以,原來(lái)用RGB模型,4個(gè)點(diǎn)需要4x3=12字節(jié)。而現(xiàn)在僅需要4+2=6字節(jié);平均每個(gè)點(diǎn)占12bit,簡(jiǎn)寫(xiě)為YUV12。4視頻編碼的關(guān)鍵技術(shù)(1)色彩模型854視頻編碼的關(guān)鍵技術(shù)RGB->YCbCr的轉(zhuǎn)換:YCbCr->RGB的轉(zhuǎn)換:4視頻編碼的關(guān)鍵技術(shù)RGB->YCbCr的轉(zhuǎn)換:864視頻編碼的關(guān)鍵技術(shù)(2)預(yù)測(cè)編碼(幀間編碼)幀間編碼技術(shù)處理的對(duì)象是序列圖像(也稱為運(yùn)動(dòng)圖像);ASIC的迅速發(fā)展,已有可能把幾幀圖像存儲(chǔ)起來(lái)作實(shí)時(shí)處理,利用幀間的時(shí)間相關(guān)性進(jìn)一步消除圖像信號(hào)的冗余度,提高壓縮比。幀間編碼的技術(shù)基礎(chǔ)是運(yùn)動(dòng)預(yù)測(cè)和補(bǔ)償。4視頻編碼的關(guān)鍵技術(shù)(2)預(yù)測(cè)編碼(幀間編碼)874視頻編碼的關(guān)鍵技術(shù)(2.1)運(yùn)動(dòng)預(yù)測(cè)和補(bǔ)償目前,從H.26x到MPEG-1,2,4都無(wú)一例外地采用“簡(jiǎn)單幀間預(yù)測(cè)運(yùn)動(dòng)補(bǔ)償”(或者“簡(jiǎn)單幀間預(yù)測(cè)+有條件地切換為幀內(nèi)編碼”)的技術(shù)框架。運(yùn)動(dòng)補(bǔ)償(MotionCompensation)簡(jiǎn)寫(xiě)為MC。4視頻編碼的關(guān)鍵技術(shù)(2.1)運(yùn)動(dòng)預(yù)測(cè)和補(bǔ)償88運(yùn)動(dòng)補(bǔ)償運(yùn)動(dòng)補(bǔ)償是MPEG中使用的主要技術(shù)之一。對(duì)提高編碼壓縮比很有好處。尤其對(duì)于運(yùn)動(dòng)部分只占整個(gè)畫(huà)面較小的會(huì)議電視和可視電話,此技術(shù)后,壓縮比可以提高很多。用這一技術(shù)計(jì)算圖像中運(yùn)動(dòng)部分位移的兩個(gè)分量可使預(yù)測(cè)效果大大提高。運(yùn)動(dòng)補(bǔ)償方法是跟蹤畫(huà)面內(nèi)的運(yùn)動(dòng)情況對(duì)其加以補(bǔ)償之后再進(jìn)行幀間預(yù)測(cè)。這項(xiàng)技術(shù)的關(guān)鍵是運(yùn)動(dòng)向量的計(jì)算。運(yùn)動(dòng)補(bǔ)償運(yùn)動(dòng)補(bǔ)償是MPEG中使用的主要技術(shù)之一。對(duì)提高編碼壓89運(yùn)動(dòng)補(bǔ)償運(yùn)動(dòng)預(yù)測(cè)和補(bǔ)償通常由下面幾方面組成:①把圖象分割為靜止和運(yùn)動(dòng)兩部分,并假設(shè)運(yùn)動(dòng)物體僅作平移。②估計(jì)物體的位移值。③用位移估值(即運(yùn)動(dòng)矢量)進(jìn)行運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)。④預(yù)測(cè)信息編碼。運(yùn)動(dòng)補(bǔ)償運(yùn)動(dòng)預(yù)測(cè)和補(bǔ)償通常由下面幾方面組成:90運(yùn)動(dòng)預(yù)測(cè)補(bǔ)償示意圖例如圖中將當(dāng)前預(yù)測(cè)值的位置沿物體平移的方向錯(cuò)開(kāi)Dx個(gè)象素再進(jìn)行預(yù)測(cè),稱運(yùn)動(dòng)預(yù)測(cè)補(bǔ)償。運(yùn)動(dòng)預(yù)測(cè)補(bǔ)償示意圖例如圖中將當(dāng)前預(yù)測(cè)值的位置沿物體平移的方向91運(yùn)動(dòng)預(yù)測(cè)與補(bǔ)償技術(shù)示意運(yùn)動(dòng)預(yù)測(cè)與補(bǔ)償技術(shù)示意92圖象分割圖象分割(ImageSegmentation)是運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)的基礎(chǔ),分割的辦法:①實(shí)際分割成不同運(yùn)動(dòng)的物體,但較困難。②把圖象分為矩形子塊,將子塊分為動(dòng)與不動(dòng)兩種,估計(jì)出運(yùn)動(dòng)子塊的位移。③對(duì)每個(gè)象素的位移都進(jìn)行遞歸估計(jì),計(jì)算量大。圖象分割圖象分割(ImageSegmentation)是運(yùn)93塊匹配法則 塊匹配法則(BlockMatchingAlgorithm)簡(jiǎn)稱BMA,它假設(shè)塊內(nèi)各象素只作相等的平移,H.26x和MPEG都采用了BMA。 首先確定M×N塊與搜索區(qū)的幾何關(guān)系如右圖,用M×N子塊在搜索區(qū)內(nèi)尋求最優(yōu)匹配來(lái)得到運(yùn)動(dòng)矢量估值(dx,dy)。搜索區(qū)域塊匹配法則 塊匹配法則(BlockMatchingAl94塊匹配法則最佳匹配塊判決準(zhǔn)則①互相關(guān)函數(shù)(CCF,CrossCorrelationFunc)②均方誤差(MSE,MeanSquaredError)
為第k幀中(m,n)位置的像素亮度值。塊匹配法則最佳匹配塊判決準(zhǔn)則95塊匹配法則③絕對(duì)差值和(SAD,SumofAbsoluteDifference)
為第k幀中(m,n)位置的像素亮度值。其中CCF計(jì)算量大,運(yùn)用較少;MSE匹配效果最好,實(shí)驗(yàn)中多為采用;MAD計(jì)算量小,效果接近于MSE,多在快速算法中使用。塊匹配法則③絕對(duì)差值和(SAD,SumofAbsolu96搜索方法全搜索(FS,FullSearch) 精度最高,最為復(fù)雜,必須對(duì)搜索范圍內(nèi)所有塊進(jìn)行匹配運(yùn)算。上圖區(qū)域總共需要搜索2Mx×2My次(整象素搜索)??焖偎惴á偃椒?3SS,ThreeStepSearch)②四步法(4SS,FourStepSearch)③二維對(duì)數(shù)搜索法(LOGS,LogarithmicSearch)④菱形搜索法(CS,CrossSearch)⑤鉆石搜索法(DS,DiamondSearch)搜索方法全搜索(FS,FullSearch)97塊匹配法則存在的問(wèn)題:塊尺寸的選擇,塊小的時(shí)候才可近似認(rèn)為塊內(nèi)各點(diǎn)作相等平移,但塊太小易受干擾噪聲的影響,不可靠,而且矢量場(chǎng)比特?cái)?shù)多,塊大可減輕噪聲影響,但影響估值精度。而且大的塊常包含多個(gè)不同運(yùn)動(dòng)的物體,塊內(nèi)運(yùn)動(dòng)一致性難于滿足。H.26x和MPEG的建議選16×16作為“宏塊”。估值得到的運(yùn)動(dòng)矢量場(chǎng)一致性不夠好,這是由于分割圖象為塊的緣故。塊匹配法則存在的問(wèn)題:塊尺寸的選擇,塊小的時(shí)候才可近似認(rèn)為塊98(3)離散余弦變換(DCT)MPEG采用8×8子塊的二維離散余弦變換算法。DCT的實(shí)質(zhì)與特點(diǎn):①利用正交變換實(shí)現(xiàn)圖象數(shù)據(jù)壓縮的實(shí)質(zhì),是通過(guò)圖象取樣信息從空間域轉(zhuǎn)到變換域,其能量集中且保持不變,相鄰系數(shù)近似于不相關(guān),從而保留能量集中部分即可使頻帶壓縮。②DCT是離散傅里葉變換(DFT)的實(shí)部。DCT的均方誤差編碼性能在理論上最接近于在馬爾科夫模型假定下的最佳統(tǒng)計(jì)匹配正交變換(KLT)。③DCT可用快速算法來(lái)實(shí)現(xiàn)。(3)離散余弦變換(DCT)MPEG采用8×8子塊的二維離散99(3)離散余弦變換(DCT)8×8的子圖像塊的變換示意圖(3)離散余弦變換(DCT)8×8的子圖像塊的變換示意圖100(3)離散余弦變換(DCT)DCT公式(DiscreteCosineTransform)①正向DCT(FDCT)上式表明將圖象f從空間域(xy平面)轉(zhuǎn)換到變換域(uv平面)。其中。當(dāng)u=v=0時(shí),;
為所有系數(shù)的均值,稱為DC系數(shù)。當(dāng)u,v不同時(shí)為0,;g(u,v)稱為AC系數(shù)。(3)離散余弦變換(DCT)DCT公式(DiscreteC101(3)離散余弦變換(DCT)二維DCT的矩陣形式:其中:(3)離散余弦變換(DCT)二維DCT的矩陣形式:102(3)離散余弦變換(DCT)顯然:所以,即二維反向DCT(IDCT)的變換式。(3)離散余弦變換(DCT)顯然:103(3)離散余弦變換(DCT)②反向DCT(IDCT)式(2)展開(kāi)為求和形式為:(3)離散余弦變換(DCT)②反向DCT(IDCT)104DCT的可分離性二維DCT可分成行向一維DCT和列向一維DCT組合運(yùn)算。由公式(1)是F每行的一維DCT變換,為G’所有列的一維DCT變換。DCT的可分離性二維DCT可分成行向一維DCT和列向一維DC105DCT的快速算法二維快速DCT是把8×8塊不斷分成更小的無(wú)交疊子塊,直接對(duì)數(shù)據(jù)塊進(jìn)行運(yùn)算操作。AA&N優(yōu)化算法,在Intel主頁(yè)上可以找到AA&NIDCT的MMX優(yōu)化代碼。(Intel主頁(yè)上的代碼,輸入數(shù)據(jù)為12.4的定點(diǎn)數(shù),輸入矩陣需要轉(zhuǎn)置90度)DCT的快速算法二維快速DCT是把8×8塊不斷分成更小的無(wú)交106(3)離散余弦變換(DCT)FDCT輸出64個(gè)基信號(hào)的幅值稱作“DCT系數(shù)”,即DCT變換系數(shù)值。64個(gè)變換系數(shù)中包括一個(gè)代表直流分量的“DC系數(shù)”和63個(gè)代表交流分量的“AC”系數(shù)。IDCT是FDCT的逆過(guò)程,它把64個(gè)DCT變換系數(shù)經(jīng)逆變換運(yùn)算,重建一個(gè)64點(diǎn)的輸出圖象。在所用設(shè)備的計(jì)算精足夠高的前提下,且系數(shù)未經(jīng)過(guò)量化,原始的64點(diǎn)信號(hào)就能夠精確地恢復(fù)。(DCT可以看做是無(wú)損的)(3)離散余弦變換(DCT)FDCT輸出64個(gè)基信號(hào)的幅值稱107(4)量化量化的作用是在一定的主觀保真度圖象質(zhì)量前提下,丟掉那些對(duì)視覺(jué)影響不大的信息,不同頻率的DCT系數(shù)對(duì)視覺(jué)影響不同,可以根據(jù)不同頻率的視覺(jué)閾值來(lái)選擇量化表中的元素值的大小。這樣通過(guò)心理視覺(jué)實(shí)驗(yàn),去確定對(duì)應(yīng)于不同頻率的視覺(jué)閾值,以確定不同頻率的量化器步長(zhǎng)。(4)量化量化的作用是在一定的主觀保真度圖象質(zhì)量前提下,丟掉108(4)量化MPEG-2中采用線性量化器,量化定義為對(duì)64個(gè)DCT系數(shù)除以量化步長(zhǎng)(QP),四舍五入取整。所以量化的過(guò)程是有損的。
QP由量化表給出,并可以加權(quán)伸縮。MPEG-2給出的量化表,是根據(jù)人類視覺(jué)系統(tǒng)(HVS)特性而得到的。并對(duì)于內(nèi)部塊和殘差塊采用不同的量化表。(4)量化MPEG-2中采用線性量化器,量化定義為對(duì)64個(gè)D109(4)量化亮度量化表和色度量化表非內(nèi)部塊(亮度和色度)默認(rèn)量化表內(nèi)部塊(亮度和色度)默認(rèn)量化表低頻分量部分,量化步距較小(4)量化亮度量化表和色度量化表非內(nèi)部塊(亮度和色度)默認(rèn)量110(5)DC系數(shù)編碼64個(gè)變換系數(shù)經(jīng)量化后,坐標(biāo)(u,v)=(0,0)的DC系數(shù)是直流分量,即64個(gè)空域圖象采樣值的平均值。由于相鄰塊(8×8)之間的DC系數(shù)相關(guān)性強(qiáng),MPEG對(duì)DC系數(shù)采用DPCM(差分編碼)方法,即Diff=DCi
-DCi-1。即對(duì)相鄰像素塊之間DC系數(shù)的差值進(jìn)行編碼。(5)DC系數(shù)編碼64個(gè)變換系數(shù)經(jīng)量化后,坐標(biāo)(u,v)111(5)DC系數(shù)編碼根據(jù)DC系數(shù)的特點(diǎn),MPEG算法使用了差分脈沖調(diào)制編碼(DPCM)技術(shù),即對(duì)相鄰塊之間的DC系數(shù)的差值:
Diff=DCi
-DCi-1 進(jìn)行編碼。
圖DC系數(shù)差分編碼(5)DC系數(shù)編碼根據(jù)DC系數(shù)的特點(diǎn),MPEG算法使用了差112(6)行程編碼其余63個(gè)交流系數(shù)(AC系數(shù))采用行程編碼從左上方AC1開(kāi)始,沿對(duì)角線方向,以“Z”字形(Zig-Zag)行程掃描,直至AC63掃描結(jié)束。量化后的AC系數(shù)通常會(huì)有許多零值,以“Z”字形路經(jīng)進(jìn)行行程編碼,可增加行程中連續(xù)零的個(gè)數(shù),63個(gè)AC系數(shù)行程編碼的碼字甚至可用兩個(gè)字節(jié)表示。(6)行程編碼其余63個(gè)交流系數(shù)(AC系數(shù))采用行程編碼從左113(6)行程編碼(6)行程編碼114(6)行程編碼編排的方法是按照Z(yǔ)字形的式樣編排。這樣就把一個(gè)8×8的矩陣變成一個(gè)1×64的矢量,頻率較低的系數(shù)放在矢量的頂部。(6)行程編碼編排的方法是按照Z(yǔ)字形的式樣編排。這樣就把一個(gè)115(7)變長(zhǎng)編碼(VLC)經(jīng)過(guò)行程編碼后的矢量中有許多連續(xù)的0。為了壓縮掉這些連續(xù)的0,可對(duì)DC和AC行程編碼的碼字再作基于統(tǒng)計(jì)特性的熵編碼,MPEG采用基于統(tǒng)計(jì)的哈夫曼熵編碼(Huffman)。變長(zhǎng)編碼步驟:①把DC系數(shù)和行程AC系數(shù)進(jìn)行run-level編碼;②查變長(zhǎng)碼表將(run,level)碼字轉(zhuǎn)換成變長(zhǎng)的二進(jìn)制碼字;③串行地輸出變長(zhǎng)碼字作為輸入碼流。(7)變長(zhǎng)編碼(VLC)經(jīng)過(guò)行程編碼后的矢量中有許多連續(xù)的0116(7)變長(zhǎng)編碼(VLC)run-level編碼:計(jì)算每個(gè)非零DCT系數(shù)前連續(xù)0的個(gè)數(shù)記為run,然后和當(dāng)前DCT系數(shù)的幅值(level)配對(duì)作為一個(gè)(run,level)碼字。例如:有一組矢量(64個(gè)的后63個(gè))是40,31,0,0,0,0,2,0,-30,-16,0,0,1,0,0,0,0,0,0,0,..,0 經(jīng)過(guò)run-level編碼后就是
(0,40);(0,31);(4,2);(1,-30);(0,-16);(2,1)(7)變長(zhǎng)編碼(VLC)run-level編碼:計(jì)算每個(gè)非117(7)變長(zhǎng)編碼(VLC)查VLC碼表將(run,level)轉(zhuǎn)換成二進(jìn)制變長(zhǎng)碼。VLC碼表是基于統(tǒng)計(jì)的Huffman表,其制定原則是根據(jù)MPEG組織對(duì)大量的(run,level)進(jìn)行統(tǒng)計(jì)后,對(duì)于出現(xiàn)頻率高的(run,level)用短碼來(lái)表示,對(duì)于出現(xiàn)頻率低的(run,level)用長(zhǎng)碼來(lái)表示,對(duì)于極少出現(xiàn)的(run,level)用定長(zhǎng)碼(轉(zhuǎn)碼)來(lái)表示。所有VLC碼都是即時(shí)碼,即任一變長(zhǎng)碼不是其他變長(zhǎng)的前綴,滿足Huffman碼的特征。(7)變長(zhǎng)編碼(VLC)查VLC碼表將(run,level118(7)變長(zhǎng)編碼(VLC)接上例,查VLC碼表:(0,40)->0000000000100000;(0,31)->000000000100000;(4,2)->1111110110;(1,-30)->000001(換碼)000001(run)111111100010(level);(0,-16)->000000000111111;(2,1)->001010。(7)變長(zhǎng)編碼(VLC)接上例,查VLC碼表:1195MPEG-2運(yùn)動(dòng)視頻壓縮標(biāo)準(zhǔn)MPE
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程項(xiàng)目居間委托合同樣本
- 天津市用人單位勞動(dòng)合同模板
- 保健品代理銷售合同
- 住宅小區(qū)設(shè)施維修合同范本
- 合作協(xié)議書(shū)免責(zé)合同
- 企業(yè)高級(jí)管理人才聘用合同(顧問(wèn))
- 標(biāo)準(zhǔn)實(shí)習(xí)勞動(dòng)合同書(shū)樣本
- 國(guó)慶節(jié)金幣紅包活動(dòng)方案
- 環(huán)境風(fēng)險(xiǎn)預(yù)警體系在教育工作中的實(shí)踐
- 消費(fèi)者行為研究助力潔廁劑產(chǎn)品創(chuàng)新與優(yōu)化
- 巖土工程勘察服務(wù)投標(biāo)方案(技術(shù)方案)
- 實(shí)驗(yàn)室儀器設(shè)備驗(yàn)收單
- 新修訂藥品GMP中藥飲片附錄解讀課件
- 蒙特利爾認(rèn)知評(píng)估量表北京版
- 領(lǐng)導(dǎo)干部個(gè)人有關(guān)事項(xiàng)報(bào)告表(模板)
- 危險(xiǎn)化學(xué)品目錄2023
- GB/T 7631.18-2017潤(rùn)滑劑、工業(yè)用油和有關(guān)產(chǎn)品(L類)的分類第18部分:Y組(其他應(yīng)用)
- GB/T 14258-2003信息技術(shù)自動(dòng)識(shí)別與數(shù)據(jù)采集技術(shù)條碼符號(hào)印制質(zhì)量的檢驗(yàn)
- 政府資金項(xiàng)目(榮譽(yù))申報(bào)獎(jiǎng)勵(lì)辦法
- 最新如何進(jìn)行隔代教育專業(yè)知識(shí)講座課件
- 當(dāng)前警察職務(wù)犯罪的特征、原因及防范,司法制度論文
評(píng)論
0/150
提交評(píng)論