（計算機應(yīng)用技術(shù)專業(yè)論文）mpeg4形狀編碼的研究.pdf

上傳人：灰*** IP屬地：寧夏上傳時間：2020-01-10 格式：PDF 頁數(shù)：63 大?。?.94MB 積分：0 舉報 版權(quán)申訴

（計算機應(yīng)用技術(shù)專業(yè)論文）mpeg4形狀編碼的研究.pdf_第2頁

（計算機應(yīng)用技術(shù)專業(yè)論文）mpeg4形狀編碼的研究.pdf_第3頁

（計算機應(yīng)用技術(shù)專業(yè)論文）mpeg4形狀編碼的研究.pdf_第4頁

（計算機應(yīng)用技術(shù)專業(yè)論文）mpeg4形狀編碼的研究.pdf_第5頁

已閱讀5頁，還剩58頁未讀，繼續(xù)免費閱讀

（計算機應(yīng)用技術(shù)專業(yè)論文）mpeg4形狀編碼的研究.pdf.pdf 免費下載

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

摘要摘要 m p e g 一4 是運動圖像專家組織制定的新一代多媒體壓縮國際標(biāo)準(zhǔn) 它提供了一系列自然和合成的音視頻編碼工具標(biāo)準(zhǔn)采用基于對象的編碼技術(shù) 可擴展編碼技術(shù)和容錯機制等實現(xiàn)了基于內(nèi)容的交互性和更高的壓縮效率它將多媒體的音視頻應(yīng)用擴展到了前所未有的領(lǐng)域本文首先對m p e g 4 標(biāo)準(zhǔn)和其校驗?zāi)Ｐ?v m 的關(guān)鍵技術(shù)進行了闡述然后對v m 中的形狀編碼過程進行了深入分析利用宏塊之間的相關(guān)性和形狀信息的特點提出了一種形狀編碼的快速運動估計算法針對在不同誤差閾值下尺寸轉(zhuǎn)化的宏塊數(shù)目和比率不同的特點對v m 中形狀編碼的尺寸轉(zhuǎn)化算法進行了改進并且結(jié)合精細(xì)可擴展編碼的思想利用形狀信息和四叉樹的特點提出了一種新的二值形狀空域可擴展編碼算法最后結(jié)合自己的研究對視頻編碼的進一步發(fā)展和形狀編碼進一步研究提出了自己的一些看法關(guān)鍵詞 m p e g 4 形狀編碼運動估計尺寸轉(zhuǎn)化可擴展編碼 a b s t r a c t a b s t r a c t m p e g 4i san e wg e n e r a t i o ni s o i e cs t a n d a r df o rm u l t i m e d i ac o m m u n i c a t i o n d e v e l o p e db y t h em o v i n gp i c t u r e se x p e r tg r o u p m p e g a n dp r o v i d e sas e to ft o o l s f o rn a t u r a la n ds y n t h e t i cv i d e o a u d i oc o d i n g t h em p e g 4v i s u a ls t a n d a r ds u p p o r t s m a n yt e c h n i q u e si n c l u d e do b j e c t b a s e dc o d i n g s c a l a b l ec o d i n g a n de r r o rr e s i l i e n t c o d i n g t h em a i nf u n c t i o n sp r o v i d e db ym p e g 一4a r e c o n t e n t b a s e d i n t e r a c t i v i t y u n i v e r s a la c c e s s i b i l i t y a n di m p r o v e dc o m p r e s s i o n m p e g 一4s p r e a d st h ev i d e o a u d i o a p p l i c a t i o no f m u l t i m e d i at oe v e r y w h e r e t h ep i v o t a lt e c h n o l o g yo fm p e g 4a n di t sv e r i f i c a t i o nm o d e v m a r ed e s c r i b e d f i r s ti nt h i sp a p e r t h e nad e e pa n a l y s i so f s h a p ec o d i n gi nv m i sp e r f o r m e d af a s t a n de f f i c i e n tm o t i o ne s t i m a t i o na l g o r i t h mb a s e do nt h ef e a t u r e so fv i d e om o t i o nv e c t o r a n ds h a p ei n f o r m a t i o ni sp r o p o s e dt oi m p r o v es e a r c hs p e e di nm o t i o ne s t i m a t i o nf o r m p e g 一4s h a p ec o d i n g am o d i f ys i z e c o n v e r s i o na l g o r i t h mi s p r o p o s e dt o r e d u c e c o m p u t a t i o n a lc o m p l e x i t y f o rs h a p ec o d i n g an e ws h a p es p a t i a ls c a l a b l e c o d i n g a l g o r i t h mf o rm p e g 4 i sp r o p o s e db a s e do nt h ef e a t u r e so fv i d e o ss h a p ei n f o r m a t i o n a n d q u a d t r e e s o m ei d e a sf o rt h en e w d e v e l o p m e n to fv i d e oc o d i n ga n dr e s e a r c ho fs h a p e c o d i n ga r ep r o p o s e d b a s e do nt h er e s e a r c h e so f t h i s p a p e r a tl a s t k e yw o r d m p e g 4s h a p ec o d i n g m o t i o ne s t i m a t i o ns i z ec o n v e r s i o n s c a l a b l ee n c o d i n g 創(chuàng)新性聲明 v 5 8 3 4 4 4 本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果盡我所知除了文中特別加以標(biāo)注和致謝中所羅列的內(nèi)容以外論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果也不包含為獲得西安電子科技大學(xué)或其他教育機構(gòu)的學(xué)位或證書而使用過的材料與我一同工作的同志對本研究所做的任何貢獻均已在論文中做了明確的說明并表示了謝意申請學(xué)位論文與資料若有不實之處本人承擔(dān)一切相關(guān)責(zé)任攤名關(guān)于論文使用授權(quán)的說明本人完全了解西安電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定即研究生在校攻讀學(xué)位期間論文工作的知識產(chǎn)權(quán)單位屬西安電子科技大學(xué) 本人保證畢業(yè)離校后發(fā)表論文或使用論文成果時署名單位仍然為西安電子科技大學(xué) 學(xué)校有權(quán)保留送交論文的復(fù)印件允許查閱和借閱論文學(xué)?？梢怨颊撐牡娜炕?部分內(nèi)容可以允許采用影印縮印或其他復(fù)制手段保存論文保密的論文在解密后遵守此規(guī)定拋名導(dǎo)師簽名奎塾拯日期絲絲f 耋耋j 絲日期抄斗 i 第一章緒論第一章緒論 1 1多媒體編碼技術(shù)的發(fā)展和概況 2 1 世紀(jì)的人類社會將是信息化和網(wǎng)絡(luò)化的社會網(wǎng)絡(luò)信息具有數(shù)字化和海量性的特點網(wǎng)絡(luò)應(yīng)用的最重要目標(biāo)之一就是進行多媒體通信多媒體信息主要包括圖像聲音和文本三大類其中視頻音頻等信號的信息量非常大它們的存儲和傳輸給網(wǎng)絡(luò)帶來很大的困難成為阻礙網(wǎng)絡(luò)多媒體發(fā)展的瓶頸之一同時各種視頻音頻信息的表達方式不同在不同的應(yīng)用環(huán)境下對內(nèi)容的側(cè)重點要求不同不同的來源還可能有不同的輸入輸出要求因此研究和開發(fā)新型有效的多媒體數(shù)據(jù)壓縮編碼方法并建立國際標(biāo)準(zhǔn)是最好的選擇傳統(tǒng)的壓縮編碼是建立在香農(nóng) s h a n n o n 信息論的基礎(chǔ)上它以經(jīng)典的集合論為基礎(chǔ) 用統(tǒng)計概率模型來描述信源但是它未考慮信息接受者的主觀特性及信息本身的具體含義重要程度和引起的后果壓縮編碼的發(fā)展歷程實際是以香農(nóng)信息論為出發(fā)點不斷完善和改進的過程編碼方法可以分成下述三類考慮信源的統(tǒng)計特性預(yù)測編碼方法變換編碼方法矢量編碼方法矢量量化編碼方法子帶 4 波編碼方法神經(jīng)網(wǎng)絡(luò)編碼方法等考慮人眼的視覺特性基于方向濾波的圖像編碼方法基于圖像輪廓一紋理的編碼方法考慮圖像傳遞的景物特性分形編碼基于內(nèi)容的編碼方法也有人將圖像編碼方法分為兩代第一代是基于數(shù)據(jù)統(tǒng)計去掉的是數(shù)據(jù)冗余稱為低層壓縮編碼方法第二代是基于內(nèi)容去掉的是內(nèi)容冗余其中基于對象 o b j e c t b a s e d 方法稱為中層壓縮編碼方法其中基于語義 s y n t a x b a s e d 方法稱為高層壓縮編碼方法基于內(nèi)容壓縮編碼方法代表新一代的壓縮方法也是目前最活躍的領(lǐng)域最早是由瑞典的f o r c h h e i m e r 1 9 8 3 年提出的隨后日本的h a m s h i m a 等人也展示了不少研究成果 l 為了實現(xiàn)多媒體傳輸?shù)膰H標(biāo)準(zhǔn)化國際標(biāo)準(zhǔn)化組織i s o i n t e r n a t i o n a l s t a n d a r do r g n i z a t i o n 與i e c i n t e r n a t i o n a le l e c t r o n i cc o m m i t t e e 于1 9 8 8 年聯(lián)合成立了m p e g m o v i n g p i c t u r ee x p e r tg r o u p 組織 m p e g 的任務(wù)是致力于運動圖像及其伴音編碼標(biāo)準(zhǔn)化工作 m p e g 先后推出和正在建立的標(biāo)準(zhǔn)有m p e g 1 i m p e g 2 2 m p e g 4 7 m p e g 7 3 1 m p e g 2 1 e 4 等不同標(biāo)準(zhǔn)具有不同的用途和解碼質(zhì)量 m p e g 標(biāo)準(zhǔn)的出現(xiàn)和發(fā)展對多媒體通信的發(fā)展起到了革命性的推動作用 m p e g 標(biāo)準(zhǔn)一直是許多科研機構(gòu)和大學(xué)的科研熱點也是工業(yè)界產(chǎn)品丌發(fā)的熱點 m p e g 標(biāo)準(zhǔn)闡明了聲音和電視圖像的編碼和解碼過程嚴(yán)格定義了聲音和圖像數(shù)據(jù)編碼后組成位數(shù)據(jù)流的句法提供了編解碼的測試方法等但沒有對所有內(nèi)容都作嚴(yán)格規(guī)定尤其是對壓縮和解壓縮的算法這樣既保證了解碼器能對符合m p e g 標(biāo)準(zhǔn)的聲音數(shù)據(jù)和電視圖像數(shù)據(jù)進行正確解碼又給m p e g 標(biāo)準(zhǔn)的具體實現(xiàn)留有很大余地人們可以不斷改進編碼和解碼算法提高聲音和電視圖像的質(zhì)量以及編碼效率 m p e g 一1 于1 9 9 3 年成為國際標(biāo)準(zhǔn) 它是對1 5 m b i t s 以下數(shù)據(jù)傳輸率的數(shù)字存儲媒體運動圖像及其伴音的壓縮編碼標(biāo)準(zhǔn) 適用于c d r o m v c d c d i 交互式c d 等它可對s i f 標(biāo)準(zhǔn)交換格式分辨率 n t s c 制式為3 5 2 x 2 4 0 p a l 制式為3 5 2 2 8 8 的圖像進行壓縮傳輸速率為1 5 m b i t s 每秒播放3 0 幀具有c d 音質(zhì) 圖像質(zhì)量基本與v h s 家用錄像機相當(dāng) m p e g 1 也被用于數(shù)字通信網(wǎng)絡(luò)上的視頻傳輸如基于a d s l 非對稱數(shù)字用戶線路的視頻點播 v o d 遠(yuǎn)程教育等 m p e g 2 于1 9 9 5 年成為國際標(biāo)準(zhǔn) 其目標(biāo)是達到高級工業(yè)標(biāo)準(zhǔn)的圖像質(zhì)量以及更高的傳輸率 m p e g 2 所能提供的傳輸率在3 1 0 m b i 訛之間在n t s c 制式下的分辨率可達7 2 0 x 4 8 6 可提供廣播級的圖像質(zhì)量和c d 級的音質(zhì) 適用于數(shù)字電視廣播 d v b h d t v 和d v d 的運動圖像及其伴音的壓縮編碼目前 m p e g 2 己得到廣泛應(yīng)用如美國歐洲日本在d v d 和數(shù)字電視廣播方面都采用m p e g 2 壓縮技術(shù) m p e g 4 從1 9 9 4 年開始工作于1 9 9 9 年初正式成為國際標(biāo)準(zhǔn) m p e g 4 是一個適用于低傳輸速率應(yīng)用的方案與m p e g 1 和m p e g 2 相比 m p e g 一4 的目標(biāo)是要在異構(gòu)網(wǎng)絡(luò)環(huán)境下能夠高度可靠地工作并且更加注重多媒體系統(tǒng)的交互性和靈活性繼m p e g 4 之后要解決的矛盾就是對日漸龐大的圖像聲音信息的管理和迅速搜索針對這一矛盾 1 9 9 8 年l o 月 m p e g 啟動了一個新的工作項目即多媒體內(nèi)容描述接1 3 m u l t i m e d i ac o n t e n t d e s c r i p t i o n i n t e r f a c e 一m p e g 7 它的目標(biāo)是擴展現(xiàn)有系統(tǒng)有限的查詢能力使其包括更多的信息形式 m p e g 7 將確立各種類型的多媒體信息標(biāo)準(zhǔn)的描述方法 m p e g 在1 9 9 9 年1 0 月的墨爾本會議上又提出了多媒體框架 m u l t i m e d i af r a m e w o r k m p e g 2 1 的概念并于 2 0 0 0 年7 月開始工作 m p e g 2 1 總體上來講是一個支持通過異構(gòu)網(wǎng)絡(luò)和設(shè)備使用戶透明而廣泛地使用多媒體資源的標(biāo)準(zhǔn) 其目標(biāo)是建立一個交互的多媒體框架在推出m p e g 1 和m p e g 2 的同時另一個國際組織c c i t t i n t e r n a t i o n a l t e l e g r a p ha n dt e l e p h o n ec o u n s u l a t i v ec o m m i t t e e 一國際電話電報咨詢委員會后改名口qi t u t i n t e m a t i o n a lt e l e c o m m u n i c a t i o n su n i o n t e l e c o m m u n i e a t i o ns e c t o r 第一章緒論也先后推出了h 2 6 1 和h 2 6 3 5 l 兩個用于傳輸數(shù)字視頻信號的壓縮標(biāo)準(zhǔn) 在h 2 6 3 之后 i t u t 視頻編碼專家組 v i d e oc o d i n ge x p e r t sg r o u p v c e g 的短期任務(wù) 是對h 2 6 3 標(biāo)準(zhǔn)的擴充制定h 2 6 4 1 3 標(biāo)準(zhǔn) 長期目標(biāo)是低速率視頻傳輸標(biāo)準(zhǔn) h 2 6 l 在2 0 0 1 年 m p e g 組織成立視頻聯(lián)合組 j o i n tv i d e ot e a m t j v t 由m p e g 和v c e g 的一部分專家組成負(fù)責(zé)將原來的m p e g 一4 的第1 0 部分和 h 2 6 4 合并為m p e g 一4 的第1 0 部分這個標(biāo)準(zhǔn)又稱為先進的視頻編碼 j 刮 a d v a n c e d v i d e oc o d i n g a v c 我國在視音頻編碼的標(biāo)準(zhǔn)制定方面發(fā)展也很迅速我國制定數(shù)字視音頻編解碼標(biāo)準(zhǔn) 目的不僅僅是為了把專利許可費控制在合理水平上更重要的意義是開發(fā)出技術(shù)更先進的標(biāo)準(zhǔn) 從源頭上提高我國數(shù)字音視頻產(chǎn)業(yè)的核心競爭力為我國數(shù)字電視音視頻產(chǎn)業(yè)和相關(guān)芯片產(chǎn)業(yè)提供跨越發(fā)展的技術(shù)源頭為國際數(shù)字音視頻市場提供更好的選擇國家信息產(chǎn)業(yè)部科學(xué)技術(shù)司于2 0 0 2 年6 月批準(zhǔn)成立數(shù) 字音視頻編解碼技術(shù)標(biāo)準(zhǔn)化工作組 6 a u d i ov i d e oc o d i n gs t a n d a r dw o r k g r o u po f c h i n a 簡稱a v s 工作組工作組的任務(wù)是面向我國的信息產(chǎn)業(yè)需求聯(lián)合國內(nèi)企業(yè)和科研機構(gòu) 制修訂數(shù)字音視頻的壓縮解壓縮處理和表示等共性技術(shù)標(biāo)準(zhǔn) 為數(shù)字音視頻設(shè)備與系統(tǒng)提供高效經(jīng)濟的編解碼技術(shù) 服務(wù)于高分辨率數(shù)字廣播高密度激光數(shù)字存儲媒體無線寬帶多媒體通訊互聯(lián)網(wǎng)寬帶流媒體等重大信息產(chǎn)業(yè)應(yīng)用 a v s 工作組制定的a v s 信息技術(shù)先進音視頻編碼標(biāo)準(zhǔn)與國際標(biāo)準(zhǔn)m p e g 2 兼容并針對數(shù)字電視光盤播放機網(wǎng)絡(luò)流媒體多媒體通信等應(yīng)用進行了具體的規(guī)定和定義從框架上提供了對國內(nèi)外各種主流視頻音頻編碼標(biāo)準(zhǔn)的支持按照編碼方法發(fā)展的兩代論目前已經(jīng)制定成熟的視頻壓縮編碼標(biāo)準(zhǔn) m p e g 1 m p e g 2 h 2 6 1 h 2 6 3 都屬于第一代壓縮編碼方法一一基于數(shù)據(jù) 統(tǒng)計的壓縮編碼方法而正在制定的m p e g 4 和m p e g 7 屬于第二代壓縮編碼方法中的基于對象的壓縮編碼方法 1 2 本文的研究內(nèi)容我國多媒體編解碼標(biāo)準(zhǔn) a v s 的制定和發(fā)展在很多內(nèi)容上是借鑒和吸收國際上已經(jīng)成功的標(biāo)準(zhǔn)的結(jié)果所以研究國際先進標(biāo)準(zhǔn)對國內(nèi)標(biāo)準(zhǔn)的發(fā)展非常重要盡管m p e g 4 標(biāo)準(zhǔn)版本已經(jīng)制定出來但是標(biāo)準(zhǔn)中所包括的編解碼算法和技術(shù)要應(yīng)用于實際還有許多問題需要解決同時m p e g 4 是一個開放的標(biāo)準(zhǔn) 它的具體各部分的算法實現(xiàn)是一個逐步改進和完善的過程編碼速度圖像質(zhì)量和壓縮效率等是在標(biāo)準(zhǔn)實用化階段需要考慮的問題本文的研究基礎(chǔ)是目前新制訂的m p e g 4 標(biāo)準(zhǔn) 研究內(nèi)容是視頻編碼中的形狀編碼 m p e g 4 彤狀編碼的研究編解碼算法和可擴展編解碼算法在深入研究的基礎(chǔ)上本文對m p e g 一4 標(biāo)準(zhǔn)提供的校驗?zāi)Ｐ椭械男螤罹幋a的某些部分提出了改進算法并用m p e g 一4 標(biāo)準(zhǔn)建議的測試序列進行了測試取得了滿意的效果主要研究內(nèi)容如下 1 對m p e g 4 標(biāo)準(zhǔn)和其校驗?zāi)Ｐ?v m 的關(guān)鍵技術(shù)進行了介紹對v m 中的形狀編碼算法進行了詳細(xì)分析 2 提出了種快速的形狀編碼運動估計算法此算法利用相鄰塊的相關(guān)性確定搜索的初始點根據(jù)初始預(yù)測塊和當(dāng)前塊的絕對誤差和 s u mo fa b s o l u t e d i f f e r e n c e s a d 選擇要采用的搜索算法實驗表明此算法計算復(fù)雜度低搜索范圍大預(yù)測精度高 3 針對在不同誤差閩值下尺寸轉(zhuǎn)化的宏塊數(shù)目和比率不同的特點對 m p e g 一4 v m 中形狀編碼的尺寸轉(zhuǎn)化確定分辨率算法進行了改進采用改進算法可以提高編碼速度減少運算復(fù)雜度改善編碼質(zhì)量 4 提出了一種新的空域可擴展形狀編碼算法利用形狀信息的特點和四叉樹的原理來實現(xiàn)形狀信息編碼的漸進的可擴展分層編碼這種算法實現(xiàn)簡單可以很好的實現(xiàn)可擴展的編碼思想 1 3 章節(jié)的安排本文的章節(jié)安排如下第章對多媒體編碼的發(fā)展作簡單介紹并介紹了作者的主要工作第二章對m p e g 4 標(biāo)準(zhǔn)和其校驗?zāi)Ｐ?v m 內(nèi)容作簡要介紹第三章對m p e o 4 形狀編碼做詳細(xì)分析論述并對本文提出的運動估計改進算法和尺寸轉(zhuǎn)化改進算法作了詳細(xì)的闡述第四章對可擴展編碼作簡要介紹對提出的一種新的空域形狀可擴展編碼算法做詳細(xì)的闡述第五章結(jié)束語對m p e g 標(biāo)準(zhǔn)的發(fā)展進行了展望對本文的研究工作進行了總結(jié) 附錄和參考文獻第二章m p e g 4 視頻編碼第二章m p e g 4 視頻編碼 2 1 m p e g 4 技術(shù)及應(yīng)用綜述 2 1 1 m p e g 4 標(biāo)準(zhǔn)概要 m p e g 4 標(biāo)準(zhǔn)不僅針對一定比特率下的視頻音頻編碼并且更加注重多媒體系統(tǒng)的交互性和靈活性 1 i 一孽函掣 k 宴慰 h 一心二淵 1 c o m p o s i f i o n a n dr c n d e r n g 什俞稈 6 毒柏鹼嘲崢6 譬團1 u w h a 呻dc q t l d m 垡b n 0 h 口d i n r 塒m a 柵 l a y e r i k 篙n p k w d c m n p t k n i l r i a l i t i v e h 6 j m i m l l a v 0 b 媾b a ii iii 晶 ie 口日曲瞳j 壓 p 甲占瑟 m h 口0 m m u l a d c xh b 七 i il 怒州 fk 刪u 甲r 1 f r lj p f s j r t p i l u 0 l u d l a y e r m p e 矗 u d p t gl t m髂t h l l m 3 z 一一 n m i 5 函柏m 口m e d i u m 圖2 1 一個m p e g 4 視聽終端的處理過程 m p e g 一4 標(biāo)準(zhǔn)不像以前的多媒體標(biāo)準(zhǔn)一樣是基于幀的編碼而是基于對象的編碼對于觀察者而言一幅場景總可以劃分成一些不同的內(nèi)容及背景每一部 m p e g 一4 形狀編碼的研究分的內(nèi)容對應(yīng)一個獨立的音頻視頻 a u d i o v i d e o 對象這些a v 對象都擁有自己單獨的編解碼器用戶可以對場景中的內(nèi)容進行交互操作因此 m p e g 一4 標(biāo) 準(zhǔn)的基本內(nèi)容就是高效率地編碼組織存儲傳輸a v 對象圖2 1 顯示了一個m p e g 4 視聽終端的處理過程一個場景包括一個站著的女士一個桌子一個地球儀個在其上有多媒體演示的電子白板等等通過對象分割編碼壓縮增加同步信息然后傳輸?shù)接脩舳?用戶端接收到這些信息后根據(jù)同步信息解壓縮然后既可以根據(jù)傳送過來的組合信息恢復(fù)原始場景也可以根掘自己的需要選擇要恢復(fù)的a v 對象生成新的場景 m p e o 4 提供了對音頻對象視頻對象情景描述以及與發(fā)送系統(tǒng)的接口進行編碼的標(biāo)準(zhǔn)方法由于在解碼端要對a v 對象進行重新組合所以m p e g 4 既支持自然的a v 對象編解碼也支持合成的a v 對象編解碼 2 1 2 m p e g 4 標(biāo)準(zhǔn)的主要特點和功能 m e p o 4 視頻編碼標(biāo)準(zhǔn)支持m p e g 1 m p e c 一2 中的大多數(shù)功能提供不同的視頻標(biāo)準(zhǔn)源格式碼率幀頻下矩形圖像的有效編碼同時也支持基于內(nèi)容的圖像編碼如圖2 2 在m p e g 4 功能集的底層是v l b v v e r yl o wb i tr a t ev i d e o 核心它為碼率在5 6 4 k b p s 范圍內(nèi)的視頻操作與應(yīng)用提供算法與工具支持較低的空間分辨率低于3 5 2x 2 8 8 像素和較低的幀頻低于1 5 h z v l b v 核心支持的專用功能包括矩形圖像序列的有效編碼多媒體數(shù)據(jù)庫的搜索和隨機存取圖2 2m p e g 4 視頻編碼工具結(jié)構(gòu) m p e g 4 的h b v h i g hb i tr a t ev i d e o 同樣支持上述功能其碼率范圍在 6 4 k b p s 1 0 m b b p s 之間它與v l b l 核心采用相同或相似的算法但它支持更高第二章m p e g 4 視頻編碼的空間與時間分辨率允許傳輸和存儲適用于演播室的高質(zhì)量視頻信號典型應(yīng) 用為數(shù)字電視廣播與交互式檢索 m p e g 一4 最終支持的碼率將高于m p e g 2 m p e g 一4 包括如下幾部分主要功能 1 基于內(nèi)容的編碼基于內(nèi)容的交互性基于內(nèi)容的多媒體數(shù)據(jù)存取工具基于內(nèi)容的碼流操縱和編輯自然與合成數(shù)掘的混合編碼增強的時間域隨機存取 2 編碼效率的改進和并發(fā)數(shù)據(jù)流的編碼提高編碼效率對多個并發(fā)數(shù)據(jù)流的編碼支持對同一場景多視點的有效編碼對于立體視頻應(yīng)用要求具有利用信息冗余的能力并支持有無與正常視頻兼容性要求條件下的聯(lián)合編碼方案 3 容錯機制錯誤易發(fā)環(huán)境中的錯誤魯棒性 r o b u s t n e s s 和錯誤修復(fù) r e s i l i e n c e 技術(shù) 4 基于內(nèi)容的可伸縮性 s c a l a b l e 包括基于內(nèi)容的空域可擴展編碼和時域可擴展編碼 2 1 3m p e g 4 的體系結(jié)構(gòu) m p e g 一4 標(biāo)準(zhǔn)主要有6 個部分系統(tǒng)標(biāo)準(zhǔn) 視頻標(biāo)準(zhǔn) 聲音標(biāo)準(zhǔn) 一致性測試參考軟件和多媒體集成框架其核心部分有四個模塊系統(tǒng)層視頻音頻和d m i f 1 d e l i v e r ym u l t i m e d i ai n t e g r a t i o nf r a m e w o r k 其中前三部分是獨立于傳輸?shù)?而d m i f 則定義了面向傳輸?shù)奶匦?另外還有兩個支持模塊一致性測試 c o n f o r m a n c et e s t i n g 和參考軟件 r e f e r e n c es o f t w a r e m e d i aa w a r e d e i i v e r yu n a w a r e i s o i e c1 4 4 9 6 2v i s u a l s 川e c1 4 4 0 6 3a u d i o m e d i au n a w a r e d e l i v e l yt l l l a w a r e s a l p h at h 那么a c q 0 否貝 l j a c q 1 如果所有p b 塊誤差都小于預(yù)定誤差閾值 a l p h a t h 就認(rèn)為可以使用該近似形狀塊代替原始形狀塊反之則不能編碼模式的確定分兩步進行這是第一步的算法 i f a l l o b a b s h a p e m o d e a l l 0 e l s ei f a l l 2 5 5 b a b s h a p e m o d e a l l 2 5 5 e l s ei f a c q b a b 2 5 5 a c q b a b 0 第三章形狀編碼的研究平改進 i f o p a q u e p i x e l s 2 1 2 8 s h a p e m o d e a l l 2 5 5 e l s es h a p e m o d e 2 a l l o e l s ei f a c q b a b 2 5 5 s h a p e m o d e a l l 一2 5 5 e l s ei f v o p t y p e 2 i v o p s h a p e m o d e i n t r a c a e h 如果是b p v o p s h a p e m o d e i n t r ac a e d e c i d e c r 0 n 確定分辨率如果是b p v o p 這一步在后面進行注意上面程序中a l l o b a b 干i ia l l 2 5 5 b a b 是指這個b a b 塊內(nèi)象素全為 0 或者全為2 5 5 a c q b a b 0 n ia c q b a b 2 5 5 是指這個b a b 塊如果被編碼為全 0 或者全2 5 5 解碼質(zhì)量可以接受在這一步先大概確定該b a b 塊用a u0 a l l2 5 5 和還是i n t r ac a e i n t e r c a e 模式后面再根據(jù)運動向量進行進一步的確定 3 運動估計和補償確定b a b 塊后如果該v o p 是b v o p 或p v o p 那么就對待編碼的b a b 進行運動估計得到運動矢量m v s m vf o rs h a p e 如果該v o p 是i v o p 則該步可以省去在論文3 3 部分將對運動估計進行詳細(xì)研究 4 確定編碼模式二進行運動估計后如果該v o p 是b v o p 或p v o p 那么就對待編碼的b a b 進行進一步的編碼模式確定如果是i v o p 則不需要進行這一步 i f s h a p e m o d e a l l o m o t i o n e s f i m a t i o n 0 運動估計 i f a l l 0 b a b 11 a c q m c b a b 判斷1 6 個子塊的s a d 是否全小于誤差閥值 m cb a b 指運動補償塊 n 如果全透明或不接受幀間c a e d e c i d e c r 0 i f 靖定分辨率 i f m v s i s z e r 0 0 n 動向量為零 s h a p e m o d e r n t e rc a em v z e l s e s h a p e m o d e i n t e r c a e m v n z e l s ei f s h a p e m o d e a l l 2 s s e m v s i s z e r o o m p e g 4 彤狀編碼的研究如果全不透明且運動向量不為零全不透明編碼 s h a p e m o d e 2 2 a l l2 5 5 e l s ei f a l l 2 5 5 b a b a l l 2 5 5 i v l c b a b s h a p e m o d e2 a l l 2 5 5 e l s ei f m v s i s z e r o o 運動向量為0 s h a p e m o d e m v z n o u p d t e l s e s h a p e m o d e m v n z n o u p d t 5 尺寸轉(zhuǎn)化確定待編碼b a b 塊的分辨率由于有碼率控制和空域可擴展性所以有時分辨率的改變是必需的尺寸轉(zhuǎn) 化由兩步組成轉(zhuǎn)化的比例由v o pc r 確定 v o pc r 可以取1 2 或者1 4 當(dāng) v o pc r 為1 2 時整個v o p 就通過下采樣得到原來l 4 大小的形狀圖下采樣可以通過平均值來代替多個采樣點上采樣通過插值得到 v o p 的形狀編碼是基于b a b 塊而b a b 塊的分辨率可根據(jù)不同塊特點而改變 v m 中確定b a b 塊的分辨率c r 的算法如下 c r 1 4 d o w n s a m p l e s h a p e 0 u p s a m p l e s h a p e 0 i f a c q b a b r e t u r n c r 1 2 d o w n s a m p l e s h a p e 0 u p s a m p l e s h a p e 0 i f a c q b a b r e t u r n c r l 先將當(dāng)前b a b 塊按c r 所代表比例值進行下采樣再進行相應(yīng)上采樣得到與原來同樣尺寸的重構(gòu)b a b 塊再對這兩個b a b 塊相應(yīng)p b 4 4 塊計算s a d 絕對誤差和值如果s a d p b i a l p h a t h 那么a c q b a b 返n y bf a l s e 若所有1 6 個p b 4 x 4 塊s a dp b i a l p h a t h 則a c q b a b 返回為t r u e 6 基于上下文的算術(shù)編碼除過a l l o 和a l l 一2 5 5 兩種編碼模式其余編碼模式的b a b 塊都要進行基于上下文的算術(shù)編6 q c a e 分幀內(nèi)和幀間兩種模式對幀內(nèi)編碼模式分別嘗試水平掃描和垂直掃描兩種方式進行編碼最終采用編碼字節(jié)少的一種并輸出到輸出碼流中對幀間編碼模式先嘗試幀內(nèi)模式下的水平和垂直掃描方式再嘗第三章形狀編碼的研究和改進試幀間模式下的水平和垂直掃描方式編碼最終采用其中編碼字節(jié)最少的種并輸出到輸出碼流中 c a e 編碼過程將在下節(jié)詳細(xì)論述 3 1 2 狄度形狀編碼 1 輪廓編碼和灰度a l p h a 值編碼狄度的a l p h a 平面編碼由兩部分組成一個是它的形狀輪廓編碼另一個是在輪廓中的a l p h a 值的編碼輪廓編碼采用二值形狀編碼 a l p h a 值編碼采用任意形狀的紋理編碼見圖3 1 b 輪廓是通過在灰度級的a l p h a 平面上通過設(shè)定閾值0 得到的除了d c t 變換是基于幀的像亮度值一樣灰度a l p h a 值被分割為1 6 1 6 塊進行編碼在碼流中一個a l p h a 宏塊的編碼將附加到它對應(yīng) 紋理宏塊編碼的后面 2 羽化許多視頻序列使用灰度a l p h a 掩碼它們的紋理相對簡單一些例如有些是由固定灰度值構(gòu)成的灰度a l p h a 掩碼還有些灰度a l p h a 掩碼由一個在輪廓邊緣處從2 5 5 遞減到0 的二值a l p h a 掩碼構(gòu)成這樣可以和背景形成光滑過渡后面這種類型的掩碼可以用一個二值的掩碼和羽化描述一個簡單的改進的二進制 a l p h a 掩碼組成羽化就是輪廓邊緣光滑過渡到背景這部分的詳細(xì)內(nèi)容見 m p e g 4 校驗?zāi)Ｐ蚷 3 2 基于上下文的算術(shù)編解碼本節(jié)將詳細(xì)討論基于上下文的算術(shù)編碼 c a e 和解碼 c a d 過程 c a e 編碼屬于一種改進的更高效的算術(shù)編碼 3 2 1 算術(shù)編碼簡介算術(shù)編碼 3 0 在圖像數(shù)據(jù)壓縮標(biāo)準(zhǔn)中扮演了重要的角色在算術(shù)編碼中信息用0 到1 之間的實數(shù)進行編碼算術(shù)編碼用到兩個基本的參數(shù) 符號的概率和它的編碼間隔信源符號的概率決定壓縮編碼的效率也決定編碼過程中信源符號的間隔而這些間隔包含在0 到1 之間編碼過程中的間隔決定了符號壓縮后的輸出算術(shù)編碼對整條信息無論信息有多么長其輸出僅僅是一個數(shù) 而且是一個介于0 和l 之間的二進制小數(shù) 因此譯碼器在接受到表示這個小數(shù)的所有位之前不能進行譯碼算術(shù)編碼和哈夫曼編碼一樣也是對在信息中出現(xiàn)較多概率大的符號采用較少的編碼位數(shù) 對在信息中出現(xiàn)較少概率小的符號采用相對較多的編碼位數(shù) 從而達到壓縮的目的但由于算術(shù)壓縮可以將一個符號出現(xiàn)的概率表示為小數(shù)個二進制位而哈夫曼編碼的符號編碼位數(shù)都為整數(shù) 所以算術(shù)編碼可以接近無損壓縮的熵極限比哈夫曼編碼效率更高對于較長的信息所有符號在大量信息中的概率差別很小如果直接應(yīng)用這些概率編碼壓縮率不大如果采用在一定限制條件上下文環(huán)境下的概率即基于上下文的算術(shù)編碼其信息的熵建立在更高的概率層次上這樣得到的信息總熵值更小壓縮率更高 3 2 2c a e 編碼 c a e 編碼主要分為計算上下文值查概率表和算術(shù)編碼三部分 1 計算上下文值環(huán)境數(shù) 基于上下文的算術(shù)編碼中符號的概率并不是該符號在整個信息中出現(xiàn)的概率而是該符號在一定上下文環(huán)境下的概率這時信息的總熵值更小這里存在一個上下文模板的大小的問題模板越大信息的總熵值越小但需要存儲模板的概率表也越大 c a e 算法在兩者均衡之下選擇幀內(nèi)模板大小為1 0 幀問模板為 9 a l i 目 m 璣t p 1 x 1 to t t b o r d m cb a 工n t r a c e 時的相關(guān)點 b i n t e r c a e 時的相關(guān)點水平掃描方式時 c 6c l c g c s c o c e c e 7 c s c 2 陽諱 t h e f c u i x r e r l e s n t o f 日紐 t h eb p r d e i x r e e l d s 韙b a b a i n t r a c a e 時的相關(guān)點 b i n t e r c a e 時的相關(guān)點垂直掃描方式時圖3 3 計算上下文時的相關(guān)點第二章形狀編碼的研究平改進上下文值就是根據(jù)當(dāng) j i 的待編碼點附近的多個點的象素值生成的一個數(shù)字幀內(nèi)與幀問形狀塊的取點位置如圖3 3 從圖中可見幀內(nèi)塊在當(dāng)前點附近取1 0 個點幀間塊在當(dāng)前點附近取4 個點并在運動補償塊中的對應(yīng)點周圍取5 個點注意當(dāng)掃描方向為垂直時形狀有所不同幀內(nèi)塊與幀間塊生成上下文值的公式都是 c 印2 k 其中c k 取值為0 或1 表示對應(yīng)環(huán)境點是否透明 k 0 1 2 9 如果第k 點為2 5 5 則c k 為1 否則c k 為0 2 查概率表形狀塊中每個點生成上下文值后將以該上下文值為索引從概率表中取得一個概率值其中幀內(nèi)和幀間形狀塊對應(yīng)不同的概率表幀內(nèi)概率表的大小為2 1 0 2 4 幀間概率表的大小為2 9 5 1 2 v m 中c a e 編碼概率表只存儲了模板中所有排列的上下文情況下輸入符號為 0 的概率概率為一個放大2 的整數(shù) 輸入符號為l 的概率就是用2 減去輸入符號為0 的概率的差概率表見參考文獻 1 5 之附錄f 3 算術(shù)編碼算術(shù)編碼主要涉及5 個過程初始化符號編碼規(guī)格化比特填充終止處理初始化算術(shù)編碼在實際應(yīng)用中并不是直接對小數(shù)進行變換它將符號范圍和符號概率都放大到一個很大的二進制整數(shù) 這樣便子編解碼操作在開始編碼前要初始化下次輸入符號的編碼輸出范圍輸出范圍即編碼輸出的高低 h 和l 邊界實際由兩個參數(shù)確定低邊界l 和范圍r 因為h l r v m 中算術(shù)編碼的初始化編碼輸出范圍為0 2 即l 0 r 2 符號編碼每次算術(shù)編碼根據(jù)輸入符號為高概率符號還是低概率符號和該符號的概率確定新的編碼結(jié)果輸出范圍 c a e 編碼的低概率符號 l p s 和高概率符號 m p s 并不是固定的1 或者0 在當(dāng)前上下文下如果輸入符號1 的概率大于符號0 的概率則l 為高概率符號 0 為低概率符號如果輸入符號0 的概率大于符號1 的概率則0 為高概率符號 1 為低概率符號如果輸入為l p s 將新的l 變?yōu)樯洗尉幋a的高邊界h 如果輸入為m p s l 不變新的r 值由上次 r 值乘以符號概率得到規(guī)格化每編碼一個輸入符號后編碼范圍都會減小為了防止溢出要對輸出范圍進行判斷如果太小則進行一定的放大同時移位輸出一些已經(jīng)確定的輸出位在v m 中如果編碼范圍小于2 則進行放大直到大于2 如果等待全部算術(shù)編碼結(jié)束再輸出編碼結(jié)果這個二進制串將非常長計算機的內(nèi)存有限這翌竺里絲些塑些塑嬰樣做顯然不合理當(dāng)編碼范圍縮小時編碼的l 和h 將會非常接近如 k 0 6 2 5 7 h 0 6 2 5 9 這時不管后而編碼范圍如何縮小編碼的最終輸出結(jié)果前面的幾位 o 6 2 5 都不會改變所以在每進行一次符號編碼后要判斷l(xiāng) 和h 的最高有效位左邊編碼位如果相同就輸出這些位比特填充在編碼過程可能出現(xiàn)一些和系統(tǒng)控制符相同的二進制串必須在這些串中加入一些填充位以防系統(tǒng)判斷錯誤終止處理編碼結(jié)束時必須判斷輸出一個在編碼輸出范圍內(nèi)碼長最短的二進制串同時添加編碼結(jié)束符號 3 2 3c a d 解碼 c a d 解碼也分為計算上下文值查概率表和算術(shù)解碼三部分算術(shù)解碼過程和編碼過程相似處理正好相反過程為初始化符號解碼規(guī)格化終止處理符號解碼每次根據(jù)概率表判斷輸入編碼結(jié)果落在高概率符號范圍內(nèi)還是低概率符號范圍內(nèi) 如果落在該概率符號范圍內(nèi) 則輸出高概率符號反之輸出低概率符號并更新符號范圍規(guī)格化和編碼類似對符號輸入范圍進行必要的放大同時根據(jù)需要讀入新的比特位在讀入比特時要判斷去除填充比特 3 3 一種改進的m p e g 4 形狀編碼的快速運動估計算法在m p e g 編碼中一般采用三種手段進行圖像壓縮一是利用d c t 變換來消除圖像幀內(nèi)冗余二是利用熵編碼來消除符號編碼冗余三是利用運動估計來消除圖像的幀間冗余對于運動圖像而言幀間冗余遠(yuǎn)大于幀內(nèi)冗余和符號冗余因此運動估計顯得特別重要然而同時運動估計算法的運算量也是非常大的其被認(rèn)為是 m p e g 發(fā)展的障礙之一一直以來多數(shù)研究學(xué)者都將注意力集中在紋理編碼的快速運動估計算法上了雖然形狀編碼的運動估計和紋理編碼的運動估計相似但也存在不同的地方利用視頻序列的相關(guān)屬性和形狀信息的邊界特點本文提出了一種關(guān)于 m p e g 一4 形狀編碼的快速運動估計 m e 算法同時針對b a b 塊的不同運動量對b a b 塊進行分類不同類采用不同的搜索范圍和搜索方法這些大大的提高了運動估計的處理速度降低了搜索算法的搜索點數(shù) 獲得了比較滿意的結(jié) 果第三章形狀編碼的研究和改進 3 3 1 運動估計算法概述運動估計是序列圖像編碼提高壓縮比的一項關(guān)鍵技術(shù) 研究的重點多數(shù)是由物體的二維運動來估計其三維運動運動目標(biāo)在幀問有平移旋轉(zhuǎn)及其它變化而背景的變化要小一些或者是靜止的如果要全面地估計運動物體的各種運動變化需要含有許多參數(shù)的估計由于實際編碼和壓縮效率的要求目前視頻國際標(biāo)準(zhǔn)大多僅考慮物體的平移運動運動模型為高麓其中 x y 為運動物體的初始位置 h v 為運動物體的終止位置 v v 為運動矢量運動估計的方法有塊匹配法和象素遞歸法塊匹配法是將當(dāng)前圖像幀分成大小相等的矩形子塊假定這些塊只做平移運動對于每一個子塊通過搜索窗在前一幀的圖像塊中搜索具有最大相關(guān)性的匹配子塊從而確定其運動矢量象素遞歸法是對每個象素的位移進行估計塊匹配法的精度較低但它的位移跟蹤能力強易實現(xiàn) 得到廣泛的應(yīng)用 m p e g 標(biāo)準(zhǔn)亦推薦塊匹配法當(dāng)酋子塊搜索匹配區(qū) c 區(qū)為最佳匹配區(qū) y 為運動矢量圖3 4 塊匹配算法不意圖將當(dāng)前幀第k 幀均勻地劃分為m n 圖像宏塊并在上一幀參考幀內(nèi)開辟大小為 m 2 h n 2 v 的一塊區(qū)域用本幀宏塊在參考幀的搜索區(qū) 內(nèi)尋找最優(yōu) 匹配誤差最小的匹配塊求得運動矢量見圖3 4 衡量匹配好壞的準(zhǔn)則有最小均方誤差 m s e 和最小絕對值誤差 m a d m a d 準(zhǔn)則由于計算量小硬件實現(xiàn)簡單而得到廣泛使用 m a d 準(zhǔn)則定義為 n m a d i i l i 五 m 膽一五一 m f 九 l 2 其中 i j 分別為水平與垂直方向的偏移量工為第k 幀當(dāng)前塊灰度值五一為在參考幀第k 1 幀搜索窗1 2 1 內(nèi)相對于當(dāng)前塊偏移為 i j 的塊在m p e g 4 v m 中竺型堂鑒塑些塑嬰一不是直接用m a d 柬作為誤差準(zhǔn)則而是取其和一絕對誤差和s a d s u mo f a b s o i u t ed i f f e r e n c e 柬作為誤差計算和判斷的如式 3 其中的和一分別為當(dāng)前塊與參考塊的形狀a l p h a 掩碼 n s a d i l m 六一沏十f n j l 3 5 在已知匹配準(zhǔn)則的情況下如何搜索匹配誤差最小的子塊就是搜索算法所要解決的問題由于實際上一個塊的運動分布一般集中在該塊位置附近因此塊匹配的搜索只需在一定的范圍內(nèi)進行假設(shè)塊的運動分布在水平和垂直方向上是各向均勻的即不在其中某個方向上占優(yōu) 那么搜索范圍應(yīng)該是以當(dāng)前塊所在位置為中心的正方形顯然最佳的塊匹配搜索算法是全搜索 f u l ls e a r c h f s 即在搜索范圍內(nèi)逐個像素位置作塊匹配運算但此算法計算量很大設(shè)搜索目的塊的最大可能的位移為w 則f s 的搜索次數(shù)為l 2 w l j 在實際的應(yīng)用中f s 由于巨大的計算量嚴(yán)重的影響了視頻編碼算法的整體效率因而提出了很多改

人人文庫> 全部分類> 畢業(yè)設(shè)計 > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

（計算機應(yīng)用技術(shù)專業(yè)論文）mpeg4形狀編碼的研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

（計算機應(yīng)用技術(shù)專業(yè)論文）mpeg4形狀編碼的研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔