(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)mpeg4形狀編碼的研究.pdf_第1頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)mpeg4形狀編碼的研究.pdf_第2頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)mpeg4形狀編碼的研究.pdf_第3頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)mpeg4形狀編碼的研究.pdf_第4頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)mpeg4形狀編碼的研究.pdf_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要 摘要 m p e g 一4 是運(yùn)動(dòng)圖像專家組織制定的新一代多媒體壓縮國際標(biāo)準(zhǔn) 它提供了 一系列自然和合成的音視頻編碼工具 標(biāo)準(zhǔn)采用基于對(duì)象的編碼技術(shù) 可擴(kuò)展編 碼技術(shù)和容錯(cuò)機(jī)制等 實(shí)現(xiàn)了基于內(nèi)容的交互性和更高的壓縮效率 它將多媒體 的音視頻應(yīng)用擴(kuò)展到了前所未有的領(lǐng)域 本文首先對(duì)m p e g 4 標(biāo)準(zhǔn)和其校驗(yàn)?zāi)P?v m 的關(guān)鍵技術(shù)進(jìn)行了闡述 然 后 對(duì)v m 中的形狀編碼過程進(jìn)行了深入分析 利用宏塊之間的相關(guān)性和形狀信 息的特點(diǎn) 提出了一種形狀編碼的快速運(yùn)動(dòng)估計(jì)算法 針對(duì)在不同誤差閾值下 尺寸轉(zhuǎn)化的宏塊數(shù)目和比率不同的特點(diǎn) 對(duì)v m 中形狀編碼的尺寸轉(zhuǎn)化算法進(jìn)行 了改進(jìn) 并且結(jié)合精細(xì)可擴(kuò)展編碼的思想 利用形狀信息和四叉樹的特點(diǎn) 提出 了一種新的二值形狀空域可擴(kuò)展編碼算法 最后 結(jié)合自己的研究 對(duì)視頻編碼的進(jìn)一步發(fā)展和形狀編碼進(jìn)一步研究提 出了自己的一些看法 關(guān)鍵詞 m p e g 4 形狀編碼運(yùn)動(dòng)估計(jì)尺寸轉(zhuǎn)化可擴(kuò)展編碼 a b s t r a c t a b s t r a c t m p e g 4i san e wg e n e r a t i o ni s o i e cs t a n d a r df o rm u l t i m e d i ac o m m u n i c a t i o n d e v e l o p e db y t h em o v i n gp i c t u r e se x p e r tg r o u p m p e g a n dp r o v i d e sas e to ft o o l s f o rn a t u r a la n ds y n t h e t i cv i d e o a u d i oc o d i n g t h em p e g 4v i s u a ls t a n d a r ds u p p o r t s m a n yt e c h n i q u e si n c l u d e do b j e c t b a s e dc o d i n g s c a l a b l ec o d i n g a n de r r o rr e s i l i e n t c o d i n g t h em a i nf u n c t i o n sp r o v i d e db ym p e g 一4a r e c o n t e n t b a s e d i n t e r a c t i v i t y u n i v e r s a la c c e s s i b i l i t y a n di m p r o v e dc o m p r e s s i o n m p e g 一4s p r e a d st h ev i d e o a u d i o a p p l i c a t i o no f m u l t i m e d i at oe v e r y w h e r e t h ep i v o t a lt e c h n o l o g yo fm p e g 4a n di t sv e r i f i c a t i o nm o d e v m a r ed e s c r i b e d f i r s ti nt h i sp a p e r t h e nad e e pa n a l y s i so f s h a p ec o d i n gi nv m i sp e r f o r m e d af a s t a n de f f i c i e n tm o t i o ne s t i m a t i o na l g o r i t h mb a s e do nt h ef e a t u r e so fv i d e om o t i o nv e c t o r a n ds h a p ei n f o r m a t i o ni sp r o p o s e dt oi m p r o v es e a r c hs p e e di nm o t i o ne s t i m a t i o nf o r m p e g 一4s h a p ec o d i n g am o d i f ys i z e c o n v e r s i o na l g o r i t h mi s p r o p o s e dt o r e d u c e c o m p u t a t i o n a lc o m p l e x i t y f o rs h a p ec o d i n g an e ws h a p es p a t i a ls c a l a b l e c o d i n g a l g o r i t h mf o rm p e g 4 i sp r o p o s e db a s e do nt h ef e a t u r e so fv i d e o ss h a p ei n f o r m a t i o n a n d q u a d t r e e s o m ei d e a sf o rt h en e w d e v e l o p m e n to fv i d e oc o d i n ga n dr e s e a r c ho fs h a p e c o d i n ga r ep r o p o s e d b a s e do nt h er e s e a r c h e so f t h i s p a p e r a tl a s t k e yw o r d m p e g 4s h a p ec o d i n g m o t i o ne s t i m a t i o ns i z ec o n v e r s i o n s c a l a b l ee n c o d i n g 創(chuàng)新性聲明 v 5 8 3 4 4 4 本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究 成果 盡我所知 除了文中特別加以標(biāo)注和致謝中所羅列的內(nèi)容以外 論文中不 包含其他人已經(jīng)發(fā)表或撰寫過的研究成果 也不包含為獲得西安電子科技大學(xué)或 其他教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料 與我一同工作的同志對(duì)本研究所做 的任何貢獻(xiàn)均已在論文中做了明確的說明并表示了謝意 申請(qǐng)學(xué)位論文與資料若有不實(shí)之處 本人承擔(dān)一切相關(guān)責(zé)任 攤名 關(guān)于論文使用授權(quán)的說明 本人完全了解西安電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定 即 研究 生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬西安電子科技大學(xué) 本人保證畢 業(yè)離校后 發(fā)表論文或使用論文成果時(shí)署名單位仍然為西安電子科技大學(xué) 學(xué)校 有權(quán)保留送交論文的復(fù)印件 允許查閱和借閱論文 學(xué)??梢怨颊撐牡娜炕?部分內(nèi)容 可以允許采用影印 縮印或其他復(fù)制手段保存論文 保密的論文在 解密后遵守此規(guī)定 拋名 導(dǎo)師簽名 奎塾拯日期 絲絲f 耋耋j 絲日期 抄斗 i 第一章緒論 第一章緒論 1 1多媒體編碼技術(shù)的發(fā)展和概況 2 1 世紀(jì)的人類社會(huì)將是信息化和網(wǎng)絡(luò)化的社會(huì) 網(wǎng)絡(luò)信息具有數(shù)字化和海量 性的特點(diǎn) 網(wǎng)絡(luò)應(yīng)用的最重要目標(biāo)之一就是進(jìn)行多媒體通信 多媒體信息主要包 括圖像 聲音和文本三大類 其中視頻 音頻等信號(hào)的信息量非常大 它們的存 儲(chǔ)和傳輸給網(wǎng)絡(luò)帶來很大的困難 成為阻礙網(wǎng)絡(luò)多媒體發(fā)展的瓶頸之一 同時(shí) 各種視頻 音頻信息的表達(dá)方式不同 在不同的應(yīng)用環(huán)境下對(duì)內(nèi)容的側(cè)重點(diǎn)要求 不同 不同的來源還可能有不同的輸入 輸出要求 因此 研究和開發(fā)新型有效 的多媒體數(shù)據(jù)壓縮編碼方法并建立國際標(biāo)準(zhǔn)是最好的選擇 傳統(tǒng)的壓縮編碼是建立在香農(nóng) s h a n n o n 信息論的基礎(chǔ)上 它以經(jīng)典的集合 論為基礎(chǔ) 用統(tǒng)計(jì)概率模型來描述信源 但是 它未考慮信息接受者的主觀特性 及信息本身的具體含義 重要程度和引起的后果 壓縮編碼的發(fā)展歷程實(shí)際是以 香農(nóng)信息論為出發(fā)點(diǎn) 不斷完善和改進(jìn)的過程 編碼方法可以分成下述三類 考慮信源的統(tǒng)計(jì)特性 預(yù)測(cè)編碼方法 變換編碼方法 矢量編碼方法 矢量 量化編碼方法 子帶 4 波編碼方法 神經(jīng)網(wǎng)絡(luò)編碼方法等 考慮人眼的視覺特性 基于方向?yàn)V波的圖像編碼方法 基于圖像輪廓一紋理 的編碼方法 考慮圖像傳遞的景物特性 分形編碼 基于內(nèi)容的編碼方法 也有人將圖像編碼方法分為兩代 第一代是基于數(shù)據(jù)統(tǒng)計(jì) 去掉的是數(shù)據(jù)冗 余 稱為低層壓縮編碼方法 第二代是基于內(nèi)容 去掉的是內(nèi)容冗余 其中基于 對(duì)象 o b j e c t b a s e d 方法稱為中層壓縮編碼方法 其中基于語義 s y n t a x b a s e d 方法稱為高層壓縮編碼方法 基于內(nèi)容壓縮編碼方法代表新一代的壓縮方法 也 是目前最活躍的領(lǐng)域 最早是由瑞典的f o r c h h e i m e r 1 9 8 3 年 提出的 隨后日 本的h a m s h i m a 等人也展示了不少研究成果 l 為了實(shí)現(xiàn)多媒體傳輸?shù)膰H標(biāo)準(zhǔn)化 國際標(biāo)準(zhǔn)化組織i s o i n t e r n a t i o n a l s t a n d a r do r g n i z a t i o n 與i e c i n t e r n a t i o n a le l e c t r o n i cc o m m i t t e e 于1 9 8 8 年聯(lián)合 成立了m p e g m o v i n g p i c t u r ee x p e r tg r o u p 組織 m p e g 的任務(wù)是致力于運(yùn)動(dòng) 圖像及其伴音編碼標(biāo)準(zhǔn)化工作 m p e g 先后推出和正在建立的標(biāo)準(zhǔn)有m p e g 1 i m p e g 2 2 m p e g 4 7 m p e g 7 3 1 m p e g 2 1 e 4 等 不同標(biāo)準(zhǔn)具有不同的用途和 解碼質(zhì)量 m p e g 標(biāo)準(zhǔn)的出現(xiàn)和發(fā)展對(duì)多媒體通信的發(fā)展起到了革命性的推動(dòng)作 用 m p e g 標(biāo)準(zhǔn)一直是許多科研機(jī)構(gòu)和大學(xué)的科研熱點(diǎn) 也是工業(yè)界產(chǎn)品丌發(fā)的 熱點(diǎn) m p e g 標(biāo)準(zhǔn)闡明了聲音和電視圖像的編碼和解碼過程 嚴(yán)格定義了聲音和 圖像數(shù)據(jù)編碼后組成位數(shù)據(jù)流的句法 提供了編解碼的測(cè)試方法等 但沒有對(duì)所 有內(nèi)容都作嚴(yán)格規(guī)定 尤其是對(duì)壓縮和解壓縮的算法 這樣既保證了解碼器能對(duì) 符合m p e g 標(biāo)準(zhǔn)的聲音數(shù)據(jù)和電視圖像數(shù)據(jù)進(jìn)行正確解碼 又給m p e g 標(biāo)準(zhǔn)的 具體實(shí)現(xiàn)留有很大余地 人們可以不斷改進(jìn)編碼和解碼算法 提高聲音和電視圖 像的質(zhì)量以及編碼效率 m p e g 一1 于1 9 9 3 年成為國際標(biāo)準(zhǔn) 它是對(duì)1 5 m b i t s 以下數(shù)據(jù)傳輸率的數(shù)字 存儲(chǔ)媒體運(yùn)動(dòng)圖像及其伴音的壓縮編碼標(biāo)準(zhǔn) 適用于c d r o m v c d c d i 交互式c d 等 它可對(duì)s i f 標(biāo)準(zhǔn)交換格式 分辨率 n t s c 制式為3 5 2 x 2 4 0 p a l 制式為3 5 2 2 8 8 的圖像進(jìn)行壓縮 傳輸速率為1 5 m b i t s 每秒播放3 0 幀 具有c d 音質(zhì) 圖像質(zhì)量基本與v h s 家用錄像機(jī)相當(dāng) m p e g 1 也被用于數(shù)字通 信網(wǎng)絡(luò)上的視頻傳輸 如基于a d s l 非對(duì)稱數(shù)字用戶線路 的視頻點(diǎn)播 v o d 遠(yuǎn)程教育等 m p e g 2 于1 9 9 5 年成為國際標(biāo)準(zhǔn) 其目標(biāo)是達(dá)到高級(jí)工業(yè)標(biāo)準(zhǔn)的圖像質(zhì)量以 及更高的傳輸率 m p e g 2 所能提供的傳輸率在3 1 0 m b i 訛之間 在n t s c 制 式下的分辨率可達(dá)7 2 0 x 4 8 6 可提供廣播級(jí)的圖像質(zhì)量和c d 級(jí)的音質(zhì) 適用于 數(shù)字電視廣播 d v b h d t v 和d v d 的運(yùn)動(dòng)圖像及其伴音的壓縮編碼 目前 m p e g 2 己得到廣泛應(yīng)用 如美國 歐洲 日本在d v d 和數(shù)字電視廣播方面都 采用m p e g 2 壓縮技術(shù) m p e g 4 從1 9 9 4 年開始工作 于1 9 9 9 年初正式成為國際標(biāo)準(zhǔn) m p e g 4 是 一個(gè)適用于低傳輸速率應(yīng)用的方案 與m p e g 1 和m p e g 2 相比 m p e g 一4 的目 標(biāo)是要在異構(gòu)網(wǎng)絡(luò)環(huán)境下能夠高度可靠地工作 并且更加注重多媒體系統(tǒng)的交互 性和靈活性 繼m p e g 4 之后 要解決的矛盾就是對(duì)日漸龐大的圖像 聲音信息的管理和 迅速搜索 針對(duì)這一矛盾 1 9 9 8 年l o 月 m p e g 啟動(dòng)了一個(gè)新的工作項(xiàng)目 即 多媒體內(nèi)容描述接1 3 m u l t i m e d i ac o n t e n t d e s c r i p t i o n i n t e r f a c e 一m p e g 7 它的目標(biāo)是擴(kuò)展現(xiàn)有系統(tǒng)有限的查詢能力 使其包括更多的信息形式 m p e g 7 將 確立各種類型的多媒體信息標(biāo)準(zhǔn)的描述方法 m p e g 在1 9 9 9 年1 0 月的墨爾本會(huì) 議上又提出了 多媒體框架 m u l t i m e d i af r a m e w o r k m p e g 2 1 的概念 并于 2 0 0 0 年7 月開始工作 m p e g 2 1 總體上來講是一個(gè)支持通過異構(gòu)網(wǎng)絡(luò)和設(shè)備使 用戶透明而廣泛地使用多媒體資源的標(biāo)準(zhǔn) 其目標(biāo)是建立一個(gè)交互的多媒體框架 在推出m p e g 1 和m p e g 2 的同時(shí) 另一個(gè)國際組織c c i t t i n t e r n a t i o n a l t e l e g r a p ha n dt e l e p h o n ec o u n s u l a t i v ec o m m i t t e e 一國際電話電報(bào)咨詢委員會(huì) 后 改名口qi t u t i n t e m a t i o n a lt e l e c o m m u n i c a t i o n su n i o n t e l e c o m m u n i e a t i o ns e c t o r 第一章緒論 也先后推出了h 2 6 1 和h 2 6 3 5 l 兩個(gè)用于傳輸數(shù)字視頻信號(hào)的壓縮標(biāo)準(zhǔn) 在h 2 6 3 之后 i t u t 視頻編碼專家組 v i d e oc o d i n ge x p e r t sg r o u p v c e g 的短期任務(wù) 是對(duì)h 2 6 3 標(biāo)準(zhǔn)的擴(kuò)充制定h 2 6 4 1 3 標(biāo)準(zhǔn) 長(zhǎng)期目標(biāo)是低速率視頻傳輸標(biāo)準(zhǔn) h 2 6 l 在2 0 0 1 年 m p e g 組織成立視頻聯(lián)合組 j o i n tv i d e ot e a m t j v t 由m p e g 和v c e g 的一部分專家組成 負(fù)責(zé)將原來的m p e g 一4 的第1 0 部分和 h 2 6 4 合并為m p e g 一4 的第1 0 部分 這個(gè)標(biāo)準(zhǔn)又稱為先進(jìn)的視頻編碼 j 刮 a d v a n c e d v i d e oc o d i n g a v c 我國在視音頻編碼的標(biāo)準(zhǔn)制定方面發(fā)展也很迅速 我國制定數(shù)字視音頻編解 碼標(biāo)準(zhǔn) 目的不僅僅是為了把專利許可費(fèi)控制在合理水平上 更重要的意義是開 發(fā)出技術(shù)更先進(jìn)的標(biāo)準(zhǔn) 從源頭上提高我國數(shù)字音視頻產(chǎn)業(yè)的核心競(jìng)爭(zhēng)力 為我 國數(shù)字電視音視頻產(chǎn)業(yè)和相關(guān)芯片產(chǎn)業(yè)提供跨越發(fā)展的技術(shù)源頭 為國際數(shù)字音 視頻市場(chǎng)提供更好的選擇 國家信息產(chǎn)業(yè)部科學(xué)技術(shù)司于2 0 0 2 年6 月批準(zhǔn)成立數(shù) 字音視頻編解碼技術(shù)標(biāo)準(zhǔn)化工作組 6 a u d i ov i d e oc o d i n gs t a n d a r dw o r k g r o u po f c h i n a 簡(jiǎn)稱a v s 工作組 工作組的任務(wù)是 面向我國的信息產(chǎn)業(yè)需求 聯(lián)合國 內(nèi)企業(yè)和科研機(jī)構(gòu) 制 修 訂數(shù)字音視頻的壓縮 解壓縮 處理和表示等共性 技術(shù)標(biāo)準(zhǔn) 為數(shù)字音視頻設(shè)備與系統(tǒng)提供高效經(jīng)濟(jì)的編解碼技術(shù) 服務(wù)于高分辨 率數(shù)字廣播 高密度激光數(shù)字存儲(chǔ)媒體 無線寬帶多媒體通訊 互聯(lián)網(wǎng)寬帶流媒 體等重大信息產(chǎn)業(yè)應(yīng)用 a v s 工作組制定的a v s 信息技術(shù)先進(jìn)音視頻編碼 標(biāo)準(zhǔn)與國際標(biāo)準(zhǔn)m p e g 2 兼容 并針對(duì)數(shù)字電視 光盤播放機(jī) 網(wǎng)絡(luò)流媒體 多 媒體通信等應(yīng)用進(jìn)行了具體的規(guī)定和定義 從框架上提供了對(duì)國內(nèi)外各種主流視 頻 音頻編碼標(biāo)準(zhǔn)的支持 按照編碼方法發(fā)展的兩代論 目前已經(jīng)制定成熟的視頻壓縮編碼標(biāo)準(zhǔn) m p e g 1 m p e g 2 h 2 6 1 h 2 6 3 都屬于第一代壓縮編碼方法一一基于數(shù)據(jù) 統(tǒng)計(jì)的壓縮編碼方法 而正在制定的m p e g 4 和m p e g 7 屬于第二代壓縮編碼方 法中的基于對(duì)象的壓縮編碼方法 1 2 本文的研究?jī)?nèi)容 我國多媒體編解碼標(biāo)準(zhǔn) a v s 的制定和發(fā)展在很多內(nèi)容上是借鑒和吸收國 際上已經(jīng)成功的標(biāo)準(zhǔn)的結(jié)果 所以研究國際先進(jìn)標(biāo)準(zhǔn)對(duì)國內(nèi)標(biāo)準(zhǔn)的發(fā)展非常重要 盡管m p e g 4 標(biāo)準(zhǔn)版本已經(jīng)制定出來 但是標(biāo)準(zhǔn)中所包括的編解碼算法和技術(shù)要 應(yīng)用于實(shí)際還有許多問題需要解決 同時(shí)m p e g 4 是一個(gè)開放的標(biāo)準(zhǔn) 它的具體 各部分的算法實(shí)現(xiàn)是一個(gè)逐步改進(jìn)和完善的過程 編碼速度 圖像質(zhì)量和壓縮效率等是在標(biāo)準(zhǔn)實(shí)用化階段需要考慮的問題 本 文的研究基礎(chǔ)是目前新制訂的m p e g 4 標(biāo)準(zhǔn) 研究?jī)?nèi)容是視頻編碼中的形狀編碼 m p e g 4 彤狀編碼的研究 編解碼算法和可擴(kuò)展編解碼算法 在深入研究的基礎(chǔ)上 本文對(duì)m p e g 一4 標(biāo)準(zhǔn)提 供的校驗(yàn)?zāi)P椭械男螤罹幋a的某些部分提出了改進(jìn)算法 并用m p e g 一4 標(biāo)準(zhǔn)建議 的測(cè)試序列進(jìn)行了測(cè)試 取得了滿意的效果 主要研究?jī)?nèi)容如下 1 對(duì)m p e g 4 標(biāo)準(zhǔn)和其校驗(yàn)?zāi)P?v m 的關(guān)鍵技術(shù)進(jìn)行了介紹 對(duì)v m 中 的形狀編碼算法進(jìn)行了詳細(xì)分析 2 提出了 種快速的形狀編碼運(yùn)動(dòng)估計(jì)算法 此算法利用相鄰塊的相關(guān)性確 定搜索的初始點(diǎn) 根據(jù)初始預(yù)測(cè)塊和當(dāng)前塊的絕對(duì)誤差和 s u mo fa b s o l u t e d i f f e r e n c e s a d 選擇要采用的搜索算法 實(shí)驗(yàn)表明此算法計(jì)算復(fù)雜度低 搜索 范圍大 預(yù)測(cè)精度高 3 針對(duì)在不同誤差閩值下 尺寸轉(zhuǎn)化的宏塊數(shù)目和比率不同的特點(diǎn) 對(duì) m p e g 一4 v m 中形狀編碼的尺寸轉(zhuǎn)化 確定分辨率 算法進(jìn)行了改進(jìn) 采用改進(jìn)算 法可以提高編碼速度 減少運(yùn)算復(fù)雜度 改善編碼質(zhì)量 4 提出了一種新的空域可擴(kuò)展形狀編碼算法 利用形狀信息的特點(diǎn)和四叉樹 的原理來實(shí)現(xiàn)形狀信息編碼的漸進(jìn)的可擴(kuò)展分層編碼 這種算法實(shí)現(xiàn)簡(jiǎn)單 可以 很好的實(shí)現(xiàn)可擴(kuò)展的編碼思想 1 3 章節(jié)的安排 本文的章節(jié)安排如下 第 章對(duì)多媒體編碼的發(fā)展作簡(jiǎn)單介紹 并介紹了作者的主要工作 第二章對(duì)m p e g 4 標(biāo)準(zhǔn)和其校驗(yàn)?zāi)P?v m 內(nèi)容作簡(jiǎn)要介紹 第三章對(duì)m p e o 4 形狀編碼做詳細(xì)分析論述 并對(duì)本文提出的運(yùn)動(dòng)估計(jì)改 進(jìn)算法和尺寸轉(zhuǎn)化改進(jìn)算法作了詳細(xì)的闡述 第四章對(duì)可擴(kuò)展編碼作簡(jiǎn)要介紹 對(duì)提出的一種新的空域形狀可擴(kuò)展編碼算 法做詳細(xì)的闡述 第五章結(jié)束語 對(duì)m p e g 標(biāo)準(zhǔn)的發(fā)展進(jìn)行了展望 對(duì)本文的研究工作進(jìn)行 了總結(jié) 附錄和參考文獻(xiàn) 第二章m p e g 4 視頻編碼 第二章m p e g 4 視頻編碼 2 1 m p e g 4 技術(shù)及應(yīng)用綜述 2 1 1 m p e g 4 標(biāo)準(zhǔn)概要 m p e g 4 標(biāo)準(zhǔn)不僅針對(duì)一定比特率下的視頻 音頻編碼 并且更加注重多媒 體系統(tǒng)的交互性和靈活性 1 i 一 孽 函 掣 k 宴慰 h 一 心二 淵 1 c o m p o s i f i o n a n dr c n d e r n g 什俞 稈 6 毒柏 鹼 嘲 崢6 譬 團(tuán)1 u w h a 呻dc q t l d m 垡b n 0 h 口d i n r 塒m a 柵 l a y e r i k 篙n p k w d c m n p t k n i l r i a l i t i v e h 6 j m i m l l a v 0 b 媾b a ii iii 晶 ie 口 日 曲 瞳j 壓 p 甲 占 瑟 m h 口0 m m u l a d c xh b 七 i il 怒 州 fk 刪u 甲r 1 f r lj p f s j r t p i l u 0 l u d l a y e r m p e 矗 u d p t gl t m髂t h l l m 3 z 一一 n m i 5 函柏m 口m e d i u m 圖2 1 一個(gè)m p e g 4 視聽終端的處理過程 m p e g 一4 標(biāo)準(zhǔn)不像以前的多媒體標(biāo)準(zhǔn)一樣是基于幀的編碼 而是基于對(duì)象的 編碼 對(duì)于觀察者而言 一幅場(chǎng)景總可以劃分成一些不同的內(nèi)容及背景 每一部 m p e g 一4 形狀編碼的研究 分的內(nèi)容對(duì)應(yīng)一個(gè)獨(dú)立的音頻 視頻 a u d i o v i d e o 對(duì)象 這些a v 對(duì)象都擁有自 己?jiǎn)为?dú)的編解碼器 用戶可以對(duì)場(chǎng)景中的內(nèi)容進(jìn)行交互操作 因此 m p e g 一4 標(biāo) 準(zhǔn)的基本內(nèi)容就是高效率地編碼 組織 存儲(chǔ) 傳輸a v 對(duì)象 圖2 1 顯示了一個(gè)m p e g 4 視聽終端的處理過程 一個(gè)場(chǎng)景 包括一個(gè)站著 的女士 一個(gè)桌子 一個(gè)地球儀 個(gè)在其上有多媒體演示的 電子白板 等等 通過對(duì)象分割 編碼壓縮 增加同步信息 然后傳輸?shù)接脩舳?用戶端接收到這 些信息后根據(jù)同步信息解壓縮 然后既可以根據(jù)傳送過來的組合信息恢復(fù)原始場(chǎng) 景 也可以根掘自己的需要選擇要恢復(fù)的a v 對(duì)象 生成新的場(chǎng)景 m p e o 4 提供了對(duì)音頻對(duì)象 視頻對(duì)象 情景描述以及與發(fā)送系統(tǒng)的接口進(jìn) 行編碼的標(biāo)準(zhǔn)方法 由于在解碼端要對(duì)a v 對(duì)象進(jìn)行重新組合 所以m p e g 4 既 支持自然的a v 對(duì)象編解碼也支持合成的a v 對(duì)象編解碼 2 1 2 m p e g 4 標(biāo)準(zhǔn)的主要特點(diǎn)和功能 m e p o 4 視頻編碼標(biāo)準(zhǔn)支持m p e g 1 m p e c 一2 中的大多數(shù)功能 提供不同 的視頻標(biāo)準(zhǔn)源格式 碼率 幀頻下矩形圖像的有效編碼 同時(shí)也支持基于內(nèi)容的 圖像編碼 如圖2 2 在m p e g 4 功能集的底層是v l b v v e r yl o wb i tr a t ev i d e o 核 心 它為碼率在5 6 4 k b p s 范圍內(nèi)的視頻操作與應(yīng)用提供算法與工具 支持較低 的空間分辨率 低于3 5 2x 2 8 8 像素 和較低的幀頻 低于1 5 h z v l b v 核心 支持的專用功能包括 矩形圖像序列的有效編碼 多媒體數(shù)據(jù)庫的搜索和隨機(jī)存 取 圖2 2m p e g 4 視頻編碼工具結(jié)構(gòu) m p e g 4 的h b v h i g hb i tr a t ev i d e o 同樣支持上述功能 其碼率范圍在 6 4 k b p s 1 0 m b b p s 之間 它與v l b l 核心采用相同或相似的算法 但它支持更高 第二章m p e g 4 視頻編碼 的空間與時(shí)間分辨率 允許傳輸和存儲(chǔ)適用于演播室的高質(zhì)量視頻信號(hào) 典型應(yīng) 用為數(shù)字電視廣播與交互式檢索 m p e g 一4 最終支持的碼率將高于m p e g 2 m p e g 一4 包括如下幾部分主要功能 1 基于內(nèi)容的編碼 基于內(nèi)容的交互性 基于內(nèi)容的多媒體數(shù)據(jù)存取工具 基于內(nèi)容的碼流操縱 和編輯 自然與合成數(shù)掘的混合編碼 增強(qiáng)的時(shí)間域隨機(jī)存取 2 編碼效率的改進(jìn)和并發(fā)數(shù)據(jù)流的編碼 提高編碼效率 對(duì)多個(gè)并發(fā)數(shù)據(jù)流的編碼 支持對(duì)同一場(chǎng)景多視點(diǎn)的有效編 碼 對(duì)于立體視頻應(yīng)用 要求具有利用信息冗余的能力 并支持有無與正常視頻 兼容性要求條件下的聯(lián)合編碼方案 3 容錯(cuò)機(jī)制 錯(cuò)誤易發(fā)環(huán)境中的錯(cuò)誤魯棒性 r o b u s t n e s s 和錯(cuò)誤修復(fù) r e s i l i e n c e 技術(shù) 4 基于內(nèi)容的可伸縮性 s c a l a b l e 包括基于內(nèi)容的空域可擴(kuò)展編碼和時(shí)域可擴(kuò)展編碼 2 1 3m p e g 4 的體系結(jié)構(gòu) m p e g 一4 標(biāo)準(zhǔn)主要有6 個(gè)部分 系統(tǒng)標(biāo)準(zhǔn) 視頻標(biāo)準(zhǔn) 聲音標(biāo)準(zhǔn) 一致性測(cè) 試 參考軟件和多媒體集成框架 其核心部分有四個(gè)模塊 系統(tǒng)層 視頻 音頻 和d m i f 1 d e l i v e r ym u l t i m e d i ai n t e g r a t i o nf r a m e w o r k 其中前三部分是獨(dú)立 于傳輸?shù)?而d m i f 則定義了面向傳輸?shù)奶匦?另外還有兩個(gè)支持模塊 一致性 測(cè)試 c o n f o r m a n c et e s t i n g 和參考軟件 r e f e r e n c es o f t w a r e m e d i aa w a r e d e i i v e r yu n a w a r e i s o i e c1 4 4 9 6 2v i s u a l s 川e c1 4 4 0 6 3a u d i o m e d i au n a w a r e d e l i v e l yt l l l a w a r e s a l p h at h 那么a c q 0 否貝 l j a c q 1 如果所有p b 塊誤差 都小于預(yù)定誤差閾值 a l p h a t h 就認(rèn)為可以使用該近似形狀塊代替原始形狀塊 反之則不能 編碼模式的確定分兩步進(jìn)行 這是第一步的算法 i f a l l o b a b s h a p e m o d e a l l 0 e l s ei f a l l 2 5 5 b a b s h a p e m o d e a l l 2 5 5 e l s ei f a c q b a b 2 5 5 a c q b a b 0 第三章形狀編碼的研究平 改進(jìn) i f o p a q u e p i x e l s 2 1 2 8 s h a p e m o d e a l l 2 5 5 e l s es h a p e m o d e 2 a l l o e l s ei f a c q b a b 2 5 5 s h a p e m o d e a l l 一2 5 5 e l s ei f v o p t y p e 2 i v o p s h a p e m o d e i n t r a c a e h 如果是b p v o p s h a p e m o d e i n t r ac a e d e c i d e c r 0 n 確定分辨率 如果是b p v o p 這一步在后面進(jìn)行 注意 上面程序中a l l o b a b 干i ia l l 2 5 5 b a b 是指這個(gè)b a b 塊內(nèi)象素全為 0 或者全為2 5 5 a c q b a b 0 n ia c q b a b 2 5 5 是指這個(gè)b a b 塊如果被編碼為全 0 或者全2 5 5 解碼質(zhì)量可以接受 在這一步 先大概確定該b a b 塊用a u0 a l l2 5 5 和還是i n t r ac a e i n t e r c a e 模式 后面再根據(jù)運(yùn)動(dòng)向量進(jìn)行進(jìn)一步的確定 3 運(yùn)動(dòng)估計(jì)和補(bǔ)償 確定b a b 塊后 如果該v o p 是b v o p 或p v o p 那么就對(duì)待編碼的b a b 進(jìn)行運(yùn)動(dòng)估計(jì) 得到運(yùn)動(dòng)矢量m v s m vf o rs h a p e 如果該v o p 是i v o p 則 該步可以省去 在論文3 3 部分將對(duì)運(yùn)動(dòng)估計(jì)進(jìn)行詳細(xì)研究 4 確定編碼模式 二 進(jìn)行運(yùn)動(dòng)估計(jì)后 如果該v o p 是b v o p 或p v o p 那么就對(duì)待編碼的b a b 進(jìn)行進(jìn)一步的編碼模式確定 如果是i v o p 則不需要進(jìn)行這一步 i f s h a p e m o d e a l l o m o t i o n e s f i m a t i o n 0 運(yùn)動(dòng)估計(jì) i f a l l 0 b a b 11 a c q m c b a b 判斷1 6 個(gè)子塊的s a d 是否全小于誤差閥 值 m cb a b 指運(yùn)動(dòng)補(bǔ)償塊 n 如果全透明或不接受幀間c a e d e c i d e c r 0 i f 靖定分辨率 i f m v s i s z e r 0 0 n 動(dòng)向量為零 s h a p e m o d e r n t e rc a em v z e l s e s h a p e m o d e i n t e r c a e m v n z e l s ei f s h a p e m o d e a l l 2 s s e m v s i s z e r o o m p e g 4 彤狀編碼的研究 如果全不透明且運(yùn)動(dòng)向量不為零全不透明編碼 s h a p e m o d e 2 2 a l l2 5 5 e l s ei f a l l 2 5 5 b a b a l l 2 5 5 i v l c b a b s h a p e m o d e2 a l l 2 5 5 e l s ei f m v s i s z e r o o 運(yùn)動(dòng)向量為0 s h a p e m o d e m v z n o u p d t e l s e s h a p e m o d e m v n z n o u p d t 5 尺寸轉(zhuǎn)化 確定待編碼b a b 塊的分辨率 由于有碼率控制和空域可擴(kuò)展性 所以有時(shí)分辨率的改變是必需的 尺寸轉(zhuǎn) 化由兩步組成 轉(zhuǎn)化的比例由v o pc r 確定 v o pc r 可以取1 2 或者1 4 當(dāng) v o pc r 為1 2 時(shí) 整個(gè)v o p 就通過下采樣 得到原來l 4 大小的形狀圖 下采 樣可以通過平均值來代替多個(gè)采樣點(diǎn) 上采樣通過插值得到 v o p 的形狀編碼是基于b a b 塊 而b a b 塊的分辨率可根據(jù)不同塊特點(diǎn)而改 變 v m 中確定b a b 塊的分辨率c r 的算法如下 c r 1 4 d o w n s a m p l e s h a p e 0 u p s a m p l e s h a p e 0 i f a c q b a b r e t u r n c r 1 2 d o w n s a m p l e s h a p e 0 u p s a m p l e s h a p e 0 i f a c q b a b r e t u r n c r l 先將當(dāng)前b a b 塊按c r 所代表比例值進(jìn)行下采樣 再進(jìn)行相應(yīng)上采樣得到與 原來同樣尺寸的重構(gòu)b a b 塊 再對(duì)這兩個(gè)b a b 塊相應(yīng)p b 4 4 塊計(jì)算s a d 絕對(duì)誤差和 值 如果s a d p b i a l p h a t h 那么a c q b a b 返n y bf a l s e 若 所有1 6 個(gè)p b 4 x 4 塊s a dp b i a l p h a t h 則a c q b a b 返回為t r u e 6 基于上下文的算術(shù)編碼 除過a l l o 和a l l 一2 5 5 兩種編碼模式 其余編碼模式的b a b 塊都要進(jìn)行基 于上下文的算術(shù)編6 q c a e 分幀內(nèi)和幀間兩種模式 對(duì)幀內(nèi)編碼模式 分別嘗試 水平掃描和垂直掃描兩種方式進(jìn)行編碼 最終采用編碼字節(jié)少的一種 并輸出到 輸出碼流中 對(duì)幀間編碼模式 先嘗試幀內(nèi)模式下的水平和垂直掃描方式 再嘗 第三章形狀編碼的研究和改進(jìn) 試幀間模式下的水平和垂直掃描方式編碼 最終采用其中編碼字節(jié)最少的 種 并輸出到輸出碼流中 c a e 編碼過程將在下節(jié)詳細(xì)論述 3 1 2 狄度形狀編碼 1 輪廓編碼和灰度a l p h a 值編碼 狄度的a l p h a 平面編碼由兩部分組成 一個(gè)是它的形狀輪廓編碼 另一個(gè)是 在輪廓中的a l p h a 值的編碼 輪廓編碼采用二值形狀編碼 a l p h a 值編碼采用任意 形狀的紋理編碼 見圖3 1 b 輪廓是通過在灰度級(jí)的a l p h a 平面上通過設(shè)定閾值0 得到的 除了d c t 變換 是基于幀的 像亮度值一樣 灰度a l p h a 值被分割為1 6 1 6 塊進(jìn)行編碼 在 碼流中一個(gè)a l p h a 宏塊的編碼將附加到它對(duì)應(yīng) 紋理 宏塊編碼的后面 2 羽化 許多視頻序列使用灰度a l p h a 掩碼 它們的紋理相對(duì)簡(jiǎn)單一些 例如有些是 由固定灰度值構(gòu)成的灰度a l p h a 掩碼 還有 些灰度a l p h a 掩碼由一個(gè)在輪廓邊緣 處從2 5 5 遞減到0 的二值a l p h a 掩碼構(gòu)成 這樣可以和背景形成光滑過渡 后面 這種類型的掩碼可以用一個(gè)二值的掩碼和羽化描述 一個(gè)簡(jiǎn)單的改進(jìn)的二進(jìn)制 a l p h a 掩碼 組成 羽化就是輪廓邊緣光滑過渡到背景 這部分的詳細(xì)內(nèi)容見 m p e g 4 校驗(yàn)?zāi)P蚷 3 2 基于上下文的算術(shù)編解碼 本節(jié)將詳細(xì)討論基于上下文的算術(shù)編碼 c a e 和解碼 c a d 過程 c a e 編碼屬于一種改進(jìn)的 更高效的算術(shù)編碼 3 2 1 算術(shù)編碼簡(jiǎn)介 算術(shù)編碼 3 0 在圖像數(shù)據(jù)壓縮標(biāo)準(zhǔn)中扮演了重要的角色 在算術(shù)編碼中 信息 用0 到1 之間的實(shí)數(shù)進(jìn)行編碼 算術(shù)編碼用到兩個(gè)基本的參數(shù) 符號(hào)的概率和它 的編碼間隔 信源符號(hào)的概率決定壓縮編碼的效率 也決定編碼過程中信源符號(hào) 的間隔 而這些間隔包含在0 到1 之間 編碼過程中的間隔決定了符號(hào)壓縮后的 輸出 算術(shù)編碼對(duì)整條信息 無論信息有多么長(zhǎng) 其輸出僅僅是一個(gè)數(shù) 而且是 一個(gè)介于0 和l 之間的二進(jìn)制小數(shù) 因此譯碼器在接受到表示這個(gè)小數(shù)的所有位 之前不能進(jìn)行譯碼 算術(shù)編碼和哈夫曼編碼一樣 也是對(duì)在信息中出現(xiàn)較多 概率大 的符號(hào)采 用較少的編碼位數(shù) 對(duì)在信息中出現(xiàn)較少 概率小 的符號(hào)采用相對(duì)較多的編碼 位數(shù) 從而達(dá)到壓縮的目的 但由于算術(shù)壓縮可以將一個(gè)符號(hào)出現(xiàn)的概率表示為 小數(shù)個(gè)二進(jìn)制位 而哈夫曼編碼的符號(hào)編碼位數(shù)都為整數(shù) 所以算術(shù)編碼可以接 近無損壓縮的熵極限 比哈夫曼編碼效率更高 對(duì)于較長(zhǎng)的信息 所有符號(hào)在大量信息中的概率差別很小 如果直接應(yīng)用這 些概率編碼 壓縮率不大 如果采用在一定限制條件 上下文環(huán)境 下的概率 即基于上下文的算術(shù)編碼 其信息的熵建立在更高的概率層次上 這樣得到的信 息總熵值更小 壓縮率更高 3 2 2c a e 編碼 c a e 編碼主要分為計(jì)算上下文值 查概率表和算術(shù)編碼三部分 1 計(jì)算上下文值 環(huán)境數(shù) 基于上下文的算術(shù)編碼中符號(hào)的概率并不是該符號(hào)在整個(gè)信息中出現(xiàn)的概 率 而是該符號(hào)在一定上下文環(huán)境下的概率 這時(shí)信息的總熵值更小 這里存在 一個(gè)上下文模板的大小的問題 模板越大 信息的總熵值越小 但需要存儲(chǔ)模板 的概率表也越大 c a e 算法在兩者均衡之下選擇幀內(nèi)模板大小為1 0 幀問模板為 9 a l i 目 m 璣t p 1 x 1 to t t b o r d m cb a 工n t r a c e 時(shí)的相關(guān)點(diǎn) b i n t e r c a e 時(shí)的相關(guān)點(diǎn) 水平掃描方式時(shí) c 6c l c g c s c o c e c e 7 c s c 2 陽諱 t h e f c u i x r e r l e s n t o f 日紐 t h eb p r d e i x r e e l d s 韙b a b a i n t r a c a e 時(shí)的相關(guān)點(diǎn) b i n t e r c a e 時(shí)的相關(guān)點(diǎn) 垂直掃描方式時(shí) 圖3 3 計(jì)算上下文時(shí)的相關(guān)點(diǎn) 第二章形狀編碼的研究平 改進(jìn) 上下文值就是根據(jù)當(dāng) j i 的待編碼點(diǎn)附近的多個(gè)點(diǎn)的象素值生成的一個(gè)數(shù)字 幀內(nèi)與幀問形狀塊的取點(diǎn)位置如圖3 3 從圖中可見 幀內(nèi)塊在當(dāng)前點(diǎn)附近取1 0 個(gè)點(diǎn) 幀間塊在當(dāng)前點(diǎn)附近取4 個(gè)點(diǎn) 并在運(yùn)動(dòng)補(bǔ)償塊中的對(duì)應(yīng)點(diǎn)周圍取5 個(gè)點(diǎn) 注意 當(dāng)掃描方向?yàn)榇怪睍r(shí) 形狀有所不同 幀內(nèi)塊與幀間塊生成上下文值的 公式都是 c 印2 k 其中c k 取值為0 或1 表示對(duì)應(yīng)環(huán)境點(diǎn)是否透明 k 0 1 2 9 如 果第k 點(diǎn)為2 5 5 則c k 為1 否則c k 為0 2 查概率表 形狀塊中每個(gè)點(diǎn)生成上下文值后 將以該上下文值為索引 從概率表中取得 一個(gè)概率值 其中幀內(nèi)和幀間形狀塊對(duì)應(yīng)不同的概率表 幀內(nèi)概率表的大小為2 1 0 2 4 幀間概率表的大小為2 9 5 1 2 v m 中c a e 編碼概率表只存儲(chǔ)了模板中所有排列的上下文情況下輸入符號(hào)為 0 的概率 概率為一個(gè)放大2 的整數(shù) 輸入符號(hào)為l 的概率就是用2 減去輸入符 號(hào)為0 的概率的差 概率表見參考文獻(xiàn) 1 5 之附錄f 3 算術(shù)編碼 算術(shù)編碼主要涉及5 個(gè)過程 初始化 符號(hào)編碼 規(guī)格化 比特填充 終止 處理 初始化 算術(shù)編碼在實(shí)際應(yīng)用中并不是直接對(duì)小數(shù)進(jìn)行變換 它將符號(hào)范圍 和符號(hào)概率都放大到一個(gè)很大的二進(jìn)制整數(shù) 這樣便子編解碼操作 在開始編碼 前要初始化下次輸入符號(hào)的編碼輸出范圍 輸出范圍即編碼輸出的高低 h 和l 邊界 實(shí)際由兩個(gè)參數(shù)確定 低邊界l 和范圍r 因?yàn)閔 l r v m 中算術(shù)編 碼的初始化編碼輸出范圍為0 2 即l 0 r 2 符號(hào)編碼 每次算術(shù)編碼根據(jù)輸入符號(hào)為高概率符號(hào)還是低概率符號(hào)和該符 號(hào)的概率確定新的編碼結(jié)果輸出范圍 c a e 編碼的低概率符號(hào) l p s 和高概率 符號(hào) m p s 并不是固定的1 或者0 在當(dāng)前上下文下 如果輸入符號(hào)1 的概率 大于符號(hào)0 的概率 則l 為高概率符號(hào) 0 為低概率符號(hào) 如果輸入符號(hào)0 的概 率大于符號(hào)1 的概率 則0 為高概率符號(hào) 1 為低概率符號(hào) 如果輸入為l p s 將新的l 變?yōu)樯洗尉幋a的高邊界h 如果輸入為m p s l 不變 新的r 值由上次 r 值乘以符號(hào)概率得到 規(guī)格化 每編碼一個(gè)輸入符號(hào)后 編碼范圍都會(huì)減小 為了防止溢出要對(duì)輸 出范圍進(jìn)行判斷 如果太小則進(jìn)行一定的放大 同時(shí)移位輸出一些已經(jīng)確定的輸 出位 在v m 中 如果編碼范圍小于2 則進(jìn)行放大直到大于2 如果等待全部 算術(shù)編碼結(jié)束再輸出編碼結(jié)果 這個(gè)二進(jìn)制串將非常長(zhǎng) 計(jì)算機(jī)的內(nèi)存有限 這 翌竺 里 絲 些塑些塑嬰 樣做顯然不合理 當(dāng)編碼范圍縮小時(shí) 編碼的l 和h 將會(huì)非常接近 如 k 0 6 2 5 7 h 0 6 2 5 9 這時(shí)不管后而編碼范圍如何縮小 編碼的最終輸出結(jié)果前 面的幾位 o 6 2 5 都不會(huì)改變 所以在每進(jìn)行一次符號(hào)編碼后 要判斷l(xiāng) 和h 的最高有效位 左邊編碼位 如果相同就輸出這些位 比特填充 在編碼過程可能出現(xiàn)一些和系統(tǒng)控制符相同的二進(jìn)制串 必須在 這些串中加入一些填充位以防系統(tǒng)判斷錯(cuò)誤 終止處理 編碼結(jié)束時(shí) 必須判斷輸出一個(gè)在編碼輸出范圍內(nèi)碼長(zhǎng)最短的二 進(jìn)制串 同時(shí)添加編碼結(jié)束符號(hào) 3 2 3c a d 解碼 c a d 解碼也分為計(jì)算上下文值 查概率表和算術(shù)解碼三部分 算術(shù)解碼過程 和編碼過程相似 處理正好相反 過程為初始化 符號(hào)解碼 規(guī)格化 終止處理 符號(hào)解碼 每次根據(jù)概率表 判斷輸入編碼結(jié)果落在高概率符號(hào)范圍內(nèi)還是 低概率符號(hào)范圍內(nèi) 如果落在該概率符號(hào)范圍內(nèi) 則輸出高概率符號(hào) 反之輸出 低概率符號(hào) 并更新符號(hào)范圍 規(guī)格化 和編碼類似 對(duì)符號(hào)輸入范圍進(jìn)行必要的放大 同時(shí)根據(jù)需要讀入 新的比特位 在讀入比特時(shí) 要判斷去除填充比特 3 3 一種改進(jìn)的m p e g 4 形狀編碼的快速運(yùn)動(dòng)估計(jì)算法 在m p e g 編碼中 一般采用三種手段進(jìn)行圖像壓縮 一是利用d c t 變換來消 除圖像幀內(nèi)冗余 二是利用熵編碼來消除符號(hào)編碼冗余 三是利用運(yùn)動(dòng)估計(jì)來消除 圖像的幀間冗余 對(duì)于運(yùn)動(dòng)圖像而言 幀間冗余遠(yuǎn)大于幀內(nèi)冗余和符號(hào)冗余 因此運(yùn) 動(dòng)估計(jì)顯得特別重要 然而同時(shí) 運(yùn)動(dòng)估計(jì)算法的運(yùn)算量也是非常大的 其被認(rèn)為是 m p e g 發(fā)展的障礙之一 一直以來 多數(shù)研究學(xué)者都將注意力集中在紋理編碼的 快速運(yùn)動(dòng)估計(jì)算法上了 雖然形狀編碼的運(yùn)動(dòng)估計(jì)和紋理編碼的運(yùn)動(dòng)估計(jì)相似 但也存在不同的地方 利用視頻序列的相關(guān)屬性和形狀信息的邊界特點(diǎn) 本文提出了一種關(guān)于 m p e g 一4 形狀編碼的快速運(yùn)動(dòng)估計(jì) m e 算法 同時(shí) 針對(duì)b a b 塊的不同運(yùn)動(dòng) 量 對(duì)b a b 塊進(jìn)行分類 不同類采用不同的搜索范圍和搜索方法 這些大大的 提高了運(yùn)動(dòng)估計(jì)的處理速度 降低了搜索算法的搜索點(diǎn)數(shù) 獲得了比較滿意的結(jié) 果 第三章形狀編碼的研究和改進(jìn) 3 3 1 運(yùn)動(dòng)估計(jì)算法概述 運(yùn)動(dòng)估計(jì)是序列圖像編碼提高壓縮比的一項(xiàng)關(guān)鍵技術(shù) 研究的重點(diǎn)多數(shù)是由 物體的二維運(yùn)動(dòng)來估計(jì)其三維運(yùn)動(dòng) 運(yùn)動(dòng)目標(biāo)在幀問有平移 旋轉(zhuǎn)及其它變化 而背景的變化要小一些或者是靜止的 如果要全面地估計(jì)運(yùn)動(dòng)物體的各種運(yùn)動(dòng)變 化 需要含有許多參數(shù)的估計(jì) 由于實(shí)際編碼和壓縮效率的要求 目前視頻國際 標(biāo)準(zhǔn)大多僅考慮物體的平移運(yùn)動(dòng) 運(yùn)動(dòng)模型為 高麓 其中 x y 為運(yùn)動(dòng)物體的初始位置 h v 為運(yùn)動(dòng)物體的終止位置 v v 為運(yùn)動(dòng)矢量 運(yùn)動(dòng)估計(jì)的方法有塊匹配法和象素遞歸法 塊匹配法是將當(dāng)前圖像幀分成大 小相等的矩形子塊 假定這些塊只做平移運(yùn)動(dòng) 對(duì)于每一個(gè)子塊通過搜索窗在前 一幀的圖像塊中搜索具有最大相關(guān)性的匹配子塊 從而確定其運(yùn)動(dòng)矢量 象素遞 歸法是對(duì)每個(gè)象素的位移進(jìn)行估計(jì) 塊匹配法的精度較低 但它的位移跟蹤能力 強(qiáng) 易實(shí)現(xiàn) 得到廣泛的應(yīng)用 m p e g 標(biāo)準(zhǔn)亦推薦塊匹配法 當(dāng)酋子塊 搜索匹配區(qū) c 區(qū)為最佳匹配區(qū) y 為運(yùn)動(dòng)矢量 圖3 4 塊匹配算法不意圖 將當(dāng)前幀 第k 幀 均勻地劃分為m n 圖像宏塊 并在上一幀 參考幀 內(nèi)開辟大小為 m 2 h n 2 v 的一塊區(qū)域 用本幀宏塊在參考幀的搜索區(qū) 內(nèi)尋找最優(yōu) 匹配誤差最小 的匹配塊求得運(yùn)動(dòng)矢量 見圖3 4 衡量匹配好壞 的準(zhǔn)則有最小均方誤差 m s e 和最小絕對(duì)值誤差 m a d m a d 準(zhǔn)則由于計(jì) 算量小 硬件實(shí)現(xiàn)簡(jiǎn)單而得到廣泛使用 m a d 準(zhǔn)則定義為 n m a d i i l i 五 m 膽 一五一 m f 九 l 2 其中 i j 分別為水平與垂直方向的偏移量 工為第k 幀當(dāng)前塊灰度值 五一 為 在參考幀第k 1 幀搜索窗1 2 1 內(nèi)相對(duì)于當(dāng)前塊偏移為 i j 的塊 在m p e g 4 v m 中 竺 型 堂鑒塑些塑嬰 一 不是直接用m a d 柬作為誤差準(zhǔn)則 而是取其和一絕對(duì)誤差和s a d s u mo f a b s o i u t ed i f f e r e n c e 柬作為誤差計(jì)算和判斷的 如式 3 其中的 和 一 分別 為當(dāng)前塊與參考?jí)K的形狀a l p h a 掩碼 n s a d i l m 六一 沏十f n j l 3 5 在已知匹配準(zhǔn)則的情況下 如何搜索匹配誤差最小的子塊就是搜索算法所要 解決的問題 由于實(shí)際上一個(gè)塊的運(yùn)動(dòng)分布一般集中在該塊位置附近 因此 塊 匹配的搜索只需在一定的范圍內(nèi)進(jìn)行 假設(shè)塊的運(yùn)動(dòng)分布在水平和垂直方向上是 各向均勻的 即不在其中某個(gè)方向上占優(yōu) 那么搜索范圍應(yīng)該是以當(dāng)前塊所在 位置為中心的正方形 顯然 最佳的塊匹配搜索算法是全搜索 f u l ls e a r c h f s 即在搜索范圍內(nèi)逐個(gè)像素位置作塊匹配運(yùn)算 但此算法計(jì)算量很大 設(shè)搜索目的 塊的最大可能的位移為w 則f s 的搜索次數(shù)為l 2 w l j 在實(shí)際的應(yīng)用中f s 由 于巨大的計(jì)算量嚴(yán)重的影響了視頻編碼算法的整體效率 因而提出了很多改

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論