(計算機應用技術專業(yè)論文)視頻對象分割技術研究.pdf_第1頁
(計算機應用技術專業(yè)論文)視頻對象分割技術研究.pdf_第2頁
(計算機應用技術專業(yè)論文)視頻對象分割技術研究.pdf_第3頁
(計算機應用技術專業(yè)論文)視頻對象分割技術研究.pdf_第4頁
(計算機應用技術專業(yè)論文)視頻對象分割技術研究.pdf_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

(計算機應用技術專業(yè)論文)視頻對象分割技術研究.pdf.pdf 免費下載

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

摘要 本文以視頻對象分割技術為研究課題,首先介紹視頻分割相關的理論與技術, 然后對現有的基于運動和基于時空域相關兩大類分割算法進行對比研究,并把重 點放在基于3 d 區(qū)域生長的時空域分割算法的分析上。 從時空域分割要著重解決的幾個關鍵問題入手,本文探討了3 d 區(qū)域生長的種 子分布和生成方法,給出了區(qū)域生長過程中的像素和元素之間的相似度準則和后 處理過程,并構建了相應的時空域數據結構來支持生長算法的進行。通過區(qū)域生 長算法,輸出視頻中具有顏色同質性的組件,接下來進行運動估計和元素運動軌 跡分析得到這些同質組件的運動信息,并用空間聚類算法將具有運動一致性的組 件合成視頻對象。此外,本文還對視頻時域分割、顏色空間選取、空域濾波等時 空域分割要解決關鍵問題進行了探討,并提出了一種自適應閩值切變鏡頭探測算 法和加權中值濾波算法來解決這些問題。最后,將上述算法結合起來形成一個視 頻對象分割方案,有效地解決運動前景和背景分離的問題,并成功地完成從視頻 圖像序列中抽取視頻對象板的任務。 關鍵詞:視頻分割視頻對象時空域分割3 d 區(qū)域生長m p e g 一4 a b s t r a c t v i d e oo b j e c ts e g m e n t a t i o nt e c h n i q u e sa r ed i s c u s s e d ,t h e o r i e sa n dt e c h n i q u e s r e l a t e dt ov i d e os e g m e n t a t i o na r ei n t r o d u c e da n dt h ee x i s t i n gt y p i c a la l g o r i t h m so f m o t i o n b a s e da n ds p a t i o t e r n p o r a ls e g m e n t a t i o na l ea n a l y z e da n dc o m p a r e dw i t ht h e e m p h a s i so na n a l y s i so fs p a t i o t e m p o r a ls e g m e n t a t i o na l g o r i t h m sb a s e do n3 dr e g i o n g r o w i n g p r o c e e d i n gw i t hs e v e r a lk e yp r o b l e m sa b o u ts p a t i o t e m p o r a ls e g m e n t a t i o n ,t h i s p a p e rd i s c u s s e st h eg e n e r a t i o na n dd i s t r i b u t i o no f s e e d si n3 dr e g i o ng r o w i n g ,p r o v i d e t h es i m i l a r i t ym e a s u r e m e n tb e t w e e n p i x e la n dv o l u m e ,d e s i g nt h ep o s tp r o c e s s i n ga n d c o n s t r u c ts p a t i o t e m p o r a ld a t as t r u c t u r et os u p p o r tt h ea l g o r i t h m h o m o g e n e o u sv i d e o c o m p o n e n t sw i t hs i m i l a rc o l o rf e a t u r ea l eo b t a i n e d ,t h e i rm o t i o nt r a j e c t o r yi sa n a l y z e d a n dm o t i o ne s t i m a t i o ni sm a d e ,a n dt h e s ec o m p o n e n t sa l ec l u s t e r e di n t oo b j e c t sw i t h m o t i o nc o h e r e n c e i na d d i t i o n ,o t h e rk e yp r o b l e m ss u c ha sv i d e ot e m p o r a l s e g m e n t a t i o n ,c o l o rs p a c es e l e c t i o na n dt e m p o r a lf i l t e r i n ga r ed i s c u s s e da n da n a d a p t i v et h r e s h o l dv i d e os h o tc u td e t e c t i o na l g o r i t h ma n daw e i g h t e dm e d i a n f i l t e r i n g a l g o r i t h ma r ep r e s e n t e da ss o l u t i o n a tl a s t ,t h ea l g o r i t h m sa r ec o m b i n e di n t oa n a u t o m a t i cv i d e oo b j e c ts e g m e n t a t i o ns c h e m a ,w h i c hc a ns e p a r a t em o t i o nf o r e g r o u n d f r o ms t a t i o n a r yb a c k g r o u n da n de x t r a c tv i d e oo b j e c tp l a n ef r o mv i d e oi m a g es e q u e n c e j ns u c c e e d k e y w o r d :v i d e os e g m e n t a t i o n v i d e o0 b j e c t3 dr e g i o ng r o w i n g s p a t i o t e m p o r a ls e g m e n t a t i o nm p e g - 4 獨創(chuàng)性( 或創(chuàng)新性) 聲明 y 5 8 3 3 0 2 本人聲明所呈交的論文是我個人在導師的指導下進行的研究工作及所取得 的研究成果。盡我所知,除了文中特別加以標注和致謝中所羅列的內容以外,論 文中不包含其它人已發(fā)表或撰寫過的研究成果:也不包含為獲得西安電子科技大 學或其它教育機構的學位或證書而使用過的材料。與我一同工作的同志為本研究 所做的任何貢獻均己在論文中做了明確的說明并表示了謝意。 申請學位論文與資料若有不實之處,本人承擔一切相關責任。 本人簽名:埠日期:皇絲壘雌 關于論文使用授權的說明 本人完全了解西安電子科技大學有關保留和使用學位論文的規(guī)定,即:研究 生在校攻讀學位論文期間論文工作的知識產權單位屬西安電子科技大學。本人保 證畢業(yè)離校后,發(fā)表論文或使用論文工作成果時署名單位仍然為西安電子科技大 學。學校有權保留送交論文的復印件,允許查閱和借閱論文;學??梢怨颊撐?的全部或部分內容,可以允許采用影印、縮印、或其它復制手段保存論文。 日期:竺生! :壘 日期:皇竺蘭! : 第一章緒論 第一章緒論 1 ,1 研究背景 隨著信息技術的發(fā)展,多媒體技術日益受到人們的關注。多媒體系統(tǒng)是數據、 文字、聲音、圖形、圖像和動畫等各種媒體的有機組合,并與先進的計算機、通 信技術相結合。使人們交流信息的方式獲得了擴展,并影響著人們的交互方式、 生活方式和工作方式。其中,數字視頻是尤為重要的一種多媒體數據形式,它有 著廣泛的應用空間,是電影、電視、卡拉o k 、電子出版物等媒體信息進行數字化 的重要基礎。但是數字化的視頻數據量非常巨大,這無疑給存儲器的存儲容量、 通信干線的通道傳輸率以及計算機的速度都增加了極大的壓力。為了解決多媒體 信息在存儲和傳輸過程的瓶頸龐大的信息量和計算機系統(tǒng)的處理能力之惻的 矛盾,單純用擴大存儲器容量、增加傳輸率是不現實的,因此數字視頻的壓縮技 術受到了前所未有的關注。所以,數字視頻的編碼壓縮技術成為了多媒體領域的 一項重要的技術,它為人們觀賞、存儲、交換和操縱視頻信息,提供了有利的支 持。新一代支持甚低碼率傳輸的壓縮標準m p e g 4 ,提出了基于內容編碼的重 要思想。正是多媒體領域產生的這種基于內容的可視信息表達方法的強烈需求, 使視頻對象分割技術成為一個研究熱點。 視頻對象分割的主要目的是通過在一系列連續(xù)圖像幀中抽取感興趣的對象, 把視頻表示成一個視頻對象( v o ) ,為基于對象的編碼和基于內容的表達提供技術 支持。視頻分割有以下的重要的應用: 視頻壓縮和解壓縮 視頻對象操縱和編輯 視頻的索引和檢索 對象識別和鑒別 視頻場景理解 從壓縮角度看,基于對象的視頻壓縮標準,如m p e g 4 ,需要視頻對象分割技 術。由于視頻數據的數據量非常大,在帶寬資源有限的網絡上傳輸視頻需要有效 的編碼技術?;趯ο蟮谋磉_方式可以標出圖像幀中重要的部分,使得視頻可以 高效編碼來滿足傳輸的需要。特別是在個人通訊終端如移動電話、p d a 、可視電 話日益蓬勃發(fā)展的今天,強烈需要一種甚低碼率的編碼方式,來滿足用戶對多媒 體信息的需求。 有了好的分割方法,就可以訪問和操縱視頻中的對象,這為人造場景對象和 自然場景對象更好的融合在一起提供了有效的工具。實現更好的視頻的非線性編 視頻對象分割技術研究 輯功能,如剪切視頻中某些對象到其它的背景或場景中,就是一種很有用的功能。 另外,交互式電視技術的發(fā)展,出現了對可交互的媒體 2 1 的需要,例如交互式的 廣告,指用戶收看廣告時可選擇感興趣的商品,然后該商品的詳細信息同時呈現 在用戶的面前。為了實現這一點,對視頻的分割是必不可少的。 目前,市面上的視頻數據庫只能通過像顏色、紋理和簡單的運動等簡單的統(tǒng) 計特征束檢索視頻數據,它們或者檢索能力有限或者有應用范圍限制。如果視頻 可以獨立的對象形式來存儲,那么索引和檢索視頻信息就會象檢索和索引文本信 息那么簡單。能從根本上管理可視信息的工具必須具有以語義方式自動描述和索 引視頻序列的能力。這種工具爿+ 可阻在巨大的視頻數據庫中查詢到想要的視頻片 斷和視頻對象。有效利用存儲影片和探測監(jiān)控視頻中的特定活動都有廣闊的應用 空涮,這需要引入對象的概念才能得到完滿的解決。 許多機器視覺問題都要借助視頻分割技術才能完成。安裝有自動駕駛系統(tǒng)的 汽車要通過分析視頻來獲取周圍環(huán)境的信息。而且,它要求高層次的圖像理解和 解釋如監(jiān)控視頻中的場合和特殊事件的跟蹤能力。舉例子來說,步行道和高速交 通可以用分割出的人和車的密度來區(qū)分開。通過對象分割,還可以檢測到快速移 動的汽車,路上障礙物,路面上其它的異常活動等。再加上行為識別的用戶接口, 就可以實現禁區(qū)、停車位、電梯都可以自動監(jiān)控。 盡管人類可以快速解釋包含在各種形式信息的語義,但是計算機柬理解可視 信息還處在初級階段。未來的標準要成功,分割工具是非常關鍵的。但是把圖像 序列自動分割成語義對象是一項很有挑戰(zhàn)性的工作。 盡管人們己對視頻信息處理的基本方法有了很好的理解,但是在這方面的還 有許多問題和困難等待解決。其中視頻分割是這些問題中需要首先解決的,說道 視頻分割,就不得不提多媒體壓縮標準,因為視頻分割技術的發(fā)展,跟視頻的編 解碼標準的發(fā)展緊密相關的。 1 2 視頻編碼標準 未經壓縮的音視頻數據需要巨大的存儲空間來存放傳輸和處理都不方便。 為了高效存儲和傳輸視頻,人們開發(fā)了各種壓縮算法和壓縮標準。在壓縮標準中, 編解碼技術是最關鍵的,編解碼技術的發(fā)展促使數字視頻得到廣泛應用和傳播。 以不同的編碼技術為核心,運動圖像專家組( m o t i o n p i c t u r e s e x p e r t s g r o u p ) 定義了 數字多媒體內容的的編碼和壓縮系統(tǒng),陸續(xù)推出m p e g - l 、m p e g - 2 、m p e g - 4 和 m p e g 7 等多媒體壓縮標準。 m p e g 1 和m p e d 2 m p e g 1 處理的是標準圖像交換格式( s t a n d a r di n t e r c h a n g ef o r m a t ,s 巧) 或者稱 第一章緒論 為源輸入格式( s o u r c ei n p u tf o r m a t ,s l f ) 的電視,即n t s c 制為3 5 2 像素x2 4 0 行 幀3 0 幀秒,p a l 制為3 5 2 像素2 8 8 行幀2 5 幀秒,壓縮的輸出速率定義在 1 5m b i t s 以下。這個標準主要是針對當時具有這種數據傳輸率的c d r o m 和網 絡而開發(fā)的,用于在c d r o m 上存儲數字影視和在網絡上傳輸數字影視。 m p e g 一2 標準從1 9 9 0 年開始研究,1 9 9 4 發(fā)布d i s 。它是一個直接與數字電視 廣播有關的高質量圖像和聲音編碼標準。m p e g - 2 可以說是m p e g _ l 的擴充,因 為它們的基本編碼算法都相同。但m p e g 一2 增加了許多m p e g 一1 所沒有的功能, 例如增加了隔行掃描電視的編碼,提供了位速率的可變性能( s c a l a b i l i t y ) 功能。 m p e g 2 要達到的最基本目標是:位速率為4 9m b i t s ,最高達1 5m b i t s 。 m p e g 一1 和m p e g 2 標準采用第一代編碼技術,以信息論為理論基礎,以象 素塊為編碼實體,把圖像分成許多小方塊來處理,依此適應非靜態(tài)圖像的特性。 通常采用預測編碼、變換編碼和統(tǒng)計編碼等經典編碼方法。雖然基于塊的算法參 數是可以改變的,但是現實場景中的對象可不是由方塊組成的。當壓縮率增加時, 這種塊結構在解壓圖像中可被人眼察覺,這就是所謂的“塊效應”。 m p e g - 7 m p e g 7 l 的工作于1 9 9 6 年啟動,名稱叫做多媒體內容描述接口( m u l t i m e d i a c o n t e n td e s c r i p t i o ni n t e r f a c e ) ,目的是制定一套描述符標準,用來描述各種類型 的多媒體信息及它們之間的關系,以便更快更有效地檢索信息。例如,用戶可能 想訪問一張關于視頻內容的表,他可以從一個條目跳到另一個條目。這就要求把 視頻數據按照鏡頭和場景結構化。 與其它m p e g 標準一樣,m p e g - 7 是為滿足特定需求而制定的視聽信息標準。 m p e g 7 標準也是建立在其它標準之上的,例如,p c m ,m p e g 1 ,m p e g 2 和 m p e g 4 等等。m p e g 一7 繼承了m p e g 4 中使用的形狀描述符、m p e g - 1 和m p e g 2 中使用的運動矢量( m o t i o nv e c t 0 0 。 1 3m p e g 一4 與視頻對象v o m p e g 一4 從1 9 9 4 年開始工作,它是為視聽( a u d i o 。v i s u a l ) 數據的編碼和交互播 放開發(fā)算法和工具,是一個甚低碼率多媒體通信標準。作為新一代多媒體應用標 準,它提供基于對象的高可交互性功能、通用訪問機制、健壯的錯誤探測機制和 高效的壓縮。 m p e g 4 的目標是要在異構網絡環(huán)境下能夠高度可靠地工作,并且具有很強 的交互功能。為了達到這個目標,m p e g - 4 引入了對象基表達( o b i e c t - b a s e d r e p r e s e n t a t i o n ) 的概念,用來表達視聽對象( a u d i o v i s u a lo b j e c t s ,a v 0 1 。m p e g - 4 擴充了編碼的數據類型,由自然數據對象擴展到計算機生成的合成數據對象,采 4 視頻對象分割技術研究 用合成對象自然對象混合編碼( s y n t h e t i c n a t u r a l h y b r i dc o d i n g ,s n h c ) 算法;在 實現交互功能和重用對象中引入了組合、合成和編排等重要概念。m p e g 4 系統(tǒng) 構造如圖1 1 所示。 剴i - 1m p e g - 4 的系統(tǒng)構造圖 m p e g 一4 最重要的特點是它引入了v o ( v i d e oo b j e c t ) 的概念,并用于描述視頻 畫面。v o 是有實際意義的物理實體,而不是出于編碼效率分割出來的某些部件。 在視頻序列的一個畫面可由單個或者多個v o p ( v i d e oo b j e c tp l a n e ) 組成,它是v o 在某個時刻的一個表示,場景中屬于同一對象的連續(xù)的v o p 被稱作視頻對象。 m p e g - 4 編碼中最關鍵的部分是v o 的形成和表示。v o 的形成要用到最先進的圖 像理解、識別和分割算法。m p e g 一4 標準本身并不定義這些算法,而是讓用戶自 己丌發(fā),這可能是用好m p e g 4 最難的部分?;趯ο蟮囊曨l分割目的是從視頻 序列中抽取v o 和v o p ,并把它們按定的形式組織存儲起來,所以說研究基于 對象的視頻分割技術,是有很強的現實意義的。對象概念的引入,使m p e g 4 具 有了許多新的特性: 交互性:提供了基于內容交互的機制,在編碼、解碼和物體合成階段 均可與每一個音視頻對象交互,這意味著在這樣的視聽通信系統(tǒng)中, 人不僅可以看見物體在什么地方,還容許我們采取行動改變它的位 置: 通用性:能夠處理各種各樣的音視頻對象,不僅包括圖像和視頻,還 包括各種圖形、3 d 動畫及文本,同時使自然目標和人工合成目標共 存。而且可根據各種網絡的不同特性,進行高效率低碼率的信息傳輸。 實現通用的多媒體信息的存取和傳輸。; 第一章緒論 易用性:提出基于內容的壓縮,使信息處理技術的方式更加接近人自 身的信息處理方式。這就使得人在進行多媒體信息處理時,直接和場 景中的物體打交道,而不是具有抽象概念的像素。 v i d er * s e a u e n c e v s ov s l 、i m 。m 。 南秘 洫fv ”r 爪冷 幽衄。,。i ,s i r l i ”w y 【t z v w o 一e 訛曲一 l 啪l 卯- l i 如0l 叮l “c r b i ,u k b l o c k # 1b l n c k s 2 lk 。 圖1 - 2m p e g - 4 視頻層次化數據結構 不同于m p e g - l 和m p e g 2 那樣一幀一幀進行編碼,基于對象編碼的m p e g 4 用層次化的數據結構來表示視頻數據( 見圖1 2 ) ,引入了下列概念,: 視頻序列s :v i d e os e s s i o n ) :v s 是其它3 層數據的入口。一個完整 的視頻包括多個v s 。 視頻目標( v o :v i d e oo b j e c t ) v o 即是場景中的特定目標。是有實際 意義的物理實體,而不是出于編碼效率分割出來的某些部件。 視頻對象層( v o l :v i d e oo b j e c tl a y e r ) :v o l 是v o 的時間或空間的 伸縮性描述。v o 的描述可以在不同時間分辨率和空間分辨率上進行 的。它可以只包括一個基本層,也可以包括多個分辨率增強層。目標 的伸縮性是通過v o l 來實現的。 視頻對象板( v o p :v i d e oo b j e c tp l a n e ) :v o p 是v o 在某個時間的存 在。是v o 在不同v o l 層的時間序列。每一幀圖像都被分割成很多 任意形狀的v o p , 每個v o p 都覆蓋了一個特定的感興趣的視頻內容。 因此,在基于對象的編碼中,輸入信息不再象基于d c t 的塊編碼那 樣,針對矩形區(qū)域進行編碼。 視頻對象分割技術研究 m p e g 一4 還提供“對象層”概念,把不同的對象編碼到不同的位流層。這個 特征允許訪問和操縱場景中的不同的音頻對象( a o ) 和視頻對象( v o ) 。為了支持分 別解碼不同的對象,每個對象的形狀、運動、空間坐標和編碼信息被分別編到不 同的“對象層”。用戶通過解壓所有的視頻對象層來重構整個場景,也可以僅解壓 部分對象重構場景。利用編碼到不同碼流的信息,操作對象進行轉換、旋轉、標 記和縮放等成為可能。另外,不屬于原始場景的新對象可以加入場景或者可以忽 略原有的對象。在接收端的構造部件如圖1 3 所示。 幽1 3m p e g - 4 接收端的構造部件 1 4 本文工作 本文以視頻對象分割技術為研究課題,深入地進行國內外視頻對象分割算法 的研究,對相關分割技術進行了分類,對現有的基于運動的分割算法和基于時空 相關的分割算法進行比較。以此為基礎。在時空域分割方面展開研究,對基于3 d 區(qū)域生長的時空域分割方法進行了探索,并對實施算法要解決的關鍵問題提出了 自己的解決辦法。最后將相關算法組合在一起形成了以m p e g 4 為服務目標的 視頻對象自動分割方案,應用該方案進行v o p 的抽取,能取得比較好的效果。下 面介紹本文相關章節(jié)的內容安排。 第一章緒論 第一章緒論。這一章主要闡述視頻對象分割技術的概念和應用需求以及與 視頻分割技術的發(fā)展密切相關的多媒體壓縮標準。由于m p e g 一4 標準是視頻對象 分割技術的最重要應用,所以重點介紹了該標準并引出視頻對象的概念。 第二章視頻分割相關理論與技術。這一章討論視頻分割要使用的技術與理 論,為后文的討論做理論鋪墊,分別討論了運動估計、塊運動分析、塊匹配技術 和空域圖像分割技術,其中塊匹配、邊界分割、區(qū)域生長和空間聚類等方法是后 文分割算法的重要支撐技術。 第三章現有分割算法簡介。本章對現有的分割方法進行了分類,同時介紹和 比較基于運動和時空相關的兩類算法。由于基于運動的方法有缺陷,所以把空域 信息與運動信息相結合是很重要的,本章重點分析以變化檢測模板、數學形態(tài)學 為工具的時空域算法和其它混合算法。 第四章時空域分割關鍵算法研究。本章重點解決時空域生長視頻分割的相關 問題,首先提出一種視頻自適應閾值的視頻分段算法把視頻分成一個個鏡頭,在 鏡頭內才可能對視頻內容進行分析。接著討論各種顏色空間的特性,選擇h s v 顏色空間進行視頻分割。區(qū)域生長的算法對圖像噪聲十分敏感,本文使用快速的 加權中值濾波算法去除噪聲,取得了很好的效果。接下來對區(qū)域生長要解決的種 子選擇問題、相似性規(guī)則和后處理進行了分析和討論最后對生長得到的同質元 素進行運動特征聚類,分割出視頻對象。 第五章時空域視頻對象分割方案。在這章中將相關的工作成果結合在一 起,提出一種基于三維區(qū)域生長時空域分割方案。使用該方案可以將視頻中的運 動前景和背景實施分離,并抽取v o p 。最后,給出了實驗結果驗證方案的有效性。 第六章總結全文內容和工作,并對需要進一步研究的問題進行了展望。 第二章視頻分割相關理論與技術 第二章視頻分割相關理論與技術 2 1 數字視頻 數字視頻可以采用光柵掃描或直接用數字視頻攝像機獲得,在多媒體信息中, 它屬于一種視覺媒體信息。物體在成像平面的投影被采樣成離散的一幅幅數字圖 像,這些圖像也稱為幀。每一幀由水平和垂直離散化的陣列輸出值組成,每一個 象素點按照一定的存儲結構在幀緩沖器中形成我們常說的位圖。對視頻信息按時 間逐幀進行數字化得到數字圖像序列,如圖2 1 所示。 y o 圖2 - - 1 數字圖像序列形成示意圖 x 由上圖可以看出數字視頻由多幅連續(xù)的圖像序列構成。其中,x 和y 軸表示 水平和垂直的空間維,t 表示時間維。沿著t 軸方向若劃隔x t ,利用人類視覺暫 留效應,可以形成連續(xù)的動態(tài)圖像。沿著x 軸方向的掃描行上分布有象素點,y 方向表示垂直方向的列數。這樣每一個象素點的顏色或亮度e 可以表示為x y 平 面的函數e ( x ,y ,t ) 。當在監(jiān)視器上顯示數字視頻時,每個象素被表示為具有指 定給該象素的一種恒定彩色的一個矩形區(qū)域。 0 視頻對象分割技術研究 2 2 運動分割理論 2 2 1 運動估計 研究表明,人眼對圖像的靜止部分具有較高的空間分辨力和較低的時間分辨 力。利用這種人眼的這種特性,可以進行圖像序列的壓縮,首先將圖像分割成靜 止部分和運動部分分別進行處理,靜止部分可以重復利用上一幀的數據,而對運 動部分則設法測定其相對于上一幀的位移量,用位移量進行運動部分的預測,這 樣就用存儲的靜態(tài)幀和用位移量作為補償得到預測幀,實現幀間預測效果,構成 完整的圖像,把這種技術稱為運動補償技術【l ”。 在運動補償編碼中,運動補償和預測在壓縮中起了占非常重要的地位。運動 估計是對來自參考幀中的像素在當前幀進行的估計過程。運動估計技術是依賴于 兩個假設:一個是物體運動的軌道上照明是恒定的。也就是認為物體運動時照明 光線的不隨時間改變,只有這樣才能保證圖像上亮度模式的改變是由運動引起的, 而不是光照改變引起的。二是沒有遮擋的背景的問題。雖然這些假設不足以獲得 真實世界的視頻序列但是多數運動估算方法都建立在這些假設之上。運動估計 的一個關鍵問題是如何參數化運動場,也就是如何表示運動的問題i | 4 | 。通常按照 不同的運動表示法,把運動估計技術分為象素運動估計、塊運動估計、區(qū)域運動 估計和全局運動估計如圖2 1 。其中象素運動估計用光流模型、塊運動估計用塊 運動模型,基于對象的運動分割技術經常用到區(qū)域運動估計和全局運動估計。 圈2 - 1 運動估計分類 ( a ) 像素運動估計( b ) 塊運動估計 ( c ) 區(qū)域運動估計( d ) 全局運動估計 第二章視頻分割相關理論與技術 2 2 2 光流模型 光流的概念是g l i b s o n 于1 9 5 0 年首先提出的 2 ”。人眼是通過在不同的時刻認 出相應的一些點來感覺運動的,這種對應性通常是由假定一個點的彩色和亮度在 運動以后不改變來確定的。當物體在運動時,物體表面的亮度模式發(fā)生改變,我 們就感覺到了運動。光流( o p t i c a lf l o w ) 是指圖象亮度模式的表觀運動。雖然光流可 能不等同于真實的二維運動。當只能利用圖像的彩色信息時,所能夠得到的最精 確估計就是光流。光流場( o p t i c a lf l o wf i e l d ) 是一種二維瞬時速度場,其中二維運 動速度矢量是三維速度矢量在成象表面的投影。光流不僅包括了被觀察物體的運 動信息,而且攜帶著有關景物結構的豐富信息。 在運動估算算法中,光流方程起著關鍵的作用。下面介紹一下光流約束方程。 設i ( x ,y ,t ) 是圖像點( x ,y ) 在時刻t 的照度,如果u ( x ,”和v ( x ,y ) 是該點光流的 x 和y 分量,假定點在t + v t 時運動至l j ( x + v x ,y + v y ) 時,照度保持不變,其中 v x = t l v t ,審y = v v t ,也就是 i ( x + v u t ,y + v v t ,t + v t ) = i ( x ,y ,t ) ( 2 1 ) 運一約束處小能唯一求解u 、v ,通常要加上其他的約乘條件,比如,運動場 連續(xù)行的假設。如果亮度隨著x 、y 、t 光滑的變化,則可以將上式用泰勒級數展 丌, l ( x , y , t ) + 乳學+ w 罷+ v r 娶+ p :i ( x , y , t )( 2 0 x硎o t e 是高階無窮小??梢酝频?罷害+ 要害+ 罷:0 ( :3 ) 良西卻出國 上式實際上就是 d 1 ( x , y , t ) :o 西 令。= 豢 = 瓦0 1 ,i 0 a 1 ,“= 去,v = 砉 則可得到空間和時間梯度與速度分量之間的關系,其中u , 量的垂直分量和水平分量: l x u + i y v + 1 1 = 0 ( 24 ) v 分別像素點流矢 ( 2 5 ) 視頻對蒙分割技術研究 也可以表示成( 2 6 ) ,其中w 7 和l 分別是圖像序列的時域梯度和空域梯度, v ,7 v + ,:0( 2 6 ) 由上式可以看出我們不能單憑v i 和l 確定流矢量v 。為了解出兩個未知量 必須添加附加條件。通常的約束是流矢量在空間平滑變化,使我們能利用象索周 圍一個小的鄰域的亮度變化去估計該處的運動。一般采用再約束方程上加一個平 滑量來約束速度場,這樣運動場既滿足光流約束又滿足全局的平滑性,如 h o m s c h u n c k 方法【1 3 】。 幽2 - 2 心光流約束和h o r n s e h u n c k 方法得到光流場分布 2 2 3 塊運動分析 由于光流法的運算復雜度,難以達到實時處理的要求,況且有些情況下并不 要求計算出每個象素的精確的運動矢量。因此基于塊的運動分析算法,在數字視 頻編碼技術中得到了廣泛的應用。塊的運動通常分為平移、旋轉、仿射等運動形 式,一般情況下,塊運動是這些運動的組合,稱為變形運動。下面我們詳細討論 塊的運動模型。 1 、塊平移 基于塊的模型最簡單的形式是平移的塊,假設圖像中每一個塊都是作單純的 平移運動。在第k 幀中的一個中心位于x ( x ,y ) 的n x n 塊b 被模型化成為幀k + l ( 1 是整數) 中同樣尺寸塊的一個完全位移形式。也就是說,在第k 幀中,中心位于 x ( x ,y ) 的塊b ,在第k + 1 幀時,塊b 的所有象素之間關系及其灰度值保持不變,但 中心位置移到了x ( x + 電,y + d y ) ,其中文,d y 是塊b 平移位移分量。 第二章視頻分割相關理論與技術 s ( x ,y ,k ) = j ( z + d ,y + d y , k + 1 ) ( 2 7 ) ( a )( b ) 幽2 - 3 塊運動平移幽 參照圖2 3 所示,塊運動可能存在兩種情況:塊b 可能重疊或未重疊。在 未重疊的情況下,整個塊使用同一運動矢量,可以拷貝k 幀中每個象素,使k + l 幀中的相應塊得到運動補償。對于重疊的情況,我們可以計算重疊范圍的運動矢 量的平均值作為整個塊的運動矢量。 基于塊的模型優(yōu)點在于不需要很多附加條件表示運動場,運動矢量的估算通 常采用塊匹配的辦法,相對于光流計算上較簡單。但是物體并不是由一個塊組成 的,特別是物體邊界處容易出現“塊效應”。 2 、二維運動模型 物體在三維空削運動,而我們看到的圖像是物體運動在攝像機平面上的投影, 為了推廣塊運動,需要建立了二維運動模型,常見的模型出以下幾種【2 2 1 : ( 1 ) 透視變換模型 假定物體在z 方向沒有平移運動,或者當成像物體具有一個平坦表面 時,透視變化可由式( 2 8 ) 來表示: z = 竿業(yè),:- b o + b t x + b 2 y ( 2 8 ) l 十c - 工+ c 2 yl 十c i x 十c 2 y 這就是所謂的8 參數模型,其中5 個運動參數和3 個物體表面參數。在 研究幀間運動和視頻配準時,這個投影映射是一個重要的關系式。 ( 2 ) 仿射運動模型 仿射運動是對投影映射的近似,仿射運動具有以下的形式,就是6 參數 習 4視頻對象分割技術研究 模型 :葛; = 。a o + + a 峨j 。x + + 。a :2 y y c :, ( 3 ) 雙線性模型 雙線性具有以下形式: f d ( x ,y 冰c t o + :,x + a :y + a ,x y l ( 2 1 0 ) l d r ( 五,) j l j 0 + 6 。x + b :y + b 3 x y j 、。 以上介紹了塊運動的4 種基本的運動模型,實現效果參加圖2 - - 4 所示。 綴霹 俅;瑚r f p := := 、h l 彤;,;舊l frf 卜) | = :| j 笠受老簍拶 甘計j 釜拶 恩豳 睦萎9匪蘭釜剿 幽2 4 基本運動模型 ( a ) 平移的;( b ) 仿射的;( c ) 雙線性的;( d ) 投影的 2 2 4 塊匹配 利用塊運動估計和光流計算的不同,它不用計算每一個像素的運動,而只是 計算若干象素組成的象素塊的運動,對于許多圖像的分析和估計應用來說,塊運 動分析是一種很好的近似。雖然基于平移運動的塊運動補償不適于縮放、旋轉運 動,但是,塊匹配算法跟蹤能力強,實現簡單,得到了廣泛的應用。 塊匹配的基本思想如圖2 5 示,其中幀k 的位移通過考慮一個中心定位于( x ,y ) 的位移通過考慮一個中心定位于( x ,y ) 的n l n 2 塊,同時搜索幀k 十1 來找出同樣 大小的最佳匹配塊的位鷺來確定。 第= 章視頻分割相關理論與技術 k + 1 圈2 - - 5 塊匹配的基本思想不慈圈 為了檢測當前幀的塊與參考幀候選塊的相似性,就定義了匹配的準則,塊匹 配可以依據各種準則來確定它的運動矢量大小,包括最小均方誤差函數( m s e ) 最 小平均絕對差值函數( m a d ) ,最大匹配象素統(tǒng)計( m p c ) 。 在最小均方誤差函數準則中計算m s e ,定義成: m s e ( ) 2 高。磊睜y 扛h “”1 ) 】! 但1 1 ) 其中b 代表n 1 n 2 塊,作為可選擇的運動矢量( d 。,d ,) 的集合。最終塊的運動 矢量是使m s e 達到最小值的運動矢量( d x ,d y ) ,也就是 d ,d , 7 = a r g ( r a d 。i d n 。1 m s e ( d ,d ,) ( 2 1 2 ) 最小平均絕對差值函數( m a d ) 準則定義成: 腳( d x , d y 卜彘( 囂。一卜“x + d ,, y + d y , k + 1 ) i 。1 3 位移估算用下式給出 d ,d , 7 = a r g ( r a 。,i 。n 。) m a d ( d z ,d ,) ( 2 1 4 ) 最大匹配象素統(tǒng)計準則( m p c ) ,在這個方法中,塊b 中每一個象索依據下式 被劃分成匹配象素和非匹配象素,其中t 是估算閩值。 m p c ( d 。,d ,) = t ( x ,y :d x , d ,) , 其中,c 工,y ;d ,d ,;億i s ( x , y , k ) - s ( x + 其d , 它, y + d y , k + 1 ) l f 2 1 5 位移估算用下式給出 視頻對象分割技術研究 j ,i 。 7 = a r g 。m ,。a 。x 】m p c ( d ,d ,) ( 2 1 6 ) 為了得到晟優(yōu)的塊匹配,通常依據上面所講的評價準則,采用搜索算法來得 到塊運動矢量的解算。最簡單的方法是全面搜索算法( e b m a ) ,在一個預定義大 小的窗口中,對每個可能的位移應用匹配準則,這種方法很費時。為了加快搜索, 在犧牲估計精度的前提下,開發(fā)了各種快匹配算法快速算法。一種常用的快速算法 是三步搜索法【l ”,這種搜索的步長從等于或者略大于最大搜索范圍的一半開始。 每一步中,比較九個搜索點。它們包括搜索正方形的中心點和八個位于搜索區(qū)邊 界上的搜索點。每一步以后搜索步長減小一半,至搜索步長為一個象素時結束搜 索。在每一個新的搜索步中,搜索中心點移到由前一步得到的最佳匹配點。 2 3 空域分割技術 2 3 i 邊界分割 圖像分割是指把圖像分成各自具有特性的區(qū)域并提取出感興趣目標區(qū)域的技 術和過程。這旱特性可以是灰度、顏色、紋理等,目標可以對應單個區(qū)域,也可 以對應多個區(qū)域。而邊緣分割技術對于處理數字圖像分割非常重要,因為邊緣是 所要提取目標和背景的分界線分離出邊緣才能將目標和背景區(qū)分開來。在圖像 中,邊界表明個個特征區(qū)域的終結和另一個特征區(qū)域的開始。下面從串行和并 行兩個方面討論邊界分割技術。 l 、串行邊界分割 串行邊界技術指采用串行的方法通過對目標邊界的檢測來實現圖像分割的技 術。串行邊喬技術通常通過搜索邊界點來工作,所以實現起來需要注意以下三個 方面: ( 1 ) 確定起始邊界點,順序搜索從這里開始; ( 2 ) 選擇合適的搜索策略,確定先前的結果對選擇下一個檢測象素和下一個結 果的影響,并根據一定的機理依次的檢測新的邊界點; ( 3 ) 設定中止條件,用來結束搜索的進行所需的條件。 串行分割技術主要可采取兩種策略:一、先檢查邊緣點。再連接它們;二、對 邊界點的檢查和連接交叉或結合進行。 2 、并行邊界分割 并行邊界檢測技術指采用并行的方法通過對目標邊界的檢測來實現圖像分割 的技術。并行邊界技術在確定圖像中區(qū)域邊界時是同步進行的,從某種意義上說 圖像大部分信息都是集中在區(qū)域的邊界上。所以確定邊界對于場景的理解很重要。 第二章稅頻分割相關理論4 ,技術 所涉及的算法比較多,論文中主要用到了基本的梯度算子法和流行的e a a n y 方法, 下面分別介紹。 f 1 1 梯度算子法 梯度對應一階導數,梯度算子是一階導數算子。對一個連續(xù)函數廠0 ,y ) ,它 在位置0 ,y ) 的梯度可表示為一個矢量: 可c z ,y ,= g ,g ,】1 = l 善考l ( z s ) 這個矢量的幅度和方向角分別為 m a g ( v f ) :k + g ( 置y ) = a r c t a n g ,o xj ( 2 1 9 ) ( 2 2 0 ) 在實際中常用小區(qū)域模板卷積來近似計算偏導數。對g 和g ,各用一個模板, 所以需要兩個模板組合起來以構成一個梯度算予。最簡單的梯度算子是r o b e , s 算子,見2 - - 6 圖( a ) 所示。比較常用的還有p r e w i t t 算子,見2 - - 6 圖( b ) ,s o b e l 算 子,見2 - - 6 圖( c ) ,其中s o b e l 算子是效果較好的一種。 田日口目目固 ( a ) r o b e r t s ( b ) p r e w i t t【c ) s o b e l 圖2 - - 6 幾種常見梯度算子模板 f 2 1 坎尼算子 坎尼( c a n n y ) 把邊緣檢測問題轉換為檢測單位函數極大值的問題25 1 。邊緣檢測 是一種比較新的邊緣檢測算子,具有很好的邊緣檢測性能,得到了越來越廣泛的 應用。c a n n y 邊緣檢測法利用高斯函數的一階微分,它能在噪聲抑制和邊緣檢測 之間取得較好的平衡。具體步驟如下: 用高斯濾波器來對圖像濾波,可以去除圖像中的噪聲。 用高斯算子的一階微分對圖像進行濾波,得到每個像素梯度的大d , i g i 和方 向口。 ,三 | g i : c 弘c 甜 億z , a n ??泣?z :, 視頻對象分割技術研究 其中,f 為濾波后的圖像。 對梯度進行“非極大抑制”。 梯度的方向可以被定義為屬于4 個區(qū)之一,各個區(qū)別不同的鄰近像素用來進 行比較,以決定局部極大值。這4 個區(qū)及其相應的比較方向如圖表2 7 所示。 4 32 lxl 2 3 4 圖2 7 對梯度取兩次閾值得到兩個閾值t l 和t 2 ,t 1 = 0 4 t 2 。我們把梯度值小 于t l 的象索的坎度設為0 ,得到圖像1 。然后把梯度值小于t 2 的象素的灰度設 為0 ,得到圖像2 。由于圖像2 的閾值較高,去除了大部分噪聲,但同時也損失了 有用的邊緣信息。而圖像1 的閾值較低,保留了較多的信息。我們可以以圖像2 為基礎以圖像1 為補充來連接圖像的邊緣。 連接邊緣的具體步驟如下: ( 1 ) 對圖像2 進行掃描,當遇到一個非零狄度的像素p 時,跟蹤以p 為丌始 點的輪廓線,直到該輪廓續(xù)的終點0 。 ( 2 ) 考察圖像i 中與圖像2 中q 點位置對應的點q 的8 鄰近區(qū)域。如果q 點 的8 - 鄰近區(qū)域中有非零像素r 存在,則將其包括到圖像2 中,作為點r 。從r 開始,重復第( 1 ) 步,直到我們在圖像1 和圖像2 中都無法繼續(xù)為止。 ( 3 ) 當完成對包含p 的輪廓線的連接之后,將這條輪廓線標記為以訪問?;氐?第( 1 ) 步,尋找下一條輪廓線。重復步驟( 1 ) 、( 2 ) 、( 3 ) ,直到圖像2 中找不到新輪 廓線為止。 2 3 2 區(qū)域分割 1 、串行區(qū)域分割 串行區(qū)域分割技術指采用串行處理的策略通過對目標區(qū)域的直接檢測來實現 圖像分割技術。基于區(qū)域的串行分割技術有兩種基本形式,一種是從單個象素出 發(fā),逐漸合并以形成所需的分割區(qū)域,稱為區(qū)域生長。另一種是從全圖出發(fā),逐 漸分裂切割至所需的分割區(qū)域。論文后續(xù)內容的實現采用了區(qū)域生長技術,這里 我們展開介紹。 區(qū)域生長的基本思想是將具有相似性質的象素集合起來構成區(qū)域。具體先對 每個需要分割的區(qū)域找一個種子象素作為生長的起點,然后將種子象素周圍鄰域 中與種子象素有相同或相似性質的象素( 根據某種事先確定的生長或相似準則來 第二章視頻分割相關理論與技術 判定) 合并到種子象素所在的區(qū)域中。將這些新象素當作新的種子象素繼續(xù)進行上 面的過程,直到再沒有滿足條件的象素可被包括進來。這樣一個區(qū)域就長成了。 區(qū)域生長的一個關鍵是選擇合適的生長或相似準則,生長準則可以根據不同 原則制訂,而使用不同的生長準則會影響區(qū)域生長的過程。基于區(qū)域灰度差的方 法主要有如下步驟: f 1 ) 對圖像進行逐行掃描,找出尚沒有歸屬的象素; ( 2 ) 以該象素為中心檢查它的鄰域象素,如果扶度差小于預先確定的閩值,將 它們合并: ( 3 ) 以新合并的象素為中心,返回步驟( 4 ) ,檢查新象素的鄰域,直到區(qū)域不能 進一步擴張: ( 4 ) 返回步驟( 1 ) ,繼續(xù)掃描直到不能發(fā)現沒有歸屬的象素,結束整個生長過程。 在采用區(qū)域生長方法時,一般新象素所在區(qū)域的平均灰度值代替新象素的扶 度值與鄰域象素的灰度值比較,避免圖像存在緩慢變化時不同區(qū)域逐

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論