版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第3章視頻對(duì)象分割3.1視頻對(duì)象分割概述3.2視頻對(duì)象分割技術(shù)基礎(chǔ)3.3基于時(shí)/空域聯(lián)合分割3.4交互式視頻對(duì)象分割3.5壓縮域視頻對(duì)象分割3.6視頻對(duì)象分割的應(yīng)用3.7本章小結(jié)
3.1視頻對(duì)象分割概述
3.1.1基本概念
傳統(tǒng)的視頻編碼標(biāo)準(zhǔn),例如MPEG-1、MPEG-2、H.261、H.263等,采用基于塊的編碼方式進(jìn)行視頻編碼,這些編碼方法不僅編碼效率低,容易造成視覺(jué)上的方塊效應(yīng),而且其最大缺點(diǎn)是僅僅把數(shù)字圖像看作數(shù)值矩陣,把視頻看作幀流,而沒(méi)有考慮視頻場(chǎng)景的按內(nèi)容的真實(shí)構(gòu)成。隨著多媒體應(yīng)用和服務(wù)的增加,特別是基于內(nèi)容操作和具有交互式特性的多媒體應(yīng)用的增加,傳統(tǒng)的編碼方法已不能滿足新的多媒體應(yīng)用的需求,因此有必要采取一種編碼方式按內(nèi)容對(duì)視頻信息進(jìn)行編碼。基于這種情況,國(guó)際運(yùn)動(dòng)圖像專家小組制定了視頻編碼標(biāo)準(zhǔn)MPEG-4,MPEG-4除了能提供高效的壓縮編碼效率外,還能提供基于對(duì)象的交互功能,使用戶能夠訪問(wèn)(搜索、瀏覽)和操作(剪貼、移動(dòng))場(chǎng)景中的各個(gè)對(duì)象,可更廣泛地延拓應(yīng)用范圍,因此也被稱為第二代編碼標(biāo)準(zhǔn)。在MPEG-4標(biāo)準(zhǔn)中,視頻對(duì)象被定義為在景物中的一個(gè)單元,允許用戶存取(搜索、瀏覽)和操作(剪切、粘貼)。即視頻對(duì)象是區(qū)域的聚類,且至少有一個(gè)共同的特征一致地出現(xiàn)在視頻對(duì)象中。這個(gè)概念較為抽象,在實(shí)際的視頻場(chǎng)景中,視頻對(duì)象是指具有一定高層“語(yǔ)義”的區(qū)域,更符合現(xiàn)實(shí)生活中人們視覺(jué)上對(duì)事物認(rèn)知的抽象表達(dá)。現(xiàn)實(shí)世界中的任何一個(gè)有語(yǔ)義意義的實(shí)體,比如行使的汽車、人等,都可以被視為語(yǔ)義視頻對(duì)象。在MPEG-4中,視頻序列的每一幀圖像都被分解成若干個(gè)任意形狀的對(duì)象,視頻對(duì)象在某一時(shí)刻(某一幀中)的表象稱為視頻對(duì)象平面(VodeoObjectPlane,VOP)。基于對(duì)象的編碼和交互功能首先需要將場(chǎng)景或視頻序列中的各類對(duì)象(如運(yùn)動(dòng)的汽車、人等前景對(duì)象和靜止的房屋、樹木等背景對(duì)象)分割提取出來(lái),但MPEG-4并沒(méi)有規(guī)定從視頻序列中分割出此類具有語(yǔ)義意義的視頻對(duì)象(videoobject,VO)的方法,而是對(duì)用戶開放,其目的是便于用戶針對(duì)具體應(yīng)用來(lái)設(shè)計(jì)特定的視頻對(duì)象分割算法。然而,語(yǔ)義視頻對(duì)象分割與早期的圖像分割相比更是一項(xiàng)挑戰(zhàn)性的難題,為此自MPEG-4標(biāo)準(zhǔn)誕生后的10多年來(lái),國(guó)內(nèi)外包括各大公司、高校和各類研究機(jī)構(gòu)在內(nèi)的學(xué)者和研究人員已進(jìn)行深入、廣泛地研究。目前,盡管還不很完善,但已進(jìn)入應(yīng)用階段,而且應(yīng)用領(lǐng)域已遠(yuǎn)遠(yuǎn)超越了原先僅作為便于高效編碼和對(duì)象交互功能的范圍。3.1.2視頻對(duì)象分割方法分類
常見(jiàn)的視頻對(duì)象分割方法可有下面四種分類。
1.按照應(yīng)用目標(biāo)的不同分類
按照應(yīng)用目標(biāo)的不同來(lái)分類可分為兩類:一類是要求得到準(zhǔn)確的視頻對(duì)象輪廓,但不追求實(shí)時(shí)應(yīng)用;另一類是要求能實(shí)時(shí)處理、在線應(yīng)用,但對(duì)所分割得到的對(duì)象輪廓的準(zhǔn)確性要求并不很嚴(yán)格。
2.按照是否需要人工參與或人機(jī)交互分類
按照是否需要人工參與或人機(jī)交互來(lái)分類可分為兩類:一類是無(wú)需人工參與或人機(jī)交互的自動(dòng)分割,包括對(duì)初始幀視頻對(duì)象分割和對(duì)后續(xù)幀的對(duì)象跟蹤都可以自動(dòng)進(jìn)行;另一類是需借助人機(jī)交互的半自動(dòng)分割,即借助人工參與或人機(jī)交互來(lái)定義語(yǔ)義視頻對(duì)象的輪廓形狀和位置,進(jìn)而來(lái)分割初始幀的視頻對(duì)象,后續(xù)幀的對(duì)象跟蹤則自動(dòng)地進(jìn)行(有時(shí)需對(duì)跟蹤對(duì)象的區(qū)域邊界按預(yù)先定義的語(yǔ)義特征稍做修正,以減少跟蹤誤差)。
3.按照分割過(guò)程中所用信息的不同分類
按照分割過(guò)程中所用信息的不同來(lái)分類可分為空間分割、時(shí)間分割和時(shí)空分割三類。空間分割先按傳統(tǒng)的圖像分割將該幀圖像劃分為區(qū)域,其中某些區(qū)域具有相似特征而與其他區(qū)域明顯不同,然后將這些具有相似特征的一致性區(qū)域,按照一定的空間信息(顏色、灰度、邊緣、紋理)、變換域信息(DCT系數(shù))、統(tǒng)計(jì)信息和先驗(yàn)知識(shí)進(jìn)行分割和聚類成語(yǔ)義視頻對(duì)象;時(shí)間分割通常是利用前后幀之間視頻對(duì)象的運(yùn)動(dòng)信息進(jìn)行分割,也可結(jié)合顏色、紋理和邊緣等特征;時(shí)空分割一般先通過(guò)時(shí)間分割標(biāo)識(shí)出運(yùn)動(dòng)對(duì)象,然后與空間分割得到的對(duì)象邊界融合在一起,以得到更精確的分割結(jié)果,這是目前的主流分割方法。
4.按照視頻形式分類
根據(jù)視頻是否以壓縮形式提供,視頻對(duì)象分割算法可分為壓縮域分割和非壓縮域分割。在壓縮域分割時(shí),視頻是以壓縮的形式提供,分割過(guò)程一般不要求將視頻序列解壓縮,以節(jié)省處理時(shí)間。目前,大多數(shù)壓縮域?qū)ο蠓指钏惴ㄖ饕槍?duì)MPEG視頻,在MPEG視頻中,宏塊的運(yùn)動(dòng)矢量提供了視頻的運(yùn)動(dòng)信息,I幀的DCT系數(shù)在一定程度上描述了圖像的紋理信息,基于MPEG視頻的壓縮域?qū)ο蠓指钪饕眠@兩類特征實(shí)現(xiàn)對(duì)象分割。由于壓縮視頻中的宏塊運(yùn)動(dòng)矢量存在著比較大的噪聲,并且不能準(zhǔn)確計(jì)算圖像的紋理特征,因此,壓縮視頻對(duì)象分割只能在宏塊一級(jí)進(jìn)行,形成塊一級(jí)的視頻對(duì)象分割。
在非壓縮分割時(shí),視頻直接以原始視頻序列提供或通過(guò)攝像機(jī)直接捕獲得到。目前視頻對(duì)象分割算法的研究大都集中于非壓縮域。3.1.3視頻對(duì)象分割性能評(píng)價(jià)
近年來(lái),視頻對(duì)象分割得到了越來(lái)越廣泛的重視。目前,已經(jīng)提出了各種各樣的視頻對(duì)象分割算法。然而,視頻對(duì)象分割算法性能評(píng)價(jià)的研究并未受到應(yīng)有的重視,目前,仍然缺乏一種被廣泛認(rèn)可的評(píng)價(jià)方法。
為了評(píng)價(jià)視頻分割算法的分割結(jié)果,在MPEG-4核心實(shí)驗(yàn)中,Wollborn提出了一種存在參考對(duì)象模板的評(píng)價(jià)方法,認(rèn)為分割誤差的產(chǎn)生有錯(cuò)分和漏分兩種情況,如果事先已知一個(gè)準(zhǔn)確的參考模板,可定義分割結(jié)果的空間誤差為
(3-1)該指標(biāo)反映了分割結(jié)果中不屬于實(shí)際對(duì)象的面積占整個(gè)實(shí)際對(duì)象面積的百分比。該指標(biāo)越小表明分割結(jié)果的質(zhì)量越好。以圖3-1為例,圖(a)是原始圖像,圖(b)是手工分割的結(jié)果,圖(c)是計(jì)算機(jī)分割的結(jié)果。按照式(3-1)計(jì)算值為0.0975,可認(rèn)為其分割結(jié)果較好。圖3-1視頻對(duì)象分割示例視頻分割算法評(píng)價(jià)的另一方面是時(shí)間一致性(TemporalCoherency),這實(shí)際上是衡量視頻序列每一幀的空間準(zhǔn)確度的變化程度,因此,可以通過(guò)計(jì)算連續(xù)幀間的空間準(zhǔn)確度來(lái)評(píng)價(jià)。其定義如下:
η(t)=d(Ot,Ot-1)
(3-2)
其中,Ot和Ot-1分別為第t幀和t-1幀的分割對(duì)象模板。
3.2視頻對(duì)象分割技術(shù)基礎(chǔ)
3.2.1圖像分割
圖像分割是按選定的一致性屬性準(zhǔn)則,將圖像正確劃分為互不交疊的區(qū)域集的過(guò)程,可以形式化地定義如下:假設(shè)X是所有像素點(diǎn)組成的集合,P是一個(gè)定義在一組相互連通的像素點(diǎn)上的一致性屬性準(zhǔn)則,那么圖像分割就是將集合X劃分成一組連通子集{S1,S2,…,Sn},并且這一劃分必須滿足下述四個(gè)條件:
(1)
(2)Si∩Sj=Φ
對(duì)所有i≠j
(3)P(Si)=1對(duì)所有i
(4)P(Si∩Sj)=0對(duì)所有i≠j;Si與Sj相鄰
1.基于閾值的分割技術(shù)
這類方法簡(jiǎn)單實(shí)用,在過(guò)去的幾十年間備受重視,其分類也不一而足。根據(jù)使用的是圖像的整體信息還是局部信息,可以分為上下文相關(guān)(contextual)方法和上下文無(wú)關(guān)(non-contextual)方法;根據(jù)對(duì)全圖使用統(tǒng)一閾值還是對(duì)不同區(qū)域使用不同閾值,可以分為全局閾值方法(globalthresholding)和局部閾值方法(localthresholding),也叫做自適應(yīng)閾值方法(adaptivethresholding);另外,還可以分為單閾值方法和多閾值方法。閾值分割的核心問(wèn)題是如何選擇合適的閾值。其中,最簡(jiǎn)單和常用的方法是從圖像的灰度直方圖出發(fā),先得到各個(gè)灰度級(jí)的概率分布密度,再依據(jù)某一準(zhǔn)則選取一個(gè)或多個(gè)合適的閾值,以確定每個(gè)像素點(diǎn)的歸屬。選擇的準(zhǔn)則不同,得到的閾值化算法就不同。
2.基于邊緣的分割技術(shù)
這類方法主要基于圖像灰度級(jí)的不連續(xù)性,它通過(guò)檢測(cè)不同均勻區(qū)域之間的邊界來(lái)實(shí)現(xiàn)對(duì)圖像的分割,這與人的視覺(jué)過(guò)程有些相似。依據(jù)執(zhí)行方式的不同,這類方法通常又分為串行邊緣檢測(cè)技術(shù)和并行邊緣檢測(cè)技術(shù)。
串行邊緣檢測(cè)技術(shù)首先要檢測(cè)出一個(gè)邊緣起始點(diǎn),然后根據(jù)某種相似性準(zhǔn)則尋找與前一點(diǎn)同類的邊緣點(diǎn),這種確定后繼相似點(diǎn)的方法稱為跟蹤。根據(jù)跟蹤方法的不同,這類方法又可分為輪廓跟蹤、光柵跟蹤和全向跟蹤三種方法。全向跟蹤可以克服由于跟蹤的方向性可能造成的邊界丟失,但其搜索過(guò)程會(huì)付出更大的時(shí)間代價(jià)。串行邊緣檢測(cè)技術(shù)的優(yōu)點(diǎn)在于可以得到連續(xù)的單像素邊緣,但是它的效果嚴(yán)重依賴于初始邊緣點(diǎn),由不恰當(dāng)?shù)某跏歼吘夵c(diǎn)可能得到虛假邊緣,較少的初始邊緣點(diǎn)可能導(dǎo)致邊緣漏檢。并行邊緣檢測(cè)技術(shù)通常借助空域微分算子,通過(guò)其模板與圖像卷積完成,因而可以在各個(gè)像素上同時(shí)進(jìn)行,從而大大降低了時(shí)間復(fù)雜度。常見(jiàn)的并行邊緣檢測(cè)方法有如下幾種:
·Roberts算子
·Laplacian算子
·Sobel算子
·Prewitt算子
·Kirsh算子
·Wallis算子
·LOG算子
·Canny算子
3.基于區(qū)域特性的分割技術(shù)
基于區(qū)域特征的分割技術(shù)有兩種基本形式:區(qū)域生長(zhǎng)和分裂合并。前者是從單個(gè)像素出發(fā),逐漸合并以形成所需的分割結(jié)果;后者是從整個(gè)圖像出發(fā),逐漸分裂或合并以形成所需要的分割結(jié)果。與閾值方法不同,這類方法不但考慮了像素的相似性,還考慮了空間上的鄰接性,因此可以有效消除孤立噪聲的干擾,具有很強(qiáng)的魯棒性。而且,無(wú)論是合并還是分裂,都能夠?qū)⒎指钌钊氲较袼丶?jí),因此可以保證較高的分割精度。區(qū)域生長(zhǎng)算法先對(duì)每個(gè)要分割的區(qū)域找一個(gè)種子像素作為生長(zhǎng)的起點(diǎn),然后將種子像素鄰域內(nèi)與種子像素有相似性的像素合并到種子像素集合。如此往復(fù),直到再?zèng)]有像素可以被合并,一個(gè)區(qū)域就形成了。顯然,種子像素、生長(zhǎng)準(zhǔn)則和終止條件是算法的關(guān)鍵。然而,種子點(diǎn)的選擇并不容易,有人試圖通過(guò)邊緣檢測(cè)來(lái)確定種子點(diǎn),但是,由于邊緣檢測(cè)算法本身的不足,并不能避免遺漏重要的種子點(diǎn)。
分裂合并算法則是先從整個(gè)圖像開始不斷的分裂得到各個(gè)區(qū)域,再將相鄰的具有相似性的區(qū)域合并以得到分割結(jié)果。這種方法雖然沒(méi)有選擇種子點(diǎn)的麻煩,但也有自身的不足。一方面,分裂如果不能深達(dá)像素級(jí)就會(huì)降低分割精度;另一方面,深達(dá)像素級(jí)的分裂會(huì)增加合并的工作量,從而大大提高其時(shí)間復(fù)雜度。分水嶺算法是一種較新的基于區(qū)域特性的圖像分割方法。該算法的思想來(lái)源于洼地積水的過(guò)程:首先,求取梯度圖像;然后,將梯度圖像視為一個(gè)高低起伏的地形圖,原圖上較平坦的區(qū)域梯度值較小,構(gòu)成盆地,原圖上的邊界區(qū)域梯度值較大,構(gòu)成分割盆地的山脊;接著,水從盆地內(nèi)最低洼的地方滲入,隨著水位不斷長(zhǎng)高,有的洼地將被連通,為了防止兩塊洼地被連通,就在分割兩者的山脊上筑起水壩,水位越漲越高,水壩也越筑越高;最后,當(dāng)水壩達(dá)到最高的山脊的高度時(shí),算法結(jié)束,每一個(gè)孤立的積水盆地對(duì)應(yīng)一個(gè)分割區(qū)域。分水嶺算法有著較好的魯棒性,但是往往會(huì)形成過(guò)分割。
4.基于統(tǒng)計(jì)模式分類的分割技術(shù)
模式可以定義為對(duì)圖像中的目標(biāo)或其他感興趣部分的定量或結(jié)構(gòu)化的描述,圖像分割可以被視為以像素為基元的模式分類過(guò)程,這一過(guò)程主要包括兩個(gè)步驟:特征提取和模式分類。閾值分割就相當(dāng)于在一維(灰度)或二維(共生矩陣)特征空間進(jìn)行的模式分類,它所使用的特征并沒(méi)有充分反映像素的空間信息和其鄰域像素的相關(guān)信息。為了改善分割的效果,我們自然地想到使用能夠充分利用圖像信息的高維特征來(lái)描述每一個(gè)像素。這類方法,對(duì)于無(wú)法由灰度區(qū)分的復(fù)雜的紋理圖像顯得尤為有效。由于模式分類可以借鑒模式識(shí)別技術(shù)中的成熟算法(如FCM算法和SOM算法),所以這類分割技術(shù)的主要差別在于特征提取的方法。常用的特征有:
·基于共生矩陣的特征
·基于自相關(guān)的特征
·基于邊界頻率的特征
·基于Law’s模板的特征
·行程長(zhǎng)度特征(run-lengthfeatures)
·基于二值棧方法(binarystackmethod)的特征
·基于紋理操作符(textureoperators)的特征
·紋理譜特征
·結(jié)構(gòu)特征
·空間域?yàn)V波特征
·傅立葉域?yàn)V波特征
·小波域?yàn)V波特征
·矩特征
·基于Gabor濾波器的特征
·基于隨機(jī)場(chǎng)模型的特征
·分形特征
圖3-2列出了對(duì)lena圖像使用幾種典型的分割算法進(jìn)行分割的實(shí)驗(yàn)結(jié)果。圖(a)為原始圖像,圖(b)為閾值分割,圖(c)為Sobel邊緣分割,圖(d)為分裂合并算法的分割結(jié)果,圖(e)為提取Garbor特征后模糊C-均值(FCM)聚類的分割結(jié)果,圖(f)為改進(jìn)的分水嶺算法的分割結(jié)果。圖3-2幾種典型的分割算法的實(shí)驗(yàn)結(jié)果3.2.2數(shù)學(xué)形態(tài)學(xué)處理
1.二值形態(tài)學(xué)
二值數(shù)學(xué)形態(tài)學(xué)的基本運(yùn)算有四個(gè):膨脹(或擴(kuò)張)、腐蝕(或侵蝕)、開啟和閉合。形態(tài)學(xué)的運(yùn)算對(duì)象是集合。設(shè)用A表示圖像,B表示結(jié)構(gòu)元素(A和B均為集合),形態(tài)學(xué)運(yùn)算就是用B對(duì)A進(jìn)行操作。
腐蝕是數(shù)學(xué)形態(tài)學(xué)的基本運(yùn)算,集合A被集合B腐蝕,表示為AΘB,定義為
(3-3)
AΘB由將B平移x但仍然包含在A內(nèi)的所有點(diǎn)x組成。如果將B看做是模板,那么AΘB則由在平移模板的過(guò)程中,所有可以填入A內(nèi)部的模板的原點(diǎn)組成。膨脹是腐蝕運(yùn)算的對(duì)偶運(yùn)算,可以通過(guò)對(duì)補(bǔ)集的腐蝕來(lái)定義。A被B膨脹表示為A⊕B,定義為
A⊕B=[AcΘ(-B)]c
(3-4)
其中,Ac表示A的補(bǔ)集。含義為利用B膨脹A,可將B相對(duì)原點(diǎn)旋轉(zhuǎn)180°得到-B,再利用-B對(duì)Ac進(jìn)行腐蝕,腐蝕結(jié)果的補(bǔ)集就是所求的結(jié)果。
利用腐蝕和膨脹運(yùn)算對(duì)圖像做處理,結(jié)果如圖3-3所示,采用的結(jié)構(gòu)元素為半徑為8的圓。圖3-3腐蝕、膨脹運(yùn)算的結(jié)果可見(jiàn),膨脹操作可以擴(kuò)充圖像區(qū)域,而腐蝕操作則會(huì)縮小圖像區(qū)域。
因?yàn)榕蛎浐透g并不互為逆運(yùn)算,所以它們可以級(jí)連結(jié)合使用。例如,可以使用同一結(jié)構(gòu)元素先對(duì)圖像進(jìn)行腐蝕運(yùn)算,然后膨脹其結(jié)果;也可以對(duì)圖像先進(jìn)行膨脹運(yùn)算再腐蝕其結(jié)果。前者通常稱為開啟(open)運(yùn)算,后者則稱為閉合(close)運(yùn)算。
開啟運(yùn)算符為。,A用B來(lái)開啟記為A。B,其定義為
(3-5)閉合運(yùn)算符為·,A用B來(lái)閉合記為A·B,其定義為
A·B=(A⊕B)ΘA
(3-6)利用開啟和閉合運(yùn)算對(duì)圖像做處理,結(jié)果如圖3-4所示。可見(jiàn),盡管開運(yùn)算和閉運(yùn)算都是由膨脹和腐蝕運(yùn)算組成的,二者由于順序的不同對(duì)圖像處理后的結(jié)果明顯不同。圖3-4開啟、閉合運(yùn)算的結(jié)果
2.灰度形態(tài)學(xué)
數(shù)學(xué)形態(tài)學(xué)首先是在二值形態(tài)學(xué)的基礎(chǔ)上發(fā)展起來(lái)的,然后推廣到了灰度數(shù)學(xué)形態(tài)學(xué)。在二值形態(tài)學(xué)中,集合的交運(yùn)算和并運(yùn)算起著關(guān)鍵作用。在灰度形態(tài)學(xué)中,其對(duì)應(yīng)的運(yùn)算為極小和極大。與二值形態(tài)學(xué)類似,灰度腐蝕和灰度膨脹是其最基本的運(yùn)算,下面給出灰度腐蝕和灰度膨脹的定義。
利用結(jié)構(gòu)元素g(也是一個(gè)信號(hào))對(duì)信號(hào)f的腐蝕定義為
(fΘg)(x)=max{y:gx+y<<f}
(3-7)從幾何角度講,為了求出信號(hào)被結(jié)構(gòu)元素在點(diǎn)x腐蝕的結(jié)果,先在空間滑動(dòng)結(jié)構(gòu)元素,使其原點(diǎn)與x點(diǎn)重合,然后向上推結(jié)構(gòu)元素,結(jié)構(gòu)元素仍處在信號(hào)下方所能達(dá)到的最大值,即為該點(diǎn)的腐蝕結(jié)果。由于結(jié)構(gòu)元素必須在信號(hào)的下方,故空間平移結(jié)構(gòu)元素的定義域必為信號(hào)定義域的子集。否則,腐蝕就在該點(diǎn)沒(méi)有定義。
與二值情況一樣,灰度膨脹也可以用灰度腐蝕的對(duì)偶運(yùn)算來(lái)定義。在定義灰度腐蝕時(shí),采取求最大值的方法,即在位于信號(hào)下方的條件下,求上推結(jié)構(gòu)所能達(dá)到的最大值。利用結(jié)構(gòu)元素的反射,求將信號(hào)限制在結(jié)構(gòu)元素的定義域內(nèi)時(shí),上推結(jié)構(gòu)元素使其超過(guò)信號(hào)時(shí)的最小值來(lái)定義灰度膨脹。f被g膨脹可逐點(diǎn)地定義為
(3-8)圖3-5列出了灰度形態(tài)學(xué)的實(shí)驗(yàn)結(jié)果,圖(a)為原圖,圖(b)為灰度腐蝕的結(jié)果,圖(c)為灰度膨脹的結(jié)果。可以看出,圖(b)和(c)較好地保持了圖(a)的重要細(xì)節(jié),因此,灰度形態(tài)學(xué)膨脹和腐蝕操作可以視為圖像濾波操作。圖3-5灰度形態(tài)學(xué)的實(shí)驗(yàn)結(jié)果
3.形態(tài)學(xué)圖像處理
數(shù)學(xué)形態(tài)學(xué)的思想和方法適用于與圖像處理有關(guān)的各個(gè)方面。這是因?yàn)閿?shù)學(xué)形態(tài)學(xué)既有堅(jiān)實(shí)的理論基礎(chǔ),又有簡(jiǎn)潔、統(tǒng)一的基本思想?;谝陨咸峒暗幕具\(yùn)算還可以推導(dǎo)和組合成各種數(shù)學(xué)形態(tài)學(xué)實(shí)用算法。
1)形態(tài)學(xué)濾波
利用形態(tài)學(xué)操作可以濾除圖像中存在的噪聲,這里因?yàn)閳D像中的噪聲一般呈散亂分布或者正態(tài)分布。通過(guò)選擇合適的結(jié)構(gòu)元素,只要結(jié)構(gòu)元素的尺寸大于噪聲時(shí),就可以濾除圖像中存在的噪聲。對(duì)某些強(qiáng)噪聲圖像,基于數(shù)學(xué)形態(tài)學(xué)的算法有可能取得較好的效果。形態(tài)學(xué)的操作都可以在某種程度上視為對(duì)圖像進(jìn)行濾波操作。圖3-6顯示了利用形態(tài)學(xué)開運(yùn)算進(jìn)行噪聲濾除的結(jié)果。圖3-6形態(tài)學(xué)濾波的結(jié)果
2)形態(tài)學(xué)邊緣檢測(cè)
許多常用的邊緣檢測(cè)算子(如Canny、Sobel等)通過(guò)計(jì)算圖像中局部小區(qū)域的差分來(lái)工作。這類邊緣檢測(cè)器或算子對(duì)噪聲都比較敏感并且常常會(huì)在檢測(cè)邊緣的同時(shí)加強(qiáng)噪聲。而形態(tài)邊緣檢測(cè)器主要用到形態(tài)梯度的概念,雖也對(duì)噪聲較敏感,但不會(huì)加強(qiáng)或放大噪聲。
形態(tài)學(xué)梯度定義為
Grad[f(x)]=(f⊕g)-(fΘg)
(3-9)其中,f為原始圖像,g為結(jié)構(gòu)元素。形態(tài)學(xué)梯度算子的性能取決于結(jié)構(gòu)元素g的大小。大的結(jié)構(gòu)元素會(huì)造成邊緣間嚴(yán)重的相互影響,這將導(dǎo)致梯度極大值與邊緣的不一致。然而,若結(jié)構(gòu)元素過(guò)小,則梯度算子雖有高的分辨率,但對(duì)斜坡邊緣會(huì)產(chǎn)生一個(gè)很小的輸出結(jié)果。
圖3-7為圖像利用形態(tài)學(xué)梯度進(jìn)行邊緣檢測(cè)的結(jié)果,圖(a)為原圖,圖(b)為利用形態(tài)學(xué)梯度檢測(cè)的邊緣。圖3-7利用形態(tài)學(xué)梯度進(jìn)行邊緣檢測(cè)的結(jié)果
3)形態(tài)學(xué)后處理
在分割的后處理中,為了連接本來(lái)相關(guān)的區(qū)域或邊界段,或者分離本來(lái)不接觸的區(qū)域,常利用數(shù)學(xué)形態(tài)學(xué)的方法。在對(duì)視頻序列中運(yùn)動(dòng)對(duì)象的分割過(guò)程中,由于信息不夠完全,得到的對(duì)象輪廓往往存在空洞,這時(shí)往往需要進(jìn)行形態(tài)學(xué)的后處理,以得到完整的視頻對(duì)象。
此外,形態(tài)學(xué)在圖像處理方面還有許多其他的應(yīng)用,如基于擊中擊不中變換的目標(biāo)識(shí)別、基于腐蝕和開運(yùn)算的骨架提取等。3.2.3變化檢測(cè)技術(shù)
變化檢測(cè)作為一個(gè)重要的工具,廣泛地應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域,如多媒體、視頻監(jiān)控、遙感等。通常,變化檢測(cè)將視頻圖像劃分為變化區(qū)域和未變化區(qū)域,它可以有效地檢測(cè)圖像序列或圖像組中不同時(shí)刻的變化。由于對(duì)象的運(yùn)動(dòng),使得不同時(shí)刻的圖像灰度值或者彩色值發(fā)生了變化,因此,變化檢測(cè)技術(shù)可以用于分割運(yùn)動(dòng)視頻對(duì)象。
用f(x,y,k)表示視頻序列中的第k幀圖像,(x,y)表示圖像中像素的坐標(biāo)。變化檢測(cè)的任務(wù)就是將兩幀圖像f(x,y,k)與f(x,y,r)進(jìn)行比較,將特征值發(fā)生變化的像素標(biāo)記為1,沒(méi)有發(fā)生變化的像素標(biāo)記為0,從而得到二進(jìn)制掩膜圖像c(x,y,k)。其中,f(x,y,r)表示參考幀,例如當(dāng)使用前一幀作為參考幀時(shí),r=k-1,參考幀為f(x,y,k-1)。不同的變化檢測(cè)方法采用不同的策略M,作為f(x,y,k)和f(x,y,r)的函數(shù)計(jì)算c(x,y,k),記為
c(x,y,k)=M(f(x,y,k),f(x,y,r))
(3-10)
策略M分解為四個(gè)主要步驟:特征提取、特征分析、分類和后處理。
特征提取步驟通過(guò)變換F將輸入圖像f(x,y,k)變換到最合適的特征空間,特征空間的選擇依賴于具體的應(yīng)用。f(x,y,k)經(jīng)過(guò)變換F得到序列g(shù)(x,y,k)。特征提取步驟記為
g(x,y,k)=F(f(x,y,k))
(3-11)
特征分析步驟記為T,通過(guò)比較g(x,y,k)和g(x,y,r),計(jì)算表征像素值變化程度的活動(dòng)索引值,該步驟的輸出結(jié)果是序列t(x,y,k),記為
t(x,y,k)=T(g(x,y,k),g(x,y,r))
(3-12)特征分析之后進(jìn)行分類,將視頻圖像的活動(dòng)索引t(x,y,k)根據(jù)門限值進(jìn)行二進(jìn)制分類,每一個(gè)像素被標(biāo)記為變化或者未變化,從而得到二進(jìn)制掩膜圖像c(x,y,k)。為了得到分類結(jié)果,判決根據(jù)下面的閾值化檢驗(yàn)進(jìn)行:(3-13)門限值τ可以根據(jù)經(jīng)驗(yàn)值確定或者自適應(yīng)計(jì)算。分類步驟的結(jié)果受各種因素的影響,為了提高檢測(cè)結(jié)果的準(zhǔn)確性,通常需要一個(gè)后處理步驟。
1.檢測(cè)的特征選取
為了更好地檢測(cè)不同時(shí)刻圖像的變化,需要選取合適的特征,將f(x,y,k)變換到合適的特征空間,輸出的結(jié)果是序列g(shù)(x,y,k)。g(x,y,k)可以表示圖像像素的亮度值、彩色分量,或者使用基于區(qū)域模型的參數(shù)作為檢測(cè)的特征。
1)強(qiáng)度特征
強(qiáng)度特征是變化檢測(cè)中普遍使用的特征,它包括亮度值和彩色分量。在單色相機(jī)情況下,不需要任何特征變換直接得到g(x,y,k)。在彩色相機(jī)情況下,典型的視頻圖像包含三個(gè)彩色分量:
f(x,y,k)=(R(x,y,k),G(x,y,k),B(x,y,k))(3-14)其中,R(x,y,k)、G(x,y,k)和B(x,y,k)分別表示視頻圖像的紅色分量、綠色分量和藍(lán)色分量。亮度值通過(guò)加權(quán)彩色分量得到:
g(x,y,k)=Y(x,y,k)=ω1R(x,y,k)+ω2G(x,y,k)+ω3B(x,y,k)
(3-15)
ωi(i=1,2,3)表示人類視覺(jué)系統(tǒng)對(duì)不同彩色分量的敏感程度。
除了使用亮度值作為強(qiáng)度特征外,有些文獻(xiàn)[33,34]使用彩色值作為強(qiáng)度特征??梢灾苯邮褂孟鄼C(jī)傳感器得到的彩色信息(通常是RGB),或者將彩色信息變換到其他彩色空間,彩色空間的選擇依賴于具體的應(yīng)用。
2)光照不變特征
由于光照變化使得圖像的強(qiáng)度值發(fā)生變化,因此當(dāng)光照條件變化時(shí),需要選擇一些光照不變特征,例如邊緣特征、圖像反射分量等,以克服光照變化對(duì)變化檢測(cè)結(jié)果的影響?;趫D像邊緣特征的變化檢測(cè)方法,依據(jù)是全局光變不改變圖像的邊緣形狀,而且由于邊緣圖是二值圖像,因此便于計(jì)算和存儲(chǔ)。另一個(gè)光照不變特征是反射分量。反射圖用于表示圖像的反射分量,包含物理對(duì)象信息,與光照變化無(wú)關(guān)。
3)二階統(tǒng)計(jì)特征
通過(guò)建模信號(hào)f(x,y,k)的強(qiáng)度分布,可以提取特征g(x,y,k)用于變化檢測(cè)。模型通常利用基于區(qū)域的統(tǒng)計(jì)表示,采用二階統(tǒng)計(jì)模型,例如區(qū)域的方差和均值、建模區(qū)域的二次函數(shù)或者偏微分描述圖像的局部強(qiáng)度分布。區(qū)域的形狀通常選擇以像素(x,y,k)為中心的N×N區(qū)域窗W(x,y,k),窗內(nèi)像素的均值和方差計(jì)算公式為(3-16)(3-17)
2.變化檢測(cè)的特征分析
當(dāng)圖像變換到合適的特征空間后,對(duì)特征進(jìn)行分析。特征分析步驟通過(guò)變換T比較g(x,y,k)和g(x,y,r),該步驟的輸出結(jié)果是反映視頻圖像特征值變化程度的活動(dòng)索引t(x,y,k)。下面討論執(zhí)行特征分析時(shí)如何選取鄰域窗、參考幀和變換T。
1)特征分析時(shí)鄰域窗的選取
理想情況下,變換T分別作用于每一個(gè)像素。但是由于實(shí)際圖像受噪聲的影響,因此需要一個(gè)更穩(wěn)健的方法處理噪聲,為此,變換T作用于每個(gè)像素的鄰域窗,在鄰域窗內(nèi)比較當(dāng)前圖像和參考圖像的特征,以降低變化檢測(cè)過(guò)程中噪聲的影響。
鄰域窗可以選擇具有不規(guī)則形狀的區(qū)域或者矩形窗。矩形窗是最常用的形狀,當(dāng)沒(méi)有場(chǎng)景的先驗(yàn)知識(shí)可以利用時(shí),通常選擇矩形窗。鄰域窗的面積越大,對(duì)噪聲越不敏感,然而,檢測(cè)的準(zhǔn)確性降低。在鄰域窗得到的信息可以作用于不同的范圍。如果從像素鄰域窗內(nèi)得到的信息作用于窗內(nèi)的所有像素,則檢測(cè)過(guò)程使用的鄰域窗是非交叉空域窗,稱為非重疊窗;如果從像素鄰域窗得到的信息只是作用于中心像素,則檢測(cè)過(guò)程使用的鄰域窗是交叉空域窗,稱為重疊窗。采用重疊窗時(shí),可以提供較好的準(zhǔn)確性,但是計(jì)算復(fù)雜度較高;采用非重疊窗時(shí),計(jì)算復(fù)雜度降低,但是準(zhǔn)確性也降低。
2)參考幀的選擇
在特征分析步驟,需要將當(dāng)前幀的特征g(x,y,k)與參考幀的特征g(x,y,r)進(jìn)行比較??梢赃x擇前一幀圖像或者背景圖像作為參考幀。許多變化檢測(cè)技術(shù)使用前一幀圖像作為參考幀,此時(shí)特征分析步驟表示為
t(x,y,k)=T(g(x,y,k),g(x,y,k-1))
(3-18)
該方法的優(yōu)點(diǎn)是降低了陰影區(qū)域的影響,不足之處是因語(yǔ)義視頻對(duì)象運(yùn)動(dòng)而暴露出的背景區(qū)域也會(huì)檢測(cè)為變化,而且當(dāng)語(yǔ)義視頻對(duì)象內(nèi)部的紋理細(xì)節(jié)不豐富時(shí),無(wú)法檢測(cè)出語(yǔ)義視頻對(duì)象平面的內(nèi)部區(qū)域。另一種方法是使用背景圖像作為參考幀,一種簡(jiǎn)單的情況是若視頻序列的初始幀中不包含對(duì)象,可選擇視頻序列的第一幀作為參考幀,此時(shí)特征分析步驟表示為
t(x,y,k)=T(g(x,y,k),g(x,y,1))
(3-19)
由于使用背景圖像作為參考幀,即使對(duì)象停止運(yùn)動(dòng),也可以檢測(cè)出來(lái)。這種方法的不足之處是由于參考幀固定,因此不能自適應(yīng)于環(huán)境光照的慢變化,不適合處理較長(zhǎng)的室外視頻序列。而且在許多應(yīng)用中,視頻序列的第一幀包含語(yǔ)義視頻對(duì)象,不能用作參考幀。為此,需要利用視頻序列中多幀圖像的背景信息構(gòu)造背景幀。一般情況下,綜合連續(xù)多幀圖像的信息,預(yù)測(cè)當(dāng)前的背景幀圖像,然后利用構(gòu)造的背景圖像作為參考幀進(jìn)行變化檢測(cè)。背景圖像g(x,y,r)采用視頻序列先前幀背景圖像的加權(quán)值與當(dāng)前幀進(jìn)行構(gòu)造時(shí)為
g(x,y,r)=(1-α)(g(x,y,k)+αg(x,y,k-1)
(3-20)
g(x,y,1)=g(x,y,1),0<α<1。這樣即使所有的視頻圖像都包含語(yǔ)義視頻對(duì)象,也可以生成背景圖像。而且通過(guò)與當(dāng)前幀進(jìn)行加權(quán),可以補(bǔ)償光照條件的慢變化,使得構(gòu)造的背景圖像不受光照慢變化的影響。不足之處是只有當(dāng)語(yǔ)義視頻對(duì)象持續(xù)運(yùn)動(dòng),背景像素在大部分時(shí)間暴露時(shí),該背景圖像的構(gòu)造方法才有效,而當(dāng)語(yǔ)義視頻對(duì)象運(yùn)動(dòng)速度很慢時(shí),這種方法的效果不好。~~~~
3)活動(dòng)索引的計(jì)算
將視頻圖像和參考幀變換到合適的特征空間后,接著根據(jù)g(x,y,k)和g(x,y,r)計(jì)算反映特征值變化程度的活動(dòng)索引。將變換T分解為距離算子Td和一個(gè)函數(shù)Tl,因此方程(3-12)可以表示為
t(x,y,k)=Tl(Td(g(x,y,k),g(x,y,r)))
(3-21)
距離算子提供像素級(jí)的特征距離,可以通過(guò)對(duì)應(yīng)像素的差值、特征矢量差值或者二階統(tǒng)計(jì)量的差值實(shí)現(xiàn)。對(duì)應(yīng)像素的差值表示為
td(x,y,k)=Td(g(x,y,k),g(x,y,r))=g(x,y,k)-g(x,y,r)
(3-22)
距離算子可以應(yīng)用到亮度或者彩色分量表示的強(qiáng)度圖像、二進(jìn)制邊緣圖像。特征矢量差值用于對(duì)特征矢量進(jìn)行運(yùn)算,特征矢量可以是彩色特征或者區(qū)域特征。進(jìn)行距離算子Td運(yùn)算后,需要進(jìn)一步變換td(x,y,k)得到用于變化檢測(cè)的活動(dòng)索引。在一些情況下,距離算子的結(jié)果td(x,y,k)可以直接用作活動(dòng)索引,此時(shí)不需要經(jīng)過(guò)函數(shù)Tl運(yùn)算。Tl變換可以是絕對(duì)值、平方值、二階矩、四階矩或者是邊緣運(yùn)算。如果使用的特征是邊緣,則在圖像差分距離算子之后取絕對(duì)值或者平方值:
t(x,y,k)=||tdg(x,y,k)||p
(3-23)
其中,p={1,2}分別表示絕對(duì)值和平方值。當(dāng)使用圖像強(qiáng)度特征(亮度或者彩色分量)時(shí),在矩形窗W(x,y,k)內(nèi)計(jì)算矩。在這種情況下,活動(dòng)索引表示為下面的形式:(3-24)其中,td(i,j,k)是差分圖像,s是矩的階數(shù),均值μ為(3-25)計(jì)算活動(dòng)索引時(shí),可以使用不同的td(i,j,k)和s的組合。當(dāng)td(i,j,k)是圖像亮度差分結(jié)果,并且s=4時(shí),得到的t(i,j,k)是四階矩。當(dāng)td(i,j,k)是圖像亮度值的比率,并且s=2時(shí),得到的t(i,j,k)是二階矩。計(jì)算的活動(dòng)索引可以作用于W(x,y,k)內(nèi)的所有像素(非重疊窗)或者只是作用于W(x,y,k)的中心像素(重疊窗),后者提供了較好的空域準(zhǔn)確性。
3.變化檢測(cè)的分類步驟
分類步驟根據(jù)活動(dòng)索引t(i,j,k),將圖像中的像素分為變化或者未變化兩類。為了得到分類結(jié)果,需要根據(jù)方程(3-13)對(duì)t(i,j,k)進(jìn)行閾值化判決?;顒?dòng)索引t(i,j,k)的范圍依賴于特征空間的選擇和特征分析采用的距離算子,例如,在采用邊緣特征時(shí),t(i,j,k)值的范圍是{-1,0,1};在對(duì)圖像強(qiáng)度特征取差分絕對(duì)值的情況下,t(i,j,k)的值為正整數(shù)。
式(3-13)中的門限值τ是經(jīng)驗(yàn)值或者自適應(yīng)計(jì)算。經(jīng)驗(yàn)門限值對(duì)于視頻序列中所有視頻圖像都是固定的,通?;诤艽蟮臄?shù)據(jù)庫(kù),根據(jù)實(shí)驗(yàn)確定。自適應(yīng)門限值根據(jù)某些規(guī)則動(dòng)態(tài)確定。下面介紹一些選擇門限值的方法。
1)經(jīng)驗(yàn)門限值的選取
當(dāng)變化檢測(cè)過(guò)程中選擇強(qiáng)度特征時(shí),門限值的選取依賴于場(chǎng)景、相機(jī)噪聲和時(shí)空光照條件。
當(dāng)變化檢測(cè)過(guò)程中使用邊緣特征時(shí),活動(dòng)索引t(i,j,k)通過(guò)邊緣圖差分的絕對(duì)值計(jì)算,這種情況下門限值為0。
經(jīng)驗(yàn)門限值τ根據(jù)測(cè)試序列的不同而手工調(diào)節(jié),不足之處是需要根據(jù)場(chǎng)景的特征交互式改變門限值,因此不適合自動(dòng)分割和較長(zhǎng)的視頻序列。為了得到最優(yōu)的檢測(cè),門限值需要自適應(yīng)于場(chǎng)景內(nèi)容和不同類型的噪聲。
2)自適應(yīng)門限值的選取
自適應(yīng)門限值需要根據(jù)相機(jī)噪聲方差δc自動(dòng)確定。如果相機(jī)噪聲的概率密度函數(shù)已知,使用區(qū)域統(tǒng)計(jì)分析計(jì)算自適應(yīng)局部門限。統(tǒng)計(jì)分析方法基于建模噪聲的密度函數(shù),比較差分圖像中每個(gè)像素點(diǎn)的鄰域窗內(nèi)的統(tǒng)計(jì)行為,基于顯著性檢驗(yàn)技術(shù)判決像素值是否發(fā)生了變化。噪聲模型的定義基于下面的假設(shè):鄰域窗內(nèi)所有像素值的變化都是由于噪聲引起(假設(shè)H0);序列中的每一幀都受特定均值和方差的加性高斯噪聲的影響。在這些假設(shè)下,噪聲模型通過(guò)χ2分布描述,它的屬性依賴于鄰域窗內(nèi)像素的數(shù)目和噪聲的方差。給定χ2分布和顯著性水平α,自適應(yīng)門限值τα通過(guò)下式確定:
α=P{δ>τα|H0}
(3-26)
其中,顯著性水平α是一個(gè)固定的參數(shù),不需要手工調(diào)節(jié)。
4.變化檢測(cè)的后處理
分類結(jié)果c(x,y,k)受各種因素的影響,這將在c(x,y,k)中引起虛警。這些虛警主要包括:閾值分割和統(tǒng)計(jì)分析存在一定的虛警,因?qū)ο筮\(yùn)動(dòng)暴露的背景區(qū)域,對(duì)象的陰影區(qū)域。這些虛警影響了對(duì)象檢測(cè)結(jié)果的準(zhǔn)確性,需要通過(guò)后處理步驟進(jìn)行消除。
1)使用二進(jìn)制掩膜圖像的后處理
后處理步驟要求在保持輪廓的同時(shí)消除不規(guī)則性,可以使用當(dāng)前的二進(jìn)制掩膜圖像或者一組二進(jìn)制掩膜圖像進(jìn)行處理。在只使用當(dāng)前二進(jìn)制掩膜圖像的情況下,后處理步驟表示為
p(x,y,k)=P(c(x,y,k))
(3-27)P表示后處理步驟采用的方法,它基于一些先驗(yàn)假定調(diào)整二進(jìn)制掩膜圖像c(x,y,k),典型的假定是語(yǔ)義視頻對(duì)象的緊湊性。在這種假定下,變化區(qū)域必須是連通的,而且具有一定的幾何規(guī)則性。通常使用形態(tài)學(xué)濾波器、形態(tài)學(xué)開運(yùn)算或者更為復(fù)雜的形態(tài)學(xué)組合濾波器進(jìn)行處理。其優(yōu)點(diǎn)是計(jì)算復(fù)雜度低,不足之處是先驗(yàn)假定(緊湊性和規(guī)則輪廓)并不總是成立的。
聯(lián)合基于背景圖像的變化檢測(cè)結(jié)果和幀間變化檢測(cè)結(jié)果進(jìn)行處理,后處理步驟表示為
p(x,y,k)=P(c(x,y,k-1),c(x,y,k),c′(x,y,k),c(x,y,k+1))
(3-28)
2)使用二進(jìn)制掩膜圖像和原始圖像的后處理
可以通過(guò)分析當(dāng)前幀圖像和二進(jìn)制掩膜圖像改進(jìn)分類結(jié)果,表示為
p(x,y,k)=P(c(x,y,k),f(x,y,k))
(3-29)
或者通過(guò)分析當(dāng)前幀圖像、參考幀圖像、以及二進(jìn)制掩膜圖像改進(jìn)分類結(jié)果:
p(x,y,k)=P(c(x,y,k),f(x,y,k),f(x,y,r))
(3-30)
參考幀f(x,y,r)是背景幀或者前一幀。后處理步驟通常采用運(yùn)動(dòng)、顏色和邊緣信息。根據(jù)(3-30)式進(jìn)行后處理的典型例子是陰影檢測(cè)。陰影區(qū)域通常被檢測(cè)為運(yùn)動(dòng)區(qū)域的一部分,通過(guò)消除陰影區(qū)域,可以改善變化檢測(cè)結(jié)果。
3.3基于時(shí)/空域聯(lián)合分割
在視頻對(duì)象分割算法中,空間域分割和時(shí)間域分割分別依賴于幀內(nèi)和幀間的信息。由于場(chǎng)景中存在噪聲以及運(yùn)動(dòng)估計(jì)所固有的遮擋和孔徑問(wèn)題,往往不能獲得精確的運(yùn)動(dòng)估計(jì)。同時(shí),基于運(yùn)動(dòng)的分割方法一般對(duì)有較大運(yùn)動(dòng)的目標(biāo)分割效果不好,影響到運(yùn)動(dòng)分割的精度,不能準(zhǔn)確地逼近運(yùn)動(dòng)物體的邊緣。因此,要準(zhǔn)確地實(shí)現(xiàn)分割,還需要在運(yùn)動(dòng)分割算法的基礎(chǔ)上聯(lián)合物體的顏色、亮度、邊緣等空間信息進(jìn)行視頻分割。這種視頻對(duì)象分割方法稱為基于時(shí)/空域聯(lián)合分割。時(shí)/空域聯(lián)合的分割方法是綜合利用時(shí)間域的幀間運(yùn)動(dòng)信息和空間的亮度、顏色信息,同時(shí)進(jìn)行空間分割和時(shí)間分割的方法,其目的是為了提取足夠準(zhǔn)確的邊緣。通過(guò)空間分割將圖像分割為具有準(zhǔn)確語(yǔ)義邊界的初始分割區(qū)域,時(shí)域分割則定位圖像中的運(yùn)動(dòng)區(qū)域,最后結(jié)合空間分割和時(shí)域分割的結(jié)果,獲得邊緣定位較精確的分割對(duì)象。本節(jié)介紹一種靜止背景視頻序列的時(shí)/空聯(lián)合分割算法,分割框圖如圖3-8所示。圖3-8時(shí)/空聯(lián)合分割框圖3.3.1時(shí)間分割
時(shí)間分割可以判斷出哪些像素發(fā)生了變化或者屬于哪個(gè)對(duì)象,并通過(guò)標(biāo)記或掩模的方式表現(xiàn)出來(lái)。時(shí)間分割的方法主要有變化檢測(cè)、運(yùn)動(dòng)估計(jì)、光流法、對(duì)象跟蹤等。這些方法各有不同的特點(diǎn),適應(yīng)不同特征的視頻序列。本節(jié)采用簡(jiǎn)單的幀間變化檢測(cè)算法進(jìn)行時(shí)間分割,得到空域模板。
變化檢測(cè)把當(dāng)前視頻幀分割成相對(duì)于參考幀“變化的”和“未變化的”區(qū)域。未變化的部分表示靜止的背景,變化的部分代表運(yùn)動(dòng)和遮擋區(qū)域。假設(shè)fk(x,y)表示第k幀的原始圖像,fk+1(x,y)表示第k+1的原始圖像,則前、后幀之間的偏移幀差(displacedframedifference)為
dk,k+1(x,y)=|fk+1(x,y)-fk(x,y)|
(3-31)
在理想情況下,不等于零的點(diǎn)的位置代表“變化”區(qū)域,然而由于噪聲的存在,這種情況很少存在,為此,可以用以下方式計(jì)算變化檢測(cè)模板(changedetectionmask):
(3-32)
其中,T為閾值。顯然,上述變化檢測(cè)模板反映運(yùn)動(dòng)對(duì)象位置變化的性能存在閾值依賴性,即閾值的選取是至關(guān)重要的一步。借助一些數(shù)學(xué)工具,目前已提出了許多自動(dòng)判斷并計(jì)算閾值的方法,如直方圖法、高階統(tǒng)計(jì)量法、置信度法等,都取得了較好的效果。圖3-9為用置信度法計(jì)算得到閾值的變化檢測(cè)實(shí)驗(yàn)圖,圖(a)是Trevor序列第7幀圖像,圖(b)是Trevor序列第8幀圖像,圖(c)為第7幀和第8幀用幀差法得到的時(shí)間閾變化檢測(cè)圖像,可以看出,時(shí)間分割掩?;痉从沉藢?duì)象的運(yùn)動(dòng)區(qū)域,但還需要經(jīng)過(guò)一些后處理技術(shù),才能得到相對(duì)較為準(zhǔn)確的分割掩模。后處理通常采用連同組件分析和形態(tài)學(xué)濾波。圖3-9變化檢測(cè)實(shí)驗(yàn)圖3.3.2空間分割
由于運(yùn)動(dòng)信息的復(fù)雜性,時(shí)間分割往往只能得到大致準(zhǔn)確的對(duì)象邊界??臻g分割則可以得到準(zhǔn)確的對(duì)象邊界,但很難自動(dòng)得到語(yǔ)義對(duì)象區(qū)域。閾值法、聚類法以及分水嶺變換等都可實(shí)現(xiàn)空間分割,其中,分水嶺算法就是一種常用的基于區(qū)域的分割方法,可以得到一致性很好的均勻區(qū)域,本文將采用分水嶺算法作為空域分割方法。
1.分水嶺算法的基本思想
分水嶺算法主要利用圖像梯度值的不同,形成不同高度的堤壩,然后仿照流水的過(guò)程,分配各像素值到不同的“流域”內(nèi),形成不同的分割區(qū)域。為了便于處理,在實(shí)際中,梯度值一般用形態(tài)學(xué)梯度計(jì)算。圖3-10是分水嶺算法的原理示意圖。圖3-10分水嶺算法的原理示意圖假設(shè)待分割對(duì)象是由不連續(xù)的物體組成的,則形態(tài)學(xué)梯度將由“深度”不同的區(qū)域組成。圖中的不同深度區(qū)域?qū)?yīng)不同的圖像梯度。分水線就是明顯不同的梯度的交匯線,注水盆地則對(duì)應(yīng)著梯度的極小值。對(duì)于一個(gè)給定的極小區(qū)域,水珠則會(huì)滾入該區(qū)域的所有點(diǎn)構(gòu)成的集合,可以稱之為該極小區(qū)域的集水域或流域。對(duì)流域變換也可以換一個(gè)角度看,即不從水珠流入?yún)^(qū)域的角度而從水溢出的角度看。假?zèng)]注水盆的底部有一個(gè)小孔,水從這個(gè)小孔注入時(shí)不同流域的水面都將不斷提高而將要匯合在一起。為防止不同流域的水相互混合,需要筑起一條壩,堤壩即對(duì)應(yīng)著流域的分界線。
2.分水嶺算法的計(jì)算方法
Beucher和Lanturjoul最先提出了基于“浸沒(méi)”模型的分水嶺算法,在已知區(qū)域最小的前提下,在每個(gè)區(qū)域最小值影響的區(qū)域(InfluenceZones)內(nèi),通過(guò)形態(tài)學(xué)厚化運(yùn)算,逐步擴(kuò)展所影響的區(qū)域范圍,最后得到分水嶺線。但是該算法在計(jì)算的過(guò)程中,當(dāng)同一區(qū)域呈環(huán)形時(shí),就可能產(chǎn)生錯(cuò)誤的分水嶺線,并且因?yàn)樵诿恳淮味岛窕倪^(guò)程中,都必須將所有的像素掃描一次,所以這種算法的效率是非常低的。
Friedlander提出了一種有序算法。這類算法按照預(yù)先規(guī)定的順序?qū)D像進(jìn)行掃描,在掃描的過(guò)程中每個(gè)像素的新的值可能會(huì)對(duì)下一個(gè)像素的新的值的計(jì)算產(chǎn)生影響。整個(gè)算法必須有一個(gè)初始化的步驟,生成“主要蓄水盆地(BroadCatchmentBasin)”。擁有區(qū)域最小值M的主要蓄水盆地是一些像素的集合,從像素M開始,經(jīng)過(guò)一個(gè)非降的浸沒(méi)過(guò)程可以到達(dá)這些像素。圖像中的任何一個(gè)像素都至少屬于一個(gè)主要蓄水盆地,而兩個(gè)或兩個(gè)以上的主要蓄水盆地重疊的區(qū)域就稱為“分水嶺區(qū)域”,這些區(qū)域組成了“受限蓄水盆地(RestrictedCatchmentBasin)”。最后,可以通過(guò)SKIZ(受影響區(qū)域的骨架提取,SkeletonbyInfluenceZones)得到分水嶺線。整個(gè)過(guò)程是相當(dāng)快的,因?yàn)槊恳粋€(gè)步驟都是有序進(jìn)行的。另外,在算法中對(duì)每個(gè)蓄水盆地都進(jìn)行了標(biāo)記編號(hào),所以可以避免Beucher和Lanturjoul算法中同一區(qū)域呈環(huán)形時(shí)產(chǎn)生的分水線錯(cuò)誤,但該算法獲取的分水嶺線位置可能會(huì)不正確,有時(shí)甚至不在圖像的脊線(Crest-lines)上。
LucVincent考慮到在運(yùn)算過(guò)程中的每一步都只有少量的像素發(fā)生變化的特點(diǎn),將算法分為兩個(gè)步驟:排序和浸水淹沒(méi)。排序是按照?qǐng)D像中像素的灰度值進(jìn)行從小到大的分類,具有相同灰度值的像素被存儲(chǔ)在一個(gè)鏈表中,以方便對(duì)同一灰度級(jí)像素的隨機(jī)訪問(wèn),這樣為接下來(lái)的浸水淹沒(méi)過(guò)程提供了方便。浸水淹沒(méi)過(guò)程是當(dāng)水由區(qū)域最小值逐漸進(jìn)入由圖像表示的地形曲面時(shí),計(jì)算當(dāng)前灰度級(jí)的測(cè)地影響區(qū)。假設(shè)高度小于等于h的像素所屬的盆地已經(jīng)標(biāo)記出來(lái),則處理高度為h+1的像素時(shí),將這一層中與已標(biāo)記的匯水盆地相鄰的像素放入一個(gè)先進(jìn)先出的存儲(chǔ)隊(duì)列。再由這些像素開始,根據(jù)測(cè)地距離將已經(jīng)標(biāo)記的匯水盆地?cái)U(kuò)展至h+1層。這樣,只剩下高度為h+1的區(qū)域最小值沒(méi)有被標(biāo)記,它們與己經(jīng)標(biāo)記出來(lái)的匯水盆地均不鄰接。最后,再通過(guò)一次二維掃描,將h+1層中可能存在的區(qū)域最小值標(biāo)記為新的標(biāo)號(hào)。在最終的分割結(jié)果中,具有同一標(biāo)號(hào)的像素屬于同一個(gè)匯水盆地,而距離不同匯水盆地相等的像素就構(gòu)成分水線。使用這種方法計(jì)算一幅256×256大小圖像的分水嶺大約只需要幾秒鐘,相比前面介紹的算法而言,效率很高。這種算法對(duì)于4-連通、6-連通或是8-連通的圖像來(lái)說(shuō)是通用的,甚至可以推廣到任意一種網(wǎng)格。使用這種算法計(jì)算分水嶺可以推廣到N維的圖像。并且因?yàn)榻o每個(gè)蓄水盆地進(jìn)行了標(biāo)記,這種算法計(jì)算的精確度也是相當(dāng)高的。分水嶺算法盡管可得到較為一致的平滑區(qū)域,但卻容易出現(xiàn)“過(guò)分割”現(xiàn)象,這會(huì)造成出現(xiàn)較多的小區(qū)域。通常分水嶺算法執(zhí)行在梯度圖像上,如果要減輕過(guò)分割現(xiàn)象,一個(gè)直接簡(jiǎn)單的方法就是需要對(duì)一些極小點(diǎn)進(jìn)行抑制,從而減小區(qū)域的數(shù)量。對(duì)于所期望的目標(biāo)區(qū)域,也需要利用一些知識(shí)對(duì)其進(jìn)行強(qiáng)調(diào),從而使分水嶺算法能夠得到較好的分割結(jié)果。
對(duì)Tennis第1幀圖像用分水嶺分割,結(jié)果如圖3-11所示。圖3-11Tennis第1幀圖像分水嶺分割結(jié)果3.3.3時(shí)/空融合分割
常見(jiàn)的時(shí)間分割信息和空間分割信息融合方法之一是對(duì)多個(gè)特征采用馬爾可夫建模,然后進(jìn)行優(yōu)化求解,但存在計(jì)算量大的缺點(diǎn)。
由于前面已通過(guò)時(shí)間分割得到了視頻對(duì)象的大致區(qū)域,又通過(guò)空間分割得到了視頻對(duì)象的一致區(qū)域的準(zhǔn)確邊界,因此可采用比重法進(jìn)行時(shí)空分割信息融合,即將空間分割后得到的區(qū)域向時(shí)間分割得到的視頻對(duì)象區(qū)域進(jìn)行投影,如果其像素?cái)?shù)與屬于時(shí)間分割所標(biāo)識(shí)的區(qū)域像素之比高于某一預(yù)設(shè)置閾值Th,則可認(rèn)為此區(qū)域?qū)儆谝曨l對(duì)象,然后合并所有的此類區(qū)域,即可得到視頻對(duì)象。這種方法的實(shí)質(zhì)是時(shí)間分割提供了語(yǔ)義對(duì)象的大致范圍,而通過(guò)空間分割得到語(yǔ)義對(duì)象的準(zhǔn)確邊界。通常,閾值Th的選取與具體的圖像序列中包含的陰影、噪聲等有關(guān),還與空間區(qū)域的閾值有關(guān)。經(jīng)過(guò)比重法判斷后,仍然會(huì)出現(xiàn)部分視頻運(yùn)動(dòng)對(duì)象區(qū)域丟失以及把背景區(qū)域誤判為運(yùn)動(dòng)區(qū)域的情況,因此還需要后處理。使用小區(qū)域去除的方法把誤判的背景區(qū)域去除掉,再使用形態(tài)結(jié)構(gòu)的閉運(yùn)算及填充運(yùn)算得到完整的視頻運(yùn)動(dòng)對(duì)象。
使用時(shí)空聯(lián)合分割方法對(duì)Akyio序列進(jìn)行分割,實(shí)驗(yàn)結(jié)果如圖3-12所示。圖3-12Akyio序列分割實(shí)驗(yàn)結(jié)果
Akyio序列是一種典型的頭肩序列,背景較復(fù)雜但基本不動(dòng),而僅僅人有較小的運(yùn)動(dòng),從圖中可以看出時(shí)域檢測(cè)的運(yùn)動(dòng)區(qū)域準(zhǔn)確,空間也得到了較準(zhǔn)確的分割,所以得到了較好的分割結(jié)果。
3.4交互式視頻對(duì)象分割
通常,自動(dòng)分割算法只適合較簡(jiǎn)單的場(chǎng)景以及特定的視頻序列。它的分割速度雖然較快,但分割結(jié)果的質(zhì)量不一定能達(dá)到滿意的要求。這主要有兩個(gè)原因:一方面,視頻對(duì)象很難由低級(jí)特性(如顏色、直方圖及運(yùn)動(dòng)特性)來(lái)描述,而自動(dòng)分割算法依據(jù)視頻內(nèi)容的時(shí)空一致性,不能真正理解視頻序列中有語(yǔ)義意義的視頻內(nèi)容;另一方面,現(xiàn)有大多數(shù)自動(dòng)分割算法對(duì)運(yùn)動(dòng)對(duì)象輪廓的獲取是通過(guò)區(qū)域的分裂與合并實(shí)現(xiàn)的,這樣會(huì)使運(yùn)動(dòng)對(duì)象輪廓多出或丟失一些小的區(qū)域,而人眼的視覺(jué)對(duì)視頻對(duì)象的輪廓極其敏感,所以通過(guò)自動(dòng)分割獲得的運(yùn)動(dòng)對(duì)象輪廓精度有時(shí)候不一定能夠滿足MPEG-4的交互式應(yīng)用的要求。引入人機(jī)交互的半自動(dòng)視頻分割(以下簡(jiǎn)稱為半自動(dòng)分割)由于可借助人機(jī)交互來(lái)協(xié)助定義視頻對(duì)象的輪廓及位置、所選擇的跟蹤對(duì)象是剛性還是柔性等,往往可以取得較好的效果。在一些沒(méi)有實(shí)時(shí)性要求的系統(tǒng)中,如多媒體制作和基于內(nèi)容的視頻檢索等,半自動(dòng)分割更為合適。因此,半自動(dòng)的分割算法近年來(lái)得到了越來(lái)越多的重視。
交互式語(yǔ)義對(duì)象分割一般包括相互關(guān)聯(lián)的兩個(gè)步驟,即在某些關(guān)鍵幀(通常為初始幀或者需要進(jìn)行對(duì)象修正的幀)通過(guò)簡(jiǎn)單的用戶交互分割出用戶感興趣的任意對(duì)象,而在其他幀則利用對(duì)象的幀間相關(guān)性,依靠對(duì)象跟蹤算法來(lái)完成對(duì)象的分割。3.4.1初始對(duì)象輪廓提取
關(guān)鍵幀中的感興趣對(duì)象分割,可以使用靜態(tài)圖像的交互式分割工具來(lái)完成。目前流行的圖像編輯軟件(如PhotoShop)中提供了MagicWand和MagicLasso(也稱為IntelligentScissors),兩種成熟的交互式分割工具,但它們都需要用戶在對(duì)象內(nèi)部或者對(duì)象輪廓附近選擇多個(gè)種子點(diǎn),而且需要用戶自始至終參與整個(gè)分割過(guò)程。此外,前者在對(duì)象和背景的顏色分布有重疊的情況下很難分割出滿意的對(duì)象;而后者對(duì)于紋理豐富的區(qū)域需要用戶提供較多的種子點(diǎn)來(lái)不斷修正對(duì)象輪廓。近年來(lái)的交互式對(duì)象分割研究中,用戶交互方式一般是由用戶勾勒出對(duì)象的大致輪廓或者用矩形和多邊形圈定對(duì)象的大致區(qū)域,生成一幅三值圖(Trimap)以區(qū)分對(duì)象區(qū)域、背景區(qū)域和界于對(duì)象和背景之間的不確定區(qū)域。一種直接的分割策略就是根據(jù)顏色或紋理的相似性將不確定區(qū)域依次合并到對(duì)象或背景區(qū)域中,一般采取種子區(qū)域生長(zhǎng)算法,雖然計(jì)算簡(jiǎn)單,但用戶交互的工作量較大,對(duì)于復(fù)雜圖像的分割精度較低,而且用戶無(wú)法控制最終的分割結(jié)果。另一種間接的分割策略就是分別建立對(duì)象和背景的顏色分布模型,通過(guò)概率估計(jì)來(lái)決定不確定區(qū)域內(nèi)像素的歸屬。BayesMatting方法通過(guò)計(jì)算出不確定區(qū)域內(nèi)像素的alpha值(透明度)來(lái)表示其屬于對(duì)象或者背景的概率,適合于不確定區(qū)域相對(duì)較小且具有較大差異的兩類顏色分布模型。GraphCut方法將對(duì)象分割問(wèn)題轉(zhuǎn)換為有向加權(quán)圖的切割問(wèn)題,采用圖的最大流(Max-flow)算法完成圖的切割,將原始圖像分割成對(duì)象和背景。GrabGut方法則將對(duì)象分割問(wèn)題轉(zhuǎn)化為一個(gè)能量最小化問(wèn)題加以解決,并允許用戶可自由地對(duì)對(duì)象的局部邊界進(jìn)行修正和平滑,以任意精度接近用戶期望的分割結(jié)果。3.4.2對(duì)象跟蹤
對(duì)于視頻序列,其余幀的對(duì)象分割可通過(guò)對(duì)上述交互式分割得到的對(duì)象進(jìn)行跟蹤來(lái)完成。對(duì)象跟蹤可以基于對(duì)象區(qū)域的投影來(lái)進(jìn)行,首先對(duì)對(duì)象區(qū)域進(jìn)行運(yùn)動(dòng)估計(jì)或者利用更復(fù)雜的參數(shù)運(yùn)動(dòng)模型進(jìn)行投影以得到對(duì)象在當(dāng)前幀的投影區(qū)域,然后修正投影區(qū)域的輪廓以獲得具有準(zhǔn)確邊界的視頻對(duì)象。利用上述對(duì)象投影策略同樣可以獲得對(duì)象的種子區(qū)域,然后對(duì)種子區(qū)域進(jìn)行生長(zhǎng)以得到完整的對(duì)象區(qū)域,或者同時(shí)考慮對(duì)背景區(qū)域進(jìn)行投影,以兩個(gè)投影區(qū)域作為種子區(qū)域進(jìn)行生長(zhǎng)和分裂來(lái)得到最終的對(duì)象。上述的區(qū)域投影可以看作是前向投影,即將已有的對(duì)象或者其分割區(qū)域向當(dāng)前幀投影,也可將當(dāng)前幀的分割區(qū)域進(jìn)行后向投影,根據(jù)每個(gè)投影區(qū)域與前一幀對(duì)象相交面積的多少來(lái)判斷它是否屬于當(dāng)前幀對(duì)象,還能夠結(jié)合前向投影和在像素級(jí)上的后向投影以提高分割的精度和效率。對(duì)象跟蹤同樣可以利用對(duì)象的邊緣特征或輪廓特征來(lái)實(shí)現(xiàn),如對(duì)對(duì)象的邊緣模型在當(dāng)前幀進(jìn)行投影和距離變換得到其膨脹后的區(qū)域,然后對(duì)膨脹區(qū)域的彩色直方圖進(jìn)行反向映射后得到當(dāng)前幀對(duì)象;也可在投影對(duì)象的邊界區(qū)域上通過(guò)模板匹配使對(duì)象輪廓精確化;一些文獻(xiàn)則引入了分割質(zhì)量的反饋來(lái)自適應(yīng)地調(diào)整對(duì)象的每段輪廓;采用基于水平集的曲線演化方法也能保證分割遮擋對(duì)象輪廓的可靠性。為了增強(qiáng)分割的對(duì)象在整個(gè)序列上時(shí)空域的一致性和連貫性,對(duì)象分割可以在Bayesian框架下轉(zhuǎn)變?yōu)橐粋€(gè)最大化后驗(yàn)概率(MAP)的問(wèn)題。首先以空域分割的各個(gè)區(qū)域?yàn)榻Y(jié)點(diǎn)構(gòu)造滿足區(qū)域鄰接關(guān)系的馬爾可夫模型,以時(shí)空分割結(jié)果和其他約束條件作為能量函數(shù)項(xiàng),通過(guò)最小化能量函數(shù)(即最大化后驗(yàn)概率)來(lái)標(biāo)記每個(gè)分割區(qū)域,最后將具有相同標(biāo)記的區(qū)域組合成一個(gè)個(gè)對(duì)象。能量函數(shù)項(xiàng)可以采用不同對(duì)象的參數(shù)運(yùn)動(dòng)模型之間的誤差、對(duì)象在空域的顏色一致性和時(shí)域的運(yùn)動(dòng)一致性或者鄰接像素或區(qū)域標(biāo)記的一致性。
圖3-13顯示了Trevor序列交互式分割結(jié)果,圖(a)是交互式提取的運(yùn)動(dòng)對(duì)象輪廓,圖(b)和(c)給出了采用區(qū)域投影和輪廓修正得到的分割結(jié)果。Trevor序列是典型的頭肩序列,背景相對(duì)靜止,前景變化小,從實(shí)驗(yàn)結(jié)果可看出,提取的對(duì)象輪廓以及分割結(jié)果都較準(zhǔn)確。圖3-13Trevor序列交互式分割結(jié)果
3.5壓縮域視頻對(duì)象分割
在壓縮域內(nèi)進(jìn)行視頻對(duì)象分割,與像素域內(nèi)的分割方法相比更適合實(shí)際應(yīng)用的需要。鑒于實(shí)際應(yīng)用中的大多數(shù)視頻序列已經(jīng)壓縮為某種格式,直接在壓縮域內(nèi)進(jìn)行視頻對(duì)象分割,可免除對(duì)壓縮視頻進(jìn)行完全解碼;而且,從壓縮視頻中僅通過(guò)熵解碼提取出的運(yùn)動(dòng)矢量(motionvector)和DCT系數(shù),可直接用作對(duì)象分割所需的運(yùn)動(dòng)特征和紋理特征,這些在宏塊(macroblock)或塊(block)級(jí)別上提取的特征使得所需處理的數(shù)據(jù)量要比像素域少很多,從而顯著降低了分割算法的計(jì)算量。因此,從壓縮域分割視頻對(duì)象具有快速的特點(diǎn),適合具有實(shí)時(shí)性要求的應(yīng)用場(chǎng)合,可解決像素域分割方法難以滿足實(shí)時(shí)分割的要求,但想要達(dá)到像素級(jí)的分割精度,通常還需要將對(duì)象中的邊界塊完全解碼后在像素域內(nèi)進(jìn)行邊緣細(xì)化等后處理工作。3.5.1MPEG壓縮域的視頻對(duì)象分割
MPEG視頻壓縮的基本思想是消除幀內(nèi)的空間冗余和幀間的時(shí)間冗余。MPEG壓縮方案分別對(duì)I(幀內(nèi))、P(前向預(yù)測(cè))和B(雙向預(yù)測(cè))幀的比特流進(jìn)行轉(zhuǎn)換。I幀作為單獨(dú)的圖像進(jìn)行編碼,不需要參考幀,在初始幀保存DCT信息,而P幀和B幀存儲(chǔ)運(yùn)動(dòng)信息和運(yùn)動(dòng)補(bǔ)償后的殘差。編碼時(shí)先用DCT將塊由空間域轉(zhuǎn)換成頻域,把信號(hào)分離到獨(dú)立的頻帶,信號(hào)能量一般集中在DCT的低頻部分,反映紋理的平穩(wěn)變化;DCT的高頻部分反映紋理的劇烈變化。直流系數(shù)DC顯示宏塊的平均顏色;運(yùn)動(dòng)矢量(MV)通過(guò)測(cè)量參考?jí)K與當(dāng)前塊匹配程度,然后取其cost最小的來(lái)獲得。從MPEG的編碼原理可以看出,MV和DCT系數(shù)兩個(gè)特征參量是視頻序列被壓縮后的主要信息載體,因此自然成為MPEG壓縮域進(jìn)行視頻對(duì)象分割的主要依據(jù)。圍繞是否使用和如何使用這兩個(gè)特征參量實(shí)現(xiàn)MPEG壓縮域視頻對(duì)象分割,將其分為基于MV分割、基于DCT系數(shù)分割和結(jié)合兩者的3種算法。
1.基于MV的分割算法
MV可看作MPEG壓縮域中對(duì)光流場(chǎng)的粗糙近似。由于運(yùn)動(dòng)矢量場(chǎng)(MVF)中常會(huì)存在一些因量化造成的噪聲或偽矢量,因此對(duì)MVF要先進(jìn)行預(yù)處理,盡可能抑制其中的偽矢量后再用各種對(duì)MV的聚類算法提取運(yùn)動(dòng)一致性區(qū)域。在一些早期的算法中,聚類只是簡(jiǎn)單憑借MV的大小和夾角完成對(duì)噪聲濾除和區(qū)域合并。在對(duì)后續(xù)幀跟蹤時(shí),利用前后幀的MV相似性,并用計(jì)算前后幀中被標(biāo)定對(duì)象的宏塊數(shù)量與整體的比例上是否過(guò)大,來(lái)判斷是同一對(duì)象還是出現(xiàn)新的對(duì)象。這些方法簡(jiǎn)單易行,但效果欠佳。有些方法在預(yù)處理時(shí),使用基于標(biāo)準(zhǔn)矢量中值濾波(SVM)的噪聲自適應(yīng)軟轉(zhuǎn)換中值濾波(NASM)方法,可有效消除噪聲干擾和保存正確的運(yùn)動(dòng)矢量。這種方法按照運(yùn)動(dòng)矢量的角度、大小及與周圍運(yùn)動(dòng)矢量的聯(lián)系,把運(yùn)動(dòng)矢量分為真實(shí)運(yùn)動(dòng)矢量、獨(dú)立不規(guī)則運(yùn)動(dòng)矢量、非獨(dú)立不規(guī)則運(yùn)動(dòng)矢量和邊緣運(yùn)動(dòng)矢量4種,以便有效去除偽矢量。之后用“無(wú)偏模糊聚類算法”給出視頻對(duì)象在空間的大致位置,再用“雙向運(yùn)動(dòng)跟蹤”修正上一步驟中出現(xiàn)的過(guò)分割、欠分割、不完全分割和錯(cuò)分割等問(wèn)題。其結(jié)果雖標(biāo)定出視頻對(duì)象的大致位置,但提取出的運(yùn)動(dòng)對(duì)象輪廓仍不夠準(zhǔn)確。有些算法用基于雙線性運(yùn)動(dòng)模型的迭代拒絕方法來(lái)進(jìn)行前景/背景的分割,通過(guò)檢測(cè)迭代拒絕輸出的時(shí)域一致性將得到的前景宏塊聚類成連通區(qū)域,最終進(jìn)行區(qū)域跟蹤,構(gòu)成有意義的前景時(shí)空對(duì)象。還用一些算法將經(jīng)典的EM迭代算法引入MPEG域視頻對(duì)象分割領(lǐng)域,提出一種能自動(dòng)估計(jì)對(duì)象數(shù)量并獨(dú)立提取運(yùn)動(dòng)對(duì)象的方法。先經(jīng)若干幀累積運(yùn)動(dòng)矢量并通過(guò)空間插值得到稠密的運(yùn)動(dòng)矢量,再用K-means聚類處理來(lái)確定運(yùn)動(dòng)模型的數(shù)量,然后用EM算法完成分割,并在時(shí)域上跟蹤已分割的對(duì)象得到視頻對(duì)象。最后,為得到視頻對(duì)象較好的邊緣,對(duì)其中經(jīng)過(guò)對(duì)象邊緣的塊及其8個(gè)鄰接塊進(jìn)行解碼,以使邊緣塊內(nèi)的像素被分類給正確的對(duì)象。
2.基于DCT系數(shù)的分割算法
DCT系數(shù)包含了變換后的空間信息,大多使用I幀DCT系數(shù)分割的都用它的DC圖像和AC能量分布的變化來(lái)定位運(yùn)動(dòng)物體,以及檢測(cè)其紋理和邊緣。早在1997年,就提出一種從MPEG壓縮碼流中快速確定人臉的算法,用皮膚色度的統(tǒng)計(jì)數(shù)據(jù)以及形狀和亮度DCT系數(shù)的能量分布確定人臉區(qū)域。但它不能實(shí)現(xiàn)輪廓提取和人臉識(shí)別,僅用于快速人臉檢測(cè)。有些文獻(xiàn)采用自適應(yīng)K均值算法將色彩信息進(jìn)行空間聚類為多個(gè)不同的勻質(zhì)區(qū)域,之后按區(qū)域間時(shí)空信息的相似程度進(jìn)行區(qū)域合并,再按照區(qū)域的平均變化量分為運(yùn)動(dòng)區(qū)域或背景區(qū)域。其中,區(qū)域合并時(shí),綜合了“強(qiáng)時(shí)空相似性”和“區(qū)域內(nèi)的平均時(shí)間變化量”這兩個(gè)合并參考量,而空間相似性主要依據(jù)亮度信息,AC能量的熵的大小、時(shí)間變化則由3DSobelFilter檢測(cè)時(shí)間梯度得到。最后對(duì)運(yùn)動(dòng)區(qū)域的邊緣塊進(jìn)行部分解碼,以使前景視頻對(duì)象邊緣精確到像素級(jí)。但該算法因沒(méi)有利用P幀間運(yùn)動(dòng)矢量,在上述過(guò)程中分割各個(gè)對(duì)象需要預(yù)設(shè)大量的閾值。
3.結(jié)合MV與DCT系數(shù)的分割算法
該方法將DCT系數(shù)的使用作為在對(duì)分割精度有進(jìn)一步要求時(shí)對(duì)基于MV分割的一種補(bǔ)充。在沿用MV的分割算法中去除偽矢量、獲得正確MV的基礎(chǔ)上,在聚類時(shí)提出一種新的“最大熵模糊聚類算法”將不同的塊聚類成勻質(zhì)區(qū)域。當(dāng)進(jìn)一步要求提取精確輪廓時(shí),采用DCT系數(shù)中的顏色信息和DC系數(shù)來(lái)進(jìn)行分割。先用一個(gè)二狀態(tài)運(yùn)動(dòng)學(xué)模型確定要精確輪廓的“感興趣區(qū)域”,然后依據(jù)上一步MV的標(biāo)定結(jié)果,仍用最大熵模糊聚類算法對(duì)DC系數(shù)進(jìn)行分割,找出最適合的塊數(shù)目。由于引入DC系數(shù)信息彌補(bǔ)基于稀疏的MV運(yùn)動(dòng)分割的不足,分割效果有了較大改善。但因未解決以8×8塊作為一個(gè)運(yùn)動(dòng)矢量而使MV過(guò)于稀疏的問(wèn)題,在分割精度上的改善有限。為此,提出了改進(jìn)方法進(jìn)一步將運(yùn)動(dòng)和頻率信息融合。先將MPEG流解析成DCT系數(shù)和運(yùn)動(dòng)矢量,構(gòu)造三維的頻率-時(shí)間的數(shù)據(jù)結(jié)構(gòu)(該結(jié)構(gòu)使用包含幀切換的I幀、P幀的多圖像組),每個(gè)GOP由符合I幀中塊的矢量層表示。每個(gè)矢量由一些選定的DCT系數(shù)和一組運(yùn)動(dòng)矢量集組成。提出了積的概念,當(dāng)視頻的鄰接區(qū)域DCT系數(shù)和運(yùn)動(dòng)參量一致時(shí)積增大,對(duì)鄰近區(qū)域有最小的紋理和梯度的塊賦值,以提高產(chǎn)生連貫積的可能性。之后為每個(gè)積建立合適的運(yùn)動(dòng)模型,最后用描述符把相似的積融合起來(lái)(由粗到精的分層聚類迭代算法),得到分層的對(duì)象分割樹。并在累積MV的過(guò)程中使用“后向迭代投影算法”,以有效去除噪聲干擾。上述將運(yùn)動(dòng)信息和頻率信息融合的思想也體現(xiàn)在構(gòu)建統(tǒng)一的時(shí)空掩模上,再如一些算法采用MV形成運(yùn)動(dòng)掩模,用DC圖像形成空間掩模,然后通過(guò)一個(gè)閾值判決將兩個(gè)掩模統(tǒng)一起來(lái)描述運(yùn)動(dòng)對(duì)象。還可用中值濾波對(duì)MV進(jìn)行預(yù)處理,之后對(duì)MV進(jìn)行閾值分割形成運(yùn)動(dòng)掩模,用低分辨率DC圖像進(jìn)行閾值分割形成背景掩模,再將兩掩模的矩陣相乘作為分割的最終掩模。此算法還可在沒(méi)有運(yùn)動(dòng)跟蹤的情況下解決遮擋問(wèn)題。
上述3類方法的優(yōu)缺點(diǎn)列于表3-1中。3.5.2H.264壓縮域的視頻對(duì)象分割
目前,在H.264壓縮域進(jìn)行運(yùn)動(dòng)對(duì)象分割的研究還很少?;贛PEG壓縮域中的視頻分割主要基于從壓縮視頻流中提取的DCT系數(shù)和運(yùn)動(dòng)場(chǎng)。但是對(duì)于H.264視頻來(lái)說(shuō),由于其DCT系數(shù)采用了幀內(nèi)預(yù)測(cè)的模式,所以每個(gè)塊的DCT系數(shù)實(shí)際上是殘差DCT系數(shù)。這與MPEG視頻不同,MPEG視頻中的DCT系數(shù)是基于原始?jí)K作變換得到的。因此原有的基于MPEG壓縮域DCT系數(shù)的分割方法不能在H.264壓縮域中使用,若確實(shí)要使用的話,必須首先進(jìn)行幀內(nèi)補(bǔ)償,這樣不僅增加了處理開銷,而且破壞了數(shù)據(jù)的壓縮格式。正是因?yàn)槿绱?,在H.264壓縮域中進(jìn)行分割所能使用的信息非常有限。另一方面,在像素域中進(jìn)行分割由于可以使用灰度、顏色、紋理等豐富的信息,因此在分割方法的選擇上有很大的余地,而H.264壓縮域中的分割由于是基于矢量場(chǎng),很多像素域中的分割方法都不能應(yīng)用,這增加了研究的難度。此外,由于壓縮域的運(yùn)動(dòng)場(chǎng)是基于宏塊最佳匹配的規(guī)則生成的,不能完全反映物體的真實(shí)運(yùn)動(dòng),即這個(gè)運(yùn)動(dòng)場(chǎng)不是完全可靠的矢量場(chǎng),它包含許多噪聲運(yùn)動(dòng)矢量,這給提高最后的分割質(zhì)量造成了很大的困難。但是,直接在H.264壓縮域中分割能夠有效地避免將壓縮視頻完全解碼,減少處理時(shí)間,有利于滿足實(shí)時(shí)處理的要求?;贖.264壓縮域的視頻對(duì)象分割目前的主要方法有:
1.基于熵模型
該方法首先建立運(yùn)動(dòng)對(duì)象在空間和時(shí)間上的一致性模型,然后采用最大熵方法自適應(yīng)獲得閾值,從而將運(yùn)動(dòng)對(duì)象檢測(cè)出來(lái)。
2.基于MRF模型
該方法利用基于塊的MRF模型從
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國(guó)鵝養(yǎng)殖行業(yè)競(jìng)爭(zhēng)格局及投資戰(zhàn)略研究報(bào)告
- 衛(wèi)生陶瓷生產(chǎn)設(shè)備升級(jí)與改造考核試卷
- 健身器材行業(yè)市場(chǎng)競(jìng)爭(zhēng)力提升路徑探索實(shí)踐考核試卷
- 2025年度生物科技項(xiàng)目入股合同協(xié)議書
- 2025年度創(chuàng)意園區(qū)物業(yè)管理委托合同
- 化肥行業(yè)宏觀經(jīng)濟(jì)分析考核試卷
- 體育經(jīng)紀(jì)人與運(yùn)動(dòng)員退役生活規(guī)劃考核試卷
- 體育場(chǎng)館體育賽事現(xiàn)場(chǎng)媒體中心運(yùn)營(yíng)考核試卷
- 國(guó)際公證合作實(shí)踐考核試卷
- 安全意識(shí)宣傳活動(dòng)策劃及實(shí)施方案考核試卷
- 2025年河北供水有限責(zé)任公司招聘筆試參考題庫(kù)含答案解析
- Unit3 Sports and fitness Discovering Useful Structures 說(shuō)課稿-2024-2025學(xué)年高中英語(yǔ)人教版(2019)必修第一冊(cè)
- 農(nóng)發(fā)行案防知識(shí)培訓(xùn)課件
- 武漢東湖賓館建設(shè)項(xiàng)目委托代建合同
- 安徽大學(xué)大學(xué)生素質(zhì)教育學(xué)分認(rèn)定辦法
- 巴布亞新幾內(nèi)亞離網(wǎng)光儲(chǔ)微網(wǎng)供電方案
- 高度限位裝置類型及原理
- 中文版gcs electrospeed ii manual apri rev8v00印刷稿修改版
- 新生兒預(yù)防接種護(hù)理質(zhì)量考核標(biāo)準(zhǔn)
- 除氧器出水溶解氧不合格的原因有哪些
- 沖擊式機(jī)組水輪機(jī)安裝概述與流程
評(píng)論
0/150
提交評(píng)論