




已閱讀5頁,還剩57頁未讀, 繼續(xù)免費(fèi)閱讀
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)視頻語義特征提取算法研究.pdf.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
復(fù)旦大學(xué)碩士學(xué)位論文 摘要 多媒體技術(shù)的發(fā)展產(chǎn)生了大量的多媒體數(shù)據(jù),多媒體壓縮技術(shù)和迅速擴(kuò)張的 互聯(lián)網(wǎng)便利了多媒體數(shù)據(jù)的存儲及傳輸。多媒體數(shù)據(jù)形式多樣,包括文本、圖像、 音頻和視頻等。隨著多媒體數(shù)據(jù)量的急劇增加,傳統(tǒng)的基于文本的多媒體信息檢 索越來越不能滿足應(yīng)用的需要,人們希望計(jì)算機(jī)能夠自動地對多媒體數(shù)據(jù)的內(nèi)容 進(jìn)行分析、根據(jù)分析結(jié)果進(jìn)行檢索,也就是基于內(nèi)容的多媒體信息檢索。 視頻是多媒體數(shù)據(jù)的一個(gè)重要組成部分,具有區(qū)別于其它多媒體數(shù)據(jù)的特 性。視頻的組成復(fù)雜,包含有文本、音頻和圖像等多方面的信息,視頻還同時(shí)涉 及時(shí)間域和空間域,由此帶來了視頻分析的復(fù)雜性。面對越來越多的海量視頻數(shù) 據(jù),如何從中找到所需的視頻片斷( 鏡頭或場景) 成為一個(gè)日趨迫切的問題。因 此,基于內(nèi)容的視頻檢索獲得了越來越多的關(guān)注。 視頻語義特征提取是基于內(nèi)容的視頻檢索中的一個(gè)關(guān)鍵環(huán)節(jié)。視頻語義特征 提取的任務(wù)就是將底層物理特征映射到視頻語義特征,實(shí)現(xiàn)對視頻的自動語義標(biāo) 注。視頻具有時(shí)空特性,圖像幀從空間域描述了視頻內(nèi)容,視頻運(yùn)動則從時(shí)間域 描述了視頻內(nèi)容。目前,相關(guān)的視頻語義特征提取的工作主要集中于t r e c v i d , m m 和c m u 等研究機(jī)構(gòu)在此評測中取得了較好的成績。但是,底層物理特征和 視頻語義特征之間仍然存在著“語義鴻溝”,視頻語義特征的提取方法仍然不夠 成熟,需要進(jìn)一步的研究和探討。 本文就視頻語義特征提取中的兩方面問題,視頻運(yùn)動分析和高層語義特征提 取,分別進(jìn)行了討論并提出了新的相關(guān)算法。 視頻運(yùn)動分析是將光流場( o f f ) 或運(yùn)動向量場( m v f ) 的特征映射到具體的運(yùn) 動類型。運(yùn)動類型是從時(shí)間域描述視頻內(nèi)容,反映視頻語義。傳統(tǒng)的視頻運(yùn)動分 析假設(shè)物體運(yùn)動或者是相機(jī)運(yùn)動主導(dǎo)了視頻運(yùn)動,在分析此種假設(shè)不合理的基礎(chǔ) 之上,我們闡述了判斷視頻運(yùn)動起因的必要性和可能性,提出了新的視頻運(yùn)動分 析框架,并給出了一種利用運(yùn)動向量相互關(guān)系判斷運(yùn)動起因的算法。 高層語義特征提取是將底層物理特征映射到高層語義特征。視頻局部高層語 義特征,即物體特征,描述的是圖像幀中的物體,是圖像幀的一個(gè)局部??紤]到 物體本身以及物體所處的特定場景所具有的視覺特點(diǎn),我們提出一種將圖像幀的 局部信息和全局信息結(jié)合起來提取視頻局部高層語義特征的算法。 視頻語義特征提取算法研究 復(fù)旦大學(xué)碩士學(xué)位論文 針對所提出的兩種算法,我們在t r e c v i d 2 0 0 5 的數(shù)據(jù)集上分別進(jìn)行了實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果表明了算法的有效性。 關(guān)鍵詞:基于內(nèi)容的視頻檢索;視頻語義特征;視頻運(yùn)動起因;高層語義特征; t r e c v i d ;底層物理特征;m p e g 視頻流 中圖分類號:t p 3 9 1 3 視頻語義特征提取算法研究 復(fù)旦大學(xué)碩士學(xué)位論文 v a b s t r a c t t h ed e v e l o p m e n to fm u l t i m e d i at e c h n o l o g yb r i n g sl a r g ea m o u n to fm u l t i m e d i a i n f o r m a t i o n a n dt o g e t h e rw i t ht h ec o m p r e s s i o nt e c h n o l o g y , t h ei n t e r n e ts p r e a d st h e i n f o r m a t i o nt oe v e r y w h e r ei nt h ew o r l d t h e r ea r ed i f f e r e n tk i n d so fm u l t i m e d i a i n f o r m a t i o n , s u c ha st e x t ,a u d i oa n dv i d e o d u et ot h ei n c r e a s i n gn u m b e ro f m u l t i m e d i ao b j e c t s ,t r a d i t i o n a lt e x t - b a s e dm u l t i m e d i ai n f o r m a t i o nr e t r i e v a lc a nn o t m e e tt h ed e m a n do fa p p l i c a t i o n c o m p u t e ri se x p e c t e dt ob ea b l et od e a lw i t ht h e m u l t i m e d i ao b j e c t sa n de x t r a c ts e m a n t i cf e a t u r e sa u t o m a t i c a l l yf o rt h er e t r i e v a l , w h i c hi sc a l l e dc o n t e n t - b a s e dm u l t i m e d i ai n f o r m a t i o n t r i e v a l v i d e oi sa l li m p o r t a n tc o m p o n e n to fm u l t i m e d i ai n f o r m a t i o n d i f f e r e n tf r o mo t h e r k i n d so fm u l t i m e d i ai n f o r m a t i o n ,v i d e oh a si t so w nc h a r a c t e r i s t i c s v i d e oc o n t a i n s s e v e r a lk i n d so fi n f o r m a t i o n ,i n c l u d i n gt e x t , a u d i oa n di m a g e a l s 0 9v i d e oi sn o to n l y s p a t i a lr e l a t e db u ta l s ot e m p o r a lr e l a t e da n di ti sd i f f i c u l tt oa n a l y z e h o wt of i n da s p e c i f i cv i d e oc l i pf r o mm o r ea n dm o r ev i d e od a t as e ti sap r o b l e mt ob es o l v e d a sa r e s u l t , c o n t e n t - b a s e dv i d e or e t r i e v a la t t r a c t sm o r ea n dm o r ea t t e n t i o n s e m a n t i cf e a t u r ee x t r a c t i o ni sac r i t i c a ls t e pi nc o n t e n t - b a s e dv i d e or e t r i e v a l s e m a n t i c f e a t u r ee x t r a c t i o ni st 0m a pl o w - l e v e lf e a t u r e st os e m a n t i cc o n c e p t s , a n n o t a t i n gt h e v i d e oa u t o m a t i c a l l y v i d e oi ss p a t i o - t e m p o r a l , a n di m a g ef r a m ed e s c r i b e si t sc o n t e n t f r o ms p a t i a ld i m e n s i o nw h i l em o t i o nd e s c r i b e si tf r o mt e m p o r a ld i m e n s i o n t r e c v i db e n c h m a r kc r e a t e st a s k st h a te v a l u a t et h ep e r f o r m a n c eo fs e m a n t i cf e a t u r e e x t r a c t i o nm e t h o d s m a n yi n s t i t u t i o n sh a v et a k e np a r ti nt h ee v a l u a t i o n , s u c ha s m a n dc m ua n dg r e a te f f o r t sh a v e b e e nm a d e h o w e v e r ,t h e r es t i l le x i s t sag a pb e t w e e n t h el o w - l e v e lf e a t u r e sa n ds e m a n t i cc o n c e p t s t h et e c h n o l o g yo fs e m a n t i cf e a t u r e e x t r a c t i o ns h o u l db ef u r t h e ri m p r o v e d t h ep a p e rd i s c u s s e st w op r o b l e m si nt h ef i e l do fs e m a n t i cf e a t u r ee x t r a c t i o n , v i d e o m o t i o na n a l y s i sa n dh i g h l e v e lf e a t u r ee x t r a c t i o n a l s o ,t w on o v e lr e l a t e dm e t h o d sa r e p r o p o s e d v i d e om o t i o na n a l y s i sm a p sm o t i o nv e c t o rf i e l d st om o t i o nt y p e s , w h i c hr e f l e c t s e m a n t i cc o n c e p t sf r o mt e m p o r a ld i m e n s i o n t r a d i t i o n a lv i d e om o t i o nd e t e c t i o n a l g o r i t h m so f t e na s s u m et h a te i t h e rt h eo b j e c tm o t i o no rt h ec a m e r am o t i o nh a s d o m i n a t e dt h ev i d e o a no b v i o u sd i s a d v a n t a g eo ft h i sa s s u m p t i o ni st h a tt h em o t i o n 視頻語義特征提取算法研究 復(fù)旦大學(xué)碩士學(xué)位論文 v i d e t e c t i o na l g o r i t h m sa r eo f t e nm i s l e db yi n c o r r e c tm o t i o ns o u r c e s ,a n dt h e r e f o r e d e t e r i o r a t e st h es y s t e mp e r f o r m a n c e s a na l t e r n a t i v es o l u t i o ni st oc o n d u c tv i d e o m o t i o nr e a s o n i n gb e f o r e h a n da n di d e n t i f yt h es o u r c e so ft h eu n d e d y i n gm o t i o i i ,s ot h e s u c c e e d i n gm o d e l sc a nc h a r a c t e r i z ev i d e om o t i o nw e l l c o n s i d e r i n gt h em u t u a l r e l a t i o n s h i pb e t w e e nm o t i o nv e c t o r si np f r a m e sf r o mc o m p r e s s e dv i d e os t r e a m ( c 昏, m p e g 1 2s t r e a m ) ,w ep r o p o s ea ne f f e c t i v ev i d e om o t i o nr e a s o n i n gm e t h o d h i g h - l e v e lf e a t u r e 麟仃a c t i m a p sl o w - l e v e lf e a t u r et oh i g h l e v e lf e a t u r e r e g i o n a l h i g h - l e v e lf e a t u r ed e s c r i b e st h eo b j e c ti nf r a m e s w h i c hi sar e g i o n a lp a r to f t h ef r a m e c o n s i d e r i n gt h ev i s u a lc h a r a c t e r i s t i co fo b j e c t sa n di t ss p e c i n cs c e n e ,w ep r o p o s ea m e t h o do fr e g i 衄h i g hl e v e lf e a t u r ee x t r a c t i o no nv i d e oc o m b i n i n gt h eg l o b a l i n f o r m a t i o na n dr c 舀o n a li n f o r m a t i o no ff r a m e st o g e t h e r t h et w om e t h o d sa l et e s t e do nt h et r e c v i d2 0 0 5d a t a s e ts e p a r a t e l ya n dt h e e x p e r i m e n tr e s u l t ss h o wt h ee f f e c t i v e n e s so ft h e m k e yw o r d s :c o n t e n t - b a s e dv i d e or e t r i e v a l ;v i d e os e m a n t i cf e a t u r e ;v i d e om o t i o n c a u s a t i o n ;h i g h - l e v e lf e a t u r e ;t r e c v i d ;l o w - l e v e lf e a t u r e ;m p e gv i d e os t r e a m c h i n e s el i b r a r yc l a s s i f i c a t i o n :t p3 9 1 3 視頻語義特征提取算法研究 復(fù)旦大學(xué)碩士學(xué)位論文 第1 章研究背景 本章將對視頻語義特征提取的研究背景給出一個(gè)較為詳細(xì)的概述,分為五個(gè) 部分:首先從總體上介紹多媒體信息檢索這一研究領(lǐng)域,然后著重描述了什么是 基于內(nèi)容的視頻檢索和什么是視頻語義特征,并對t r e c v i d 的工作進(jìn)行了闡述, 最后給出了本文在視頻語義特征提取方面所作的貢獻(xiàn)。 1 1 多媒體信息檢索 伴隨著信息數(shù)字化進(jìn)程和計(jì)算機(jī)技術(shù)的發(fā)展,越來越多的多媒體信息遍及于 人們的工作和生活。身處數(shù)字信息時(shí)代,面對海量的各式各樣的媒體信息對象, 如何從中查找到人們所關(guān)心的內(nèi)容成為一個(gè)日益緊迫的問題,受到學(xué)術(shù)界以及工 業(yè)界的極大關(guān)注。多媒體信息檢索就是研究從大量不同種類的媒體資源( 包括文 本,圖像、音頻、視頻、動畫和三維模型等) 中找到所需要的信息的過程。多媒 體信息檢索的發(fā)展歷程通??梢詣澐譃閮蓚€(gè)階段,基于文本和基于內(nèi)容。 2 0 世紀(jì)7 0 年代,基于文本的多媒體信息檢索引起了人們的關(guān)注,當(dāng)時(shí)處理的 媒體對象主要是圖像。基于文本的方法會對所有的媒體對象進(jìn)行人工標(biāo)注,用文 本表示媒體對象的內(nèi)容,在此基礎(chǔ)上采用傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)中的文本查找方法 或者文本檢索方法進(jìn)行檢索。k o d a kp i c t u r ee x c h a n g es y s t e m ( k p 殉【1 】和 p r e s s l i n k 2 等早期的圖像檢索系統(tǒng)都屬于此類。此類方法的優(yōu)點(diǎn)就是可以簡單 地采用成熟的文本檢索方法,而它們存在的缺陷也顯而易見,需要對媒體對象進(jìn) 行人工標(biāo)注,標(biāo)注的好壞直接影響到系統(tǒng)性能。一方面,標(biāo)注本身不能得到保證, 人工標(biāo)注代價(jià)高昂而且效率低下;另一方面,簡單的文本不能完全表述媒體對象 內(nèi)容,不同人從不同角度看媒體對象會有不同的語義。 2 0 世紀(jì)9 0 年代,大量媒體對象的產(chǎn)生使得基于文本的多媒體信息檢索越來 越不能滿足需要,于是人們提出了基于內(nèi)容的多媒體信息檢索。在此類系統(tǒng)中, 會對所有的媒體對象提取各種特征,采用各種統(tǒng)計(jì)學(xué)習(xí)以及分類方法來分析媒體 對象的內(nèi)容,并且采用各種融合方法綜合各方面的分析結(jié)果以及相關(guān)反饋技術(shù)來 改進(jìn)檢索性能。i b m 的m a r w l 3 、u i c c 的m a r s 4 】和c o l u m b i a 的 v i s u a l s e e k 5 等多媒體信息檢索系統(tǒng)都屬于此類。相比基于文本的多媒體信息 檢索,此類方法的優(yōu)點(diǎn)是,不完全依賴于人工標(biāo)注,更加適應(yīng)于數(shù)量龐大且不斷 增長的媒體對象;可以從多個(gè)角度分析媒體對象,靈活地描述媒體對象的內(nèi)容。 視頻語義特征提取算法研究 復(fù)旦大學(xué)碩士學(xué)位論文 2 當(dāng)然,此類方法目前也存在一定的問題,首先內(nèi)容分析技術(shù)不夠成熟,還不能完 全跨越底層物理特征和高層語義特征之間的語義鴻溝;其次,直接提取得到的特 征通常維數(shù)通常比較高,需要解決高維索引和降維等問題。 目前,多媒體信息檢索的基本框架如圖1 1 所示。多媒體信息存在著多種形 式,其中包含多而雜的信息,如果能從中快速而有效的獲取所需的內(nèi)容,那么將 會使得多媒體信息檢索技術(shù)實(shí)際應(yīng)用到社會各個(gè)不同的領(lǐng)域,從而滿足信息社會 發(fā)展的需要。 圖i i多媒體信息檢索基本框架 1 2 基于內(nèi)容的視頻檢索 多媒體技術(shù)的發(fā)展產(chǎn)生了越來越多的視頻數(shù)據(jù),而互聯(lián)網(wǎng)的普及和視頻編解 碼技術(shù)的日趨成熟便利了視頻數(shù)據(jù)的傳播,大量的視頻在人們的工作和生活中觸 手可及。視頻是多媒體信息的一個(gè)重要組成部分。相比于其他的多媒體信息,視 頻具有很多與眾不同的特點(diǎn): 一視頻數(shù)據(jù)量大。一段視頻數(shù)據(jù)所占的存儲空間比單純的文本、圖像或音 頻等所占的存儲空間要大很多,雖然采用了視頻壓縮技術(shù),所占的存儲 空間仍然相當(dāng)可觀,對視頻處理速度提出了挑戰(zhàn)。 一視頻的動態(tài)性。視頻含有運(yùn)動信息,包括了物體運(yùn)動和鏡頭運(yùn)動,物體 運(yùn)動造成局部運(yùn)動,而鏡頭運(yùn)動造成全局運(yùn)動,視頻運(yùn)動通常由這兩種 運(yùn)動組合而成。 一視頻的時(shí)空性。視頻涉及到時(shí)間域和空間域,從時(shí)間域上看,視頻可以 看作是由一組靜態(tài)圖像所構(gòu)成的圖像序列,從空間域上看,視頻中的單 個(gè)圖像幀描述了場景。 視頻語義特征提取算法研究 復(fù)旦大學(xué)碩士學(xué)位論文3 一視頻內(nèi)容的多重性。視頻中含有多種媒體對象:文本( 字幕) ,語音( 配 音) ,和圖像( 幀) 等,每種媒體對象都從一個(gè)方面反映了視頻的內(nèi)容。 一視頻分析的復(fù)雜性。由于視頻內(nèi)容的多重性,如何綜合視頻的各個(gè)方面 來對視頻進(jìn)行分析就具有比較高的復(fù)雜性。 面對海量的視頻數(shù)據(jù),針對視頻數(shù)據(jù)的特點(diǎn),人們提出了基于內(nèi)容的視頻檢 索?;趦?nèi)容的視頻檢索的基本思路是:提取描述視頻內(nèi)容的特征,根據(jù)視頻內(nèi) 容組織視頻數(shù)據(jù),在組織結(jié)構(gòu)上對視頻數(shù)據(jù)進(jìn)行檢索瀏覽。圖1 2 給出了一個(gè)基 于內(nèi)容的視頻檢索系統(tǒng)的基本框架。 肛 視頻單元( 鏡頭或場景等) 圖1 2基于內(nèi)容的視頻檢索基本框架 從框架圖中,可以看到基于內(nèi)容的視頻檢索的過程。首先將視頻劃分為一系 列在時(shí)間上連續(xù)的視頻單元;然后對每個(gè)視頻單元提取描述視頻內(nèi)容的特征;并 在所提取的特征上建立索引來組織視頻數(shù)據(jù);最后在所建立的索引上根據(jù)需要來 對視頻數(shù)據(jù)進(jìn)行檢索和瀏覽。因此,基于內(nèi)容的視頻檢索涉及到的關(guān)鍵技術(shù)主要 有三個(gè)方面: 一視頻結(jié)構(gòu)化分析。u i u c 的t s h u a n g 等人提出了將視頻流按照內(nèi)容層 次進(jìn)行劃分【6 】,從高層到低層分別為:視頻( v i d e o ) ,場景( s c e n e ) , 鏡頭組( s h o tg r o u p ) ,鏡頭( s h o t ) 和關(guān)鍵幀( k e yf r a m e ) ,這種劃分 過程即為視頻結(jié)構(gòu)化分析。 一視頻特征提取。根據(jù)特征所描述的視頻內(nèi)容的層次,可以將視頻特征劃 分為兩種,底層物理特征和高層語義特征。底層物理特征包括顏色分布、 紋理和形狀等;而高層語義特征則是在底層物理特征的基礎(chǔ)之上分析出 視頻的語義,高層語義特征提取是相當(dāng)具有挑戰(zhàn)性的。目前為止,底層 視頻語義特征提取算j 去研究 愿匏 圄一雯羹取日一 圈 囊羹吉 淅 復(fù)旦大學(xué)碩士學(xué)位論文 4 物理特征和高層語義特征之間仍然存在著“語義鴻溝”。 一視頻索引。對視頻數(shù)據(jù)按照一定的結(jié)構(gòu)進(jìn)行組織,可以按照提取出來的 特征進(jìn)行檢索,提高查找的效率。由于某些底層物理特征的維數(shù)相當(dāng)高, 所以有時(shí)會存在高維索引的問題。一個(gè)好的視頻索引能夠加速檢索過程, 提高檢索系統(tǒng)的可用性。 由于基于內(nèi)容的視頻檢索的必要性和挑戰(zhàn)性,為了推動其更好的發(fā)展, n i s t ( n a t i o n a l i n s t i t u t i o no f s t a n d a r da n dt e c h n o l o g y ) 組織了一個(gè)評測 t r e c w d ( t r e c v i d e or c t r i c v a le v a l u a t i o n ) ,本文將會在1 4 節(jié)對t r e c v i d 做 一個(gè)較為詳細(xì)的介紹。本文所關(guān)注的是基于內(nèi)容的視頻檢索的一個(gè)重要環(huán)節(jié):視 頻語義特征提取。 1 3 視頻語義特征 所謂視頻語義特征,就是從人的角度抽象出視頻所包含和反映的內(nèi)容,比如 說,籃球比賽進(jìn)球得分、布什在白宮前面講話、伊拉克地圖等等都是視頻所反映 出來的通過人的理解抽象出來的語義特征。與底層物理特征很明顯的區(qū)別就是, 視頻語義特征有了人的認(rèn)識的介入,需要其提取算法在一定程度上具有人的智 能。 在本文中,我們所討論的視頻語義特征分為兩個(gè)部分:視頻運(yùn)動特征和高層 語義特征。 視頻運(yùn)動通常由物體運(yùn)動和鏡頭運(yùn)動所組成,運(yùn)動的方向和幅度都是經(jīng)由人 腦抽象過的結(jié)果,比如說我們定義了向上、向下、向左、向右等。并且鏡頭通常 是由人來操作的,鏡頭的運(yùn)動從一定程度上反映了人的注意力,比如說有重要人 物出現(xiàn)時(shí)鏡頭會放大、足球比賽中鏡頭會隨著足球移動等。此外,視頻運(yùn)動從一 定程度上反映了高層語義特征,比如說某段視頻的高層語義特征是飛機(jī)起飛,表 現(xiàn)在視頻運(yùn)動上就是物體向上、鏡頭向上。所以說,視頻運(yùn)動特征從時(shí)間軸上描 述了視頻內(nèi)容,是一種視頻語義特征。 高層語義特征則是對視頻內(nèi)容的語言描述,是更為具體的視頻語義,不僅從 時(shí)間軸而且從空間面上描述視頻內(nèi)容,根據(jù)其描述的對象,通??梢苑譃樗念悾?場景特征、物體特征、聲音特征、運(yùn)動特征。 一場景特征通常描述的是一個(gè)場景,相當(dāng)于是對全局畫面的一個(gè)刻畫,例 如:播音室。 視頻語義特征提取算法研究 復(fù)旦大學(xué)碩士學(xué)位論文 5 一物體特征通常描述的是一個(gè)物體,相當(dāng)于是對局部畫面的一個(gè)刻畫,例 如:汽車。 一聲音特征通常描述的是音頻,例如:音樂。 一運(yùn)動特征通常描述的是物體或者鏡頭的運(yùn)動,例如:飛機(jī)起飛。 可見,視頻語義其實(shí)就是抽象概念,如何讓計(jì)算機(jī)從人的角度去理解視頻是 視頻語義特征提取所要解決的問題。目前,很多的研究機(jī)構(gòu)對視頻語義特征提取 給予了極大的關(guān)注,主要的工作集中于t r e c v i d 。通常會把視頻語義提取看作 是有監(jiān)督的模式分類問題,采用了模式分類和機(jī)器學(xué)習(xí)的方法陰。有些方法會 對所有的語義特征采用統(tǒng)一的方法來進(jìn)行提取,即通用方法;而另外一些方法則 會對特定的語義特征采用特定的方法來進(jìn)行提取,即特殊方法。顯然,通用方法 具有更好的可移植性和可擴(kuò)展性,所以研究重心在向通用方法轉(zhuǎn)移。 如何讓計(jì)算機(jī)從人的角度去理解視頻、從中抽取語義特征是一個(gè)十分具有挑 戰(zhàn)性的問題,它面臨著許多困難: 一語義特征本身的不確定性。不同的人對同一段視頻會有不同的理解;同 一個(gè)人在不同時(shí)間也會對同一段視頻產(chǎn)生不同的看法。 一底層物理特征和高層語義特征之間的語義鴻溝。如何從底層物理特征映 射到高層語義特征,在這二者之間加入人類思維的智慧與變化,將會是 一個(gè)永恒的研究領(lǐng)域。 一視頻的時(shí)空特性帶來的分析的復(fù)雜性。對于視頻的分析需要綜合文本、 圖像、聲音、運(yùn)動等多方面的分析技術(shù)。 1 4 t r e c v i d t p e c v l d ( t r e cv i d e or e t r i e v a le v a l u a t i o n ) 是由n i s t ( n a t i o n a li n s t i t u t i o no f s t a n d a r d sa n dt e c h n o l o g y ) 組織的一項(xiàng)評測。t r e c v i d 的動機(jī)是通過提供公共數(shù) 據(jù)集和標(biāo)準(zhǔn)評測方法來推動基于內(nèi)容的視頻檢索研究的發(fā)展。 t r e c v i d 2 0 0 5 給出了四個(gè)任務(wù)和一個(gè)可選任務(wù),它們是: 一鏡頭邊界檢測( s h o tb o u n d a r yd e t e r m i n a t i o n ) 一底層特征提取( l o w - l e v e lf e a t u r ee x t r a c t i o n ) 一高層特征提取( h i g h l e v e lf e a t u r ee x t r a c t i o n ) 一檢索( s e a r c h ,包括交互式、手動式和自動式三種方式) 視頻語義特征提取算法研究 復(fù)旦大學(xué)碩士學(xué)位論文6 一b b c 視頻素材組織( e x p l o r eb b cr u s h e s ,可選1 其中,底層特征指的是相機(jī)運(yùn)動( c a m e r am o t i o n ) 。對每個(gè)任務(wù)簡單介紹如下: 鏡頭邊界檢測。在給定的視頻片斷中找出鏡頭邊界的位置并判斷其類型( 切 變緩變) ,最后可以提交1 0 組實(shí)驗(yàn)結(jié)果。評測時(shí)會對所有鏡頭邊界計(jì)算精度 ( p r e c i s i o n ) 和召回率( r e c a l l ) ,對緩變鏡頭會特別的計(jì)算幀精度( f r a m e - p r e c i s i o n ) 和幀召回率( f r a m e - r e c a l l ) 。 底層特征提取。在給定的測試視頻集中找到含有指定相機(jī)運(yùn)動特征的鏡頭 ( s h o t ) ,當(dāng)然,測試視頻已經(jīng)過鏡頭分割處理。鏡頭運(yùn)動的特征在此定義了三組: 橫動( p a n ,包括向左向右) ,豎動( t i l t ,包括向上向下) ,縮放( z o o m ,包括放大和 縮小) 。可以提交7 組結(jié)果。評測時(shí)對每組鏡頭運(yùn)動特征計(jì)算精度和召回率。 高層特征提取。在給定的測試視頻集中找到含有指定高層語義特征的鏡頭, 測試視頻也已經(jīng)過鏡頭分割處理。給出了1 0 個(gè)高層特征,例如:人在行走、山、 水、地圖等等概念??梢蕴峤? 組結(jié)果。評測時(shí)對每個(gè)高層特征計(jì)算平均精度 ( a v e r a g ep r e c i s i o n ) 。 檢索。在給定的測試視頻集中找到含有指定話題的鏡頭,測試視頻已經(jīng)過鏡 頭分割處理。給出了,2 4 個(gè)話題,例如:中國國家主席胡錦濤、伊拉克地圖( 標(biāo) 記出巴格達(dá)并且不是天氣預(yù)報(bào)) 等??梢蕴峤? 組結(jié)果。評測時(shí)對每組結(jié)果計(jì)算 平均精度( m e a na v e r a g ep r e c i s i o n ) 。 b b c 視頻素材組織。給定原始的未經(jīng)剪輯的視頻素材,構(gòu)造一個(gè)系統(tǒng)幫助 人們?yōu)g覽、查找、分類和總結(jié)這些素材。具體評測方法還在討論探索中。 在t r e c v i d 2 0 0 5 ,n i s t 提供的數(shù)據(jù)來自三個(gè)方面:2 0 0 4 年1 1 月的電視新 聞;n a s a 的科學(xué)教育節(jié)目;b b c 視頻素材。 關(guān)于t r e c v i d 2 0 0 5 的詳細(xì)情況,參見【8 1 。我們小組代表復(fù)旦大學(xué)參加了 t r e c v i d 2 0 0 5 的評測,取得了較好的成績f 9 】。我們也相信t r e c v i d 必將會在 未來更好的促進(jìn)基于內(nèi)容的視頻檢索的發(fā)展。 1 5 本文的貢獻(xiàn) 針對視頻語義特征提取這一基于內(nèi)容的視頻檢索中的關(guān)鍵環(huán)節(jié),本論文在總 結(jié)前人相關(guān)算法的基礎(chǔ)上,詳細(xì)介紹了本人碩士期間所做科研工作,包括視頻運(yùn) 動分析和高層語義特征提取兩個(gè)方面。以下是本文的基本組織架構(gòu)。 第二章詳細(xì)介紹了視頻語義特征提取所涉及到的相關(guān)知識,包括視覺特征、 視頻語義特征提取算法研究 復(fù)旦大學(xué)碩士學(xué)位論文 7 音頻特征、文本特征以及m p e g 視頻流的結(jié)構(gòu)。 第三章首先介紹了視頻運(yùn)動分析的兩個(gè)方面,相機(jī)運(yùn)動分析和運(yùn)動分割,在 此基礎(chǔ)上提出了運(yùn)動起因的概念以及分析運(yùn)動起因的必要性與可能性,給出了一 種基于壓縮域利用運(yùn)動向量相互關(guān)系的分析視頻運(yùn)動起因的算法,并給出了實(shí)驗(yàn) 結(jié)果。 第四章在總結(jié)前人提取高層語義特征算法的基礎(chǔ)上,結(jié)合我們參加 t r e c v i d 2 0 0 5 的經(jīng)歷,針對局部高層語義特征( 物體特征) ,給出了一種局部高 層語義特征提取算法,該算法將圖像幀的局部信息和全局信息相結(jié)合,并且給出 了基于t r e c v m 的評測結(jié)果。 第五章在總結(jié)全文的基礎(chǔ)上,對未來的工作進(jìn)行了展望。 視頻語義特征提取算往研究 復(fù)旦大學(xué)碩士學(xué)位論文 8 第2 章相關(guān)知識 對視頻內(nèi)容進(jìn)行分析,首先就要提取各種底層特征來對視頻內(nèi)容進(jìn)行描述。 可以說,底層特征是對于視頻的直接描述,基于底層特征,才能進(jìn)一步對視頻內(nèi) 容進(jìn)行分析。所以,底層特征提取算法的優(yōu)劣將會從很大程度上影響高層視頻語 義特征提取算法的性能。一段視頻通常包含有視覺、音頻和文本三方面的信息, 如圖2 1 所示,所以視頻的底層特征也包括了視覺特征、音頻特征和文本特征這 三方面。此外,目前大多數(shù)的視頻數(shù)據(jù)都是以m p e g 格式保存的,要對視頻進(jìn) 行分析,必然要對m p e g 視頻流有一定的了解。因此,在這一章中,將從視覺 特征、音頻特征、文本特征和m p e g 視頻流四個(gè)方面,對視頻語義特征提取的 相關(guān)知識進(jìn)行介紹。 視 頻 數(shù) 據(jù) 2 1 視覺特征 圖2 1視頻內(nèi)容組成圖 所謂視覺特征就是從視覺上對視頻圖像幀進(jìn)行的描述。視覺特征包括顏色、 紋理和形狀三個(gè)方面,下面分別從這三個(gè)方面來討論視覺特征的提取算法,并對 m p e g 7 視覺描述子進(jìn)行詳細(xì)介紹。 2 1 1顏色特征 顏色是描述圖像幀視覺性質(zhì)的一個(gè)重要元素。顏色特征是歷史上最早被應(yīng)用 到基于內(nèi)容的視頻檢索中的特征。通常,統(tǒng)計(jì)方法會被用來進(jìn)行顏色特征提取以 視頻語義特征提取算法研究 復(fù)旦大學(xué)碩士學(xué)位論文 9 反映圖像的視覺特點(diǎn)。顏色空間是一種用數(shù)字來描述顏色的方法,具體地有 r g b 、h s v 、c i el a b 等,下文所提到的各種顏色空間在附錄i 中均有詳細(xì)的介 紹。 顏色直方 虱( c o l o rh i s t o g r a m ) 1 0 是最為廣泛使用的顏色特征,它用直方圖來 統(tǒng)計(jì)顏色在圖像、區(qū)域或者物體上的分布情況。顏色直方圖定義為( 以r g b 空 間為例) : h 月口j 【r ,g ,b 】一n p r o b r - ,g ;g ,b - 6 ) 其中r 、g 、b 為三個(gè)顏色通道,n 是圖像中像素點(diǎn)的個(gè)數(shù)。首先,要將圖像中 的顏色離散化,然后計(jì)算每種顏色的像素點(diǎn)的個(gè)數(shù)來得到顏色直方圖。由于顏色 的個(gè)數(shù)是有限的,方便起見,我們可以將三維直方圖轉(zhuǎn)化為一維直方圖。例如給 出一個(gè)圖像,轉(zhuǎn)化后的顏色直方圖的槽數(shù)為小= ,4 - n , g + 協(xié),其中,垠和 分別為紅色、綠色和藍(lán)色的槽數(shù),這樣我們就得到了一維直方圖: h i m 】一n 。p r o b m - 腳 基本的顏色直方圖非常簡單,但是會存在這樣或者那樣的不足,于是人們提出了 很多對于基本顏色直方圖的改進(jìn)方法。如s t r i c k e r 和o r e n g o 針對大多數(shù)顏色直 方圖比較稀疏且對噪音敏感,提出了累進(jìn)式的顏色直方圖【1 3 】。p a s s 和z a b i h 針 對顏色直方圖的描述過于粗糙不能描述顏色在圖像的空間信息,提出了分裂式的 直方圖c c v ( c o l o rc o h e r e n c ev e c t o r ) j 1 4 1 5 。 顏色集( c o l o rs e t ) 概念是由s m i t h 和c h a n g 提出的【1 1 】【1 2 】。首先,將r g b 顏色空間轉(zhuǎn)化為視覺上均勻的顏色空間,如h s v ,然后將該空間量化為m 個(gè)顏 色帶,用一個(gè)m 維的二值向量來表示顏色集。由于顏色集特征向量是二值的, 因此可以構(gòu)建二叉樹進(jìn)行快速搜索,適用于大規(guī)模圖像數(shù)據(jù)庫。 顏色相關(guān)i 羽( c o l o rc o r r e l o g r a m ) 是由h u a n g 提出的【1 6 】。它描述了圖像中顏 色之間的相互關(guān)系如何隨著距離變化,實(shí)驗(yàn)表明它比傳統(tǒng)的顏色直方圖提供了更 好的檢索性能。但是,由于顏色相關(guān)圖的維數(shù)通常比較高,顏色自相關(guān)圖( c o l o f a u t o c o 仃c l o 鱸瑚) 常用來作為替代,它僅描述了相同顏色間的空間相互關(guān)系。 顏色矩( c o l o rm o m e n t ) 的數(shù)學(xué)基礎(chǔ)是任何樣本分布均可由它們的矩來刻畫。 在每個(gè)顏色通道上計(jì)算所有像素點(diǎn)的平均值( m e a n ) 和標(biāo)準(zhǔn)方差( s t a n d a r d d e v i a t i o n ) 就得到了顏色矩。相對于其他的顏色特征,顏色矩的表達(dá)結(jié)構(gòu)比較緊 湊,所以它常用于初步地縮小檢索范圍,之后會用較復(fù)雜的特征來進(jìn)行精確檢索。 上述的幾種提取顏色特征的方法既可以應(yīng)用于整個(gè)圖像,也可以應(yīng)用于圖像 的一塊區(qū)域。當(dāng)它們應(yīng)用于整個(gè)圖像的時(shí)候,就從一定程度上失去了對于顏色空 視頻語義特征提取算法研究 復(fù)旦大學(xué)碩士學(xué)位論文 1 0 間分布的描述,于是,一些方法被用來強(qiáng)調(diào)顏色的空間分布特性。最直接的方法 就是人為地將一幅圖像分為若干子塊,對每個(gè)子塊分別提取特征,再將特征串聯(lián) 在一起獲得一個(gè)大的向量【1 7 】。比較好的方法是,對圖像先進(jìn)行分割,獲得一系 列比較均勻的不規(guī)則形狀的區(qū)域,然后對這些區(qū)域分別提取特征,保存這些區(qū)域 的位置和特征,方便進(jìn)一步的處理【1 8 】【1 9 】。當(dāng)然,此種方法的性能優(yōu)劣很大程 度上取決于圖像分割效果的好壞。 2 1 2紋理特征 紋理特征從另一個(gè)角度描述圖像,它試圖挖掘圖像表面的內(nèi)在特性,包含了 表面的組織結(jié)構(gòu)以及它們和周圍環(huán)境的關(guān)系等信息。在過去的幾十年中,很多不 同的方式被用來嘗試從不同的角度來描述圖像的紋理。 早期,h a r a l i c k 等人提出用共生矩陣表示紋理特征【2 0 】,首先根據(jù)圖像像素 之間的方向和距離構(gòu)造一個(gè)共生矩陣,然后從該矩陣中提取有意義的統(tǒng)計(jì)信息作 為紋理特征。t a m u r a 等人考慮到人類視覺感知,提出用粗糙度、對比度、方向性、 線度、規(guī)則性和粒度來刻畫紋理特征【2 1 】。m a o 等人提出了 m r s a r ( m u l t i - r e s o l u t i o ns i m u l t a n e o u s a u t o r e g r e s s i o n ) 紋理特征【2 2 】。 基于小波變換,c h a n g 等人提出用三層分解來構(gòu)造小波變換紋理特征 2 3 1 , 對分解得到的每個(gè)子帶( s u bb a n d ) 計(jì)算能量的平均值和標(biāo)準(zhǔn)方差,再將所有的平 均值和標(biāo)準(zhǔn)方差組合成特征向量。對于p w t ( p y r a m i d s t r u c t u r e dw a v e l e tt r a n s f o r m ) 紋理特征,每次只分解u 孑帶,最終會獲得一個(gè)2 4 維的特征向量;對于 t w t ( t r c c s t r u c t u r e dt r a n s f o r m ) 紋理特征,則每次分解l l 、h l 和l h 子帶,最終會 獲得一個(gè)1 0 4 維的特征向量。由于分解h h 子帶通常會產(chǎn)生一個(gè)不穩(wěn)定的特征,所 以沒有對h h 子帶進(jìn)行分解。1 、1 比p w t 利用了更多的信息來產(chǎn)生紋理特征,所 以會具有更好的性能。 m a n j u n a t h 等人提出t g a b o r 紋理特征【2 4 】,用不同方向和不同幅度的g a b o r 濾波器對圖像進(jìn)行過濾,得到一系列的結(jié)果圖像,對每個(gè)結(jié)果圖像求其像素的平 均值和方差得到圖像的紋理特征。實(shí)驗(yàn)表明,g a b o r 紋理在紋理檢索方面取得了 較好的性能。 2 1 3 形狀特征 與顏色特征和紋理特征不同,形狀特征描述的對象必定是一個(gè)局部區(qū)域,這 就要求在提取形狀特征之前需要將區(qū)域從圖像中分離出來,這本身就是一個(gè)非常 視頻語義特征提取算法研究 復(fù)旦大學(xué)碩士學(xué)位論文 具有挑戰(zhàn)性的工作。此外,形狀特征要對于形狀的位移、旋轉(zhuǎn)和縮放具有不變性。 通常,對于形狀的描述分為兩類,基于形狀邊界的和基于形狀區(qū)域的。在基于形 狀邊界的方法中,最著名的是傅立葉描述子,其基本思想是用傅立葉變換后的形 狀邊界作為形狀特征,用較少的參數(shù)表示較復(fù)雜的邊界。r u i 等人提出的改進(jìn)的 傅立葉描述子不僅可以抵御噪聲的干擾,而且不受圖像幾何變換的影響1 2 5 ,成 功地應(yīng)用于實(shí)際。在基于形狀區(qū)域的方法中,較常用的是矩不變量,其基本思想 是使用形狀區(qū)域的矩作為形狀特征。h u 提出了7 個(gè)矩不變量表示形狀區(qū)域【2 6 】, 他的工作為后人的研究奠定了基礎(chǔ)。近年來,f r e d e m b a c h 等人又提出了用 e i g e m e g i o n s 來表示形狀 2 7 1 ,該方法綜合描述了形狀的區(qū)域、位置和輪廓方面 的特征。但是,由于形狀特征的提取的前提是將物體從圖像中正確地分割出來, 而圖像分割問題本身還沒有得到很好的解決,所以形狀特征提取工作有待于進(jìn)一 步的研究。 2 1 4m p e g 7 視覺特征描述子 m p e g 7 標(biāo)準(zhǔn)規(guī)定了一系列視覺特征描述子的提取方法,由于其規(guī)范性和通 用性,獲得了廣泛的關(guān)注和接受。 可變尺度顏色描述子s c d ( s c a l a b l ec o l o rd e s c r i p t o r ) 。s c d 描述了圖像顏 色的全局分布,對圖像的旋轉(zhuǎn)和伸縮變換不敏感。其提取過程分為:把圖像變化 到h s v 顏色空間,對圖像像素顏色統(tǒng)計(jì)得到2 5 6 維的h s v 顏色直方圖,對此直 方圖進(jìn)行h a a r 變換得到一系列h a a r 系數(shù),最后根據(jù)壓縮要求對h a a r 系數(shù)進(jìn)行 均勻量化。 顏色布局描述子c l d ( c o l o r l a y o u td e s c r i p t o r ) 。c l d 描述的是整個(gè)圖像或 者任意形狀區(qū)域的顏色分布特征,與s c d 形成互補(bǔ)關(guān)系。其提取過程是基于 y c b c r 顏色空間的,具體為:把原始圖像均勻分割成8 x 8 大小的塊,對每一圖 像塊進(jìn)行主顏色檢測,用主顏色代表整塊的顏色,這樣得到一個(gè)n x n 的顏色矩 陣,對此顏色矩陣進(jìn)行d c t 變換得到d c t 系數(shù)矩陣,最后選取d c t 矩陣經(jīng) z i g z a g 掃描和量化后的少量低頻系數(shù)作為c l d 。 顏色結(jié)構(gòu)描述子c s d ( c o l o rs t r u c t u r ed e s c r i p t o r ) 。c s d 基于h m m d 顏色 空間,描述了圖像的局部顏色結(jié)構(gòu)。其提取過程為:首先對圖像顏色進(jìn)行量化, 得到種顏色;用8 8 的窗口結(jié)構(gòu)元素在圖像上均勻滑動,統(tǒng)計(jì)各種顏色在窗 口中出現(xiàn)的總次數(shù),得到維的直方圖;然后對直方圖進(jìn)行歸一化和量化得到 c s d 。 視頻語義特征提取算法研究 復(fù)旦大學(xué)碩士學(xué)位論文 1 2 主導(dǎo)顏色描述子d c d ( d o m i n a n tc o l o rd e s c r i p t o r ) 。d c d 描述圖像或特定 區(qū)域的一組主導(dǎo)顏色,由各個(gè)主導(dǎo)顏色值、相應(yīng)顏色在圖像或區(qū)域中所占的百分 比、顏色的空間連續(xù)性以及方差構(gòu)成。其提取過程為:首先對給定圖像或區(qū)域的 顏色進(jìn)行聚類,并計(jì)算每種顏色所占的百分比;然后根據(jù)比例的大小選出一組主 導(dǎo)顏色;最后計(jì)算各主導(dǎo)顏色的空間連續(xù)性和方差,來描述顏色大塊集中分布和 在整個(gè)圖像中散布的不同。描述區(qū)域顏色時(shí),一般用3 4 個(gè)主導(dǎo)顏色效果較好。 紋理瀏覽描述子t b d ( t e x t u r eb r o w s i n gd e s c r i p t o r ) 。t b d 利用小波方法對 紋理進(jìn)行分析,從方向性、規(guī)則度和粗糙度三個(gè)方面描述了紋理的視覺特征。其 提取方法為:首先用一組在頻域角度和幅度方向上有選擇性的帶通濾波器對圖像 做g a b o r
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 成都泛微網(wǎng)絡(luò)java開發(fā)面試題及答案
- 電信招聘考試題及答案
- 戶外游戲面試題及答案
- 海洋信息面試題及答案
- 大學(xué)書法統(tǒng)考試題及答案
- 洪洞英語面試題及答案
- 單位正職面試題及答案
- 工廠奇葩面試題及答案
- 農(nóng)村村民房屋承包協(xié)議書
- 關(guān)于建設(shè)工程工期協(xié)議書
- 高考期間食品安全
- 2025黑河學(xué)院輔導(dǎo)員考試題庫
- 分娩質(zhì)量管理的相關(guān)制度
- 光伏電廠防洪防汛應(yīng)急預(yù)案演練方案
- 鄉(xiāng)鎮(zhèn)環(huán)境保護(hù)工作制度
- 現(xiàn)場實(shí)名制管理制度
- 浙江大學(xué)《分子生物學(xué)原理》2023-2024學(xué)年第二學(xué)期期末試卷
- 人教部編版道德與法治八年級下冊:2.2 《加強(qiáng)憲法監(jiān)督 》聽課評課記錄
- 煤礦主通風(fēng)機(jī)電控系統(tǒng)變頻改造裝置安裝方案
- 2025年“美好生活民法典相伴”主題宣傳月活動總結(jié)(2篇)
- 移動通信網(wǎng)絡(luò)流量分析與優(yōu)化策略制定
評論
0/150
提交評論