iView一個(gè)開放架構(gòu)的數(shù)字視頻管理系統(tǒng)--專業(yè)文檔--專業(yè)文檔_第1頁
iView一個(gè)開放架構(gòu)的數(shù)字視頻管理系統(tǒng)--專業(yè)文檔--專業(yè)文檔_第2頁
iView一個(gè)開放架構(gòu)的數(shù)字視頻管理系統(tǒng)--專業(yè)文檔--專業(yè)文檔_第3頁
iView一個(gè)開放架構(gòu)的數(shù)字視頻管理系統(tǒng)--專業(yè)文檔--專業(yè)文檔_第4頁
iView一個(gè)開放架構(gòu)的數(shù)字視頻管理系統(tǒng)--專業(yè)文檔--專業(yè)文檔_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 view 一個(gè)開放架構(gòu)的數(shù)字視頻管理系統(tǒng)+michael r. lyu 王煒* edward yau 施群山香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程系摘 要:本文分析了一個(gè)基于多模態(tài)元數(shù)據(jù)提取,具有開放架構(gòu)并且支持無線移動(dòng)存取的數(shù)字 視頻全內(nèi)容管理系統(tǒng)一一iview.討論了 iview系統(tǒng)的需求,體系框架設(shè)計(jì)實(shí)現(xiàn),描述了其中 涉及的關(guān)鍵技術(shù)思想,并對(duì)存在的問題和研究方向做了簡(jiǎn)單探討。關(guān)鍵詞:視頻數(shù)據(jù)庫 元數(shù)據(jù) 多模態(tài) 全內(nèi)容檢索1. 引言隨著圖像、音頻、視頻等多媒體信息的引入和internet網(wǎng)絡(luò)應(yīng)用的普及,傳統(tǒng)的信息檢索 存取管理模式己無法滿足対此類非結(jié)構(gòu)化信息進(jìn)行有效管理的客觀需求。近年來成為研究熱

2、點(diǎn) 的基于內(nèi)容的媒體處理技術(shù)則為此類信息的有效管理指出了方向,即慕于內(nèi)容特征提取結(jié)構(gòu)化 內(nèi)容描述信息用于輔助多媒體信息的管理lljl2jl3jl4jo做為故普遍且最有效的一種交流媒介,視頻中包含了其它類型媒體,內(nèi)容豐富,因而在如 何有效使用和管理上也故有挑戰(zhàn)性。視頻數(shù)據(jù)本身并不支持用戶交互,很大程度上視頻使用是 一個(gè)單向體驗(yàn)過程,瀏覽者只是一個(gè)被動(dòng)角色。雖然視頻內(nèi)部存在豐富的未開發(fā)內(nèi)容和知識(shí), 這種未結(jié)構(gòu)化的數(shù)據(jù)已經(jīng)證明很難系統(tǒng)管理:無法直接使川關(guān)鍵字檢索。如果手工注釋,工作 量大且具有相當(dāng)?shù)闹饔^隨意性。有效的視頻管理需要像圖帖館系統(tǒng)那樣以某種口動(dòng)方式提取視頻中蘊(yùn)涵的那些未開發(fā)的 內(nèi)容和知識(shí),

3、提供一個(gè)類似卡片索引kl錄的工具來完成視頻歸檔并借此尋找所需內(nèi)容。即視頻 必須伴隨一個(gè)結(jié)構(gòu)化內(nèi)容索引,通過創(chuàng)建視頻內(nèi)容的豐富索引,釋放視頻庫中豐富的知識(shí)資源, 把視頻轉(zhuǎn)換成基于索引對(duì)內(nèi)容進(jìn)行精細(xì)顆粒度存取和控制的容易管理的有川信息。h前數(shù)字視頻數(shù)據(jù)量迅速呈海量增長(zhǎng),遍布廣播、娛樂、企業(yè)、消費(fèi)者市場(chǎng)。例如電視、 電影領(lǐng)域最近20年就產(chǎn)牛了數(shù)以百萬小時(shí)計(jì)算的視頻內(nèi)容。除此z外,很多組織也出丁不同 需要,生產(chǎn)了大量視頻數(shù)據(jù),例如銷售、市場(chǎng)、教冇、訓(xùn)練、決策支持、職員、顧客通信等等 領(lǐng)域。這就使得對(duì)視頻數(shù)據(jù)庫進(jìn)行有效內(nèi)容管理的需求更加迫切。除了缺乏有效的檢索手段外,傳統(tǒng)的視頻管理也沒有利用到已經(jīng)建立的

4、internet及web使 川模式。intemd網(wǎng)絡(luò)的發(fā)展,尤其是無線移動(dòng)網(wǎng)絡(luò)的迅速發(fā)展同時(shí)也要求能夠在任意時(shí)間、任 意地點(diǎn)檢索存取到川戶需要的視頻信息。而無線視頻則以短的、個(gè)性化的視頻信息片段交換和 娛樂內(nèi)容為其主要特征。本文討論針對(duì)上述問題和趨勢(shì)而開發(fā)的基于多模態(tài)視頻索引的數(shù)字視頻管理系統(tǒng)iview (video over internet and wireless)o首先簡(jiǎn)要介紹支持開放、可仲縮性的系統(tǒng)體系結(jié)構(gòu),然后 從多模態(tài)融合的角度討論系統(tǒng)后臺(tái)屮涉及的元數(shù)據(jù)抽取方法,接著闡述支持多種模式存取的前 臺(tái)匕戶檢索、瀏覽平臺(tái)。2. 系統(tǒng)目標(biāo)及體系結(jié)構(gòu)+本文受香港研究基金委員會(huì)項(xiàng)日no.cuh

5、k4222/01e和itf創(chuàng)新與技術(shù)基金項(xiàng)目no.lts/29/o0共同資助。 水聯(lián)系作者,王煒 email: .hkiview的目標(biāo)是創(chuàng)建以視頻數(shù)據(jù)為主的分布開放式信息倉儲(chǔ)中心,能夠數(shù)字化、存儲(chǔ)、管 理和發(fā)布海量的各種格式的數(shù)字視頻數(shù)據(jù)內(nèi)容,提供綜合的公共視頻信息服務(wù),并使得有關(guān)用 戶可以通過不同網(wǎng)絡(luò)(包括移動(dòng)無線網(wǎng)絡(luò)),不同平臺(tái)來方便快捷地訪問、存取這些內(nèi)容和服 務(wù)而不受時(shí)空限制??紤]到香港文化上的特殊性,iview系統(tǒng)需要適應(yīng)英文、普通話以及粵語 等多語言環(huán)境。原始視頻源采集、壓縮視頻媒體分析框架元數(shù)據(jù)提取后端服務(wù)鏡頭 事件轉(zhuǎn)錄文木字幕 時(shí)間 物體 位置

6、視頻內(nèi)容多格式、質(zhì)量可視化交互接口搜索、摘要視頻流回放關(guān)聯(lián)可視化表現(xiàn)杳詢接口的端客戶接ii圖1 iview系統(tǒng)體系結(jié)構(gòu)圖視頻媒體索引的構(gòu)造是整個(gè)iview系統(tǒng)的核心,其基礎(chǔ)是視頻元數(shù)據(jù)。元數(shù)據(jù)是用于描述 原始視頻資源屬性和內(nèi)容的,機(jī)器可理解的智能化信息,或者說是關(guān)于視頻數(shù)據(jù)資源的特征信 息。正是自動(dòng)/半自動(dòng)抽取的元數(shù)據(jù)屮獨(dú)立的眾多數(shù)據(jù)值以及對(duì)這些數(shù)據(jù)值的應(yīng)川使得視頻數(shù)據(jù) 成為真止有用的可搜索的信息資源。雖然近年來在元數(shù)據(jù)定義以及視頻索引領(lǐng)域取得了很大進(jìn) 步,例如mpeg7內(nèi)容描述標(biāo)準(zhǔn),但本質(zhì)上,具體的元數(shù)據(jù)提取所依賴的算法大部分基于信 號(hào)分析,特定的元數(shù)據(jù)而向特定應(yīng)用,無法適應(yīng)普遍應(yīng)用背景。這

7、也是mpeg7只定義元數(shù)據(jù) 的描述的根本原因。為提高系統(tǒng)的實(shí)用性,吸取以往經(jīng)驗(yàn),iview主要針對(duì)香港tvb電視臺(tái) 授權(quán)采集的2000年以來的部分tvb新聞節(jié)廿構(gòu)成的長(zhǎng)達(dá)數(shù)百小時(shí)的新聞視頻資產(chǎn)庫的管理和 檢索來設(shè)計(jì)實(shí)現(xiàn)。iview的開放客戶/服務(wù)器邏輯休系結(jié)構(gòu)如圖1所示。整個(gè)功能框架可分為后端和前端兩大 部分。后端涉及數(shù)字新聞視頻的壓縮、采集、歸檔,多模態(tài)元數(shù)據(jù)的提取、索引、融合、以及 人工修改、補(bǔ)充、完善和入庫。前端涉及本地的或經(jīng)由各種不同帶寬條件的固定、無線移動(dòng)網(wǎng) 絡(luò)的視頻主題、片段或摘要的檢索,基于多模態(tài)元數(shù)據(jù)融合關(guān)聯(lián)可視化接口以及相應(yīng)視頻媒體 遞送組成部分。視頻內(nèi)容與元數(shù)據(jù)相分離是iv

8、iew系統(tǒng)設(shè)計(jì)的一個(gè)關(guān)鍵點(diǎn),是系統(tǒng)開放性得以保證的基礎(chǔ)。 如上所述,元數(shù)據(jù)是自動(dòng)、或半自動(dòng)人工添加結(jié)合的有關(guān)視頻內(nèi)容的有高度價(jià)值的結(jié)構(gòu)化數(shù)據(jù), 充當(dāng)索引并捉供對(duì)視頻的存収。開放性旨先表現(xiàn)在這種分離使得iview能夠集成很大范圍內(nèi)伸縮的數(shù)字視頻格式和技術(shù)。 無論最終視頻存儲(chǔ)模式是在線模式(磁盤陣列)、近似在線(磁帶遙控設(shè)備)或是脫線模式(物 理磁帶),也無論視頻是mpeg1,mpeg2, mpeg4或其它任何操作系統(tǒng)支持的格式,分離的元 數(shù)據(jù)都能有效定位、跟蹤和操縱視頻的一個(gè)或多個(gè)再現(xiàn)??蓴U(kuò)展的模塊化體系也是iview系統(tǒng)設(shè)計(jì)的開放性考慮z-。因?yàn)榻鉀Q廣泛意義上的圖像 理解是非常困難的問題,典型

9、的視覺分析-般限制在一個(gè)狹窄的問題領(lǐng)域。如何針對(duì)不同的視 頻應(yīng)用領(lǐng)域構(gòu)造、集成適川的視頻元數(shù)據(jù)及索引對(duì)有效發(fā)揮系統(tǒng)的功效至關(guān)重要l8jl9jo iview系 統(tǒng)雖然h前主耍針對(duì)新聞視頻管理領(lǐng)域,但考慮到耒來可能被集成到廣泛的各種視頻應(yīng)用環(huán)境 中,不同的應(yīng)用領(lǐng)域需耍不同類熨的元數(shù)據(jù)分析,其至在新聞視頻管理領(lǐng)域,也會(huì)隨著技術(shù)發(fā) 展不斷產(chǎn)生或更新更有效的元數(shù)據(jù)描述及算法因此,iview后端以系統(tǒng)軟總線模式組織, 提供一個(gè)開放、可擴(kuò)展的支持多模態(tài)融合的視頻媒體分析框架,方便加入新的特征抽取方法, 以便緊密地集成和靈活配置各種現(xiàn)令以及未來可能的元數(shù)據(jù)分析捕獲算法和第三方媒體管理 程序,最終實(shí)現(xiàn)針對(duì)特定應(yīng)

10、用的定制。各種媒體元數(shù)據(jù)分析插件遵從功能接口標(biāo)準(zhǔn)和數(shù)據(jù)交換標(biāo)準(zhǔn),不僅可以直接處理原始數(shù)據(jù) (視頻幀,音軌),也可以存取任何其它元數(shù)據(jù)分析插件牛成的元數(shù)據(jù)。每種不同的元數(shù)據(jù)選 擇被定義為不同的模態(tài)。多種模態(tài)之間的協(xié)作可以完成對(duì)原始視頻內(nèi)容更全而的刻畫。即成組 的插件可以有效合作,交換信息,為視頻索引提供完整框架。此外,符合接口和數(shù)據(jù)交換標(biāo)準(zhǔn) 的元數(shù)據(jù)手工編輯模塊也可以認(rèn)為是一種人工干預(yù)的廣義分析插件。iview對(duì)新聞視頻的采集,歸檔、元數(shù)據(jù)分析提取通過批處理結(jié)合手工編輯模式完成。其 中批處理部分按照標(biāo)準(zhǔn)服務(wù)控制接口模式提供,-般無需用戶干涉。對(duì)入庫信息的編輯則使用 瀏覽器/服務(wù)器體系,使用普通瀏

11、覽器通過網(wǎng)絡(luò)在任意桌而環(huán)境下進(jìn)行,以擺脫環(huán)境對(duì)維護(hù)人員 的束縛。3. 多模態(tài)元數(shù)據(jù)及相關(guān)處理iview系統(tǒng)的核心是開放的視頻媒體分析框架,其功能在于高度自動(dòng)化地建立一套豐富的 多模態(tài)融合的結(jié)構(gòu)化元數(shù)據(jù)索引。所冇元數(shù)據(jù)就象解鎖圖書館中信息價(jià)值的分類卡片一樣,充 當(dāng)對(duì)原始視頻內(nèi)容的引川,并對(duì)其增值。在此基礎(chǔ)上完成視頻搜索、導(dǎo)航、預(yù)覽,并迅速定位 特定視頻節(jié)段用于冋放,在此過程中并不修改原始視頻數(shù)據(jù),也不關(guān)心原始視頻數(shù)據(jù)物理存儲(chǔ)。做為索引素材的視頻元數(shù)據(jù)可大致分為3類:(1)外部環(huán)境中包含的關(guān)于視頻數(shù)據(jù)的各種不同形式的客觀信息,包括創(chuàng)建時(shí)間、長(zhǎng)短、 格式、時(shí)序安排、closed caption文本或

12、tele文本以及其它的關(guān)聯(lián)間接信息等等。(2)通過用戶編輯接口手工標(biāo)注的片段標(biāo)記和手工評(píng)注等。(3)通過各種視頻、音頻信號(hào)分析算法口動(dòng)化抽取的元數(shù)據(jù)。包括關(guān)鍵幀,字幕文本, 語音識(shí)別文本,說話人和人臉定位、識(shí)別,戶內(nèi)、戶外檢測(cè),對(duì)彖(例如主播人頭像、人臉、 logo)進(jìn)入、退出屏幕的檢測(cè)等。3.1視頻分割最終仃效視頻檢索的棊木單位是視頻節(jié)段,依賴于基于內(nèi)容的視頻分割技術(shù)。視頻分割是 執(zhí)行任何數(shù)字視頻內(nèi)容管理的前提環(huán)節(jié)且己得到充分的研究gzi巴本文討論則立足在現(xiàn)有視 頻分割研究基礎(chǔ)上。要指出:做為視頻分割重要依據(jù)的鏡頭邊界探測(cè)受到漸變鏡頭的干擾,為 提高魯棒性,同時(shí)有效檢測(cè)突變和漸變鏡頭,我們基

13、于顏色、形狀邊緣模糊統(tǒng)計(jì)直方圖以及雙 閾值檢測(cè)等多種手段綜合進(jìn)行視頻有效分割。3. 2不同模態(tài)的元數(shù)據(jù)集多模態(tài)元數(shù)據(jù)提取如圖2所示意,篇幅所限,本文不討論具體算法細(xì)節(jié)。iview中接受的 元數(shù)據(jù)模態(tài)包括:關(guān)鍵幀:關(guān)鍵幀是從整個(gè)鏡頭序列中挑選出來的從特定測(cè)度而言最具代表性的,用于表征 整個(gè)鏡頭內(nèi)容的特殊視頻幀。iview為每個(gè)鏡頭產(chǎn)牛一個(gè)關(guān)鍵幀,并提取關(guān)鍵幀顯著顏色、顏 色直方圖、形狀等數(shù)據(jù)描述每個(gè)節(jié)段的不同視覺內(nèi)容。closed captioned文本s美國標(biāo)準(zhǔn)的新聞節(jié)目中在cc文本中包含新聞解說詞,提取并剖 析就對(duì)用于索引目的。歐洲新聞節(jié)目壞境中也包括了類似的teletext文本。這些文本中

14、都有特 殊標(biāo)記指示說話人的改變或是話題、故事的改變,可有效地提供廣播內(nèi)容屮自動(dòng)化的故事分割。數(shù)據(jù)剝離z元數(shù)據(jù)提取算法采 集 的 數(shù) 字 新 聞 視 頻directx幀抓取幀序列人臉探測(cè)vocr鏡頭探測(cè)_ 場(chǎng)景探測(cè)> logo探測(cè)視頻.片段、視頻目錄logo代表幀人臉廣告外部數(shù)據(jù) 表示及交換directx 音軌提職.語音識(shí)別地理編碼 時(shí)間編碼f文木人名摘要上題xml_格式 sm1l輸入點(diǎn)數(shù)據(jù)流多模態(tài)元數(shù)據(jù)存儲(chǔ)以及索引圖2多模態(tài)視頻元數(shù)據(jù)提取示意圖logo標(biāo)記:香港電視節(jié)目與歐洲類似,在節(jié)目中包含電視臺(tái)logo徽記,但廣告中不包含。通過探測(cè)和識(shí)別是否出現(xiàn)logo以及類別,可有效地區(qū)分節(jié)目和廣

15、告視頻。logo的探測(cè)主要基'香港電視新聞中并不包含此類內(nèi)容,iview項(xiàng)ii誕生丁與卡耐基梅龍大學(xué)informedia項(xiàng)目合作,為完整性起 見仍包含對(duì)其討論。于susan邊緣特征的動(dòng)態(tài)局部閾值提取、邊緣圖像增強(qiáng)和聚類匹配方法實(shí)現(xiàn)。人臉標(biāo)識(shí):人臉出現(xiàn)與否是視頻內(nèi)容的一個(gè)重要線索。iview探測(cè)和定位視頻中出現(xiàn)人臉 的時(shí)間和位置,并基于文本和數(shù)字坐標(biāo)描述。人臉的探測(cè)算法基于神經(jīng)網(wǎng)絡(luò)構(gòu)造。字幕文本定位、識(shí)別(vocr):視頻幀中出現(xiàn)的文字,尤其是后期編輯疊加的文木字幕, 往往包含了為局部視頻音頻語義密切相關(guān)的至耍信息,例如新聞小的主題、h期、人名等o iview 通過灰度變化,亮度信息邊緣

16、檢測(cè)、動(dòng)態(tài)局部閾值,侯選區(qū)域增強(qiáng)、由粗到梢的定位分割,并 輔之以字幕文本區(qū)域預(yù)測(cè)、長(zhǎng)寬比、前背呆亮度對(duì)比等先驗(yàn)知識(shí)最終完成字幕文本的自動(dòng)化探 測(cè)定位小1。例如,新聞視頻通常使用屏幕下三分之一區(qū)域顯示場(chǎng)所位置、標(biāo)題、說話者名字, 通過區(qū)域預(yù)測(cè),可以優(yōu)化執(zhí)行性能,縮短計(jì)算時(shí)間。探測(cè)文本的識(shí)別因?yàn)楸尘皬?fù)雜和解析度低 而無法直接運(yùn)川傳統(tǒng)ocr引擎得到良好效果,iview通過多幀增強(qiáng),動(dòng)態(tài)閾值二值化、字符分 割以及基于2維gabor小波特征的模式匹配實(shí)現(xiàn)文本識(shí)別。音頻分割與分類:基于內(nèi)容分割音軌,找出音頻數(shù)據(jù)流中的所有邊界,將其劃分到預(yù)定義 的類別中,例如語咅、咅樂、噪?yún)?、靜默、室內(nèi)、八外等,使得咅頻中

17、每段吋間都賦予一個(gè)分 類。該分割與視頻分割不同,可能存在相互重疊或覆蓋。語音分割與識(shí)別:當(dāng)音頻信號(hào)屮包含語音時(shí),采川兩階段方法檢測(cè)說話者分界,首先檢測(cè) 語音和非語音邊界,然后定位真止說話者語音階段,通過分類判別器區(qū)分是英語、普通話亦或 粵語音頻流,而后通過對(duì)ibm提供的viavoice語音識(shí)別引擎的參數(shù)適應(yīng)性調(diào)整,以實(shí)時(shí)且與說 話人無關(guān)的模式將連續(xù)語音流轉(zhuǎn)換為對(duì)應(yīng)文本。識(shí)別引擎支持多種語言且與領(lǐng)域無關(guān)的語音識(shí) 別。iview主要針對(duì)三種口語,使用識(shí)別詞匯超過65000且詞匯衣口j對(duì)新聞節(jié)目擴(kuò)展定制。雖 然語音識(shí)別的精度依賴于說話人i音、清晰度、,語速、周圍環(huán)境噪音等諸多因素,但即使是 不完美的

18、識(shí)別(不到70%)仍具有很大參考價(jià)值。一般特定單詞的內(nèi)容重要性和出現(xiàn)的頻率成 反比,例如名詞、專有名訶,人名等,攜帶搜索所需的大部分信息。因?yàn)閿y帶重要內(nèi)容的單詞 的識(shí)別精度在知識(shí)輔助前捉下人大高于所有語音詞匯的全體識(shí)別率,在執(zhí)行元數(shù)據(jù)上關(guān)鍵詞類 型的搜索時(shí),語咅識(shí)別文本的效川仍然很顯著。此外我們發(fā)現(xiàn),在特定視頻節(jié)段中,反映上題 的且檢索概率較高的用八感興趣語咅詞匯往往在視頻局部多次重復(fù)岀現(xiàn),即使引擎不能每次都 正確識(shí)別,但只要識(shí)別一兩個(gè)實(shí)例,需要的視頻片段也會(huì)被迅速定位。通過設(shè)計(jì)為新聞?lì)I(lǐng)域定 制的附加關(guān)鍵詞增強(qiáng)和過濾機(jī)制,并使用關(guān)鍵字測(cè)點(diǎn)定位算法用于提供說話人無關(guān)的關(guān)鍵字 音頻定位,可有效提高

19、語音識(shí)別元數(shù)據(jù)的作用?;谥R(shí)的命名實(shí)體標(biāo)識(shí):基于vocr、語咅識(shí)別以及任何文本為主的多模態(tài)元數(shù)據(jù)中的 文木流,借助自定義領(lǐng)域相關(guān)的命名實(shí)體詞典,可抽取包含地理(國家、地區(qū)、城市)、時(shí)間、 組織、人物以及其它專有名詞等稱謂信息,進(jìn)一步構(gòu)成實(shí)體標(biāo)識(shí)元數(shù)據(jù)。結(jié)合知識(shí)庫中的空間 坐標(biāo)、時(shí)間關(guān)系等知識(shí),就可以支持可能涉及特定時(shí)間、地點(diǎn)(包括附近地點(diǎn))以及人物的檢 索。節(jié)段結(jié)構(gòu)描述:系列用戶定義的視頻節(jié)段,每個(gè)節(jié)段具有指定的標(biāo)注信息,包含文本、日期、 數(shù)字等結(jié)構(gòu)描述。定義的節(jié)段描述可以在原始視頻中覆蓋重疊,或保持多對(duì)一關(guān)系。人工評(píng)注文本:類似cc文本的手工文本元數(shù)據(jù),用戶可用來記載任意的間接描述信息。除

20、此之外,iview系統(tǒng)允許任意符合接口標(biāo)準(zhǔn)的自定義元數(shù)據(jù)模態(tài)擴(kuò)展以及對(duì)以上元數(shù)據(jù) 的人工編輯修改。3.3基于參考時(shí)間軸的多模態(tài)元數(shù)據(jù)融合幀序列鏡頭、場(chǎng)景運(yùn)動(dòng)估計(jì)人臉探測(cè)文本探測(cè)主題關(guān)聯(lián)語音識(shí)別音軌數(shù)據(jù)圖3多模態(tài)索引基于時(shí)間線的融合示意圖在上述全方位多模態(tài)元數(shù)據(jù)的基礎(chǔ)上融合并建立索引,就可最終為丿ij戶提供對(duì)原始視頻的 全內(nèi)容檢索。做為多模態(tài)融合的基礎(chǔ),iview中的元數(shù)據(jù)和傳統(tǒng)非時(shí)基系統(tǒng)中數(shù)據(jù)類型的關(guān)鍵 區(qū)別在于共亨的參考時(shí)間軸。在所有的iview元數(shù)據(jù)表示中,時(shí)間編碼是一個(gè)共有的關(guān)鍵成分。 所有的元數(shù)據(jù)元索或者打上一個(gè)時(shí)間戳;或者跨越一段時(shí)間,由一個(gè)進(jìn)入時(shí)間戳屬性和一個(gè)退 出時(shí)間戳屬性表示。

21、iview的時(shí)間模型基于時(shí)間編碼方法的工業(yè)標(biāo)準(zhǔn)smpte,記為hh:mm:ss:ff, ff表示每 秒中的視頻幀數(shù)忖,取值在0到30 (ntsc)或0到25 (pal) z間。因?yàn)閚tsc的幀率實(shí)際 是29.97fps,從0到30計(jì)量會(huì)周期性產(chǎn)牛一個(gè)額外幀,簡(jiǎn)單地用一個(gè)叫“drop幀”的概念解 釋這個(gè)周期性差異。如圖3所示,不同模態(tài)的元數(shù)據(jù)元索參考同一時(shí)間軸實(shí)現(xiàn)關(guān)聯(lián)融合,形成索引中另一層可 以查詢的信息。后繼搜索和瀏覽算法可以基丁此來推斷數(shù)據(jù)元素間的同步關(guān)系并向川戶從全方 位揭示視頻片段內(nèi)容的視聽概覽。4系統(tǒng)前端iview系統(tǒng)前端程序大致分為三個(gè)功能接口。檢索,冋放以及支持交互的、全內(nèi)容關(guān)聯(lián)的

22、 信息可視化接口。檢索主要通過多語言(中、英文)文本關(guān)鍵字和qbe等形式實(shí)現(xiàn),并輔z以基于交互式地 圖的地理主題檢索和基于可視化圖形接口的多丄題檢索。交互式地圖檢索通過在可縮放矢量地 圖上圈定范圍和選擇時(shí)間范圍來逐步縮小、定位關(guān)心的新聞內(nèi)容;可視化圖形交互檢索接口是 指將系統(tǒng)聚類產(chǎn)生的若干個(gè)主題以圖標(biāo)形式呈現(xiàn)在二維或三維空間中,川戶通過選擇并移動(dòng)主 題圖標(biāo)的相對(duì)位置向服務(wù)器詢問感興趣主題,從而逐步縮小范圍,找到需要信息。iview的全內(nèi)容檢索通過服務(wù)器將査詢轉(zhuǎn)換成為對(duì)基于時(shí)間關(guān)聯(lián)的多模態(tài)元數(shù)據(jù)索引的 查詢操作來實(shí)現(xiàn)。其結(jié)果采用標(biāo)準(zhǔn)的xml格式與前臺(tái)交換。事實(shí)上,視頻媒體分析框架產(chǎn)生 的元數(shù)據(jù)與

23、存儲(chǔ)庫的交換也采用與平臺(tái)和應(yīng)用無關(guān)的xml標(biāo)準(zhǔn)。從數(shù)據(jù)結(jié)構(gòu)交換的角度也體 現(xiàn)了系統(tǒng)的開放性設(shè)計(jì),不僅通過開放的視頻媒體分析框架對(duì)以集成各種不同數(shù)字視頻處理功 能,也對(duì)進(jìn)一步采川支持xml的通用框架向各種不同應(yīng)用平臺(tái)提供iview的視頻片段檢索結(jié)果并回放?;趚ml的方案顯著提高了元數(shù)據(jù)的可重用性。元數(shù)據(jù)索引對(duì)以因此和廣泛的系 統(tǒng)互操作,從前端web瀏覽器到后臺(tái)dbms等等。(a)本地檢索瀏覽程序?yàn)檩o助用戶迅速把握主體內(nèi)容,iview繼承并 擴(kuò)展informedia系統(tǒng)屮若干表現(xiàn)于法"川所存 符合檢索條件的視頻片段結(jié)果以關(guān)鍵幀為代農(nóng), 構(gòu)成圖像列表向用八呈現(xiàn),伴隨每個(gè)片段的狀態(tài) 條給出

24、這組視頻片段對(duì)査詢的不同匹配程度。用 八可翻頁尋找需要的內(nèi)容并點(diǎn)擊選擇。被選中的 視頻展開相應(yīng)的由若干離散代表幀構(gòu)成的靜態(tài) 視頻故事板摘要并起到導(dǎo)航作用,輔助用戶在進(jìn) 一步搜索和瀏覽過程i)快速定位。(b) web檢索瀏覽程序(c)無線移動(dòng)pda檢索瀏覽程序圖4 iview不同平臺(tái)的前端應(yīng)用示意圖兇為iview中所有模態(tài)元數(shù)據(jù)白動(dòng)根據(jù)吋間信息關(guān)聯(lián),在播放原始視頻片段的同吋,可以 激活包括棊于交互地圖的地理位置、咅軌識(shí)別文木、vocri題摘要,關(guān)鍵幀等不同元數(shù)據(jù)表 現(xiàn)窗口, 口動(dòng)地以時(shí)間同步模式按需回放,即隨著時(shí)間推移,以時(shí)間同步模式口動(dòng)高亮顯示不 同元數(shù)據(jù)可視化窗口中涉及的關(guān)鍵元素,以輔助用戶

25、全血、迅速理解視頻內(nèi)容。同時(shí)iview也 支持用戶在不同窗口中的相互激活、跳轉(zhuǎn)和關(guān)聯(lián)。最終用戶選定的對(duì)應(yīng)原始視頻將通過內(nèi)部調(diào)用通用視頻播放插件實(shí)現(xiàn)流媒體冋放,目前支 持microsoft media, real, quicktime等格式。因?yàn)椴⑽葱薷脑家曨l,在本地或?qū)拵l件下, 特定視頻片段播放結(jié)束后川戶也可選擇連續(xù)播放后繼視頻繼續(xù)瀏覽。隨著各種無線移動(dòng)網(wǎng)絡(luò)的迅速普及,除了通過固定internet網(wǎng)絡(luò)檢索存取視頻以外,以筆 記木或pda,移動(dòng)電話等移動(dòng)手持設(shè)備在任意時(shí)間、任意地點(diǎn)檢索存取用戶需要的視頻信息也 是未來重要應(yīng)用方向。山于無線網(wǎng)絡(luò)的帶寬資源和手持設(shè)備的計(jì)算能力問題,因此無線視頻以

26、 短的、個(gè)性化的視頻信息片段交換為主要特征,尤其是處于pda、移動(dòng)電話等壞境時(shí)。iview 系統(tǒng)在前端功能全集的呈礎(chǔ)上裁減,以適應(yīng)不同設(shè)備能力。變動(dòng)涉及視頻片段質(zhì)量的調(diào)整,包 括降低分辨率以及抽取少量視頻幀來反映關(guān)鍵的視頻內(nèi)容輪廓i兇并按照smil標(biāo)準(zhǔn)與音軌同步 向用戶提供信息。盡可能在不影響用戶綜合理解的前提下,在有限網(wǎng)絡(luò)條件和視頻內(nèi)容精細(xì)度 之間動(dòng)態(tài)平衡??谇霸赾ompag ipaq的pocketpc屮可以通過802.11或藍(lán)才提供川戶滿意的低 分辨率視頻片段回放;在nokia 7650移動(dòng)電話上可支持連續(xù)語音和連環(huán)畫模式的多代表幀視頻 輪廓的遞送。不同環(huán)境下相應(yīng)的前臺(tái)客戶應(yīng)用程序界血如圖

27、4所示。5結(jié)論及展望iview視頻管理系統(tǒng)用于有效地管理、分布或動(dòng)態(tài)發(fā)布新聞?lì)愋偷牧髅襟w視頻。它將模擬 或數(shù)字新聞視頻通過多模態(tài)的元數(shù)據(jù)抽取改造成為可以充分索引的數(shù)據(jù)類型,并川丁視頻歸檔 和友好人機(jī)交互模式的全內(nèi)容檢索h的:旨先通過視頻采集設(shè)備完成視頻捕捉,然后執(zhí)行口動(dòng) 視覺場(chǎng)景變化檢測(cè),文本字幕檢測(cè)、人臉檢測(cè)、logo籌有意義對(duì)象檢測(cè),執(zhí)行自動(dòng)語音識(shí)別以 及說話人關(guān)聯(lián)等等,抽取的視頻元數(shù)據(jù)進(jìn)一步通過手工標(biāo)注或遠(yuǎn)程處理增強(qiáng);而后執(zhí)行基于時(shí) i'可軸的媒體間交叉索引,并管理多個(gè)針對(duì)不同環(huán)境的視頻編碼程序,最終基于豐富的視頻索引 為視頻發(fā)布者和瀏覽者提供針對(duì)視頻內(nèi)容的不同精細(xì)顆粒度控制。其

28、開放的體系結(jié)構(gòu)設(shè)計(jì)支持 對(duì)數(shù)字視頻環(huán)境中典型設(shè)備、處理技術(shù)以及應(yīng)川的集成。在對(duì)tvb新聞視頻的管理中iview顯 示了良好的效果?;趚ml交換的元數(shù)據(jù)不僅是iview系統(tǒng)的核心,類似元數(shù)據(jù)的發(fā)掘和運(yùn)用也將迅速成 為所有媒體裝配和處理過程的核心功能。為了改善不同元數(shù)據(jù)集之間的互操作以及延續(xù)性,最 近出現(xiàn)的mpeg7多媒體內(nèi)容描述標(biāo)準(zhǔn)針對(duì)內(nèi)容描述的不同方血,為各種各樣的多媒體元數(shù)據(jù) 給出了一個(gè)統(tǒng)一的描述規(guī)范。對(duì)iview而言,下一步發(fā)展基于mpeg7標(biāo)準(zhǔn)的元數(shù)據(jù)交換,以 進(jìn)一步提高開放性,實(shí)現(xiàn)和相關(guān)系統(tǒng)基于標(biāo)準(zhǔn)的協(xié)同。此外,目前iview系統(tǒng)中的語音識(shí)別部分尚只能相對(duì)獨(dú)立地分別處理英語、粵語、普

29、通話 識(shí)別,需要進(jìn)一步考慮三語混合環(huán)境下的語音識(shí)別。6致謝iview得到香港itf創(chuàng)新與科技基金no.its/29/oo及香港研究基金委員會(huì) no.cuhk4222/01e的項(xiàng)目資助,該研究和美國卡耐某梅隆大學(xué)infomedia項(xiàng)目組聯(lián)介開展,使 用的viavoice語咅識(shí)別引擎由中國ibm研究中心提供,新聞視頻數(shù)據(jù)由tvb電視臺(tái)提供,在 此一并致謝。參考文獻(xiàn)ljniblack, w et al. “tho qbtc project: querying images by color, texture and shape” . tbm research report rj-9203. 1993

30、i2sutcliffe, a et al"empirical studies in multimedia information retrievalm 1ntelligent multimedia information retrieval. mai press. 1997. menlo peirk, ca.3 swain. m j , bal lard, d h. "color indexing” . international journal of computer vision. 1991. 7 (1). pl 1-324 vellaikal.a, kuo, c c

31、j “hierarchical clustering techniques for image database organization and summarization multimedia storage and archiving systems iii, proc spie 3527. 199&p 68-795 r m bolle, b l yeo, m m yeu ng. "video query: research directions” .ibm jour nal of research and development. 1998. 42 (2). p233

32、 - 252.6 r. brunelli,0. mich, c. m. modena "a survey on the automatic indexing of video datan journal of visual communi cat ion and tmage representali on. 1999.10(2)p78-112.7 jose m, martine乙 overview of the mpeg7 standard. research report. n4031,1so/1ec jtc1/sc29/wg11. singapore, sg.20018 howa

33、rd dwactlar,m g. christel, y gong, a g hauptmann. "lessons learned from building 日 terabyte digital video libraryw ,ieee computer, 1999. 42(2). p66-739 howard dwactlar et al “inlolligenl access to digital video: the informodia projectv teee computer 1996. 29(5). p46-5210 m brown, j foote, g jon

34、es, k sparck-jones, s young"automatic content-based retrieval of broadcast news"acm multimedia1993sanfrancisco,usa1叮m.bertini,a.del bimbo, p. paia. content-based indexing and retrieval of tv news” . pattern recognition letters.2001. 22(5), p503 - 51612 w zhu, c. toklu, s-p liou. “aulomalic

35、 news video segmonlation and categorization based on closed-captioned text” ieee international conference on multimedia and expo 2001. tokyo, japan13 j vendrig, m worring “evalujition measurement for logical story uni t segmentation in video story soqucncos” , technical report .tntelligont sensory i

36、nformation systems group,university of amsterdam. 200114 a g hauptmci nn, a smith, “text, speech, cind vision for video segme ntati on: the in formed ia project"fall symposium on computer models for integrating langutige and vision.199515 m. cai, j. q. song and m. r. lyu, /za new approach for video text detect ion7". international conference on tmage processing 2002.rochest

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論