iView一個(gè)開放架構(gòu)的數(shù)字視頻管理系統(tǒng)--專業(yè)文檔--專業(yè)文檔

上傳人：伐*** IP屬地：寧夏上傳時(shí)間：2021-12-01 格式：DOCX 頁數(shù)：9 大?。?07.64KB 積分：10.8 舉報(bào) 版權(quán)申訴

iView一個(gè)開放架構(gòu)的數(shù)字視頻管理系統(tǒng)--專業(yè)文檔--專業(yè)文檔_第2頁

iView一個(gè)開放架構(gòu)的數(shù)字視頻管理系統(tǒng)--專業(yè)文檔--專業(yè)文檔_第3頁

iView一個(gè)開放架構(gòu)的數(shù)字視頻管理系統(tǒng)--專業(yè)文檔--專業(yè)文檔_第4頁

iView一個(gè)開放架構(gòu)的數(shù)字視頻管理系統(tǒng)--專業(yè)文檔--專業(yè)文檔_第5頁

已閱讀5頁，還剩4頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 view 一個(gè)開放架構(gòu)的數(shù)字視頻管理系統(tǒng)+michael r. lyu 王煒* edward yau 施群山香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程系摘要：本文分析了一個(gè)基于多模態(tài)元數(shù)據(jù)提取，具有開放架構(gòu)并且支持無線移動(dòng)存取的數(shù)字視頻全內(nèi)容管理系統(tǒng)一一iview.討論了 iview系統(tǒng)的需求，體系框架設(shè)計(jì)實(shí)現(xiàn)，描述了其中涉及的關(guān)鍵技術(shù)思想，并對(duì)存在的問題和研究方向做了簡(jiǎn)單探討。關(guān)鍵詞：視頻數(shù)據(jù)庫元數(shù)據(jù) 多模態(tài) 全內(nèi)容檢索1. 引言隨著圖像、音頻、視頻等多媒體信息的引入和internet網(wǎng)絡(luò)應(yīng)用的普及，傳統(tǒng)的信息檢索存取管理模式己無法滿足対此類非結(jié)構(gòu)化信息進(jìn)行有效管理的客觀需求。近年來成為研究熱

2、點(diǎn) 的基于內(nèi)容的媒體處理技術(shù)則為此類信息的有效管理指出了方向，即慕于內(nèi)容特征提取結(jié)構(gòu)化內(nèi)容描述信息用于輔助多媒體信息的管理lljl2jl3jl4jo做為故普遍且最有效的一種交流媒介，視頻中包含了其它類型媒體，內(nèi)容豐富，因而在如何有效使用和管理上也故有挑戰(zhàn)性。視頻數(shù)據(jù)本身并不支持用戶交互，很大程度上視頻使用是一個(gè)單向體驗(yàn)過程，瀏覽者只是一個(gè)被動(dòng)角色。雖然視頻內(nèi)部存在豐富的未開發(fā)內(nèi)容和知識(shí)，這種未結(jié)構(gòu)化的數(shù)據(jù)已經(jīng)證明很難系統(tǒng)管理：無法直接使川關(guān)鍵字檢索。如果手工注釋，工作量大且具有相當(dāng)?shù)闹饔^隨意性。有效的視頻管理需要像圖帖館系統(tǒng)那樣以某種口動(dòng)方式提取視頻中蘊(yùn)涵的那些未開發(fā)的內(nèi)容和知識(shí)，

3、提供一個(gè)類似卡片索引kl錄的工具來完成視頻歸檔并借此尋找所需內(nèi)容。即視頻必須伴隨一個(gè)結(jié)構(gòu)化內(nèi)容索引，通過創(chuàng)建視頻內(nèi)容的豐富索引，釋放視頻庫中豐富的知識(shí)資源, 把視頻轉(zhuǎn)換成基于索引對(duì)內(nèi)容進(jìn)行精細(xì)顆粒度存取和控制的容易管理的有川信息。h前數(shù)字視頻數(shù)據(jù)量迅速呈海量增長(zhǎng)，遍布廣播、娛樂、企業(yè)、消費(fèi)者市場(chǎng)。例如電視、電影領(lǐng)域最近20年就產(chǎn)牛了數(shù)以百萬小時(shí)計(jì)算的視頻內(nèi)容。除此z外，很多組織也出丁不同需要，生產(chǎn)了大量視頻數(shù)據(jù)，例如銷售、市場(chǎng)、教冇、訓(xùn)練、決策支持、職員、顧客通信等等領(lǐng)域。這就使得對(duì)視頻數(shù)據(jù)庫進(jìn)行有效內(nèi)容管理的需求更加迫切。除了缺乏有效的檢索手段外，傳統(tǒng)的視頻管理也沒有利用到已經(jīng)建立的

4、internet及web使川模式。intemd網(wǎng)絡(luò)的發(fā)展，尤其是無線移動(dòng)網(wǎng)絡(luò)的迅速發(fā)展同時(shí)也要求能夠在任意時(shí)間、任意地點(diǎn)檢索存取到川戶需要的視頻信息。而無線視頻則以短的、個(gè)性化的視頻信息片段交換和娛樂內(nèi)容為其主要特征。本文討論針對(duì)上述問題和趨勢(shì)而開發(fā)的基于多模態(tài)視頻索引的數(shù)字視頻管理系統(tǒng)iview (video over internet and wireless)o首先簡(jiǎn)要介紹支持開放、可仲縮性的系統(tǒng)體系結(jié)構(gòu)，然后從多模態(tài)融合的角度討論系統(tǒng)后臺(tái)屮涉及的元數(shù)據(jù)抽取方法，接著闡述支持多種模式存取的前臺(tái)匕戶檢索、瀏覽平臺(tái)。2. 系統(tǒng)目標(biāo)及體系結(jié)構(gòu)+本文受香港研究基金委員會(huì)項(xiàng)日no.cuh

5、k4222/01e和itf創(chuàng)新與技術(shù)基金項(xiàng)目no.lts/29/o0共同資助。水聯(lián)系作者，王煒 email: .hkiview的目標(biāo)是創(chuàng)建以視頻數(shù)據(jù)為主的分布開放式信息倉儲(chǔ)中心，能夠數(shù)字化、存儲(chǔ)、管理和發(fā)布海量的各種格式的數(shù)字視頻數(shù)據(jù)內(nèi)容，提供綜合的公共視頻信息服務(wù)，并使得有關(guān)用戶可以通過不同網(wǎng)絡(luò)（包括移動(dòng)無線網(wǎng)絡(luò)），不同平臺(tái)來方便快捷地訪問、存取這些內(nèi)容和服務(wù)而不受時(shí)空限制?？紤]到香港文化上的特殊性，iview系統(tǒng)需要適應(yīng)英文、普通話以及粵語等多語言環(huán)境。原始視頻源采集、壓縮視頻媒體分析框架元數(shù)據(jù)提取后端服務(wù)鏡頭事件轉(zhuǎn)錄文木字幕時(shí)間物體位置

6、視頻內(nèi)容多格式、質(zhì)量可視化交互接口搜索、摘要視頻流回放關(guān)聯(lián)可視化表現(xiàn)杳詢接口的端客戶接ii圖1 iview系統(tǒng)體系結(jié)構(gòu)圖視頻媒體索引的構(gòu)造是整個(gè)iview系統(tǒng)的核心，其基礎(chǔ)是視頻元數(shù)據(jù)。元數(shù)據(jù)是用于描述原始視頻資源屬性和內(nèi)容的，機(jī)器可理解的智能化信息，或者說是關(guān)于視頻數(shù)據(jù)資源的特征信息。正是自動(dòng)/半自動(dòng)抽取的元數(shù)據(jù)屮獨(dú)立的眾多數(shù)據(jù)值以及對(duì)這些數(shù)據(jù)值的應(yīng)川使得視頻數(shù)據(jù) 成為真止有用的可搜索的信息資源。雖然近年來在元數(shù)據(jù)定義以及視頻索引領(lǐng)域取得了很大進(jìn) 步，例如mpeg7內(nèi)容描述標(biāo)準(zhǔn)，但本質(zhì)上，具體的元數(shù)據(jù)提取所依賴的算法大部分基于信號(hào)分析，特定的元數(shù)據(jù)而向特定應(yīng)用，無法適應(yīng)普遍應(yīng)用背景。這

7、也是mpeg7只定義元數(shù)據(jù) 的描述的根本原因。為提高系統(tǒng)的實(shí)用性，吸取以往經(jīng)驗(yàn)，iview主要針對(duì)香港tvb電視臺(tái) 授權(quán)采集的2000年以來的部分tvb新聞節(jié)廿構(gòu)成的長(zhǎng)達(dá)數(shù)百小時(shí)的新聞視頻資產(chǎn)庫的管理和檢索來設(shè)計(jì)實(shí)現(xiàn)。iview的開放客戶/服務(wù)器邏輯休系結(jié)構(gòu)如圖1所示。整個(gè)功能框架可分為后端和前端兩大部分。后端涉及數(shù)字新聞視頻的壓縮、采集、歸檔，多模態(tài)元數(shù)據(jù)的提取、索引、融合、以及人工修改、補(bǔ)充、完善和入庫。前端涉及本地的或經(jīng)由各種不同帶寬條件的固定、無線移動(dòng)網(wǎng) 絡(luò)的視頻主題、片段或摘要的檢索，基于多模態(tài)元數(shù)據(jù)融合關(guān)聯(lián)可視化接口以及相應(yīng)視頻媒體遞送組成部分。視頻內(nèi)容與元數(shù)據(jù)相分離是iv

8、iew系統(tǒng)設(shè)計(jì)的一個(gè)關(guān)鍵點(diǎn)，是系統(tǒng)開放性得以保證的基礎(chǔ)。如上所述，元數(shù)據(jù)是自動(dòng)、或半自動(dòng)人工添加結(jié)合的有關(guān)視頻內(nèi)容的有高度價(jià)值的結(jié)構(gòu)化數(shù)據(jù), 充當(dāng)索引并捉供對(duì)視頻的存収。開放性旨先表現(xiàn)在這種分離使得iview能夠集成很大范圍內(nèi)伸縮的數(shù)字視頻格式和技術(shù)。無論最終視頻存儲(chǔ)模式是在線模式（磁盤陣列）、近似在線（磁帶遙控設(shè)備）或是脫線模式（物理磁帶），也無論視頻是mpeg1,mpeg2, mpeg4或其它任何操作系統(tǒng)支持的格式，分離的元數(shù)據(jù)都能有效定位、跟蹤和操縱視頻的一個(gè)或多個(gè)再現(xiàn)?？蓴U(kuò)展的模塊化體系也是iview系統(tǒng)設(shè)計(jì)的開放性考慮z-。因?yàn)榻鉀Q廣泛意義上的圖像理解是非常困難的問題，典型

9、的視覺分析-般限制在一個(gè)狹窄的問題領(lǐng)域。如何針對(duì)不同的視頻應(yīng)用領(lǐng)域構(gòu)造、集成適川的視頻元數(shù)據(jù)及索引對(duì)有效發(fā)揮系統(tǒng)的功效至關(guān)重要l8jl9jo iview系統(tǒng)雖然h前主耍針對(duì)新聞視頻管理領(lǐng)域，但考慮到耒來可能被集成到廣泛的各種視頻應(yīng)用環(huán)境中，不同的應(yīng)用領(lǐng)域需耍不同類熨的元數(shù)據(jù)分析，其至在新聞視頻管理領(lǐng)域，也會(huì)隨著技術(shù)發(fā) 展不斷產(chǎn)生或更新更有效的元數(shù)據(jù)描述及算法因此,iview后端以系統(tǒng)軟總線模式組織, 提供一個(gè)開放、可擴(kuò)展的支持多模態(tài)融合的視頻媒體分析框架，方便加入新的特征抽取方法，以便緊密地集成和靈活配置各種現(xiàn)令以及未來可能的元數(shù)據(jù)分析捕獲算法和第三方媒體管理程序，最終實(shí)現(xiàn)針對(duì)特定應(yīng)

10、用的定制。各種媒體元數(shù)據(jù)分析插件遵從功能接口標(biāo)準(zhǔn)和數(shù)據(jù)交換標(biāo)準(zhǔn)，不僅可以直接處理原始數(shù)據(jù) （視頻幀，音軌），也可以存取任何其它元數(shù)據(jù)分析插件牛成的元數(shù)據(jù)。每種不同的元數(shù)據(jù)選擇被定義為不同的模態(tài)。多種模態(tài)之間的協(xié)作可以完成對(duì)原始視頻內(nèi)容更全而的刻畫。即成組的插件可以有效合作，交換信息，為視頻索引提供完整框架。此外，符合接口和數(shù)據(jù)交換標(biāo)準(zhǔn) 的元數(shù)據(jù)手工編輯模塊也可以認(rèn)為是一種人工干預(yù)的廣義分析插件。iview對(duì)新聞視頻的采集，歸檔、元數(shù)據(jù)分析提取通過批處理結(jié)合手工編輯模式完成。其中批處理部分按照標(biāo)準(zhǔn)服務(wù)控制接口模式提供，-般無需用戶干涉。對(duì)入庫信息的編輯則使用瀏覽器/服務(wù)器體系，使用普通瀏

11、覽器通過網(wǎng)絡(luò)在任意桌而環(huán)境下進(jìn)行，以擺脫環(huán)境對(duì)維護(hù)人員的束縛。3. 多模態(tài)元數(shù)據(jù)及相關(guān)處理iview系統(tǒng)的核心是開放的視頻媒體分析框架，其功能在于高度自動(dòng)化地建立一套豐富的多模態(tài)融合的結(jié)構(gòu)化元數(shù)據(jù)索引。所冇元數(shù)據(jù)就象解鎖圖書館中信息價(jià)值的分類卡片一樣，充當(dāng)對(duì)原始視頻內(nèi)容的引川，并對(duì)其增值。在此基礎(chǔ)上完成視頻搜索、導(dǎo)航、預(yù)覽，并迅速定位特定視頻節(jié)段用于冋放，在此過程中并不修改原始視頻數(shù)據(jù)，也不關(guān)心原始視頻數(shù)據(jù)物理存儲(chǔ)。做為索引素材的視頻元數(shù)據(jù)可大致分為3類：（1）外部環(huán)境中包含的關(guān)于視頻數(shù)據(jù)的各種不同形式的客觀信息，包括創(chuàng)建時(shí)間、長(zhǎng)短、格式、時(shí)序安排、closed caption文本或

12、tele文本以及其它的關(guān)聯(lián)間接信息等等。（2）通過用戶編輯接口手工標(biāo)注的片段標(biāo)記和手工評(píng)注等。（3）通過各種視頻、音頻信號(hào)分析算法口動(dòng)化抽取的元數(shù)據(jù)。包括關(guān)鍵幀，字幕文本，語音識(shí)別文本，說話人和人臉定位、識(shí)別，戶內(nèi)、戶外檢測(cè)，對(duì)彖（例如主播人頭像、人臉、 logo）進(jìn)入、退出屏幕的檢測(cè)等。3.1視頻分割最終仃效視頻檢索的棊木單位是視頻節(jié)段，依賴于基于內(nèi)容的視頻分割技術(shù)。視頻分割是執(zhí)行任何數(shù)字視頻內(nèi)容管理的前提環(huán)節(jié)且己得到充分的研究gzi巴本文討論則立足在現(xiàn)有視頻分割研究基礎(chǔ)上。要指出：做為視頻分割重要依據(jù)的鏡頭邊界探測(cè)受到漸變鏡頭的干擾，為提高魯棒性，同時(shí)有效檢測(cè)突變和漸變鏡頭，我們基

13、于顏色、形狀邊緣模糊統(tǒng)計(jì)直方圖以及雙閾值檢測(cè)等多種手段綜合進(jìn)行視頻有效分割。3. 2不同模態(tài)的元數(shù)據(jù)集多模態(tài)元數(shù)據(jù)提取如圖2所示意，篇幅所限，本文不討論具體算法細(xì)節(jié)。iview中接受的元數(shù)據(jù)模態(tài)包括：關(guān)鍵幀：關(guān)鍵幀是從整個(gè)鏡頭序列中挑選出來的從特定測(cè)度而言最具代表性的，用于表征整個(gè)鏡頭內(nèi)容的特殊視頻幀。iview為每個(gè)鏡頭產(chǎn)牛一個(gè)關(guān)鍵幀，并提取關(guān)鍵幀顯著顏色、顏色直方圖、形狀等數(shù)據(jù)描述每個(gè)節(jié)段的不同視覺內(nèi)容。closed captioned文本s美國標(biāo)準(zhǔn)的新聞節(jié)目中在cc文本中包含新聞解說詞，提取并剖析就對(duì)用于索引目的。歐洲新聞節(jié)目壞境中也包括了類似的teletext文本。這些文本中

14、都有特殊標(biāo)記指示說話人的改變或是話題、故事的改變，可有效地提供廣播內(nèi)容屮自動(dòng)化的故事分割。數(shù)據(jù)剝離z元數(shù)據(jù)提取算法采集的數(shù) 字新聞視頻directx幀抓取幀序列人臉探測(cè)vocr鏡頭探測(cè)_ 場(chǎng)景探測(cè)> logo探測(cè)視頻.片段、視頻目錄logo代表幀人臉廣告外部數(shù)據(jù) 表示及交換directx 音軌提職.語音識(shí)別地理編碼時(shí)間編碼f文木人名摘要上題xml_格式 sm1l輸入點(diǎn)數(shù)據(jù)流多模態(tài)元數(shù)據(jù)存儲(chǔ)以及索引圖2多模態(tài)視頻元數(shù)據(jù)提取示意圖logo標(biāo)記：香港電視節(jié)目與歐洲類似，在節(jié)目中包含電視臺(tái)logo徽記，但廣告中不包含。通過探測(cè)和識(shí)別是否出現(xiàn)logo以及類別，可有效地區(qū)分節(jié)目和廣

15、告視頻。logo的探測(cè)主要基'香港電視新聞中并不包含此類內(nèi)容，iview項(xiàng)ii誕生丁與卡耐基梅龍大學(xué)informedia項(xiàng)目合作，為完整性起見仍包含對(duì)其討論。于susan邊緣特征的動(dòng)態(tài)局部閾值提取、邊緣圖像增強(qiáng)和聚類匹配方法實(shí)現(xiàn)。人臉標(biāo)識(shí)：人臉出現(xiàn)與否是視頻內(nèi)容的一個(gè)重要線索。iview探測(cè)和定位視頻中出現(xiàn)人臉的時(shí)間和位置，并基于文本和數(shù)字坐標(biāo)描述。人臉的探測(cè)算法基于神經(jīng)網(wǎng)絡(luò)構(gòu)造。字幕文本定位、識(shí)別（vocr）：視頻幀中出現(xiàn)的文字，尤其是后期編輯疊加的文木字幕，往往包含了為局部視頻音頻語義密切相關(guān)的至耍信息，例如新聞小的主題、h期、人名等o iview 通過灰度變化，亮度信息邊緣

16、檢測(cè)、動(dòng)態(tài)局部閾值，侯選區(qū)域增強(qiáng)、由粗到梢的定位分割，并輔之以字幕文本區(qū)域預(yù)測(cè)、長(zhǎng)寬比、前背呆亮度對(duì)比等先驗(yàn)知識(shí)最終完成字幕文本的自動(dòng)化探測(cè)定位小1。例如，新聞視頻通常使用屏幕下三分之一區(qū)域顯示場(chǎng)所位置、標(biāo)題、說話者名字，通過區(qū)域預(yù)測(cè)，可以優(yōu)化執(zhí)行性能，縮短計(jì)算時(shí)間。探測(cè)文本的識(shí)別因?yàn)楸尘皬?fù)雜和解析度低而無法直接運(yùn)川傳統(tǒng)ocr引擎得到良好效果，iview通過多幀增強(qiáng)，動(dòng)態(tài)閾值二值化、字符分割以及基于2維gabor小波特征的模式匹配實(shí)現(xiàn)文本識(shí)別。音頻分割與分類：基于內(nèi)容分割音軌，找出音頻數(shù)據(jù)流中的所有邊界，將其劃分到預(yù)定義的類別中，例如語咅、咅樂、噪?yún)?、靜默、室內(nèi)、八外等，使得咅頻中

17、每段吋間都賦予一個(gè)分類。該分割與視頻分割不同，可能存在相互重疊或覆蓋。語音分割與識(shí)別：當(dāng)音頻信號(hào)屮包含語音時(shí)，采川兩階段方法檢測(cè)說話者分界，首先檢測(cè) 語音和非語音邊界，然后定位真止說話者語音階段，通過分類判別器區(qū)分是英語、普通話亦或粵語音頻流，而后通過對(duì)ibm提供的viavoice語音識(shí)別引擎的參數(shù)適應(yīng)性調(diào)整，以實(shí)時(shí)且與說話人無關(guān)的模式將連續(xù)語音流轉(zhuǎn)換為對(duì)應(yīng)文本。識(shí)別引擎支持多種語言且與領(lǐng)域無關(guān)的語音識(shí) 別。iview主要針對(duì)三種口語，使用識(shí)別詞匯超過65000且詞匯衣口j對(duì)新聞節(jié)目擴(kuò)展定制。雖然語音識(shí)別的精度依賴于說話人i音、清晰度、，語速、周圍環(huán)境噪音等諸多因素，但即使是不完美的

18、識(shí)別（不到70%）仍具有很大參考價(jià)值。一般特定單詞的內(nèi)容重要性和出現(xiàn)的頻率成反比，例如名詞、專有名訶，人名等，攜帶搜索所需的大部分信息。因?yàn)閿y帶重要內(nèi)容的單詞的識(shí)別精度在知識(shí)輔助前捉下人大高于所有語音詞匯的全體識(shí)別率，在執(zhí)行元數(shù)據(jù)上關(guān)鍵詞類型的搜索時(shí)，語咅識(shí)別文本的效川仍然很顯著。此外我們發(fā)現(xiàn)，在特定視頻節(jié)段中，反映上題的且檢索概率較高的用八感興趣語咅詞匯往往在視頻局部多次重復(fù)岀現(xiàn)，即使引擎不能每次都正確識(shí)別，但只要識(shí)別一兩個(gè)實(shí)例，需要的視頻片段也會(huì)被迅速定位。通過設(shè)計(jì)為新聞?lì)I(lǐng)域定制的附加關(guān)鍵詞增強(qiáng)和過濾機(jī)制，并使用關(guān)鍵字測(cè)點(diǎn)定位算法用于提供說話人無關(guān)的關(guān)鍵字音頻定位，可有效提高

19、語音識(shí)別元數(shù)據(jù)的作用?；谥R(shí)的命名實(shí)體標(biāo)識(shí)：基于vocr、語咅識(shí)別以及任何文本為主的多模態(tài)元數(shù)據(jù)中的文木流，借助自定義領(lǐng)域相關(guān)的命名實(shí)體詞典，可抽取包含地理（國家、地區(qū)、城市）、時(shí)間、組織、人物以及其它專有名詞等稱謂信息，進(jìn)一步構(gòu)成實(shí)體標(biāo)識(shí)元數(shù)據(jù)。結(jié)合知識(shí)庫中的空間坐標(biāo)、時(shí)間關(guān)系等知識(shí)，就可以支持可能涉及特定時(shí)間、地點(diǎn)（包括附近地點(diǎn)）以及人物的檢索。節(jié)段結(jié)構(gòu)描述：系列用戶定義的視頻節(jié)段，每個(gè)節(jié)段具有指定的標(biāo)注信息，包含文本、日期、數(shù)字等結(jié)構(gòu)描述。定義的節(jié)段描述可以在原始視頻中覆蓋重疊，或保持多對(duì)一關(guān)系。人工評(píng)注文本：類似cc文本的手工文本元數(shù)據(jù)，用戶可用來記載任意的間接描述信息。除

20、此之外，iview系統(tǒng)允許任意符合接口標(biāo)準(zhǔn)的自定義元數(shù)據(jù)模態(tài)擴(kuò)展以及對(duì)以上元數(shù)據(jù) 的人工編輯修改。3.3基于參考時(shí)間軸的多模態(tài)元數(shù)據(jù)融合幀序列鏡頭、場(chǎng)景運(yùn)動(dòng)估計(jì)人臉探測(cè)文本探測(cè)主題關(guān)聯(lián)語音識(shí)別音軌數(shù)據(jù)圖3多模態(tài)索引基于時(shí)間線的融合示意圖在上述全方位多模態(tài)元數(shù)據(jù)的基礎(chǔ)上融合并建立索引，就可最終為丿ij戶提供對(duì)原始視頻的全內(nèi)容檢索。做為多模態(tài)融合的基礎(chǔ)，iview中的元數(shù)據(jù)和傳統(tǒng)非時(shí)基系統(tǒng)中數(shù)據(jù)類型的關(guān)鍵區(qū)別在于共亨的參考時(shí)間軸。在所有的iview元數(shù)據(jù)表示中，時(shí)間編碼是一個(gè)共有的關(guān)鍵成分。所有的元數(shù)據(jù)元索或者打上一個(gè)時(shí)間戳；或者跨越一段時(shí)間，由一個(gè)進(jìn)入時(shí)間戳屬性和一個(gè)退出時(shí)間戳屬性表示。

21、iview的時(shí)間模型基于時(shí)間編碼方法的工業(yè)標(biāo)準(zhǔn)smpte,記為hh:mm:ss:ff, ff表示每秒中的視頻幀數(shù)忖，取值在0到30 (ntsc)或0到25 (pal) z間。因?yàn)閚tsc的幀率實(shí)際是29.97fps,從0到30計(jì)量會(huì)周期性產(chǎn)牛一個(gè)額外幀，簡(jiǎn)單地用一個(gè)叫“drop幀”的概念解釋這個(gè)周期性差異。如圖3所示，不同模態(tài)的元數(shù)據(jù)元索參考同一時(shí)間軸實(shí)現(xiàn)關(guān)聯(lián)融合，形成索引中另一層可以查詢的信息。后繼搜索和瀏覽算法可以基丁此來推斷數(shù)據(jù)元素間的同步關(guān)系并向川戶從全方位揭示視頻片段內(nèi)容的視聽概覽。4系統(tǒng)前端iview系統(tǒng)前端程序大致分為三個(gè)功能接口。檢索，冋放以及支持交互的、全內(nèi)容關(guān)聯(lián)的

22、信息可視化接口。檢索主要通過多語言(中、英文)文本關(guān)鍵字和qbe等形式實(shí)現(xiàn)，并輔z以基于交互式地圖的地理主題檢索和基于可視化圖形接口的多丄題檢索。交互式地圖檢索通過在可縮放矢量地圖上圈定范圍和選擇時(shí)間范圍來逐步縮小、定位關(guān)心的新聞內(nèi)容；可視化圖形交互檢索接口是指將系統(tǒng)聚類產(chǎn)生的若干個(gè)主題以圖標(biāo)形式呈現(xiàn)在二維或三維空間中，川戶通過選擇并移動(dòng)主題圖標(biāo)的相對(duì)位置向服務(wù)器詢問感興趣主題，從而逐步縮小范圍，找到需要信息。iview的全內(nèi)容檢索通過服務(wù)器將査詢轉(zhuǎn)換成為對(duì)基于時(shí)間關(guān)聯(lián)的多模態(tài)元數(shù)據(jù)索引的查詢操作來實(shí)現(xiàn)。其結(jié)果采用標(biāo)準(zhǔn)的xml格式與前臺(tái)交換。事實(shí)上，視頻媒體分析框架產(chǎn)生的元數(shù)據(jù)與

23、存儲(chǔ)庫的交換也采用與平臺(tái)和應(yīng)用無關(guān)的xml標(biāo)準(zhǔn)。從數(shù)據(jù)結(jié)構(gòu)交換的角度也體現(xiàn)了系統(tǒng)的開放性設(shè)計(jì)，不僅通過開放的視頻媒體分析框架對(duì)以集成各種不同數(shù)字視頻處理功能，也對(duì)進(jìn)一步采川支持xml的通用框架向各種不同應(yīng)用平臺(tái)提供iview的視頻片段檢索結(jié)果并回放?；趚ml的方案顯著提高了元數(shù)據(jù)的可重用性。元數(shù)據(jù)索引對(duì)以因此和廣泛的系統(tǒng)互操作，從前端web瀏覽器到后臺(tái)dbms等等。(a)本地檢索瀏覽程序?yàn)檩o助用戶迅速把握主體內(nèi)容,iview繼承并擴(kuò)展informedia系統(tǒng)屮若干表現(xiàn)于法"川所存符合檢索條件的視頻片段結(jié)果以關(guān)鍵幀為代農(nóng)，構(gòu)成圖像列表向用八呈現(xiàn)，伴隨每個(gè)片段的狀態(tài) 條給出

24、這組視頻片段對(duì)査詢的不同匹配程度。用八可翻頁尋找需要的內(nèi)容并點(diǎn)擊選擇。被選中的視頻展開相應(yīng)的由若干離散代表幀構(gòu)成的靜態(tài) 視頻故事板摘要并起到導(dǎo)航作用，輔助用戶在進(jìn) 一步搜索和瀏覽過程i)快速定位。(b) web檢索瀏覽程序(c)無線移動(dòng)pda檢索瀏覽程序圖4 iview不同平臺(tái)的前端應(yīng)用示意圖兇為iview中所有模態(tài)元數(shù)據(jù)白動(dòng)根據(jù)吋間信息關(guān)聯(lián)，在播放原始視頻片段的同吋，可以激活包括棊于交互地圖的地理位置、咅軌識(shí)別文木、vocri題摘要，關(guān)鍵幀等不同元數(shù)據(jù)表現(xiàn)窗口，口動(dòng)地以時(shí)間同步模式按需回放，即隨著時(shí)間推移，以時(shí)間同步模式口動(dòng)高亮顯示不同元數(shù)據(jù)可視化窗口中涉及的關(guān)鍵元素，以輔助用戶

25、全血、迅速理解視頻內(nèi)容。同時(shí)iview也支持用戶在不同窗口中的相互激活、跳轉(zhuǎn)和關(guān)聯(lián)。最終用戶選定的對(duì)應(yīng)原始視頻將通過內(nèi)部調(diào)用通用視頻播放插件實(shí)現(xiàn)流媒體冋放，目前支持microsoft media, real, quicktime等格式。因?yàn)椴⑽葱薷脑家曨l，在本地或?qū)拵l件下, 特定視頻片段播放結(jié)束后川戶也可選擇連續(xù)播放后繼視頻繼續(xù)瀏覽。隨著各種無線移動(dòng)網(wǎng)絡(luò)的迅速普及，除了通過固定internet網(wǎng)絡(luò)檢索存取視頻以外，以筆記木或pda,移動(dòng)電話等移動(dòng)手持設(shè)備在任意時(shí)間、任意地點(diǎn)檢索存取用戶需要的視頻信息也是未來重要應(yīng)用方向。山于無線網(wǎng)絡(luò)的帶寬資源和手持設(shè)備的計(jì)算能力問題，因此無線視頻以

26、短的、個(gè)性化的視頻信息片段交換為主要特征，尤其是處于pda、移動(dòng)電話等壞境時(shí)。iview 系統(tǒng)在前端功能全集的呈礎(chǔ)上裁減，以適應(yīng)不同設(shè)備能力。變動(dòng)涉及視頻片段質(zhì)量的調(diào)整，包括降低分辨率以及抽取少量視頻幀來反映關(guān)鍵的視頻內(nèi)容輪廓i兇并按照smil標(biāo)準(zhǔn)與音軌同步向用戶提供信息。盡可能在不影響用戶綜合理解的前提下，在有限網(wǎng)絡(luò)條件和視頻內(nèi)容精細(xì)度之間動(dòng)態(tài)平衡?？谇霸赾ompag ipaq的pocketpc屮可以通過802.11或藍(lán)才提供川戶滿意的低分辨率視頻片段回放；在nokia 7650移動(dòng)電話上可支持連續(xù)語音和連環(huán)畫模式的多代表幀視頻輪廓的遞送。不同環(huán)境下相應(yīng)的前臺(tái)客戶應(yīng)用程序界血如圖

27、4所示。5結(jié)論及展望iview視頻管理系統(tǒng)用于有效地管理、分布或動(dòng)態(tài)發(fā)布新聞?lì)愋偷牧髅襟w視頻。它將模擬或數(shù)字新聞視頻通過多模態(tài)的元數(shù)據(jù)抽取改造成為可以充分索引的數(shù)據(jù)類型，并川丁視頻歸檔和友好人機(jī)交互模式的全內(nèi)容檢索h的：旨先通過視頻采集設(shè)備完成視頻捕捉，然后執(zhí)行口動(dòng) 視覺場(chǎng)景變化檢測(cè)，文本字幕檢測(cè)、人臉檢測(cè)、logo籌有意義對(duì)象檢測(cè)，執(zhí)行自動(dòng)語音識(shí)別以及說話人關(guān)聯(lián)等等，抽取的視頻元數(shù)據(jù)進(jìn)一步通過手工標(biāo)注或遠(yuǎn)程處理增強(qiáng)；而后執(zhí)行基于時(shí) i'可軸的媒體間交叉索引，并管理多個(gè)針對(duì)不同環(huán)境的視頻編碼程序，最終基于豐富的視頻索引為視頻發(fā)布者和瀏覽者提供針對(duì)視頻內(nèi)容的不同精細(xì)顆粒度控制。其

28、開放的體系結(jié)構(gòu)設(shè)計(jì)支持對(duì)數(shù)字視頻環(huán)境中典型設(shè)備、處理技術(shù)以及應(yīng)川的集成。在對(duì)tvb新聞視頻的管理中iview顯示了良好的效果?；趚ml交換的元數(shù)據(jù)不僅是iview系統(tǒng)的核心，類似元數(shù)據(jù)的發(fā)掘和運(yùn)用也將迅速成為所有媒體裝配和處理過程的核心功能。為了改善不同元數(shù)據(jù)集之間的互操作以及延續(xù)性，最近出現(xiàn)的mpeg7多媒體內(nèi)容描述標(biāo)準(zhǔn)針對(duì)內(nèi)容描述的不同方血，為各種各樣的多媒體元數(shù)據(jù) 給出了一個(gè)統(tǒng)一的描述規(guī)范。對(duì)iview而言，下一步發(fā)展基于mpeg7標(biāo)準(zhǔn)的元數(shù)據(jù)交換，以進(jìn)一步提高開放性，實(shí)現(xiàn)和相關(guān)系統(tǒng)基于標(biāo)準(zhǔn)的協(xié)同。此外，目前iview系統(tǒng)中的語音識(shí)別部分尚只能相對(duì)獨(dú)立地分別處理英語、粵語、普

29、通話識(shí)別，需要進(jìn)一步考慮三語混合環(huán)境下的語音識(shí)別。6致謝iview得到香港itf創(chuàng)新與科技基金no.its/29/oo及香港研究基金委員會(huì) no.cuhk4222/01e的項(xiàng)目資助，該研究和美國卡耐某梅隆大學(xué)infomedia項(xiàng)目組聯(lián)介開展，使用的viavoice語咅識(shí)別引擎由中國ibm研究中心提供，新聞視頻數(shù)據(jù)由tvb電視臺(tái)提供，在此一并致謝。參考文獻(xiàn)ljniblack, w et al. “tho qbtc project: querying images by color, texture and shape” . tbm research report rj-9203. 1993

30、i2sutcliffe, a et al"empirical studies in multimedia information retrievalm 1ntelligent multimedia information retrieval. mai press. 1997. menlo peirk, ca.3 swain. m j , bal lard, d h. "color indexing” . international journal of computer vision. 1991. 7 (1). pl 1-324 vellaikal.a, kuo, c c

31、j “hierarchical clustering techniques for image database organization and summarization multimedia storage and archiving systems iii, proc spie 3527. 199&p 68-795 r m bolle, b l yeo, m m yeu ng. "video query: research directions” .ibm jour nal of research and development. 1998. 42 (2). p233

32、 - 252.6 r. brunelli,0. mich, c. m. modena "a survey on the automatic indexing of video datan journal of visual communi cat ion and tmage representali on. 1999.10(2)p78-112.7 jose m, martine乙 overview of the mpeg7 standard. research report. n4031,1so/1ec jtc1/sc29/wg11. singapore, sg.20018 howa

33、rd dwactlar,m g. christel, y gong, a g hauptmann. "lessons learned from building 日 terabyte digital video libraryw ,ieee computer, 1999. 42(2). p66-739 howard dwactlar et al “inlolligenl access to digital video: the informodia projectv teee computer 1996. 29(5). p46-5210 m brown, j foote, g jon

34、es, k sparck-jones, s young"automatic content-based retrieval of broadcast news"acm multimedia1993sanfrancisco,usa1叮m.bertini,a.del bimbo, p. paia. content-based indexing and retrieval of tv news” . pattern recognition letters.2001. 22(5), p503 - 51612 w zhu, c. toklu, s-p liou. “aulomalic

35、 news video segmonlation and categorization based on closed-captioned text” ieee international conference on multimedia and expo 2001. tokyo, japan13 j vendrig, m worring “evalujition measurement for logical story uni t segmentation in video story soqucncos” , technical report .tntelligont sensory i

36、nformation systems group,university of amsterdam. 200114 a g hauptmci nn, a smith, “text, speech, cind vision for video segme ntati on: the in formed ia project"fall symposium on computer models for integrating langutige and vision.199515 m. cai, j. q. song and m. r. lyu, /za new approach for video text detect ion7". international conference on tmage processing 2002.rochest

人人文庫> 全部分類> 生活休閑 > 科普知識(shí)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

iView一個(gè)開放架構(gòu)的數(shù)字視頻管理系統(tǒng)--專業(yè)文檔--專業(yè)文檔

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

iView一個(gè)開放架構(gòu)的數(shù)字視頻管理系統(tǒng)--專業(yè)文檔--專業(yè)文檔

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔