下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
信息媒體數(shù)字視頻圖書館(idvl)項目的設(shè)計與實現(xiàn)
1關(guān)于創(chuàng)物體的網(wǎng)站開發(fā)信息媒體信息服務(wù)圖書館(idvl)創(chuàng)建于1994年。這是美國數(shù)字圖書館的第一個計劃,也是當時美國唯一的研究視頻信息項目。Informedia項目的參與機構(gòu)以卡內(nèi)基·梅隆大學(xué)為主,合作機構(gòu)包括Microsoft公司、數(shù)字設(shè)備公司、貝爾大西洋網(wǎng)絡(luò)服務(wù)公司、QED廣播公司、英格蘭米爾頓《基尼斯的開放大學(xué)、溫徹斯特Thurston中學(xué)和費爾法克斯縣的公立學(xué)校等,目標是建立一個聯(lián)機交互的在線數(shù)字視頻圖書館系統(tǒng),使用戶能夠通過網(wǎng)絡(luò)查詢、檢索和獲取科學(xué)與數(shù)學(xué)方面的視聽資料。Informedia項目的網(wǎng)址為/,主頁如圖1所示。Informedia項目的開發(fā)經(jīng)歷了兩個階段:1994—1998年為第一階段,稱為Informedia-Ⅰ;1999年以后為第二階段,稱為Informedia-Ⅱ。Informedia-I是DLI-Ⅰ的一個組成部分,接收美國國家科學(xué)基金會(NSF)、美國國防部高級研究計劃署(DARPA)和美國宇航局(NASA)480萬美元的資助,目標是賦予音頻、視頻在查詢、檢索、分類和摘要各方面與文字文獻相同的功能。Informedia-Ⅱ在DLI-Ⅱ中繼續(xù)得到400萬美元資助,除DLI-Ⅰ的三個贊助單位(NSF、DARPA和NASA)外,贊助單位還增加了美國醫(yī)學(xué)圖書館、美國國會圖書館、美國人文學(xué)科基金會、美國聯(lián)邦調(diào)查局,目標是繼續(xù)在視頻信息處理方面進行探索,增強視頻信息提取的速度和準確性,加強信息的顯示能力,有效處理大量視頻文獻,提高系統(tǒng)的訪問效率。2資源組織2.1家庭暴力錄像及教育錄像制品Informedia系統(tǒng)提供對現(xiàn)在和過去的電視、廣播新聞、紀錄片和廣播的全文查詢及檢索。自1994年開始,卡內(nèi)基·梅隆大學(xué)的信息媒體項目對來自CNN的新聞視頻信息、英國開放大學(xué)、QED通信機構(gòu)(QEDCommunications)、發(fā)現(xiàn)頻道(theDiscoveryChannel)以及美國許多政府機構(gòu)(如美國宇航局、國家公園服務(wù)處NationalParkService、美國地質(zhì)調(diào)查局U.S.GeologicalSurvey等)的紀錄片及教育錄像制品進行數(shù)字化。Informedia項目的開始階段,該系統(tǒng)通過網(wǎng)絡(luò)向用戶提供1000小時的錄像資料;2000年,視頻數(shù)字圖書館己擁有2000小時5000個片段的視頻信息,并且繼續(xù)以每周10小時的速度增長;到2002年,Informedia系統(tǒng)擁有2TB的每日新聞和公眾電視、政府機構(gòu)的紀錄片,視頻信息已經(jīng)增加到大約3000小時。2.2文本與視頻信息的融合Informedia系統(tǒng)以全自動化的方式對每天的內(nèi)容進行捕獲和信息抽取,并把它們存儲在在線檔案中;利用廣播電視節(jié)目中的腳本信息構(gòu)造文本索引,通過語音識別器將伴音轉(zhuǎn)換為文本;使用視頻分析模塊提取人臉特征、疊加在屏幕上的文本和視頻鏡頭邊界等,然后將這些信息全部綁定形成最終的索引結(jié)構(gòu),支持快速多媒體相似檢索;同時,允許根據(jù)聲道、封閉字幕和屏幕上的文本對個別視頻段落進行快速檢索,支持任意說出的或文字輸入的主題詞提問;它還能夠?qū)ο嗨频哪樅蛨D像進行匹配。該系統(tǒng)能將文本和視頻信息融合起來,尤其是把底層和中層的視頻特征,包括鏡頭邊界、人臉等,與語音識別出來的伴隨文本和視頻的字符識別(OpticalCharacterRecognition,簡稱OCR)出來的鏡頭標題和字幕集成起來使用。為了提高視頻信息的檢索效果,Informedia視頻數(shù)字圖書館對錄像制品進行自動編碼處理,并從中提取有關(guān)信息生成地點附注。在該檢索界面中,可以將特定事件與其發(fā)生地建立關(guān)聯(lián),實現(xiàn)從事件、時間到地點的論題檢索,或從地點入手檢索視頻信息的空間查詢方法。在信息媒體圖書館視頻信息中,描述性的文本信息是地點附注(GeographicReference)的主要來源。通過對視頻文件中的文本元數(shù)據(jù)進行信息源處理,就能產(chǎn)生地理編碼。Informedia圖書館項目所使用地名詞典是從環(huán)境系統(tǒng)研究所(EnvironmentalSystemsResearchInstitute,ESRI)的世界地名詞典中派生出來的數(shù)據(jù)子集。該地名數(shù)據(jù)子集包括全世界約300個國家、州、行政實體以及17000個主要城市。經(jīng)過處理,最后將文本元數(shù)據(jù)和視頻的播放時間聯(lián)系起來,并根據(jù)與之對應(yīng)的地理編碼簿標出該地的經(jīng)度和緯度。同時,對文本式的元數(shù)據(jù)進行語法分析,從中抽取包含地名的句子。通過對來源元數(shù)據(jù)的上下文分析,系統(tǒng)能夠辨別它們的不同含義,確定它是人名還是地名,并按專有名詞歸類,從而更精確地表示其地理方位。3技術(shù)屬性3.1信息發(fā)布模塊卡內(nèi)基·梅隆大學(xué)Informedia數(shù)字視頻圖書館的主頁設(shè)計清晰實用(圖1),使用戶能夠在最短的時間內(nèi)方便快速地找到Informedia項目的具體內(nèi)容。頁面整體可分為三大部分,最上面是頁面的logo;下左方是主菜單模塊,各個主題菜單依次順延,可以直接瀏覽進入Informedia各個子項目以及該項目的出版物、團隊和更新情況等,主菜單的下面還提供了谷歌搜索,并設(shè)有檢索框;下正中模塊包括項目的基本內(nèi)容介紹、研究成果介紹和聯(lián)系方式,還提供了Informedia的大事年表。這種設(shè)計風(fēng)格讓讀者易接近,方便讀者對該項目進行了解、評價。3.2形態(tài)、信息和神經(jīng)系統(tǒng)的技術(shù)Informedia-I把語音、視頻、圖像與自然語言理解技術(shù)相集成,將語音、圖像和自然語言理解相互融合,以實現(xiàn)智能搜索和圖像檢索為目的,對線性視頻進行自動轉(zhuǎn)錄、分段和索引。采用高質(zhì)量的語音識別系統(tǒng)把視頻錄像帶上的音頻內(nèi)容轉(zhuǎn)換成文本文件,然后通過語言識別系統(tǒng)的分析和組織,把文件保存到全文信息檢索系統(tǒng)中。同樣,在視頻流的自動切割中,應(yīng)用了圖像識別技術(shù)來確定邊界。這些工具也同樣運用在智能視頻監(jiān)視、導(dǎo)航和選擇性檢索中。這個過程自動為每個故事片段生產(chǎn)各種摘要,如標題、幻燈影片的故事概要和視頻速覽。在Informedia-II系統(tǒng)中,采用了視頻文件集的摘要、多模型查詢、自適應(yīng)總結(jié)和基于本體的視頻檢索(videoindexingontology)等技術(shù),提高了系統(tǒng)的訪問效率。將各種音視頻信息拼貼在一起是該階段的關(guān)鍵技術(shù),這一技術(shù)是通過加強對信息顯示能力的研究來實現(xiàn)的,能夠更有效地處理大量視頻文獻。拼貼技術(shù)可以讓用戶方便查詢數(shù)字視頻圖書館中不同方面的信息,具有可擴展和基于語義縮放的特點。基于本體的視頻檢索技術(shù)利用本體在概念級建模多媒體語義內(nèi)容,使用構(gòu)建的概念本體作為多媒體語義內(nèi)容標注、索引和用戶檢索概念匹配的統(tǒng)一術(shù)語集,以提高多媒體內(nèi)容標注的有效性和檢索的準確性。在Ontology的應(yīng)用中基于MPEG-7國際標準,解決對多媒體信息描述的標準問題。同時,采用XML可拓展標記語言與Ontology結(jié)合應(yīng)用。Informedia-II系統(tǒng)還可以從語音識別系統(tǒng)和視頻流的OCR輸出中抽取命名實體,并綜合多個特征來獲取更好的查詢結(jié)果。Informedia數(shù)字視頻圖書館系統(tǒng)結(jié)構(gòu)原型是在一個商業(yè)化的關(guān)系數(shù)據(jù)庫系統(tǒng)上建立的,并把所有的分析模塊和元數(shù)據(jù)轉(zhuǎn)移過去。目前的系統(tǒng)使用Informix,但是可以在很多標準的關(guān)系數(shù)據(jù)庫系統(tǒng)上運行(如Oracle、Sybase)。為了減少系統(tǒng)遷移時客戶端的改變,系統(tǒng)提供了新的應(yīng)用程序接口,可以分離數(shù)據(jù)庫、查詢模塊和視頻文件,這種結(jié)構(gòu)還提供了函數(shù)和數(shù)據(jù)的復(fù)制功能。4信息服務(wù)4.1研究用可視化知識,滿足用戶需求Informedia項目致力于將多媒體的信息應(yīng)用于教育、信息和娛樂的環(huán)境中,主要目標用戶是廣大的教育工作者,包括小學(xué)、中學(xué)和大學(xué)的學(xué)生、老師和教授,使用戶能進入、開發(fā)、檢索利用可視文獻,并通過公共學(xué)校系統(tǒng)為函授大學(xué)設(shè)計可視教程,滿足用戶對錄像和視頻信息的檢索需求。4.2數(shù)字視頻檢索系統(tǒng)在視頻信息的檢索方面,用戶最關(guān)心的是快速找到符合自己需求的視頻情節(jié)或片段。Informedia項目開發(fā)了信息可視化界面,可以讓用戶瀏覽整個檢索結(jié)果,而不對結(jié)果集進行耗費時間的重新排序和在結(jié)果集內(nèi)往返移動。同時,在錄像片段的收集過程中自動提供文摘,即根據(jù)豐富的信息資源自動生成元數(shù)據(jù),并將自動生成的視頻文摘與揭示人物、事件、機構(gòu)、論題以及地點和時間的“視頻拼貼畫”聯(lián)系起來。這些拼貼畫(關(guān)鍵視頻幀)是從眾多的錄像片段中提取出來的信息。Informedia數(shù)字視頻檢索系統(tǒng)(IDVL)如圖2所示,允許用戶訪問、挖掘和檢索海量的數(shù)字視頻庫。例如,檢索厄爾尼諾效應(yīng)時,1997年初它所影響的地區(qū)和1998年影響的地區(qū)是不同的,在地圖上顯示的“點”分布的情況也不同。圖2展示了IDVL接口顯示12個從“ElNinno”查詢返回的文檔以及不同多媒體從這些文檔中提取的信息。左上屏幕是檢索詞輸入欄,左下屏幕是查詢返回的文檔,右側(cè)屏幕是不同多媒體從這些文檔中提取的信息。當選中一個視頻時,在右下屏幕將播放該視頻,并且在其下面,也將顯示真正的文本,其中“ElNifno”一詞會突出顯示。關(guān)鍵視頻幀匯集了最能反映錄像中心內(nèi)容的畫面,同時也可以讓用戶聚焦于自己感興趣的某些特殊細節(jié)。Informedia-II項目增強了底層信息提取的速度以及準確性,還包括對名字、地點、日期和時間引用的解釋,并且增加了對動態(tài)事件片段、語音以及人臉識別和視頻事件特征的識別。概要信息而不是文檔本身成為敘述的單元,如圖3所示。視頻源可以在這些概要的上下文中看到,以顯示事件如何隨時間跨越地理邊界發(fā)展,從而允許從時間和空間視角來展現(xiàn)。5個平臺特性卡內(nèi)基梅隆大學(xué)的Informedia項目是六個初始NSF/DLI-Ⅰ項目之一,是其中唯一一個著眼于視頻媒體的項目,開創(chuàng)了一個專注于方便用戶訪問以及檢索視頻信息的時代。自1994年至今,該項目一直在深入地開發(fā)數(shù)字視頻及其相關(guān)的技術(shù)和工具。Informedia數(shù)字視頻圖書館使用戶能夠從視頻數(shù)字圖書館里接近、探索和檢索科學(xué)資料,已成為數(shù)字圖書館建設(shè)中一個比較成功的范例。其優(yōu)勢主要體現(xiàn)在:一、資金和設(shè)備基礎(chǔ)方面,Informedia項目起步早,獲得機構(gòu)的資助合作較多,對信息資源采集整理有較好的設(shè)備和技術(shù)支持;二、資源建設(shè)方面,以視頻、音頻多媒體資源建設(shè)為重點,資源優(yōu)勢獨特,滿足教育、信息和娛樂用戶對錄像和視頻的檢索需求;三、檢索方面,不僅賦予視頻檢索具有文本檢索中的所有功能,自動進行內(nèi)容獲取,信息提取以及在線存檔,還增強了視頻信息提取的速度以及準確性,提高了系統(tǒng)的訪問效率;四、服務(wù)方面,Informedia系統(tǒng)的視頻音頻自動標引、導(dǎo)航、可視化、搜索與檢索,以及在此基礎(chǔ)上的多模型查詢、視頻的自動提供摘要等功能給用戶提供了莫大的便利,是很有針對性的特色服務(wù)。視頻信息除了用日期、時間、論題檢索外,還可以通過定位等方式進行檢索。文字檢索的結(jié)果可顯示在一幅地圖上,并選擇自己喜歡的方式進行揭示,這些都改進了信息的展現(xiàn)方式。授權(quán)的用戶可以按時間的模式對視頻圖書館中的所有元數(shù)據(jù)進行管理。雖然Informedia數(shù)字視頻圖書館有很多優(yōu)勢,但在發(fā)展建設(shè)中也有一些應(yīng)注意的問題:一、文本、視頻、音頻三者融合的方法適用于帶有非常清楚的語音、文字的視頻,如教育片、紀錄片。但是對于包括復(fù)雜類型聲音的視頻,如故事片,這種文字或關(guān)鍵詞的方法就可能難以達到令人滿意的的效果。二、靜態(tài)視頻摘要和全景拼接圖方式實現(xiàn)的方法相對比較簡單,在一定程度上能夠滿足人們?yōu)g覽信息的需要。但是靜態(tài)視頻摘要和全景拼接作瀏覽時把視頻中的很多東西都丟失了,造成瀏覽信息的片面。三、基于文字的視頻摘要方式,由于需要有清晰的人工文字,且OCR系統(tǒng)也并非十全十美,因而限制了摘要
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025大豆買賣合同
- 2025房屋出租合同范本
- 2025品牌酒類買賣合同
- 物業(yè)公司保潔外包合同范本(7篇)
- 現(xiàn)代物流中的智能灌裝機技術(shù)應(yīng)用探討
- 科技廚房中的智能餐具及其使用技巧
- 課題申報參考:跨文化傳播中的話語體系建設(shè)與國家形象塑造研究
- 教育游戲在促進學(xué)生合作學(xué)習(xí)中的作用
- 科技型企業(yè)的綠色實驗室建設(shè)策略
- 數(shù)學(xué)游戲在鞏固小學(xué)基礎(chǔ)知識中的作用
- 中華人民共和國保守國家秘密法實施條例培訓(xùn)課件
- 管道坡口技術(shù)培訓(xùn)
- 2024年全國統(tǒng)一高考英語試卷(新課標Ⅰ卷)含答案
- 2024年認證行業(yè)法律法規(guī)及認證基礎(chǔ)知識 CCAA年度確認 試題與答案
- 皮膚儲存新技術(shù)及臨床應(yīng)用
- 外研版七年級英語上冊《閱讀理解》專項練習(xí)題(含答案)
- 2024年遼寧石化職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫必考題
- 上海市復(fù)旦大學(xué)附中2024屆高考沖刺模擬數(shù)學(xué)試題含解析
- 幼兒園公開課:大班健康《國王生病了》課件
- 小學(xué)六年級說明文閱讀題與答案大全
- 人教pep小學(xué)六年級上冊英語閱讀理解練習(xí)題大全含答案
評論
0/150
提交評論