![第七章-多媒體信息檢索課件_第1頁](http://file4.renrendoc.com/view/5a27790ed8a8ddaf1489883ac9f7ac51/5a27790ed8a8ddaf1489883ac9f7ac511.gif)
![第七章-多媒體信息檢索課件_第2頁](http://file4.renrendoc.com/view/5a27790ed8a8ddaf1489883ac9f7ac51/5a27790ed8a8ddaf1489883ac9f7ac512.gif)
![第七章-多媒體信息檢索課件_第3頁](http://file4.renrendoc.com/view/5a27790ed8a8ddaf1489883ac9f7ac51/5a27790ed8a8ddaf1489883ac9f7ac513.gif)
![第七章-多媒體信息檢索課件_第4頁](http://file4.renrendoc.com/view/5a27790ed8a8ddaf1489883ac9f7ac51/5a27790ed8a8ddaf1489883ac9f7ac514.gif)
![第七章-多媒體信息檢索課件_第5頁](http://file4.renrendoc.com/view/5a27790ed8a8ddaf1489883ac9f7ac51/5a27790ed8a8ddaf1489883ac9f7ac515.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、多媒體信息檢索南京中醫(yī)藥大學(xué)文獻(xiàn)檢索教研室教學(xué)內(nèi)容多媒體信息檢索基礎(chǔ)知識多媒體信息檢索的方式多媒體信息檢索的分類檢索概述多媒體:把不同的但相互關(guān)聯(lián)的媒體集成在一起而產(chǎn)生的一種存儲、傳播和表現(xiàn)信息的載體,通常包括文本、音頻、圖形、圖像、動畫和視頻。多媒體信息:是各種媒體的組合體,即將音頻、視頻、圖像和計(jì)算機(jī)技術(shù)、通信技術(shù)集成到同一數(shù)字環(huán)境中,以協(xié)同表示更豐富和復(fù)雜的信息。多媒體信息檢索:是多媒體信息的特征元數(shù)據(jù)提取、索引建庫,相似度匹配運(yùn)算,識別和返回用戶所需信息,通過與用戶之間的反饋,不斷優(yōu)化、調(diào)整顯示結(jié)果的過程。多媒體信息的特點(diǎn)數(shù)據(jù)量龐大數(shù)據(jù)類型繁多相關(guān)性強(qiáng),同步性高動態(tài)性強(qiáng)多媒體信息的分類
2、按作用于人體感官形式劃分視覺類媒體:點(diǎn)陣圖像、矢量圖形、動畫、視頻、符號和文字等聽覺類媒體:波形聲音、語音和音樂等觸覺類媒體:環(huán)境媒體,如皮膚感覺的溫度、濕度活動媒體抽象事實(shí)媒體按照國際電信聯(lián)盟ITU-T 建議劃分感覺媒體表示媒體表現(xiàn)媒體存儲媒體傳輸媒體重點(diǎn)討論的是感覺媒體和表示媒體,即聲音、圖形、圖像、文字、視頻和動畫等圖形與圖像圖形與圖像文件通?;旆Q為圖片文件。特性分辨率 :圖片文件都要在計(jì)算機(jī)的顯示器屏幕上顯示出來,顯示器是用均勻排列的像素來顯示畫面的,因此文件也是由許多的像素來組成。一張圖片其橫行的像素個數(shù)和豎列的像素個數(shù)便決定了該圖片的大小。如800600,1024768顏色數(shù):通常
3、,圖片顏色數(shù)的可能的取值有:2色(這時圖片只有黑白兩色)、16色、256色、16位增強(qiáng)色(共216即65536種顏色)、24仿真彩色(共224即16777216種顏色)等。自然圖片的顏色數(shù)越多,圖片的視覺效果就越好。圖片文件的格式類型位圖:是由許多個像素點(diǎn)組成的圖片,相應(yīng)的圖片文件記錄了圖形或圖像的每一個像素點(diǎn)的位置及代表該像素顏色的數(shù)值等信息。根據(jù)有無壓縮或壓縮的方法等,該類型的圖片文件又分為許多種格式,如:.bmp圖 、.tif圖 、.gif圖 、.jpg圖。矢量圖:是計(jì)算機(jī)通過數(shù)學(xué)運(yùn)算而產(chǎn)生的圖形,而不是像位圖那樣逐點(diǎn)描述的,因此,該圖形所占容量很小,而且它的顯示效果不受大小或顯示器分辨
4、率的影響。矢量圖的文件格式視生成它的軟件的不同而不同。矢量圖形格式也很多,如AdobeIllustrator的*.AI、*.EPS和SVG、AutoCAD的*.dwg和dxf、CorelDRAW的*.cdr、windows標(biāo)準(zhǔn)圖元文件*.wmf和增強(qiáng)型圖元文件*.emf等等。聲音波形音頻:是從真實(shí)的聲音錄制并數(shù)字化后而得到的一種聲音文件,這樣的一個過程稱為聲音采樣。采樣頻率越高,錄制的聲音效果就越好,需要花費(fèi)的代價是聲音文件需要的存儲空間加大了。波形音頻文件常見的格式有: Wave文件(*.wav) 、MPEG音頻文件(.mp1.mp2.mp3)、RealAudio文件(ra.rm.ram)
5、、WMA(.wma)格式 。MIDI是樂器數(shù)字接口(Musical Instuments Digital Interface)的英文縮寫,是數(shù)字音樂電子合成樂器的統(tǒng)一的國際標(biāo)準(zhǔn)。MIDI音樂是利用電子合成技術(shù)來模擬各種樂器音效的方法生成,它并不對聲音進(jìn)行采樣和量化,記錄的也不是聲音本身,它只是像記錄樂譜一樣將每個音符記錄為一個類似樂譜符號的數(shù)字,并且規(guī)定了各種音調(diào)的混合發(fā)音,最后通過合成器將這些數(shù)字轉(zhuǎn)化為對應(yīng)的音效進(jìn)而組合成為音樂播出。MIDI文件的數(shù)據(jù)量要比波形音頻文件小得多,可用于滿足播放較長時間的音樂需要。MIDI音樂畢竟是電子合成模擬的,其聲音效果遠(yuǎn)不如真實(shí)樂器的效果,而且回放的質(zhì)量受
6、聲卡的影響比較大。視頻幀 :數(shù)字視頻利用人的眼睛的視覺暫留原理,將一系列順序排列的靜態(tài)畫面連續(xù)播放,從而產(chǎn)生動態(tài)效果,其中的每一個畫面就是該視頻文件的一幀。 全運(yùn)動播放:播放速度在30幀s以上,播放的效果才不會感到跳躍和閃爍,這樣的播放速度即所謂全運(yùn)動播放。 全屏幕播放:視頻的播放滿足畫面大小為640 x 480以上、顏色在256色以上,即可以在整個顯示器屏禁區(qū)域播放,而不僅僅是在一個小窗口播放,即為全屏幕播放。數(shù)字視頻文件格式動畫文件:指由相互關(guān)聯(lián)的若干幀靜止圖象所組成的圖象序列,這些靜止圖象連續(xù)播放便形成一組動畫,通常用來完成簡單的動態(tài)過程演示;該類型的圖片文件又分為許多種格式,如:GIF
7、文件.GIF。影像文件:主要指那些包含了實(shí)時的音頻、視頻信息的多媒體文件,其多媒體信息通常來源于視頻輸入設(shè)備,由于同時包含了大量的音頻、視頻信息。 如AVI文件(.AVI ) 、QuickTime文件(.MOV/.QT )、MPEG文件 (.MPEG/.MPG/.DAT )、RealVideo文件 (.RM )。數(shù)字視頻文件格式AVI:Video for Windows所使用的文件稱為音頻-視頻交錯文件(Audio-Video Interleaved),文件擴(kuò)展名為AVI。AVI格式的文件將視頻信號和音頻信號混合交錯地存儲在一起,是一種不需要專門硬件參與就可以實(shí)現(xiàn)大量視頻壓縮的視頻文件格式。在
8、各種多媒體演示系統(tǒng)中被廣泛應(yīng)用。AVI文件使用的壓縮方法有好幾種,主要使用有損壓縮,壓縮比高。MOV文件:MOV文件格式是Quick for Windows視頻處理軟件所選用的視頻文件格式,與AVI文件格式相同,MOV文件也采用Intel公司的Indeo視頻有損壓縮技術(shù)以及視頻信息與音頻信息混排技術(shù),一般認(rèn)為,MOV文件的圖像質(zhì)量較AVI格式好。它是Macintosh計(jì)算機(jī)用的視頻文件格式。MPG文件格式:PC機(jī)上的全屏幕活動視頻的標(biāo)準(zhǔn)文件為MPG格式文件,也稱為系統(tǒng)文件或隔行數(shù)據(jù)流。DAT文件格式:DAT是Video CD或Karaoke CD(卡拉 OK)數(shù)據(jù)文件的擴(kuò)展名,也是基于MPEG
9、壓縮方法的一種文件格式。 DIR文件格式:DIR是Macromedia公司使用的Director多媒體著作工具產(chǎn)生的電影文件格式。數(shù)字視頻文件格式多媒體應(yīng)用中使用的動畫文件主要有GIF、AVI、SWF等等。GIF文件:可保存單幀或多幀圖像,支持循環(huán)播放。GIF文件小,是網(wǎng)絡(luò)唯一支持的動畫圖形格式,在因特網(wǎng)上非常流行。GIF與JPG的區(qū)別在于它支持透明格式,雖然圖像壓縮比不及JPG文件,但是具有更快的傳送速度。SWF文件:是Macromedia公司的Flash動畫文件格式,需要用專門的播放器才能播放,所占內(nèi)存空間小,在網(wǎng)頁上使用廣泛。多媒體數(shù)據(jù)庫是多媒體技術(shù)與數(shù)據(jù)庫相結(jié)合產(chǎn)生的一種新型數(shù)據(jù)庫。常
10、包括圖像數(shù)據(jù)庫、視頻數(shù)據(jù)庫和音頻數(shù)據(jù)庫構(gòu)造方法在關(guān)系數(shù)據(jù)庫的基礎(chǔ)上構(gòu)造多媒體數(shù)據(jù)庫在面向?qū)ο髷?shù)據(jù)庫的基礎(chǔ)上構(gòu)造多媒體數(shù)據(jù)庫分布式超媒體數(shù)據(jù)庫多媒體數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫的區(qū)別處理的數(shù)據(jù)對象、數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)模型和應(yīng)用對象都不同、處理方式也不同。多媒體數(shù)據(jù)庫存儲和處理復(fù)雜對象,其存儲技術(shù)需要增加新的功能,如數(shù)據(jù)壓縮和解壓。多媒體數(shù)據(jù)庫面向應(yīng)用,沒有單一的數(shù)據(jù)模型適應(yīng)所有情況多媒體數(shù)據(jù)庫強(qiáng)調(diào)媒體獨(dú)立性多媒體數(shù)據(jù)庫強(qiáng)調(diào)對象的物理表現(xiàn)和交互方式,強(qiáng)調(diào)最終用戶界面的靈活性和多樣性。多媒體數(shù)據(jù)庫具有更強(qiáng)的對象訪問手段。多媒體數(shù)據(jù)模型擴(kuò)充關(guān)系模型:關(guān)系數(shù)據(jù)庫中存儲了多媒體對象的位置信息,如關(guān)鍵詞、 文本
11、標(biāo)題、數(shù)據(jù)的存儲路徑及名稱等描述信息面向?qū)ο蟮臄?shù)據(jù)模型: OODB,利用ODQL語言實(shí)現(xiàn)數(shù)據(jù)庫的查詢,在SQL功能的基礎(chǔ)之上增加了適合基于內(nèi)容檢索的機(jī)制,如復(fù)雜的信息建模能力。超媒體數(shù)據(jù)模型P297多媒體信息檢索的流程主要工作流程: 內(nèi)容獲取、內(nèi)容描述、內(nèi)容操作先對原始媒體進(jìn)行處理,提取內(nèi)容,然后用標(biāo)準(zhǔn)形式對它們進(jìn)行描述,來支持用戶對內(nèi)容的操作。內(nèi)容獲取通過各種內(nèi)容分析和處理,而獲得媒體內(nèi)容的過程,它包括信息分割、特征提取兩個部分。信息分割分成圖像分割與視頻分割。內(nèi)容獲取核心是特征提取。特征提取就是提取內(nèi)容顯著的特征和人的視覺、聽覺方面的感知特征來表示媒體和媒體對象的性質(zhì),特征提取有自動特征提
12、取和人工交互或提取兩種方式。多媒體信息檢索的方式基于文本方式的多媒體信息檢索基于內(nèi)容的多媒體信息檢索基于文本方式的多媒體信息檢索首先對多媒體進(jìn)行人工分析并抽取反映該多媒體物理性和內(nèi)容特征的關(guān)鍵詞,然后對這些關(guān)鍵詞進(jìn)行文字著錄或標(biāo)引,建立類似于文本文獻(xiàn)的標(biāo)引著錄數(shù)據(jù)庫,從而將對多媒體信息檢索轉(zhuǎn)變成對上述關(guān)鍵詞的檢索。普及程度:是現(xiàn)行網(wǎng)絡(luò)檢索系統(tǒng)中的主流方式。檢索方式:信息分類、擴(kuò)展名、關(guān)鍵詞優(yōu)勢:實(shí)現(xiàn)原理相對簡單,技術(shù)成熟劣勢:具有主觀性,仁者見仁、智者見智;多媒體信息的多維性,人工描述難以窮盡普通搜索引擎搜索圖片、圖像格式:image:文件名功能:檢索含有指定文件名圖像的所有網(wǎng)頁。搜索多媒體信
13、息格式:media: text功能:檢索文件的名字中含有指定文字的多媒體信息圖像搜索引擎圖像搜索引擎是專門用來搜索圖形圖像的搜索引擎。它與文字搜索引擎不同的是,查到的最終結(jié)果,不是文字形式的類目名、網(wǎng)站名和網(wǎng)頁內(nèi)容,而是一幅幅縮微圖片,以及與圖片相關(guān)的介紹和地址鏈接。Google圖片搜索(http:/)Yahoo圖片搜索(http:/)百度圖片搜索(http:/)WebSEEK (:8008/)Lycos (http:/) Alltheweb圖像搜索(http:/) 視頻搜索引擎Google視頻搜索http:/.hk/videohp?hl=zh-CN百度視頻搜索http:/ SoSo視頻搜索/
14、音樂搜索引擎搜刮網(wǎng)( http:/ )百度MP3搜索/ 雅虎MP3搜索 http:/ 中搜Mp3搜索 /搜狗音樂搜索 http:/ 愛問音樂搜索引擎 http:/音樂方面的專業(yè)共享網(wǎng)站九天音樂網(wǎng)()基于內(nèi)容的多媒體信息檢索基于內(nèi)容特征的信息檢索技術(shù)(Content Based Retrieval,簡稱CBR),是一種新的檢索技術(shù),是對多媒體對象的內(nèi)容及上下文語義環(huán)境進(jìn)行檢索原理:提取特征并進(jìn)行量化,表示成向量空間,建立索引庫,將用戶提問轉(zhuǎn)化成向量,并與已有信息的向量空間進(jìn)行相似度匹配計(jì)算。常用多媒體文件特征: 圖像:顏色、紋理及時空關(guān)系等 視頻:對象運(yùn)動特征、顏色和光線變化等 音頻:時域、頻域
15、、時頻、短時幀和音頻特征等普及程度:局限在較小的數(shù)據(jù)集合上,大多只是實(shí)驗(yàn)室研究成果優(yōu)勢:源于多媒體內(nèi)容本身的特征信息,具有客觀性劣勢:復(fù)雜度高 語言鴻溝 選取好的特征的難度大、特征的量化、建模、建立向量空間復(fù)雜?;趦?nèi)容的多媒體信息檢索系統(tǒng)體系結(jié)構(gòu)媒體數(shù)據(jù)特征提取目標(biāo)標(biāo)識媒體庫特征庫知識庫知識輔助用戶查詢接口檢索引擎索引/過濾數(shù)據(jù)庫特征提取子系統(tǒng)數(shù)據(jù)庫查詢子系統(tǒng)基于內(nèi)容的多媒體信息檢索特點(diǎn)(1) 相似性檢索:CBR采用一種近似匹配(或局部匹配)的方法和技術(shù)逐步求精來獲得查詢和檢索結(jié)果,摒棄了傳統(tǒng)的精確匹配技術(shù),避免了因采用傳統(tǒng)檢索方法所帶來的不確定性。(2) 直接從內(nèi)容中提取信息線索:CBR直
16、接對文本、圖像、視頻、音頻進(jìn)行分析,從中抽取內(nèi)容特征,然后利用這些內(nèi)容特征建立索引并進(jìn)行檢索。(3) 滿足用戶多層次的檢索要求:CBR檢索系統(tǒng)通常由媒體庫、特征庫和知識庫組成。媒體庫包含多媒體數(shù)據(jù),如文本、圖像、音頻、視頻等;特征庫包含用戶輸入的特征和預(yù)處理自動提取的內(nèi)容特征;知識庫包含領(lǐng)域知識和通用知識,其中的知識表達(dá)可以更換,以適應(yīng)各種不同領(lǐng)域的應(yīng)用要求。(4) 大型數(shù)據(jù)庫(集)的快速檢索:CBR往往擁有數(shù)量巨大、種類繁多的多媒體數(shù)據(jù)庫,能夠?qū)崿F(xiàn)對多媒體信息的快速檢索?;趦?nèi)容的多媒體信息檢索步驟對入庫的多媒體數(shù)據(jù)進(jìn)行特征提取以提取的媒體特征建立索引輸入用戶描述將用戶描述與庫中媒體進(jìn)行相似
17、性匹配在相似性匹配的結(jié)果中選擇最終結(jié)果檢索過程用戶需求媒體資源內(nèi)容查詢內(nèi)容索引匹配基于內(nèi)容的圖像檢索基于內(nèi)容圖像檢索(Content Based Image Retrieval,簡稱CBIR),即從圖像庫中查找含有特定目標(biāo)的圖像,也包括從連續(xù)的視頻圖像中檢索含有特定目標(biāo)的視頻片段。步驟:特征提?。禾崛「鞣N特征,如顏色,紋理,形狀等。根據(jù)提取的特征不同,采取不同的處理,比如提取形狀特征,就需要先進(jìn)行圖像分割和邊緣提取等步驟。選擇合適的算法,并在效率和精確性方面加以改進(jìn),以適應(yīng)檢索的需要,實(shí)現(xiàn)特征提取模塊。特征分析:對圖像的各種特征進(jìn)行分析,選擇提取效率高、信息濃縮性好的特征,或者將幾種特征進(jìn)行組
18、合,用到檢索領(lǐng)域。特征匹配:選擇何種模型來衡量圖像特征間的相似度。CBIR的基本原理CBIR的基本原理形式化定義:任給定一個檢索圖像示例P,計(jì)算其特征向量F=(F1,F(xiàn)2,F(xiàn)3,F(xiàn)n),其中Fi為圖像的第i種特征;根據(jù)F檢索圖像特征索引庫,得到與F距離最小的特征向量F,則F所對應(yīng)的圖像P即為與P最相似的檢索結(jié)果。CBIR系統(tǒng)典型的架構(gòu)如右所示 基于內(nèi)容的圖像索引技術(shù)圖像特征提取技術(shù)顏色特征紋理特征形狀特征圖像索引主要技術(shù)顏色直方圖、顏色矩顏色集、顏色聚合向量、顏色相關(guān)圖Tamura紋理特征自回歸紋理模型基于小波變換的紋理特征傅里葉性狀描述符形狀無關(guān)矩其他形狀特征CBIR的特點(diǎn)屬于模糊查詢,檢索
19、結(jié)果不是唯一的基于內(nèi)容的圖像檢索與文字檢索的一個主要區(qū)別是,基于內(nèi)容的檢索都是屬于模糊查詢,一般不會給出單一的檢索結(jié)果,輸出的是一個結(jié)果排序集合,按照圖像的相似程度,從最像到最不像。最后需要由人來判斷最終的結(jié)果是否滿足檢索需要,是人機(jī)結(jié)合的典范;由計(jì)算機(jī)來做大量簡單煩瑣的工作,由人做分析工作。檢索結(jié)果是逐漸逼近:檢索過程中不斷修訂檢索條件,可以逐步達(dá)到最終的檢索結(jié)果;通過調(diào)整特征參數(shù)組合,可以得到不同的檢索結(jié)果。計(jì)算工作量大:每次查詢都需要根據(jù)臨時提交的特征標(biāo)準(zhǔn),對全部特征值進(jìn)行匹配運(yùn)算;數(shù)據(jù)計(jì)算時對計(jì)算機(jī)的要求高,查詢時間相對長一些。CBIR的應(yīng)用防止犯罪等司法部門:應(yīng)用人臉識別技術(shù),根據(jù)專
20、家對犯罪嫌疑人的頭像特征的描繪圖像,定位犯罪人的真實(shí)面目。軍事領(lǐng)域:可以用于武器的精確制導(dǎo),通過實(shí)時獲取的圖像信息,對其進(jìn)行解譯,保證打擊的準(zhǔn)確性。版權(quán)保護(hù)領(lǐng)域:針對商標(biāo)與設(shè)計(jì)專利類的圖像進(jìn)行檢索,防止專利糾紛的產(chǎn)生。建筑和工程設(shè)計(jì):通過對建筑及工程設(shè)計(jì)物體的圖像檢索,可以聚類相同風(fēng)格特色的建筑及工程設(shè)計(jì)產(chǎn)品。廣告業(yè)、藝術(shù)設(shè)計(jì):應(yīng)用圖像檢索,可以找到需要的各種素材,進(jìn)行藝術(shù)設(shè)計(jì)的再創(chuàng)造。CBIR的應(yīng)用醫(yī)學(xué)領(lǐng)域:對各種醫(yī)學(xué)透視CT圖像進(jìn)行檢索,可以快速定位類似病例,及時快速的幫助病人找到病因,會對臨床、醫(yī)學(xué)研究、遠(yuǎn)程醫(yī)療、異地會診乃至醫(yī)學(xué)教育等方面產(chǎn)生積極和深遠(yuǎn)的影響。古生物學(xué)、考古學(xué):通過對古
21、生物化石圖像的解釋,確定古生物所屬類型等信息,便于發(fā)現(xiàn)新的物種;應(yīng)用于古文物的圖像檢索,通過對比,簽定文物的真?zhèn)?、所屬歷史時期等。地理信息系統(tǒng)和遙感:對遙感圖像的檢索,主要是解譯影像數(shù)據(jù)中的建筑、村莊、耕地等不同種類地物信息,制作實(shí)時、準(zhǔn)確、逼真效果的專題圖件,應(yīng)用于地理信息系統(tǒng)中矢量處理模塊。安全技術(shù):應(yīng)用指紋、眼膜識別技術(shù),對用戶的指紋或者眼膜提取圖像特征進(jìn)行匹配,鑒定用戶真實(shí)身份。顏色檢索圖像檢索系統(tǒng)中應(yīng)用最基本的方法基于顏色特征的圖像檢索需要解決三個問題:顏色的表示顏色特征的提取基于顏色的相似度量 顏色的表示取決于色彩空間的選擇,不同的場合采用的方式也是不同,常見的有RGB、 HSI(
22、色調(diào)(H),飽和度(S),亮度(I)模型等在基于顏色特征的索引算法中通常用顏色統(tǒng)計(jì)直方圖、累積直方圖來表示圖像的顏色特征 顏色特征索引的相似度匹配算法根據(jù)其顏色索引內(nèi)容和算法的不同而不同,主要包括直方圖相交法、Manhattan距離、絕對距離(L1)、二次距離(L2)、歐幾里德距離等 顏色空間顏色特征顏色特征是在圖像檢索中應(yīng)用最為廣泛的視覺特征,主要原因在于顏色往往和圖像中包含的物體或場景十分相關(guān)。此外,與其他特征相比,顏色特征計(jì)算簡單,同時對圖像本身的尺寸、方向、視角的依賴性較小,具有較好的緊致性。顏色特征其中nk為圖像中顏色取值為k的像素個數(shù),n為像素總數(shù),K為可能的顏色取值范圍。 這樣計(jì)
23、算得到的顏色直方圖就是一個K維的特征向量。顏色直方圖所描述的是不同色彩在整幅圖像中所占的比例,而并不關(guān)心每種色彩所處的空間位置,所以特別適合描述那些不需要考慮特定物體空間位置的圖像內(nèi)容。顏色特征形狀檢索基于形狀的檢索包括兩種:一是基于輪廓線的檢索,二是直接針對特定形狀的圖形進(jìn)行檢索。燈管 杯子基于輪廓線的檢索 特定形狀 形狀特征形狀是描述圖像內(nèi)容的一個重要特征。它常與目標(biāo)聯(lián)系在一起,又一定的語義含義,因而可以看作是比顏色或紋理要高層一些的特征。但另一方面,對形狀的表達(dá)比對顏色或紋理的表達(dá)從本質(zhì)上要復(fù)雜得多,常需要先對圖像進(jìn)行分割。由于當(dāng)前的技術(shù)無法做到準(zhǔn)確和通用的自動圖像分割,圖像檢索中的形狀
24、特征只能在特定應(yīng)用場合使用。在這些應(yīng)用中,利用特定領(lǐng)域知識可以從圖像中分割獲得包含的目標(biāo)(物體或區(qū)域)。形狀特征一般來說,形狀特征有兩種表示方法,一種是輪廓特征,一種是區(qū)域特征。前者適用于對形狀邊界的描述,而后者則適用于表達(dá)形狀包含的整個區(qū)域。這兩類形狀特征的最典型方法分別是傅立葉描述符(Fourier Descriptor)和形狀無關(guān)矩(Moment Invariants)。形狀特征傅立葉描述符傅立葉描述符的主要思想是將經(jīng)過傅立葉變換后的邊界作為形狀特征。從輪廓上的任一點(diǎn)開始繞輪廓一周可以定義一個復(fù)數(shù)序列:對其進(jìn)行離散傅立葉變換,就得到輪廓的傅立葉描述:在此基礎(chǔ)上,文獻(xiàn)提出了一種改進(jìn)的傅立葉
25、算法,這種算法不僅對噪音具有很好的魯棒性,而且對幾何變換具有不變性,更加適合圖像檢索的需要。紋理特征紋理特征也是一種全局特征,它也描述了圖像或圖像區(qū)域所對應(yīng)景物的表面性質(zhì)。但由于紋理只是一種物體表面的特性,并不能完全反映出物體的本質(zhì)屬性,所以僅僅利用紋理特征是無法獲得高層次圖像內(nèi)容的。與顏色特征不同,紋理特征不是基于像素點(diǎn)的特征,它需要在包含多個像素點(diǎn)的區(qū)域中進(jìn)行統(tǒng)計(jì)計(jì)算。在模式匹配中,這種區(qū)域性的特征具有較大的優(yōu)越性,不會由于局部的偏差而無法匹配成功。作為一種統(tǒng)計(jì)特征,紋理特征常具有旋轉(zhuǎn)不變性,并且對于噪聲有較強(qiáng)的抵抗能力。但是,紋理特征也有其缺點(diǎn),一個很明顯的缺點(diǎn)是當(dāng)圖像的分辨率變化的時候
26、,所計(jì)算出來的紋理可能會有較大偏差。另外,由于有可能受到光照、反射情況的影響,從2-D圖像中反映出來的紋理不一定是3-D物體表面真實(shí)的紋理。 紋理特征Tamura紋理特征基于對紋理的視覺感知心理學(xué)研究,Tamura等人提出了紋理特征的表達(dá)方法。Tamura紋理特征的6個分量對應(yīng)于心理學(xué)角度的紋理特征的6種屬性,分別是粗糙度(coarseness )、對比度(contrast)、方向度(directionality)、線像度(linelikeness)、規(guī)整度(regularity)、粗略度(roughness),其中粗糙度、方向度和對比度在檢索中最為重要。在Tamura表示中的所有紋理性質(zhì)都是
27、有意義的,與人的主觀感受比較吻合,這使得Tamura紋理表示在圖象檢索中非常具有吸引力,而且可提供一個更有友好的用戶界面。 各特征的優(yōu)缺點(diǎn)比較基于內(nèi)容檢索各類技術(shù)顏色特征紋理特征形狀特征綜合特征優(yōu)點(diǎn)平移、尺度、旋轉(zhuǎn)不變性,良好的穩(wěn)定性反映圖像本身的面貌旋轉(zhuǎn)不變性任何兩種圖像的形狀不會相同,形狀包含的語義信息更多不同特征優(yōu)勢互補(bǔ),提高檢索的靈活性缺點(diǎn)顏色對圖像大小、方向等不敏感當(dāng)圖像的分辨率發(fā)生變化,計(jì)算出來的紋理可能會有較大偏差不具備尺度、旋轉(zhuǎn)不變性最優(yōu)權(quán)重自動分配的實(shí)現(xiàn)比較困難不同特征的相對特點(diǎn) 相對特點(diǎn)顏色VS紋理顏色VS形狀紋理VS形狀前者充分利用色彩信息側(cè)重圖像整體信息的描述平移、旋轉(zhuǎn)
28、、尺度不變性紋理特征比較容易獲得后者利用圖像的灰度信息更偏重于局部平移不變性形狀特征的計(jì)算比較復(fù)雜基于內(nèi)容的圖像檢索方法基于圖例的圖像檢索方法外部圖像查詢內(nèi)部圖像查詢草圖查詢綜合檢索方法利用檢索系統(tǒng)外部圖像進(jìn)行檢索查詢提問的圖像是檢索系統(tǒng)內(nèi)部的圖像用戶先畫出一幅草圖,再根據(jù)草圖在系統(tǒng)中查詢自己想要的圖像現(xiàn)有的圖像檢索系統(tǒng)通常都是綜合利用上述方法圖像綜合檢索方法示意圖草圖數(shù)字圖像抽象特征用戶輸入草圖檢索外部圖像檢索直接檢索瀏覽圖像綜合檢索示意圖圖像圖像圖像圖像相似度比較方法基于內(nèi)容的圖像檢索是通過計(jì)算查詢與候選圖像之間視覺特征的相似度來完成。在對圖像內(nèi)容進(jìn)行描述的時候主要采用特征向量的方式,因此
29、,常用的圖像相似度比較方法也是基于向量空間模型的,可以將向量特征看作是向量空間中的點(diǎn),通過計(jì)算兩點(diǎn)之間的接近程度來衡量圖像之間的相似度。常用的圖像相似度比較方法如下:直方圖相交、二次距離、馬氏距離、歐拉距離、非幾何的相似度方法圖像的相似度度量方法 Minkowsky距離二次式距離、直方圖相交法、余弦距離等檢索效果評價設(shè)R為檢索到的結(jié)果圖像數(shù),S為檢索結(jié)果中相關(guān)的圖像數(shù),D為整個圖像庫中相關(guān)圖像數(shù),則查全率為:查準(zhǔn)率為:檢索效果評價命中準(zhǔn)確率排序測評法、匹配百分?jǐn)?shù)、ANMRR等基于內(nèi)容的圖像檢索系統(tǒng)QBICViragePhotobookVisualSEEK WebSEEKRetrieval Wa
30、re MMISQBIChttp:/IBM Almaden研究中心開發(fā)的第一個商用基于內(nèi)容的圖像及視頻檢索系統(tǒng)提供對靜止圖像及視頻信息基于內(nèi)容的檢索手段支持圖像例子、繪制草圖或定制圖像特征模板來檢索圖像庫顏色使用RGB,YIQ,Lab和MTM顏色空間紋理使用改進(jìn)的Tamura表示:粗糙度,對比度和方向性等形狀特征有目標(biāo)面積、各階矩、離心率和主軸方向等草圖特征,如邊界各點(diǎn)的切線方向等開發(fā)了基于聚類的索引技術(shù)VirageVirage的VIR Image Engine類似于QBIC系統(tǒng)特色:將特征進(jìn)行歸類,用戶查詢時可以對特征進(jìn)行任意組合Photobookhttp:/vismod/demos/phot
31、obook/由MIT的媒體實(shí)驗(yàn)室開發(fā)研制圖像在存儲時按人臉、形狀或紋理特性自動分類圖像根據(jù)類別通過顯著語義特征壓縮編碼VisualSEEK/ln/dvmm/researchProjects/MultimediaIndexing/VisualSEEk/VisualSEEk.htm美國哥倫比亞大學(xué)開發(fā)的圖像查詢系統(tǒng)主要特點(diǎn)是用到了圖像區(qū)域的空間關(guān)系查詢和直接從壓縮數(shù)據(jù)中提取視覺特征Retrieval Ware http:/tools/retrievalware.html是由 Excalibur 科技有限公司開發(fā)的一種基于內(nèi)容的圖像檢索工具。早期版本中,可以看到該系統(tǒng)的重點(diǎn)在于運(yùn)用神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)圖
32、像檢索。在比較新的版本中r提供基于6種圖像屬性的檢索,分別是顏色、形狀、紋理、顏色結(jié)構(gòu)、亮度結(jié)構(gòu)和縱橫比。顏色屬性是對圖像的顏色及其所占的比率進(jìn)行測定,但并不包括對顏色的結(jié)構(gòu)或位置的測定,這一項(xiàng)是由顏色結(jié)構(gòu)屬性控制的;形狀屬性指圖像中物體的輪廓或線條的相對方位、彎曲度及對比度;紋理屬性是指圖像的平滑度或粗糙度,一幅圖的表面特性;亮度屬性是指構(gòu)成圖像的象素組合的亮度。 香港公共圖書館的多媒體信息系統(tǒng)(MMIS).hk/web/guestIBM和分包商ICO于1999年底開始承建190萬美元的數(shù)字圖書館項(xiàng)目被認(rèn)為是世界上最大且最復(fù)雜的“中文/英文”雙語圖書館服務(wù)之一采用的DB2 Text 和Image Extenders既支持文本查找,也支持圖片查找相似顏色相似形狀相似內(nèi)容基于內(nèi)容的視頻檢索通過對非結(jié)構(gòu)化的視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析和處理,采用視頻分割技術(shù),將連續(xù)的視頻流劃分為具有特定語義的視頻片段鏡頭,作為檢索的基本單元,在此基礎(chǔ)上進(jìn)行代表幀(representative frame)的提取和動態(tài)特征的提取,形成描述鏡頭的特征索引鏡頭組織和特征索引,采用視頻聚類等方法研究鏡頭之間的關(guān)系,把內(nèi)容相近的鏡頭組合起來,逐步縮小檢索范圍,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 山東省日照市高三下學(xué)期3月模擬考試語文試題(含答案)
- 工程車運(yùn)輸簡單合同
- 2025合同模板化工產(chǎn)品購銷合同范本
- 洗煤廠承包合同
- 商鋪個人租房合同
- 職稱聘任合同書
- 演講稿格式及范文二十-多篇
- 提升學(xué)習(xí)能力
- 農(nóng)產(chǎn)品產(chǎn)銷對接合作合同
- 二手房獨(dú)家代理合同
- 《共情的力量》課件
- 2022年中國電信維護(hù)崗位認(rèn)證動力專業(yè)考試題庫大全-上(單選、多選題)
- 《電氣作業(yè)安全培訓(xùn)》課件
- 水平二(四年級第一學(xué)期)體育《小足球(18課時)》大單元教學(xué)計(jì)劃
- 《關(guān)于時間管理》課件
- 醫(yī)藥高等數(shù)學(xué)智慧樹知到課后章節(jié)答案2023年下浙江中醫(yī)藥大學(xué)
- 城市道路智慧路燈項(xiàng)目 投標(biāo)方案(技術(shù)標(biāo))
- 水泥采購?fù)稑?biāo)方案(技術(shù)標(biāo))
- 醫(yī)院招標(biāo)采購管理辦法及實(shí)施細(xì)則(試行)
- 初中英語-Unit2 My dream job(writing)教學(xué)設(shè)計(jì)學(xué)情分析教材分析課后反思
- 廣州市勞動仲裁申請書
評論
0/150
提交評論