




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
多媒體內(nèi)容檢索與管理演示文稿當(dāng)前第1頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)多媒體內(nèi)容檢索與管理ppt課件當(dāng)前第2頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)3多媒體內(nèi)容檢索與管理1多媒體數(shù)據(jù)庫(kù)2多媒體內(nèi)容管理3多媒體內(nèi)容檢索6基于內(nèi)容視頻檢索5基于內(nèi)容音頻檢索4基于內(nèi)容圖像檢索當(dāng)前第3頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)
41.1多媒體概念多媒體信息媒體多媒體技術(shù)多媒體即媒介,承載、傳輸和表現(xiàn)信息的手段指集數(shù)據(jù)、文字、圖形、圖像、聲音和視頻等為一體的綜合媒體信息指利用計(jì)算機(jī)將文本、圖形、圖像、聲音、動(dòng)畫(huà)、視頻等多種媒體信息進(jìn)行處理和綜合集成,以供人機(jī)交互使用的一個(gè)計(jì)算機(jī)應(yīng)用分支當(dāng)前第4頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
51.2多媒體數(shù)據(jù)庫(kù)系統(tǒng)多媒體數(shù)據(jù)的特點(diǎn)數(shù)據(jù)量大
結(jié)構(gòu)復(fù)雜數(shù)據(jù)傳輸?shù)倪B續(xù)性時(shí)序性-同步機(jī)制當(dāng)前第5頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
61.2多媒體數(shù)據(jù)庫(kù)系統(tǒng)多媒體數(shù)據(jù)庫(kù)傳統(tǒng)數(shù)據(jù)庫(kù)存儲(chǔ)和處理復(fù)雜對(duì)象面向應(yīng)用強(qiáng)調(diào)媒體獨(dú)立性處理的應(yīng)用對(duì)象不同,處理的方式也不同具有更強(qiáng)的對(duì)象訪問(wèn)手段強(qiáng)調(diào)終端用戶(hù)界面的靈活性和多樣性存儲(chǔ)和處理格式化數(shù)據(jù)單一的數(shù)據(jù)模型簡(jiǎn)單的查詢(xún)方式提供準(zhǔn)確的查詢(xún)當(dāng)前第6頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)1.2多媒體數(shù)據(jù)庫(kù)系統(tǒng)MDBS的層次結(jié)構(gòu)多媒體數(shù)據(jù)庫(kù)系統(tǒng)的核心任務(wù)是實(shí)時(shí)地綜合處理圖、文、聲信息集中型A指由單獨(dú)一個(gè)MDBMS來(lái)建立和管理不同媒體的數(shù)據(jù)庫(kù),并由這個(gè)MDBMS來(lái)管理對(duì)象空間及目的數(shù)據(jù)的集成。協(xié)作型C協(xié)作型MDBS是由多個(gè)數(shù)據(jù)庫(kù)管理系統(tǒng)組成的,這些數(shù)據(jù)庫(kù)管理系統(tǒng)之間沒(méi)有主從之分,但能相互通信,協(xié)調(diào)工作。主從型B每一個(gè)數(shù)據(jù)庫(kù)都有自己的管理系統(tǒng),稱(chēng)為從MDBMS,各自管理自己的數(shù)據(jù)庫(kù)。這些從MDBMS又受一個(gè)被稱(chēng)為主MDBMS的統(tǒng)一控制和管理。當(dāng)前第7頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)1.2多媒體數(shù)據(jù)庫(kù)系統(tǒng)集中型組織結(jié)構(gòu)Page8當(dāng)前第8頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)1.2多媒體數(shù)據(jù)庫(kù)系統(tǒng)主從型組織結(jié)構(gòu)Page9當(dāng)前第9頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)1.2多媒體數(shù)據(jù)庫(kù)系統(tǒng)協(xié)作型組織結(jié)構(gòu)Page10當(dāng)前第10頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)1.3多媒體數(shù)據(jù)庫(kù)(MDB)
傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)的主要處理對(duì)象是整數(shù)、實(shí)數(shù)、字符串等簡(jiǎn)單類(lèi)型數(shù)據(jù),但這種格式數(shù)據(jù)很難實(shí)現(xiàn)對(duì)人臉、指紋、人的聲音等事物的有效描述。傳統(tǒng)數(shù)據(jù)庫(kù)的層次結(jié)構(gòu)如下:Page11當(dāng)前第11頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)1.3多媒體數(shù)據(jù)庫(kù)(MDB)
傳統(tǒng)數(shù)據(jù)庫(kù)的層次結(jié)構(gòu)可以在用戶(hù)給出查詢(xún)條件后迅速地檢索到正確的信息,但面對(duì)圖像、聲音、視頻等無(wú)格式數(shù)據(jù),如何設(shè)定檢索條件,如何查詢(xún)所需結(jié)果等,都是無(wú)法直接實(shí)現(xiàn)的。
因此就必須尋找恰當(dāng)?shù)慕Y(jié)構(gòu)分層形式,已有多種層次劃分,包括對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)的擴(kuò)展、對(duì)面向?qū)ο髷?shù)據(jù)庫(kù)的擴(kuò)展、超媒體層次擴(kuò)展等。雖然各有所不同,但大都是從最低層增加對(duì)多媒體數(shù)據(jù)的控制與支持,在最高層支持多媒體的綜合表現(xiàn)和用戶(hù)的查詢(xún)描述,在中間增加對(duì)多媒體數(shù)據(jù)的關(guān)聯(lián)和超鏈的處理。Page12當(dāng)前第12頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)1.3多媒體數(shù)據(jù)庫(kù)(MDB)綜合各多媒體數(shù)據(jù)的層次結(jié)構(gòu)如下:最高層支持多媒體的綜合表現(xiàn)和用戶(hù)的查詢(xún)描述,完成用戶(hù)對(duì)多媒體信息的查詢(xún)描述和得到多媒體信息的查詢(xún)結(jié)果中間層增加對(duì)多媒體數(shù)據(jù)的關(guān)聯(lián)和超鏈的處理,對(duì)現(xiàn)實(shí)世界用多媒體數(shù)據(jù)信息進(jìn)行的描述,也是多媒體數(shù)據(jù)庫(kù)中在全局概念下的一個(gè)整體視圖,該層為上層的用戶(hù)接口、下層的多媒體數(shù)據(jù)存儲(chǔ)和存取建立起一個(gè)在邏輯上統(tǒng)一的通道通過(guò)存取與存儲(chǔ)數(shù)據(jù)模型描述媒體數(shù)據(jù)的邏輯位置安排、相互的內(nèi)容關(guān)聯(lián)、特征與數(shù)據(jù)的關(guān)系等,并完成多媒體數(shù)據(jù)的邏輯存儲(chǔ)與存取。底層增加對(duì)多媒體數(shù)據(jù)的控制與支持。建立在多媒體操作系統(tǒng)之上,對(duì)不同性質(zhì)媒體分別進(jìn)行相應(yīng)的分割、識(shí)別、變換等操作,并確定物理存儲(chǔ)的位置和方法,以實(shí)現(xiàn)對(duì)各種媒體的最基本數(shù)據(jù)的管理和操縱Page13當(dāng)前第13頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)1.4多媒體數(shù)據(jù)庫(kù)管理系統(tǒng)(MDBMS)
在多媒體系統(tǒng)中存在著聲音、文字、圖形、視頻等媒體信息,與傳統(tǒng)的計(jì)算機(jī)應(yīng)用系統(tǒng)中只存在字符、數(shù)值相比擴(kuò)充很大,這就需要一種新的管理系統(tǒng)對(duì)多媒體數(shù)據(jù)庫(kù)進(jìn)行管理。這種MDBMS能像傳統(tǒng)的數(shù)據(jù)庫(kù)那樣對(duì)多媒體數(shù)據(jù)進(jìn)行有效地組織、管理和存取,并可以實(shí)現(xiàn)以下功能:多媒體數(shù)據(jù)庫(kù)對(duì)象的定義、多媒體數(shù)據(jù)存取、多媒體數(shù)據(jù)庫(kù)運(yùn)行控制、多媒體數(shù)據(jù)庫(kù)建立與維護(hù)、多媒體數(shù)據(jù)庫(kù)在網(wǎng)絡(luò)上的通信功能等。Page14當(dāng)前第14頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
151.4多媒體數(shù)據(jù)庫(kù)管理系統(tǒng)(MDBMS)數(shù)據(jù)操作功能管理各種媒體數(shù)據(jù)網(wǎng)絡(luò)功能MDBMS的基本功能A、表示和處理各種媒體數(shù)據(jù),如文本、圖像、音頻、視頻等。B、反映和管理各種媒體數(shù)據(jù)的特性,或各種媒體數(shù)據(jù)之間的空間或時(shí)間的關(guān)聯(lián)。A、提供對(duì)無(wú)格式數(shù)據(jù)的查詢(xún)搜索功能B、對(duì)不同媒體提供不同的操作方法,如圖形、圖像的編輯處理,聲音數(shù)據(jù)的剪輯等。A、解決分布在網(wǎng)絡(luò)上的多媒體庫(kù)中數(shù)據(jù)的定義、存儲(chǔ)、操作問(wèn)題。B、對(duì)數(shù)據(jù)的一致性、安全性、并發(fā)性進(jìn)行管理。當(dāng)前第15頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)1.4多媒體數(shù)據(jù)庫(kù)管理系統(tǒng)(MDBMS)多媒體數(shù)據(jù)庫(kù)管理系統(tǒng)MDBMS(MultimediaDatabaseManagementSystem)一般由用戶(hù)界面、存儲(chǔ)子系統(tǒng)、特征數(shù)據(jù)庫(kù)、索引子系統(tǒng)、檢索子系統(tǒng)和數(shù)據(jù)分析子系統(tǒng)等部分組成。其中用戶(hù)界面采用B/S方式實(shí)現(xiàn),該用戶(hù)界面需要支持用戶(hù)以圖形方式進(jìn)行基于內(nèi)容的查詢(xún),同時(shí)也需要支持傳統(tǒng)文本方式的查詢(xún)。其體系結(jié)構(gòu)如下圖:Page16當(dāng)前第16頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)1.4多媒體數(shù)據(jù)庫(kù)管理系統(tǒng)(MDBMS)Page17當(dāng)前第17頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)18多媒體內(nèi)容檢索與管理1多媒體數(shù)據(jù)庫(kù)2多媒體內(nèi)容管理3多媒體內(nèi)容檢索6基于內(nèi)容視頻檢索5基于內(nèi)容音頻檢索4基于內(nèi)容圖像檢索當(dāng)前第18頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
192.1多媒體內(nèi)容處理概念級(jí)內(nèi)容感知特性邏輯關(guān)系特指特征多媒體數(shù)據(jù)的內(nèi)容概念的層次視覺(jué)特性,如顏色、視覺(jué)對(duì)象、紋理、草圖、形狀、體積、空間關(guān)系、輪廓、等,聽(tīng)覺(jué)特性如音調(diào)、音色、音質(zhì)等。音視頻對(duì)象的時(shí)間和空間關(guān)系,語(yǔ)義和上下文關(guān)聯(lián)等。與應(yīng)用相關(guān)的媒體特征,如人的體形特征、面部特征、指紋特征等。對(duì)象的語(yǔ)義表達(dá),例如利用文本的描述,通過(guò)分類(lèi)和目錄來(lái)組織層次瀏覽,用鏈來(lái)組織上下文關(guān)聯(lián)。當(dāng)前第19頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)2.1多媒體內(nèi)容處理多媒體內(nèi)容的處理如下圖所示可分為三大部分:a、內(nèi)容獲取、b、內(nèi)容描述和c、內(nèi)容操縱。首先要對(duì)原始媒體進(jìn)行處理并提取內(nèi)容,然后用標(biāo)準(zhǔn)形式描述所提取的內(nèi)容,以支持各種內(nèi)容的查詢(xún)、檢索、索引等內(nèi)容的操縱。Page20當(dāng)前第20頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)2.1多媒體內(nèi)容處理
內(nèi)容獲取是通過(guò)對(duì)各種內(nèi)容的分析和處理而獲得媒體內(nèi)容的過(guò)程。多媒體數(shù)據(jù)的重要成分是空間和時(shí)間結(jié)構(gòu),首先必須分割出圖像對(duì)象、視頻的時(shí)間結(jié)構(gòu)、運(yùn)動(dòng)對(duì)象,以及這些對(duì)象之間的關(guān)系,然后提取顯著的區(qū)別特征和人的視覺(jué)、聽(tīng)覺(jué)感知特征來(lái)表示媒體和媒體對(duì)象的性質(zhì)。Page21當(dāng)前第21頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)2.1多媒體內(nèi)容處理
內(nèi)容描述就是針對(duì)獲取的內(nèi)容進(jìn)行描述。為了支持?jǐn)?shù)據(jù)管理的靈活性、數(shù)據(jù)資源的全球化和互操作性,描述必須基于一定的標(biāo)準(zhǔn)。MPEG-7標(biāo)準(zhǔn)被稱(chēng)為“多媒體內(nèi)容描述接口”,主要采用描述子(Descriptor)和描述模式來(lái)分別描述媒體的特性及其關(guān)系。描述子是特征的表示法,一個(gè)描述子就是定義特征的語(yǔ)法和語(yǔ)義學(xué)。MPEG-7標(biāo)準(zhǔn)定義了一系列的描述結(jié)構(gòu)、一種詳細(xì)說(shuō)明描述結(jié)構(gòu)的語(yǔ)言、描述定義語(yǔ)言(DDL)和多種編碼描述方法。Page22當(dāng)前第22頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)2.1多媒體內(nèi)容處理內(nèi)容操縱主要針對(duì)內(nèi)容的用戶(hù)操作和應(yīng)用。有許多這方面的名詞和術(shù)語(yǔ)。查詢(xún)(Query)是面向用戶(hù)的術(shù)語(yǔ),多用于數(shù)據(jù)庫(kù)操作、檢索(Retrieval)是在索引支持下的快速信息獲取方式、搜索(Search)常用于Internet的搜索引擎、摘要(Summarization,Excerpt)是適合于視頻和音頻等時(shí)基媒體的特殊操作、瀏覽(Browsing)可以線性或非線性地存取結(jié)構(gòu)化的內(nèi)容、過(guò)濾(Filtering)是與檢索相反的一種信息存取方式。Page23當(dāng)前第23頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)2.2基于內(nèi)容的多媒體信息檢索基于內(nèi)容檢索(Contentbased),就是從媒體數(shù)據(jù)中提取出特定的信息線索,根據(jù)這些線索從大量存儲(chǔ)在數(shù)據(jù)庫(kù)中的媒體中進(jìn)行查找,檢索出具有相似特征的媒體數(shù)據(jù)出來(lái)。
多媒體數(shù)據(jù)的“內(nèi)容”表示多媒體信息的含義、要旨、主題和顯著的性質(zhì)、實(shí)質(zhì)性的東西、物理細(xì)節(jié)等,而多媒體內(nèi)容處理技術(shù)要基于對(duì)內(nèi)容的基本定義。Page24當(dāng)前第24頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
252.2基于內(nèi)容的多媒體信息檢索多媒體信息檢索的特點(diǎn)相似性檢索:CBR采用一種近似匹配的方法和技術(shù),逐步求精來(lái)獲得查詢(xún)和檢索結(jié)果,每一層的中間結(jié)果是一個(gè)集合,不斷減少集合的范圍,直到定位到查找的目標(biāo)直接從內(nèi)容中提取信息線索:CBR直接對(duì)文本、圖像、視頻、音頻進(jìn)行分析,從中抽取內(nèi)容特征,然后利用這些內(nèi)容特征建立索引并進(jìn)行檢索。滿足用戶(hù)多層次的檢索要求:CBR檢索系統(tǒng)通常由媒體庫(kù)、特征庫(kù)和知識(shí)庫(kù)組成。大型數(shù)據(jù)庫(kù)(集)的快速檢索:CBR往往擁有數(shù)量巨大、種類(lèi)繁多的多媒體數(shù)據(jù)庫(kù),能夠?qū)崿F(xiàn)對(duì)多媒體信息的快速檢索。當(dāng)前第25頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)2.3內(nèi)容檢索的關(guān)鍵技術(shù)基于內(nèi)容的多媒體數(shù)據(jù)庫(kù)管理系統(tǒng)除了解決媒體信息的存儲(chǔ),還要求能夠從媒體數(shù)據(jù)中分析、抽取可供檢索的內(nèi)容特征,用于信息的檢索。其關(guān)鍵技術(shù)主要有特征抽取、特征分析和特征匹配。特征提?。禾崛「鞣N特征,如顏色,紋理,形狀等。根據(jù)提取的特征不同,采取不同的處理,例如提取形狀特征,就需要先進(jìn)行圖像分割和邊緣提取等步驟。選擇合適的算法,并在效率和精確性方面加以改進(jìn),以適應(yīng)檢索的需要,并實(shí)現(xiàn)特征的提取。特征分析:對(duì)圖像的各種特征進(jìn)行分析,選擇提取效率高、信息濃縮性好的特征,或者將幾種特征進(jìn)行組合,用到檢索領(lǐng)域。特征匹配:選擇何種模型來(lái)衡量圖像特征間的相似度。Page26當(dāng)前第26頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)2.3內(nèi)容檢索的關(guān)鍵技術(shù)基于內(nèi)容多媒體數(shù)據(jù)庫(kù)管理系統(tǒng)的的功能框架如下圖所示。Page27當(dāng)前第27頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)2.4基于內(nèi)容的多媒體信息檢索體系結(jié)構(gòu)基于內(nèi)容檢索系統(tǒng)結(jié)構(gòu)由特征分析子系統(tǒng)、特征提取子系統(tǒng)、數(shù)據(jù)庫(kù)、查詢(xún)接口、檢索引擎和索引過(guò)濾等子系統(tǒng)組成,同時(shí)需要相應(yīng)的知識(shí)輔助支持特定領(lǐng)域的內(nèi)容處理。Page28當(dāng)前第28頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)2.4基于內(nèi)容的多媒體信息檢索體系結(jié)構(gòu)特征分析:該子系統(tǒng)負(fù)責(zé)將需要入庫(kù)的媒體進(jìn)行分割或節(jié)段化,標(biāo)識(shí)出需要的對(duì)象或內(nèi)容關(guān)鍵點(diǎn),以便有針對(duì)性的對(duì)目標(biāo)進(jìn)行特征提取。特征標(biāo)識(shí)可通過(guò)用戶(hù)輸入或系統(tǒng)定義。特征提取對(duì)用戶(hù)提供或系統(tǒng)標(biāo)明的媒體對(duì)象進(jìn)行特征提取處理。提取特征時(shí)需要知識(shí)處理模塊的輔助,與標(biāo)準(zhǔn)化的知識(shí)定義直接有關(guān)。數(shù)據(jù)庫(kù)包含多媒體數(shù)據(jù)庫(kù)和特征數(shù)據(jù)庫(kù),分別存放多媒體數(shù)據(jù)同對(duì)應(yīng)的特征數(shù)據(jù),它們彼此之間存在著一定的對(duì)應(yīng)關(guān)系。特征庫(kù)中包含了由用戶(hù)輸入的和預(yù)處理自動(dòng)提取的特征數(shù)據(jù),通過(guò)檢索引擎組織與媒體類(lèi)型相匹配的索引來(lái)達(dá)到快速搜索的目的。Page29當(dāng)前第29頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)2.4基于內(nèi)容的多媒體信息檢索體系結(jié)構(gòu)查詢(xún)接口,即人機(jī)交互界面,友好的人機(jī)交互界面是檢索系統(tǒng)不可缺少的。在基于內(nèi)容的檢索中,由于特征不直觀,因此必須為用戶(hù)提供一個(gè)可視化的輸入手段,還應(yīng)在用戶(hù)界面提供查詢(xún)結(jié)果的創(chuàng)覽功能,即為用戶(hù)提供初步查詢(xún)結(jié)果的返回,系統(tǒng)會(huì)根據(jù)用戶(hù)選擇的排序標(biāo)準(zhǔn)(如顏色、旋律、節(jié)拍等),按照相似度的大小將結(jié)果排列后,返回給用戶(hù)。檢索引擎,檢索要將特征提取值和特征庫(kù)中的值進(jìn)行比較,得到一個(gè)相似度。不同的媒體各自具有不同的相似度算法,這些算法也稱(chēng)為相似性測(cè)度函數(shù)。檢索引擎使用相似性測(cè)度函數(shù)集去進(jìn)行比較,從而確定與特征庫(kù)的值最接近的多媒體數(shù)據(jù)。索引過(guò)濾在大規(guī)模多媒體數(shù)據(jù)檢索過(guò)程中,為了提高檢索效率,常在檢索引擎進(jìn)行匹配之前采用索引過(guò)濾方法,取出高維特征用于匹配。Page30當(dāng)前第30頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)2.4基于內(nèi)容的多媒體信息檢索體系結(jié)構(gòu)如果用戶(hù)對(duì)系統(tǒng)返回的查詢(xún)結(jié)果不滿意怎么辦?相關(guān)返饋技術(shù)Page31當(dāng)前第31頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)2.5基于內(nèi)容的多媒體信息檢索中的相關(guān)反饋技術(shù)在基于內(nèi)容的檢索過(guò)程中相關(guān)反饋是一個(gè)相當(dāng)重要的過(guò)程。因?yàn)閮H僅基于圖像低層特征很難給出令人滿意的結(jié)果,主要原因是圖像低層特征和高層語(yǔ)義間存在著很大的差距。相關(guān)反饋技術(shù)就是為了解決這個(gè)問(wèn)題而提出的,一方面需要找出更有效的多媒體表示方法,另一方面通過(guò)人機(jī)交互來(lái)捕捉和建立低層特征和高層語(yǔ)義之間的關(guān)聯(lián)。
相關(guān)反饋技術(shù)的基本思想是建立一個(gè)由用戶(hù)參與的交互過(guò)程,在交互過(guò)程逐步求得精確的查詢(xún)結(jié)果。在檢索過(guò)程中,系統(tǒng)根據(jù)用戶(hù)的查詢(xún)要求返回檢索結(jié)果,用戶(hù)可以對(duì)檢索結(jié)果進(jìn)行評(píng)價(jià)和標(biāo)記,并將這些信息反饋給系統(tǒng),系統(tǒng)則根據(jù)這些反饋信息進(jìn)行學(xué)習(xí),并返回新的查詢(xún)結(jié)果,從而使得檢索結(jié)果更加滿足用戶(hù)的要求。Page32當(dāng)前第32頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)2.5基于內(nèi)容的多媒體信息檢索中的相關(guān)反饋技術(shù)相關(guān)反饋結(jié)構(gòu)圖如下:Page33當(dāng)前第33頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)參考文獻(xiàn)[1]鄭繼文,吳吉義.多媒體數(shù)據(jù)庫(kù)管理系統(tǒng)的關(guān)鍵技術(shù)分析[J].微型機(jī)與應(yīng)用,2007(6):94-96.[2]徐險(xiǎn)峰.基于內(nèi)容的多媒體信息檢索技術(shù)[J].現(xiàn)代情報(bào),2005,25(3):134-136.[3]李松濤,鐘建寧.基于內(nèi)容的多媒體數(shù)據(jù)庫(kù)管理系統(tǒng)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2008,18(12):214-216.[4]柳群英.基于內(nèi)容的音頻信息檢索技術(shù)[J].現(xiàn)代情報(bào),2005(6):91-93.[5]黃麗娟.基于內(nèi)容的多媒體信息檢索[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2000(5):40-43.[6]武獻(xiàn)宇,謝金龍,米志強(qiáng).基于內(nèi)容信息檢索技術(shù)研究[J].電腦知識(shí)與技術(shù),2009,5(8):1923-1924.[7]李廣建,黃永文.基于內(nèi)容的信息檢索[J].中國(guó)圖書(shū)館學(xué)會(huì)2000年會(huì)論文,2000:111-118.[8]黃敬泉,韓冰.基于內(nèi)容的檢索新進(jìn)展[J].現(xiàn)代計(jì)算機(jī),2010:38-40.[9]黃志軍,曾斌.多媒體數(shù)據(jù)庫(kù)技術(shù)[M].北京:國(guó)防工業(yè)出版社,2005:91-115.[10]高陽(yáng).數(shù)據(jù)庫(kù)技術(shù)與應(yīng)用[M].北京:電子工業(yè)出版社,2003:316-318.當(dāng)前第34頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)35多媒體內(nèi)容檢索與管理1多媒體數(shù)據(jù)庫(kù)2多媒體內(nèi)容管理3多媒體內(nèi)容檢索6基于內(nèi)容視頻檢索5基于內(nèi)容音頻檢索4基于內(nèi)容圖像檢索當(dāng)前第35頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
363.1基于內(nèi)容檢索的實(shí)現(xiàn)技術(shù)1、模式識(shí)別將用戶(hù)提供的目標(biāo)媒體數(shù)據(jù)對(duì)象與數(shù)據(jù)庫(kù)中的源媒體數(shù)據(jù)對(duì)象進(jìn)行模糊匹配,然后讀取數(shù)據(jù)進(jìn)行表示。這種檢索方式精確度較低,查詢(xún)執(zhí)行時(shí)間較長(zhǎng)。2、特征提取將基于媒體內(nèi)容的檢索轉(zhuǎn)換為基于媒體內(nèi)容特征的檢索。特征檢索就是從媒體數(shù)據(jù)中提取特定的信息線索特征,然后再根據(jù)這些數(shù)據(jù)特征在數(shù)據(jù)集合中檢索出具有相似特征的媒體數(shù)據(jù)來(lái)。當(dāng)前第36頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
373.1基于內(nèi)容檢索的實(shí)現(xiàn)技術(shù)多媒體特征的多維性空間特征,有對(duì)象的紋理和形狀特征以及對(duì)象的空間關(guān)系等;時(shí)間特征,有對(duì)象隨時(shí)間變化的軌跡,如音樂(lè)片段的持續(xù)時(shí)間。特征表示是多層的:(1)客觀特征:反映多媒體數(shù)據(jù)本身具備的特性,如對(duì)象的顏色、形狀、紋理、音頻頻率等。(2)主觀特征:指人們對(duì)多媒體數(shù)據(jù)的主觀感知,如對(duì)情緒(快樂(lè)、憤怒)和風(fēng)格的描述。(3)作品特征:如作者、廠家、導(dǎo)演等信息。(4)合成特征:包括場(chǎng)景合成、編輯信息、用戶(hù)的喜好等。(5)概念(高層特征):用于描述事件和活動(dòng)等概念。當(dāng)前第37頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
383.1基于內(nèi)容檢索的實(shí)現(xiàn)技術(shù)基本檢索步驟:對(duì)入庫(kù)的多媒體數(shù)據(jù)進(jìn)行特征提取以提取的媒體特征建立索引輸入用戶(hù)描述將用戶(hù)描述與庫(kù)中媒體進(jìn)行相似性匹配在相似性匹配的結(jié)果中選擇最終結(jié)果常用的圖像特征有顏色、紋理、形狀等,音頻特征有音量、頻率分布、無(wú)聲率等,視頻特征有關(guān)鍵幀、運(yùn)動(dòng)對(duì)象等當(dāng)前第38頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
393.2多媒體內(nèi)容檢索過(guò)程整個(gè)過(guò)程可以分為下面幾個(gè)步驟:(1)初始查詢(xún)說(shuō)明。用戶(hù)查找一個(gè)對(duì)象時(shí),最初可以用示例查詢(xún)(QBE)或查詢(xún)語(yǔ)言來(lái)形成一個(gè)查詢(xún)。系統(tǒng)提取該示例的特征或把查詢(xún)描述映射為具體的特征向量。(2)相似性匹配。將查詢(xún)特征與特征庫(kù)中的特征按照一定的匹配算法進(jìn)行相似匹配。(3)滿足一定相似性條件的一組候選結(jié)果,按相似度大小排列后返回給用戶(hù)。(4)特征調(diào)整。用戶(hù)可以挑選系統(tǒng)返回的查詢(xún)結(jié)果,直至得到滿意的結(jié)果;或者從候選結(jié)果中選擇一個(gè)示例。根據(jù)用戶(hù)給出的結(jié)果相關(guān)度反饋,對(duì)查詢(xún)進(jìn)行特征調(diào)整,形成一個(gè)新的查詢(xún)。(5)逐步縮小查詢(xún)范圍,重復(fù)步驟(2)~(5),直到用戶(hù)對(duì)查詢(xún)結(jié)果滿意為止。當(dāng)前第39頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
403.3基于內(nèi)容檢索系統(tǒng)概念基于內(nèi)容檢索(CBR,Content-BasedRetrieval)每一種媒體數(shù)據(jù)都有難以用符號(hào)化方法來(lái)描述的信息線索(如圖像中的顏色、視頻中的事件、音頻中的音調(diào)等)。當(dāng)用戶(hù)希望利用這些信息線索來(lái)對(duì)多媒體數(shù)據(jù)進(jìn)行檢索時(shí),傳統(tǒng)的數(shù)據(jù)庫(kù)檢索多采用基于關(guān)鍵字的檢索方式,并且在許多情況下媒體內(nèi)容難以用幾個(gè)關(guān)鍵字來(lái)進(jìn)行充分描述,作為關(guān)鍵字的圖像特征的選取也有很大的主觀性。另一方面,用戶(hù)很難將這些信息線索轉(zhuǎn)化成某種符號(hào)形式。因此,要求數(shù)據(jù)庫(kù)系統(tǒng)能對(duì)多媒體數(shù)據(jù)進(jìn)行內(nèi)容語(yǔ)義分析,以便達(dá)到更深的檢索層次,這就是所謂的基于內(nèi)容檢索當(dāng)前第40頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
413.3基于內(nèi)容檢索系統(tǒng)概念基于內(nèi)容檢索主要特點(diǎn)①?gòu)拿襟w內(nèi)容中提取信息線索?;趦?nèi)容檢索突破了傳統(tǒng)的基于關(guān)鍵字檢索的局限,直接對(duì)圖像、視頻、音頻等進(jìn)行分析,抽取特征,使得檢索更接近于媒體對(duì)象。②提取特征的方法多種多樣。以圖像特征提取為例,可以提取形狀、顏色、紋理和輪廓等多種特征。③人機(jī)交互。一般來(lái)說(shuō),用戶(hù)對(duì)特征比較敏感,能夠迅速分辨出目標(biāo)的輪廓、音樂(lè)的旋律等。如果對(duì)象很多,則用戶(hù)很難記住這些對(duì)象的特征,從大量數(shù)據(jù)中查找目標(biāo)的效率也非常低,但計(jì)算機(jī)能夠輕松地做到這一點(diǎn)。因此,在使用基于內(nèi)容檢索系統(tǒng)時(shí),用戶(hù)與計(jì)算機(jī)配合進(jìn)行檢索。當(dāng)前第41頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
423.3基于內(nèi)容檢索系統(tǒng)概念基于內(nèi)容檢索主要特點(diǎn)④近似匹配?;趦?nèi)容檢索時(shí)一種近似匹配過(guò)程。在檢索過(guò)程中,采用逐步求精的方法,每一層的中間結(jié)果是一個(gè)集合,不斷地減小該集合的范圍,直到定位到目標(biāo)為止。這一特點(diǎn)與數(shù)據(jù)庫(kù)檢索的精確匹配算法顯然不一樣。⑤綜合利用多種相關(guān)技術(shù)?;趦?nèi)容檢索可以利用圖像處理、語(yǔ)音信號(hào)處理、模式識(shí)別、知識(shí)庫(kù)系統(tǒng)、計(jì)算機(jī)圖形學(xué)、數(shù)據(jù)庫(kù)管理系統(tǒng)、信息檢索等眾多領(lǐng)域的研究成果和研究方法,來(lái)研究各種新的媒體數(shù)據(jù)表示和數(shù)據(jù)模型、高效可靠的查詢(xún)處理算法、智能查詢(xún)接口以及與應(yīng)用領(lǐng)域無(wú)關(guān)的系統(tǒng)結(jié)構(gòu)。當(dāng)前第42頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
433.3基于內(nèi)容檢索系統(tǒng)概念基于內(nèi)容檢索系統(tǒng)體系結(jié)構(gòu)主要模塊如下:(1)目標(biāo)標(biāo)識(shí)模塊(2)特征提取模塊(3)數(shù)據(jù)庫(kù)模塊(4)查詢(xún)接口模塊(5)檢索引擎模塊(6)索引/過(guò)濾模塊當(dāng)前第43頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
443.4未來(lái)的主要研究問(wèn)題(1)綜合的多特征檢索技術(shù)(2)高層概念和低層特征的關(guān)聯(lián)。(3)高維索引技術(shù)(4)時(shí)序媒體的內(nèi)容結(jié)構(gòu)化(5)用戶(hù)查詢(xún)界面(6)數(shù)據(jù)模型(7)性能評(píng)價(jià)(8)內(nèi)容描述標(biāo)準(zhǔn)(9)多媒體信息安全當(dāng)前第44頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)45多媒體內(nèi)容檢索與管理1多媒體數(shù)據(jù)庫(kù)2多媒體內(nèi)容管理3多媒體內(nèi)容檢索6基于內(nèi)容視頻檢索5基于內(nèi)容音頻檢索4基于內(nèi)容圖像檢索當(dāng)前第45頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
464.1圖像檢索的發(fā)展基于內(nèi)容的圖像檢索涉及信息檢索、圖像處理、計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)、人工智能等諸多研究領(lǐng)域關(guān)于圖像信息的檢索技術(shù)經(jīng)歷了圖像特征文本描述→圖像表層視覺(jué)特征→圖像語(yǔ)義內(nèi)在特征的3個(gè)階段。當(dāng)前第46頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
474.1圖像檢索的發(fā)展圖像特征文本描述20世紀(jì)70年代末人工文字注解圖像利用文本檢索實(shí)現(xiàn)對(duì)圖像特征的查找費(fèi)時(shí)費(fèi)力不完整反映圖像表層視覺(jué)特征20世紀(jì)90年代初使用顏色、紋理及形狀等視覺(jué)特征實(shí)現(xiàn)了圖像視覺(jué)內(nèi)容特征的檢索以圖找圖查詢(xún)模式圖像語(yǔ)義內(nèi)在特征智能檢索解決圖像簡(jiǎn)單視覺(jué)特征和用戶(hù)檢索豐富語(yǔ)義之間存在的"語(yǔ)義鴻溝"問(wèn)題的關(guān)鍵當(dāng)前第47頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
484.1圖像檢索的發(fā)展基于內(nèi)容的圖像檢索技術(shù)研究的4個(gè)熱點(diǎn)最初的圖像檢索研究主要集中于如何選擇合適的全局特征去描述圖像內(nèi)容和采用什么樣的相似性度量方法進(jìn)行圖像匹配。第二個(gè)研究熱點(diǎn)是基于區(qū)域的圖像檢索方法,其主要思想是通過(guò)圖像分割技術(shù)提取出圖像中的物體,然后對(duì)每個(gè)區(qū)域使用局部特征來(lái)描述,綜合每個(gè)區(qū)域特征可得到圖像的特征描述。前兩個(gè)研究方向可稱(chēng)為以圖像為中心的方法,對(duì)于用戶(hù)的需求缺乏分析。第三個(gè)研究熱點(diǎn)就是針對(duì)這一問(wèn)題展開(kāi)的,借助相關(guān)反饋的思想,根據(jù)用戶(hù)需求及時(shí)調(diào)整系統(tǒng)檢索時(shí)用的特征和相似性度量方法,從而縮小底層特征和高層語(yǔ)義之間的差距。第四個(gè)研究熱點(diǎn)是研究如何從多種渠道獲取圖像語(yǔ)義信息,如何將圖像底層特征與圖像關(guān)鍵詞結(jié)合進(jìn)行圖像自動(dòng)標(biāo)注以提高檢索準(zhǔn)確率等。當(dāng)前第48頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
494.2基于內(nèi)容圖像檢索的系統(tǒng)結(jié)構(gòu)圖基于內(nèi)容圖像檢索的體系結(jié)構(gòu)分為特征提取和查詢(xún)兩個(gè)子系統(tǒng):(1)預(yù)處理包括圖像格式的轉(zhuǎn)換、規(guī)格化,圖像的增強(qiáng)與去噪等功能。(2)目標(biāo)標(biāo)識(shí)即標(biāo)識(shí)出圖像中用戶(hù)感興趣的區(qū)域或?qū)ο螅员汜槍?duì)目標(biāo)進(jìn)行特征提取并查詢(xún)。(3)特征提取包括提取圖像顏色、紋理、形狀、空間位置關(guān)系等特征。當(dāng)前第49頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
504.2基于內(nèi)容圖像檢索的系統(tǒng)結(jié)構(gòu)圖基于內(nèi)容圖像檢索的體系結(jié)構(gòu)(4)數(shù)據(jù)庫(kù)由圖像庫(kù)、特征庫(kù)和知識(shí)庫(kù)組成。圖像庫(kù)為數(shù)字化的圖像信息,特征庫(kù)包含自動(dòng)提取的內(nèi)容特征,知識(shí)庫(kù)包含專(zhuān)門(mén)和通用知識(shí),有利于查詢(xún)優(yōu)化和快速匹配,知識(shí)庫(kù)中知識(shí)表達(dá)可以更換以適用于各種不同的應(yīng)用領(lǐng)域。當(dāng)前第50頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
514.2基于內(nèi)容圖像檢索的系統(tǒng)結(jié)構(gòu)圖基于內(nèi)容圖像檢索的體系結(jié)構(gòu)(5)查詢(xún)接口提供一個(gè)友好的用戶(hù)界面。包括可視化的輸入手段和結(jié)果瀏覽功能。(6)檢索引擎中包括一個(gè)有效可靠的相似性測(cè)度函數(shù)集。(7)檢索引擎通過(guò)索引/過(guò)濾模塊達(dá)到快速檢索的目的。當(dāng)前第51頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
524.3基于內(nèi)容圖像檢索的特點(diǎn)主要特點(diǎn)有:(1)基于內(nèi)容檢索突破了傳統(tǒng)的基于表達(dá)式檢索的局限,從媒體內(nèi)容中提取信息線索。利用圖像內(nèi)容特征建立索引進(jìn)行檢索。使得檢索過(guò)程更加有效,適應(yīng)性更強(qiáng)。(2)基于內(nèi)容圖像檢索是一種近似匹配的技術(shù)。由于相同內(nèi)容的圖像有不同的表現(xiàn)方式,例如同一場(chǎng)景下的圖片有遠(yuǎn)景和近景之分。而且圖像信息的內(nèi)容比較豐富,相互關(guān)聯(lián)性比較強(qiáng)。(3)大型數(shù)據(jù)庫(kù)的快速檢索。在實(shí)際的多媒體數(shù)據(jù)庫(kù)中,不僅數(shù)據(jù)量巨大,而且種類(lèi)和數(shù)量繁多,因此要求CBIR技術(shù)快速地實(shí)現(xiàn)對(duì)多媒體信息的檢索。(4)以相關(guān)反饋為有效手段。當(dāng)用戶(hù)提供一幅查詢(xún)草圖(sketch)或圖像,并要求找出與此相似的圖像時(shí),其意識(shí)中已經(jīng)有了相似性判別標(biāo)準(zhǔn)。理想情況下,系統(tǒng)的相似性度量應(yīng)該與用戶(hù)的判別一致,它涉及人類(lèi)視覺(jué)系統(tǒng)對(duì)圖像的認(rèn)知和高層語(yǔ)義的解釋。因此通過(guò)用戶(hù)的相關(guān)反饋,檢索系統(tǒng)學(xué)習(xí)用戶(hù)的意圖和準(zhǔn)則來(lái)指導(dǎo)圖像檢索過(guò)程,有效提高圖像檢索的效率。當(dāng)前第52頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
534.4基于內(nèi)容圖像檢索方法的分類(lèi)基于內(nèi)容的圖像檢索方法可分為外部圖例查詢(xún)、內(nèi)部圖例查詢(xún)、草圖查詢(xún)和綜合查詢(xún)。早在1980年就有文獻(xiàn)提出了圖倒查詢(xún)的概念,圖例查詢(xún)是一種由一幅或多幅圖像實(shí)例構(gòu)造查詢(xún)的圖像檢索技術(shù)。1、外部圖例查詢(xún)示例圖像來(lái)源于檢索系統(tǒng)的外部?jī)?yōu)勢(shì)在于用戶(hù)在表達(dá)其信息需求時(shí)的簡(jiǎn)單性。用戶(hù)僅需提供一幅或多幅圖像,或許也需要調(diào)整一些參數(shù),如各種特征的權(quán)重等。檢索過(guò)程中并不需要特定的數(shù)據(jù)庫(kù)查詢(xún)語(yǔ)言方面的知識(shí)。
缺點(diǎn)當(dāng)用戶(hù)很難提供一個(gè)示例圖像時(shí),外部圖倒查詢(xún)的可用性將大打折扣。也許在某種情況下,在系統(tǒng)外部尋找一幅示例圖片所付出的代價(jià)甚至有可能超過(guò)直接在數(shù)據(jù)庫(kù)中尋找圖像的代價(jià)。總之,外部圖例查詢(xún)的優(yōu)點(diǎn)是易用,缺點(diǎn)是需要付出一定的努力向系統(tǒng)提供外部示例圖像。當(dāng)前第53頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
544.4基于內(nèi)容圖像檢索方法的分類(lèi)2、內(nèi)部圖例查詢(xún)示例圖片是從檢索系統(tǒng)的數(shù)據(jù)庫(kù)中選出的。系統(tǒng)在其他方面的功能與外部示例圖片基本上一致。為了比較內(nèi)部與外部示例查詢(xún),拿搶劫嫌疑犯的照片的檢索作例子。目擊者沒(méi)有必要一張一張地翻閱警察局存檔的嫌疑犯照片庫(kù),通過(guò)圖例查詢(xún),目擊者可以先選擇一張看上去比較像嫌疑犯的照片,比如兩者都有絡(luò)腮胡子,然后從系統(tǒng)給出的所有相似者列表中快速確定搜索目標(biāo)。優(yōu)勢(shì)在于不再需要為了進(jìn)行圖例查詢(xún)而首先從外界尋求或構(gòu)造一幅示例圖片。缺點(diǎn):系統(tǒng)要求用戶(hù)必須首先在數(shù)據(jù)庫(kù)中找到一幅類(lèi)似的圖片,這個(gè)過(guò)程可能是相當(dāng)費(fèi)時(shí)費(fèi)力的。所以?xún)?nèi)部圖例查詢(xún)經(jīng)常與其他檢索方法結(jié)合使用以避免這個(gè)問(wèn)題。比如可以先通過(guò)直接查詢(xún)縮小圖像搜索范圍,然后再使用內(nèi)部圖例查詢(xún)??傊?,內(nèi)部圖例查詢(xún)的優(yōu)點(diǎn)是用戶(hù)不再為獲得一個(gè)外部示例圖片而煩惱,缺點(diǎn)是仍然需要用戶(hù)付出努力在數(shù)據(jù)庫(kù)中找到一幅合適的示例圖片。當(dāng)前第54頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
554.4基于內(nèi)容圖像檢索方法的分類(lèi)3、草圖查詢(xún)示例圖像由用戶(hù)創(chuàng)建。用戶(hù)為他希望得到的圖像勾畫(huà)一張草圖。檢索系統(tǒng)為此必須為用戶(hù)提供一些圖像部件(如各類(lèi)紋理)和作圖工具。我們還是拿前面提到的搶劫嫌疑犯的照片檢索作例子,這里向系統(tǒng)輸入的示例圖像是一張嫌疑犯的簡(jiǎn)略肖像草圖,它是由有關(guān)專(zhuān)家根據(jù)目擊者的敘述描畫(huà)的。有時(shí)目擊者可以通過(guò)組合一些諸如頭發(fā)、鼻子、眼睛等部件的照片而構(gòu)造一張臉。缺點(diǎn)是它要求用戶(hù)或多或少要有一些藝術(shù)才能。由于大多數(shù)的用戶(hù)不具備足夠的這方面的才能,草圖查詢(xún)?cè)诖蠖鄶?shù)的場(chǎng)合下僅用來(lái)指出圖像中對(duì)象的位置或一些對(duì)象的全局屬性。可見(jiàn),草圖查詢(xún)的優(yōu)點(diǎn)是用戶(hù)可以根據(jù)需要指出最重要、最感興趣的圖像細(xì)節(jié),缺點(diǎn)是草圖的創(chuàng)建不像想象的那么容易,而且很難建立草圖與圖像之間的映射關(guān)系。當(dāng)前第55頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
564.4基于內(nèi)容圖像檢索方法的分類(lèi)4、綜合檢索方法大多數(shù)的圖像檢索系統(tǒng)都或多或少地綜合應(yīng)用了上述的各種檢索方法。系統(tǒng)可以對(duì)同一個(gè)數(shù)據(jù)庫(kù)提供多種檢索方法的接口,但更有意義的是在一次檢索會(huì)話中綜合應(yīng)用不同的檢索技術(shù)。后一種情況下,檢索系統(tǒng)將是多個(gè)應(yīng)用不同檢索方法的子系統(tǒng)的有機(jī)集成,子系統(tǒng)之間通過(guò)輸入與輸出的對(duì)接完成通信與交互。當(dāng)前第56頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
574.5基于內(nèi)容圖像檢索的應(yīng)用1.知識(shí)產(chǎn)權(quán)保護(hù)許多知識(shí)產(chǎn)權(quán)的載體都是圖像,最明顯的是商標(biāo)和藝術(shù)作品。毫無(wú)疑問(wèn),利用基于內(nèi)容的圖像檢索技術(shù)實(shí)現(xiàn)商標(biāo)的專(zhuān)用圖形標(biāo)記的自動(dòng)審查具有非?,F(xiàn)實(shí)的意義。2.新一代網(wǎng)上搜索和數(shù)字圖書(shū)館新一代網(wǎng)上搜索引擎應(yīng)該具有協(xié)助用戶(hù)從海量而且無(wú)序的網(wǎng)上圖像資源中尋找符合要求的圖像的能力。除了對(duì)圖像內(nèi)容的分析外,基于Web的圖像搜索引擎還要提供友好的查詢(xún)界面和快速的聯(lián)機(jī)反應(yīng)能力。3.醫(yī)學(xué)和遙感圖像的分析和處理盡管傳統(tǒng)的圖像處理領(lǐng)域早就開(kāi)始涉足醫(yī)學(xué)和遙感圖像的分析和處理的研究,但它們?nèi)匀皇且粋€(gè)開(kāi)放的研究課題,無(wú)論是民用還是軍事,醫(yī)學(xué)和遙感圖像的分析和處理都具有非常重大的現(xiàn)實(shí)意義。特別當(dāng)圖像規(guī)模增加時(shí),準(zhǔn)確有效的圖像分析手段以及快速的圖像識(shí)別和檢索技術(shù)將凸現(xiàn)其重要性。當(dāng)前第57頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
584.5基于內(nèi)容圖像檢索的應(yīng)用4.犯罪與安全預(yù)防當(dāng)將圖像的內(nèi)容限制在特定領(lǐng)域時(shí),基于內(nèi)容的圖像檢索技術(shù)將找到更為具體的應(yīng)用。例如,安全部門(mén)可以將人的主要特征(如指紋和臉部)的圖像存儲(chǔ)在數(shù)據(jù)庫(kù)中,通過(guò)指紋識(shí)別和人臉識(shí)別就有可能從大量的指紋庫(kù)或者人臉庫(kù)中自動(dòng)識(shí)別出特定的目標(biāo)。毫無(wú)疑問(wèn),這具有重大的社會(huì)價(jià)值?;ヂ?lián)網(wǎng)的飛速發(fā)展也帶來(lái)另外一個(gè)負(fù)面的影響,即網(wǎng)上不健康內(nèi)容的大量增加,特別是一些低級(jí)趣味的圖片。在某些情況下可能需要對(duì)這些信息進(jìn)行過(guò)濾。基于內(nèi)容的圖像檢索技術(shù)完全可以應(yīng)用到類(lèi)似的具有圖像過(guò)濾需求的應(yīng)用中。除此以外,基于內(nèi)容的圖像檢索技術(shù)還可以應(yīng)用到設(shè)計(jì)(時(shí)裝、裝潢和結(jié)構(gòu))、遠(yuǎn)程教育以及個(gè)人相冊(cè)管理等方面。當(dāng)前第58頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
594.6基于文本與基于內(nèi)容的圖像檢索技術(shù)的比較1.基于文本的圖像檢索TBIR傳統(tǒng)的圖像檢索方法.它是在對(duì)圖像進(jìn)行文本標(biāo)注的基礎(chǔ)上,對(duì)圖像進(jìn)行基于關(guān)鍵字的檢索.在這種技術(shù)下,對(duì)圖像的檢索變成了對(duì)關(guān)鍵字的查找,是一種基于關(guān)鍵詞的匹配查找過(guò)程.其基本步驟是先對(duì)圖像文件建立相應(yīng)的關(guān)鍵詞或描述字段,它通過(guò)對(duì)圖像的名稱(chēng)、編號(hào)、內(nèi)容描述、圖像大小、圖像所在文件的大小、圖像來(lái)源、作者、建立圖像的時(shí)間、存儲(chǔ)地點(diǎn)等關(guān)鍵性的信息采用自動(dòng)標(biāo)引或進(jìn)行人工注釋?zhuān)⑦M(jìn)行圖像的特征抽取,建立圖像索引數(shù)據(jù)庫(kù),然后按全文數(shù)據(jù)庫(kù)管理,采用全文數(shù)據(jù)庫(kù)檢索方法.該方法的實(shí)質(zhì)是把圖像檢索轉(zhuǎn)換為對(duì)與該圖像對(duì)應(yīng)的文本檢索.當(dāng)前第59頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
604.6基于文本與基于內(nèi)容的圖像檢索技術(shù)的比較2.
TBIR的優(yōu)點(diǎn)和問(wèn)題優(yōu)點(diǎn):易于實(shí)現(xiàn)人工干預(yù),所以它的查準(zhǔn)率是相當(dāng)高,仍常用于輔助其他圖像檢索技術(shù),以進(jìn)一步提高檢索性能.存在的困難:文本描述難以充分表達(dá)圖像的豐富內(nèi)容圖像中則往往含有大量需要定量描述的信息許多圖像的特征難以用文本描述表達(dá)文本描述又具有一定的主觀性文本描述難以實(shí)現(xiàn)基于圖像視覺(jué)特征的相似性檢索海量數(shù)據(jù)下人工標(biāo)注的開(kāi)銷(xiāo)太大當(dāng)前第60頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
614.6基于文本與基于內(nèi)容的圖像檢索技術(shù)的比較3.
TBIR與CBIR的比較TBIR與CBIR有著各自的優(yōu)勢(shì)和不足,下面列表比較了兩種方法.當(dāng)前第61頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
624.6基于文本與基于內(nèi)容的圖像檢索技術(shù)的比較3.
TBIR與CBIR的比較TBIR在一定程度上回避了對(duì)復(fù)雜的可視化元素的識(shí)別難題,符合人們熟悉的檢索習(xí)慣,實(shí)現(xiàn)簡(jiǎn)單,由于圖像在手工標(biāo)注時(shí)圖像的標(biāo)注有太多的主觀性、缺乏統(tǒng)一的標(biāo)準(zhǔn),仍舊局限在文本檢索的范圍下,通過(guò)受控詞匯來(lái)描述圖像,無(wú)法對(duì)圖像內(nèi)容理解,而且其在表達(dá)復(fù)雜的或是難以表達(dá)的圖像內(nèi)容時(shí)有極大的局限性.
CBIR恰相反,主要利用對(duì)直觀形象的特征元素的分析來(lái)標(biāo)引圖像,具有一定的客觀性,如每幅圖像的色彩直方圖是確定的.但是CBIR算法復(fù)雜,實(shí)現(xiàn)成本高,難以建立從底層圖像特征到高層語(yǔ)義的聯(lián)系,檢索的準(zhǔn)確性較低.如果能將二者結(jié)合起來(lái)取長(zhǎng)補(bǔ)短,則網(wǎng)絡(luò)環(huán)境下圖像檢索技術(shù)必有新的進(jìn)展.當(dāng)前第62頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
634.6基于文本與基于內(nèi)容的圖像檢索技術(shù)的比較4.TBIR與CBIR的結(jié)合運(yùn)用網(wǎng)頁(yè)圖像的內(nèi)容不僅包含在自身的圖像數(shù)據(jù)中又包含于它所HTML檔的文字描述中.Web圖像的這種特點(diǎn)提供了TBIR與CBIR結(jié)合運(yùn)用的機(jī)會(huì).人們對(duì)圖像間相似度的判斷體現(xiàn)出多重標(biāo)準(zhǔn),既有語(yǔ)義標(biāo)準(zhǔn)又有低層特征標(biāo)準(zhǔn),而且不同的人在判斷標(biāo)準(zhǔn)上也有差異.因此,一個(gè)有效的Web圖像檢索系統(tǒng)要便于根據(jù)不同用戶(hù)的標(biāo)準(zhǔn)進(jìn)行調(diào)整,這就要求將文字描述和圖像低層屬性進(jìn)行合理利用.當(dāng)前第63頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
644.6基于文本與基于內(nèi)容的圖像檢索技術(shù)的比較4.TBIR與CBIR的結(jié)合運(yùn)用為此有機(jī)整合TBIR和CBIR,構(gòu)建了一個(gè)基于web的圖像檢索系統(tǒng),使二者互為補(bǔ)充,這樣系統(tǒng)就可同時(shí)獲取圖像的低層和高層特征.
用戶(hù)可以通過(guò)關(guān)鍵詞開(kāi)始檢索一個(gè)查詢(xún),而返回結(jié)果后再選擇可以作為查詢(xún)樣圖的圖像進(jìn)行基于內(nèi)容屬性的檢索.通過(guò)頁(yè)面分析器從網(wǎng)頁(yè)中自動(dòng)抽取能反映圖像語(yǔ)義信息的符號(hào)和文字,然后按照傳統(tǒng)的文本信息檢索技術(shù),建立圖像的語(yǔ)義特征庫(kù).利用概念之間的關(guān)系對(duì)提取的語(yǔ)義概念進(jìn)行關(guān)聯(lián)映射,從而對(duì)其進(jìn)行更廣泛意義的自動(dòng)標(biāo)注.當(dāng)前第64頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
654.6基于文本與基于內(nèi)容的圖像檢索技術(shù)的比較4.TBIR與CBIR的結(jié)合運(yùn)用這種結(jié)合方式有利于從更全面準(zhǔn)確的分析Web圖像,同時(shí)可以緩解基于內(nèi)容檢索在獲取圖像抽象的高級(jí)語(yǔ)義上的難度.當(dāng)前第65頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
664.7基于內(nèi)容圖像檢索的典型系統(tǒng)當(dāng)前第66頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
67主要參考文獻(xiàn)[1].張騫,基于文本的與基于內(nèi)容的圖像檢索技術(shù)比較研究.情報(bào)探索,2012(01):第111-113頁(yè).[1].阿斯艷·哈米提與阿不都熱西提·哈米提,基于文本的圖像檢索與基于內(nèi)容的圖像檢索技術(shù)的比較研究.首都師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(04):第6-9頁(yè).[3]肖明.基于內(nèi)容的多媒體信息索引與檢索概論[M].北京:人民郵電出版社,2009.8.
[4]馬修軍.多媒體數(shù)據(jù)庫(kù)與內(nèi)容檢索[M].北京:北京大學(xué)出版社,2007.7.[5]周明全,耿國(guó)華,等.基于內(nèi)容圖像檢索技術(shù)[M].北京:清華大學(xué)出版社,2007.7.當(dāng)前第67頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)68多媒體內(nèi)容檢索與管理1多媒體數(shù)據(jù)庫(kù)2多媒體內(nèi)容管理3多媒體內(nèi)容檢索6基于內(nèi)容視頻檢索5基于內(nèi)容音頻檢索4基于內(nèi)容圖像檢索當(dāng)前第68頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)基于內(nèi)容的音頻檢索基本概念基于內(nèi)容的音頻檢索系統(tǒng)基本結(jié)構(gòu)關(guān)鍵技術(shù)音頻特征提取基于內(nèi)容的音頻分割與識(shí)別分類(lèi)音頻檢索方式典型的音頻系統(tǒng)簡(jiǎn)介Page69當(dāng)前第69頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.1基于內(nèi)容的音頻檢索—基本概念思考:
傳統(tǒng)的音頻檢索?存在的問(wèn)題?Page70當(dāng)前第70頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.1基于內(nèi)容的音頻檢索—基本概念傳統(tǒng)的音頻檢索基于文本的,即通過(guò)人工方式生成多媒體信息的文本描述,如文件說(shuō)明、歌曲名稱(chēng)等,然后采用文本檢索技術(shù)實(shí)現(xiàn)對(duì)多媒體信息的檢索。存在的問(wèn)題Page71當(dāng)前第71頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.1基于內(nèi)容的音頻檢索—基本概念基于內(nèi)容的音頻檢索
指研究如何利用音頻的幅度、頻譜等物理特征,響度、音高、音色等聽(tīng)覺(jué)特征,詞字、旋律等語(yǔ)義特征實(shí)現(xiàn)與音頻內(nèi)容信息相關(guān)的檢索。
核心思想是通過(guò)一定的計(jì)算處理,分析音頻的結(jié)構(gòu)和語(yǔ)義,建立它們的結(jié)構(gòu)化的組織和索引,使得“無(wú)序”的音頻變的“有序”,從而有利于用戶(hù)的檢索和瀏覽。
主要有兩個(gè)方面的含義:一是檢索音頻內(nèi)容本身,如通過(guò)“哼”某音樂(lè)的曲調(diào)查找此音樂(lè);二是檢索與音頻內(nèi)容相關(guān)的信息,如通過(guò)語(yǔ)音查找說(shuō)話人等。Page72當(dāng)前第72頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.2基于內(nèi)容的音頻檢索—系統(tǒng)基本結(jié)構(gòu)一般可把基于內(nèi)容的音頻數(shù)據(jù)庫(kù)檢索系統(tǒng)看作是介于信息用戶(hù)和數(shù)據(jù)庫(kù)之間的一種信息服務(wù)系統(tǒng)?;趦?nèi)容的音頻檢索,一般分為音頻特征提取、音頻識(shí)別分類(lèi)、檢索三個(gè)過(guò)程。Page73當(dāng)前第73頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)Page
745.2基于內(nèi)容的音頻檢索—系統(tǒng)基本結(jié)構(gòu)特征提取特征提取指的是尋找原始音頻信號(hào)表達(dá)形式,提取能代表原始信號(hào)的數(shù)據(jù)。要提取特征和屬性,通常要對(duì)數(shù)據(jù)庫(kù)中的多媒體數(shù)據(jù)項(xiàng)進(jìn)行預(yù)處理。因?yàn)樵跈z索過(guò)程中,其實(shí)是對(duì)這些特征和屬性而不是對(duì)信息項(xiàng)本身進(jìn)行搜索和比較,所以特征提取的質(zhì)量決定著檢索結(jié)果。音頻識(shí)別分類(lèi)音頻識(shí)別分類(lèi)是對(duì)音頻進(jìn)行歸類(lèi)劃分,分類(lèi)本身可以是一種檢索方式,也可以作為檢索的一個(gè)輔助手段,歸類(lèi)越精確,一般來(lái)說(shuō)檢索就越準(zhǔn)確。檢索檢索的過(guò)程是一個(gè)匹配的過(guò)程,根據(jù)音頻特征問(wèn)的相似度給出檢索結(jié)果。檢索系統(tǒng)一般分為兩部分:一部分是數(shù)據(jù)庫(kù)的生成,即音頻數(shù)據(jù)及其特征錄入到數(shù)據(jù)庫(kù);一部分是數(shù)據(jù)庫(kù)查詢(xún),即用戶(hù)通過(guò)輸入音頻或輸入特征字符串在數(shù)據(jù)庫(kù)中查找所需要的音頻。當(dāng)前第74頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.2基于內(nèi)容的音頻檢索——系統(tǒng)基本結(jié)構(gòu)圖:音頻檢索系統(tǒng)的一般結(jié)構(gòu)Page75當(dāng)前第75頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.3關(guān)鍵技術(shù)(音頻特征提取)音頻特征提取
音頻特征提取是整個(gè)基于內(nèi)容的音頻檢索技術(shù)的核心技術(shù)。音頻內(nèi)容描述是在音頻內(nèi)容獲取的基礎(chǔ)之上進(jìn)行的,同時(shí)是進(jìn)一步進(jìn)行音頻特征相似度匹配的必要前提。音頻時(shí)域特征的提取音頻頻域特征的提取Page76當(dāng)前第76頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.3關(guān)鍵技術(shù)(音頻特征提?。┮纛l時(shí)域特征的提取時(shí)域(時(shí)間—幅值)表示法是最基本的音頻信號(hào)表示技術(shù),它把音頻信號(hào)表示成隨時(shí)間變化而變化的幅值。假定靜音表示成0,若聲壓高于靜音時(shí)的平衡氣壓,則信號(hào)值為正,否則為負(fù)。平均能量:說(shuō)明了音頻信號(hào)的強(qiáng)度,可用于靜音檢測(cè),對(duì)于一個(gè)音頻例子,如這個(gè)音頻例子中的某一短時(shí)幀的平均能量低于一個(gè)事先設(shè)定的閾值,則可判定該短時(shí)幀為靜音。過(guò)零率:指每秒內(nèi)信號(hào)值通過(guò)零值的次數(shù),一定程度上說(shuō),它說(shuō)明了平均信號(hào)頻率。一般語(yǔ)音信號(hào)由單詞構(gòu)成,單詞又由元音和輔音交替的音節(jié)組成,輔音信號(hào)的過(guò)零率低,而元音信號(hào)的過(guò)零率高。語(yǔ)音信號(hào)開(kāi)始和結(jié)束都大量集中了輔音信號(hào),所以其開(kāi)始和結(jié)束部分的過(guò)零率總會(huì)有顯著升高,利用過(guò)零率可判斷語(yǔ)音是否開(kāi)始和結(jié)束。靜音比:表示靜音的聲音片段的比例??捎?jì)算為靜音時(shí)段的總和與音頻片段總長(zhǎng)度之間的比值。Page77當(dāng)前第77頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.3關(guān)鍵技術(shù)(音頻特征提?。┮纛l頻域特征的提取傅里葉變換可分解出音頻信號(hào)的頻率成分,可提取的音頻頻域特征有帶寬、頻譜中心、諧音、音調(diào)等。帶寬:說(shuō)明了聲音的頻率范圍,音樂(lè)通常比語(yǔ)音信號(hào)具有更高的帶寬。頻譜中心:也稱(chēng)亮度,是一個(gè)聲音頻譜能量分布的中心點(diǎn)。語(yǔ)音與音樂(lè)相比,頻譜中心較低。諧音:頻率為最低頻率的倍數(shù)的頻譜成分稱(chēng)為諧音。在有諧音的聲音中,頻譜成分大部分是最低頻率的整數(shù)倍數(shù),音樂(lè)通常比其他聲音具有更多的諧音。音調(diào):是聽(tīng)覺(jué)分辨聲音高低的特性,完全由頻率決定,可通過(guò)頻譜估計(jì)。是一個(gè)主觀特征,與基本頻率有關(guān),但不等同于基本頻率。然而,在實(shí)踐中,一般將基本頻率作為音調(diào)的近似值。Page78當(dāng)前第78頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.4關(guān)鍵技術(shù)(音頻分割與識(shí)別)基于內(nèi)容的音頻分割與識(shí)別基于特征閾值的分割和分類(lèi)算法基于模型的音頻分割和識(shí)別算法Page79當(dāng)前第79頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.4關(guān)鍵技術(shù)(音頻分割與識(shí)別)基于特征閾值的分割和分類(lèi)算法
利用不同類(lèi)型音頻信號(hào)轉(zhuǎn)換時(shí)某些聽(tīng)覺(jué)特征會(huì)發(fā)生較大變化的現(xiàn)象,在特征發(fā)生突變的地方對(duì)音頻序列進(jìn)行分割,再進(jìn)行后續(xù)處理。這種方法需要預(yù)先確定不同特征之間變化的閾值,根據(jù)閾值判斷是否應(yīng)該分割。
優(yōu)點(diǎn):計(jì)算比較簡(jiǎn)單
缺點(diǎn):特征閾值的選取比較困難,主要依靠前人的經(jīng)驗(yàn)值,并且
對(duì)于不同的應(yīng)用,閾值也是不確定的。Page80當(dāng)前第80頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.4關(guān)鍵技術(shù)(音頻分割與識(shí)別)基于模型的音頻分割和識(shí)別算法這種方法是基于模型的,它通過(guò)訓(xùn)練模型去模擬某類(lèi)音頻的動(dòng)態(tài)變化,然后根據(jù)這個(gè)模型的變化確定最佳的分割。這種方法要求事先給出一批帶有類(lèi)別標(biāo)記的訓(xùn)練樣本,通過(guò)有指導(dǎo)的學(xué)習(xí)訓(xùn)練來(lái)生成分類(lèi)器,進(jìn)而對(duì)測(cè)試樣本集合的待分類(lèi)樣本進(jìn)行測(cè)試以衡量其分類(lèi)性能。目前應(yīng)用比較成功的是隱馬爾可夫模型(HiddenMarkovModel:HMM)和高斯模型(GaussianModel)。
基于模型的分割分類(lèi)方法具有豐實(shí)的理論基礎(chǔ)、簡(jiǎn)單的實(shí)現(xiàn)機(jī)制等特點(diǎn),因而為目前的大多數(shù)音頻分類(lèi)系統(tǒng)所采用。Page81當(dāng)前第81頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)基于內(nèi)容的音頻索引和檢索通常采用的步驟(1)將音頻數(shù)據(jù)分類(lèi),通??煞譃檎Z(yǔ)音、音樂(lè)和噪聲等類(lèi)型。(2)不同類(lèi)型的音頻數(shù)據(jù)可以以不同的方式進(jìn)行處理和索引。如,對(duì)語(yǔ)音可運(yùn)用語(yǔ)音識(shí)別技術(shù)且可基于識(shí)別過(guò)的詞匯對(duì)其進(jìn)行索引。(3)查詢(xún)音頻片段要同樣地進(jìn)行分類(lèi)、處理和索引。(4)根據(jù)查詢(xún)索引和數(shù)據(jù)中音頻索引之間的相似性,對(duì)音頻片段進(jìn)行檢索。5.5關(guān)鍵技術(shù)(音頻檢索)Page82當(dāng)前第82頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.5關(guān)鍵技術(shù)(音頻檢索)基于內(nèi)容的音頻檢索方式基于語(yǔ)音技術(shù)的檢索音樂(lè)索引和檢索結(jié)構(gòu)化音樂(lè)的索引和檢索
基于樣本的音樂(lè)的索引和檢索Page83當(dāng)前第83頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.6關(guān)鍵技術(shù)(基于語(yǔ)音技術(shù)的檢索)基于語(yǔ)音技術(shù)的檢索
語(yǔ)音檢索是以語(yǔ)音為中心的檢索,采用語(yǔ)音識(shí)別等處理技術(shù)。如電臺(tái)節(jié)目、電話交談、會(huì)議錄音等?;谡Z(yǔ)音技術(shù)的檢索是利用語(yǔ)音處理技術(shù)檢索音頻信息。過(guò)去人們對(duì)語(yǔ)音信號(hào)處理開(kāi)展了大量的研究,許多成果可以用于語(yǔ)音檢索。Page84當(dāng)前第84頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.6關(guān)鍵技術(shù)(基于語(yǔ)音技術(shù)的檢索)1利用大詞匯語(yǔ)音識(shí)別技術(shù)進(jìn)行檢索
這種方法是利用自動(dòng)語(yǔ)音識(shí)別(ASR)技術(shù)把語(yǔ)音轉(zhuǎn)換為文本,從而可以采用文本檢索方法進(jìn)行檢索。雖然好的連續(xù)語(yǔ)音識(shí)別系統(tǒng)在小心地操作下可以達(dá)到90%以上的詞語(yǔ)正確度,但在實(shí)際應(yīng)用中,如電話和新聞產(chǎn)播等,識(shí)別率并不高。2基于子詞單元進(jìn)行檢索當(dāng)語(yǔ)音識(shí)別系統(tǒng)處理各方面無(wú)限制主題的大范圍語(yǔ)音資料時(shí),識(shí)別性能會(huì)變差,尤其當(dāng)一些專(zhuān)業(yè)詞匯(如人名、地點(diǎn))不在系統(tǒng)詞庫(kù)中時(shí)。一種變通的方法是利用子詞(SubWord)索引單元,當(dāng)執(zhí)行查詢(xún)時(shí),用戶(hù)的查詢(xún)首先被分解為子詞單元,然后將這些單元的特征與庫(kù)中預(yù)先計(jì)算好的特征進(jìn)行匹配。Page85當(dāng)前第85頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.6關(guān)鍵技術(shù)(基于語(yǔ)音技術(shù)的檢索)3基于識(shí)別關(guān)鍵詞進(jìn)行檢索在無(wú)約束的語(yǔ)音中自動(dòng)檢測(cè)詞或短語(yǔ)通常稱(chēng)為關(guān)鍵詞的發(fā)現(xiàn)(Spotting)。利用該技術(shù),識(shí)別或標(biāo)記出長(zhǎng)段錄音或音軌中反映用戶(hù)感興趣的事件,這些標(biāo)記就可以用于檢索。如通過(guò)捕捉體育比賽解說(shuō)詞中“進(jìn)球”的詞語(yǔ)可以標(biāo)記進(jìn)球的內(nèi)容。4基于說(shuō)話人的辨認(rèn)進(jìn)行分割這種技術(shù)是簡(jiǎn)單地辨別出說(shuō)話人話音的差別,而不是識(shí)別出說(shuō)的是什么。它在合適的環(huán)境中可以做到非常準(zhǔn)確。利用這種技術(shù),可以根據(jù)說(shuō)話人的變化分割錄音,并建立錄音索引。如用這種技術(shù)檢測(cè)視頻或多媒體資源的聲音軌跡中的說(shuō)話人的變化,建立索引和確定某種類(lèi)型的結(jié)構(gòu)(如對(duì)話)。例如,分割和分析會(huì)議錄音,分割的區(qū)段對(duì)應(yīng)于不同的說(shuō)話人,可以方便地直接瀏覽長(zhǎng)篇的會(huì)議資料。Page86當(dāng)前第86頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)音樂(lè)索引和檢索音樂(lè)的類(lèi)型有兩種:結(jié)構(gòu)化的(或綜合的)音樂(lè)和基于樣本的音樂(lè)。5.7關(guān)鍵技術(shù)(音樂(lè)索引和檢索)Page87當(dāng)前第87頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.7關(guān)鍵技術(shù)(音樂(lè)索引和檢索)結(jié)構(gòu)化音樂(lè)的索引和檢索結(jié)構(gòu)化音樂(lè)和聲音效果是由一系列指令或算法來(lái)表示的。最常見(jiàn)的結(jié)構(gòu)化音樂(lè)是MIDI,它把音樂(lè)表示成大量的音符和控制指令。由于結(jié)構(gòu)化音頻的簡(jiǎn)明結(jié)構(gòu)和音符描述的原因,沒(méi)有必要從音頻信號(hào)中抽取特征,因此結(jié)構(gòu)化音頻更便于檢索。對(duì)于結(jié)構(gòu)化音樂(lè)和聲音效果,由于兩個(gè)音符序列之間的相似性定義的困難性,基于相似性的檢索很復(fù)雜。目前一種可行的方法是基于音符序列的音調(diào)變化來(lái)檢索音樂(lè)。其基本思想是:查詢(xún)聲音和數(shù)據(jù)庫(kù)聲音文件中的每個(gè)音符(第一個(gè)音符除外)都被轉(zhuǎn)換成相對(duì)前一個(gè)音符的音調(diào)變化。音調(diào)變化有三種狀態(tài):該音符比前一音符高(U)、該音符比前一音符低(D)和該音符與前一音符相同或相似(S)。按這種規(guī)則,任意一段旋律可轉(zhuǎn)化為一個(gè)包含字母u、D、S的符號(hào)序列,檢索任務(wù)也就變成了一個(gè)字符串匹配過(guò)程。該方法是針對(duì)基于樣本的聲音檢索提出的,也同樣適用于結(jié)構(gòu)化聲音檢索,根據(jù)音符音階可較容易地獲得音調(diào)變化。Page88當(dāng)前第88頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)5.7關(guān)鍵技術(shù)(音樂(lè)索引和檢索)基于樣本的音樂(lè)的索引和檢索一是基于抽取的聲音特征集合
在這種音樂(lè)檢索方法中,對(duì)每種聲音(包括查詢(xún))抽取聽(tīng)覺(jué)特征集,將其表示成一個(gè)矢量。通過(guò)計(jì)算查詢(xún)音樂(lè)和每個(gè)存儲(chǔ)音樂(lè)片段相應(yīng)的特征矢量之間的近似度來(lái)計(jì)算它們的相似性。二是基于音樂(lè)音符的音調(diào)該方法與基于音調(diào)的結(jié)構(gòu)化音樂(lè)檢索相似。二者之間的主要區(qū)別在于基于音調(diào)的音樂(lè)檢索必須抽取或估計(jì)每個(gè)音符的音調(diào)。該方法的基本思想為:由于音樂(lè)的每個(gè)音符都是由它的音調(diào)表示的,因此一個(gè)音樂(lè)片段或部分可表示成一個(gè)序列或音調(diào)串。檢索是以查詢(xún)音樂(lè)和每個(gè)存儲(chǔ)音樂(lè)片段相應(yīng)的音調(diào)串之間的相似性為基礎(chǔ),音調(diào)跟蹤和串相似測(cè)量是檢索過(guò)程的關(guān)鍵。Page89當(dāng)前第89頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)典型音頻系統(tǒng)介紹IBM的ViaVoice語(yǔ)音識(shí)別已趨于成熟劍橋大學(xué)的VMR系統(tǒng)VideoMailRetrievalUsingVoice音頻處理較出色美國(guó)Musclefish公司基于內(nèi)容的音頻檢索系統(tǒng)Content-BasedRetrievalofAudio較為完整的原型系統(tǒng)對(duì)音頻的檢索和分類(lèi)有較高的準(zhǔn)確率Page90當(dāng)前第90頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)91多媒體內(nèi)容檢索與管理1多媒體數(shù)據(jù)庫(kù)2多媒體內(nèi)容管理3多媒體內(nèi)容檢索6基于內(nèi)容視頻檢索5基于內(nèi)容音頻檢索4基于內(nèi)容圖像檢索當(dāng)前第91頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)基于內(nèi)容的視頻檢索基本概念基于內(nèi)容的視頻檢索的基本原理關(guān)鍵技術(shù)鏡頭切割關(guān)鍵幀提取特征提取視頻索引和檢索典型的視頻系統(tǒng)簡(jiǎn)介Page92當(dāng)前第92頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.1基于內(nèi)容的視頻檢索—基本概念思考:一:傳統(tǒng)的視頻檢索?存在的問(wèn)題?二:基于內(nèi)容的視頻檢索?Page93當(dāng)前第93頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.1基于內(nèi)容的視頻檢索—基本概念Page94當(dāng)前第94頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.1基于內(nèi)容的視頻檢索—基本概念基于內(nèi)容的視頻檢索基于內(nèi)容的視頻檢索(Content-BasedVideoRetrieval),根據(jù)視頻的內(nèi)容和上下文關(guān)系,對(duì)大規(guī)模視頻數(shù)據(jù)庫(kù)中的視頻數(shù)據(jù)進(jìn)行檢索。它在沒(méi)有人工參與的情況下,自動(dòng)提取并描述視頻的特征和內(nèi)容。
通過(guò)對(duì)非結(jié)構(gòu)化的視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析和處理,采用視頻分割技術(shù),將連續(xù)的視頻流劃分為具有特定語(yǔ)義的視頻片段—鏡頭,作為檢索的基本單元,在此基礎(chǔ)上進(jìn)行代表幀(representativeframe)的提取和動(dòng)態(tài)特征的提取,形成描述鏡頭的特征索引鏡頭組織和特征索引,采用視頻聚類(lèi)等方法研究鏡頭之間的關(guān)系,把內(nèi)容相近的鏡頭組合起來(lái),逐步縮小檢索范圍,直至查詢(xún)到所需的視頻數(shù)據(jù)視頻分割、代表幀和動(dòng)態(tài)特征提取是基于內(nèi)容的視頻檢索的關(guān)鍵技術(shù)。Page95當(dāng)前第95頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.1基于內(nèi)容的視頻檢索—基本概念基于內(nèi)容的視頻檢索的特點(diǎn)
它區(qū)別于傳統(tǒng)的基于關(guān)鍵字的檢索手段,融合了視頻分割、關(guān)鍵幀和動(dòng)態(tài)特征提取等關(guān)鍵技術(shù),具有如下特點(diǎn):Page96當(dāng)前第96頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.1基于內(nèi)容的視頻檢索—基本概念基本概念幀
組成視頻的最小單位,一幀可以看作一幅靜態(tài)的圖像。視頻數(shù)據(jù)流就是由連續(xù)圖像幀構(gòu)成的。鏡頭
由一系列幀組成的一段視頻,是相鄰幀的短序列,它描述同一場(chǎng)景,表示的是一個(gè)攝像機(jī)操作、一個(gè)事件或連續(xù)的動(dòng)作。例如,在新聞視頻中,每個(gè)新聞項(xiàng)目都對(duì)應(yīng)著一個(gè)鏡頭。
鏡頭是視頻檢索的基本單位。關(guān)鍵幀
即指從視頻數(shù)據(jù)中抽取出來(lái)的、能概括鏡頭特征和內(nèi)容的一些靜態(tài)圖像。場(chǎng)景
是一組語(yǔ)義上相關(guān)聯(lián)及時(shí)間上相鄰的連續(xù)鏡頭序列,是視頻信息最小的語(yǔ)義單位。Page97當(dāng)前第97頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.2基于內(nèi)容的視頻檢索—基本原理基于內(nèi)容的視頻處理過(guò)程視頻首先被分割成各個(gè)鏡頭,并實(shí)現(xiàn)對(duì)各個(gè)鏡頭的特征提取,得到一個(gè)盡可能充分反映鏡頭內(nèi)容的特征空間,這個(gè)特征空間將作為視頻聚類(lèi)和檢索的依據(jù)。其中,特征提取包括關(guān)鍵幀中的視覺(jué)特征(靜態(tài)特征,如從顏色、紋理、形狀)和鏡頭的運(yùn)動(dòng)特征(動(dòng)態(tài)特征)的提取。然后,根據(jù)提取的關(guān)于鏡頭的動(dòng)態(tài)特性和關(guān)鍵幀的一些靜態(tài)特性,進(jìn)行索引。最終,用戶(hù)可以通過(guò)一種簡(jiǎn)單方便的方法瀏覽和檢索視頻。圖視頻數(shù)據(jù)處理流程Page98當(dāng)前第98頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.2基于內(nèi)容的視頻檢索—基本原理基于內(nèi)容的視頻檢索系統(tǒng)由索引、查詢(xún)、檢索三大模塊組成。索引模塊中,系統(tǒng)運(yùn)用鏡頭切割,關(guān)鍵幀抽取,特征提取等技術(shù)對(duì)視頻信息進(jìn)行預(yù)處理,并實(shí)現(xiàn)視頻特征索引的建立;查詢(xún)模塊是實(shí)現(xiàn)人機(jī)交互的重要接口,通過(guò)該模塊用戶(hù)可以容易地實(shí)現(xiàn)互信息查詢(xún),即用戶(hù)可以較容易地向系統(tǒng)提交自己的各項(xiàng)特征要求(包括視頻示例特征提取),并可根據(jù)對(duì)檢索結(jié)果的進(jìn)一步特征提取實(shí)現(xiàn)較精確檢索;檢索模塊主要實(shí)現(xiàn)視頻特征索引與用戶(hù)提交的各項(xiàng)特征的相似度計(jì)算、特征匹配,并根據(jù)相關(guān)度進(jìn)行結(jié)果排序提交。Page99當(dāng)前第99頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.3關(guān)鍵技術(shù)(鏡頭切割)鏡頭切割基本概念從一個(gè)鏡頭到一個(gè)鏡頭的轉(zhuǎn)換稱(chēng)為鏡頭切換。通常,鏡頭之間的切換方式主要可分為兩大類(lèi):突變和漸變。Page100當(dāng)前第100頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.3關(guān)鍵技術(shù)(鏡頭切割)鏡頭切割基本思想鏡頭檢測(cè)的基本思想:對(duì)比相鄰圖像幀之間的特征,確定其是否發(fā)生較大變化。如果發(fā)生較大變化,則意味著視頻鏡頭發(fā)生轉(zhuǎn)變。目前視頻鏡頭分割技術(shù)主要根據(jù)鏡頭在發(fā)生切換時(shí)其視頻數(shù)據(jù)所反映的變化來(lái)進(jìn)行。由于一個(gè)鏡頭內(nèi)的相鄰幀間的變化不會(huì)很大,它們之間的特征差值總會(huì)限定在某個(gè)閾值內(nèi)。在鏡頭突變時(shí),突變點(diǎn)前后兩個(gè)相鄰幀通常在內(nèi)容上都顯示著很大的量的變化,如果特征差值超過(guò)了給定的閾值,則意味著出現(xiàn)一個(gè)分割邊界。因此,鏡頭檢測(cè)的關(guān)鍵問(wèn)題一:如何測(cè)量相鄰幀之間的差別;二:選擇合適的閾值。Page101當(dāng)前第101頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.3關(guān)鍵技術(shù)(鏡頭切割)鏡頭突變檢測(cè)Page102當(dāng)前第102頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.3關(guān)鍵技術(shù)(鏡頭切割)鏡頭漸變檢測(cè)
對(duì)于鏡頭的漸變切換,由于相鄰幀之間的特征差值很小,通常要比鏡頭閾值低得多,但卻又高于鏡頭內(nèi)的差值,因此,很難用單個(gè)的閾值來(lái)檢測(cè),更為復(fù)雜有效的分割方法必須被采用。
雙比較技術(shù)要求使用兩個(gè)差值閾值:閾值Tb用于檢測(cè)正常的鏡頭切變;閾值Ts則較小,用于檢測(cè)在漸變可能出現(xiàn)的地方、可能出現(xiàn)的幀。在鏡頭邊界檢測(cè)過(guò)程中,使用差值度量對(duì)相鄰的幀進(jìn)行比較。Page103當(dāng)前第103頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.3關(guān)鍵技術(shù)(鏡頭切割)Page104當(dāng)前第104頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.3關(guān)鍵技術(shù)(鏡頭切割)閾值的確定
所謂合適的閾值,指這個(gè)閾值既能容忍單個(gè)幀較小的變化,同時(shí)又能檢測(cè)到真實(shí)的邊界。一個(gè)“嚴(yán)格”的切分閾值如果對(duì)視頻幀中的細(xì)微差別都比較敏感,就會(huì)使視頻流切分過(guò)細(xì),可能使得在沒(méi)有鏡頭轉(zhuǎn)移的時(shí)候,視頻幀仍然被切分。這會(huì)使視頻鏡頭的切分失去意義。另一方面,如果一個(gè)切分閾值過(guò)于“寬松”,則不能檢測(cè)到視頻幀所發(fā)生的強(qiáng)烈特征變化,也就不能檢測(cè)到視頻鏡頭發(fā)生轉(zhuǎn)化。
通常閾值被選定為幀與幀之差的平均值加上一個(gè)小的容忍值。Page105當(dāng)前第105頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.4關(guān)鍵技術(shù)(關(guān)鍵幀提?。╆P(guān)鍵幀提取關(guān)鍵幀是表達(dá)鏡頭內(nèi)容的代表幀,是從視頻數(shù)據(jù)中抽取出來(lái)的、能概括鏡頭內(nèi)容的靜態(tài)圖像。因此,關(guān)鍵幀的抽取是建立視頻數(shù)據(jù)索引的關(guān)鍵。Page106當(dāng)前第106頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.4關(guān)鍵技術(shù)(關(guān)鍵幀提?。┌宴R頭首幀和尾幀選為關(guān)鍵幀通過(guò)對(duì)拍攝者或制作者的心理分析,研究者認(rèn)為視頻信息制造者總是希望鏡頭的開(kāi)始就能抓住觀眾的眼球,鏡頭的結(jié)尾能夠讓觀眾回味無(wú)窮。因此,首幀往往決定了鏡頭的主題,尾幀通常表示一種特寫(xiě)。所以,選擇首幀和尾幀作為鏡頭的關(guān)鍵幀不失為一種較為簡(jiǎn)便和有效的方法。選擇顯著變化幀作為關(guān)鍵幀一個(gè)鏡頭其幀序列的圖像特征可能變化很大,即首幀和尾幀不能概括鏡頭全部?jī)?nèi)容,需要從中抽取新的幀。這種選取方法為:將鏡頭中的每一幀與首尾幀顏色直方圖進(jìn)行比較,如果它與首尾幀均存在顯著變化,將其作為關(guān)鍵幀,繼續(xù)將未比較過(guò)的幀與這三個(gè)幀比較,若三個(gè)幀均有顯著差異也作為關(guān)鍵幀。如此比較下去,直至比較完畢。Page107當(dāng)前第107頁(yè)\共有116頁(yè)\編于星期四\22點(diǎn)6.4關(guān)鍵技術(shù)(關(guān)鍵幀提取
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 風(fēng)險(xiǎn)控制與企業(yè)效益提升試題及答案
- 觀看楚門(mén)的世界個(gè)人收獲(8篇)-1
- 2025年軟件工程概論試題及答案
- 保理公司季度工作總結(jié)模版
- 買(mǎi)賣(mài)廢機(jī)油協(xié)議書(shū)
- 高空蹦極協(xié)議書(shū)
- 合伙開(kāi)發(fā)房協(xié)議書(shū)
- 門(mén)牌授權(quán)協(xié)議書(shū)
- 兄弟私人協(xié)議書(shū)
- 單方面終止協(xié)議書(shū)
- 快手開(kāi)店合同協(xié)議
- 2025年第三屆天揚(yáng)杯建筑業(yè)財(cái)稅知識(shí)競(jìng)賽題庫(kù)附答案(501-1000題)
- 《中式美食鑒賞》課件
- 國(guó)開(kāi)電大軟件工程形考作業(yè)3參考答案 (一)
- 2025-2030中國(guó)森林消防裝備市場(chǎng)規(guī)模體量及趨勢(shì)前景預(yù)判研究報(bào)告
- 盆腔器官脫垂診療規(guī)范與指南
- 第十一講中華一家和中華民族格局底定(清朝中期)-中華民族共同體概論專(zhuān)家大講堂課件
- GB/T 7573-2025紡織品水萃取液pH值的測(cè)定
- 《會(huì)計(jì)準(zhǔn)則、應(yīng)用指南匯編2024上冊(cè)》
- 出入境安全教育
- 肥胖患者的護(hù)理常規(guī)
評(píng)論
0/150
提交評(píng)論