試論基于多媒體的數(shù)據(jù)挖掘_第1頁
試論基于多媒體的數(shù)據(jù)挖掘_第2頁
試論基于多媒體的數(shù)據(jù)挖掘_第3頁
試論基于多媒體的數(shù)據(jù)挖掘_第4頁
試論基于多媒體的數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 基于多媒體的數(shù)據(jù)挖掘摘要:多媒體挖掘是數(shù)據(jù)挖掘的一個新興且富有挑戰(zhàn)性的子領(lǐng)域。本文介紹了多媒體數(shù)據(jù)挖掘的特性,一種適合多媒體挖掘的系統(tǒng)模型,闡述了幾種多媒體挖掘方法以與討論了多媒體數(shù)據(jù)挖掘在知識服務(wù)中的應(yīng)用。關(guān)鍵詞:數(shù)據(jù)挖掘,多媒體挖掘,挖掘方法,服務(wù)應(yīng)用目前,數(shù)據(jù)挖掘是數(shù)據(jù)庫研究、開發(fā)和應(yīng)用最活躍的分支之一,也是人們一直研究的熱點。在數(shù)據(jù)挖掘近年來研究與應(yīng)用迅猛發(fā)展的過程中,前人取得了一定的成果1。新的和改進的算法不斷出現(xiàn),所考察的數(shù)據(jù)類型日趨豐富,應(yīng)用領(lǐng)域逐漸擴大,數(shù)據(jù)挖掘技術(shù)正慢慢融入到多媒體數(shù)據(jù)庫中。多媒體數(shù)據(jù)庫因為其數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、模式多樣等特點一直是人們研究的難點。隨著數(shù)

2、據(jù)挖掘技術(shù)應(yīng)用的成功,人們將目光放到了多媒體數(shù)據(jù)庫中進行知識發(fā)現(xiàn)。一、數(shù)據(jù)挖掘的概念與其結(jié)構(gòu)1、基本概念簡單地說,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或挖掘知識。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。這個定義包括好幾層含義:數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識,僅支持特定的發(fā)現(xiàn)問題。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表

3、示三個步驟。2、體系結(jié)構(gòu)一個典型的數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)如下:其中數(shù)據(jù)庫、數(shù)據(jù)倉庫或者是其他一些信息存儲媒介為數(shù)據(jù)挖掘的工作對象;服務(wù)器主要是響應(yīng)數(shù)據(jù)挖掘引擎的請求,提取相應(yīng)的數(shù)據(jù);領(lǐng)域知識庫主要用來指導(dǎo)挖掘的過程,以與用來評價挖掘出來的候選模式;數(shù)據(jù)挖掘引擎是整個系統(tǒng)的核心部分,可以由以下模塊組成:分類模塊、關(guān)聯(lián)規(guī)則模塊、聚類分析模塊、時序模塊和異常分析模塊等;模式評價模塊主要是根據(jù)一定的度量標(biāo)準(zhǔn)來與數(shù)據(jù)挖掘模塊交互,以使得數(shù)據(jù)挖掘向著我們感興趣的方向進行,往往越是高效的數(shù)據(jù)挖掘系統(tǒng)這種交互影響的程度越高;圖形用戶界面主要是為方便用戶與數(shù)據(jù)挖掘系統(tǒng)的交互,由用戶提出挖掘任務(wù)、指定重要的挖掘參

4、數(shù)以與由當(dāng)前返回的結(jié)果指導(dǎo)進行更進一步的挖掘工作。二、多媒體與數(shù)據(jù)挖掘相結(jié)合隨著多媒體技術(shù)的發(fā)展,人們接觸的數(shù)據(jù)形式不斷地豐富,多媒體數(shù)據(jù)庫的日益增多,原有的數(shù)據(jù)庫技術(shù)已滿足不了應(yīng)用的需要,人們希望從這些媒體數(shù)據(jù)中得到一些高層的概念和模式,找出蘊涵于其中的有價值的知識。這種將數(shù)據(jù)挖掘技術(shù)和多媒體信息處理技術(shù)有機地結(jié)合起來形成的在多媒體數(shù)據(jù)中進行知識發(fā)現(xiàn)的信息處理方法就是多媒體數(shù)據(jù)挖掘 。1、多媒體數(shù)據(jù)挖掘的特性 由于音頻視頻設(shè)備、數(shù)碼像機、CD- ROM和因特網(wǎng)的流行和普與,多媒體數(shù)據(jù)庫系統(tǒng)變得日益普通。多媒體數(shù)據(jù)通常是一種多維的、非結(jié)構(gòu)化或者半結(jié)構(gòu)化的,各媒體數(shù)據(jù)有著不同的特點,有著各自表述

5、信息的方式,各媒體既可獨立表示信息又可共同表示一樣事件的不同特征,共同描述事件的存在、發(fā)展和結(jié)果。因此,多媒體數(shù)據(jù)集中必定存在關(guān)于信息主體的特征、屬性以與它們之間的關(guān)系,或者存在著某些人們從直觀上無法得到的模式。多媒體數(shù)據(jù)挖掘是一種智能的數(shù)據(jù)分析,旨在從特定的多媒體數(shù)據(jù)集中發(fā)現(xiàn)必要的結(jié)果來用于決策、對策與融合分析。例如在MMMiner(Mult iMediaMiner,多媒體挖掘)中,如查找包含人臉的所有圖像,用戶界面上就會逐步顯示不同國家、不同膚色、不同表情的人臉,而不是顯示一些猴臉或者是馬臉。由此可見,多媒體挖掘就是從大量的多媒體數(shù)據(jù)集中,通過綜合分析視聽特性和語義,發(fā)現(xiàn)隱含的、有效的、有

6、價值的、可理解的模式,得出事件的趨向和關(guān)聯(lián),為用戶提供問題求解層次的決策支持能力。22、多媒體數(shù)據(jù)挖掘的系統(tǒng)模型多媒體挖掘需要一個切實可行的系統(tǒng)框架模型。它的一般系統(tǒng)結(jié)構(gòu)模型如圖:3、多媒體數(shù)據(jù)挖掘的方法31多媒體數(shù)據(jù)的相似性搜索 對于多媒體數(shù)據(jù)相似性搜索,主要考慮兩種多媒體索引和檢索系統(tǒng):(1)基于描述的檢索系統(tǒng),它基于圖像描述(如關(guān)鍵詞、標(biāo)題、尺寸和創(chuàng)建時間等)建立索引和進行對象檢索:(2)基于容的檢索系統(tǒng),它支持基于圖像容的檢索,如顏色直方圖、紋理、模式、圖像拓撲、對象的形狀和它們在圖像中的布局和位置。基于描述的檢索若人工完成是很費力的。若自動完成,則質(zhì)量較差。例如,關(guān)鍵詞到圖像的賦值可

7、能是棘手和武斷的任務(wù)。最近開發(fā)的基于web的圖像聚類和分類方法提高了基于描述的web圖像檢索的質(zhì)量,因為環(huán)繞圖像的文本信息和web信息可以用于提取合適的描述,并將描述相似主題的圖像聚合在一起?;谌莸臋z索使用視覺特征索引圖像,并促進基于特征相似性的對象檢索,這在很多應(yīng)用中都是非常期望的。332多媒體數(shù)據(jù)的多維分析 為便于大型多媒體數(shù)據(jù)庫的多維分析,可以用類似于從關(guān)系數(shù)據(jù)構(gòu)造傳統(tǒng)數(shù)據(jù)立方體的方法,設(shè)計和構(gòu)造多媒體數(shù)據(jù)立方體。多媒體數(shù)據(jù)立方體可包含針對多媒體信息的維和度量,如顏色、紋理和形狀。如圖是一個簡單的圖像數(shù)據(jù)立方體的模型:多媒體數(shù)據(jù)立方體是一種對多媒體數(shù)據(jù)進行多維分析的有趣模型, 通過適當(dāng)

8、的一些操作: 上卷、下鉆、切片和切塊、轉(zhuǎn)軸(旋轉(zhuǎn))可以進行強有力的分析。多媒體數(shù)據(jù)立方體的建立有助于基于視覺容的多媒體數(shù)據(jù)的多維分析,和多種知識的挖掘,包括匯總、比較、分類、關(guān)聯(lián)和聚類。33多媒體數(shù)據(jù)的分類和預(yù)測分析分類和預(yù)測建模已經(jīng)用于挖掘多媒體數(shù)據(jù),尤其在科學(xué)研究中,如天文學(xué)、地震學(xué)和地理科學(xué)的研究。數(shù)據(jù)分類可通過以下兩步來實現(xiàn):(1)建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器: 分類通常是根據(jù)媒體數(shù)據(jù)的某一特性來確定的,該特性在元數(shù)據(jù)庫中表現(xiàn)為視聽描述子。通過分析元數(shù)據(jù)庫中部分數(shù)據(jù)的該描述子值來構(gòu)造模型,并把用于建立模型的媒體數(shù)據(jù)作為訓(xùn)練集。訓(xùn)練樣本可以隨機選取,并預(yù)先給出類標(biāo)號。(2)使

9、用模型分類:首先評估分類器的預(yù)測準(zhǔn)確率,用給定檢驗集上的準(zhǔn)確率來判定分類器的準(zhǔn)確率,如果分類器的準(zhǔn)確率可以接受,就可以用它來對未來元組進行分類。34多媒體數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則 多媒體圖像數(shù)據(jù)挖掘的一個十分關(guān)鍵的問題是圖像數(shù)據(jù)本身的表示問題。這也是圖像處理和模式識別的關(guān)鍵。一般說來,可以用顏色、紋理、形狀和運動向量等來表示圖像的基本特征。高級概念可以看成是一種特征模式。多媒體圖像數(shù)據(jù)挖掘的過程可以由下圖所示:在圖像和視頻數(shù)據(jù)庫中,可以挖掘涉與多媒體對象的關(guān)聯(lián)規(guī)則。至少包括以下三類:(1)圖像容和非圖像容特征間的關(guān)聯(lián):如規(guī)則“如果一幅圖片的上面至少50%是藍色,則它很可能代表天空”屬于此類,因為它把

10、圖像的容和關(guān)鍵詞天空關(guān)聯(lián)在一起。(2)與空間聯(lián)系無關(guān)的圖像容間的關(guān)聯(lián):如規(guī)則“如果一幅圖片包含兩個藍色正方形,則它很可能也包含一個紅色圓形”屬于此類,因為關(guān)聯(lián)考慮的都是圖像容。(3)與空間聯(lián)系有關(guān)的圖像容間的關(guān)聯(lián):如規(guī)則“如果一個紅色三角形在兩個黃色正方形之間,則很可能下面存在一個大的橢圓形對象”屬于此類,因為它把圖像中對象與空間聯(lián)系關(guān)聯(lián)在一起。4為了挖掘多媒體對象間的關(guān)聯(lián),可以把每個圖像看作一個事務(wù),找出在不同圖像中頻繁出現(xiàn)的模式。三、多媒體數(shù)據(jù)挖掘在知識服務(wù)中的應(yīng)用1、文本數(shù)據(jù)挖掘所謂多媒體文本數(shù)據(jù)挖掘,就是從大量的多媒體文本數(shù)據(jù)中發(fā)現(xiàn)有意義的模式過程。多媒體文本數(shù)據(jù)挖掘的過程對多媒體文本

11、數(shù)據(jù)挖掘最行之有效的途徑就是將多媒體文本數(shù)據(jù)結(jié)構(gòu)化后,再對結(jié)構(gòu)化數(shù)據(jù)采用數(shù)據(jù)挖掘方法。文本挖掘從功能上可以分為總結(jié)、分類、聚類、趨勢預(yù)測等。文本是指從文檔中抽取關(guān)鍵信息,用簡潔的形式對文檔容進行摘要或解釋。從而用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體容。文本總結(jié)在有些場合非常有用,例如, 搜索引擎在向用戶返回查詢結(jié)果時,通常需要給出文檔的摘要。目前,絕大部分搜索引擎采用的方法是簡單地截取文檔的前幾行。在對文檔進行特征提取前,需要先進行文本信息的預(yù)處理,對英文而言,需進行Stemming 處理,中文的情況則不同,因為中文詞與詞之間沒有固有的間隔符,需要進行分詞處理。在中文信息處理領(lǐng)域,對

12、中文自動分詞研究已經(jīng)比較多了,提出了一些分詞方法,如最大匹配法、逐詞遍歷匹配法、最小匹配法等。采用基于詞典的正向逐詞遍歷匹配法,在我們設(shè)計的分類系統(tǒng)(ST CS)中,我們在分析了最大匹配法的特點后,提出了一種改進的算法。該算法在允許一定的分詞錯誤率的情況下,能顯著提高分詞效率,其速度優(yōu)于傳統(tǒng)的最大匹配法。但是我們忽略了通用詞的處理,僅處理專用詞典中詞條,從而較好地避免了通用分詞的技術(shù)問題,此方法適合于專用領(lǐng)域文檔的分類。2、圖像數(shù)據(jù)挖掘圖像挖掘是多媒體挖掘的一個分支,圖像挖掘可以廣泛地應(yīng)用于圖像檢索、醫(yī)學(xué)影像診斷分析、衛(wèi)星圖片分析、地下礦藏預(yù)測等各種領(lǐng)域。其挖掘方法和原型結(jié)構(gòu)存在著巨大的改進空

13、間。圖像挖掘的一般過程如下。運用圖像處理技術(shù)。如圖像分割、邊緣探測、邊緣提取、模式識別等。從圖像(視頻幀)中抽取能代表、區(qū)分該圖像的結(jié)構(gòu)化容的特征。同時收集用于圖像處理和數(shù)據(jù)挖掘所需要的知識。獲得各種元數(shù)據(jù)與領(lǐng)域知識。建立特征庫和知識庫。 當(dāng)挖掘任務(wù)確定后。抽取與挖掘任務(wù)相關(guān)的特征向量。形成多維特征向量。在這些特征向量空間中比較、分析各向量之間的距離或相似關(guān)系。在知識庫的指導(dǎo)下。完成對圖像容的分析、索引、摘要、分類、聚類、關(guān)聯(lián)等操作。將所得到的結(jié)果進行解釋和表示。從而獲得高層的概念或模式。63、視頻、音頻數(shù)據(jù)挖掘除了靜態(tài)圖像,在數(shù)字文檔、萬維網(wǎng)、廣播數(shù)據(jù)流、個人或?qū)I(yè)數(shù)據(jù)庫中,還能獲得數(shù)字形式

14、的大量音頻和視頻信息。這類信息量增長迅速,迫切需要針對音頻和視頻數(shù)據(jù)的、有效的、基于容的檢索和挖掘方法。典型的例子包括:在TV工作室搜索和多媒體編輯特定的視頻片段,從監(jiān)視錄像中檢測可疑的人或場景,在個人多媒體庫中檢索特定的事件,從氣象雷達記錄中發(fā)現(xiàn)模式或離散點,在你的MP3音頻簿中找到特定的主旋律或曲調(diào)。4、在醫(yī)學(xué)圖書館服務(wù)中的應(yīng)用多媒體數(shù)據(jù)挖掘?qū)︶t(yī)學(xué)信息有很強的適應(yīng)性。多媒體技術(shù)的應(yīng)用便于醫(yī)學(xué)信息的儲存多媒體技術(shù)是當(dāng)今信息技術(shù)領(lǐng)域發(fā)展最快、最活躍的技術(shù),是新一代電子技術(shù)發(fā)展和競爭的焦點。利用現(xiàn)代數(shù)據(jù)挖掘技術(shù)對醫(yī)學(xué)信息進行組織、開發(fā)、傳遞和評價以與導(dǎo)航,可以最大限度滿足用戶的醫(yī)學(xué)信息資源需求和

15、服務(wù)需求。多媒體醫(yī)學(xué)信息數(shù)據(jù)庫系統(tǒng)為醫(yī)學(xué)教育、咨詢提供了方便的技術(shù)手段,也為從事臨床醫(yī)學(xué)研究的人員提供了高效的數(shù)據(jù)處理工具。目前,高校醫(yī)學(xué)資源庫的建立已初具規(guī)模,擁有多種媒體、容豐富的數(shù)字化信息資源。這些信息具有模式的多態(tài)性(純數(shù)據(jù)、圖像、信號、文字等)、不完整性(疾病信息的客觀不完整和描述疾病的豐觀不完整)、較強時間性、復(fù)雜性和冗余性。常用的數(shù)據(jù)庫與統(tǒng)計分析方法已經(jīng)遠不能滿足現(xiàn)實的要求,因此。必須使用多媒體數(shù)據(jù)庫對高校醫(yī)學(xué)信息資源進行整理和收集。多媒體數(shù)據(jù)挖掘在醫(yī)學(xué)圖書館服務(wù)中的應(yīng)用·醫(yī)學(xué)資料的數(shù)據(jù)類型多種多樣,大致有下列幾種:文本,包括病員的個人資料,如、性別,住址等;長文本,包

16、括病史詳述、醫(yī)生的診斷報告等;靜態(tài)圖像,包括各類醫(yī)學(xué)圖片,如CT、x光片、等;運動圖像,包括B超或血管造影等得到的視頻圖像;聲音,包括電子聽診器偵聽到的聲音和醫(yī)生的口頭診斷結(jié)果等音頻數(shù)據(jù)5。醫(yī)學(xué)信息的特點要求多媒體挖掘技術(shù)在基礎(chǔ)醫(yī)學(xué)領(lǐng)域、疾病的臨床診斷和治療方面、流行病學(xué)研究和醫(yī)學(xué)統(tǒng)計方法學(xué)方面、醫(yī)院和衛(wèi)生事業(yè)管理等多方面都已經(jīng)有各種挖掘方法和軟件出現(xiàn)(如DNA序列分析)。相信隨著數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,方法的不斷改進,可實現(xiàn)軟件的發(fā)展,數(shù)據(jù)挖掘在醫(yī)學(xué)領(lǐng)域的應(yīng)用將更為廣泛和深入,從而帶來更大的社會經(jīng)濟效益。四、前景展望多媒體數(shù)據(jù)挖掘是多媒體和數(shù)據(jù)挖掘的結(jié)合,是一個新的研究方向,一些概念和方在形成中,有很多問題急待解決。盡管多媒體數(shù)據(jù)挖掘面臨著許多問題和挑戰(zhàn),但是對多媒體數(shù)據(jù)進行挖掘并且實現(xiàn)智能化信息檢索是未來發(fā)展的需求,是一個很有前途的研究方向。我相信隨著研究的深入,一定會取得更多的成就。而隨著多媒體數(shù)據(jù)挖掘的不斷發(fā)展,技術(shù)的進步,對于人們的日常生活也會產(chǎn)生巨大的影響。我相信多媒體數(shù)據(jù)挖掘的發(fā)展會給人們帶來更便捷、更豐富的生活。參考文獻:1Advances in k

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論