




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、基于多媒體的數(shù)據(jù)挖掘【摘要】:多媒體挖掘是數(shù)據(jù)挖掘的一個新興且富有挑戰(zhàn)性的子領域。本文介紹了多媒體數(shù)據(jù)挖掘的特性,一種適合多媒體挖掘的系統(tǒng)模型,闡述了幾種多媒體挖掘方法以及討論了多媒體數(shù)據(jù)挖掘在知識服務中的應用?!娟P鍵詞】:數(shù)據(jù)挖掘,多媒體挖掘,挖掘方法,服務應用目前,數(shù)據(jù)挖掘是數(shù)據(jù)庫研究、開發(fā)和應用最活躍的分支之一,也是人們一直研究的熱點。在數(shù)據(jù)挖掘近年來研究與應用迅猛進展的過程中,前人取得了一定的成果1。新的和改進的算法不斷出現(xiàn),所考察的數(shù)據(jù)類型日趨豐富,應用領域逐漸擴大,數(shù)據(jù)挖掘技術正慢慢融入到多媒體數(shù)據(jù)庫中。多媒體數(shù)據(jù)庫因為其數(shù)據(jù)量大、數(shù)據(jù)結構復雜、模式多樣等特點一直是人們研究的難點。
2、隨著數(shù)據(jù)挖掘技術應用的成功,人們將目光放到了多媒體數(shù)據(jù)庫中進行知識發(fā)覺。一、數(shù)據(jù)挖掘的概念及其結構1、差不多概念簡單地講,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或挖掘知識。數(shù)據(jù)挖掘確實是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不明白的、但又是潛在有用的信息和知識的過程。與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。那個定義包括好幾層含義:數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)覺的是用戶感興趣的知識;發(fā)覺的知識要可同意、可理解、可運用;并不要求發(fā)覺放之四海皆準的知識,僅支持特定的發(fā)覺問題。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中查找其規(guī)律的技術,要緊有數(shù)據(jù)預備、規(guī)律查
3、找和規(guī)律表示三個步驟。2、體系結構一個典型的數(shù)據(jù)挖掘系統(tǒng)的體系結構如下:其中數(shù)據(jù)庫、數(shù)據(jù)倉庫或者是其他一些信息存儲媒介為數(shù)據(jù)挖掘的工作對象;服務器要緊是響應數(shù)據(jù)挖掘引擎的請求,提取相應的數(shù)據(jù);領域知識庫要緊用來指導挖掘的過程,以及用來評價挖掘出來的候選模式;數(shù)據(jù)挖掘引擎是整個系統(tǒng)的核心部分,能夠由以下模塊組成:分類模塊、關聯(lián)規(guī)則模塊、聚類分析模塊、時序模塊和異常分析模塊等;模式評價模塊要緊是依照一定的度量標準來與數(shù)據(jù)挖掘模塊交互,以使得數(shù)據(jù)挖掘向著我們感興趣的方向進行,往往越是高效的數(shù)據(jù)挖掘系統(tǒng)這種交互阻礙的程度越高;圖形用戶界面要緊是為方便用戶與數(shù)據(jù)挖掘系統(tǒng)的交互,由用戶提出挖掘任務、指定重
4、要的挖掘參數(shù)以及由當前返回的結果指導進行更進一步的挖掘工作。二、多媒體與數(shù)據(jù)挖掘相結合隨著多媒體技術的進展,人們接觸的數(shù)據(jù)形式不斷地豐富,多媒體數(shù)據(jù)庫的日益增多,原有的數(shù)據(jù)庫技術已滿足不了應用的需要,人們希望從這些媒體數(shù)據(jù)中得到一些高層的概念和模式,找出蘊涵于其中的有價值的知識。這種將數(shù)據(jù)挖掘技術和多媒體信息處理技術有機地結合起來形成的在多媒體數(shù)據(jù)中進行知識發(fā)覺的信息處理方法確實是多媒體數(shù)據(jù)挖掘 。1、多媒體數(shù)據(jù)挖掘的特性 由于音頻視頻設備、數(shù)碼像機、CD- ROM 和因特網(wǎng)的流行和普及,多媒體數(shù)據(jù)庫系統(tǒng)變得日益一般。多媒體數(shù)據(jù)通常是一種多維的、非結構化或者半結構化的,各媒體數(shù)據(jù)有著不同的特點
5、,有著各自表述信息的方式,各媒體既可獨立表示信息又可共同表示相同事件的不同特征,共同描述事件的存在、進展和結果。因此,多媒體數(shù)據(jù)集中必定存在關于信息主體的特征、屬性以及它們之間的關系,或者存在著某些人們從直觀上無法得到的模式。多媒體數(shù)據(jù)挖掘是一種智能的數(shù)據(jù)分析,旨在從特定的多媒體數(shù)據(jù)集中發(fā)覺必要的結果來用于決策、對策及融合分析。例如在MMMiner(Mult iMediaMiner,多媒體挖掘)中,如查找包含人臉的所有圖像,用戶界面上就會逐步顯示不同國家、不同膚色、不同表情的人臉,而不是顯示一些猴臉或者是馬臉。由此可見,多媒體挖掘確實是從大量的多媒體數(shù)據(jù)集中,通過綜合分析視聽特性和語義,發(fā)覺隱
6、含的、有效的、有價值的、可理解的模式,得出事件的趨向和關聯(lián),為用戶提供問題求解層次的決策支持能力。22、多媒體數(shù)據(jù)挖掘的系統(tǒng)模型多媒體挖掘需要一個切實可行的系統(tǒng)框架模型。它的一般系統(tǒng)結構模型如圖:3、多媒體數(shù)據(jù)挖掘的方法31多媒體數(shù)據(jù)的相似性搜索 關于多媒體數(shù)據(jù)相似性搜索,要緊考慮兩種多媒體索引和檢索系統(tǒng):(1)基于描述的檢索系統(tǒng),它基于圖像描述(如關鍵詞、標題、尺寸和創(chuàng)建時刻等)建立索引和進行對象檢索:(2)基于內(nèi)容的檢索系統(tǒng),它支持基于圖像內(nèi)容的檢索,如顏色直方圖、紋理、模式、圖像拓撲、對象的形狀和它們在圖像中的布局和位置。基于描述的檢索若人工完成是專門費勁的。若自動完成,則質(zhì)量較差。例如
7、,關鍵詞到圖像的賦值可能是棘手和武斷的任務。最近開發(fā)的基于web的圖像聚類和分類方法提高了基于描述的web圖像檢索的質(zhì)量,因為圍繞圖像的文本信息和web鏈接信息能夠用于提取合適的描述,并將描述相似主題的圖像聚合在一起?;趦?nèi)容的檢索使用視覺特征索引圖像,并促進基于特征相似性的對象檢索,這在專門多應用中差不多上特不期望的。332多媒體數(shù)據(jù)的多維分析 為便于大型多媒體數(shù)據(jù)庫的多維分析,能夠用類似于從關系數(shù)據(jù)構造傳統(tǒng)數(shù)據(jù)立方體的方法,設計和構造多媒體數(shù)據(jù)立方體。多媒體數(shù)據(jù)立方體可包含針對多媒體信息的維和度量,如顏色、紋理和形狀。如圖是一個簡單的圖像數(shù)據(jù)立方體的模型:多媒體數(shù)據(jù)立方體是一種對多媒體數(shù)據(jù)
8、進行多維分析的有味模型, 通過適當?shù)囊恍┎僮? 上卷、下鉆、切片和切塊、轉軸(旋轉)能夠進行強有力的分析。多媒體數(shù)據(jù)立方體的建立有助于基于視覺內(nèi)容的多媒體數(shù)據(jù)的多維分析,和多種知識的挖掘,包括匯總、比較、分類、關聯(lián)和聚類。33多媒體數(shù)據(jù)的分類和預測分析分類和預測建模差不多用于挖掘多媒體數(shù)據(jù),尤其在科學研究中,如天文學、地震學和地理科學的研究。數(shù)據(jù)分類可通過以下兩步來實現(xiàn):(1)建立描述預先定義的數(shù)據(jù)類或概念集的分類器: 分類通常是依照媒體數(shù)據(jù)的某一特性來確定的,該特性在元數(shù)據(jù)庫中表現(xiàn)為視聽描述子。通過分析元數(shù)據(jù)庫中部分數(shù)據(jù)的該描述子值來構造模型,并把用于建立模型的媒體數(shù)據(jù)作為訓練集。訓練樣本能
9、夠隨機選取,并預先給出類標號。(2)使用模型分類:首先評估分類器的預測準確率,用給定檢驗集上的準確率來判定分類器的準確率,假如分類器的準確率能夠同意,就能夠用它來對以后元組進行分類。34多媒體數(shù)據(jù)挖掘的關聯(lián)規(guī)則 多媒體圖像數(shù)據(jù)挖掘的一個十分關鍵的問題是圖像數(shù)據(jù)本身的表示問題。這也是圖像處理和模式識不的關鍵。一般講來,能夠用顏色、紋理、形狀和運動向量等來表示圖像的差不多特征。高級概念能夠看成是一種特征模式。多媒體圖像數(shù)據(jù)挖掘的過程能夠由下圖所示:在圖像和視頻數(shù)據(jù)庫中,能夠挖掘涉及多媒體對象的關聯(lián)規(guī)則。至少包括以下三類:(1)圖像內(nèi)容和非圖像內(nèi)容特征間的關聯(lián):如規(guī)則“假如一幅圖片的上面至少50%是
10、藍色,則它專門可能代表天空”屬于此類,因為它把圖像的內(nèi)容和關鍵詞天空關聯(lián)在一起。(2)與空間聯(lián)系無關的圖像內(nèi)容間的關聯(lián):如規(guī)則“假如一幅圖片包含兩個藍色正方形,則它專門可能也包含一個紅色圓形”屬于此類,因為關聯(lián)考慮的差不多上圖像內(nèi)容。(3)與空間聯(lián)系有關的圖像內(nèi)容間的關聯(lián):如規(guī)則“假如一個紅色三角形在兩個黃色正方形之間,則專門可能下面存在一個大的橢圓形對象”屬于此類,因為它把圖像中對象與空間聯(lián)系關聯(lián)在一起。4為了挖掘多媒體對象間的關聯(lián),能夠把每個圖像看作一個事務,找出在不同圖像中頻繁出現(xiàn)的模式。三、多媒體數(shù)據(jù)挖掘在知識服務中的應用1、文本數(shù)據(jù)挖掘所謂多媒體文本數(shù)據(jù)挖掘,確實是從大量的多媒體文本
11、數(shù)據(jù)中發(fā)覺有意義的模式過程。多媒體文本數(shù)據(jù)挖掘的過程對多媒體文本數(shù)據(jù)挖掘最行之有效的途徑確實是將多媒體文本數(shù)據(jù)結構化后,再對結構化數(shù)據(jù)采納數(shù)據(jù)挖掘方法。文本挖掘從功能上能夠分為總結、分類、聚類、趨勢預測等。文本是指從文檔中抽取關鍵信息,用簡潔的形式對文檔內(nèi)容進行摘要或解釋。從而用戶不需要掃瞄全文就能夠了解文檔或文檔集合的總體內(nèi)容。文本總結在有些場合特不有用,例如, 搜索引擎在向用戶返回查詢結果時,通常需要給出文檔的摘要。目前,絕大部分搜索引擎采納的方法是簡單地截取文檔的前幾行。在對文檔進行特征提取前,需要先進行文本信息的預處理,對英文而言,需進行Stemming 處理,中文的情況則不同,因為中
12、文詞與詞之間沒有固有的間隔符,需要進行分詞處理。在中文信息處理領域,對中文自動分詞研究差不多比較多了,提出了一些分詞方法,如最大匹配法、逐詞遍歷匹配法、最小匹配法等。采納基于詞典的正向逐詞遍歷匹配法,在我們設計的分類系統(tǒng)(ST CS)中,我們在分析了最大匹配法的特點后,提出了一種改進的算法。該算法在同意一定的分詞錯誤率的情況下,能顯著提高分詞效率,其速度優(yōu)于傳統(tǒng)的最大匹配法。然而我們忽略了通用詞的處理,僅處理專用詞典中詞條,從而較好地幸免了通用分詞的技術問題,此方法適合于專用領域文檔的分類。2、圖像數(shù)據(jù)挖掘圖像挖掘是多媒體挖掘的一個分支,圖像挖掘能夠廣泛地應用于圖像檢索、醫(yī)學影像診斷分析、衛(wèi)星
13、圖片分析、地下礦藏預測等各種領域。其挖掘方法和原型結構存在著巨大的改進空間。 圖像挖掘的一般過程如下。運用圖像處理技術。如圖像分割、邊緣探測、邊緣提取、模式識不等。從圖像(視頻幀)中抽取能代表、區(qū)分該圖像的結構化內(nèi)容的特征。同時收集用于圖像處理和數(shù)據(jù)挖掘所需要的知識。獲得各種元數(shù)據(jù)及領域知識。建立特征庫和知識庫。 當挖掘任務確定后。抽取與挖掘任務相關的特征向量。形成多維特征向量。在這些特征向量空間中比較、分析各向量之間的距離或相似關系。在知識庫的指導下。完成對圖像內(nèi)容的分析、索引、摘要、分類、聚類、關聯(lián)等操作。將所得到的結果進行解釋和表示。從而獲得高層的概念或模式。63、視頻、音頻數(shù)據(jù)挖掘除了
14、靜態(tài)圖像,在數(shù)字文檔、萬維網(wǎng)、廣播數(shù)據(jù)流、個人或專業(yè)數(shù)據(jù)庫中,還能獲得數(shù)字形式的大量音頻和視頻信息。這類信息量增長迅速,迫切需要針對音頻和視頻數(shù)據(jù)的、有效的、基于內(nèi)容的檢索和挖掘方法。典型的例子包括:在TV工作室搜索和多媒體編輯特定的視頻片段,從監(jiān)視錄像中檢測可疑的人或場景,在個人多媒體庫中檢索特定的事件,從氣象雷達記錄中發(fā)覺模式或離散點,在你的MP3音頻簿中找到特定的主旋律或曲調(diào)。4、在醫(yī)學圖書館服務中的應用多媒體數(shù)據(jù)挖掘對醫(yī)學信息有專門強的適應性。多媒體技術的應用便于醫(yī)學信息的儲存多媒體技術是當今信息技術領域進展最快、最活躍的技術,是新一代電子技術進展和競爭的焦點。利用現(xiàn)代數(shù)據(jù)挖掘技術對醫(yī)
15、學信息進行組織、開發(fā)、傳遞和評價以及導航,能夠最大限度滿足用戶的醫(yī)學信息資源需求和服務需求。多媒體醫(yī)學信息數(shù)據(jù)庫系統(tǒng)為醫(yī)學教育、咨詢提供了方便的技術手段,也為從事臨床醫(yī)學研究的人員提供了高效的數(shù)據(jù)處理工具。 目前,高校醫(yī)學資源庫的建立已初具規(guī)模,擁有多種媒體、內(nèi)容豐富的數(shù)字化信息資源。這些信息具有模式的多態(tài)性(純數(shù)據(jù)、圖像、信號、文字等)、不完整性(疾病信息的客觀不完整和描述疾病的豐觀不完整)、較強時刻性、復雜性和冗余性。常用的數(shù)據(jù)庫及統(tǒng)計分析方法差不多遠不能滿足現(xiàn)實的要求,因此。必須使用多媒體數(shù)據(jù)庫對高校醫(yī)學信息資源進行整理和收集。 多媒體數(shù)據(jù)挖掘在醫(yī)學圖書館服務中的應用醫(yī)學資料的數(shù)據(jù)類型多
16、種多樣,大致有下列幾種:文本,包括病員的個人資料,如姓名、性不,住址等;長文本,包括病史詳述、大夫的診斷報告等;靜態(tài)圖像,包括各類醫(yī)學圖片,如CT、x光片、等;運動圖像,包括B超或血管造影等得到的視頻圖像;聲音,包括電子聽診器偵聽到的聲音和大夫的口頭診斷結果等音頻數(shù)據(jù)5。醫(yī)學信息的特點要求多媒體挖掘技術在基礎醫(yī)學領域、疾病的臨床診斷和治療方面、流行病學研究和醫(yī)學統(tǒng)計方法學方面、醫(yī)院和衛(wèi)生事業(yè)治理等多方面都差不多有各種挖掘方法和軟件出現(xiàn)(如DNA序列分析)。相信隨著數(shù)據(jù)挖掘技術的廣泛應用,方法的不斷改進,可實現(xiàn)軟件的進展,數(shù)據(jù)挖掘在醫(yī)學領域的應用將更為廣泛和深入,從而帶來更大的社會經(jīng)濟效益。四、前景展望多媒體數(shù)據(jù)挖掘是多媒體和數(shù)據(jù)挖掘的結合,是一個新的研究方向,一些概念和方法正在形成中,有專門多問題急待解決。盡管多媒體數(shù)據(jù)挖掘面臨著許多問題和挑戰(zhàn),然而對多媒體數(shù)據(jù)進行挖掘同時實現(xiàn)智能化信息檢索是以后進展的需求,是一個專門有前途的研究方向。我相信隨著研究的深入,一定會取得更多的成就。而隨著多媒體數(shù)據(jù)挖掘的不斷進展,技術的進步,關于人們的日常生活也會產(chǎn)生巨大的阻礙。我相信多媒體數(shù)據(jù)挖掘的進展會給人們帶來更便捷、更豐富的生活。參考文獻:1 Advances in
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年湖北襄陽東津新區(qū)招商服務有限公司招聘筆試參考題庫含答案解析
- 2025年安徽蕪湖宜居投資(集團)有限公司招聘筆試參考題庫含答案解析
- 云南省玉溪市第二中學2025年高考沖刺押題(最后一卷)物理試卷含解析
- 2025年公共衛(wèi)生醫(yī)師考試復習路線試題及答案
- 公共衛(wèi)生執(zhí)業(yè)醫(yī)師復習策略的適應性分析試題及答案
- 教師資格考試心理健康教育與學生發(fā)展的關系探討試題及答案
- 教師資格考試終身學習觀試題及答案
- 發(fā)掘2025年公共營養(yǎng)師考試潛能試題及答案
- 機車車輛試題及答案
- 企業(yè)特許經(jīng)營中的初級會計師考試知識試題及答案
- 綠城集團地下室 防水及防結露體系介紹及技術交底(圖文并茂)
- 2025年小米集團招聘筆試參考題庫含答案解析
- 代理購買專利合同范例
- 合作賣雞合同范例
- 國開學習網(wǎng)《金融市場》形考任務1-4答案
- 《公路工程BIM+GIS模型實體結構分解指南》
- 核醫(yī)學檢查技術知到智慧樹章節(jié)測試課后答案2024年秋山東第一醫(yī)科大學
- 本科生畢業(yè)論文寫作指導-課件
- DB21∕T 2179-2013 數(shù)字化社區(qū)教育(學習)實施規(guī)范
- tas測評題庫及答案
- 福建省能化集團筆試題目
評論
0/150
提交評論