




已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2020年3月4日星期三 DataMining ConceptsandTechniques 1 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 任課教師 劉愛華工作單位 信息技術(shù)系辦公地點(diǎn) 科技樓913聯(lián)系電話Q號碼 122471495E mail ahliu 二十世紀(jì)末以來 全球信息量以驚人的速度急劇增長 據(jù)估計(jì) 每二十個(gè)月將增加一倍 許多組織機(jī)構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù) 信息 目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入 查詢 統(tǒng)計(jì)等功能 但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則 無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢 為了充分利用現(xiàn)有信息資源 從海量數(shù)據(jù)中找出隱藏的知識 數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示出強(qiáng)大的生命力 Why Why 數(shù)據(jù)挖掘的社會(huì)需求 數(shù)據(jù)挖掘是八十年代投資AI研究項(xiàng)目失敗后 AI轉(zhuǎn)入實(shí)際應(yīng)用時(shí)提出的 它是一個(gè)新興的 面向商業(yè)應(yīng)用的AI研究 1989年8月 在美國底特律召開的第11屆國際人工智能聯(lián)合會(huì)議的專題討論會(huì)上首次出現(xiàn)數(shù)據(jù)庫中的知識發(fā)現(xiàn) KnowledgeDiscoveryinDatabase KDD 這一術(shù)語 隨后 在1991年 1993年和1994年都舉行KDD專題討論會(huì) 匯集來自各個(gè)領(lǐng)域的研究人員和應(yīng)用開發(fā)者 集中討論數(shù)據(jù)統(tǒng)計(jì) 海量數(shù)據(jù)分析算法 知識表示 知識運(yùn)用等問題 最初 數(shù)據(jù)挖掘是作為KDD中利用算法處理數(shù)據(jù)的一個(gè)步驟 其后逐漸演變成KDD的同義詞 概述 現(xiàn)在 人們往往不加區(qū)別地使用兩者 KDD常常被稱為數(shù)據(jù)挖掘 DataMining 實(shí)際兩者是有區(qū)別的 一般將KDD中進(jìn)行知識學(xué)習(xí)的階段稱為數(shù)據(jù)挖掘 DataMining 數(shù)據(jù)挖掘是KDD中一個(gè)非常重要的處理步驟 數(shù)據(jù)挖掘是近年來出現(xiàn)的客戶關(guān)系管理 CustomerRelationshipManagement CRM 商業(yè)智能 BusinessIntelligence BI 等熱點(diǎn)領(lǐng)域的核心技術(shù)之一 概述 一種深層次的數(shù)據(jù)分析方法 數(shù)據(jù)分析本身已有多年的歷史 只不過在過去數(shù)據(jù)收集和分析的一般目的是用于科學(xué)研究 另外 由于當(dāng)時(shí)計(jì)算能力的限制 很難實(shí)現(xiàn)大量數(shù)據(jù)的復(fù)雜分析 現(xiàn)在 由于各行業(yè)業(yè)務(wù)自動(dòng)化的實(shí)現(xiàn) 商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù) 這些數(shù)據(jù)并不是為了分析的目的而收集的 而是在商業(yè)運(yùn)作過程中由于業(yè)務(wù)需要而自然產(chǎn)生的 數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別 數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別 1 數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變 數(shù)據(jù)是海量的 數(shù)據(jù)有噪聲 數(shù)據(jù)可能是非結(jié)構(gòu)化的 2 傳統(tǒng)的數(shù)據(jù)分析方法一般都是先給出一個(gè)假設(shè)然后通過數(shù)據(jù)驗(yàn)證 在一定意義上是假設(shè)驅(qū)動(dòng)的 與之相反 數(shù)據(jù)挖掘在一定意義上是發(fā)現(xiàn)驅(qū)動(dòng)的 模式都是通過大量的搜索工作從數(shù)據(jù)中自動(dòng)提取出來 即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識 甚至是違背直覺的信息或知識 挖掘出的信息越是出乎意料 就可能越有價(jià)值 在缺乏強(qiáng)有力的數(shù)據(jù)分析工具而不能分析這些資源的情況下 歷史數(shù)據(jù)庫也就變成了 數(shù)據(jù)墳?zāi)?里面的數(shù)據(jù)幾乎不再被訪問 也就是說 極有價(jià)值的信息被 淹沒 在海量數(shù)據(jù)堆中 領(lǐng)導(dǎo)者決策時(shí)還只能憑自己的經(jīng)驗(yàn)和直覺 因此改進(jìn)原有的數(shù)據(jù)分析方法 使之能夠智能地處理海量數(shù)據(jù) 即演化為數(shù)據(jù)挖掘 數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別 技術(shù)角度的定義數(shù)據(jù)挖掘 DataMining 是從大量的 不完全的 有噪聲的 模糊的 隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中 提取隱含在其中的 人們事先不知道的 但又是潛在有用的信息和知識的過程 與數(shù)據(jù)挖掘相近的同義詞包括 數(shù)據(jù)融合 數(shù)據(jù)分析和決策支持等 這一定義包括好幾層含義 數(shù)據(jù)源必須是真實(shí)的 海量的 含噪聲的 發(fā)現(xiàn)的是用戶感興趣的知識 發(fā)現(xiàn)的知識要可接受 可理解 可運(yùn)用 并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識 僅支持特定的發(fā)現(xiàn)問題 數(shù)據(jù)挖掘定義 商業(yè)角度的定義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù) 其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取 轉(zhuǎn)換 分析和其他模型化處理 從中提取輔助商業(yè)決策的關(guān)鍵性信息 簡言之 數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法 因此 數(shù)據(jù)挖掘可以描述為 按企業(yè)既定業(yè)務(wù)目標(biāo) 對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析 揭示隱藏的 未知的或驗(yàn)證己知的規(guī)律性 并進(jìn)一步將其模型化的有效方法 數(shù)據(jù)挖掘的演化 數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系 數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科 涉及數(shù)據(jù)庫系統(tǒng) 數(shù)據(jù)倉庫 統(tǒng)計(jì)學(xué) 機(jī)器學(xué)習(xí) 可視化 信息檢索和高性能計(jì)算等諸多領(lǐng)域 此外 還與神經(jīng)網(wǎng)絡(luò) 模式識別 空間數(shù)據(jù)分析 圖像處理 信號處理 概率論 圖論和歸納邏輯等等領(lǐng)域關(guān)系密切 國外研究現(xiàn)狀 IEEE的KnowledgeandDataEngineering會(huì)刊率先在1993年出版了KDD技術(shù)???并行計(jì)算 計(jì)算機(jī)網(wǎng)絡(luò)和信息工程等其他領(lǐng)域的國際學(xué)會(huì) 學(xué)刊也把數(shù)據(jù)挖掘和知識發(fā)現(xiàn)列為專題和??懻?數(shù)據(jù)挖掘已經(jīng)成了國際學(xué)術(shù)研究的重要熱點(diǎn)之一 此外 在Internet上還有不少KDD電子出版物 其中以半月刊KnowledgeDiscoveryNuggets最為權(quán)威 國外研究現(xiàn)狀 自1989年KDD術(shù)語出現(xiàn)以來 由美國人工智能協(xié)會(huì)主辦的KDD國際研討會(huì)已經(jīng)召開了10次以上 規(guī)模由原來的專題討論會(huì)發(fā)展到國際學(xué)術(shù)大會(huì) 而亞太地區(qū)也從1997開始舉行PAKDD年會(huì) 國內(nèi)研究現(xiàn)狀 與國外相比 國內(nèi)對數(shù)據(jù)挖掘的研究起步稍晚 但發(fā)展勢頭強(qiáng)勁 1993年 國家自然科學(xué)基金首次資助復(fù)旦大學(xué)對該領(lǐng)域的研究項(xiàng)目 目前 國內(nèi)的許多科研單位和高等院校競相開展知識發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究 發(fā)展趨勢 近年來 數(shù)據(jù)挖掘的研究重點(diǎn)逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用 注重多種發(fā)現(xiàn)策略和技術(shù)的集成 以及多學(xué)科之間的相互滲透 例如 1998年在美國紐約舉行的第四屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學(xué)術(shù)會(huì)議不僅進(jìn)行了學(xué)術(shù)討論 并且有30多家軟件公司展示了他們的數(shù)據(jù)挖掘軟件產(chǎn)品 不少軟件已在北美 歐洲等國得到應(yīng)用 數(shù)據(jù)挖掘系統(tǒng)的典型結(jié)構(gòu) 功能 1 概念 類別描述 Concept ClassDescription 概念 類別描述是指對數(shù)據(jù)集做一個(gè)簡潔的總體性描述并 或描述它與某一對照數(shù)據(jù)集的差別 例1 我們收集移動(dòng)電話費(fèi)月消費(fèi)額超出1000元的客戶資料 然后利用數(shù)據(jù)挖掘進(jìn)行分析 獲得這類客戶的總體性描述 35 50歲 有工作 月收入5000元以上 擁有良好的信用度 功能 2 關(guān)聯(lián)分析 AssociationAnalysis 從一個(gè)項(xiàng)目集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則 該規(guī)則顯示了給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性 值條件元組 例如 關(guān)聯(lián)規(guī)則X Y所表達(dá)的含義是滿足X的數(shù)據(jù)庫元組很可能滿足Y 關(guān)聯(lián)分析在交易數(shù)據(jù)分析 支持定向市場 商品目錄設(shè)計(jì)和其他業(yè)務(wù)決策等方面有著廣泛的應(yīng)用 功能 3 分類與估值 ClassificationandEstimation 分類指通過分析一個(gè)類別已知的數(shù)據(jù)集的特征來建立一組模型 該模型可用以預(yù)測類別未知的數(shù)據(jù)項(xiàng)的類別 該分類模型可以表現(xiàn)為多種形式 分類規(guī)則 IF THEN 決策樹或者數(shù)學(xué)公式 乃至神經(jīng)網(wǎng)絡(luò) 估值與分類類似 只不過它要預(yù)測的不是類別 而是一個(gè)連續(xù)的數(shù)值 功能 4 聚類分析 ClusteringAnalysis 聚類分析又稱為 同質(zhì)分組 或者 無監(jiān)督的分類 指把一組數(shù)據(jù)分成不同的 簇 每簇中的數(shù)據(jù)相似而不同簇間的數(shù)據(jù)則距離較遠(yuǎn) 相似性可以由用戶或者專家定義的距離函數(shù)加以度量 好的聚類方法應(yīng)保證不同類間數(shù)據(jù)的相似性盡可能地小 而類內(nèi)數(shù)據(jù)的相似性盡可能地大 功能 5 時(shí)間序列分析 Time SeriesAnalysis 時(shí)間序列分析即預(yù)測 Prediction 是指通過對大量時(shí)間序列數(shù)據(jù)的分析找到特定的規(guī)則和感興趣的特性 包括搜索相似序列或者子序列 挖掘序列模式 周期性 趨勢和偏差 預(yù)測的目的是對未來的情況作出估計(jì) 功能 6 其它功能包括 偏差分析 DeviationAnalysis 孤立點(diǎn)分析 OutlierAnalysis 等 隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展 可能還會(huì)繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能 展望 未來的熱點(diǎn)應(yīng)用領(lǐng)域 網(wǎng)站的數(shù)據(jù)挖掘 Websitedatamining 生物信息或基因的數(shù)據(jù)挖掘文本挖掘 Textualmining 多媒體挖掘 網(wǎng)站的數(shù)據(jù)挖掘 Websitedatamining 當(dāng)前Internet上各類電子商務(wù)網(wǎng)站風(fēng)起云涌 電子商務(wù)業(yè)務(wù)的競爭比傳統(tǒng)的業(yè)務(wù)競爭更加激烈 客戶從一個(gè)電子商務(wù)網(wǎng)站轉(zhuǎn)換到競爭對手那邊 只需點(diǎn)擊幾下鼠標(biāo)即可 電子商務(wù)環(huán)境下客戶保持比傳統(tǒng)商業(yè)更加困難 若想在競爭中生存進(jìn)而獲勝 您必須比競爭對手更了解客戶 電子商務(wù)網(wǎng)站每天都可能有上百萬次的在線交易 生成大量的記錄文件 Logfiles 和登記表 如何對這些數(shù)據(jù)進(jìn)行分析和挖掘 及時(shí)地了解客戶的喜好 購買模式 甚至是客戶一時(shí)的沖動(dòng) 設(shè)計(jì)出滿足于不同客戶群體需要的個(gè)性化網(wǎng)站 進(jìn)而增加競爭力 幾乎變得勢在必行 網(wǎng)站的數(shù)據(jù)挖掘 Websitedatamining 就分析和建立模型的技術(shù)和算法而言 網(wǎng)站的數(shù)據(jù)挖掘和原來的數(shù)據(jù)挖掘差別并不是特別大 很多方法和分析思想都可以運(yùn)用 所不同的是網(wǎng)站的數(shù)據(jù)格式有很大一部分來自于點(diǎn)擊流 和傳統(tǒng)的數(shù)據(jù)庫格式有區(qū)別 因而對電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準(zhǔn)備 目前 有很多廠商正在致力于開發(fā)專門用于網(wǎng)站挖掘的軟件 生物信息或基因的挖掘生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個(gè)領(lǐng)域 在商業(yè)上很難講有多大的價(jià)值 但對于人類卻受益非淺 例如 基因的組合千變?nèi)f化 得某種病的人的基因和正常人的基因到底差別多大 能否找出其中不同的地方 進(jìn)而對其不同之處加以改變 使之成為正常基因 這都需要數(shù)據(jù)挖掘技術(shù)的支持 對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比 無論在數(shù)據(jù)的復(fù)雜程度 數(shù)據(jù)量還有分析和建立模型的算法方面 都要復(fù)雜得多 從分析算法上講 更需要一些新的和高效的算法 現(xiàn)在很多廠商正在致力于這方面的研究 但就技術(shù)和軟件而言 還遠(yuǎn)沒有達(dá)到成熟的地步 文本挖掘 Textualmining 文本挖掘是人們關(guān)心的另外一個(gè)話題 例如 在客戶服務(wù)中心 把同客戶的談話轉(zhuǎn)化為文本數(shù)據(jù) 再對這些數(shù)據(jù)進(jìn)行挖掘 進(jìn)而了解客戶對服務(wù)的滿意程度和客戶的需求以及客戶之間的相互關(guān)系等信息 無論是在數(shù)據(jù)結(jié)構(gòu)還是在分析處理方法方面 文本數(shù)據(jù)挖掘和數(shù)據(jù)挖掘相差很大 文本挖掘并不是一件容易的事情 尤其是在分析方法方面 還有很多需要研究的專題 目前市場上有一些類似的軟件 但大部分方法只是把文本移來移去 或簡單地計(jì)算一下某些詞匯的出現(xiàn)頻率 并沒有真正實(shí)現(xiàn)語義上的分析功能 多媒體挖掘 MultimeadiaMining 基于描述的檢索系統(tǒng)基于圖像的描述創(chuàng)建索引并實(shí)現(xiàn)對象檢索 如關(guān)鍵字 標(biāo)題 尺寸和創(chuàng)建時(shí)間等 人工實(shí)現(xiàn)則極為費(fèi)時(shí) 費(fèi)力 自動(dòng)實(shí)現(xiàn)則往往結(jié)果不理想 基于內(nèi)容的檢索系統(tǒng)支持基于圖像內(nèi)容的檢索 例如顏色 質(zhì)地 形狀 對象及小波變換 總結(jié) 數(shù)據(jù)倉庫 DW 是利用數(shù)據(jù)資源提供決策支持 在數(shù)據(jù)倉庫中利用多維數(shù)據(jù)分析來發(fā)現(xiàn)問題 并找出產(chǎn)生的原因 能從大量歷史數(shù)據(jù)中預(yù)測未來 數(shù)據(jù)挖掘 DM 是從數(shù)據(jù)中挖掘出信息和知識 數(shù)據(jù)的特征 大容量POS數(shù)據(jù) 某個(gè)超市每天要處理高達(dá)2000萬筆交易 衛(wèi)星圖象 NASA的地球觀測衛(wèi)星以每小時(shí)50GB的速度發(fā)回?cái)?shù)據(jù) 互聯(lián)網(wǎng)數(shù)據(jù)含噪音 不完全 不正確 異質(zhì)數(shù)據(jù) 多種數(shù)據(jù)類型混合的數(shù)據(jù)源
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 內(nèi)部股權(quán)轉(zhuǎn)讓協(xié)議文件
- 某商超社區(qū)協(xié)作制度
- ××中學(xué)防疫物資儲備辦法
- 傳承文化弘揚(yáng)民族精神6篇范文
- 2025年車用電池項(xiàng)目規(guī)劃申請報(bào)告模板
- 2025年評茶員(高級)考試試卷:茶葉市場調(diào)研與品牌競爭力分析
- 2025年院前急救信息系統(tǒng)項(xiàng)目申請報(bào)告
- 2025年成人高考《語文》古詩詞鑒賞經(jīng)典名篇分析試題庫
- 旅游業(yè)導(dǎo)游工作證明及收入說明(8篇)
- 2025年賽力皮革染料項(xiàng)目規(guī)劃申請報(bào)告
- 浙江杭州市2024-2025學(xué)年高一下學(xué)期6月期末考試英語試題及答案
- 診所院內(nèi)感染管理制度
- 2025年初中數(shù)學(xué)知識點(diǎn)測試題及答案
- 小學(xué)生集體活動(dòng)安全課件
- 2025-2030年中國高爾夫產(chǎn)品行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報(bào)告
- 2025-2030年中國經(jīng)顱磁刺激儀行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報(bào)告
- 2025年江蘇高考?xì)v史真題(解析版)
- 動(dòng)火工作方案
- 廣西來賓市2023-2024學(xué)年高二下學(xué)期7月期末考試物理試題(含答案)
- 會(huì)員月底抽獎(jiǎng)活動(dòng)方案
- (2025)發(fā)展對象考試試題附及答案
評論
0/150
提交評論