數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件1_（13）

上傳人：東*** IP屬地：江蘇上傳時(shí)間：2020-03-04 格式：PPT 頁數(shù)：35 大?。?03.50KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩30頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2020年3月4日星期三 DataMining ConceptsandTechniques 1 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘任課教師劉愛華工作單位信息技術(shù)系辦公地點(diǎn) 科技樓913聯(lián)系電話Q號碼 122471495E mail ahliu 二十世紀(jì)末以來全球信息量以驚人的速度急劇增長據(jù)估計(jì) 每二十個(gè)月將增加一倍許多組織機(jī)構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù) 信息目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入查詢統(tǒng)計(jì)等功能但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢為了充分利用現(xiàn)有信息資源從海量數(shù)據(jù)中找出隱藏的知識數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示出強(qiáng)大的生命力 Why Why 數(shù)據(jù)挖掘的社會(huì)需求數(shù)據(jù)挖掘是八十年代投資AI研究項(xiàng)目失敗后 AI轉(zhuǎn)入實(shí)際應(yīng)用時(shí)提出的它是一個(gè)新興的面向商業(yè)應(yīng)用的AI研究 1989年8月在美國底特律召開的第11屆國際人工智能聯(lián)合會(huì)議的專題討論會(huì)上首次出現(xiàn)數(shù)據(jù)庫中的知識發(fā)現(xiàn) KnowledgeDiscoveryinDatabase KDD 這一術(shù)語隨后在1991年 1993年和1994年都舉行KDD專題討論會(huì) 匯集來自各個(gè)領(lǐng)域的研究人員和應(yīng)用開發(fā)者集中討論數(shù)據(jù)統(tǒng)計(jì) 海量數(shù)據(jù)分析算法知識表示知識運(yùn)用等問題最初數(shù)據(jù)挖掘是作為KDD中利用算法處理數(shù)據(jù)的一個(gè)步驟其后逐漸演變成KDD的同義詞概述現(xiàn)在人們往往不加區(qū)別地使用兩者 KDD常常被稱為數(shù)據(jù)挖掘 DataMining 實(shí)際兩者是有區(qū)別的一般將KDD中進(jìn)行知識學(xué)習(xí)的階段稱為數(shù)據(jù)挖掘 DataMining 數(shù)據(jù)挖掘是KDD中一個(gè)非常重要的處理步驟數(shù)據(jù)挖掘是近年來出現(xiàn)的客戶關(guān)系管理 CustomerRelationshipManagement CRM 商業(yè)智能 BusinessIntelligence BI 等熱點(diǎn)領(lǐng)域的核心技術(shù)之一概述一種深層次的數(shù)據(jù)分析方法數(shù)據(jù)分析本身已有多年的歷史只不過在過去數(shù)據(jù)收集和分析的一般目的是用于科學(xué)研究另外由于當(dāng)時(shí)計(jì)算能力的限制很難實(shí)現(xiàn)大量數(shù)據(jù)的復(fù)雜分析現(xiàn)在由于各行業(yè)業(yè)務(wù)自動(dòng)化的實(shí)現(xiàn) 商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù) 這些數(shù)據(jù)并不是為了分析的目的而收集的而是在商業(yè)運(yùn)作過程中由于業(yè)務(wù)需要而自然產(chǎn)生的數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別 1 數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變數(shù)據(jù)是海量的數(shù)據(jù)有噪聲數(shù)據(jù)可能是非結(jié)構(gòu)化的 2 傳統(tǒng)的數(shù)據(jù)分析方法一般都是先給出一個(gè)假設(shè)然后通過數(shù)據(jù)驗(yàn)證在一定意義上是假設(shè)驅(qū)動(dòng)的與之相反數(shù)據(jù)挖掘在一定意義上是發(fā)現(xiàn)驅(qū)動(dòng)的模式都是通過大量的搜索工作從數(shù)據(jù)中自動(dòng)提取出來即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識甚至是違背直覺的信息或知識挖掘出的信息越是出乎意料就可能越有價(jià)值在缺乏強(qiáng)有力的數(shù)據(jù)分析工具而不能分析這些資源的情況下歷史數(shù)據(jù)庫也就變成了數(shù)據(jù)墳?zāi)?里面的數(shù)據(jù)幾乎不再被訪問也就是說極有價(jià)值的信息被淹沒在海量數(shù)據(jù)堆中領(lǐng)導(dǎo)者決策時(shí)還只能憑自己的經(jīng)驗(yàn)和直覺因此改進(jìn)原有的數(shù)據(jù)分析方法使之能夠智能地處理海量數(shù)據(jù) 即演化為數(shù)據(jù)挖掘數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別技術(shù)角度的定義數(shù)據(jù)挖掘 DataMining 是從大量的不完全的有噪聲的模糊的隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的人們事先不知道的但又是潛在有用的信息和知識的過程與數(shù)據(jù)挖掘相近的同義詞包括數(shù)據(jù)融合數(shù)據(jù)分析和決策支持等這一定義包括好幾層含義數(shù)據(jù)源必須是真實(shí)的海量的含噪聲的發(fā)現(xiàn)的是用戶感興趣的知識發(fā)現(xiàn)的知識要可接受可理解可運(yùn)用并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識僅支持特定的發(fā)現(xiàn)問題數(shù)據(jù)挖掘定義商業(yè)角度的定義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù) 其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取轉(zhuǎn)換分析和其他模型化處理從中提取輔助商業(yè)決策的關(guān)鍵性信息簡言之數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法因此數(shù)據(jù)挖掘可以描述為按企業(yè)既定業(yè)務(wù)目標(biāo) 對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析揭示隱藏的未知的或驗(yàn)證己知的規(guī)律性并進(jìn)一步將其模型化的有效方法數(shù)據(jù)挖掘的演化數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科涉及數(shù)據(jù)庫系統(tǒng) 數(shù)據(jù)倉庫統(tǒng)計(jì)學(xué) 機(jī)器學(xué)習(xí) 可視化信息檢索和高性能計(jì)算等諸多領(lǐng)域此外還與神經(jīng)網(wǎng)絡(luò) 模式識別空間數(shù)據(jù)分析圖像處理信號處理概率論圖論和歸納邏輯等等領(lǐng)域關(guān)系密切國外研究現(xiàn)狀 IEEE的KnowledgeandDataEngineering會(huì)刊率先在1993年出版了KDD技術(shù)?？?并行計(jì)算計(jì)算機(jī)網(wǎng)絡(luò)和信息工程等其他領(lǐng)域的國際學(xué)會(huì) 學(xué)刊也把數(shù)據(jù)挖掘和知識發(fā)現(xiàn)列為專題和?？懻?數(shù)據(jù)挖掘已經(jīng)成了國際學(xué)術(shù)研究的重要熱點(diǎn)之一此外在Internet上還有不少KDD電子出版物其中以半月刊KnowledgeDiscoveryNuggets最為權(quán)威國外研究現(xiàn)狀自1989年KDD術(shù)語出現(xiàn)以來由美國人工智能協(xié)會(huì)主辦的KDD國際研討會(huì)已經(jīng)召開了10次以上規(guī)模由原來的專題討論會(huì)發(fā)展到國際學(xué)術(shù)大會(huì) 而亞太地區(qū)也從1997開始舉行PAKDD年會(huì) 國內(nèi)研究現(xiàn)狀與國外相比國內(nèi)對數(shù)據(jù)挖掘的研究起步稍晚但發(fā)展勢頭強(qiáng)勁 1993年國家自然科學(xué)基金首次資助復(fù)旦大學(xué)對該領(lǐng)域的研究項(xiàng)目目前國內(nèi)的許多科研單位和高等院校競相開展知識發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究發(fā)展趨勢近年來數(shù)據(jù)挖掘的研究重點(diǎn)逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用注重多種發(fā)現(xiàn)策略和技術(shù)的集成以及多學(xué)科之間的相互滲透例如 1998年在美國紐約舉行的第四屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學(xué)術(shù)會(huì)議不僅進(jìn)行了學(xué)術(shù)討論并且有30多家軟件公司展示了他們的數(shù)據(jù)挖掘軟件產(chǎn)品不少軟件已在北美歐洲等國得到應(yīng)用數(shù)據(jù)挖掘系統(tǒng)的典型結(jié)構(gòu) 功能 1 概念類別描述 Concept ClassDescription 概念類別描述是指對數(shù)據(jù)集做一個(gè)簡潔的總體性描述并或描述它與某一對照數(shù)據(jù)集的差別例1 我們收集移動(dòng)電話費(fèi)月消費(fèi)額超出1000元的客戶資料然后利用數(shù)據(jù)挖掘進(jìn)行分析獲得這類客戶的總體性描述 35 50歲有工作月收入5000元以上擁有良好的信用度功能 2 關(guān)聯(lián)分析 AssociationAnalysis 從一個(gè)項(xiàng)目集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則該規(guī)則顯示了給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性值條件元組例如關(guān)聯(lián)規(guī)則X Y所表達(dá)的含義是滿足X的數(shù)據(jù)庫元組很可能滿足Y 關(guān)聯(lián)分析在交易數(shù)據(jù)分析支持定向市場商品目錄設(shè)計(jì)和其他業(yè)務(wù)決策等方面有著廣泛的應(yīng)用功能 3 分類與估值 ClassificationandEstimation 分類指通過分析一個(gè)類別已知的數(shù)據(jù)集的特征來建立一組模型該模型可用以預(yù)測類別未知的數(shù)據(jù)項(xiàng)的類別該分類模型可以表現(xiàn)為多種形式分類規(guī)則 IF THEN 決策樹或者數(shù)學(xué)公式乃至神經(jīng)網(wǎng)絡(luò) 估值與分類類似只不過它要預(yù)測的不是類別而是一個(gè)連續(xù)的數(shù)值功能 4 聚類分析 ClusteringAnalysis 聚類分析又稱為同質(zhì)分組或者無監(jiān)督的分類指把一組數(shù)據(jù)分成不同的簇每簇中的數(shù)據(jù)相似而不同簇間的數(shù)據(jù)則距離較遠(yuǎn) 相似性可以由用戶或者專家定義的距離函數(shù)加以度量好的聚類方法應(yīng)保證不同類間數(shù)據(jù)的相似性盡可能地小而類內(nèi)數(shù)據(jù)的相似性盡可能地大功能 5 時(shí)間序列分析 Time SeriesAnalysis 時(shí)間序列分析即預(yù)測 Prediction 是指通過對大量時(shí)間序列數(shù)據(jù)的分析找到特定的規(guī)則和感興趣的特性包括搜索相似序列或者子序列挖掘序列模式周期性趨勢和偏差預(yù)測的目的是對未來的情況作出估計(jì) 功能 6 其它功能包括偏差分析 DeviationAnalysis 孤立點(diǎn)分析 OutlierAnalysis 等隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展可能還會(huì)繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能展望未來的熱點(diǎn)應(yīng)用領(lǐng)域網(wǎng)站的數(shù)據(jù)挖掘 Websitedatamining 生物信息或基因的數(shù)據(jù)挖掘文本挖掘 Textualmining 多媒體挖掘網(wǎng)站的數(shù)據(jù)挖掘 Websitedatamining 當(dāng)前Internet上各類電子商務(wù)網(wǎng)站風(fēng)起云涌電子商務(wù)業(yè)務(wù)的競爭比傳統(tǒng)的業(yè)務(wù)競爭更加激烈客戶從一個(gè)電子商務(wù)網(wǎng)站轉(zhuǎn)換到競爭對手那邊只需點(diǎn)擊幾下鼠標(biāo)即可電子商務(wù)環(huán)境下客戶保持比傳統(tǒng)商業(yè)更加困難若想在競爭中生存進(jìn)而獲勝您必須比競爭對手更了解客戶電子商務(wù)網(wǎng)站每天都可能有上百萬次的在線交易生成大量的記錄文件 Logfiles 和登記表如何對這些數(shù)據(jù)進(jìn)行分析和挖掘及時(shí)地了解客戶的喜好購買模式甚至是客戶一時(shí)的沖動(dòng) 設(shè)計(jì)出滿足于不同客戶群體需要的個(gè)性化網(wǎng)站進(jìn)而增加競爭力幾乎變得勢在必行網(wǎng)站的數(shù)據(jù)挖掘 Websitedatamining 就分析和建立模型的技術(shù)和算法而言網(wǎng)站的數(shù)據(jù)挖掘和原來的數(shù)據(jù)挖掘差別并不是特別大很多方法和分析思想都可以運(yùn)用所不同的是網(wǎng)站的數(shù)據(jù)格式有很大一部分來自于點(diǎn)擊流和傳統(tǒng)的數(shù)據(jù)庫格式有區(qū)別因而對電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準(zhǔn)備目前有很多廠商正在致力于開發(fā)專門用于網(wǎng)站挖掘的軟件生物信息或基因的挖掘生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個(gè)領(lǐng)域在商業(yè)上很難講有多大的價(jià)值但對于人類卻受益非淺例如基因的組合千變?nèi)f化得某種病的人的基因和正常人的基因到底差別多大能否找出其中不同的地方進(jìn)而對其不同之處加以改變使之成為正常基因這都需要數(shù)據(jù)挖掘技術(shù)的支持對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比無論在數(shù)據(jù)的復(fù)雜程度數(shù)據(jù)量還有分析和建立模型的算法方面都要復(fù)雜得多從分析算法上講更需要一些新的和高效的算法現(xiàn)在很多廠商正在致力于這方面的研究但就技術(shù)和軟件而言還遠(yuǎn)沒有達(dá)到成熟的地步文本挖掘 Textualmining 文本挖掘是人們關(guān)心的另外一個(gè)話題例如在客戶服務(wù)中心把同客戶的談話轉(zhuǎn)化為文本數(shù)據(jù) 再對這些數(shù)據(jù)進(jìn)行挖掘進(jìn)而了解客戶對服務(wù)的滿意程度和客戶的需求以及客戶之間的相互關(guān)系等信息無論是在數(shù)據(jù)結(jié)構(gòu)還是在分析處理方法方面文本數(shù)據(jù)挖掘和數(shù)據(jù)挖掘相差很大文本挖掘并不是一件容易的事情尤其是在分析方法方面還有很多需要研究的專題目前市場上有一些類似的軟件但大部分方法只是把文本移來移去或簡單地計(jì)算一下某些詞匯的出現(xiàn)頻率并沒有真正實(shí)現(xiàn)語義上的分析功能多媒體挖掘 MultimeadiaMining 基于描述的檢索系統(tǒng)基于圖像的描述創(chuàng)建索引并實(shí)現(xiàn)對象檢索如關(guān)鍵字標(biāo)題尺寸和創(chuàng)建時(shí)間等人工實(shí)現(xiàn)則極為費(fèi)時(shí) 費(fèi)力自動(dòng)實(shí)現(xiàn)則往往結(jié)果不理想基于內(nèi)容的檢索系統(tǒng)支持基于圖像內(nèi)容的檢索例如顏色質(zhì)地形狀對象及小波變換總結(jié) 數(shù)據(jù)倉庫 DW 是利用數(shù)據(jù)資源提供決策支持在數(shù)據(jù)倉庫中利用多維數(shù)據(jù)分析來發(fā)現(xiàn)問題并找出產(chǎn)生的原因能從大量歷史數(shù)據(jù)中預(yù)測未來數(shù)據(jù)挖掘 DM 是從數(shù)據(jù)中挖掘出信息和知識數(shù)據(jù)的特征大容量POS數(shù)據(jù) 某個(gè)超市每天要處理高達(dá)2000萬筆交易衛(wèi)星圖象 NASA的地球觀測衛(wèi)星以每小時(shí)50GB的速度發(fā)回?cái)?shù)據(jù) 互聯(lián)網(wǎng)數(shù)據(jù)含噪音不完全不正確異質(zhì)數(shù)據(jù) 多種數(shù)據(jù)類型混合的數(shù)據(jù)源

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件1_（13）

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件1_（13）

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔