數(shù)據(jù)倉(cāng)庫(kù)與挖掘第五章-數(shù)據(jù)挖掘概述課件

上傳人：愛(ài)*** IP屬地：貴州上傳時(shí)間：2022-12-09 格式：PPTX 頁(yè)數(shù)：76 大小：418.36KB 積分：25 舉報(bào) 版權(quán)申訴

數(shù)據(jù)倉(cāng)庫(kù)與挖掘第五章-數(shù)據(jù)挖掘概述課件_第2頁(yè)

數(shù)據(jù)倉(cāng)庫(kù)與挖掘第五章-數(shù)據(jù)挖掘概述課件_第3頁(yè)

數(shù)據(jù)倉(cāng)庫(kù)與挖掘第五章-數(shù)據(jù)挖掘概述課件_第4頁(yè)

數(shù)據(jù)倉(cāng)庫(kù)與挖掘第五章-數(shù)據(jù)挖掘概述課件_第5頁(yè)

已閱讀5頁(yè)，還剩71頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五章數(shù)據(jù)挖掘的概述本章內(nèi)容5.1數(shù)據(jù)挖掘的起源5.2數(shù)據(jù)挖掘的任務(wù)5.3醫(yī)學(xué)與數(shù)據(jù)挖掘第五章數(shù)據(jù)挖掘的概述本章內(nèi)容數(shù)據(jù)挖掘的起源網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)數(shù)據(jù)爆炸但知識(shí)貧乏支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化數(shù)據(jù)挖掘的起源網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)網(wǎng)絡(luò)時(shí)代面臨的信息問(wèn)題：信息過(guò)量，難以消化；信息真假難以辨識(shí)；信息安全難以保證；信息形式不一致，難以統(tǒng)一處理?！耙獙W(xué)會(huì)拋棄信息”

網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)網(wǎng)絡(luò)時(shí)代面臨的信息問(wèn)題：數(shù)據(jù)爆炸但知識(shí)貧乏數(shù)據(jù)庫(kù)的容量已達(dá)上萬(wàn)億水平（T）－－1,000,000,000,000個(gè)字節(jié)全球信息量以驚人的速度急劇增長(zhǎng)－－據(jù)估計(jì)，每二十個(gè)月將增加一倍。許多組織機(jī)構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù)目前的數(shù)據(jù)庫(kù)系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能，但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則，無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。為了充分利用現(xiàn)有信息資源，從海量數(shù)據(jù)中找出隱藏的知識(shí)，數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示出強(qiáng)大的生命力。如何從一棵棵樹(shù)木了解整個(gè)森林？從數(shù)據(jù)礦山中找到蘊(yùn)藏的知識(shí)金塊？這是我們?cè)摽紤]的問(wèn)題！數(shù)據(jù)爆炸但知識(shí)貧乏數(shù)據(jù)庫(kù)的容量已達(dá)上萬(wàn)億水平（T）－－1,0啤酒尿不濕案例著名的“啤酒尿布”案例：美國(guó)加州某個(gè)超級(jí)賣場(chǎng)通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)，下班后前來(lái)購(gòu)買嬰兒尿布的男顧客大都購(gòu)買啤酒。于是經(jīng)理當(dāng)機(jī)立斷，重新布置貨架，把啤酒類商品布置在嬰兒尿布貨架附近，并在二者之間放置佐酒食品，同時(shí)還把男士日常用品就近布置。這樣，上述幾種商品的銷量大增。啤酒尿不濕案例著名的“啤酒尿布”案例：美國(guó)加州某個(gè)超級(jí)賣場(chǎng)通支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)激發(fā)了數(shù)據(jù)挖掘的開(kāi)發(fā)、應(yīng)用和研究的興趣的四個(gè)主要技術(shù)理由：超大規(guī)模數(shù)據(jù)庫(kù)的出現(xiàn)，例如商業(yè)數(shù)據(jù)倉(cāng)庫(kù)和計(jì)算機(jī)自動(dòng)收集的數(shù)據(jù)記錄；強(qiáng)大的多處理器計(jì)算機(jī)。例如更快和更大的計(jì)算能力和并行體系結(jié)構(gòu)；海量數(shù)據(jù)搜索，對(duì)巨大量數(shù)據(jù)的快速訪問(wèn)；數(shù)據(jù)挖掘算法。

支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)激發(fā)了數(shù)據(jù)挖掘的開(kāi)發(fā)、應(yīng)用和研究的興趣從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問(wèn)題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集

(60年代)“過(guò)去五年中我的總收入是多少？”計(jì)算機(jī)、磁帶和磁盤IBM提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(wèn)

(80年代)“在新英格蘭的分部去年三月的銷售額是多少？”關(guān)系數(shù)據(jù)庫(kù)（RDBMS），結(jié)構(gòu)化查詢語(yǔ)言（SQL）、Sybase、Informix、IBMOracle、Sybase、Informix、IBM、Microsoft在記錄級(jí)提供歷史性、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉(cāng)庫(kù)；

決策支持

(90年代)“在新英格蘭的分部去年三月的銷售額是多少？波士頓據(jù)此可得出什么結(jié)論？”聯(lián)機(jī)分析處理（OLAP）、多維數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)Oracle、IBM、Microsoft在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘

（正在流行）“下個(gè)月波士頓的銷售會(huì)怎么樣？為什么？”高級(jí)算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫(kù)IBM、其他公司提供預(yù)測(cè)性的信息從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問(wèn)題支持技術(shù)產(chǎn)品廠家產(chǎn)數(shù)據(jù)挖掘（DataMining)的定義數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程?！布夹g(shù)角度的定義〕數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo)，對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析，揭示隱藏的、未知的或驗(yàn)證己知的規(guī)律性，并進(jìn)一步將其模型化的有效方法?！采虡I(yè)角度的定義〕數(shù)據(jù)挖掘相近的同義詞包括：數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。

數(shù)據(jù)挖掘（DataMining)的定義數(shù)據(jù)挖掘是從大量的、數(shù)據(jù)挖掘（DataMining)的定義數(shù)據(jù)挖掘（DataMining)的定義數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系DataMiningDatabas數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科，涉及數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化、信息檢索和高性能計(jì)算等諸多領(lǐng)域。此外，還與神經(jīng)網(wǎng)絡(luò)、模式識(shí)別、空間數(shù)據(jù)分析、圖像處理、信號(hào)處理、概率論、圖論和歸納邏輯等等領(lǐng)域關(guān)系密切。近幾年，人們逐漸發(fā)現(xiàn)數(shù)據(jù)挖掘中有許多工作都是由統(tǒng)計(jì)方法來(lái)完成的。甚至有些人（尤其是統(tǒng)計(jì)學(xué)家）認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)的一個(gè)分支，當(dāng)然大多數(shù)人（包括絕大多數(shù)數(shù)據(jù)挖掘研究人員）并不這么認(rèn)為。統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘的目標(biāo)非常相似，而且數(shù)據(jù)挖掘中的許多算法也源于數(shù)理統(tǒng)計(jì)，統(tǒng)計(jì)學(xué)對(duì)數(shù)據(jù)挖掘發(fā)展的貢獻(xiàn)功不可沒(méi)。數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科，涉實(shí)施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯浚饕氖菫樯虡I(yè)決策提供真正有價(jià)值的信息，進(jìn)而獲得利潤(rùn)。所有企業(yè)面臨的一個(gè)共同問(wèn)題是：企業(yè)數(shù)據(jù)量非常大，而其中真正有價(jià)值的信息卻很少，因此需要從大量的數(shù)據(jù)中經(jīng)過(guò)深層分析，獲得有利于商業(yè)運(yùn)作、提高競(jìng)爭(zhēng)力的信息，就像從礦石中淘金一樣，數(shù)據(jù)挖掘也由此而得名。實(shí)施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯?，更主要的是為商業(yè)決策提數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變；數(shù)據(jù)是海量的。數(shù)據(jù)挖掘出現(xiàn)的背景是“數(shù)據(jù)爆炸但知識(shí)貧乏”，它要處理的數(shù)據(jù)量已經(jīng)達(dá)到了“太”（萬(wàn)億）級(jí)以上，比傳統(tǒng)數(shù)據(jù)分析方法所處理的數(shù)據(jù)量超出幾個(gè)乃至十幾個(gè)數(shù)量級(jí)。對(duì)于如此大規(guī)模的數(shù)據(jù)量，傳統(tǒng)的數(shù)據(jù)分析方法可能根本不能處理，即使能夠處理，效率也是必須考慮的嚴(yán)重問(wèn)題。因此需要對(duì)原有的數(shù)據(jù)分析方法重新檢驗(yàn)，加以改進(jìn)。

數(shù)據(jù)有噪聲的。傳統(tǒng)數(shù)據(jù)分析方法的數(shù)據(jù)源一般都是清潔好的、結(jié)構(gòu)化的數(shù)據(jù)，數(shù)據(jù)挖掘則需要從不完全的、有噪聲的、模糊的數(shù)據(jù)中發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變；數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)數(shù)據(jù)可能是非結(jié)構(gòu)化的。數(shù)據(jù)挖掘不僅可以處理結(jié)構(gòu)化的數(shù)據(jù)，而且可以處理半結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)。事實(shí)上，基于文本的數(shù)據(jù)挖掘甚至互聯(lián)網(wǎng)上的數(shù)據(jù)挖掘正是數(shù)據(jù)挖掘的研究方向之一。傳統(tǒng)的數(shù)據(jù)分析方法基于假設(shè)驅(qū)動(dòng)的:一般都是先給出一個(gè)假設(shè)然后通過(guò)數(shù)據(jù)驗(yàn)證。數(shù)據(jù)挖掘在一定意義上是基于發(fā)現(xiàn)驅(qū)動(dòng)的：模式都是通過(guò)大量的搜索工作從數(shù)據(jù)中自動(dòng)提取出來(lái)。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺(jué)發(fā)現(xiàn)的信息或知識(shí)，甚至是違背直覺(jué)的信息或知識(shí)，挖掘出的信息越是出乎意料，就可能越有價(jià)值。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)可能是非結(jié)構(gòu)化的。數(shù)據(jù)挖掘不僅可以處理結(jié)構(gòu)化的數(shù)據(jù)，而且數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)大部分情況下，數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中拿到數(shù)據(jù)挖掘庫(kù)或數(shù)據(jù)集市中。優(yōu)點(diǎn)：數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多，如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)已經(jīng)清理過(guò)，那很可能在做數(shù)據(jù)挖掘時(shí)就沒(méi)必要再清理一次了，而且所有的數(shù)據(jù)不一致的問(wèn)題都已經(jīng)被解決了。為了數(shù)據(jù)挖掘你也不必非得建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)，建立一個(gè)巨大的數(shù)據(jù)倉(cāng)庫(kù)，把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在一起，解決所有的數(shù)據(jù)沖突問(wèn)題，然后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)內(nèi)，是一項(xiàng)巨大的工程，可能要用幾年的時(shí)間花上百萬(wàn)的錢才能完成。只是為了數(shù)據(jù)挖掘，可以把一個(gè)或幾個(gè)事務(wù)數(shù)據(jù)庫(kù)導(dǎo)到一個(gè)只讀的數(shù)據(jù)庫(kù)中，就把它當(dāng)作數(shù)據(jù)集市，然后在它上面進(jìn)行數(shù)據(jù)挖掘。

數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)大部分情況下，數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)數(shù)據(jù)挖掘和OLAP完全不同的工具，基于的技術(shù)也大相徑庭；OLAP基于用戶假設(shè)：whathappened〔查詢和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中都有什么〕whatnext〔OLAP更進(jìn)一步告訴你下一步會(huì)怎么樣〕whatif〔如果我采取這樣的措施又會(huì)怎么樣〕用戶首先建立一個(gè)假設(shè)，然后用OLAP檢索數(shù)據(jù)庫(kù)來(lái)驗(yàn)證這個(gè)假設(shè)是否正確。比如，一個(gè)分析師想找到什么原因?qū)е铝速J款拖欠，他可能先做一個(gè)初始的假定，認(rèn)為低收入的人信用度也低，然后用OLAP來(lái)驗(yàn)證他這個(gè)假設(shè)。如果這個(gè)假設(shè)沒(méi)有被證實(shí)，他可能去察看那些高負(fù)債的賬戶，如果還不行，他也許要把收入和負(fù)債一起考慮，一直進(jìn)行下去，直到找到他想要的結(jié)果或放棄。數(shù)據(jù)挖掘和OLAP完全不同的工具，基于的技術(shù)也大相徑庭；數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘本質(zhì)上是一個(gè)歸納的過(guò)程，不是用于驗(yàn)證某個(gè)假定的模式（模型）的正確性，而是在數(shù)據(jù)庫(kù)中自己尋找模型。比如：一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個(gè)問(wèn)題的因素，甚至還可能發(fā)現(xiàn)一些分析師從來(lái)沒(méi)有想過(guò)或試過(guò)的其他因素，比如年齡。數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘本質(zhì)上是一個(gè)歸納的過(guò)程，不是用于數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來(lái)的結(jié)論采取行動(dòng)之前，你也許要驗(yàn)證一下如果采取這樣的行動(dòng)會(huì)給公司帶來(lái)什么樣的影響，那么OLAP工具能回答你的這些問(wèn)題。在知識(shí)發(fā)現(xiàn)的早期階段，OLAP工具還有其他一些用途?？梢詭湍闾剿鲾?shù)據(jù)，找到哪些是對(duì)一個(gè)問(wèn)題比較重要的變量，發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù)，加快知識(shí)發(fā)現(xiàn)的過(guò)程。數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘主要的任務(wù)關(guān)聯(lián)分析（AssociationAnalysis）從一個(gè)項(xiàng)目集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則，該規(guī)則顯示了給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性－值條件元組。例如：關(guān)聯(lián)規(guī)則X=>Y所表達(dá)的含義是滿足X的數(shù)據(jù)庫(kù)元組很可能滿足Y。關(guān)聯(lián)分析在交易數(shù)據(jù)分析、支持定向市場(chǎng)、商品目錄設(shè)計(jì)和其他業(yè)務(wù)決策等方面有著廣泛的應(yīng)用。

數(shù)據(jù)挖掘主要的任務(wù)關(guān)聯(lián)分析（AssociationAnal聚類分析聚類分析（ClusteringAnalysis）聚類分析又稱為“同質(zhì)分組”或者“無(wú)監(jiān)督的分類”，指把一組數(shù)據(jù)分成不同的“簇”，每簇中的數(shù)據(jù)相似而不同簇間的數(shù)據(jù)則距離較遠(yuǎn)。相似性可以由用戶或者專家定義的距離函數(shù)加以度量。好的聚類方法應(yīng)保證不同類間數(shù)據(jù)的相似性盡可能地小，而類內(nèi)數(shù)據(jù)的相似性盡可能地大。

聚類分析聚類分析（ClusteringAnalysis）分類與估值分類與估值（ClassificationandEstimation）分類指通過(guò)分析一個(gè)類別已知的數(shù)據(jù)集的特征來(lái)建立一組模型，該模型可用以預(yù)測(cè)類別未知的數(shù)據(jù)項(xiàng)的類別。該分類模型可以表現(xiàn)為多種形式：分類規(guī)則（IF-THEN），決策樹(shù)或者數(shù)學(xué)公式，乃至神經(jīng)網(wǎng)絡(luò)。估值與分類類似，只不過(guò)它要預(yù)測(cè)的不是類別，而是一個(gè)連續(xù)的數(shù)值。

分類與估值分類與估值（Classificationand時(shí)間序列分析時(shí)間序列分析（Time-Series

Analysis）時(shí)間序列分析即預(yù)測(cè)（Prediction），是指通過(guò)對(duì)大量時(shí)間序列數(shù)據(jù)的分析找到特定的規(guī)則和感興趣的特性，包括搜索相似序列或者子序列，挖掘序列模式、周期性、趨勢(shì)和偏差。預(yù)測(cè)的目的是對(duì)未來(lái)的情況作出估計(jì)。

時(shí)間序列分析時(shí)間序列分析（Time-SeriesAnaly其它任務(wù)其它任務(wù)

包括：偏差分析（DeviationAnalysis）、孤立點(diǎn)分析（OutlierAnalysis）等。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展，可能還會(huì)繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能。

其它任務(wù)其它任務(wù)醫(yī)學(xué)與數(shù)據(jù)挖掘醫(yī)學(xué)數(shù)據(jù)挖掘的主要研究對(duì)象是臨床醫(yī)療信息，反映了醫(yī)學(xué)信息的獨(dú)特之處，醫(yī)學(xué)數(shù)據(jù)挖掘的特殊性：模式的多態(tài)性：醫(yī)學(xué)信息包括純數(shù)據(jù)、信號(hào)、圖像、文字以及語(yǔ)音和視頻信息。模式：就是對(duì)客觀事物的一種抽象描述，是整個(gè)數(shù)據(jù)集的全局性描述。相當(dāng)于某一規(guī)則，強(qiáng)調(diào)形式上的規(guī)律，可用于全局的規(guī)則，模型即可理解為造型實(shí)物有實(shí)體的造型。信息不完整性：病例和病案的有限性使醫(yī)學(xué)數(shù)據(jù)庫(kù)不可能對(duì)任何一種疾病信息都能全面的反映，疾病信息所體現(xiàn)出的客觀不完整性和描述，疾病的主觀不確切性形成了醫(yī)學(xué)信息的不完整性。數(shù)據(jù)的時(shí)序性：病人的就診、病人的發(fā)病過(guò)程在時(shí)間上有一個(gè)進(jìn)度，醫(yī)學(xué)檢測(cè)的波型、圖像都是時(shí)間函數(shù)，這些都具有一定的時(shí)序性。數(shù)據(jù)冗余性：醫(yī)學(xué)數(shù)據(jù)庫(kù)是以龐大的數(shù)據(jù)資源，有大量相同的或部分相同的信息存儲(chǔ)在其中。醫(yī)學(xué)與數(shù)據(jù)挖掘醫(yī)學(xué)數(shù)據(jù)挖掘的主要研究對(duì)象是臨床醫(yī)療信息，反映醫(yī)學(xué)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘在醫(yī)藥領(lǐng)域的應(yīng)用越來(lái)越廣而不僅僅在商業(yè)領(lǐng)域中。在生物醫(yī)學(xué)工程：在DNA分析中的應(yīng)用：實(shí)現(xiàn)基因識(shí)別和基因表達(dá)的研究。在分子結(jié)構(gòu)分析中的應(yīng)用：海量的分析結(jié)構(gòu)信息，通過(guò)分類、聚類、頻繁模式發(fā)現(xiàn)等技術(shù)完成數(shù)據(jù)分析工作。在生物信息可視化方面的應(yīng)用：對(duì)原始的結(jié)構(gòu)數(shù)據(jù)進(jìn)行深入分析，以圖、樹(shù)、方體和鏈的形式重新展現(xiàn)。在患者生理參數(shù)分析中的應(yīng)用：從先驗(yàn)信息的海量數(shù)據(jù)中發(fā)現(xiàn)隱含的有意義的知識(shí)來(lái)預(yù)測(cè)未來(lái)趨勢(shì)，做出前瞻性的決策。醫(yī)學(xué)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘在醫(yī)藥領(lǐng)域的應(yīng)用越來(lái)越廣而不僅僅在商業(yè)中藥領(lǐng)域在中藥新藥研發(fā)中的應(yīng)用。在中藥要譜分析方面。在中藥數(shù)據(jù)預(yù)處理方面。在中藥文獻(xiàn)研究中的應(yīng)用。中藥領(lǐng)域在中藥新藥研發(fā)中的應(yīng)用。重點(diǎn)講解一：關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則描述和分析了數(shù)據(jù)庫(kù)中一組對(duì)象之間某種共生現(xiàn)象，反映了事物之間存在的關(guān)聯(lián)性，若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性，就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù)，即使知道也是不確定的，因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。如兩者“同時(shí)發(fā)生”或“兩者存在因果關(guān)系”等。在醫(yī)學(xué)領(lǐng)域同樣存在關(guān)聯(lián)現(xiàn)象，若某種疾病同時(shí)表現(xiàn)出若干種癥狀，則這幾種癥狀與該疾病之間存在著關(guān)聯(lián)性，且癥狀之間也呈現(xiàn)某種關(guān)聯(lián)。關(guān)聯(lián)規(guī)則分析可為疾病的鑒別診斷提供參考依據(jù)。重點(diǎn)講解一：關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則描述和分析了數(shù)據(jù)庫(kù)中一組對(duì)象之間重點(diǎn)講解一：關(guān)聯(lián)分析例子：有研究者利用關(guān)聯(lián)規(guī)則分析法對(duì)糖尿病數(shù)據(jù)庫(kù)進(jìn)行多維數(shù)據(jù)分析，以期望發(fā)現(xiàn)長(zhǎng)期血糖濃度過(guò)高與并發(fā)癥之間的關(guān)聯(lián)；還有研究者對(duì)37000例腎病患者的癥狀（包括臨床檢驗(yàn)和檢測(cè)）進(jìn)行了追蹤觀察，監(jiān)測(cè)尿蛋白水平、腎小球過(guò)濾率以及患者貧血狀況，結(jié)果發(fā)現(xiàn)以上三種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升。重點(diǎn)講解一：關(guān)聯(lián)分析例子：有研究者利用關(guān)聯(lián)規(guī)則分析法對(duì)糖尿病重點(diǎn)講解一：關(guān)聯(lián)分析例1：有研究者利用關(guān)聯(lián)規(guī)則分析法對(duì)糖尿病數(shù)據(jù)庫(kù)進(jìn)行多維數(shù)據(jù)分析，以期望發(fā)現(xiàn)長(zhǎng)期血糖濃度過(guò)高與并發(fā)癥之間的關(guān)聯(lián)；還有研究者對(duì)37000例腎病患者的癥狀（包括臨床檢驗(yàn)和檢測(cè)）進(jìn)行了追蹤觀察，監(jiān)測(cè)尿蛋白水平、腎小球過(guò)濾率以及患者貧血狀況，結(jié)果發(fā)現(xiàn)以上三種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升。重點(diǎn)講解一：關(guān)聯(lián)分析例1：有研究者利用關(guān)聯(lián)規(guī)則分析法對(duì)糖尿病重點(diǎn)講解一：關(guān)聯(lián)分析例2：醫(yī)療處方分析。分析患有某類疾病的病人的處方數(shù)據(jù)，找出處方數(shù)據(jù)中各項(xiàng)之間的關(guān)聯(lián)關(guān)系。醫(yī)生利用醫(yī)療領(lǐng)域的知識(shí)，來(lái)分析這些規(guī)則的可信程度。對(duì)于那些有價(jià)值的規(guī)則，可以放到規(guī)則庫(kù)中供自己或其他醫(yī)生治療患有同類疾病的病人。中醫(yī)在研究新方劑的時(shí)候做大量的臨床試驗(yàn)。方劑是由單味藥組成，在這些試驗(yàn)中結(jié)果中，可能就蘊(yùn)含著單味藥之間的某種關(guān)聯(lián)。重點(diǎn)講解一：關(guān)聯(lián)分析例2：醫(yī)療處方分析。重點(diǎn)講解一：關(guān)聯(lián)分析白術(shù)^橘皮炙^甘草^獲荃==>人參(Supp=42，Con=89.5%)，主治榮衛(wèi)氣虛、臟腑怯弱，心腹脹滿，腸鳴泄瀉，嘔哆吐逆，大宜服之。據(jù)病人患病史進(jìn)行關(guān)聯(lián)序列分析；如：腦梗塞==>高血壓病III期，即病人患疾病腦梗塞的前提下，接下來(lái)患疾病高血壓病III期的情況。病人病案中記載了患病的詳細(xì)信息，通過(guò)分析得出的模式，在治療患有前提條件中疾病的病人時(shí)，就要注意或直接檢查病人是否同時(shí)也患有后件中的疾病。醫(yī)生在治療過(guò)程中可以同時(shí)考慮疾病間的關(guān)聯(lián)，采取合理的治療方案。重點(diǎn)講解一：關(guān)聯(lián)分析白術(shù)^橘皮炙^甘草^獲荃==重點(diǎn)講解二：聚類分析聚類分析數(shù)據(jù)對(duì)象，而不考慮已知的類標(biāo)記。對(duì)象根據(jù)最大化類內(nèi)的相似性、最小化類間的相似性的原則進(jìn)行聚類或分組，使得每個(gè)組內(nèi)的對(duì)象具有很高的相似性。而與其它組中的對(duì)象差別很大。聚類分析方法適用于對(duì)孤立點(diǎn)的檢測(cè)及用于探討樣本間的內(nèi)部關(guān)系，從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià)。重點(diǎn)講解二：聚類分析聚類分析數(shù)據(jù)對(duì)象，而不考慮已知的類標(biāo)記。重點(diǎn)講解二：聚類分析例子：有研究者利用聚類方法分析流行病學(xué)因素對(duì)肺癌患者臨床醫(yī)學(xué)狀況的影響。首先從SEER的數(shù)據(jù)庫(kù)中選取21758例肺癌病例，每一例數(shù)據(jù)包含23個(gè)流行病學(xué)特征屬性和22個(gè)臨床醫(yī)學(xué)狀態(tài)特征屬性，繼而根據(jù)流行病學(xué)特征屬性的相似程度將病例數(shù)據(jù)劃分成20類，比較各類別之間的臨床醫(yī)學(xué)狀態(tài)特征屬性的差異，在此基礎(chǔ)上還可更進(jìn)一步分析各類流行病學(xué)因素對(duì)肺癌患者臨床醫(yī)學(xué)狀況的不同影響。重點(diǎn)講解二：聚類分析例子：有研究者利用聚類方法分析流行病學(xué)因重點(diǎn)講解二：聚類分析聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分為幾個(gè)組，同組內(nèi)的樣本具有較高的相似度，不同組的則相異。聚類分析方法適用于對(duì)孤立點(diǎn)的檢測(cè)及用于探討樣本間的內(nèi)部關(guān)系，從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià)。有研究者利用聚類方法分析流行病學(xué)因素對(duì)肺癌患者臨床醫(yī)學(xué)狀況的影響。首先從SEER的數(shù)據(jù)庫(kù)中選取21758例肺癌病例，每一例數(shù)據(jù)包含23個(gè)流行病學(xué)特征屬性和22個(gè)臨床臨床醫(yī)學(xué)狀態(tài)特征屬性，繼而根據(jù)流行病學(xué)特征屬性的相似程度將病例數(shù)據(jù)劃分成20類，比較各類別之間的臨床醫(yī)學(xué)狀態(tài)特征屬性的差異，在此基礎(chǔ)上還可更進(jìn)一步分析各類流行病學(xué)因素對(duì)肺癌患者臨床醫(yī)學(xué)狀況的不同影響。重點(diǎn)講解二：聚類分析聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃重點(diǎn)講解三：分類分類：利用恰當(dāng)?shù)乃惴?，?duì)訓(xùn)練集進(jìn)行類型區(qū)分規(guī)律的發(fā)現(xiàn)，并給出類型模型結(jié)果的過(guò)程。訓(xùn)練集：一組分類的、隨機(jī)選取數(shù)據(jù)庫(kù)記錄集合，是分類模型建立過(guò)程中的分析對(duì)象。相對(duì)于測(cè)試數(shù)據(jù)來(lái)說(shuō)訓(xùn)練集是與之無(wú)關(guān)的。測(cè)試數(shù)據(jù)對(duì)用訓(xùn)練數(shù)據(jù)訓(xùn)練得的模型（由訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)建模）進(jìn)行測(cè)試，若所測(cè)的數(shù)據(jù)在模型上的精準(zhǔn)度高，即超過(guò)某一標(biāo)準(zhǔn)，則認(rèn)為這個(gè)模型可用，可以用在其他分類上面。重點(diǎn)講解三：分類分類：利用恰當(dāng)?shù)乃惴?，?duì)訓(xùn)練集進(jìn)行類型區(qū)分規(guī)重點(diǎn)講解三：分類例1：病人收治效益評(píng)估。從住院期長(zhǎng)度和住院期間的醫(yī)療費(fèi)用兩項(xiàng)指標(biāo)入手，先進(jìn)行住院病人群體的分類挖掘，基于分類挖掘的結(jié)果進(jìn)行二次挖掘（特征總結(jié)挖掘）。將有價(jià)值的挖掘結(jié)果納入智能決策數(shù)據(jù)庫(kù)中，當(dāng)有病人申請(qǐng)住院時(shí)，管理者可以隨時(shí)檢索與當(dāng)前病人最相似的特征規(guī)則來(lái)判斷該病人未來(lái)的住院期長(zhǎng)度和住院期間的醫(yī)療費(fèi)。管理者：能夠?qū)⒏袃r(jià)值的資源應(yīng)用到最有效益的病人身上，使之創(chuàng)值最大化。病人：預(yù)先知曉自己未來(lái)的住院期長(zhǎng)短、費(fèi)用，以及最終的康復(fù)狀況，起到輔助咨詢的作用。重點(diǎn)講解三：分類例1：病人收治效益評(píng)估。重點(diǎn)講解三：分類例2：病人分類。根據(jù)病人的年齡、性別、住院天數(shù)、臨床診斷、病癥、手術(shù)、疾病嚴(yán)重程度及轉(zhuǎn)歸等因素，在已有病人數(shù)據(jù)的基礎(chǔ)上，利用數(shù)據(jù)挖掘中的決策樹(shù)以及聚類分析等技術(shù)，對(duì)患者進(jìn)行細(xì)分。醫(yī)生：清楚的了解患者的特征，才能更好地開(kāi)展診斷治療工作。醫(yī)院管理者：只有清楚了解了患者（從某種意義上可以把患者看成是醫(yī)院的客戶），才能為患者提供更好的服務(wù)，并為他們實(shí)施不同的管理治療方案和不同的收費(fèi)標(biāo)準(zhǔn)。重點(diǎn)講解三：分類例2：病人分類。第五章數(shù)據(jù)挖掘的概述本章內(nèi)容5.1數(shù)據(jù)挖掘的起源5.2數(shù)據(jù)挖掘的任務(wù)5.3醫(yī)學(xué)與數(shù)據(jù)挖掘第五章數(shù)據(jù)挖掘的概述本章內(nèi)容數(shù)據(jù)挖掘的起源網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)數(shù)據(jù)爆炸但知識(shí)貧乏支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化數(shù)據(jù)挖掘的起源網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)網(wǎng)絡(luò)時(shí)代面臨的信息問(wèn)題：信息過(guò)量，難以消化；信息真假難以辨識(shí)；信息安全難以保證；信息形式不一致，難以統(tǒng)一處理?！耙獙W(xué)會(huì)拋棄信息”

(60年代)“過(guò)去五年中我的總收入是多少？”計(jì)算機(jī)、磁帶和磁盤IBM提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(wèn)

決策支持

數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)大部分情況下，數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)數(shù)據(jù)挖掘和OLAP完全不同的工具，基于的技術(shù)也大相徑庭；OLAP基于用戶假設(shè)：whathappened〔查詢和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中都有什么〕whatnext〔OLAP更進(jìn)一步告訴你下一步會(huì)怎么樣〕whatif〔如果我采取這樣的措施又會(huì)怎么樣〕用戶首先建立一個(gè)假設(shè)，然后用OLAP檢索數(shù)據(jù)庫(kù)來(lái)驗(yàn)證這個(gè)假設(shè)是否正確。比如，一個(gè)分析師想找到什么原因?qū)е铝速J款拖欠，他可能先做一個(gè)初始的假定，認(rèn)為低收入的人信用度也低，然后用OLAP來(lái)驗(yàn)證他這個(gè)假設(shè)。如果這個(gè)假設(shè)沒(méi)有被證實(shí)，他可能去察看那些高負(fù)債的賬戶，如果還不行，他也許要把收入和負(fù)債一起考慮，一直進(jìn)行下去，直到找到他想要的結(jié)果或放棄。數(shù)據(jù)挖掘和OLAP完全不同的工具，基于的技術(shù)也大相徑庭；數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘本質(zhì)上是一個(gè)歸納的過(guò)程，不是用于驗(yàn)證某個(gè)假定的模式（模型）的正確性，而是在數(shù)據(jù)庫(kù)中自己尋找模型。比如：一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個(gè)問(wèn)題的因素，甚至還可能發(fā)現(xiàn)一些分析師從來(lái)沒(méi)有想過(guò)或試過(guò)的其他因素，比如年齡。數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘本質(zhì)上是一個(gè)歸納的過(guò)程，不是用于數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來(lái)的結(jié)論采取行動(dòng)之前，你也許要驗(yàn)證一下如果采取這樣的行動(dòng)會(huì)給公司帶來(lái)什么樣的影響，那么OLAP工具能回答你的這些問(wèn)題。在知識(shí)發(fā)現(xiàn)的早期階段，OLAP工具還有其他一些用途。可以幫你探索數(shù)據(jù)，找到哪些是對(duì)一個(gè)問(wèn)題比較重要的變量，發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù)，加快知識(shí)發(fā)現(xiàn)的過(guò)程。數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘主要的任務(wù)關(guān)聯(lián)分析（AssociationAnalysis）從一個(gè)項(xiàng)目集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則，該規(guī)則顯示了給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性－值條件元組。例如：關(guān)聯(lián)規(guī)則X=>Y所表達(dá)的含義是滿足X的數(shù)據(jù)庫(kù)元組很可能滿足Y。關(guān)聯(lián)分析在交易數(shù)據(jù)分析、支持定向市場(chǎng)、商品目錄設(shè)計(jì)和其他業(yè)務(wù)決策等方面有著廣泛的應(yīng)用。

分類與估值分類與估值（Classificationand時(shí)間序列分析時(shí)間序列分析（Time-Series

時(shí)間序列分析時(shí)間序列分析（Time-SeriesAnaly其它任務(wù)其它任務(wù)

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)倉(cāng)庫(kù)與挖掘第五章-數(shù)據(jù)挖掘概述課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)倉(cāng)庫(kù)與挖掘第五章-數(shù)據(jù)挖掘概述課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔