版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第五章數(shù)據(jù)挖掘的概述本章內(nèi)容5.1數(shù)據(jù)挖掘的起源5.2數(shù)據(jù)挖掘的任務(wù)5.3醫(yī)學(xué)與數(shù)據(jù)挖掘第五章數(shù)據(jù)挖掘的概述本章內(nèi)容數(shù)據(jù)挖掘的起源網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)數(shù)據(jù)爆炸但知識(shí)貧乏支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化數(shù)據(jù)挖掘的起源網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)網(wǎng)絡(luò)時(shí)代面臨的信息問(wèn)題:信息過(guò)量,難以消化;信息真假難以辨識(shí);信息安全難以保證;信息形式不一致,難以統(tǒng)一處理?!耙獙W(xué)會(huì)拋棄信息”
網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)網(wǎng)絡(luò)時(shí)代面臨的信息問(wèn)題:數(shù)據(jù)爆炸但知識(shí)貧乏數(shù)據(jù)庫(kù)的容量已達(dá)上萬(wàn)億水平(T)--1,000,000,000,000個(gè)字節(jié)全球信息量以驚人的速度急劇增長(zhǎng)--據(jù)估計(jì),每二十個(gè)月將增加一倍。許多組織機(jī)構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù)目前的數(shù)據(jù)庫(kù)系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識(shí),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示出強(qiáng)大的生命力。如何從一棵棵樹(shù)木了解整個(gè)森林?從數(shù)據(jù)礦山中找到蘊(yùn)藏的知識(shí)金塊?這是我們?cè)摽紤]的問(wèn)題!數(shù)據(jù)爆炸但知識(shí)貧乏數(shù)據(jù)庫(kù)的容量已達(dá)上萬(wàn)億水平(T)--1,0啤酒尿不濕案例著名的“啤酒尿布”案例:美國(guó)加州某個(gè)超級(jí)賣場(chǎng)通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn),下班后前來(lái)購(gòu)買嬰兒尿布的男顧客大都購(gòu)買啤酒。于是經(jīng)理當(dāng)機(jī)立斷,重新布置貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在二者之間放置佐酒食品,同時(shí)還把男士日常用品就近布置。這樣,上述幾種商品的銷量大增。啤酒尿不濕案例著名的“啤酒尿布”案例:美國(guó)加州某個(gè)超級(jí)賣場(chǎng)通支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)激發(fā)了數(shù)據(jù)挖掘的開(kāi)發(fā)、應(yīng)用和研究的興趣的四個(gè)主要技術(shù)理由:超大規(guī)模數(shù)據(jù)庫(kù)的出現(xiàn),例如商業(yè)數(shù)據(jù)倉(cāng)庫(kù)和計(jì)算機(jī)自動(dòng)收集的數(shù)據(jù)記錄;強(qiáng)大的多處理器計(jì)算機(jī)。例如更快和更大的計(jì)算能力和并行體系結(jié)構(gòu);海量數(shù)據(jù)搜索,對(duì)巨大量數(shù)據(jù)的快速訪問(wèn);數(shù)據(jù)挖掘算法。
支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)激發(fā)了數(shù)據(jù)挖掘的開(kāi)發(fā)、應(yīng)用和研究的興趣從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問(wèn)題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集
(60年代)“過(guò)去五年中我的總收入是多少?”計(jì)算機(jī)、磁帶和磁盤IBM提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(wèn)
(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(kù)(RDBMS),結(jié)構(gòu)化查詢語(yǔ)言(SQL)、Sybase、Informix、IBMOracle、Sybase、Informix、IBM、Microsoft在記錄級(jí)提供歷史性、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉(cāng)庫(kù);
決策支持
(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)Oracle、IBM、Microsoft在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘
(正在流行)“下個(gè)月波士頓的銷售會(huì)怎么樣?為什么?”高級(jí)算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫(kù)IBM、其他公司提供預(yù)測(cè)性的信息從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問(wèn)題支持技術(shù)產(chǎn)品廠家產(chǎn)數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程?!布夹g(shù)角度的定義〕數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證己知的規(guī)律性,并進(jìn)一步將其模型化的有效方法?!采虡I(yè)角度的定義〕數(shù)據(jù)挖掘相近的同義詞包括:數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。
數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘是從大量的、數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系DataMiningDatabas數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,涉及數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化、信息檢索和高性能計(jì)算等諸多領(lǐng)域。此外,還與神經(jīng)網(wǎng)絡(luò)、模式識(shí)別、空間數(shù)據(jù)分析、圖像處理、信號(hào)處理、概率論、圖論和歸納邏輯等等領(lǐng)域關(guān)系密切。近幾年,人們逐漸發(fā)現(xiàn)數(shù)據(jù)挖掘中有許多工作都是由統(tǒng)計(jì)方法來(lái)完成的。甚至有些人(尤其是統(tǒng)計(jì)學(xué)家)認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)的一個(gè)分支,當(dāng)然大多數(shù)人(包括絕大多數(shù)數(shù)據(jù)挖掘研究人員)并不這么認(rèn)為。統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘的目標(biāo)非常相似,而且數(shù)據(jù)挖掘中的許多算法也源于數(shù)理統(tǒng)計(jì),統(tǒng)計(jì)學(xué)對(duì)數(shù)據(jù)挖掘發(fā)展的貢獻(xiàn)功不可沒(méi)。數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,涉實(shí)施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯浚饕氖菫樯虡I(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤(rùn)。所有企業(yè)面臨的一個(gè)共同問(wèn)題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價(jià)值的信息卻很少,因此需要從大量的數(shù)據(jù)中經(jīng)過(guò)深層分析,獲得有利于商業(yè)運(yùn)作、提高競(jìng)爭(zhēng)力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也由此而得名。實(shí)施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯?,更主要的是為商業(yè)決策提數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;數(shù)據(jù)是海量的。數(shù)據(jù)挖掘出現(xiàn)的背景是“數(shù)據(jù)爆炸但知識(shí)貧乏”,它要處理的數(shù)據(jù)量已經(jīng)達(dá)到了“太”(萬(wàn)億)級(jí)以上,比傳統(tǒng)數(shù)據(jù)分析方法所處理的數(shù)據(jù)量超出幾個(gè)乃至十幾個(gè)數(shù)量級(jí)。對(duì)于如此大規(guī)模的數(shù)據(jù)量,傳統(tǒng)的數(shù)據(jù)分析方法可能根本不能處理,即使能夠處理,效率也是必須考慮的嚴(yán)重問(wèn)題。因此需要對(duì)原有的數(shù)據(jù)分析方法重新檢驗(yàn),加以改進(jìn)。
數(shù)據(jù)有噪聲的。傳統(tǒng)數(shù)據(jù)分析方法的數(shù)據(jù)源一般都是清潔好的、結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)挖掘則需要從不完全的、有噪聲的、模糊的數(shù)據(jù)中發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)數(shù)據(jù)可能是非結(jié)構(gòu)化的。數(shù)據(jù)挖掘不僅可以處理結(jié)構(gòu)化的數(shù)據(jù),而且可以處理半結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)。事實(shí)上,基于文本的數(shù)據(jù)挖掘甚至互聯(lián)網(wǎng)上的數(shù)據(jù)挖掘正是數(shù)據(jù)挖掘的研究方向之一。傳統(tǒng)的數(shù)據(jù)分析方法基于假設(shè)驅(qū)動(dòng)的:一般都是先給出一個(gè)假設(shè)然后通過(guò)數(shù)據(jù)驗(yàn)證。數(shù)據(jù)挖掘在一定意義上是基于發(fā)現(xiàn)驅(qū)動(dòng)的:模式都是通過(guò)大量的搜索工作從數(shù)據(jù)中自動(dòng)提取出來(lái)。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺(jué)發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺(jué)的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)可能是非結(jié)構(gòu)化的。數(shù)據(jù)挖掘不僅可以處理結(jié)構(gòu)化的數(shù)據(jù),而且數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中拿到數(shù)據(jù)挖掘庫(kù)或數(shù)據(jù)集市中。優(yōu)點(diǎn):數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)已經(jīng)清理過(guò),那很可能在做數(shù)據(jù)挖掘時(shí)就沒(méi)必要再清理一次了,而且所有的數(shù)據(jù)不一致的問(wèn)題都已經(jīng)被解決了。為了數(shù)據(jù)挖掘你也不必非得建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù),建立一個(gè)巨大的數(shù)據(jù)倉(cāng)庫(kù),把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問(wèn)題,然后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的時(shí)間花上百萬(wàn)的錢才能完成。只是為了數(shù)據(jù)挖掘,可以把一個(gè)或幾個(gè)事務(wù)數(shù)據(jù)庫(kù)導(dǎo)到一個(gè)只讀的數(shù)據(jù)庫(kù)中,就把它當(dāng)作數(shù)據(jù)集市,然后在它上面進(jìn)行數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)數(shù)據(jù)挖掘和OLAP完全不同的工具,基于的技術(shù)也大相徑庭;OLAP基于用戶假設(shè):whathappened〔查詢和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中都有什么〕whatnext〔OLAP更進(jìn)一步告訴你下一步會(huì)怎么樣〕whatif〔如果我采取這樣的措施又會(huì)怎么樣〕用戶首先建立一個(gè)假設(shè),然后用OLAP檢索數(shù)據(jù)庫(kù)來(lái)驗(yàn)證這個(gè)假設(shè)是否正確。比如,一個(gè)分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個(gè)初始的假定,認(rèn)為低收入的人信用度也低,然后用OLAP來(lái)驗(yàn)證他這個(gè)假設(shè)。如果這個(gè)假設(shè)沒(méi)有被證實(shí),他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入和負(fù)債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。數(shù)據(jù)挖掘和OLAP完全不同的工具,基于的技術(shù)也大相徑庭;數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘本質(zhì)上是一個(gè)歸納的過(guò)程,不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型。比如:一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個(gè)問(wèn)題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來(lái)沒(méi)有想過(guò)或試過(guò)的其他因素,比如年齡。數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘本質(zhì)上是一個(gè)歸納的過(guò)程,不是用于數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來(lái)的結(jié)論采取行動(dòng)之前,你也許要驗(yàn)證一下如果采取這樣的行動(dòng)會(huì)給公司帶來(lái)什么樣的影響,那么OLAP工具能回答你的這些問(wèn)題。在知識(shí)發(fā)現(xiàn)的早期階段,OLAP工具還有其他一些用途??梢詭湍闾剿鲾?shù)據(jù),找到哪些是對(duì)一個(gè)問(wèn)題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù),加快知識(shí)發(fā)現(xiàn)的過(guò)程。數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘主要的任務(wù)關(guān)聯(lián)分析(AssociationAnalysis)從一個(gè)項(xiàng)目集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,該規(guī)則顯示了給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性-值條件元組。例如:關(guān)聯(lián)規(guī)則X=>Y所表達(dá)的含義是滿足X的數(shù)據(jù)庫(kù)元組很可能滿足Y。關(guān)聯(lián)分析在交易數(shù)據(jù)分析、支持定向市場(chǎng)、商品目錄設(shè)計(jì)和其他業(yè)務(wù)決策等方面有著廣泛的應(yīng)用。
數(shù)據(jù)挖掘主要的任務(wù)關(guān)聯(lián)分析(AssociationAnal聚類分析聚類分析(ClusteringAnalysis)聚類分析又稱為“同質(zhì)分組”或者“無(wú)監(jiān)督的分類”,指把一組數(shù)據(jù)分成不同的“簇”,每簇中的數(shù)據(jù)相似而不同簇間的數(shù)據(jù)則距離較遠(yuǎn)。相似性可以由用戶或者專家定義的距離函數(shù)加以度量。好的聚類方法應(yīng)保證不同類間數(shù)據(jù)的相似性盡可能地小,而類內(nèi)數(shù)據(jù)的相似性盡可能地大。
聚類分析聚類分析(ClusteringAnalysis)分類與估值分類與估值(ClassificationandEstimation)分類指通過(guò)分析一個(gè)類別已知的數(shù)據(jù)集的特征來(lái)建立一組模型,該模型可用以預(yù)測(cè)類別未知的數(shù)據(jù)項(xiàng)的類別。該分類模型可以表現(xiàn)為多種形式:分類規(guī)則(IF-THEN),決策樹(shù)或者數(shù)學(xué)公式,乃至神經(jīng)網(wǎng)絡(luò)。估值與分類類似,只不過(guò)它要預(yù)測(cè)的不是類別,而是一個(gè)連續(xù)的數(shù)值。
分類與估值分類與估值(Classificationand時(shí)間序列分析時(shí)間序列分析(Time-Series
Analysis)時(shí)間序列分析即預(yù)測(cè)(Prediction),是指通過(guò)對(duì)大量時(shí)間序列數(shù)據(jù)的分析找到特定的規(guī)則和感興趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趨勢(shì)和偏差。預(yù)測(cè)的目的是對(duì)未來(lái)的情況作出估計(jì)。
時(shí)間序列分析時(shí)間序列分析(Time-SeriesAnaly其它任務(wù)其它任務(wù)
包括:偏差分析(DeviationAnalysis)、孤立點(diǎn)分析(OutlierAnalysis)等。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,可能還會(huì)繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能。
其它任務(wù)其它任務(wù)醫(yī)學(xué)與數(shù)據(jù)挖掘醫(yī)學(xué)數(shù)據(jù)挖掘的主要研究對(duì)象是臨床醫(yī)療信息,反映了醫(yī)學(xué)信息的獨(dú)特之處,醫(yī)學(xué)數(shù)據(jù)挖掘的特殊性:模式的多態(tài)性:醫(yī)學(xué)信息包括純數(shù)據(jù)、信號(hào)、圖像、文字以及語(yǔ)音和視頻信息。模式:就是對(duì)客觀事物的一種抽象描述,是整個(gè)數(shù)據(jù)集的全局性描述。相當(dāng)于某一規(guī)則,強(qiáng)調(diào)形式上的規(guī)律,可用于全局的規(guī)則,模型即可理解為造型實(shí)物有實(shí)體的造型。信息不完整性:病例和病案的有限性使醫(yī)學(xué)數(shù)據(jù)庫(kù)不可能對(duì)任何一種疾病信息都能全面的反映,疾病信息所體現(xiàn)出的客觀不完整性和描述,疾病的主觀不確切性形成了醫(yī)學(xué)信息的不完整性。數(shù)據(jù)的時(shí)序性:病人的就診、病人的發(fā)病過(guò)程在時(shí)間上有一個(gè)進(jìn)度,醫(yī)學(xué)檢測(cè)的波型、圖像都是時(shí)間函數(shù),這些都具有一定的時(shí)序性。數(shù)據(jù)冗余性:醫(yī)學(xué)數(shù)據(jù)庫(kù)是以龐大的數(shù)據(jù)資源,有大量相同的或部分相同的信息存儲(chǔ)在其中。醫(yī)學(xué)與數(shù)據(jù)挖掘醫(yī)學(xué)數(shù)據(jù)挖掘的主要研究對(duì)象是臨床醫(yī)療信息,反映醫(yī)學(xué)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘在醫(yī)藥領(lǐng)域的應(yīng)用越來(lái)越廣而不僅僅在商業(yè)領(lǐng)域中。在生物醫(yī)學(xué)工程:在DNA分析中的應(yīng)用:實(shí)現(xiàn)基因識(shí)別和基因表達(dá)的研究。在分子結(jié)構(gòu)分析中的應(yīng)用:海量的分析結(jié)構(gòu)信息,通過(guò)分類、聚類、頻繁模式發(fā)現(xiàn)等技術(shù)完成數(shù)據(jù)分析工作。在生物信息可視化方面的應(yīng)用:對(duì)原始的結(jié)構(gòu)數(shù)據(jù)進(jìn)行深入分析,以圖、樹(shù)、方體和鏈的形式重新展現(xiàn)。在患者生理參數(shù)分析中的應(yīng)用:從先驗(yàn)信息的海量數(shù)據(jù)中發(fā)現(xiàn)隱含的有意義的知識(shí)來(lái)預(yù)測(cè)未來(lái)趨勢(shì),做出前瞻性的決策。醫(yī)學(xué)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘在醫(yī)藥領(lǐng)域的應(yīng)用越來(lái)越廣而不僅僅在商業(yè)中藥領(lǐng)域在中藥新藥研發(fā)中的應(yīng)用。在中藥要譜分析方面。在中藥數(shù)據(jù)預(yù)處理方面。在中藥文獻(xiàn)研究中的應(yīng)用。中藥領(lǐng)域在中藥新藥研發(fā)中的應(yīng)用。重點(diǎn)講解一:關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則描述和分析了數(shù)據(jù)庫(kù)中一組對(duì)象之間某種共生現(xiàn)象,反映了事物之間存在的關(guān)聯(lián)性,若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。如兩者“同時(shí)發(fā)生”或“兩者存在因果關(guān)系”等。在醫(yī)學(xué)領(lǐng)域同樣存在關(guān)聯(lián)現(xiàn)象,若某種疾病同時(shí)表現(xiàn)出若干種癥狀,則這幾種癥狀與該疾病之間存在著關(guān)聯(lián)性,且癥狀之間也呈現(xiàn)某種關(guān)聯(lián)。關(guān)聯(lián)規(guī)則分析可為疾病的鑒別診斷提供參考依據(jù)。重點(diǎn)講解一:關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則描述和分析了數(shù)據(jù)庫(kù)中一組對(duì)象之間重點(diǎn)講解一:關(guān)聯(lián)分析例子:有研究者利用關(guān)聯(lián)規(guī)則分析法對(duì)糖尿病數(shù)據(jù)庫(kù)進(jìn)行多維數(shù)據(jù)分析,以期望發(fā)現(xiàn)長(zhǎng)期血糖濃度過(guò)高與并發(fā)癥之間的關(guān)聯(lián);還有研究者對(duì)37000例腎病患者的癥狀(包括臨床檢驗(yàn)和檢測(cè))進(jìn)行了追蹤觀察,監(jiān)測(cè)尿蛋白水平、腎小球過(guò)濾率以及患者貧血狀況,結(jié)果發(fā)現(xiàn)以上三種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升。重點(diǎn)講解一:關(guān)聯(lián)分析例子:有研究者利用關(guān)聯(lián)規(guī)則分析法對(duì)糖尿病重點(diǎn)講解一:關(guān)聯(lián)分析例1:有研究者利用關(guān)聯(lián)規(guī)則分析法對(duì)糖尿病數(shù)據(jù)庫(kù)進(jìn)行多維數(shù)據(jù)分析,以期望發(fā)現(xiàn)長(zhǎng)期血糖濃度過(guò)高與并發(fā)癥之間的關(guān)聯(lián);還有研究者對(duì)37000例腎病患者的癥狀(包括臨床檢驗(yàn)和檢測(cè))進(jìn)行了追蹤觀察,監(jiān)測(cè)尿蛋白水平、腎小球過(guò)濾率以及患者貧血狀況,結(jié)果發(fā)現(xiàn)以上三種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升。重點(diǎn)講解一:關(guān)聯(lián)分析例1:有研究者利用關(guān)聯(lián)規(guī)則分析法對(duì)糖尿病重點(diǎn)講解一:關(guān)聯(lián)分析例2:醫(yī)療處方分析。分析患有某類疾病的病人的處方數(shù)據(jù),找出處方數(shù)據(jù)中各項(xiàng)之間的關(guān)聯(lián)關(guān)系。醫(yī)生利用醫(yī)療領(lǐng)域的知識(shí),來(lái)分析這些規(guī)則的可信程度。對(duì)于那些有價(jià)值的規(guī)則,可以放到規(guī)則庫(kù)中供自己或其他醫(yī)生治療患有同類疾病的病人。中醫(yī)在研究新方劑的時(shí)候做大量的臨床試驗(yàn)。方劑是由單味藥組成,在這些試驗(yàn)中結(jié)果中,可能就蘊(yùn)含著單味藥之間的某種關(guān)聯(lián)。重點(diǎn)講解一:關(guān)聯(lián)分析例2:醫(yī)療處方分析。重點(diǎn)講解一:關(guān)聯(lián)分析白術(shù)^橘皮炙^甘草^獲荃==>人參(Supp=42,Con=89.5%),主治榮衛(wèi)氣虛、臟腑怯弱,心腹脹滿,腸鳴泄瀉,嘔哆吐逆,大宜服之。據(jù)病人患病史進(jìn)行關(guān)聯(lián)序列分析;如:腦梗塞==>高血壓病III期,即病人患疾病腦梗塞的前提下,接下來(lái)患疾病高血壓病III期的情況。病人病案中記載了患病的詳細(xì)信息,通過(guò)分析得出的模式,在治療患有前提條件中疾病的病人時(shí),就要注意或直接檢查病人是否同時(shí)也患有后件中的疾病。醫(yī)生在治療過(guò)程中可以同時(shí)考慮疾病間的關(guān)聯(lián),采取合理的治療方案。重點(diǎn)講解一:關(guān)聯(lián)分析白術(shù)^橘皮炙^甘草^獲荃==重點(diǎn)講解二:聚類分析聚類分析數(shù)據(jù)對(duì)象,而不考慮已知的類標(biāo)記。對(duì)象根據(jù)最大化類內(nèi)的相似性、最小化類間的相似性的原則進(jìn)行聚類或分組,使得每個(gè)組內(nèi)的對(duì)象具有很高的相似性。而與其它組中的對(duì)象差別很大。聚類分析方法適用于對(duì)孤立點(diǎn)的檢測(cè)及用于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià)。重點(diǎn)講解二:聚類分析聚類分析數(shù)據(jù)對(duì)象,而不考慮已知的類標(biāo)記。重點(diǎn)講解二:聚類分析例子:有研究者利用聚類方法分析流行病學(xué)因素對(duì)肺癌患者臨床醫(yī)學(xué)狀況的影響。首先從SEER的數(shù)據(jù)庫(kù)中選取21758例肺癌病例,每一例數(shù)據(jù)包含23個(gè)流行病學(xué)特征屬性和22個(gè)臨床醫(yī)學(xué)狀態(tài)特征屬性,繼而根據(jù)流行病學(xué)特征屬性的相似程度將病例數(shù)據(jù)劃分成20類,比較各類別之間的臨床醫(yī)學(xué)狀態(tài)特征屬性的差異,在此基礎(chǔ)上還可更進(jìn)一步分析各類流行病學(xué)因素對(duì)肺癌患者臨床醫(yī)學(xué)狀況的不同影響。重點(diǎn)講解二:聚類分析例子:有研究者利用聚類方法分析流行病學(xué)因重點(diǎn)講解二:聚類分析聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分為幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異。聚類分析方法適用于對(duì)孤立點(diǎn)的檢測(cè)及用于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià)。有研究者利用聚類方法分析流行病學(xué)因素對(duì)肺癌患者臨床醫(yī)學(xué)狀況的影響。首先從SEER的數(shù)據(jù)庫(kù)中選取21758例肺癌病例,每一例數(shù)據(jù)包含23個(gè)流行病學(xué)特征屬性和22個(gè)臨床臨床醫(yī)學(xué)狀態(tài)特征屬性,繼而根據(jù)流行病學(xué)特征屬性的相似程度將病例數(shù)據(jù)劃分成20類,比較各類別之間的臨床醫(yī)學(xué)狀態(tài)特征屬性的差異,在此基礎(chǔ)上還可更進(jìn)一步分析各類流行病學(xué)因素對(duì)肺癌患者臨床醫(yī)學(xué)狀況的不同影響。重點(diǎn)講解二:聚類分析聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃重點(diǎn)講解三:分類分類:利用恰當(dāng)?shù)乃惴?,?duì)訓(xùn)練集進(jìn)行類型區(qū)分規(guī)律的發(fā)現(xiàn),并給出類型模型結(jié)果的過(guò)程。訓(xùn)練集:一組分類的、隨機(jī)選取數(shù)據(jù)庫(kù)記錄集合,是分類模型建立過(guò)程中的分析對(duì)象。相對(duì)于測(cè)試數(shù)據(jù)來(lái)說(shuō)訓(xùn)練集是與之無(wú)關(guān)的。測(cè)試數(shù)據(jù)對(duì)用訓(xùn)練數(shù)據(jù)訓(xùn)練得的模型(由訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)建模)進(jìn)行測(cè)試,若所測(cè)的數(shù)據(jù)在模型上的精準(zhǔn)度高,即超過(guò)某一標(biāo)準(zhǔn),則認(rèn)為這個(gè)模型可用,可以用在其他分類上面。重點(diǎn)講解三:分類分類:利用恰當(dāng)?shù)乃惴?,?duì)訓(xùn)練集進(jìn)行類型區(qū)分規(guī)重點(diǎn)講解三:分類例1:病人收治效益評(píng)估。從住院期長(zhǎng)度和住院期間的醫(yī)療費(fèi)用兩項(xiàng)指標(biāo)入手,先進(jìn)行住院病人群體的分類挖掘,基于分類挖掘的結(jié)果進(jìn)行二次挖掘(特征總結(jié)挖掘)。將有價(jià)值的挖掘結(jié)果納入智能決策數(shù)據(jù)庫(kù)中,當(dāng)有病人申請(qǐng)住院時(shí),管理者可以隨時(shí)檢索與當(dāng)前病人最相似的特征規(guī)則來(lái)判斷該病人未來(lái)的住院期長(zhǎng)度和住院期間的醫(yī)療費(fèi)。管理者:能夠?qū)⒏袃r(jià)值的資源應(yīng)用到最有效益的病人身上,使之創(chuàng)值最大化。病人:預(yù)先知曉自己未來(lái)的住院期長(zhǎng)短、費(fèi)用,以及最終的康復(fù)狀況,起到輔助咨詢的作用。重點(diǎn)講解三:分類例1:病人收治效益評(píng)估。重點(diǎn)講解三:分類例2:病人分類。根據(jù)病人的年齡、性別、住院天數(shù)、臨床診斷、病癥、手術(shù)、疾病嚴(yán)重程度及轉(zhuǎn)歸等因素,在已有病人數(shù)據(jù)的基礎(chǔ)上,利用數(shù)據(jù)挖掘中的決策樹(shù)以及聚類分析等技術(shù),對(duì)患者進(jìn)行細(xì)分。醫(yī)生:清楚的了解患者的特征,才能更好地開(kāi)展診斷治療工作。醫(yī)院管理者:只有清楚了解了患者(從某種意義上可以把患者看成是醫(yī)院的客戶),才能為患者提供更好的服務(wù),并為他們實(shí)施不同的管理治療方案和不同的收費(fèi)標(biāo)準(zhǔn)。重點(diǎn)講解三:分類例2:病人分類。第五章數(shù)據(jù)挖掘的概述本章內(nèi)容5.1數(shù)據(jù)挖掘的起源5.2數(shù)據(jù)挖掘的任務(wù)5.3醫(yī)學(xué)與數(shù)據(jù)挖掘第五章數(shù)據(jù)挖掘的概述本章內(nèi)容數(shù)據(jù)挖掘的起源網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)數(shù)據(jù)爆炸但知識(shí)貧乏支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化數(shù)據(jù)挖掘的起源網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)網(wǎng)絡(luò)時(shí)代面臨的信息問(wèn)題:信息過(guò)量,難以消化;信息真假難以辨識(shí);信息安全難以保證;信息形式不一致,難以統(tǒng)一處理?!耙獙W(xué)會(huì)拋棄信息”
網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)網(wǎng)絡(luò)時(shí)代面臨的信息問(wèn)題:數(shù)據(jù)爆炸但知識(shí)貧乏數(shù)據(jù)庫(kù)的容量已達(dá)上萬(wàn)億水平(T)--1,000,000,000,000個(gè)字節(jié)全球信息量以驚人的速度急劇增長(zhǎng)--據(jù)估計(jì),每二十個(gè)月將增加一倍。許多組織機(jī)構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù)目前的數(shù)據(jù)庫(kù)系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識(shí),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示出強(qiáng)大的生命力。如何從一棵棵樹(shù)木了解整個(gè)森林?從數(shù)據(jù)礦山中找到蘊(yùn)藏的知識(shí)金塊?這是我們?cè)摽紤]的問(wèn)題!數(shù)據(jù)爆炸但知識(shí)貧乏數(shù)據(jù)庫(kù)的容量已達(dá)上萬(wàn)億水平(T)--1,0啤酒尿不濕案例著名的“啤酒尿布”案例:美國(guó)加州某個(gè)超級(jí)賣場(chǎng)通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn),下班后前來(lái)購(gòu)買嬰兒尿布的男顧客大都購(gòu)買啤酒。于是經(jīng)理當(dāng)機(jī)立斷,重新布置貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在二者之間放置佐酒食品,同時(shí)還把男士日常用品就近布置。這樣,上述幾種商品的銷量大增。啤酒尿不濕案例著名的“啤酒尿布”案例:美國(guó)加州某個(gè)超級(jí)賣場(chǎng)通支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)激發(fā)了數(shù)據(jù)挖掘的開(kāi)發(fā)、應(yīng)用和研究的興趣的四個(gè)主要技術(shù)理由:超大規(guī)模數(shù)據(jù)庫(kù)的出現(xiàn),例如商業(yè)數(shù)據(jù)倉(cāng)庫(kù)和計(jì)算機(jī)自動(dòng)收集的數(shù)據(jù)記錄;強(qiáng)大的多處理器計(jì)算機(jī)。例如更快和更大的計(jì)算能力和并行體系結(jié)構(gòu);海量數(shù)據(jù)搜索,對(duì)巨大量數(shù)據(jù)的快速訪問(wèn);數(shù)據(jù)挖掘算法。
支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)激發(fā)了數(shù)據(jù)挖掘的開(kāi)發(fā)、應(yīng)用和研究的興趣從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問(wèn)題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集
(60年代)“過(guò)去五年中我的總收入是多少?”計(jì)算機(jī)、磁帶和磁盤IBM提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(wèn)
(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(kù)(RDBMS),結(jié)構(gòu)化查詢語(yǔ)言(SQL)、Sybase、Informix、IBMOracle、Sybase、Informix、IBM、Microsoft在記錄級(jí)提供歷史性、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉(cāng)庫(kù);
決策支持
(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)Oracle、IBM、Microsoft在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘
(正在流行)“下個(gè)月波士頓的銷售會(huì)怎么樣?為什么?”高級(jí)算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫(kù)IBM、其他公司提供預(yù)測(cè)性的信息從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問(wèn)題支持技術(shù)產(chǎn)品廠家產(chǎn)數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程?!布夹g(shù)角度的定義〕數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證己知的規(guī)律性,并進(jìn)一步將其模型化的有效方法?!采虡I(yè)角度的定義〕數(shù)據(jù)挖掘相近的同義詞包括:數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。
數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘是從大量的、數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系DataMiningDatabas數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,涉及數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化、信息檢索和高性能計(jì)算等諸多領(lǐng)域。此外,還與神經(jīng)網(wǎng)絡(luò)、模式識(shí)別、空間數(shù)據(jù)分析、圖像處理、信號(hào)處理、概率論、圖論和歸納邏輯等等領(lǐng)域關(guān)系密切。近幾年,人們逐漸發(fā)現(xiàn)數(shù)據(jù)挖掘中有許多工作都是由統(tǒng)計(jì)方法來(lái)完成的。甚至有些人(尤其是統(tǒng)計(jì)學(xué)家)認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)的一個(gè)分支,當(dāng)然大多數(shù)人(包括絕大多數(shù)數(shù)據(jù)挖掘研究人員)并不這么認(rèn)為。統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘的目標(biāo)非常相似,而且數(shù)據(jù)挖掘中的許多算法也源于數(shù)理統(tǒng)計(jì),統(tǒng)計(jì)學(xué)對(duì)數(shù)據(jù)挖掘發(fā)展的貢獻(xiàn)功不可沒(méi)。數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,涉實(shí)施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯浚饕氖菫樯虡I(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤(rùn)。所有企業(yè)面臨的一個(gè)共同問(wèn)題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價(jià)值的信息卻很少,因此需要從大量的數(shù)據(jù)中經(jīng)過(guò)深層分析,獲得有利于商業(yè)運(yùn)作、提高競(jìng)爭(zhēng)力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也由此而得名。實(shí)施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯?,更主要的是為商業(yè)決策提數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;數(shù)據(jù)是海量的。數(shù)據(jù)挖掘出現(xiàn)的背景是“數(shù)據(jù)爆炸但知識(shí)貧乏”,它要處理的數(shù)據(jù)量已經(jīng)達(dá)到了“太”(萬(wàn)億)級(jí)以上,比傳統(tǒng)數(shù)據(jù)分析方法所處理的數(shù)據(jù)量超出幾個(gè)乃至十幾個(gè)數(shù)量級(jí)。對(duì)于如此大規(guī)模的數(shù)據(jù)量,傳統(tǒng)的數(shù)據(jù)分析方法可能根本不能處理,即使能夠處理,效率也是必須考慮的嚴(yán)重問(wèn)題。因此需要對(duì)原有的數(shù)據(jù)分析方法重新檢驗(yàn),加以改進(jìn)。
數(shù)據(jù)有噪聲的。傳統(tǒng)數(shù)據(jù)分析方法的數(shù)據(jù)源一般都是清潔好的、結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)挖掘則需要從不完全的、有噪聲的、模糊的數(shù)據(jù)中發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)數(shù)據(jù)可能是非結(jié)構(gòu)化的。數(shù)據(jù)挖掘不僅可以處理結(jié)構(gòu)化的數(shù)據(jù),而且可以處理半結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)。事實(shí)上,基于文本的數(shù)據(jù)挖掘甚至互聯(lián)網(wǎng)上的數(shù)據(jù)挖掘正是數(shù)據(jù)挖掘的研究方向之一。傳統(tǒng)的數(shù)據(jù)分析方法基于假設(shè)驅(qū)動(dòng)的:一般都是先給出一個(gè)假設(shè)然后通過(guò)數(shù)據(jù)驗(yàn)證。數(shù)據(jù)挖掘在一定意義上是基于發(fā)現(xiàn)驅(qū)動(dòng)的:模式都是通過(guò)大量的搜索工作從數(shù)據(jù)中自動(dòng)提取出來(lái)。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺(jué)發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺(jué)的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)可能是非結(jié)構(gòu)化的。數(shù)據(jù)挖掘不僅可以處理結(jié)構(gòu)化的數(shù)據(jù),而且數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中拿到數(shù)據(jù)挖掘庫(kù)或數(shù)據(jù)集市中。優(yōu)點(diǎn):數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)已經(jīng)清理過(guò),那很可能在做數(shù)據(jù)挖掘時(shí)就沒(méi)必要再清理一次了,而且所有的數(shù)據(jù)不一致的問(wèn)題都已經(jīng)被解決了。為了數(shù)據(jù)挖掘你也不必非得建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù),建立一個(gè)巨大的數(shù)據(jù)倉(cāng)庫(kù),把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問(wèn)題,然后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的時(shí)間花上百萬(wàn)的錢才能完成。只是為了數(shù)據(jù)挖掘,可以把一個(gè)或幾個(gè)事務(wù)數(shù)據(jù)庫(kù)導(dǎo)到一個(gè)只讀的數(shù)據(jù)庫(kù)中,就把它當(dāng)作數(shù)據(jù)集市,然后在它上面進(jìn)行數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)數(shù)據(jù)挖掘和OLAP完全不同的工具,基于的技術(shù)也大相徑庭;OLAP基于用戶假設(shè):whathappened〔查詢和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中都有什么〕whatnext〔OLAP更進(jìn)一步告訴你下一步會(huì)怎么樣〕whatif〔如果我采取這樣的措施又會(huì)怎么樣〕用戶首先建立一個(gè)假設(shè),然后用OLAP檢索數(shù)據(jù)庫(kù)來(lái)驗(yàn)證這個(gè)假設(shè)是否正確。比如,一個(gè)分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個(gè)初始的假定,認(rèn)為低收入的人信用度也低,然后用OLAP來(lái)驗(yàn)證他這個(gè)假設(shè)。如果這個(gè)假設(shè)沒(méi)有被證實(shí),他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入和負(fù)債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。數(shù)據(jù)挖掘和OLAP完全不同的工具,基于的技術(shù)也大相徑庭;數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘本質(zhì)上是一個(gè)歸納的過(guò)程,不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型。比如:一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個(gè)問(wèn)題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來(lái)沒(méi)有想過(guò)或試過(guò)的其他因素,比如年齡。數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘本質(zhì)上是一個(gè)歸納的過(guò)程,不是用于數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來(lái)的結(jié)論采取行動(dòng)之前,你也許要驗(yàn)證一下如果采取這樣的行動(dòng)會(huì)給公司帶來(lái)什么樣的影響,那么OLAP工具能回答你的這些問(wèn)題。在知識(shí)發(fā)現(xiàn)的早期階段,OLAP工具還有其他一些用途。可以幫你探索數(shù)據(jù),找到哪些是對(duì)一個(gè)問(wèn)題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù),加快知識(shí)發(fā)現(xiàn)的過(guò)程。數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘主要的任務(wù)關(guān)聯(lián)分析(AssociationAnalysis)從一個(gè)項(xiàng)目集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,該規(guī)則顯示了給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性-值條件元組。例如:關(guān)聯(lián)規(guī)則X=>Y所表達(dá)的含義是滿足X的數(shù)據(jù)庫(kù)元組很可能滿足Y。關(guān)聯(lián)分析在交易數(shù)據(jù)分析、支持定向市場(chǎng)、商品目錄設(shè)計(jì)和其他業(yè)務(wù)決策等方面有著廣泛的應(yīng)用。
數(shù)據(jù)挖掘主要的任務(wù)關(guān)聯(lián)分析(AssociationAnal聚類分析聚類分析(ClusteringAnalysis)聚類分析又稱為“同質(zhì)分組”或者“無(wú)監(jiān)督的分類”,指把一組數(shù)據(jù)分成不同的“簇”,每簇中的數(shù)據(jù)相似而不同簇間的數(shù)據(jù)則距離較遠(yuǎn)。相似性可以由用戶或者專家定義的距離函數(shù)加以度量。好的聚類方法應(yīng)保證不同類間數(shù)據(jù)的相似性盡可能地小,而類內(nèi)數(shù)據(jù)的相似性盡可能地大。
聚類分析聚類分析(ClusteringAnalysis)分類與估值分類與估值(ClassificationandEstimation)分類指通過(guò)分析一個(gè)類別已知的數(shù)據(jù)集的特征來(lái)建立一組模型,該模型可用以預(yù)測(cè)類別未知的數(shù)據(jù)項(xiàng)的類別。該分類模型可以表現(xiàn)為多種形式:分類規(guī)則(IF-THEN),決策樹(shù)或者數(shù)學(xué)公式,乃至神經(jīng)網(wǎng)絡(luò)。估值與分類類似,只不過(guò)它要預(yù)測(cè)的不是類別,而是一個(gè)連續(xù)的數(shù)值。
分類與估值分類與估值(Classificationand時(shí)間序列分析時(shí)間序列分析(Time-Series
Analysis)時(shí)間序列分析即預(yù)測(cè)(Prediction),是指通過(guò)對(duì)大量時(shí)間序列數(shù)據(jù)的分析找到特定的規(guī)則和感興趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趨勢(shì)和偏差。預(yù)測(cè)的目的是對(duì)未來(lái)的情況作出估計(jì)。
時(shí)間序列分析時(shí)間序列分析(Time-SeriesAnaly其它任務(wù)其它任務(wù)
包括:偏差分析(DeviationAnalysis)、孤立點(diǎn)分析(OutlierAnalysis)等。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,可能還會(huì)繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能。
其它任務(wù)其它任務(wù)醫(yī)學(xué)與數(shù)據(jù)挖掘醫(yī)學(xué)數(shù)據(jù)挖掘的主要研究對(duì)象是臨床醫(yī)療信息,反映了醫(yī)學(xué)信息的獨(dú)特之處,醫(yī)學(xué)數(shù)據(jù)挖掘的特殊性:模式的多態(tài)性:醫(yī)學(xué)信息包括純數(shù)據(jù)、信號(hào)、圖像、文字以及語(yǔ)音和視頻信息。模式:就是對(duì)客觀事物的一種抽象描述,是整個(gè)數(shù)據(jù)集的全局性描述。相當(dāng)于某一規(guī)則,強(qiáng)調(diào)形式上的規(guī)律,可用于全局的規(guī)則,模型即可理解為造型實(shí)物有實(shí)體的造型。信息不完整性:病例和病案的有限性使醫(yī)學(xué)數(shù)據(jù)庫(kù)不可能對(duì)任何一種疾病信息都能全面的反映,疾病信息所體現(xiàn)出的客觀不完整性和描述,疾病的主觀不確切性形成了醫(yī)學(xué)信息的不完整性。數(shù)據(jù)的時(shí)序性:病人的就診、病人的發(fā)病過(guò)程在時(shí)間上有一個(gè)進(jìn)度,醫(yī)學(xué)檢測(cè)的波型、圖像都是時(shí)間函數(shù),這些都具有一定的時(shí)序性。數(shù)據(jù)冗余性:醫(yī)學(xué)數(shù)據(jù)庫(kù)是以龐大的數(shù)據(jù)資源,有大量相同的或部分相同的信息存儲(chǔ)在其中。醫(yī)學(xué)與數(shù)據(jù)挖掘醫(yī)學(xué)數(shù)據(jù)挖掘的主要研究對(duì)象是臨床醫(yī)療信息,反映醫(yī)學(xué)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘在醫(yī)藥領(lǐng)域的應(yīng)用越來(lái)越廣而不僅僅在商業(yè)領(lǐng)域中。在生物醫(yī)學(xué)工程:在DNA分析中的應(yīng)用:實(shí)現(xiàn)基因識(shí)別和基因表達(dá)的研究。在分子結(jié)構(gòu)分析中的應(yīng)用:海量的分析結(jié)構(gòu)信息,通過(guò)分類、聚類、頻繁模式發(fā)現(xiàn)等技術(shù)完成數(shù)據(jù)分析工作。在生物信息可視化方面的應(yīng)用:對(duì)原始的結(jié)構(gòu)數(shù)據(jù)進(jìn)行深入分析,以圖、樹(shù)、方體和鏈的形式重新展現(xiàn)。在患者生理參數(shù)分析中的應(yīng)用:從先驗(yàn)信息的海量數(shù)據(jù)中發(fā)現(xiàn)隱含的有意義的知識(shí)來(lái)預(yù)測(cè)未來(lái)趨勢(shì),做出前瞻性的決策。醫(yī)學(xué)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘在醫(yī)藥領(lǐng)域的應(yīng)用越來(lái)越廣而不僅僅在商業(yè)中藥領(lǐng)域在中藥新藥研發(fā)中的應(yīng)用。在中藥要譜分析方面。在中藥數(shù)據(jù)預(yù)處理方面。在中藥文獻(xiàn)研究中的應(yīng)用。中藥領(lǐng)域在中藥新藥研發(fā)中的應(yīng)用。重點(diǎn)講解一:關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則描述和分析了數(shù)據(jù)庫(kù)中一組對(duì)象之間某種共生現(xiàn)象,反映了事物之間存在的關(guān)聯(lián)性,若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。如兩者“同時(shí)發(fā)生”或“兩者存在因果關(guān)系”等。在醫(yī)學(xué)領(lǐng)域同樣存在關(guān)聯(lián)現(xiàn)象,若某種疾病同時(shí)表現(xiàn)出若干種癥狀,則這幾種癥狀與該疾病之間存在著關(guān)聯(lián)性,且癥狀之間也呈現(xiàn)某種關(guān)聯(lián)。關(guān)聯(lián)規(guī)則分析可為疾病的鑒別診斷提供參考依據(jù)。重點(diǎn)講解一:關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則描述和分析了數(shù)據(jù)庫(kù)中一組對(duì)象之間重點(diǎn)講解一:關(guān)聯(lián)分析例子:有研究者利用關(guān)聯(lián)規(guī)則分析法對(duì)糖尿病數(shù)據(jù)庫(kù)進(jìn)行多維數(shù)據(jù)分析,以期望發(fā)現(xiàn)長(zhǎng)期血糖濃度過(guò)高與并發(fā)癥之間的關(guān)聯(lián);還有研究者對(duì)37000例腎病患者的癥狀(包括臨床檢驗(yàn)和檢測(cè))進(jìn)行了追蹤觀察,監(jiān)測(cè)尿蛋白水平、腎小球過(guò)濾率以及患者貧血狀況,結(jié)果發(fā)現(xiàn)以上三種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升。重點(diǎn)講解一:關(guān)聯(lián)分析例子:有研究者利用關(guān)聯(lián)規(guī)則分析法對(duì)糖尿病重點(diǎn)講解一:關(guān)聯(lián)分析例1:有研究者利用關(guān)聯(lián)規(guī)則分析法對(duì)糖尿病數(shù)據(jù)庫(kù)進(jìn)行多維數(shù)據(jù)分析,以期望發(fā)現(xiàn)長(zhǎng)期血糖濃度過(guò)高與并發(fā)癥之間的關(guān)聯(lián);還有研究者對(duì)37000例腎病患者的癥狀(包括臨床檢驗(yàn)和檢測(cè))進(jìn)行了追蹤觀察,監(jiān)測(cè)尿蛋白水平、腎小球過(guò)濾率以及患者貧血狀況,結(jié)果發(fā)現(xiàn)以上三種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升。重點(diǎn)講解一:關(guān)聯(lián)分析例1:有研究者利用關(guān)聯(lián)規(guī)則分析法對(duì)糖尿病重點(diǎn)講解一:關(guān)聯(lián)分析例2:醫(yī)療處方分析。分析患有某類疾病的病人的處方數(shù)據(jù),找出處方數(shù)據(jù)中各項(xiàng)之間的關(guān)聯(lián)關(guān)系。醫(yī)生利用醫(yī)療領(lǐng)域的知識(shí),來(lái)分析這些規(guī)則的可信程度。對(duì)于那些有價(jià)值的規(guī)則,可以放到規(guī)則庫(kù)中供自己或其他醫(yī)生治療患有同類疾病的病人。中醫(yī)在研究新方劑的時(shí)候做大量的臨床試驗(yàn)。方劑是由單味藥組成,在這些試驗(yàn)中結(jié)果中,可能就蘊(yùn)含著單味藥之間的某種關(guān)聯(lián)。重點(diǎn)講解一:關(guān)聯(lián)分析例2:醫(yī)療處方分析。重點(diǎn)講解一:關(guān)聯(lián)分析白術(shù)^橘皮炙^甘草^獲荃==>人參(Supp=42,Con=89.5%),主治榮衛(wèi)氣虛、臟腑怯弱,心腹脹滿,腸鳴泄瀉,嘔哆吐
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年電影制作、發(fā)行和放映合同
- 職高電氣基礎(chǔ)課程設(shè)計(jì)答案
- 自動(dòng)倒角機(jī)現(xiàn)狀課程設(shè)計(jì)
- 芣苢課程設(shè)計(jì)
- 自動(dòng)化編程講解課程設(shè)計(jì)
- 苯乙醇課程設(shè)計(jì)
- 希臘國(guó)際高中課程設(shè)計(jì)
- 支教特色美術(shù)課程設(shè)計(jì)
- 碳匯課程設(shè)計(jì)
- 稅收情況工作總結(jié)
- B2C網(wǎng)絡(luò)商店物流服務(wù)質(zhì)量及其與顧客忠誠(chéng)的關(guān)系研究的中期報(bào)告
- 年同等學(xué)歷考研申碩綜合科復(fù)習(xí)指導(dǎo)(教育心理學(xué))課件
- 線段角動(dòng)點(diǎn)問(wèn)題
- 劍橋英語(yǔ)PET真題校園版
- 【課件】沉心靜氣打贏最后一仗 課件-2022-2023學(xué)年高中主題班會(huì)
- 2023-2024學(xué)年山東省臨沂市小學(xué)語(yǔ)文六年級(jí)期末評(píng)估考試題附參考答案和詳細(xì)解析
- 2021傳播心理學(xué)課程教學(xué)大綱
- 農(nóng)學(xué)技能高考【種植類】復(fù)習(xí)題庫(kù)大全-2、《植物生產(chǎn)與環(huán)境》-下(判斷題)
- HSk-lesson07part2-第-七-課-最好的醫(yī)生是自己
- 抖音直播電商項(xiàng)目計(jì)劃書抖音電商創(chuàng)業(yè)商業(yè)計(jì)劃書抖音直播帶貨計(jì)劃書抖音電商運(yùn)營(yíng)方案
- GB/T 24218.2-2009紡織品非織造布試驗(yàn)方法第2部分:厚度的測(cè)定
評(píng)論
0/150
提交評(píng)論