探析數(shù)據(jù)挖掘(DataMining)和統(tǒng)計學(xué)的聯(lián)系_第1頁
探析數(shù)據(jù)挖掘(DataMining)和統(tǒng)計學(xué)的聯(lián)系_第2頁
探析數(shù)據(jù)挖掘(DataMining)和統(tǒng)計學(xué)的聯(lián)系_第3頁
探析數(shù)據(jù)挖掘(DataMining)和統(tǒng)計學(xué)的聯(lián)系_第4頁
探析數(shù)據(jù)挖掘(DataMining)和統(tǒng)計學(xué)的聯(lián)系_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、探析數(shù)據(jù)挖掘( Data Mining )和統(tǒng)計學(xué)的聯(lián)系    數(shù)據(jù)挖掘( Data Mining )和統(tǒng)計學(xué):有什么聯(lián)系? 摘要:DM(數(shù)據(jù)挖掘)是揭示存在于數(shù)據(jù)里的模式及數(shù)據(jù)間的關(guān)系的學(xué)科,它強(qiáng)調(diào)對大量觀測到的數(shù)據(jù)庫的處理。它是涉及數(shù)據(jù)庫管理,人工智能,機(jī)器學(xué)習(xí),模式識別,及數(shù)據(jù)可視化等學(xué)科的邊緣學(xué)科。用統(tǒng)計的觀點看,它可以看成是通過計算機(jī)對大量的復(fù)雜數(shù)據(jù)集的自動探索性分析。目前對該學(xué)科的作用盡管有點夸大其詞,但該領(lǐng)域?qū)ι虡I(yè),工業(yè),及科學(xué)研究都有極大的影響,且提供了大量的為促使新方法的發(fā)展而進(jìn)行的研究工作。盡管

2、數(shù)據(jù)挖掘和統(tǒng)計分析之間有明顯的聯(lián)系,但迄今為止大部分的數(shù)據(jù)挖掘方法都不是產(chǎn)生于統(tǒng)計學(xué)科。這篇文章對這一現(xiàn)象作了一些解釋,并說明了為什么統(tǒng)計學(xué)家應(yīng)該關(guān)注數(shù)據(jù)挖掘。統(tǒng)計學(xué)可能會對數(shù)據(jù)挖掘產(chǎn)生很大影響,但這可能要求統(tǒng)計學(xué)家們改變他們的一些基本思路及操作原則。 1 序言聲明:該文中的觀點僅代表作者本人的觀點,并不一定反映編輯,主辦者,斯坦佛大學(xué)及同行的觀點。第二十九次論壇(on the Interface)(May 1997,Houston,TX)的主題是數(shù)據(jù)挖掘和大數(shù)據(jù)集的分析。這次會議的主題和二十年前的一次由Leo Breiman組織,ASA 和IMS贊助的關(guān)于大量復(fù)雜數(shù)據(jù)分析的會議是一

3、致的。二十年后,探討一下二十年來的所作所為是極其恰當(dāng)?shù)?。這篇文章將討論如下問題:什么是數(shù)據(jù)挖掘?什么是統(tǒng)計?它們之間的聯(lián)系是什么(如果有的話)?統(tǒng)計學(xué)家能作什么?(可能的話)Should we want to?2 什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘的定義非常模糊,對它的定義取決于定義者的觀點和背景。如下是一些DM文獻(xiàn)中的定義:數(shù)據(jù)挖掘是一個確定數(shù)據(jù)中有效的,新的,可能有用的并且最終能被理解的模式的重要過程。-Fayyad.數(shù)據(jù)挖掘是一個從大型數(shù)據(jù)庫中提取以前未知的,可理解的,可執(zhí)行的信息并用它來進(jìn)行關(guān)鍵的商業(yè)決策的過程。-Zekulin.數(shù)據(jù)挖掘是用在知識發(fā)現(xiàn)過程,來辯識存在于數(shù)據(jù)中的未知關(guān)系和模式的一

4、些方法。-Ferruzza數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)中有益模式的過程。-Jonn數(shù)據(jù)挖掘是我們?yōu)槟切┪粗男畔⒛J蕉芯看笮蛿?shù)據(jù)集的一個決策支持過程。-Parsaye數(shù)據(jù)挖掘是.決策樹.神經(jīng)網(wǎng)絡(luò).規(guī)則推斷.最近鄰方法.遺傳算法-Mehta雖然數(shù)據(jù)挖掘的這些定義有點不可觸摸,但在目前它已經(jīng)成為一種商業(yè)事業(yè)。如同在過去的歷次淘金熱中一樣,目標(biāo)是'開發(fā)礦工'。利潤最大的是賣工具給礦工,而不是干實際的開發(fā)。數(shù)據(jù)挖掘這個概念被用作一種裝備來出售計算機(jī)硬件和軟件。硬件制造商強(qiáng)調(diào)數(shù)據(jù)挖掘需要高的計算能力。必須存儲,快速讀寫非常大的數(shù)據(jù)庫,并將密集的計算方法用于這些數(shù)據(jù)。這需要大容量的磁盤空間,快速的

5、內(nèi)置大量RAM的計算機(jī)。數(shù)據(jù)挖掘為這些硬件打開了新的市場。軟件提供者強(qiáng)調(diào)競爭優(yōu)勢。'你的對手使用它,你最好得跟上。'同時強(qiáng)調(diào)它將增加傳統(tǒng)的數(shù)據(jù)庫的價值。許多組織在處理存貨,帳單,會計的數(shù)據(jù)庫方面有大量的業(yè)務(wù)。這些數(shù)據(jù)庫的創(chuàng)建和維護(hù)都耗資巨大?,F(xiàn)在只需要將相對少的投資用于數(shù)據(jù)挖掘工具,就可以發(fā)現(xiàn)隱藏在這些數(shù)據(jù)中的具有極高利潤的信息'金塊'。目前硬件和軟件供應(yīng)者的目的是在市場還未飽和前通過迅速推出數(shù)據(jù)挖掘產(chǎn)品為數(shù)據(jù)挖掘作廣告。如果一個公司為數(shù)據(jù)挖掘包投資了五萬至十萬美元,這也可能只是實驗,人們在新產(chǎn)品未被證實比舊產(chǎn)品具有很大優(yōu)勢之前是不會貿(mào)然購買的。以下是一些當(dāng)前的

6、數(shù)據(jù)挖掘產(chǎn)品:IBM: 'Intelligent Miner' '智能礦工'Tandem: 'relational Data Miner' '關(guān)系數(shù)據(jù)礦工'AngossSoftware: 'KnowledgeSEEDER' '知識搜索者'Thinking Machines Corporation: 'DarwinTM'NeoVista Software: 'ASIC'ISL Decision Systems,Inc.: 'Clementine' 

7、9;克萊門小柑橘'DataMind Corporation: 'DataMind Data Cruncher'Silicon Graphics: 'MineSet'California Scientific Software: 'BrainMaker'WizSoft Corporation: 'WizWhy'Lockheed Corporation: 'Recon'SAS Corporation: 'SAS Enterprise Miner '除了這些'綜合'軟件包外,還有許

8、多專門用途的產(chǎn)品。另外,許多專業(yè)于數(shù)據(jù)挖掘的咨詢公司也成立了。在這個領(lǐng)域,統(tǒng)計學(xué)家和計算機(jī)科學(xué)家的不同在于當(dāng)統(tǒng)計學(xué)家有一個想法時,他(她)將它寫成文章,而計算機(jī)科學(xué)家者開一家公司。當(dāng)前數(shù)據(jù)挖掘產(chǎn)品的特點有:-迷人的圖形用戶界面.數(shù)據(jù)庫(查尋語言).一套數(shù)據(jù)分析過程-窗口形式的界面.靈活方便的輸入-點擊式按鍵和說-輸入對話框-利用圖表分析-復(fù)雜的圖形輸出-大量數(shù)據(jù)圖-靈活的圖形解釋樹,網(wǎng)絡(luò),飛行模擬- 結(jié)果方便的處理。這些軟件包對決策者來說就象數(shù)據(jù)挖掘?qū)<?。在?dāng)前的數(shù)據(jù)挖掘軟件包中被用到的統(tǒng)計分析過程包括:.決策樹推斷(C4.5,CART,CHAID).規(guī)則推斷(AQ,CN2,RECON,etc

9、).最近鄰方法(合乎情理的方案).聚類方法(數(shù)據(jù)分離).聯(lián)合規(guī)則(市場籃子分析).特征提取.可視化另外,有些還包括:.神經(jīng)網(wǎng)絡(luò).bayesian belief 網(wǎng)絡(luò)(圖形模型).遺傳算法.自組織圖.神經(jīng)模糊系統(tǒng)幾乎所有包都不包括:.假設(shè)檢驗.實驗設(shè)計.響應(yīng)表面模型.ANOVA,MANOVA,etc.線性回歸.判別分析.對數(shù)回歸.廣義線性模型.正則相關(guān)性.主成分分析.因子分析后面的這些過程是標(biāo)準(zhǔn)統(tǒng)計包里的主要部分。因此,當(dāng)前被市場化的數(shù)據(jù)挖掘包中的大部分方法在統(tǒng)計學(xué)科之外產(chǎn)生和發(fā)展。統(tǒng)計學(xué)核心的方法已被忽略。 3 Why Now? What's the rush?從數(shù)據(jù)學(xué)習(xí)的想

10、法已經(jīng)提出很長時間了。但在忽然之間人們對數(shù)據(jù)挖掘的興趣卻變得如此強(qiáng)烈,這是為什么呢?主要原因是近來它與數(shù)據(jù)庫管理領(lǐng)域有了聯(lián)系。數(shù)據(jù),特別大量的數(shù)據(jù)保存在數(shù)據(jù)庫管理系統(tǒng)中。傳統(tǒng)的DBMS集中于在線轉(zhuǎn)換過程(OLTP n-line transaction processing);也就是數(shù)據(jù)組織的目的是存儲并快速恢復(fù)單個記錄。它們過去常用來記錄庫存,薪水表記錄,帳單記錄,發(fā)貨記錄,等等。最近,數(shù)據(jù)庫管理界對將數(shù)據(jù)庫管理系統(tǒng)用于決策支持越來越感興趣。這樣一個決策支持系統(tǒng)將允許對原本為在線轉(zhuǎn)換過程應(yīng)用收據(jù)的數(shù)據(jù)進(jìn)行統(tǒng)計查詢。比如'上月我們的所有連鎖店一共賣了多少尿布?',決策支持系統(tǒng)需要

11、'數(shù)據(jù)倉庫'的結(jié)構(gòu)。數(shù)據(jù)倉庫用相同的格式將某組織分散在各個部門的數(shù)據(jù)統(tǒng)一成一個單一的中心數(shù)據(jù)庫(通常有100GB大)。有時較小一點的子數(shù)據(jù)庫也可以建成來進(jìn)行特殊的分析;這些又叫'數(shù)據(jù)市場'(Data Marts) 決策支持系統(tǒng)為在線分析過程(OLAP)和關(guān)系在線分析過程設(shè)計。關(guān)系在線分析過程為'多維分析'設(shè)計。關(guān)系在線分析過程數(shù)據(jù)庫通過維組織,維即屬性(變量)的邏輯類。數(shù)據(jù)體可以看成是高維偶然事件表。關(guān)系在線分析過程支持如下類型的查詢: 顯示春季運(yùn)動服部門總的銷售量,及California大城市商業(yè)街中商店數(shù)和小城市中商店進(jìn)行比較,顯示

12、所有利潤邊界值為負(fù)的項 如果關(guān)系在線分析過程的查尋由使用者手工進(jìn)行,使用者提出潛在的相關(guān)問題;得到結(jié)果需要附加的查尋,其答案可能暗示進(jìn)一步的問題。這樣的分析過程一直到不再有感興趣的問題提出,或者到分析員精疲力盡或耗完時間。如果用關(guān)系在線分析過程進(jìn)行數(shù)據(jù)挖掘,那它需要一個經(jīng)驗豐富的使用者,他能不睡且不老,使用者必須不斷地重復(fù)提出見聞廣博的問題。數(shù)據(jù)挖掘也可以用數(shù)據(jù)挖掘系統(tǒng)(軟件)進(jìn)行,它只需要使用者提供模糊的指令,就能自動搜索相應(yīng)的模式,并顯示重要的項,預(yù)測,或反常記錄。 利潤邊界值為負(fù)的項有什么特征?如果決定開發(fā)某項產(chǎn)品的市場-預(yù)測它的利潤邊界值尋找那些其利潤邊界值可以準(zhǔn)確預(yù)測的項的特征不是所

13、有的大的數(shù)據(jù)庫都是商業(yè)化的,比方說科學(xué)和工程中大量存在的數(shù)據(jù)庫。這些數(shù)據(jù)庫通常和計算機(jī)自動收據(jù)數(shù)據(jù)聯(lián)系在一起,比方說:a)  天文的(天空圖)b)  氣象的(氣候,環(huán)境污染監(jiān)測站)c)  衛(wèi)星遙感d)  高能物理e)  工業(yè)過程控制這些數(shù)據(jù)也能得益于數(shù)據(jù)挖掘技術(shù)(原則上) 4 是數(shù)據(jù)挖掘還是智能訓(xùn)練?當(dāng)前對數(shù)據(jù)挖掘的興趣在學(xué)術(shù)界引發(fā)了一些議題。數(shù)據(jù)挖掘作為一種商業(yè)事業(yè)看上去很可行,但它是否能被定為一種智能訓(xùn)練。當(dāng)然它和計算機(jī)科學(xué)有極重要的聯(lián)系。這些包括:a)  集聚體(ROLAP)的高效計算b)  快速的立體(X * X)查尋c)  為提高在線查尋的速度的線下預(yù)查尋d)  在線查尋的并行計算e)  將DBMS方法轉(zhuǎn)化為數(shù)據(jù)挖掘算法。f)  基于磁盤而不是RAM的實現(xiàn)g)  基本數(shù)據(jù)挖掘算法的并行實現(xiàn)從統(tǒng)計數(shù)據(jù)分析的眼光我們可以問數(shù)據(jù)挖掘方法是否是智能訓(xùn)練。到目前為止,仍可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論