探析數(shù)據(jù)挖掘(DataMining)和統(tǒng)計(jì)學(xué)的聯(lián)系_第1頁(yè)
探析數(shù)據(jù)挖掘(DataMining)和統(tǒng)計(jì)學(xué)的聯(lián)系_第2頁(yè)
探析數(shù)據(jù)挖掘(DataMining)和統(tǒng)計(jì)學(xué)的聯(lián)系_第3頁(yè)
探析數(shù)據(jù)挖掘(DataMining)和統(tǒng)計(jì)學(xué)的聯(lián)系_第4頁(yè)
探析數(shù)據(jù)挖掘(DataMining)和統(tǒng)計(jì)學(xué)的聯(lián)系_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、探析數(shù)據(jù)挖掘( Data Mining )和統(tǒng)計(jì)學(xué)的聯(lián)系    數(shù)據(jù)挖掘( Data Mining )和統(tǒng)計(jì)學(xué):有什么聯(lián)系? 摘要:DM(數(shù)據(jù)挖掘)是揭示存在于數(shù)據(jù)里的模式及數(shù)據(jù)間的關(guān)系的學(xué)科,它強(qiáng)調(diào)對(duì)大量觀測(cè)到的數(shù)據(jù)庫(kù)的處理。它是涉及數(shù)據(jù)庫(kù)管理,人工智能,機(jī)器學(xué)習(xí),模式識(shí)別,及數(shù)據(jù)可視化等學(xué)科的邊緣學(xué)科。用統(tǒng)計(jì)的觀點(diǎn)看,它可以看成是通過(guò)計(jì)算機(jī)對(duì)大量的復(fù)雜數(shù)據(jù)集的自動(dòng)探索性分析。目前對(duì)該學(xué)科的作用盡管有點(diǎn)夸大其詞,但該領(lǐng)域?qū)ι虡I(yè),工業(yè),及科學(xué)研究都有極大的影響,且提供了大量的為促使新方法的發(fā)展而進(jìn)行的研究工作。盡管

2、數(shù)據(jù)挖掘和統(tǒng)計(jì)分析之間有明顯的聯(lián)系,但迄今為止大部分的數(shù)據(jù)挖掘方法都不是產(chǎn)生于統(tǒng)計(jì)學(xué)科。這篇文章對(duì)這一現(xiàn)象作了一些解釋,并說(shuō)明了為什么統(tǒng)計(jì)學(xué)家應(yīng)該關(guān)注數(shù)據(jù)挖掘。統(tǒng)計(jì)學(xué)可能會(huì)對(duì)數(shù)據(jù)挖掘產(chǎn)生很大影響,但這可能要求統(tǒng)計(jì)學(xué)家們改變他們的一些基本思路及操作原則。 1 序言聲明:該文中的觀點(diǎn)僅代表作者本人的觀點(diǎn),并不一定反映編輯,主辦者,斯坦佛大學(xué)及同行的觀點(diǎn)。第二十九次論壇(on the Interface)(May 1997,Houston,TX)的主題是數(shù)據(jù)挖掘和大數(shù)據(jù)集的分析。這次會(huì)議的主題和二十年前的一次由Leo Breiman組織,ASA 和IMS贊助的關(guān)于大量復(fù)雜數(shù)據(jù)分析的會(huì)議是一

3、致的。二十年后,探討一下二十年來(lái)的所作所為是極其恰當(dāng)?shù)摹_@篇文章將討論如下問(wèn)題:什么是數(shù)據(jù)挖掘?什么是統(tǒng)計(jì)?它們之間的聯(lián)系是什么(如果有的話)?統(tǒng)計(jì)學(xué)家能作什么?(可能的話)Should we want to?2 什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘的定義非常模糊,對(duì)它的定義取決于定義者的觀點(diǎn)和背景。如下是一些DM文獻(xiàn)中的定義:數(shù)據(jù)挖掘是一個(gè)確定數(shù)據(jù)中有效的,新的,可能有用的并且最終能被理解的模式的重要過(guò)程。-Fayyad.數(shù)據(jù)挖掘是一個(gè)從大型數(shù)據(jù)庫(kù)中提取以前未知的,可理解的,可執(zhí)行的信息并用它來(lái)進(jìn)行關(guān)鍵的商業(yè)決策的過(guò)程。-Zekulin.數(shù)據(jù)挖掘是用在知識(shí)發(fā)現(xiàn)過(guò)程,來(lái)辯識(shí)存在于數(shù)據(jù)中的未知關(guān)系和模式的一

4、些方法。-Ferruzza數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)中有益模式的過(guò)程。-Jonn數(shù)據(jù)挖掘是我們?yōu)槟切┪粗男畔⒛J蕉芯看笮蛿?shù)據(jù)集的一個(gè)決策支持過(guò)程。-Parsaye數(shù)據(jù)挖掘是.決策樹(shù).神經(jīng)網(wǎng)絡(luò).規(guī)則推斷.最近鄰方法.遺傳算法-Mehta雖然數(shù)據(jù)挖掘的這些定義有點(diǎn)不可觸摸,但在目前它已經(jīng)成為一種商業(yè)事業(yè)。如同在過(guò)去的歷次淘金熱中一樣,目標(biāo)是'開(kāi)發(fā)礦工'。利潤(rùn)最大的是賣(mài)工具給礦工,而不是干實(shí)際的開(kāi)發(fā)。數(shù)據(jù)挖掘這個(gè)概念被用作一種裝備來(lái)出售計(jì)算機(jī)硬件和軟件。硬件制造商強(qiáng)調(diào)數(shù)據(jù)挖掘需要高的計(jì)算能力。必須存儲(chǔ),快速讀寫(xiě)非常大的數(shù)據(jù)庫(kù),并將密集的計(jì)算方法用于這些數(shù)據(jù)。這需要大容量的磁盤(pán)空間,快速的

5、內(nèi)置大量RAM的計(jì)算機(jī)。數(shù)據(jù)挖掘?yàn)檫@些硬件打開(kāi)了新的市場(chǎng)。軟件提供者強(qiáng)調(diào)競(jìng)爭(zhēng)優(yōu)勢(shì)。'你的對(duì)手使用它,你最好得跟上。'同時(shí)強(qiáng)調(diào)它將增加傳統(tǒng)的數(shù)據(jù)庫(kù)的價(jià)值。許多組織在處理存貨,帳單,會(huì)計(jì)的數(shù)據(jù)庫(kù)方面有大量的業(yè)務(wù)。這些數(shù)據(jù)庫(kù)的創(chuàng)建和維護(hù)都耗資巨大?,F(xiàn)在只需要將相對(duì)少的投資用于數(shù)據(jù)挖掘工具,就可以發(fā)現(xiàn)隱藏在這些數(shù)據(jù)中的具有極高利潤(rùn)的信息'金塊'。目前硬件和軟件供應(yīng)者的目的是在市場(chǎng)還未飽和前通過(guò)迅速推出數(shù)據(jù)挖掘產(chǎn)品為數(shù)據(jù)挖掘作廣告。如果一個(gè)公司為數(shù)據(jù)挖掘包投資了五萬(wàn)至十萬(wàn)美元,這也可能只是實(shí)驗(yàn),人們?cè)谛庐a(chǎn)品未被證實(shí)比舊產(chǎn)品具有很大優(yōu)勢(shì)之前是不會(huì)貿(mào)然購(gòu)買(mǎi)的。以下是一些當(dāng)前的

6、數(shù)據(jù)挖掘產(chǎn)品:IBM: 'Intelligent Miner' '智能礦工'Tandem: 'relational Data Miner' '關(guān)系數(shù)據(jù)礦工'AngossSoftware: 'KnowledgeSEEDER' '知識(shí)搜索者'Thinking Machines Corporation: 'DarwinTM'NeoVista Software: 'ASIC'ISL Decision Systems,Inc.: 'Clementine' 

7、9;克萊門(mén)小柑橘'DataMind Corporation: 'DataMind Data Cruncher'Silicon Graphics: 'MineSet'California Scientific Software: 'BrainMaker'WizSoft Corporation: 'WizWhy'Lockheed Corporation: 'Recon'SAS Corporation: 'SAS Enterprise Miner '除了這些'綜合'軟件包外,還有許

8、多專門(mén)用途的產(chǎn)品。另外,許多專業(yè)于數(shù)據(jù)挖掘的咨詢公司也成立了。在這個(gè)領(lǐng)域,統(tǒng)計(jì)學(xué)家和計(jì)算機(jī)科學(xué)家的不同在于當(dāng)統(tǒng)計(jì)學(xué)家有一個(gè)想法時(shí),他(她)將它寫(xiě)成文章,而計(jì)算機(jī)科學(xué)家者開(kāi)一家公司。當(dāng)前數(shù)據(jù)挖掘產(chǎn)品的特點(diǎn)有:-迷人的圖形用戶界面.數(shù)據(jù)庫(kù)(查尋語(yǔ)言).一套數(shù)據(jù)分析過(guò)程-窗口形式的界面.靈活方便的輸入-點(diǎn)擊式按鍵和說(shuō)-輸入對(duì)話框-利用圖表分析-復(fù)雜的圖形輸出-大量數(shù)據(jù)圖-靈活的圖形解釋樹(shù),網(wǎng)絡(luò),飛行模擬- 結(jié)果方便的處理。這些軟件包對(duì)決策者來(lái)說(shuō)就象數(shù)據(jù)挖掘?qū)<?。在?dāng)前的數(shù)據(jù)挖掘軟件包中被用到的統(tǒng)計(jì)分析過(guò)程包括:.決策樹(shù)推斷(C4.5,CART,CHAID).規(guī)則推斷(AQ,CN2,RECON,etc

9、).最近鄰方法(合乎情理的方案).聚類方法(數(shù)據(jù)分離).聯(lián)合規(guī)則(市場(chǎng)籃子分析).特征提取.可視化另外,有些還包括:.神經(jīng)網(wǎng)絡(luò).bayesian belief 網(wǎng)絡(luò)(圖形模型).遺傳算法.自組織圖.神經(jīng)模糊系統(tǒng)幾乎所有包都不包括:.假設(shè)檢驗(yàn).實(shí)驗(yàn)設(shè)計(jì).響應(yīng)表面模型.ANOVA,MANOVA,etc.線性回歸.判別分析.對(duì)數(shù)回歸.廣義線性模型.正則相關(guān)性.主成分分析.因子分析后面的這些過(guò)程是標(biāo)準(zhǔn)統(tǒng)計(jì)包里的主要部分。因此,當(dāng)前被市場(chǎng)化的數(shù)據(jù)挖掘包中的大部分方法在統(tǒng)計(jì)學(xué)科之外產(chǎn)生和發(fā)展。統(tǒng)計(jì)學(xué)核心的方法已被忽略。 3 Why Now? What's the rush?從數(shù)據(jù)學(xué)習(xí)的想

10、法已經(jīng)提出很長(zhǎng)時(shí)間了。但在忽然之間人們對(duì)數(shù)據(jù)挖掘的興趣卻變得如此強(qiáng)烈,這是為什么呢?主要原因是近來(lái)它與數(shù)據(jù)庫(kù)管理領(lǐng)域有了聯(lián)系。數(shù)據(jù),特別大量的數(shù)據(jù)保存在數(shù)據(jù)庫(kù)管理系統(tǒng)中。傳統(tǒng)的DBMS集中于在線轉(zhuǎn)換過(guò)程(OLTP n-line transaction processing);也就是數(shù)據(jù)組織的目的是存儲(chǔ)并快速恢復(fù)單個(gè)記錄。它們過(guò)去常用來(lái)記錄庫(kù)存,薪水表記錄,帳單記錄,發(fā)貨記錄,等等。最近,數(shù)據(jù)庫(kù)管理界對(duì)將數(shù)據(jù)庫(kù)管理系統(tǒng)用于決策支持越來(lái)越感興趣。這樣一個(gè)決策支持系統(tǒng)將允許對(duì)原本為在線轉(zhuǎn)換過(guò)程應(yīng)用收據(jù)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)查詢。比如'上月我們的所有連鎖店一共賣(mài)了多少尿布?',決策支持系統(tǒng)需要

11、'數(shù)據(jù)倉(cāng)庫(kù)'的結(jié)構(gòu)。數(shù)據(jù)倉(cāng)庫(kù)用相同的格式將某組織分散在各個(gè)部門(mén)的數(shù)據(jù)統(tǒng)一成一個(gè)單一的中心數(shù)據(jù)庫(kù)(通常有100GB大)。有時(shí)較小一點(diǎn)的子數(shù)據(jù)庫(kù)也可以建成來(lái)進(jìn)行特殊的分析;這些又叫'數(shù)據(jù)市場(chǎng)'(Data Marts) 決策支持系統(tǒng)為在線分析過(guò)程(OLAP)和關(guān)系在線分析過(guò)程設(shè)計(jì)。關(guān)系在線分析過(guò)程為'多維分析'設(shè)計(jì)。關(guān)系在線分析過(guò)程數(shù)據(jù)庫(kù)通過(guò)維組織,維即屬性(變量)的邏輯類。數(shù)據(jù)體可以看成是高維偶然事件表。關(guān)系在線分析過(guò)程支持如下類型的查詢: 顯示春季運(yùn)動(dòng)服部門(mén)總的銷(xiāo)售量,及California大城市商業(yè)街中商店數(shù)和小城市中商店進(jìn)行比較,顯示

12、所有利潤(rùn)邊界值為負(fù)的項(xiàng) 如果關(guān)系在線分析過(guò)程的查尋由使用者手工進(jìn)行,使用者提出潛在的相關(guān)問(wèn)題;得到結(jié)果需要附加的查尋,其答案可能暗示進(jìn)一步的問(wèn)題。這樣的分析過(guò)程一直到不再有感興趣的問(wèn)題提出,或者到分析員精疲力盡或耗完時(shí)間。如果用關(guān)系在線分析過(guò)程進(jìn)行數(shù)據(jù)挖掘,那它需要一個(gè)經(jīng)驗(yàn)豐富的使用者,他能不睡且不老,使用者必須不斷地重復(fù)提出見(jiàn)聞廣博的問(wèn)題。數(shù)據(jù)挖掘也可以用數(shù)據(jù)挖掘系統(tǒng)(軟件)進(jìn)行,它只需要使用者提供模糊的指令,就能自動(dòng)搜索相應(yīng)的模式,并顯示重要的項(xiàng),預(yù)測(cè),或反常記錄。 利潤(rùn)邊界值為負(fù)的項(xiàng)有什么特征?如果決定開(kāi)發(fā)某項(xiàng)產(chǎn)品的市場(chǎng)-預(yù)測(cè)它的利潤(rùn)邊界值尋找那些其利潤(rùn)邊界值可以準(zhǔn)確預(yù)測(cè)的項(xiàng)的特征不是所

13、有的大的數(shù)據(jù)庫(kù)都是商業(yè)化的,比方說(shuō)科學(xué)和工程中大量存在的數(shù)據(jù)庫(kù)。這些數(shù)據(jù)庫(kù)通常和計(jì)算機(jī)自動(dòng)收據(jù)數(shù)據(jù)聯(lián)系在一起,比方說(shuō):a)  天文的(天空?qǐng)D)b)  氣象的(氣候,環(huán)境污染監(jiān)測(cè)站)c)  衛(wèi)星遙感d)  高能物理e)  工業(yè)過(guò)程控制這些數(shù)據(jù)也能得益于數(shù)據(jù)挖掘技術(shù)(原則上) 4 是數(shù)據(jù)挖掘還是智能訓(xùn)練?當(dāng)前對(duì)數(shù)據(jù)挖掘的興趣在學(xué)術(shù)界引發(fā)了一些議題。數(shù)據(jù)挖掘作為一種商業(yè)事業(yè)看上去很可行,但它是否能被定為一種智能訓(xùn)練。當(dāng)然它和計(jì)算機(jī)科學(xué)有極重要的聯(lián)系。這些包括:a)  集聚體(ROLAP)的高效計(jì)算b)  快速的立體(X * X)查尋c)  為提高在線查尋的速度的線下預(yù)查尋d)  在線查尋的并行計(jì)算e)  將DBMS方法轉(zhuǎn)化為數(shù)據(jù)挖掘算法。f)  基于磁盤(pán)而不是RAM的實(shí)現(xiàn)g)  基本數(shù)據(jù)挖掘算法的并行實(shí)現(xiàn)從統(tǒng)計(jì)數(shù)據(jù)分析的眼光我們可以問(wèn)數(shù)據(jù)挖掘方法是否是智能訓(xùn)練。到目前為止,仍可以

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論