大數據時代的數據挖掘與商務智能四_第1頁
大數據時代的數據挖掘與商務智能四_第2頁
大數據時代的數據挖掘與商務智能四_第3頁
大數據時代的數據挖掘與商務智能四_第4頁
大數據時代的數據挖掘與商務智能四_第5頁
已閱讀5頁,還剩76頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1大數據時代的

數據挖掘與商務智能2第四部分數據管理與數據挖掘概論3數據挖掘概況從20世紀80年代中后期,知識發(fā)現的方法、技術和系統(tǒng),從不同角度、不同領域和不同學科進行了研究和實踐,主要的學科有數據庫、統(tǒng)計學和機器學習。1989年在底特律第11屆IJCAI會議上的KDD研討會。1991年MIT出版社出版了一本書“KnowledgeDiscoveryinDatabases”。1994年召開了一個國際會議(KDD94),并于1996年由MIT出版社又出版了一本書“AdvancesinKnowledgeDiscoveryandDataMining”。4數據挖掘概況1995年在加拿大的蒙特利爾召開KDD95,作為第一屆國際KDD會議,以后每年一次,原為AAAI組織,1999年由ACM組織,改為SIGKDD。2006年、第12屆在美國費城(Philadelphia)。2007年在美國加州圣何塞(SIGKDD07)2008年在美國LASVEGAS(SIGKDD08)。

“DataMiningandKnowledgeDiscovery”1997年創(chuàng)刊。(Springer,1997,2006)。國外相應的研究小組的建立,接著數據挖掘公司風起云涌。一些大公司建立數據挖掘小組和開發(fā)各種產品。國內研究小組的建立,一些公司也開始了數據挖掘項目。5數據挖掘概況數據挖掘是20世紀80年代后期發(fā)展起來的一種新興技術。它是商業(yè)、企業(yè)競爭和技術發(fā)展的需求的結果,數據挖掘技術是多種學科的交叉的產物。數據挖掘6數據挖掘任務數據挖掘任務技術分類預測(Predication):用歷史預測未來描述(Description):了解數據中潛在的規(guī)律數據挖掘的具體任務關聯(lián)分析序列模式分類(預測)聚集異常檢測7數據挖掘任務描述性分析聚類分析關聯(lián)分析異常點分析、可視化……預測性分析分類(離散)回歸分析(連續(xù))時間序列分析……8數據挖掘概況數據挖掘技術基本內容框架數據預處理(1)數據清理(2)數據變換(3)數據集成(4)數據歸約(5)數據離散化數據挖掘基本方法(1)關聯(lián)規(guī)則(2)分類與預測(3)聚類數據挖掘的深入內容(1)時間序列和序列(2)空間數據挖掘(3)文本挖掘(4)Web挖掘(5)多媒體挖掘(6)可視化9數據挖掘概況由于任務不同,要求不同,數據不同,沒有單一的數據挖掘軟件可適用所有的情形。造成了各種方法都在快速發(fā)展,各種數據挖掘軟件不斷增多。但商家近年來有逐漸減少的趨勢,大公司的介入,一些大的有實力的公司開始更多占領市場?;痉椒ㄈ缟纤?。軟件功能和性能有很大差異。選軟件應考慮的因素很多。10數據挖掘概況

從問題回答的角度:有些問題可明確和準確回答(要求這樣)有些問題是給出可能的回答有些問題可能給出不太明確的回答有些問題可能給出可能錯誤的回答。這些回答從數據的角度:有些是查詢,有些是統(tǒng)計,有些是歸納,有些是推斷,有些預測,有些是分析。數據挖掘要回答那些不是簡單查詢和統(tǒng)計回答問題。11數據挖掘掘概況無法準確確回答的的問題信貸中信信用評估估,信用用卡評級級,信用用卡欺詐詐銷售一個個產品廣廣告材材料郵郵寄給給誰保留客戶戶,爭取客戶戶交叉銷售售違規(guī)操作作,欺詐詐行為發(fā)發(fā)現,異異常發(fā)現現貨架貨物物的擺放放疾病,癥狀,藥物,療效之間的關系DNA序列的相似分析導致各種疾病的特定基因序列模式憑理論,經驗,群體分析,憑數據分析,挖掘12數據挖掘掘概況各種部門門都面臨臨不同的的挑戰(zhàn)一些面臨臨競爭的的部門與與企業(yè)::銀行,電電信,保保險,證證券,商商場,各各種企業(yè)業(yè)。這些些企業(yè)關關心的問問題:爭爭取客戶戶,增大大銷售,,提高利利潤。一些壟斷斷部門與與企業(yè)::電力,稅稅務,社社保。面面對抱怨怨,面對對抗爭,,面對欺欺詐。政府和企企業(yè)面臨臨科學決決策13數據挖掘掘概況數據倉庫庫和數據據挖掘項項目提到到日程數據分析析、決策策支持系系統(tǒng)、商商業(yè)智能能(BI)、知知識管理理、客戶戶關系管管理(CRM)、物流與與供應鏈鏈管理(SCM)、企業(yè)資資源計劃劃(ERP)、各種預預測。政府、科科技部門門、大型型企業(yè)((工廠,,公司,,商場)),經濟濟部門、、金融機機構(銀銀行、證證券、保保險)、、電子商商務、電電子政務務、各種種“金”工程。14數據挖掘掘概況數據倉庫庫將不同數數據源、、多年的的數據經經“整合”成一個有有組織的的便于分分析的結結構化的的數據環(huán)環(huán)境。組織數據據方法。。數據挖掘掘:從數據中中找出((推出,,歸納出出,預測測、挖掘掘)有用用的信息息,規(guī)律律,知識識。分析數據據方法。。15數據庫集集成:數據倉庫庫技術所有的數數據在物物理上集集中在一一起虛擬數據據庫技術術數據表面面上或者者在邏輯輯上是集集成在一一起,然然而它們們的物理理存貯則則是分散散在Internet不同的數數據服務務器上數據挖掘掘概況16從兩種數數據庫集集成技術術來看::數據倉庫庫技術實實用于數數據庫變變動不太太頻繁、、數據庫庫中數據據類型和和使用方方法比較較接近的的情況。。虛擬數據據庫技術術實用于于數據更更新速度度快、數數據類型型和使用用方法完完全不一一樣的情情況。數據挖掘掘概況17聯(lián)機分析析處理60年代,關關系數據據庫之父父提出了關關系模型型,促進進了聯(lián)機機事務處處理(OLTP)的發(fā)展(數據以表表格的形形式而非非文件方方式存儲儲)。1993年,提出了OLAP概念,認認為OLTP已不能滿滿足終端端用戶對對數據庫庫查詢分分析的需需要,SQL對大型數數據庫進進行的簡簡單查詢詢也不能能滿足終終端用戶戶分析的的要求。。用戶的的決策分分析需要要對關系系數據庫庫進行大大量計算算才能得得到結果果,而查查詢的結結果并不不能滿足足決策者者提出的的需求。。因此,,提出了多多維數據據庫和多多維分析析的概念念,即OLAP。OLTP數據OLAP數據原始數據據導導出數據據細節(jié)性數數據綜綜合性和和提煉性性數據當前值數數據歷歷史數據據可更新不不可可更新,,但周期期性刷新新一次處理理的數據據量小一一次處理理的數據據量大面向應用用,事務務驅動面面向分分析,分分析驅動動面向操作作人員,,支持日日常操作作面面向決策策人員,,支持管管理需要要18OLAP定義OLAP(聯(lián)機分析析處理)是使分析析人員、、管理人人員或執(zhí)執(zhí)行人員員能夠從從多種角角度對從從原始數數據中轉轉化出來來的、能能夠真正正為用戶戶所理解解的、并并真實反反映企業(yè)業(yè)維特性性的信息息進行快快速、一一致、交交互地存存取,從從而獲得得對數據據的更深深入了解解的一類類軟件技技術。(OLAP委員會的的定義)OLAP的目標是滿足決決策支持持或多維維環(huán)境特特定的查查詢和報報表需求求,它的的技術核核心是“維”這個概念念,因此此OLAP也可以說說是多維維數據分分析工具具的集合合。19數據倉庫庫與數據據挖掘所所處地位位決策支持持系統(tǒng)OLAP數據挖掘掘數據倉倉庫庫數據據庫庫各種信息息系統(tǒng)各種管理理系統(tǒng)搜索、抽抽取過濾萬維網信息發(fā)布布信息檢索索ACRMCRM20數據挖掘掘發(fā)現知知識類型型廣義型知知識:反反映同類類事物共共同性質質的知識識特征型知知識:反反映事物物各方面面特征的的的知識識差異型知知識:反反映不同同事物之之間屬性性差別的的知識關聯(lián)型知知識:反反映事物物之間依依賴和關關聯(lián)的知知識偏差型知知識:揭揭示事物物偏離常常規(guī)的異異常現象象的知識識預測型知知識:根根據歷史史與當前前數據推推測未來來數據21(B)DataInformation(A)Knowledge(Arrangement)(Transmit)Knowledgetransmittedbycharacter,sign,voice,etc.(B)DataarrangedtobeusefulfordecisionmakingINFORMATION(Recognition)(C)Knowledge(C)Recognitionmemorizedpersonallyorsocially(D)JudgmentorasystemofjudgmentwhichhasobjectivevalidityKNOWLEDGE(D)Knowledge(Judgment)(D)Knowledge(Judgment)Whatistheenergytobringsuchtransformation?(E)Computers’abilitytojudgethingsautomatically(F)People’sabilitytounderstandandlearnthingsINTELLIGENCEInformationScienceManagementScienceKnowledgeScience+Information,Knowledge,andIntelligence22Sharedmentalmodelsortechnicalskills1Metaphors,analogies,concepts,hypotheses,ormodels2Linkingexplicitknowledge3Learningbydoing4I.NonakaandH.TakeuchiTheKnowledge-CreatingCompany.HowJapaneseCompaniesCreatetheDynamicsofInnovation.OxfordUniversityPress,1995.GroupexplicitknowledgeIndividualexplicitknowledgeIndividualtacitknowledgeGrouptacitknowledgeCombinationInternalizationSocializationExternalizationKeyFactorinEstablishingtheSchoolProf.Nonaka23應用用市場分析析、預測測和管理理行銷策略略,客戶關系系管理(CRM),購貨籃分分析,市場分割割風險分析析、預測測和管理理風險預警警,客戶挽留留,改進的保保險業(yè),質量控制制,競爭分析析欺詐檢測測和管理理證券違規(guī)規(guī)操作,,稅務偷偷漏,瞞瞞報,信信用卡欺欺詐行為為判斷信用評估估銀行信貸貸評估,,信用卡卡評估24應用用宏觀經濟濟(指標之間間關聯(lián),經濟指標標的預測測,預警)電信(客客戶細分分,客戶戶流失,,客戶挽挽留)金融(信信用評估估,洗錢錢,欺詐詐…)情報(文文本挖掘掘,新聞聞組,電子郵件件,文檔)Web挖掘(信信息過濾濾,個性化服服務,異異常行為為,…)DNA數據分析析(一些些引起疾疾病的DNA序列,…)人力資源源配置((如何有有效進行行人力分分配)醫(yī)療診斷斷中藥配伍伍規(guī)律零售業(yè)科學(天天氣預報報,災難難預測…25KDnuggets對數據挖挖掘各種種情況進進行了調調查從應用領領域使用工具具使用方法法數據挖掘掘組的地地位數據庫的的大小((10G以上,100-1000G)數據格式式(文本本和工具具特定格格式居多多)26銀行17%生物/基因8%E商務/Web15%欺詐檢測測8%保險6%投資/股票4%藥品5%零售業(yè)6%科學數據據8%電信11%其他11%應用領域域情況((2001)27應用領域域情況200628應用領域域情況((2008)[170voters]29數據挖掘掘軟件(May2008)[347voters]30數據挖掘掘軟件(May2008)2012年R以30.7%的得票率率榮登榜榜首3132從技術看數據挖掘使用技術情況[784votestotal](Feb2005)

DecisionTrees/Rules(107)決策樹

14%Clustering(101)聚類

13%Regression(90)回歸

11%Statistics(80)統(tǒng)計

10%Visualization(63)可視化

8%NeuralNets(61)神經網絡

8%Associationrules(54)關聯(lián)規(guī)則

7%NearestNeighbor(34)最近鄰

4%SVM(Supportvectormachine)(31)支持向量機

4%Bayesian(30)貝葉斯

4%Sequence/Timeseriesanalysis(26)序列/時間序列分析

3%Boosting(25)增強

3%Hybridmethods(23)混合方法

3%Bagging(20)袋裝

3%Geneticalgorithms(19)遺傳算法

2%Other(20)其他

3%33數據挖掘掘任務類類型(Dec2007)[170voters]34數據類型型(Sep2008)35數據挖掘掘系統(tǒng)的的典型架架構數據倉庫

數據清理與數據集成過濾

數據庫數據庫、數據倉庫管理系統(tǒng)數據挖掘引擎模型、模式評價可視化用戶界面數據挖掘方法庫其它數據源用戶知識庫World-WideWebOtherInfoRepositories36各行業(yè)電子商務網站算法層商業(yè)邏輯層行業(yè)應用層商業(yè)應用商業(yè)模型挖掘算法CRM產品推薦客戶細分客戶流失客戶利潤客戶響應關聯(lián)規(guī)則、序列模式、分類、聚集、神經元網絡、偏差分析…WEB挖掘網站結構優(yōu)化網頁推薦商品推薦。。?;蛲诰蚧虮磉_路徑分析基因表達相似性分析基因表達共發(fā)生分析。。。銀行電信零售保險制藥生物信息科學研究。。。相關行業(yè)綜合的數數據挖掘掘解決方方案(復復旦)371.業(yè)務分析DataSourceDataSource

2.數據收集與整理3數據分析與處理4.財務指標展示6.數據挖掘結果的解釋和展示7.系統(tǒng)建設8.嘗試應用5.數據挖掘建模商業(yè)銀行行客戶違違約模型型建立數據挖掘掘在我國國的前景景國外數據據挖掘已已相當普普遍,各各大數據據庫公司司與典型型產品((IBM,Oracle,Microsoft…)SPSS,SAS,BO………國內情況況如何::應用普遍遍性?對其相信信程度??制約的因因素?(市場規(guī)規(guī)范程度度?消消費者成成熟程度度?人人為因素素程度??)國內尚處處發(fā)展階階段,((周期長長,效益益不明顯顯,數據據積累不不夠,人人的認識識程度,,…)39為什么沒沒有廣泛泛使用??數據挖掘掘正在快快速的發(fā)發(fā)展技術的研研究和開開發(fā)已經經走在很很前沿的的地方數據挖掘掘應用面面已經擴擴充了很很多但是仍然然沒有希希望的高高,為什什么?希望在多多少年內內達到數數十億元元的盈利利?是一種增增值服務務(Notbread-and-butter)不能認為為高不可可攀,所所以不去去過問是一門年年輕的技技術,需需要和實實際結合合,解決決現實問問題40數據挖掘掘國內應用用存在的的問題數據積累累不充分分、不全全面業(yè)務模型型構建困困難缺少有經經驗的實實施者41數據挖掘掘的方法法論42知識發(fā)現現(KDD)的過程程431.數據的選選擇與抽抽樣根據用戶戶的需要要從數據據庫中選選擇或抽抽樣一部部分數據據。2.數據預處處理(1)數據的的過濾::除噪聲聲去冗余余(2)數據的的添補(3)數據歸歸約與約約簡3.數據轉換換:數據轉換換的主要要目的是是消減數數據維數數或維數數縮減4.數據挖掘掘:挖掘掘方法的的使用5.結果的評評價(1)可視化化表示(2)解釋(3)知識的的使用6.循環(huán)44KDD過程數據挖掘掘:KDD過程的核核心。DataCleaningDataIntegrationDatabasesDataWarehouseKnowledgeTask-relevantDataSelectionDataMiningPatternEvaluation45數據挖掘的的方法論有許多數據據挖掘的方方法論,比比較典型有有CRISP-DM(CrossIndustryStandardProcessforDataMining)SAS提出的數據據挖掘方法法論SEMMA(Sample,Explore,Modify,ModelAccess)IBM提出的通用用數據挖掘掘方法((Thegenericdataminingmethod)46數據挖掘的的方法論KDnugets調查情況::各組織機構構、公司、、個人進行行數據挖掘掘時使用的的方法論(Aug2007)47CRISP-DMNCRSPSS等公司提供供CRISP-DM(跨行業(yè)數數據挖掘標標準)數據據挖掘方法法論實現。。主要包括以以下六個主主要環(huán)節(jié)::問題(業(yè)務務)理解(BusinessUnderstanding)數據理解(DataUnderstanding)數據準備(DataPreparation)建立模型(Modeling)模型評估(Evaluation)方案實施(Deployment)48CRISP-DM1.業(yè)務問題理解((BusinessUnderstanding)要解決哪類類問題:在數據挖掘掘之前,收收集與該項項目有關的的信息,確確定數據挖挖掘要解決決哪類問題題。并把要要解決的問問題轉化為為數據挖掘掘問題。資源的評估估:硬件資源,,軟件資源源,數據資資源,人力資源((管理人員員,業(yè)務人人員,技術術人員)數據評估::數據數量,,數據質量量評估。項目成功估估計:成功后的效效益,相應應人員(分分析、維護))的增加。。49如:一個電電信領域的的數據挖掘掘項目問題可為::一些優(yōu)質客客戶有什么么特征?哪些是不良良客戶,他他們有什么么特征?在欠費客戶戶中,哪些些是惡意的的欠費,哪些是善意意的欠費。。哪些客戶可可能會有最最好的潛力力?通過什么樣樣的標準來來細分客戶戶?如何來衡量量客戶帶來來的價值??哪些是高價價值客戶??如何去保保住他們。。50CRISP-DM2.理解數據((DataUnderstanding)從哪里進行行數據的收收集數據來源有有那些各數據源數數據描述::格式,含含義數據質量外來數據有有那些對數據的含含義一定要要有深刻的的理解才有有可能從中中找出(挖挖掘)規(guī)律律和知識。。51CRISP-DM3.準備數據((DataPreparation)數據選擇數據清理數據重構數據整合規(guī)格化:定定出范圍標準化:解解決不一致致數據準備會會占用整個個項目50%以上時間CRISP-DM4.建立模型((Modeling)數據匯總概念描述關聯(lián)規(guī)則相關分析分類與預測測聚類53CRISP-DM5.方案評估((Evaluation)挖掘結果((獲得知識識的)評估挖掘過程的的評估來決定是否否要反復,,KDD是迭代過程程54迭代過程55CRISP-DM6.方案實施(Deployment)發(fā)布挖掘結結果(獲得得知識的))評估決定實施計計劃Crisp-DM1.0CRISP-DM2.0SIGWORKSHOPANNOUNCED–CHICAGO,SEPTEMBER26,200656CRISP-DM各階段占用用時間和重重要性1%10%方案實施5%10-20%建立模型和模型評估15%50%數據準備

5%10-20%數據理解

70%10%問題理解占項目成功的重要性花費時間57數據挖掘需需要的人員員業(yè)務分析人人員:要求求精通業(yè)務務,能夠解解釋業(yè)務對對象,并根根據各業(yè)務務對象確定定出用于數數據定義和和挖掘算法法的業(yè)務需需求。數據分析人人員:精通通數據分析析技術,并并對統(tǒng)計學學有較熟練練的掌握,,有能力把把業(yè)務需求求轉化為數數據挖掘的的各步操作作,并為每每步操作選選擇合適的的技術。數據管理人人員:精通通數據管理理技術,并并從數據庫庫或數據倉倉庫中收集集數據。58數據挖掘軟軟件59數據挖掘軟軟件的現狀狀(國外))DataMining/AnalyticSoftwareTools[534voters](May2007)60數據挖掘軟軟件的現狀狀(國內))61數據挖掘軟軟件的發(fā)展展代特征數據挖掘算法集成分布計算模型數據模型第一代作為一個獨立的應用支持一個或者多個算法獨立的系統(tǒng)單個機器向量數據第二代和數據庫以及數據倉庫集成多個算法:能夠挖掘一次不能放進內存的數據數據管理系統(tǒng),包括數據庫和數據倉庫同質、局部區(qū)域的計算機群集有些系統(tǒng)支持對象,文本和連續(xù)的媒體數據第三代和預測模型系統(tǒng)集成

多個算法數據管理和預測模型系統(tǒng)intranet/extranet網絡計算支持半結構化數據和web數據第四代和移動數據/各種計算設備的數據聯(lián)合

多個算法數據管理、預測模型、移動系統(tǒng)移動和各種計算設備普遍存在的計算模型RobertGrossman的觀點(NationalCenterforDataMining,UniversityofIllinoisatChicago)62數據挖掘軟軟件的發(fā)展展第一代數據據挖掘軟件件63第一代數據據挖掘軟件件CBA新加坡國立立大學基于于關聯(lián)規(guī)則則的分類算算法,能從從關系數據據或者交易易數據挖掘掘關聯(lián)規(guī)則則,使用關關聯(lián)規(guī)則進進行分類和和預測64數據挖掘軟軟件的發(fā)展展第二代數據據挖掘軟件件特點與數據庫管管理系統(tǒng)((DBMS)集成支持數據庫庫和數據倉倉庫,和它它們具有高高性能的接接口,具有有高的可擴擴展性能夠挖掘大大數據集、、以及更復復雜的數據據集通過支持數數據挖掘模模式(dataminingschema)和數據挖挖掘查詢語語言增加系系統(tǒng)的靈活活性典型的系統(tǒng)統(tǒng)如DBMiner,能通過DMQL挖掘語言進進行挖掘操操作缺陷只注重模型型的生成,,如何和預預言模型系系統(tǒng)集成導導致了第三三代數據挖挖掘系統(tǒng)的的開發(fā)65數據挖掘軟軟件的發(fā)展展第二代數據據挖掘軟件件DBMiner66數據挖掘軟軟件的發(fā)展展第二代軟件件SASEnterpriseMiner67數據挖掘軟軟件的發(fā)展展第三代數據據挖掘軟件件特點和預言模型型系統(tǒng)之間間能夠無縫縫的集成,,使得由數數據挖掘軟軟件產生的的模型的變變化能夠及及時反映到到預言模型型系統(tǒng)中由數據挖掘掘軟件產生生的預言模模型能夠自自動地被操操作型系統(tǒng)統(tǒng)吸收,從從而與操作作型系統(tǒng)中中的預言模模型相聯(lián)合合提供決策策支持的功功能能夠挖掘網網絡環(huán)境下下(Internet/Extranet)的分布式式和高度異異質的數據據,并且能能夠有效地地和操作型型系統(tǒng)集成成缺陷不能支持移移動環(huán)境68數據挖掘軟軟件的發(fā)展展第三代軟件件SPSSClementine以PMML的格式提供供與預言模模型系統(tǒng)的的接口69數據挖掘軟軟件的發(fā)展展第四代數據據挖掘軟件件特點目前移動計計算越發(fā)顯顯得重要,,將數據挖挖掘和移動動計算相結結合是當前前的一個研研究領域。。第四代軟件件能夠挖掘掘嵌入式系系統(tǒng)、移動動系統(tǒng)、和和普遍存在在(ubiquitous)計算設備備產生的各各種類型的的數據第四代數據據挖掘原型型或商業(yè)系系統(tǒng)剛剛起起步,PKDD2001上Kargupta發(fā)表了一篇篇在移動環(huán)環(huán)境下挖掘掘決策樹的的論文,Kargupta是馬馬里里蘭蘭巴巴爾爾的的摩摩州州立立大大學學((UniversityofMarylandBaltimoreCounty)正正在在研研制制的的CAREER數據據挖挖掘掘項項目目的的負負責責人人,,該該項項目目研研究究期期限限是是2001年4月到到2006年4月,,目目的的是是開開發(fā)發(fā)挖挖掘掘分分布布式式和和異異質質數數據據((Ubiquitous設備備))的的第第四四代代數數據據挖挖掘掘系系統(tǒng)統(tǒng)。。70數據據挖挖掘掘軟軟件件的的發(fā)發(fā)展展第一一代代系系統(tǒng)統(tǒng)與與第第二二代代相相比比因因為為不不具具有有和和數數據據管管理理系系統(tǒng)統(tǒng)之之間間有有效效的的接接口口,,所所以以在在數數據據預預處處理理方方面面有有一一定定缺缺陷陷第三三、、四四代代系系統(tǒng)統(tǒng)強強調調預預言言模模型型的的使使用用和和在在操操作作型型環(huán)環(huán)境境的的部部署署第二二代代系系統(tǒng)統(tǒng)提提供供數數據據管管理理系系統(tǒng)統(tǒng)和和數數據據挖挖掘掘系系統(tǒng)統(tǒng)之之間間的的有有效效接接口口第三三代代系系統(tǒng)統(tǒng)另另外外還還提提供供數數據據挖挖掘掘系系統(tǒng)統(tǒng)和和預預言言模模型型系系統(tǒng)統(tǒng)之之間間的的有有效效的的接接口口目前前,,隨隨著著新新的的挖挖掘掘算算法法的的研研究究和和開開發(fā)發(fā),,第第一一代代數數據據挖挖掘掘系系統(tǒng)統(tǒng)仍仍然然會會出出現現,,第第二二代代系系統(tǒng)統(tǒng)是是商商業(yè)業(yè)軟軟件件的的主主流流,,部部分分第第二二代代系系統(tǒng)統(tǒng)開開發(fā)發(fā)商商開開始始研研制制相相應應的的第第三三代代數數據據挖挖掘掘系系統(tǒng)統(tǒng),,比比如如IBMIntelligentScoreService。第第四四代代數數據據挖挖掘掘原原型型或或商商業(yè)業(yè)系系統(tǒng)統(tǒng)剛剛剛剛起起步步。。71數據據挖挖掘掘軟軟件件的的發(fā)發(fā)展數據據挖挖掘掘軟軟件件發(fā)發(fā)展展的的三三個個階階段段獨立立的的數數據據挖挖掘掘軟軟件件橫向向的的數數據據挖挖掘掘工工具具集集縱向向的的數數據據挖挖掘掘解解決決方方案案GregoryPiatetsky-Shapiro的觀觀點點((thePresidentofKDnuggets)72數據據挖挖掘掘軟軟件件的的發(fā)發(fā)展展獨立立的的數數據據挖挖掘掘軟軟件件(95年以以前前))特點點獨立立的的數數據據挖挖掘掘軟軟件件對對應應第第一一代代系系統(tǒng)統(tǒng),,出出現現在在數數據據挖挖掘掘技技術術發(fā)發(fā)展展早早期期,,研研究究人人員員開開發(fā)發(fā)出出一一種種新新型型的的數數據據挖挖掘掘算算法法,,就就形形成成一一個個軟軟件件。。這類類軟軟件件要要求求用用戶戶對對具具體體的的算算法法和和數數據據挖挖掘掘技技術術有有相相當當的的了了解解,,還還要要負負責責大大量量的的數數據據預預處處理理工工作作。。比比如如C4.5決策樹,平行坐標可視視化(parallel-coordinatevisualization)。73橫向的數據挖挖掘工具集((95年開始)發(fā)展原因隨著數據挖掘掘應用的發(fā)展展,人們逐漸漸認識到數據據挖掘軟件需需要和以下三三個方面緊密密結合:1)數據庫和數數據倉庫;2)多種類型的的數據挖掘算算法;3)數據清洗、、轉換等預處處理工作。隨著數據量的的增加,需要要利用數據庫庫或者數據倉倉庫技術進行行管理,所以以數據挖掘系系統(tǒng)與數據庫庫和數據倉庫庫結合是自然然的發(fā)展。現實領域的問問題是多種多多樣的,一種種或少數數據據挖掘算法難難以解決挖掘的數據通通常不符合算算法的要求,,需要有數據據清洗、轉換換等數據預處處理的配合,,才能得出有有價值的模型型74橫向的數據挖挖掘工具集((95年開始)發(fā)展過程隨著這些需求求的出現,1995年左右軟件開開發(fā)商開始提提供稱之為“工具集”的數據挖掘軟軟件特點此類工具集的的特點是提供供多種數據挖挖掘算法包括數據的轉轉換和可視化化由于此類工具具并非面向特特定

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論