版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘原理數(shù)據(jù)挖掘受多學科的影響 數(shù)據(jù)挖掘是一個交叉科學領(lǐng)域,受多個學科影響,包括數(shù)據(jù)庫系統(tǒng)、統(tǒng)計、機器學習、可視化和信息科學。 一個比較正式的數(shù)據(jù)挖掘的定義高層次上的主動式自動發(fā)現(xiàn)方法,被稱為發(fā)現(xiàn)驅(qū)動型知識發(fā)現(xiàn)。從數(shù)據(jù)中提取正確的、有用的、未知的和綜合的信息并用它進行決策的過程。數(shù)據(jù)挖掘的相關(guān)學科是統(tǒng)計理論、數(shù)據(jù)庫技術(shù)和人工智能。前Business Objects的Todd Rowe曾表示:“從技術(shù)上講,甚至只要有完備的Excel數(shù)據(jù)就能用上BI?!?過程數(shù)據(jù)挖掘并不是一個裝在軟件包裝盒中的工具可以簡單的買到并運行在商業(yè)智能環(huán)境中,也不會自動開始產(chǎn)生值得注意的商業(yè)規(guī)律。正確的提取的信息應(yīng)該
2、是正確的,并且在統(tǒng)計上是重要的以支持有依據(jù)的決定。正確意味著確證性和完整性。不但需要從數(shù)據(jù)庫中得到正確的客戶,還希望得到所有正確的客戶。這就需要原始數(shù)據(jù)和數(shù)據(jù)挖掘過程都具有正確性。有用的數(shù)據(jù)挖掘過程可能會傳遞正確的和重要的結(jié)果,但是這些知識必須是對商業(yè)有用的。如結(jié)果告訴你要在一個大量的渠道上多樣化市場運作,這可能會無法辦到。同樣結(jié)果必須使你能搶在競爭對手之前行動。未知的數(shù)據(jù)挖掘要產(chǎn)生新的信息。如果過程只是傳遞一些無關(guān)緊要的結(jié)果,那么數(shù)據(jù)挖掘的商業(yè)動力就會消失。這就是區(qū)分驗證和探索的性質(zhì)。最小要求以上顯示了數(shù)據(jù)挖掘最小要求,可以用它來評價數(shù)據(jù)挖掘是否對業(yè)務(wù)環(huán)境增加了附加的價值其他要求十大數(shù)據(jù)挖掘
3、算法頂級數(shù)據(jù)挖掘會議ICDM于2006年12月評選出了數(shù)據(jù)挖掘領(lǐng)域的十大經(jīng)典算法:C4.5 k-Means SVM Apriori EM PageRank AdaBoost kNN Nave Bayes CARTICDM 2014年擴展了以上的十種,另外添加了8種FP-Tree(關(guān)聯(lián)分析)HITS(鏈接挖掘)BIRCH(聚類)GSP(序列模式)PrefixSpan (序列模式)CBA(集成挖掘)Finding reduct(粗糙集)gSpan(圖挖掘)典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu) Verification-Driven AnalysisVerification-driven data mining
4、tools extract data. The user is expected to generate information based on his interpretation of the returned data.數(shù)據(jù)挖掘可以做什么?分類和預(yù)測 聚類關(guān)聯(lián)分析描述和可視化Market Based Analysis and Up-Selling/Cross-SellingPharmaceutical Industry:Drug Effectiveness by Patient TypeDefect Analysis in ManufacturingUniversity and Emp
5、loyee RecruitmentEmployee Turnover PredictionsCreditRiskDeterminationCreditCardFraudCustomer Grouping and Behaviour Prediction數(shù)據(jù)挖掘過程占70%的工作量,是最重要的階段占25%的工作量數(shù)據(jù)挖掘各階段的時間分配數(shù)據(jù)挖掘流程國際標準CRISP-DM(1)數(shù)據(jù)挖掘流程國際標準CRISP-DM(2)1996年提出的行業(yè)無關(guān)、應(yīng)用無關(guān)的數(shù)據(jù)挖掘過程標準Cross Industry Standard Process for Data Mining(CRISP-DM)。這個標準把挖
6、掘過程分為六個階段:定義業(yè)務(wù)問題(business understanding)、數(shù)據(jù)理解(data understanding)、數(shù)據(jù)預(yù)處理(data preparation)、數(shù)據(jù)建模(data modeling)、模型評估(evaluation)和部署(deployment)。商業(yè)理解。這可能是數(shù)據(jù)挖掘最重要的階段。商業(yè)理解包括確定業(yè)務(wù)對象、評估情 況、確定數(shù)據(jù)挖掘目標以及制訂工程計劃。數(shù)據(jù)理解。數(shù)據(jù)提供了數(shù)據(jù)挖掘的“原材料”。此階段用于了解您的數(shù)據(jù)源以及這些數(shù)據(jù)的特征。此階段包括收集初始數(shù)據(jù)、描述數(shù)據(jù)、探索數(shù)據(jù)和驗證數(shù)據(jù)質(zhì)量?!拜敵龉?jié)點”選項板上提供的數(shù)據(jù)審核節(jié)點是一個用于數(shù)據(jù)理解的、
7、不可或缺的工具。、數(shù)據(jù)準備。對數(shù)據(jù)源進行分類之后,您需要準備數(shù)據(jù),以便進行挖掘。準備包括選 擇、清理、構(gòu)建、集成數(shù)據(jù)以及格式化數(shù)據(jù)。建模。此階段毫無疑問是數(shù)據(jù)挖掘的核心部分,在此階段將使用精巧復(fù)雜的分析 方法從數(shù)據(jù)中提取信息。此階段包括選擇建模技術(shù)、生成測試設(shè)計,以及構(gòu)建 和評估模型。評估。選定模型之后,就可以評估數(shù)據(jù)挖掘結(jié)果在多大程度上能夠幫助您實現(xiàn)業(yè)務(wù) 目標了。此階段的要素包括評估結(jié)果、查看數(shù)據(jù)挖掘過程,以及確定后續(xù)步驟。部署。既然您已經(jīng)付出了上述所有努力,現(xiàn)在就應(yīng)該有所獲益了。此階段主要是將 您的新知識結(jié)合到日常的業(yè)務(wù)流程中,來解決最初的業(yè)務(wù)問題。此階段包括計劃部 署、監(jiān)視和維護、生成最
8、終報告,以及復(fù)查該工程。數(shù)據(jù)挖掘流程國際標準CRISP-DM(3)IBM SPSS Modeler可視化界面AlphaMiner界面數(shù)據(jù)挖掘過程是循環(huán)的過程上圖會容易造成一個線性過程的印象。事實上,每一步的結(jié)果會導致這樣一個結(jié)論:需要從前幾步中得到更多的信息,并不斷重復(fù)這一過程。這些循環(huán)保證了最后的結(jié)果是完全為業(yè)務(wù)量身定制的。 業(yè)務(wù)分析理想化地,公司中的所有活動都在不同程度上通過策略和商業(yè)目標與公司的任務(wù)描述相關(guān)。數(shù)據(jù)挖掘使你能夠比以前在更高的層次上控制你的目標。業(yè)務(wù)分析涉及到領(lǐng)域?qū)<液屯诰驅(qū)<?。前者專心于?guī)定商業(yè)需求,而后者從數(shù)據(jù)挖掘的觀點上保證這些要求的可行性,并且具體說明滿足這些要求所需
9、的挖掘操作。數(shù)據(jù)分析為了研究使用統(tǒng)計方法的數(shù)據(jù),可能有必要清理數(shù)據(jù),添入缺損的值,或者從幾個系統(tǒng)中將數(shù)據(jù)整合起來。數(shù)據(jù)分析將會對以后步驟中必須的數(shù)據(jù)轉(zhuǎn)換提供一個初步的了解,比如數(shù)據(jù)清理和整合??赡芤矔赋霁@取外部的信息是必要的,比如說日常商業(yè)運作中并不需要的顧客人口統(tǒng)計數(shù)據(jù)。在這一步中涉及到的角色是挖掘?qū)<?,他們?zhí)行大部分的任務(wù),還有數(shù)據(jù)庫管理員,他們將通過提供數(shù)據(jù)的訪問權(quán)限來支持這些活動。數(shù)據(jù)準備當挖掘所需的數(shù)據(jù)可供使用時,往往需要在真正進行挖掘前做一些準備工作。對于是否需要做這些準備工作,大部分在數(shù)據(jù)分析步驟中進行評估。數(shù)據(jù)質(zhì)量數(shù)據(jù)顯示出一些特定的值,叫做偏離點,它們遠離預(yù)期的正常范圍。這
10、些值可用多種方法來處理:如果它們?nèi)栽诂F(xiàn)實中存在的話,對這些數(shù)據(jù)取對數(shù)可以將它們轉(zhuǎn)化到較小的范圍。否則可以將包含這些值的記錄除去,或者將所有記錄中的相關(guān)屬性除去??杖敝狄粋€更常見的問題是空缺值。此外,有些記錄的值可能空缺,或者某一個屬性可能會有大量的空缺值。對第一種情況,可以不使用這些記錄;對第二種情況,可以丟棄這個屬性。猜測空缺值另一種處理空缺值的方法是歸咎(imputation)。可以用幾種技術(shù)來猜測空缺值,下面是一些相關(guān)技術(shù),復(fù)雜度逐漸增加:從別的記錄中隨機抽取一個值添入。取其他記錄中對應(yīng)屬性的最頻值,中間數(shù)或平均數(shù)。對其他記錄中這個屬性的值分布做一個統(tǒng)計模型,然后根據(jù)分布情況,隨機選一個
11、值。試圖用統(tǒng)計或挖掘技術(shù)從相似記錄的值中預(yù)估空缺值。數(shù)據(jù)預(yù)處理 數(shù)據(jù)中的不一致性數(shù)據(jù)挖掘能夠有效地處理數(shù)據(jù)中的不一致性。即使源數(shù)據(jù)是干凈的、整合的和經(jīng)過驗證的,它們?nèi)杂锌赡馨F(xiàn)實世界的不真實的數(shù)據(jù)。有效認識和解決數(shù)據(jù)質(zhì)量相關(guān)問題的唯一辦法,就是企業(yè)對內(nèi)部處理流程進行監(jiān)視、分析和報告。美國硬盤生產(chǎn)商Maxtor公司的首期信息長官斯考特.??栒f “商務(wù)智能最大的困難在于需要確保用于總結(jié)性分析和儀表板中的最底層的數(shù)據(jù)永遠干凈、一致并相關(guān)。我們需要數(shù)據(jù)倉庫具備自我治療能力,能夠自動地感應(yīng)、偵查、通告和維修任何不正確、缺失或未經(jīng)核對的數(shù)據(jù)因素。但這至少需要一到兩年才會發(fā)生。” 噪聲這種噪聲可能是由用
12、戶的錯誤輸入或是顧客填寫問卷時的筆誤造成的。如果這些錯誤不是發(fā)生的太頻繁,數(shù)據(jù)挖掘工具還是能夠忽略它們,并且找出數(shù)據(jù)中存在的整體模式。臟數(shù)據(jù)形成的原因濫用縮寫詞數(shù)據(jù)輸入錯誤不同的慣用語(如:ASAP對“at first chance”)重復(fù)記錄丟失值拼寫變化不同的計量單位過時的編碼數(shù)據(jù)清洗 (客戶數(shù)據(jù))Maggie.klinefuture_ Margaret Smith-Kline phdFUTURE Electronics 5/23/03101 6th avemanhattanny10012001124367Salutation: Ms.First name: MargaretLast na
13、me: Smith-KlinePostname: Ph. D.Match standards: Maggie, Peg, PeggyGender: Strong FemaleCompany name: Future ElectronicsAddress 1: 101 Avenue of the AmericasCity: New YorkState: NYZIP+4: 10013-1933Email: maggie.klinefuture_SSN: 001-12-4367Date May 23, 2003輸入記錄輸出記錄Ms Margaret Smith-Kline Ph.D.Future E
14、lectronics101 Avenue of the AmericasNew York NY 10013-1933maggie.klinefuture_May 23, 2003姓名: Ms. Margaret Smith-Kline Ph.D.公司名: Future Electronics Co. LLC社會保障號: 001-12-4367購買日期: 5/23/2003地址: 101 Avenue of the AmericasNew York, NY 10013-1933緯度: 40.722970經(jīng)度: -74.005035Fed code: 36061電話: (222) 922-9922
15、Email: maggie.klinefuture_輸入記錄合并的記錄Maggie SmithFuture Electronics Co. LLC101 6th Ave.Manhattan, NY 10012maggie.klinefuture_001-12-4367Ms. Peg KlineFuture Elect. Co.101 6th Ave.New York NY 10013001-12-4367(222) 922-99225/23/03匹配和合并數(shù)據(jù)清理處理內(nèi)容格式標準化異常數(shù)據(jù)清除錯誤糾正重復(fù)數(shù)據(jù)的清除屬性間的相互依賴性數(shù)據(jù)挖掘?qū)瑫r從不同角度來看待數(shù)據(jù)。這就防止了把某些自身看起來好像不相關(guān)的屬性丟棄的情況。數(shù)據(jù)挖掘?qū)l(fā)現(xiàn)屬性間的相互依賴性,這些相互依賴性往往需要提取數(shù)據(jù)中的所有相關(guān)信息,甚至是隱藏在多個屬性的組合中。結(jié)果解釋對結(jié)果的解釋完全依賴于數(shù)據(jù)挖掘步驟的可視化輸出。對結(jié)果的解釋需要挖掘?qū)<液皖I(lǐng)域?qū)<业木o密合作。他們一起將技術(shù)的結(jié)果解釋為商業(yè)的意義,并且評價從這些結(jié)果中得出結(jié)論的正確性。當結(jié)果從技術(shù)上來說是正確的,但對商業(yè)上來說并不意味著任何有價值的東西的時候,有必要進行迭代。商業(yè)應(yīng)用一個例子就是預(yù)測所有客戶中的可創(chuàng)造高利潤的群體,必須決定如何去接近這些客戶,同時還要決定如何判斷
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 培訓學校推廣宣傳
- 安全教育幼兒園中班
- 巡視巡察業(yè)務(wù)培訓
- KYN28A-12外殼技術(shù)規(guī)范
- 產(chǎn)科接種室全員培訓綜合試題
- 2025技術(shù)服務(wù)合同合同范本
- 保供煤戰(zhàn)略合作協(xié)議
- 2025機器設(shè)備買賣合同協(xié)議模板
- 2025建材租賃版合同
- 待產(chǎn)期間的護理禮儀
- TCACM 1603-2024 手法通乳中醫(yī)技術(shù)操作規(guī)范
- 廣東省潮州市潮安區(qū)2023-2024學年五年級上學期期末考試數(shù)學試題
- 醫(yī)療科研倫理審核制度
- 鉆機操作規(guī)程專項培訓考試題及答案
- 2024助貸委托服務(wù)協(xié)議合同模板
- 工程款結(jié)算協(xié)議書-景觀綠化結(jié)算
- 成人教育培訓方案
- 王者榮耀各英雄各項初始、滿級屬性-成長值
- 飲食春節(jié)健康宣教課件
- 《論語》學而篇-第一課件
- 光伏項目安全專項施工方案
評論
0/150
提交評論