第2章數(shù)據(jù)挖掘建模方法_第1頁
第2章數(shù)據(jù)挖掘建模方法_第2頁
第2章數(shù)據(jù)挖掘建模方法_第3頁
第2章數(shù)據(jù)挖掘建模方法_第4頁
第2章數(shù)據(jù)挖掘建模方法_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

商務數(shù)據(jù)挖掘與應用案例分析第2章數(shù)據(jù)挖掘建模方法

2.1概述>>

2.2業(yè)務理解>>

2.3數(shù)據(jù)理解>>2.4數(shù)據(jù)準備>>

2.5建模>>2.6評估>>2.7部署>>

2.1概述(1)成功的數(shù)據(jù)挖掘是讓數(shù)據(jù)有商業(yè)價值,數(shù)據(jù)挖掘分析師需要知道什么對商業(yè)有價值,并且知道為了獲得巨大收益如何整理數(shù)據(jù)。為了成功運用數(shù)據(jù)挖掘,對數(shù)據(jù)挖掘技術層面的理解至關重要,尤其是應該了解如何將數(shù)據(jù)變成有用信息的過程。本章主要介紹跨行業(yè)標準流程CRISP-DM(cross-industrystandardprocessfordatamining)。該模型將一個數(shù)據(jù)挖掘項目的生命周期分為業(yè)務理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建模、評估和部署等6個階段,這個流程為我們提供了一個數(shù)據(jù)挖掘所需步驟的完整概括。2.1概述(2)業(yè)務理解(BusinessUnderstanding)數(shù)據(jù)理解(DataUnderstanding)數(shù)據(jù)準備(DataPreparation)建模(Modeling)評估(Evaluation)部署(Deployment)商業(yè)數(shù)據(jù)挖掘案例某一家銀行存在一個業(yè)務難題,他們的特別商業(yè)產品——家庭抵押貸款額度,不能吸引好的客戶,家庭抵押貸款業(yè)務量低。為此,美國消費者資產協(xié)會決定與Hyperparallel公司合作,采取數(shù)據(jù)挖掘方法來解決這個問題。根據(jù)CRISP-DM建模體系,第一階段是業(yè)務理解。從這個案例來看,主要的業(yè)務問題是解決家庭抵押貸款的業(yè)務量。從業(yè)務角度上看,是否存在一些客戶群體對家庭抵押貸款這項業(yè)務感興趣,而這些客戶群體又有什么共同的特征,客戶什么時候最可能需要這種貸款等等。根據(jù)一般常識和商業(yè)顧問、領域專家的意見,他們認為可能使用家庭貸款業(yè)務的人群有兩種:一種是有孩子上大學的家長,想通過家庭抵押貸款支付學費,另一種是高收入但收入不穩(wěn)定的人,想通過家庭抵押貸款事、使其收入削峰填谷。經過上述的業(yè)務理解后,需要進行數(shù)據(jù)理解。首先要收集數(shù)據(jù)挖掘過程所需要的數(shù)據(jù)。多年來,美國銀行一直將數(shù)百萬的零售客戶數(shù)據(jù)存儲在一個巨大的關系數(shù)據(jù)庫中。關系數(shù)據(jù)庫中的數(shù)據(jù)共有42個字段,每個記錄保存了客戶的詳細信息。收集到原始數(shù)據(jù)后,需要根據(jù)問題識別數(shù)據(jù)有用的特征,檢驗數(shù)據(jù)的質量,對缺失的字段、數(shù)值型變量的取值范圍等質量問題進行檢驗并作處理。然后,對這些數(shù)據(jù)進行篩選,轉換,調整,規(guī)范化后,輸入到公司數(shù)據(jù)倉庫中。美國銀行利用這個系統(tǒng),能參透與銀行保持聯(lián)系的客戶的所有關系。數(shù)據(jù)庫中數(shù)據(jù)的屬性匯集成客戶獨一無二的特征,然后采用Hyperparallel公司的數(shù)據(jù)挖掘工具進行分析。經過數(shù)據(jù)挖掘工具的決策樹功能,按照現(xiàn)有銀行劃分客戶的規(guī)則,將客戶分成兩類,即可能或者不可能對提供家庭抵押貸款做出反應。經過了大量的有購買產品和沒有購買產品的客戶數(shù)據(jù),決策樹最終獲得判定不同類型客戶之間差別的規(guī)則。一旦發(fā)現(xiàn)規(guī)則,利用得到的模型可以給每個潛在客戶記錄增加一個屬性,即好的潛在客戶標志,就是由數(shù)據(jù)挖掘模型生成的。接著使用模式的查找工具,確定客戶什么時候最有可能需要這種貸款。最后,使用聚類工具將具有相似屬性的客戶分成不同的組。在某一點上,數(shù)據(jù)挖掘工具發(fā)現(xiàn)了14個客戶簇,其中很多簇似乎沒有什么特別的發(fā)現(xiàn)。但是,有一個簇具有兩個令人費解的特點:一是這個簇的39%的人不同時擁有企業(yè)和個人賬戶,二是這個簇中的客戶占到家庭抵押貸款可能響應者的四分之一。這些數(shù)據(jù)提示好奇的數(shù)據(jù)挖掘者,上述簇中的客戶有可能使用家庭抵押貸款來從事商業(yè)活動。利用數(shù)據(jù)挖掘的結果,美國消費協(xié)會資產協(xié)會和銀行的零售分支機構聯(lián)合組織市場調查、與客戶面談。市場調查的結果證實了貸款收入將被用于從事商業(yè)活動。盡管市場調查存在一些缺點,例如響應者并不能代表全部的人口,有些客戶并非誠實對待調查等等,但是與現(xiàn)有客戶和以前的客戶進行面談的時候,也可以深入了解其他方式無法得到的情況。對由數(shù)據(jù)挖掘產生的結果進行評估之后,美國銀行制定部署運用方案,并且按照方案采取了相應的措施,最終,家庭抵押貸款的響應率從0.7%上升到了7%。資料來源:(美)MichaelJ.A.Berry(美)GordonS.Linoff著.數(shù)據(jù)挖掘技術:市場營銷、銷售與客戶關系管理領域應用.機械工業(yè)出版社.2006.72.2業(yè)務理解業(yè)務理解是數(shù)據(jù)挖掘的第一個階段,從業(yè)務的角度了解項目的要求和最終目的是什么,并將這些目的與數(shù)據(jù)挖掘的定義以及結果結合起來。具體任務包括:(1)業(yè)務梳理(2)業(yè)務描述(3)業(yè)務特征研究(4)業(yè)務關聯(lián)分析2.3數(shù)據(jù)理解(1)數(shù)據(jù)理解階段是從收集數(shù)據(jù)開始,通過一些活動的處理,目的是熟悉數(shù)據(jù),識別數(shù)據(jù)的質量問題,首次發(fā)現(xiàn)數(shù)據(jù)的內部屬性,或是探測引起興趣的自己去形成隱含信息的假設。其任務包括:(1)數(shù)據(jù)收集(2)數(shù)據(jù)描述(3)數(shù)據(jù)探索(4)數(shù)據(jù)質量檢測2.3數(shù)據(jù)理解(2)(1)數(shù)據(jù)收集在收集數(shù)據(jù)之前,需要根據(jù)業(yè)務問題明確數(shù)據(jù)挖掘過程需要哪些信息,哪些變量是必需的,哪些變量與數(shù)據(jù)挖掘目標不相關,然后根據(jù)選擇的標準收集數(shù)據(jù),檢查是否所有的信息都確實可以利用來實現(xiàn)數(shù)據(jù)挖掘的目標。(2)數(shù)據(jù)描述描述數(shù)據(jù)主要是熟悉數(shù)據(jù),理解數(shù)據(jù)的內涵,檢驗數(shù)據(jù)的“總的”或者“表面的”特征。例如從商業(yè)的角度理解每個變量及其值的含義,變量的含義是否始終一致,變量是否與具體的數(shù)據(jù)挖掘目標相關聯(lián)等。2.3數(shù)據(jù)理解(3)(3)數(shù)據(jù)探索探索數(shù)據(jù)主要是詳細分析引人注目的變量特征,識別潛在的特征,思考和評估在描述數(shù)據(jù)過程中的信息和發(fā)現(xiàn),提出假設并確定方案,闡明數(shù)據(jù)挖掘的目標。例如,電信公司想挖掘出移動業(yè)務之間的關聯(lián)規(guī)則,那么,在描述數(shù)據(jù)后,根據(jù)數(shù)據(jù)的特征,選擇各種可能相關的業(yè)務進行挖掘,對于顯而易見的規(guī)則,則可以不作考慮。比如說開通上網功能的客戶中絕大部分客戶也開通了飛信業(yè)務,則在探索數(shù)據(jù)時,不需要考慮這兩個業(yè)務之間的關聯(lián)。(4)數(shù)據(jù)質量檢測檢驗數(shù)據(jù)質量,列舉有關問題。例如數(shù)據(jù)是否完整、正確,是否存在缺失值,數(shù)值型變量的范圍是否落在允許的范圍內,變量的含義與變量值是否一致等質量問題。2.4數(shù)據(jù)準備(1)數(shù)據(jù)準備階段的工作是對可用的原始數(shù)據(jù)進行一系列的組織以及清洗等預處理,使之達到建模需求,而這些數(shù)據(jù)將是模型工具的輸入值。數(shù)據(jù)準備階段的任務有可能執(zhí)行多次,并且沒有任何規(guī)定的順序。這個階段其任務包括:(1)數(shù)據(jù)篩選(2)數(shù)據(jù)清理(3)數(shù)據(jù)構建(4)數(shù)據(jù)整理合并(5)規(guī)范化數(shù)據(jù)(6)準備建模數(shù)據(jù)集(7)選擇建模技術和訓練模型(1)數(shù)據(jù)篩選數(shù)據(jù)篩選的任務是確定數(shù)據(jù)挖掘分析過程中所必須的數(shù)據(jù),即選擇有用的特征和記錄。在選擇數(shù)據(jù)的時候,首先要考慮的問題是數(shù)據(jù)要符合解決企業(yè)問題的需要。再者,由于用于建模的數(shù)據(jù)應盡可能地完整,數(shù)據(jù)量盡可能多。當開發(fā)預測模型時,資料中也應該包括想要的輸出。2.4數(shù)據(jù)準備(2)(2)數(shù)據(jù)清洗數(shù)據(jù)挖掘過程是否成功,得出的結果模型是否可靠,取決于數(shù)據(jù)質量的好壞。清理數(shù)據(jù)的任務恰恰是清理數(shù)據(jù)中包含的噪聲和與數(shù)據(jù)挖掘主題明顯無關的數(shù)據(jù),從而提高數(shù)據(jù)的質量。清理數(shù)據(jù)通常包括:填補空缺的數(shù)據(jù)值。例如忽略有空缺值的記錄;人工填寫空缺值;使用一個全局變量填寫空缺值;使用屬性的均值填寫空缺值。清理噪聲數(shù)據(jù)。對于噪聲數(shù)據(jù)有以下幾種處理方法:一是分箱,二是聚類方法,通過聚類發(fā)現(xiàn)孤立點。三是計算機與人工相結合的方法,四是回歸分析,建立回歸方程。解決不一致問題。數(shù)據(jù)的不一致主要表現(xiàn)在數(shù)據(jù)的單位、命名、結構、含義不一致??梢酝ㄟ^對數(shù)據(jù)的統(tǒng)一調整進行解決。2.4數(shù)據(jù)準備(3)(3)數(shù)據(jù)構建數(shù)據(jù)構建包括建設性的數(shù)據(jù)準備工作,例如屬性構造,多維數(shù)據(jù)組織(聚集),數(shù)據(jù)泛化處理。屬性構造是指構造新的屬性并添加到屬性集中,以幫助提高數(shù)據(jù)挖掘的過程。多維數(shù)據(jù)組織(聚集)是指對數(shù)據(jù)進行匯總和聚集,采用切片、旋轉等操作將原始數(shù)據(jù)按照多維立體形式組織成為不同層次、不同粒度、不同維度的聚集。數(shù)據(jù)泛化處理是指使用高層次的概念替換低層次的概念。例如短信業(yè)務替換各種不同種類的短信業(yè)務,使用國家替換城市。2.4數(shù)據(jù)準備(4)(4)數(shù)據(jù)整合數(shù)據(jù)整合的主要任務是將來自多數(shù)據(jù)源(例如數(shù)據(jù)庫、文件等)的相關數(shù)據(jù)組合到一起,即把不同來源、格式、特點性質的數(shù)據(jù)在邏輯上或者物理上有機地集合在一起,使之更加有利于數(shù)據(jù)挖掘過程的實現(xiàn)。(5)數(shù)據(jù)規(guī)范化規(guī)格化數(shù)據(jù)就是將有關屬性數(shù)據(jù)按比例縮放,使之落入一個特定的小范圍內,以消除數(shù)值型數(shù)據(jù)因大小不一而造成的數(shù)據(jù)挖掘結果的誤差。常用的規(guī)格化數(shù)據(jù)方法有三種:最大最小規(guī)格化z-score規(guī)格化小數(shù)定標規(guī)格化2.4數(shù)據(jù)準備(5)2.4數(shù)據(jù)準備(6)(6)準備建模數(shù)據(jù)集數(shù)據(jù)準備是在數(shù)據(jù)建模前對數(shù)據(jù)的最后一步進行處理,對數(shù)據(jù)進行上述處理后,還不能直接用于數(shù)據(jù)建模,還需要考慮到數(shù)據(jù)的稀疏程度。通常,對于稀疏的數(shù)據(jù),最好選用15%~30%的比例來建模,例如:在建立欺詐檢測模型時,欺詐記錄的數(shù)據(jù)占比例很小。如果直接用這樣的數(shù)據(jù)進行建模,那么,成功預測沒有欺詐的可能性將會很高。但是這樣得到的模型用處不大甚至完全無用。為了評估模型,一般將建模數(shù)據(jù)集分成三個部分,即訓練集、測試集和評估集。將數(shù)據(jù)的訓練集作為最初用于建立模型的數(shù)據(jù),用測試集和評估集來精化模型和評估模型。2.5建模(1)2.5.1成功建立預測模型的注意要點2.5.2如何建立有效的預測模型2.5建模(2)一個模型的好壞依賴于所選擇的算法和使用的工具。一些工具可以生成許多不同的模型,而且可以自動從中選出最好的模型。可以選擇多種不同的數(shù)據(jù)挖掘技術,每一種技術都有它的優(yōu)缺點。實際應用時,需要根據(jù)數(shù)據(jù)挖掘的目的以及數(shù)據(jù)的特點選擇數(shù)據(jù)挖掘的算法。數(shù)據(jù)挖掘中的建模是針對問題的特定對象,為了特定的數(shù)據(jù)挖掘目的,做出假設,運用適當?shù)臄?shù)據(jù)挖掘工具和其他科學工具建立模型,利用模型解釋特定的現(xiàn)象和預測對象的未來狀況。

2.5.1成功建立預測模型的注意要點(1)對于預測模型而言,當預言與結果相一致時,才能說明預言是有效的然而,要成功建立預測模型,需要注意以下三點:(1)預測模型的時間范圍在建立模型的過程中,首先需要訓練模型,即用歷史數(shù)據(jù)構建模型,進行預測,然后將模型應用于新的數(shù)據(jù)中從而生成結果,這個過程稱為得分,它是用最新的數(shù)據(jù)來預測未來的結果。具體如圖所示:2.5.1成功建立預測模型的注意要點(2)(2)模型的使用有效期在建立預測模型的時候,還需要考慮模型的使用有效期問題,即模型使用有效期和模型預測有效期。模型使用有效期是指在業(yè)務環(huán)境、技術手段、客戶基礎等相對穩(wěn)定的條件下,可以繼續(xù)使用之前建立的預測模型。但是隨著時間的推移,這些條件可能會發(fā)生變化,因此,必須用新的數(shù)據(jù)構建新的模型,而不能用之前建立的模型進行預測。模型預測有效期是指預測結果應該在特定的時間內才有效。例如電信行業(yè)中預測某個特定季度或者特定月份的客戶流失率。在這種情況下,需要對不同季度或者月份使用不同的預測。2.5.1成功建立預測模型的注意要點(3)(3)建立預測模型的假設為什么可以用預測模型來預測現(xiàn)實生活中特定對象的未來狀況?原因是預測模型的成功應用依賴于三個基本假設:假設1:歷史是未來的寫照假設2:數(shù)據(jù)是可以獲得的假設3:數(shù)據(jù)中包含我們的預期目標2.5.2如何建立有效的預測模型(1)建立預測模型最重要的目標是保持模型穩(wěn)定,有效模型的建立需要考慮以下因素:(1)預測建模的第一項任務就是搜集足夠預先分類好的數(shù)據(jù),將模型集分為三部分:訓練集、測試集、評估集,并理解模型在各個子集上的效果。(2)對于類別不平衡的數(shù)據(jù),通過抽樣來控制模型集的密度,即不同分布的類別比例。(3)注意觀察所用數(shù)據(jù)的輸入和輸出時間范圍,所有輸入都必須出現(xiàn)在輸出之前,保留一個執(zhí)行期間是明智的選擇。(4)在模型集中使用多重時間窗口有助于確保模型穩(wěn)定、并在時間上易于轉換。(5)大多數(shù)建模過程需要建立多個模型,并對多個模型的效果進行比較,以選用效果最好的模型進行預測,或者對多個模型進行組合,以得到性能更優(yōu)的集成分類模型。(6)對不同的模型集、模型參數(shù)以及時間范圍進行試驗,有助于建立更好更穩(wěn)定的模型。2.5.2如何建立有效的預測模型(2)在了解以上因素的基礎上,需要掌握建立有效預測模型的基本步驟:(1)用訓練集的數(shù)據(jù)進行訓練建立模型。這步產生的結果是找出數(shù)據(jù)中所包含的預測模式。(2)利用測試集,對模型進行修正。其目的是為了防止模型對訓練集的模式記憶太深,出現(xiàn)過度擬合現(xiàn)象,以使模型更具一般性,并且能夠很好地適應未知數(shù)據(jù)。(3)對模型的效果進行評價。這個過程需要用到評估集,這部分數(shù)據(jù)也是模型集的一部分。它是在建模和測試修正過程中尚未用到的那部分數(shù)據(jù)集。檢測模型的性能可以通過判錯矩陣和增益表(liftchart)或累計增益圖(cumulativegainchart)來評價。2.5.2如何建立有效的預測模型(3)實際值YN預測值Y2%4%N12%82%實際值YN預測值Y7%40%N3%50%a)判錯矩陣判錯矩陣表示了一個模型與事實發(fā)生沖突的可能性。從判錯矩陣中可以看出預測模型預測正確的比例和預測錯誤的比例,使我們認識到模型的執(zhí)行效果,理解模型的結果。

表2-1表示的是判錯矩陣。究竟哪個模型是最優(yōu)的模型,還要視業(yè)務問題而定。

表2-1判錯矩陣2.5.2如何建立有效的預測模型(4)b)累計增益圖累計增益圖是一種常用的用于評估模型執(zhí)行效果的圖表。它的橫軸和縱軸都是百分比構成。橫軸表示資料得分從小到大排序以后,按十分位累計資料百分比。累計增益圖的縱軸表示這部分資料在總資料中的比例。下圖表示的是不同模型產生的累計增益圖表。建模曲線和對角線包圍的面積越大,說明模型的執(zhí)行效果越好。2.6評估評估是將模型輸出的結果與現(xiàn)實生活中發(fā)生的結果進行對比,進一步評估模型。要保證預測結果的有效性,對預測模型進行分析與評價時,應遵循如下原則:合理性預測能力穩(wěn)定性在評估結果之后,需要回顧檢討探測的過程,從而決定后續(xù)的步驟與調整。經過對模型的評估,回顧整個探測的過程,查找建模結果中與現(xiàn)實生活中發(fā)生結果的差距,檢查探測過程的可能出現(xiàn)的錯誤,決定后續(xù)的數(shù)據(jù)挖掘的步驟并做出相應的調整。2.7部署模型的作用是從數(shù)據(jù)中找到知識,獲得的知

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論