版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第7章CRM系統(tǒng)中的商業(yè)智能技術(shù)數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)挖掘理解三種技術(shù)的的應(yīng)用CRM系統(tǒng)中商業(yè)智能技術(shù)本章主要內(nèi)容:)聯(lián)機分析處理數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第一節(jié)商業(yè)智能商業(yè)智能是從大量的數(shù)據(jù)和信息中發(fā)掘有用的知識,并用于決策以增加商業(yè)利潤,是一個從數(shù)據(jù)到信息到知識的處理過程。商業(yè)智能用來輔助商業(yè)活動作出快速反應(yīng),加快知識的獲取速度,減少企業(yè)不確定性因素的影響。因此能很好地滿足管理層和決策層對信息知識的時間性和準(zhǔn)確性的要求。商業(yè)智能在我國尚處于起步階段,雖然其在發(fā)展和應(yīng)用過程中仍存在很多不足,但商業(yè)智能正朝著實時性、標(biāo)準(zhǔn)化、集成性、實用性、大眾化方向發(fā)展。
商業(yè)智能的定義數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能支撐技術(shù):數(shù)據(jù)倉庫為平臺,數(shù)據(jù)挖掘OLAP互補,進行分析體系結(jié)構(gòu):以Web服務(wù)形式提供,以XML形式發(fā)放BI應(yīng)用的分析結(jié)果是新的發(fā)展趨勢。應(yīng)用系統(tǒng):BI系統(tǒng)將更具專業(yè)化和行業(yè)化的特點,與企業(yè)門戶、企業(yè)應(yīng)用集成緊密相連商業(yè)智能的發(fā)展商業(yè)智能的發(fā)展第一節(jié)商業(yè)智能數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)倉庫決策支持企業(yè)決策層OLAP數(shù)據(jù)挖掘數(shù)據(jù)存儲提取、清洗、轉(zhuǎn)化業(yè)務(wù)數(shù)據(jù)庫決策信息反饋到實際的業(yè)務(wù)系統(tǒng)中
商業(yè)智能系統(tǒng)的構(gòu)成商業(yè)智能系統(tǒng)由業(yè)務(wù)數(shù)據(jù)倉庫系統(tǒng)、決策支持系統(tǒng)等部分構(gòu)成。圖7-12商業(yè)智能系統(tǒng)的數(shù)據(jù)處理循環(huán)第一節(jié)商業(yè)智能數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能商務(wù)智能系統(tǒng)的三大支撐技術(shù)數(shù)據(jù)倉庫技術(shù)
OLAP
數(shù)據(jù)倉庫完成了數(shù)據(jù)的收集、集成、存儲、管理等工作,商務(wù)智能面對的是經(jīng)過加工的數(shù)據(jù),能更專注于信息的提取和知識的發(fā)現(xiàn)。OLAP從多種角度對原始數(shù)據(jù)進行分析,將其轉(zhuǎn)化為用戶所理解、并真實反映企業(yè)經(jīng)營情況的信息,為決策提供依據(jù)。數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)能高度自動化地分析數(shù)據(jù),做出歸納性推理,挖掘出潛在的模式,幫助決策者作出正確的決策。
商業(yè)智能系統(tǒng)的支撐技術(shù)第一節(jié)商業(yè)智能數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能客戶智能是創(chuàng)新和使用客戶知識,幫助企業(yè)提高優(yōu)化客戶關(guān)系的決策能力和整體運營能力的概念、方法、過程以及軟件的集合。
客戶智能客戶智能的理解理論基礎(chǔ)信息系統(tǒng)層面數(shù)據(jù)分析層面知識發(fā)現(xiàn)層面戰(zhàn)略層面
客戶智能的定義第一節(jié)商業(yè)智能數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能客戶知識,顧名思義,是有關(guān)客戶的知識??蛻糁R包括客戶的消費偏好、喜歡選用的接觸渠道、消費特征等許多描述客戶的知識??蛻糁R是人們通過實踐認識到的、與客戶有關(guān)的規(guī)律性,而客戶智能是獲得客戶知識并使用客戶知識求解問題的能力??蛻糁悄苁菍ζ髽I(yè)戰(zhàn)略決策真正有價值的事物和行動。生成客戶知識的過程稱之為客戶知識的加工處理過程,客戶智能不僅包括了客戶知識的生成,而且強調(diào)了客戶知識在企業(yè)中的分發(fā)、使用,直到產(chǎn)生客戶智能。
客戶知識第一節(jié)商業(yè)智能數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能客戶知識生成客戶知識分發(fā)客戶檔案客戶知識使用營銷客戶服務(wù)。。。。客戶智能客戶智能圖7-13客戶智能的生成、分發(fā)和使用第一節(jié)商業(yè)智能數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能
(1)客戶知識的生成(generation):使用商業(yè)智能提供的OLAP分析工具、數(shù)據(jù)挖掘工具或兩種工具的組合,發(fā)現(xiàn)存在于客戶數(shù)據(jù)中的模式、規(guī)則、概念、規(guī)律的整個過程,稱為客戶知識的生成。
(2)客戶知識的分發(fā)(distribution):客戶知識必須到達組織內(nèi)每一個需要客戶知識的部分。將客戶知識存儲與動態(tài)知識庫,借助CRM的系統(tǒng)平臺,將客戶知識分發(fā)到需要的終端。
(3)客戶知識的使用(usingit):將客戶信息和知識投入使用是CRM的最后一個環(huán)節(jié)。許多CRM和知識發(fā)現(xiàn)沒有成功,很大程度上在于產(chǎn)生的與客戶有關(guān)的信息和知識不能投入使用。第一節(jié)商業(yè)智能數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第二節(jié)數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫的產(chǎn)生沒有(一致的)全局信息→很難產(chǎn)生正確的決策沒有(完整的)歷史數(shù)據(jù)→歷史數(shù)據(jù)分析(經(jīng)驗)發(fā)展趨勢預(yù)測隱含信息挖掘→更難支持企業(yè)決策研究企業(yè)范圍內(nèi)的數(shù)據(jù)集成多數(shù)據(jù)庫系統(tǒng)面向問題的分析海量數(shù)據(jù)存儲產(chǎn)生一項新的信息技術(shù)
DataWarehousingDW的概念起源于20世紀(jì)80年代美國著名信息工程學(xué)家W.H.Inmon博士RecordSystemAtomicData→提出數(shù)據(jù)倉庫的概念DecisionSupportDatabase數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第二節(jié)數(shù)據(jù)倉庫概述早期數(shù)據(jù)倉庫的定義的重要文獻:
MartinHubel1986.10DataBaseandtheDataWarehousingConcept
數(shù)據(jù)倉庫的定義B.A.DevilinP.T.Murphy
AnArchitectureforaBusinessandInformationSystem—IBMSystemJournal其中,披露了一項IBM的內(nèi)部研究計劃目的:構(gòu)造一種“以關(guān)系數(shù)據(jù)庫為基礎(chǔ)的公司數(shù)據(jù)的集成化倉儲”倉儲的使用者:不是IT人員而是各級決策者→數(shù)據(jù)倉庫1991年,IBM公司正式公布其DW構(gòu)架INDEPTH→成功開發(fā)DW數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第二節(jié)數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫(datawarehouse)是一個面向主題的(subjectoriented)、集成的(integrated)、非易失的(non-volatile)、隨時間變化的(timevariant)數(shù)據(jù)集合,用于支持管理決策。面向主題集成性非易失性時變性
在數(shù)據(jù)倉庫中,所有數(shù)據(jù)都是圍繞一定主題進行。對于同一主題:關(guān)系數(shù)據(jù)庫中,數(shù)據(jù)分布在相關(guān)的數(shù)據(jù)表中,在數(shù)據(jù)倉庫中,數(shù)據(jù)存放在同一數(shù)據(jù)表中。數(shù)據(jù)倉庫中數(shù)據(jù)都經(jīng)過清洗、過濾、轉(zhuǎn)換。都有統(tǒng)一得格式、消除了源數(shù)據(jù)中結(jié)構(gòu)、表示方式、代碼含義,不一致性
對于支持決策,歷史數(shù)據(jù)非常重要。數(shù)據(jù)一旦寫入,幾乎不再更改,除非錯誤。對數(shù)據(jù)倉庫的操作只是數(shù)據(jù)追加。所以數(shù)據(jù)倉庫中數(shù)據(jù)是非易失的(穩(wěn)定的)數(shù)據(jù)倉庫中數(shù)據(jù)是只增不刪的,所以記錄了所有的數(shù)據(jù)。反映企業(yè)各個時期的信息,即反映企業(yè)隨時間動態(tài)變化的數(shù)據(jù)。
數(shù)據(jù)倉庫的定義數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第二節(jié)數(shù)據(jù)倉庫概述面向主題案例數(shù)據(jù)結(jié)構(gòu):銷售管理系統(tǒng)顧客(顧客號,姓名,性別,年齡,文化程度,地址,電話)銷售(員工號,顧客號,商品號,數(shù)量,單價,日期)采購管理系統(tǒng)訂單(訂單號,供應(yīng)商號,總金額,日期)訂單細則(訂單號,商品號,類別,單價,數(shù)量)供應(yīng)商(供應(yīng)商號,供應(yīng)商名,地址,電話)庫存管理系統(tǒng)領(lǐng)料單(領(lǐng)料單號,領(lǐng)料人,商品號,數(shù)量,日期)進料單(進料單號,訂單號,進料人,收料人,日期)庫存(商品號,庫房號,庫存量,日期)庫房(庫房號,倉庫管理員,地點,庫存商品描述)數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第二節(jié)數(shù)據(jù)倉庫概述面向主題案例這種數(shù)據(jù)組織的特點:對相關(guān)部門的數(shù)據(jù)進行收集和處理,重點是“數(shù)據(jù)”和“處理”數(shù)據(jù)按部門的組織結(jié)構(gòu)和業(yè)務(wù)活動特點進行;數(shù)據(jù)是不斷變化和反復(fù)更新的,所以,是動態(tài)的,要求的是處理的速度和即時性(只反映當(dāng)時的情況);數(shù)據(jù)庫中存儲的表與部門中的業(yè)務(wù)報表基本上是對應(yīng)的,所以,直觀,處理方便,易理解;數(shù)據(jù)庫建立的本質(zhì):數(shù)據(jù)與處理分離(在程序中不分離)因為:很多應(yīng)用涉及同一數(shù)據(jù)項,而同一數(shù)據(jù)項分散在不同的
數(shù)據(jù)庫中→造成數(shù)據(jù)的不一致性。
這樣的數(shù)據(jù)處理方式稱為“聯(lián)機事務(wù)處理”
——OLTP
數(shù)據(jù)庫的存儲要求冗余?。ǜ鞣N范式)速度快(保留一定的冗余)數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第二節(jié)數(shù)據(jù)倉庫概述按主題組織數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu):
商品商品固有信息(商品號,商品名,類別,顏色,…)商品采購信息(商品號,供應(yīng)商號,供應(yīng)價,供應(yīng)日期,供應(yīng)量,…)商品銷售信息(商品號,顧客號,售價,銷售日期,銷售量,….)商品庫存信息(商品號,庫房號,庫存量,日期,…)
供應(yīng)商供應(yīng)商固有信息(供應(yīng)商號,供應(yīng)信息,地址,電話,…)供應(yīng)商品信息(供應(yīng)商號,商品號,供應(yīng)價,供應(yīng)日期,供應(yīng)量,…)
顧客顧客固有信息(顧客號,顧客名,性別,年齡,文化程度,住址,電話,…)顧客購物信息(顧客號,商品號,售價,購買日期,購買量,…)①企業(yè)關(guān)心的業(yè)務(wù)方向:客戶,商品,供應(yīng)商②對上述分析對象,可圍繞主題進行數(shù)據(jù)組織:采購銷售庫存商品(一致)信息,便于聯(lián)機分析處理OLAP數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能(1)數(shù)據(jù)粒度粒度級別綜合程度數(shù)據(jù)量數(shù)據(jù)細節(jié)(詳細度)高高小低低低大高面向數(shù)據(jù)挖掘面向OLAP粒度的大小反映數(shù)據(jù)倉庫的數(shù)據(jù)綜合程度。粒度越小,數(shù)據(jù)越詳細,數(shù)據(jù)量也越大。(表7-1)反映的是抽樣率。抽樣率的確定取決于源數(shù)據(jù)量的大小和數(shù)據(jù)挖掘的具體要求。源數(shù)據(jù)量越大,抽樣率越低。表7-1數(shù)據(jù)粒度的相關(guān)指標(biāo)數(shù)據(jù)粒度的劃分是設(shè)計最重要的工作,需考慮數(shù)據(jù)倉庫可接受的分析類型和最低粒度以及能存儲的數(shù)據(jù)量。一般數(shù)據(jù)倉庫都選擇多重粒度的結(jié)構(gòu)。重要概念第二節(jié)數(shù)據(jù)倉庫概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)分割常見形式垂直分割水平分割圖解分割(2)數(shù)據(jù)分割
數(shù)據(jù)分割就是將大量的數(shù)據(jù)分成獨立的、較小的單元進行存儲以提高數(shù)據(jù)處理的效率。在進行分割時要考慮數(shù)據(jù)量、數(shù)據(jù)對象和粒度劃分策略等幾個方面。一個表垂直分成兩部分,把一個大表分成兩個表,表之間通過關(guān)鍵字段關(guān)聯(lián)。表按行分成兩部分,表被用來存儲用戶聯(lián)系緊密的本地重要數(shù)據(jù),減少網(wǎng)絡(luò)查詢。經(jīng)過多個分布系統(tǒng)把一個圖分解成兩部分,從指定的服務(wù)器或在多個服務(wù)器之間建立連接而得到一個表所需要的全部數(shù)據(jù)。第二節(jié)數(shù)據(jù)倉庫概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第二節(jié)數(shù)據(jù)倉庫概述特性數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)面向業(yè)務(wù)操作數(shù)據(jù)分析存儲讀寫操作多為只讀使用頻率高較低數(shù)據(jù)訪問量少多要求的響應(yīng)時間較短可以很長關(guān)注數(shù)據(jù)輸入信息輸出
數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別表7-2數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別
數(shù)據(jù)庫只存儲當(dāng)前數(shù)據(jù),而數(shù)據(jù)倉庫存放歷史數(shù)據(jù);數(shù)據(jù)庫主要面向業(yè)務(wù)操作,而數(shù)據(jù)倉庫面向數(shù)據(jù)分析和決策支持;數(shù)據(jù)庫中的數(shù)據(jù)是動態(tài)變化的,隨時刷新,而數(shù)據(jù)倉庫中的數(shù)據(jù)是靜態(tài)的,一般不會改變;數(shù)據(jù)庫使用頻率比數(shù)據(jù)倉庫高,數(shù)據(jù)訪問量少,要求響應(yīng)時間短。數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能企業(yè)外部數(shù)據(jù)
數(shù)據(jù)倉庫存儲
業(yè)務(wù)操作型系統(tǒng)數(shù)據(jù)清洗/轉(zhuǎn)換數(shù)據(jù)提取提取倉庫數(shù)據(jù)挖掘系統(tǒng)/數(shù)據(jù)展現(xiàn)系統(tǒng)數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)集市
數(shù)據(jù)倉庫的體系結(jié)構(gòu)數(shù)據(jù)元數(shù)據(jù)圖7-3數(shù)據(jù)倉庫的體系結(jié)構(gòu)圖第二節(jié)數(shù)據(jù)倉庫概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能
數(shù)據(jù)倉庫的體系結(jié)構(gòu)
由于數(shù)據(jù)庫和數(shù)據(jù)倉庫應(yīng)用的出發(fā)點不同,因此數(shù)據(jù)倉庫與業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)是相互獨立的,但數(shù)據(jù)倉庫又同業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)密切相關(guān)。數(shù)據(jù)倉庫是將業(yè)務(wù)操作型系統(tǒng)中的數(shù)據(jù)提取出來,輔以企業(yè)外部數(shù)據(jù),這些數(shù)據(jù)經(jīng)過清洗和轉(zhuǎn)換,存儲在數(shù)據(jù)倉庫中。數(shù)據(jù)倉庫不只存儲業(yè)務(wù)數(shù)據(jù),還存儲記錄數(shù)據(jù)信息的元數(shù)據(jù)。數(shù)據(jù)倉庫中還可以抽取部門型數(shù)據(jù)倉庫,即數(shù)據(jù)集市。數(shù)據(jù)最終傳送給數(shù)據(jù)挖掘系統(tǒng)或數(shù)據(jù)展現(xiàn)系統(tǒng),以供數(shù)據(jù)分析或展現(xiàn)給用戶。所以,數(shù)據(jù)倉庫不是簡單地對數(shù)據(jù)進行存儲,而是對數(shù)據(jù)進行“再組織”。第二節(jié)數(shù)據(jù)倉庫概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能傳統(tǒng)數(shù)據(jù)庫面向操作型環(huán)境,系統(tǒng)設(shè)計人員能夠明確了解用戶需求,因此傳統(tǒng)數(shù)據(jù)庫一般采用系統(tǒng)生命周期法(systemdevelopmentlifecycle,SDLC)。而數(shù)據(jù)倉庫面向分析型應(yīng)用,設(shè)計人員要在與用戶不斷溝通的基礎(chǔ)上,逐步明確與完善系統(tǒng)需求,因此數(shù)據(jù)倉庫設(shè)計采用CLDS(cyclelifedevelopmentsystem)方法。需求分析貫穿整個數(shù)據(jù)倉庫設(shè)計過程。數(shù)據(jù)倉庫的設(shè)計方法與步驟第二節(jié)數(shù)據(jù)倉庫概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)倉庫的設(shè)計方法與步驟第二節(jié)數(shù)據(jù)倉庫概述圖7-4SDLC方法和CLDS方法比較數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)倉庫的設(shè)計方法與步驟第二節(jié)數(shù)據(jù)倉庫概述表7-3數(shù)據(jù)倉庫設(shè)計與數(shù)據(jù)庫設(shè)計的區(qū)別比較內(nèi)容數(shù)據(jù)庫設(shè)計數(shù)據(jù)倉庫設(shè)計面向的處理類型面向操作型應(yīng)用面向分析型應(yīng)用應(yīng)用需求比較明確不太明確系統(tǒng)設(shè)計的目標(biāo)事務(wù)處理的并發(fā)性、安全性保證數(shù)據(jù)有面向主題、集成穩(wěn)定和隨時間變化等特點數(shù)據(jù)來源業(yè)務(wù)操作員輸入業(yè)務(wù)系統(tǒng)系統(tǒng)設(shè)計方法需求驅(qū)動數(shù)據(jù)驅(qū)動數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)倉庫的設(shè)計方法與步驟第二節(jié)數(shù)據(jù)倉庫概述圖7-5數(shù)據(jù)倉庫設(shè)計的主要步驟數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第三節(jié)CRM系統(tǒng)中的數(shù)據(jù)倉庫技術(shù)最終用戶信息使用者知識挖掘者
數(shù)據(jù)倉庫的用戶
信息使用者使用數(shù)據(jù)倉庫是經(jīng)常性的、重復(fù)性的,只訪問很少的一部分?jǐn)?shù)據(jù)。每次查詢也許是相同的幾個指標(biāo),運用數(shù)據(jù)倉庫可以快速、準(zhǔn)確地得到他們所需要的信息。信息使用者是操作型用戶。
知識挖掘者不只查詢數(shù)據(jù)倉庫目前能夠提供的信息,還通過數(shù)據(jù)分析找到其中的隱含信息,用以發(fā)現(xiàn)更深層次的知識來指導(dǎo)決策。知識挖掘者是分析型用戶。知識挖掘者在使用數(shù)據(jù)倉庫時,先對數(shù)據(jù)進行概括分析,然后根據(jù)需要從數(shù)據(jù)倉庫中抽取數(shù)據(jù),對抽取出來的數(shù)據(jù)選擇合適的數(shù)據(jù)挖掘算法進行建模分析,最后是根據(jù)建模分析得到的知識對數(shù)據(jù)倉庫進行分類處理。數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能客戶數(shù)據(jù)倉庫的功能動態(tài)、整合的客戶數(shù)據(jù)管理和查詢功能基于數(shù)據(jù)倉庫支持的客戶關(guān)系結(jié)構(gòu)和忠誠客戶識別功能基于WEB數(shù)據(jù)倉庫的信息共享功能基于數(shù)據(jù)倉庫支持的客戶購買行為參考功能基于數(shù)據(jù)倉庫支持的客戶流失警示功能
CRM系統(tǒng)中數(shù)據(jù)倉庫的功能CRM的數(shù)據(jù)倉庫必須是動態(tài)的、整合的數(shù)據(jù)庫系統(tǒng)。動態(tài)指數(shù)據(jù)庫能夠?qū)崟r地提供客戶的基本資料和歷史交易行為等信息,并在客戶每次交易完成后,能夠自動補充新的信息;整合是指客戶數(shù)據(jù)庫與企業(yè)其他資源和信息系統(tǒng)要綜合、統(tǒng)一,各業(yè)務(wù)部門及人員可根據(jù)職能、權(quán)限的不同實施信息查詢和更新功能,客戶數(shù)據(jù)倉庫與企業(yè)的各交易渠道和聯(lián)絡(luò)中心必須緊密結(jié)合等。
實施忠誠客戶管理的企業(yè)需要制定一套合理的建立和保持客戶關(guān)系的格式或結(jié)構(gòu)。即企業(yè)要像建立雇員的提升計劃一樣,建立一套把新客戶提升為老客戶的計劃和方法。例如,航空公司的里程積累計劃——客戶飛行了一定的里程數(shù),便可以獲得相應(yīng)的免費里程,或根據(jù)客戶要求提升艙位等級等。
企業(yè)運用客戶數(shù)據(jù)倉庫,可以使每一個服務(wù)人員在為客戶提供產(chǎn)品和服務(wù)時,明確客戶的偏好和習(xí)慣,從而提供更具有針對性的個性化服務(wù)。例如,讀者俱樂部都有定制寄送服務(wù),他們能根據(jù)會員最后一次的選擇和購買記錄,以及他們最近一次與會員交流獲得的有關(guān)個人生活信息,向會員推薦不同的書籍。
企業(yè)的客戶數(shù)據(jù)倉庫將通過對客戶歷史交易行為的觀察和分析,發(fā)揮警示客戶異常購買行為的功能。如一位客戶的購買周期或購買量出現(xiàn)顯著萎縮變化時,就是潛在的客戶流失跡象??蛻魯?shù)據(jù)庫通過自動監(jiān)視客戶的交易資料,對客戶的潛在流失現(xiàn)象作出警示。Web數(shù)據(jù)倉庫將成為企業(yè)信息共享的基礎(chǔ)架構(gòu)??蛻魯?shù)據(jù)倉庫應(yīng)擁有可以通過瀏覽器使用的接口,以成為支持客戶關(guān)系管理的基本架構(gòu),并且數(shù)據(jù)倉庫要能夠通過用戶的簡單點擊就可以獲得分析結(jié)果。CRM環(huán)境下連接分散單位的數(shù)據(jù)中心建成關(guān)鍵在于Web數(shù)據(jù)倉庫構(gòu)造之初就為其所有部分確立一致的數(shù)據(jù)元,并通過一致的數(shù)據(jù)元實現(xiàn)數(shù)據(jù)倉庫的總線體系結(jié)構(gòu)。第三節(jié)CRM系統(tǒng)中的數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能圖7-6客戶數(shù)據(jù)倉庫的體系結(jié)構(gòu)
數(shù)據(jù)挖掘?qū)Ψ治龅慕Y(jié)果進行評估客戶信息客戶活動清洗、轉(zhuǎn)換外部數(shù)據(jù)聯(lián)機分析處理數(shù)據(jù)倉庫數(shù)據(jù)準(zhǔn)備客戶數(shù)據(jù)集市
CRM系統(tǒng)中數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)第三節(jié)CRM系統(tǒng)中的數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能
CRM系統(tǒng)中數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)
數(shù)據(jù)通過抽取、轉(zhuǎn)換和裝載,形成數(shù)據(jù)倉庫,并通過OLAP和報表,將客戶的整體行為分析和企業(yè)運營分析等傳遞給數(shù)據(jù)倉庫用戶。在數(shù)據(jù)倉庫中,利用數(shù)據(jù)倉庫的ETL(extraction-transformation-loading)工具,針對行為分組和尋找重點客戶的需要,產(chǎn)生相應(yīng)的數(shù)據(jù)集市(DM),將分析結(jié)果與性能評價等傳遞給CRM用戶。對于客戶量巨大、市場策略對企業(yè)影響較大的企業(yè),CRM要以數(shù)據(jù)倉庫為核心。數(shù)據(jù)來源客戶信息客戶行為生產(chǎn)系統(tǒng)其他相關(guān)數(shù)據(jù)第三節(jié)CRM系統(tǒng)中的數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能分析建立企業(yè)模型概念模型設(shè)計邏輯模型設(shè)計物理模型設(shè)計數(shù)據(jù)倉庫生成確定系統(tǒng)邊界及主題域技術(shù)準(zhǔn)備工作確定數(shù)據(jù)的存儲結(jié)構(gòu)
確定數(shù)據(jù)存放位置
確定存儲分配
CRM系統(tǒng)中數(shù)據(jù)倉庫的設(shè)計與實施第三節(jié)CRM系統(tǒng)中的數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能客戶數(shù)據(jù)倉庫的建立注意問題數(shù)據(jù)信息收集和集成確保數(shù)據(jù)的質(zhì)量
按規(guī)則更新客戶數(shù)據(jù),保持對已有客戶的統(tǒng)一看法數(shù)據(jù)倉庫統(tǒng)一共享,以發(fā)揮最大作用為進一步了解客戶身份及其需求,并做出預(yù)測,企業(yè)需要花費一些精力進行分析,因此產(chǎn)生了數(shù)據(jù)信息搜集。成功地使用數(shù)據(jù)信息搜集是CRM建設(shè)的重要步驟。CRM的客戶數(shù)據(jù)倉庫需要把企業(yè)內(nèi)外的客戶數(shù)據(jù)集成起來。就客戶數(shù)據(jù)集成來講,企業(yè)需要對客戶進行匹配和合并。首先,在建立CRM數(shù)據(jù)庫時,一定要確認由應(yīng)用程序所生成的客戶編碼的唯一性;其次,建立完整、準(zhǔn)確的客戶數(shù)據(jù)倉庫,姓名和地址這兩個信息片段是很重要的,一定要進行分解和規(guī)范化;最后,對企業(yè)想收集又沒有一定結(jié)構(gòu)且信息量比較大的數(shù)據(jù)一定要非常慎重,比如文本信息。首先識別新數(shù)據(jù)性質(zhì),新客戶的數(shù)據(jù)給一個獨立的標(biāo)識,在數(shù)據(jù)倉庫中插入一條新的記錄;如果是已有客戶的數(shù)據(jù),更新客戶記錄的相關(guān)信息片段。數(shù)據(jù)更新要求同步化是CRM數(shù)據(jù)倉庫的特點之一。
統(tǒng)一共享的客戶數(shù)據(jù)倉庫把銷售、市場營銷和客戶服務(wù)的所有信息連接起來。如果一個企業(yè)的信息來源互相獨立,那么這些信息會不可避免地出現(xiàn)重復(fù)、互相沖突等現(xiàn)象,這對企業(yè)的整體運作效率將產(chǎn)生消極的影響。第三節(jié)CRM系統(tǒng)中的數(shù)據(jù)倉庫技術(shù)CRM系統(tǒng)中數(shù)據(jù)倉庫的設(shè)計與實施數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能CRM中數(shù)據(jù)倉庫的應(yīng)用客戶行為分析重點客戶發(fā)現(xiàn)
市場性能評估客戶行為分析包括整體行為分析和群體行為分析兩個方面。整體行為分析用來發(fā)現(xiàn)企業(yè)所有客戶的行為規(guī)律,行為分組時按照客戶的不同種類的行為,將客戶劃分成不同的群體。在行為分組完成后,要進行客戶理解、客戶行為規(guī)律發(fā)現(xiàn)和客戶組間交叉分析等。重點客戶發(fā)現(xiàn)主要是發(fā)現(xiàn)能為企業(yè)帶來潛在效益的重要客戶。根據(jù)客戶的屬性特點就可以挖掘出重點客戶,然后做好保持和提高這些重點客戶的忠誠度工作。此外,通過數(shù)據(jù)倉庫的數(shù)據(jù)清洗與集中過程,可以將客戶對市場的反饋自動輸入數(shù)據(jù)倉庫中,這個獲得客戶反饋的過程,稱為客戶行為追蹤。根據(jù)客戶行為分析,企業(yè)可以準(zhǔn)確地制定市場策略和市場活動。然而,這些市場活動是否能夠達到預(yù)定的目標(biāo),是改進市場策略和評價客戶行為分組性能的重要指標(biāo)。因此,在CRM中必須對行為分析和市場策略進行評估。第三節(jié)CRM系統(tǒng)中的數(shù)據(jù)倉庫技術(shù)CRM系統(tǒng)中數(shù)據(jù)倉庫的應(yīng)用數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用OLAP是共享多維信息的、針對特定問題的聯(lián)機數(shù)據(jù)快速訪問和分析的軟件技術(shù)。它通過對信息的多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行深入觀察。相關(guān)概念變量維維的層次性維成員多維數(shù)組數(shù)據(jù)單元
聯(lián)機分析處理的概念
數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能變量:分析數(shù)據(jù)時要考慮的屬性,即描述數(shù)據(jù)“是什么”。維:是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性,屬性集合構(gòu)成一個維。維的層次性:人們觀察數(shù)據(jù)的某個特定角度(即某個維)還可以存在細節(jié)程度不同的各個描述方面,我們稱這多個描述方面為維的層次。一個維往往具有多個層次。維成員:維的一個取值,若維分為幾個層次,那么維成員就是不同維層次取值的組合。多維數(shù)組:多維數(shù)組是維和變量的組合表示。一個多維數(shù)組可以表示為:(維1,維2,…,維n,變量)。數(shù)據(jù)單元:數(shù)據(jù)單元是多維數(shù)組的取值。當(dāng)多維數(shù)組的各個維都選中一個維成員,這些維成員的組合就唯一確定了一個變量的值。那么數(shù)據(jù)單元就可以表示為:(維1維成員,維2維成員,…,維n維成員,變量的值)。
聯(lián)機分析處理的概念
第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能
多維數(shù)據(jù)模型上的OLAP操作
對多維數(shù)據(jù)集(維1、維2、維3……維n、變量值)在維度i上選定一個維成員,得到一個n-1維多維數(shù)據(jù)集,稱得到的這個n-1維多維數(shù)據(jù)集為原數(shù)據(jù)集在第i維上的數(shù)據(jù)切片。OLAP的分析方法數(shù)據(jù)切片數(shù)據(jù)切塊數(shù)據(jù)鉆取數(shù)據(jù)聚集數(shù)據(jù)旋轉(zhuǎn)在多維數(shù)據(jù)立方體中,確定某些維度的取值范圍,得到一個原立方體的子立方體的過程被稱為數(shù)據(jù)切塊。數(shù)據(jù)切塊與數(shù)據(jù)切片得到的多維數(shù)組都是原多維立方體的子集,不同的是數(shù)據(jù)切片使多維立方體降低了一個維度,而數(shù)據(jù)切塊得到的多維立方體與原立方體的維度是相同的。
數(shù)據(jù)鉆取(數(shù)據(jù)下鉆),是由概括的數(shù)據(jù)到詳細的數(shù)據(jù)的過程。數(shù)據(jù)鉆取對應(yīng)于維的層次,它是由維的高層次展開到低層次的一個動作。比如,我們由“年”數(shù)據(jù)下鉆到“季度”數(shù)據(jù),這無疑會增加數(shù)據(jù)細節(jié)和數(shù)據(jù)量,得到更詳細的數(shù)據(jù)。數(shù)據(jù)鉆取的具體操作參見圖7—2中的數(shù)據(jù)鉆取部分。數(shù)據(jù)聚集又叫數(shù)據(jù)上卷,是數(shù)據(jù)鉆取的逆過程。數(shù)據(jù)聚集是將詳細的數(shù)據(jù)聚集為較概括的數(shù)據(jù),是一個綜合數(shù)據(jù)的動作。
數(shù)據(jù)旋轉(zhuǎn)即變換維度的位置,也就是轉(zhuǎn)動數(shù)據(jù)的視角,給用戶提供一個從不同的角度觀察數(shù)據(jù)的方法。第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能
原數(shù)據(jù)立方體包含了時間(年)、城市、產(chǎn)品三個維度,其中a1,a2為產(chǎn)品名。鉆取過程是按時間下鉆,由年數(shù)據(jù)得到季度數(shù)據(jù),數(shù)據(jù)由原來的兩行展為八行。聚集過程是按地區(qū)維度上卷,將城市維上卷為國家維,即將北京、上海兩城市數(shù)據(jù)統(tǒng)計為中國的數(shù)據(jù),將東京、大阪兩城市的數(shù)據(jù)統(tǒng)計為日本的數(shù)據(jù)。數(shù)據(jù)聚集和數(shù)據(jù)鉆取為用戶提供了不同層次觀察數(shù)據(jù)的方法。20073季20071季20061季20063季20074季20072季20064季20062季a1a2
北京上海東京大阪鉆取聚集a2a120062007中國日本20062007北京上海東京大阪a1a2圖7-7
數(shù)據(jù)鉆取與聚集聚集鉆取第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能20062007A1200230A2456478A3100120A1A2A320062004561002007230478120圖7-8
數(shù)據(jù)旋轉(zhuǎn)圖7-8是數(shù)據(jù)旋轉(zhuǎn)的一個簡單示例,只體現(xiàn)了二維表的旋轉(zhuǎn)。當(dāng)數(shù)據(jù)是三維或是三維以上的多維數(shù)據(jù)時,數(shù)據(jù)旋轉(zhuǎn)將更有意義,每進行一次數(shù)據(jù)旋轉(zhuǎn)就可以從一個新的視角觀察數(shù)據(jù)。第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能OLAP的特點
聯(lián)機分析處理的用戶是企業(yè)中的專業(yè)分析人員及管理決策人員,在分析業(yè)務(wù)經(jīng)營的數(shù)據(jù)時,從不同的角度來審視業(yè)務(wù)的衡量指標(biāo)是一種很自然的思考模式。比如,分析銷售數(shù)據(jù)時,綜合時間周期、產(chǎn)品類別、分銷渠道、地理分布、客戶群類生成一張張報表,各個分析角度的不同組合又可以生成不同的報表,使得IT人員的工作量相當(dāng)大。聯(lián)機分析處理的主要特點是直接仿照用戶的多角度思考模式,預(yù)先為用戶組建多維的數(shù)據(jù)模型。一旦多維數(shù)據(jù)模型建立完成,用戶可以快速地從各個分析角度獲取數(shù)據(jù),也能動態(tài)地在各個角度之間切換或者進行多角度綜合分析,具有極大的分析靈活性。這也是聯(lián)機分析處理近年來被廣泛關(guān)注的根本原因,它從設(shè)計理念和真正實現(xiàn)上都與舊的管理信息系統(tǒng)有著本質(zhì)的區(qū)別。第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能OLAP的應(yīng)用
數(shù)據(jù)倉庫系統(tǒng)核心是聯(lián)機分析處理,從應(yīng)用的角度來說,數(shù)據(jù)倉庫還可以采用傳統(tǒng)的報表或數(shù)理統(tǒng)計和數(shù)據(jù)挖掘等人工智能方法,涵蓋的范圍更廣;從應(yīng)用的范圍來說,聯(lián)機分析處理往往根據(jù)用戶分析的主題進行應(yīng)用分類,如銷售分析、市場推廣分析、客戶利潤率分析等,每一個分析的主題形成一個OLAP應(yīng)用,而所有的OLAP應(yīng)用實際上只是數(shù)據(jù)倉庫系統(tǒng)的一部分。
以某家電企業(yè)為例介紹OLAP的應(yīng)用。家電的多維分析涉及產(chǎn)品、銷售數(shù)量、地區(qū)和時間4個維。所有抽查的數(shù)據(jù)都是第1季度的。第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能冰箱銷售第1季度,冰箱在什么地區(qū)銷售情況最好?第1季度,哪個省份的冰箱銷量處于領(lǐng)先地位?第1季度,哪個城市的冰箱銷售數(shù)量最高?負責(zé)冰箱銷售的副總裁提出了以下3個問題:解決方法需要用到OLAP的兩種多維分析方法,即數(shù)據(jù)切片/切塊和數(shù)據(jù)鉆取,其他的分析方法還有數(shù)據(jù)旋轉(zhuǎn)和數(shù)據(jù)聚集等。第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能產(chǎn)品地點時間電視冰箱空調(diào)華東東北西北2006.42007.12007.22007.3冰箱圖7-9
運用數(shù)據(jù)切片來進行數(shù)據(jù)分析首先使用數(shù)據(jù)切片方法來對第一個問題進行分析。在圖7-9的數(shù)據(jù)立方體中,時間、地區(qū)和產(chǎn)品分別是3個維度,銷售額是度量變量。在產(chǎn)品維上選定“冰箱”則形成在產(chǎn)品維上的數(shù)據(jù)切片,顯示了冰箱在各地區(qū)和各月份的銷售情況。第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能
數(shù)據(jù)鉆取和聚集會改變維的層次,變換分析的粒度,在家電企業(yè)的例子中,必須采用聯(lián)機分析處理工具深入的地區(qū)維中,通過數(shù)據(jù)鉆取來查看某地區(qū)維中更細致的數(shù)據(jù)。(如圖7-10所示)。項目2007年1季度2007年1季度2007年1季度電視數(shù)量冰箱數(shù)量空調(diào)數(shù)量西北360334489935621華東859357995495526東北460613604023312表7-4按地區(qū)劃分的銷售數(shù)據(jù)通過模型驅(qū)動工具來查詢數(shù)據(jù)倉庫的數(shù)據(jù),如表7-4第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能冰箱44899西北79954華東36040東北25309浙江29344江蘇17866吉林18174遼寧西北東北華東冰箱24632陜西20267甘肅25301山東圖7-10
運用數(shù)據(jù)鉆取來進行數(shù)據(jù)分析圖7-10表示的是對地區(qū)維數(shù)據(jù)鉆取的第一步,即顯示了該家電企業(yè)按地區(qū)劃分的各省份的冰箱銷售量(如表7-5所示);更深一步的鉆取可以顯示出各城市的銷售情況,得到表7-6。第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能項目2007年1季度2007年1季度2007年1季度電視數(shù)量冰箱數(shù)量空調(diào)數(shù)量西北陜西25596
2463219420甘肅100372026716201華東山東175512530121356浙江274012530936522江蘇409832934437648東北吉林172041786611211遼寧288571817412101表7-5按地區(qū)和省進行劃分的銷售數(shù)據(jù)第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能
項目2007年1季度2007年1季度2007年1季度電視數(shù)量冰箱數(shù)量空調(diào)數(shù)量西北陜西西安145691354411308咸陽11027110888112甘肅蘭州7205111699846天水283290986355華東山東濟南87701210910699青島87811319210657浙江杭州145711402519326寧波128301128417196江蘇南京226751662419665蘇州183081272017983東北吉林長春900394136847四平820184534364遼寧沈陽1675196315745大連1212685436356表7-6按地區(qū)、省和城市進行劃分的銷售數(shù)據(jù)第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能通過OLAP得出了負責(zé)冰箱銷售的副總裁所提出的3個問題的答案:2007年第1季度,冰箱在華東地區(qū)銷售情況最好。2007年第1季度,在華東地區(qū),江蘇的冰箱銷售量處于領(lǐng)先地位。2007年第1季度,江蘇的南京冰箱銷售量最高。OLAP的應(yīng)用第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘(datamining)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中提取人們感興趣的知識,這些知識是隱含的、事先未知的、潛在有用的信息。它是通過分析數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)內(nèi)部的信息和知識過程。
數(shù)據(jù)挖掘的基礎(chǔ)是大量數(shù)據(jù),所以具有高效處理大量數(shù)據(jù)的能力。這也是目前數(shù)據(jù)挖掘技術(shù)的一個難題,一些算法在小數(shù)據(jù)集上效果很好,但數(shù)據(jù)量增加到一定程度,算法的實現(xiàn)代價過大、效率太低,甚至無法實現(xiàn)。
數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)來源事務(wù)數(shù)據(jù)庫高級數(shù)據(jù)庫數(shù)據(jù)倉庫關(guān)系數(shù)據(jù)庫
數(shù)據(jù)挖掘的數(shù)據(jù)來源關(guān)系數(shù)據(jù)庫:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)是最豐富、最詳細的。在進行數(shù)據(jù)挖掘之前也要對數(shù)據(jù)進行清洗和轉(zhuǎn)換。數(shù)據(jù)的真實性和一致性是進行數(shù)據(jù)挖掘的前提和保證。數(shù)據(jù)倉庫:數(shù)據(jù)經(jīng)過清洗和轉(zhuǎn)換,不存在錯誤和不一致的情況,數(shù)據(jù)倉庫在獲取數(shù)據(jù)后就不需要再進行這些數(shù)據(jù)處理工作了。數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和聯(lián)機分析處理共同構(gòu)成了系統(tǒng)的決策支持模塊。事務(wù)數(shù)據(jù)庫:數(shù)據(jù)挖掘可從事務(wù)數(shù)據(jù)庫中提取數(shù)據(jù)。其每個記錄代表一個事務(wù)。在進行數(shù)據(jù)挖掘時,可以只將一個或幾個事務(wù)數(shù)據(jù)庫集中到數(shù)據(jù)挖掘庫中進行挖掘。高級數(shù)據(jù)庫:面向?qū)ο蟮臄?shù)據(jù)庫、空間數(shù)據(jù)庫、時間和時間序列數(shù)據(jù)庫、文本和多媒體數(shù)據(jù)庫等新的數(shù)據(jù)庫。這些結(jié)構(gòu)更為復(fù)雜的數(shù)據(jù)庫為數(shù)據(jù)挖掘提供了更加全面、更加多元化的數(shù)據(jù),也為數(shù)據(jù)挖掘技術(shù)提出了更大的挑戰(zhàn)。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能
數(shù)據(jù)挖掘的基本步驟數(shù)據(jù)挖掘包括確定分析和預(yù)測目標(biāo)、建立數(shù)據(jù)挖掘庫、分析數(shù)據(jù)、建立模型、模型評估與驗證、模型實施等幾個基本步驟。第五節(jié)數(shù)據(jù)挖掘概述圖7-11數(shù)據(jù)挖掘的基本步驟數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能
數(shù)據(jù)挖掘的基本步驟第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘的基本步驟1)確定分析和預(yù)測目標(biāo)確定分析和預(yù)測目標(biāo)相當(dāng)于需求分析,主要是明確業(yè)務(wù)目標(biāo)。確定分析和預(yù)測目標(biāo)是數(shù)據(jù)挖掘的基礎(chǔ)條件。同時,定義了數(shù)據(jù)挖掘的分析目標(biāo)也就定義了評價這一挖掘模型的標(biāo)準(zhǔn)。2)建立數(shù)據(jù)挖掘庫首先要進行數(shù)據(jù)收集,對于收集到的數(shù)據(jù),應(yīng)對數(shù)據(jù)的來源、大小、存儲位置和數(shù)據(jù)在使用上的限制等進行詳細的記錄。完成數(shù)據(jù)收集后,要對數(shù)據(jù)進行描述。數(shù)據(jù)挖掘庫可以是一個單獨的數(shù)據(jù)庫,也可以和數(shù)據(jù)倉庫建立在相同的物理介質(zhì)上。數(shù)據(jù)挖掘庫中還應(yīng)包括數(shù)據(jù)的元數(shù)據(jù)。
3)分析數(shù)據(jù)
分析數(shù)據(jù)即對數(shù)據(jù)挖掘庫中的數(shù)據(jù)進行分析,對數(shù)據(jù)有了全面、細致的了解以后,就可以針對數(shù)據(jù)挖掘分析目標(biāo)選擇合適的變量和記錄。對于變量的選擇,首先要考慮對結(jié)果有影響、可以反映結(jié)果的變量。4)建立模型建立模型是選擇合適的方法和算法對數(shù)據(jù)進行分析,得到一個數(shù)據(jù)挖掘模型的過程。建立模型是一個反復(fù)進行的過程,它需要不斷地改進或更換算法以尋找對目標(biāo)分析作用最明顯的模型,最后得到一個最合理、最適用的模型。
5)模型評估與驗證
為了驗證模型的有效性,一般會將數(shù)據(jù)集分為兩部分:一部分用于建立模型,另一部分則用于測試模型。對模型的驗證主要需要考慮以下幾個方面:(1)模型的準(zhǔn)確性;(2)模型的可理解性;(3)模型的性能。模型建立和模型檢驗是一個反復(fù)的過程。6)模型實施模型的實施有兩種情況:一種是將數(shù)據(jù)挖掘模型得到的結(jié)果提供給信息需求者或者管理者,以輔助管理者的決策分析;還有一種情況就是保留模型,以后每遇到類似問題就用這個模型進行分析,或者將模型用于不同的數(shù)據(jù)集上(這些數(shù)據(jù)分析需要采用相同的方法)進行分析。在模型的使用過程中,隨時間及環(huán)境的變化,還應(yīng)對模型進行重新測試,并對模型進行相應(yīng)的修改,這就是模型維護的過程。數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)挖掘工具及其選擇第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘工具包括數(shù)據(jù)挖掘(datamining)工具和文本挖掘(textmining)工具。數(shù)據(jù)挖掘工具主要是用來進行聚類分析、關(guān)聯(lián)分析、時間序列分析以及統(tǒng)計分析的。文本挖掘工具主要應(yīng)用在市場調(diào)研報告中或呼叫中心(callcenter)的客戶抱怨定級、專利的分類、網(wǎng)頁的分類以及電子郵件的分類等方面。一般而言,目前市場上這些數(shù)據(jù)挖掘工具又可以分成兩類:企業(yè)級工具以及小型工具。數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)挖掘工具及其選擇第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘工具的選擇①公司的數(shù)據(jù)挖掘需求是短期行為還是長期使用②公司的數(shù)據(jù)挖掘經(jīng)驗和水平③公司的數(shù)據(jù)狀態(tài)④公司的預(yù)算⑤工具的性能數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能CRM中常用的數(shù)據(jù)挖掘算法1)關(guān)聯(lián)分析(associationanalysis)設(shè)I={i1,i2,…………im}是項的集合。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,其中每個事務(wù)T是項的集合,使得T∈I。每一個事務(wù)有一個標(biāo)識符,稱作TID。設(shè)A是一個項集,事務(wù)T包含A當(dāng)且僅當(dāng)A∈T。項的集合稱為項集(Itemset)。包含k個項的集合稱為K-項集。項集的出現(xiàn)頻率是包含項集的事務(wù)數(shù),簡稱為項集的頻率、支持計數(shù)或計數(shù)。關(guān)聯(lián)規(guī)則是形如AB的蘊含式,其中A∈I,B∈I,并且A∩B=。規(guī)則AB在事務(wù)集D中成立,具有支持度s,其中s是D中包含A∪B的事務(wù)的百分比。它是概率P(A∪B)。規(guī)則AB在事務(wù)集D中具有置信度c,如果D中包含A的事務(wù)中同時也包含B的事務(wù)的百分比是c。這是條件概率P(B|A)。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能
CRM中常用的數(shù)據(jù)挖掘算法支持度Support(AB)=P(A∪B)置信度Confidence(AB)=P(B|A)同時滿足最小支持度和最小置信度的規(guī)則稱為強規(guī)則。關(guān)聯(lián)規(guī)則挖掘就是尋找強規(guī)則的過程。如果項集滿足最小支持度,則稱為頻繁項集
Apriori算法是一個關(guān)于單維、單層、布爾規(guī)則的方法。因此它也是關(guān)聯(lián)規(guī)則挖掘中形式最簡單的方法。
Apriori算法是一個逐層迭代尋找頻繁集的方法。如果項集滿足最小支持度,稱為頻繁項集。
Apriori算法的性質(zhì)是頻繁項集的所有非空子集一定是頻繁的。Apriori算法第五節(jié)數(shù)據(jù)挖掘概述1)關(guān)聯(lián)分析(associationanalysis)數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能Apriori算法的實例表7-7是一個事務(wù)數(shù)據(jù),ID表示顧客號,“購買商品”表示顧客一次購買的商品名稱。規(guī)定最小支持度為60%,最小置信度為80%。ID購買商品1{K,A,D,B}2{D,A,C,E,B}3{C,A,B,E}4{B,A,D}表7-7事務(wù)數(shù)據(jù)第四步,L2與L2連接,得到候選項集。根據(jù)Apriori算法的性質(zhì)去掉不符合條件的候選項,即有不頻繁子集的項。然后掃描記錄,對候選集中剩余候選項計算支持度。根據(jù)最小支持度得到頻繁項集L3。第五步,繼續(xù)重復(fù)上述動作,直到所得頻繁項集Ln為空,則頻繁項集Ln-1即為最大頻繁項集。第一步,掃描每條記錄,對每個項(即每種商品)出現(xiàn)的次數(shù)計數(shù)。第二步,根據(jù)最小支持度確定頻繁項集L1。第三步,L1與L1連接,得到候選項集。掃描記錄,對候選集中候選項計算支持度。根據(jù)最小支持度得到頻繁項集L2。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能Apriori算法的實例圖7-12Apriori算法過程實例{F}25%項集支持度{A}100%{B}100%{C}50%{D}75%{E}50%根據(jù)最小支持度60%得到頻繁1項集L1連接產(chǎn)生候選集項集支持度{A}100%{B}100%{D}75%項集{A,B}{A,D}集{B,D}計算支持度項集支持度{A,B}100%{A,D}100%{B,D}75%全部滿足最小支持度連接產(chǎn)生新的頻繁2項集L2項集{A,B,D}支持度75%第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能得到一個頻繁項集{A,B,D}。這就是用Apriori算法尋找頻繁項集的過程。但關(guān)聯(lián)規(guī)則挖掘的最終目的是找到強規(guī)則。列出最終得到的頻繁項集{A,B,D}可產(chǎn)生的關(guān)聯(lián)規(guī)則,計算規(guī)則的置信度,如表7-8所示。規(guī)則置信度A∧BD75%A∧DB100%B∧DA100%A
B∧D75%BA∧D75%DA∧B100%表7-8關(guān)聯(lián)規(guī)則的置信度
根據(jù)最小置信度80%,可得到三個強規(guī)則A∧DB、B∧DA和DA∧B。至此,完成了一個最簡單的規(guī)則挖掘。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能案例
本例演示了對美國眾議院議員投票記錄應(yīng)用關(guān)聯(lián)分析的結(jié)果。
案例中的數(shù)據(jù)來自于1984年美國國會投票數(shù)據(jù)庫,可以在UCI機器學(xué)習(xí)庫中找到。每一個事務(wù)包含議員的黨派信息,以及他/她對16個關(guān)鍵問題的投票記錄。數(shù)據(jù)集共有435個事務(wù)和34個項。表1中列出了所有的項。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能案例1984年美國國會投票記錄的二元屬性列表。信息源:UCI機器學(xué)習(xí)庫RepublicanDemocrathandicapped-infants=yeshandicapped-infants=nowaterprojectcostsharing=yeswaterprojectcostsharing=nobudget-resolution=yesbudget-resolution=nophysicianfeefreeze=yesphysicianfeefreeze=noaidtoEISalvador=yesaidtoEISalvador=noreligiousgroupsinschools=yesreligiousgroupsinschools=noanti-satellitetestban=yesanti-satellitetestban=noaidtoNicaragua=yesaidtoNicaragua=noMX-missile=yesMX-missile=noimmigration=yesimmigration=nosynfuelcorporationcutback=yessynfuelcorporationcutback=noeducationspending=yeseducationspending=noright-to-sue=yesright-to-sue=nocrime=yescrime=noduty-free-exports=yesduty-free-exports=noexportadministrationact=yesexportadministrationact=yes第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能
設(shè)定minsup=30%和minconf=90%,對數(shù)據(jù)集采用Apriori算法。下表列舉了算法產(chǎn)生的一些高置信度的規(guī)則。從1984年美國國會投票記錄中提取的關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則
置信度{budgetresolution=no,MX-missile=no,aidtoE1Salvador=yes}
{Republican}91.0%{budgetresolution=yes,MX-missile=yes,aidtoE1Salvador=no}
{Democrat}97.5%{crime=yes,right-to-sue=yes,physicianfeefreeze=yes}
{Republican}93.5%{crime=no,right-to-sue=no,physicianfeefreeze=no}
{Democrat}100%案例第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能
前兩個規(guī)則暗示大部分同時投aidtoEISalvador贊成票、投budget-resolution和MX-missile反對票的是共和黨人;而同時投aidtoE1Salvador反對票、投budget-resolution和MX-missile贊成票的是民主黨人。這些高置信度的規(guī)則表明關(guān)鍵的問題可以將國會成員分為兩個政黨。如果降低最小置信度,將會發(fā)現(xiàn)很難找到區(qū)分政黨的特定問題。
例如,當(dāng)最小置信度為40%時,這些規(guī)則暗示對于一個問題兩個政黨的投票差不多——投反對票的成員52.3%是共和黨人,另外47.7%的是民主黨人。案例第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能C=先購買了商品X的組數(shù)先購買了商品X在購買商品Y的組數(shù)S=總組數(shù)先購買了商品X在購買商品Y的組數(shù)置信度支持度客戶號日期商品號數(shù)量甲2007-04-03A14B32007-04-04C11乙2007-06-05C2B3D132007-06-08B10D122)序列模式分析(sequentialpatternanalysis)以組(同一顧客)為基準(zhǔn),并且在Item1和Item2之間保持時間順序關(guān)系,可得一個最簡單的序列規(guī)則(見表7-10)。如表7-9的第一行所示,客戶在購買了商品A之后,必定隨著購買商品B,其置信度C為1,支持度S為0.5。表7-9按時間分類表第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能Item1Item2置信度C支持度SAB10.5BC0.50.5A,BC0.50.5BB0.50.5BD0.50.5BB,D0.50.5B,C,DB,D0.50.5表7-10序列規(guī)則第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能客戶編號債務(wù)情況收入情況工作類型信用風(fēng)險1HighHighSelf-employedBad2HighHighSalariedBad3HighLowSalariedBad4LowLowSalariedGood5LowLowSelf-employedBad6LowHighSalariedGood7LowHighSalariedGood3)分類分析(classificationanalysis)
基于債務(wù)水平、收入水平和工作情況,可對給定用戶進行信用風(fēng)險分析。分類分析通過判斷以上屬性與已知訓(xùn)練數(shù)據(jù)中風(fēng)險程度的關(guān)系給出預(yù)測結(jié)果。決策樹是一種常見且有用的預(yù)測模式。表7—11是一個可用于判斷信用風(fēng)險的訓(xùn)練數(shù)據(jù)集。表7-11
原始數(shù)據(jù)
第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能AllCreditRiskGood:3Bad:4Debt=LowCreditRiskGood:3Bad:1Debt=HighCreditRiskGood:0Bad:3EmploymentType=Self-employedCreditRiskGood:0Bad:1EmploymentType=salariedCreditRiskGood:3Bad:0圖7-13
決策樹圖7-13顯示了一個由表7-11中原始數(shù)據(jù)生成的決策樹。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能在這個普通的例子中,一個決策樹算法對于信用風(fēng)險預(yù)測來說,最重要的屬性是債務(wù)情況。決策樹中的第一個分支點設(shè)在債務(wù)情況。葉子“Debt=High”包含三條“CreditRisk=Bad”而沒有“CreditRisk=Good”的記錄。在這個例子中,客戶的高負債記錄是他的信用風(fēng)險大的充分條件?!癉ebt=Low”仍是混合的,其中有三條“CreditRisk=Good”和一條“CreditRisk=Bad”。在這種情況下,決策樹算法將用“EmploymentType”作為第二條判斷條件。EmploymentType處分支得到兩個葉子。它顯示受雇于自己的人有較高的信用風(fēng)險。分類分析則可以判斷成百的屬性、數(shù)以百萬的記錄,以建立描述規(guī)則的決策樹。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能(1)相異度0d(2,1)0d(3,1)d(3,2)0
d(n,1)d(n,2)……04)聚類分析用以描述兩個對象之間的差別,通過兩個對象的屬性值計算的。對于數(shù)值型數(shù)據(jù)通常用距離表示相異度。
(2)距離,最常用的距離表示方法是歐幾里得距離。他的定義是:xi1xj12+xi2xj22+…+xipxjp2
其中,i=(xi1,xi2,…
,xip)和j=(xj1,xj2,
…
,xjp)是兩個p維的對象。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能兩個簇間的平均距離,是兩個簇中的對象兩兩之間的平均長度。兩種簡單的聚類分析算法:
(1)基于劃分的聚類K-平均算法的思想如下:輸入簇的數(shù)目K和包含n個對象的數(shù)據(jù)庫。a.任意選擇K個對象作為初始的簇中心。b.循環(huán)進行c、d。c.根據(jù)簇中對象的平均值,將每個對象(重新)分給最類似的簇。d.更新簇的平均值,即計算每個簇中對象的平均值。e.直到不再發(fā)生變化。
K-平均算法基于簇中對象的平均值,輸出結(jié)果是K個簇。K-平均算法的優(yōu)點是實現(xiàn)簡單,易于理解;缺點是如果數(shù)據(jù)中存在孤立點,會影響聚類質(zhì)量。第五節(jié)數(shù)據(jù)挖掘概述(3)兩個簇間的平均距離數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能(a)(b)(c)圖7-14K-平均算法(a)為輸入點,以兩個星型點為初始的簇中心進行聚集。(b)為第一次聚類后的結(jié)果,兩個星型點為簇的平均值。(c)圖中以兩個簇的平均值點為簇中心,進行聚類的結(jié)果,由于至此結(jié)果不再變化,算法執(zhí)行結(jié)束。(c)圖中標(biāo)注的兩個聚類為結(jié)果聚類。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能K-平均算法基于簇中對象的平均值,輸出結(jié)果是K個簇。K-平均算法的優(yōu)點是實現(xiàn)簡單,易于理解;缺點是如果數(shù)據(jù)中存在孤立點,會影響聚類質(zhì)量。
K-中心點法是對K-平均法的一種改進,它不是采用平均值而是用代表點作為中心點進行聚類,再逐步用非中心點代替中心點找到最優(yōu)解。當(dāng)數(shù)據(jù)量很大時,K-中心點法的實現(xiàn)代價過高。進而又產(chǎn)生了CLARA、CLARANS等改進的劃分方法。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘
OLAP的應(yīng)用
數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計與實施數(shù)據(jù)倉庫技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉庫客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能(2)基于層次的聚類基于層次的聚類分為凝聚的層次聚類和分裂的層次聚類兩種。凝聚的層次聚類將每個對象作為一個簇,然后一步步合并至所有的對象最終合并成一個簇。分裂的層次聚類是凝聚的層次聚類的逆過程。對于給定的數(shù)據(jù)集合,將所有對象作為一個簇,然后根據(jù)某些準(zhǔn)則被一步步
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 設(shè)備租賃合同:考古挖掘
- 財務(wù)管理工具與技能培訓(xùn)管理辦法
- 2024年重組家庭共有財產(chǎn)處理離婚協(xié)議3篇
- 自動離職員工交接指南
- 橋梁弱電工程承包合同樣本
- 生產(chǎn)能力評估與改進
- 2025年度企業(yè)人才引進合同主體變更三方協(xié)議3篇
- 游戲設(shè)備租賃合同自行操作手冊
- 長期倉儲租賃合同樣本
- 合同負債在施工企業(yè)中的應(yīng)對策略
- 2024年中國救生圈市場調(diào)查研究報告
- 煤炭供應(yīng)項目(運輸供貨方案)
- “雄鷹杯”全國小動物醫(yī)師技能大賽考試題庫(660題)
- 2024年國家公務(wù)員考試《申論》真題(地市級)及答案解析
- 2024-2030年中國游艇產(chǎn)業(yè)發(fā)展?fàn)顩r規(guī)劃分析報告權(quán)威版
- 學(xué)前兒童家庭與社區(qū)教育學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 新能源汽車充電樁項目可行性研究報告模板及范文
- 網(wǎng)絡(luò)安全產(chǎn)品質(zhì)保與售后方案
- 2024版首診負責(zé)制度課件
- 2024-2025學(xué)年河北省高三上學(xué)期省級聯(lián)測政治試題及答案
- 貴州省貴陽市2023-2024學(xué)年高一上學(xué)期期末考試 物理 含解析
評論
0/150
提交評論