數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鯻第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鯻第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鯻第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鯻第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鯻第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鰯?shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治稣簲?shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)的應用主要在于構(gòu)建企業(yè)的決策支持系統(tǒng),以協(xié)助企業(yè)提高自身競爭力。作為近年來剛剛興起并逐步發(fā)展起來的一門新興交叉學科,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘涉及到了許多領(lǐng)域的知識,也包括許多概念、理論、設計方法及挖掘算法,這些內(nèi)容比較繁雜且不易理解,對于初學者而言,學習起來頗為困難。針對此問題,通過實例加以說明,以期為初學者提供某些幫助。關(guān)鍵詞:數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;決策樹0引言數(shù)據(jù)倉庫與數(shù)據(jù)挖掘是近年來剛剛興起并逐步發(fā)展起來的一門新興交叉學科,它把對數(shù)據(jù)的應用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,并提供決策支持。此門學科涉及到許多領(lǐng)域的知識,包括數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計、可視化技術(shù)、并行計算、機器學習等,匯集了多門學科的知識并在綜合運用這些學科知識的基礎上產(chǎn)生出新的知識和方法。此門學科的應用主要在于構(gòu)建企業(yè)的決策支持系統(tǒng),此系統(tǒng)正是目前幫助企業(yè)提高自身競爭力的重要手段。在數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W科中涉及了許多概念、設計方法及諸多挖掘算法,本文將就其中的一些內(nèi)容結(jié)合SQLServerAnalysisService應用實例加以闡述與說明,以加深對理論的理解,并逐步掌握此門學科所提供的更多技術(shù)。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第1頁??傮w來講,構(gòu)建一個企業(yè)的決策支持系統(tǒng)主要有兩個階段,第一個階段是創(chuàng)建企業(yè)的數(shù)據(jù)倉庫,第二個階段是在數(shù)據(jù)倉庫的基礎上進行數(shù)據(jù)挖掘。這兩個階段的工作相輔相成,數(shù)據(jù)倉庫是基礎,數(shù)據(jù)挖掘是在數(shù)據(jù)倉庫之上的高層應用,兩者需要整體規(guī)劃、分步實施。下面分別就這兩部分內(nèi)容結(jié)合實例加以闡述。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第1頁。1數(shù)據(jù)倉庫的規(guī)劃與設計數(shù)據(jù)倉庫是一個面向主題的、集成的,時變的、非易失的數(shù)據(jù)集合,支持部門管理的決策過程,數(shù)據(jù)中的每一個數(shù)據(jù)單元在實踐上都是和某個時刻相關(guān)的。數(shù)據(jù)倉庫也被看作是某個組織的數(shù)據(jù)存儲庫,用于支持戰(zhàn)略決策。數(shù)據(jù)倉庫的功能是以集成的方式存儲整個組織的歷史數(shù)據(jù),這些數(shù)據(jù)會影響到這個組織和企業(yè)的多個方面。數(shù)據(jù)倉庫的特點是:數(shù)據(jù)常常來自于多個數(shù)據(jù)源;其存放模式一致;駐留在單個站點;數(shù)據(jù)已經(jīng)清理、變換、集成與裝載并定期刷新;數(shù)據(jù)量巨大。數(shù)據(jù)倉庫構(gòu)建方法同一般數(shù)據(jù)庫構(gòu)建方法最大的不同在于數(shù)據(jù)倉庫的需求分析是從用戶的決策問題入手,其目的是直接針對問題的主題,而一般數(shù)據(jù)庫系統(tǒng)是以事務處理為出發(fā)點。下面結(jié)合具體實例說明數(shù)據(jù)倉庫的設計步驟。1.1確定用戶需求,為數(shù)據(jù)倉庫中存儲的數(shù)據(jù)建立模型通過數(shù)據(jù)模型得到企業(yè)完整而清晰的描述信息。數(shù)據(jù)模型是面向主題建立的,同時又為多個面向應用的數(shù)據(jù)源的集成提供了統(tǒng)一的標準。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第2頁。例如:FoodMart是一家大型的連鎖店,在美國、墨西哥和加拿大有銷售業(yè)務。市場部想要按產(chǎn)品和顧客分析1998年進行的所有銷售業(yè)務數(shù)據(jù)。該公司現(xiàn)在急需進行銷售方面的數(shù)據(jù)分析,以找到一些潛在規(guī)律來促進銷售業(yè)務的進一步拓展從而擴大銷售渠道、加大銷售量、提高銷售利潤、增強公司競爭力。該連鎖店銷售的產(chǎn)品總體上被分為若干個大類,細節(jié)上分為若干個小類;客戶廣泛分布于不同地區(qū)、不同國家。該連鎖店在銷售信息管理系統(tǒng)中長期保存并不斷更新著產(chǎn)品、產(chǎn)品分類、商店、銷售、促銷、客戶等記錄表,依次為:產(chǎn)品表(PRODUCT)、產(chǎn)品分類表(PRODUCT_CLASS)、商店表(STOR)、1998年銷售記錄表(Sales_fact_1998)、促銷表(PROMOTION)、客戶表(CUSTOMER)等。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第2頁。FoodMart連鎖店保存并不斷更新的數(shù)據(jù)庫是事務處理型數(shù)據(jù)庫,其結(jié)構(gòu)是面向應用而設計的。要進行數(shù)據(jù)挖掘就必須建立面向主題的數(shù)據(jù)倉庫,為了進行1998年銷售方面的數(shù)據(jù)挖掘,要設計的數(shù)據(jù)倉庫必須以1998年銷售數(shù)據(jù)為主題,輔之以日期、產(chǎn)品、產(chǎn)品分類、商店、促銷、客戶等其它數(shù)據(jù)信息。具體來講,即創(chuàng)建以1998年銷售為主題的數(shù)據(jù)倉庫,采用星型/雪花模式構(gòu)建事實表。1.2分析數(shù)據(jù)源,完成數(shù)據(jù)倉庫的設計工作數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第3頁?;谟脩舻男枨螅赜?998年銷售主題,開發(fā)數(shù)據(jù)倉庫中數(shù)據(jù)的物理存儲結(jié)構(gòu),即設計多維數(shù)據(jù)結(jié)構(gòu)的事實表和維表。1998年銷售事實表包含5個維表和3個度量。這5個維表分別是日期、客戶、產(chǎn)品、促銷和商店維表,3個度量分別為銷售金額、倉儲成本、銷售單位??紤]到將來要根據(jù)顧客的年收入情況進行顧客會員卡種類方面的數(shù)據(jù)分析,另外增加了年收入維度(yearlyincome,取自于customer表)。為便于分析挖掘出有關(guān)時間因素的信息,特增加了時間表time。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第3頁。1.3生成物理的數(shù)據(jù)倉庫,并從各種源系統(tǒng)中獲取數(shù)據(jù)裝入數(shù)據(jù)倉庫中在SQLServerAnalysisServicemanager中建立物理的數(shù)據(jù)倉庫可以通過ODBC數(shù)據(jù)源方式指定原有數(shù)據(jù)庫,再通過MicrosoftOLEDBProviderforODBC進行連接的方式完成原有數(shù)據(jù)庫到數(shù)據(jù)倉庫的映射。運用SQLServerAnalysisServicemanager提供的功能建立數(shù)據(jù)倉庫的多維數(shù)據(jù)集,指定此數(shù)據(jù)倉庫的度量值與維度,至此數(shù)據(jù)倉庫建立完畢。其中緯度與度量值如圖2所示。2數(shù)據(jù)挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第4頁。數(shù)據(jù)挖掘(DataMining)又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。簡言之,數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中提取隱含在其中的有用信息和知識的過程。數(shù)據(jù)挖掘可以幫助企業(yè)對數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,從而利用已有數(shù)據(jù)預測未來,幫助企業(yè)贏得競爭優(yōu)勢。數(shù)據(jù)挖掘的方法是建立在聯(lián)機分析處理(OnLineAnalyticalProcessing,OLAP)的環(huán)境基礎之上的。OLAP技術(shù)使數(shù)據(jù)倉庫能夠快速響應重復而復雜的分析查詢,從而使數(shù)據(jù)倉庫能有效地用于聯(lián)機分析。OLAP的多維數(shù)據(jù)模型和數(shù)據(jù)聚合技術(shù)可以組織并匯總大量的數(shù)據(jù),以便能夠利用聯(lián)機分析和圖形工具迅速對數(shù)據(jù)進行評估。當分析人員搜尋答案或試探可能性時,在得到對歷史數(shù)據(jù)查詢的回答后,經(jīng)常需要進行進一步查詢。OLAP系統(tǒng)可以快速靈活地為分析人員提供實時支持。數(shù)據(jù)挖掘工作是在完備地建立了數(shù)據(jù)庫、數(shù)據(jù)倉庫等數(shù)據(jù)集的基礎上進行的,典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)如圖3所示。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第4頁。整個數(shù)據(jù)挖掘過程主要可分幾個階段,依次為:問題定義、數(shù)據(jù)預處理、數(shù)據(jù)挖掘以及結(jié)果的解釋和評估。2.1問題定義問題定義就是要清晰地定義出業(yè)務問題,確定數(shù)據(jù)挖掘的目的。對于FoodMart連鎖店來說,它的問題定義就是:FoodMart連鎖店的市場部想增加客戶滿意度和客戶保有率,于是實行了創(chuàng)造性的方法以達到這些目標。其方法之一是對會員卡方案重新進行定義,以便更好地為客戶提供服務并且使所提供的服務能夠更加密切地滿足客戶的期望。為了重新定義會員卡方案,市場部想分析當前銷售事務并找出客戶人口統(tǒng)計信息(婚姻狀況、年收入、在家子女數(shù)等等)和所申請卡之間的模式,然后根據(jù)這些信息和申請會員卡的客戶的特征重新定義會員卡。2.2數(shù)據(jù)預處理最初為數(shù)據(jù)挖掘所準備的所有原始數(shù)據(jù)集通常都很大,它們當中存在許多臟數(shù)據(jù)。造成臟數(shù)據(jù)的原因主要源自于收集與傳送過程的錯誤、濫用縮寫詞以及不同的慣用語、重復記錄、數(shù)據(jù)輸入錯誤、拼寫變化、不同的計量單位、過時的編碼、集成時的空值與丟失值以及不同的數(shù)據(jù)源等。臟數(shù)據(jù)主要有以下一些表現(xiàn)形式:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第5頁。(1)數(shù)據(jù)不完整。表現(xiàn)為:感興趣的屬性缺值;缺乏感興趣的屬性;僅包含聚集數(shù)據(jù)等。例如:CUSTOMER表中的LNAME=“”數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第5頁。(2)數(shù)據(jù)噪聲。即包含錯誤的屬性值或存在偏離期望的孤立點值。一個屬性的值與事實完全不吻合的情況,例如:CUSTOMER表中的在家子女數(shù)num_children_at_home=200(3)數(shù)據(jù)不一致。數(shù)據(jù)不一致表現(xiàn)為多種情況,比如:同樣的屬性在不同的結(jié)構(gòu)里使用不同的名字,例如:name、xm;不同數(shù)據(jù)使用的計量單位不同,例如:100(美元)、100(美分);數(shù)據(jù)不允許為空的地方數(shù)據(jù)為空等。如果在臟數(shù)據(jù)上進行數(shù)據(jù)挖掘?qū)⒑芸赡軐е洛e誤的判斷甚至完全相反的分析結(jié)果,也就是說,沒有高質(zhì)量的數(shù)據(jù)就沒有高質(zhì)量的挖掘結(jié)果。由于決策質(zhì)量依賴于數(shù)據(jù)質(zhì)量,因此需要在數(shù)據(jù)挖掘之前進行數(shù)據(jù)預處理,以保證數(shù)據(jù)倉庫內(nèi)包含的是高質(zhì)量的、一致的數(shù)據(jù)。所謂數(shù)據(jù)預處理其實就是對數(shù)據(jù)倉庫中的數(shù)據(jù)進行提取、清理、轉(zhuǎn)換,從而保證數(shù)據(jù)的高質(zhì)量,具體來講包括以下幾種操作:(1)數(shù)據(jù)清理(datacleaning)。就是去掉數(shù)據(jù)中的噪聲,糾正不一致;填寫空缺值,平滑噪聲數(shù)據(jù),識別、刪除孤立點。例如:將CUSTOMER表中的在家子女數(shù)num_children_at_home=200的記錄值刪除掉或填入平均值1。(2)數(shù)據(jù)集成(dataintegration)。將多個數(shù)據(jù)源中的數(shù)據(jù)合并存放在一個統(tǒng)一的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫、數(shù)據(jù)庫等)中,數(shù)據(jù)源可以是多個數(shù)據(jù)庫、數(shù)據(jù)立方體或一般的數(shù)據(jù)文件。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第6頁。(3)數(shù)據(jù)變換(datatransformation)。即數(shù)據(jù)的標準化與聚集,將數(shù)據(jù)變換成適于挖掘的形式。例如:屬性數(shù)據(jù)可以規(guī)范化,使得它們可以落入某個小區(qū)間。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第6頁。(4)數(shù)據(jù)歸約(datareduction)。數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,它接近于保持原數(shù)據(jù)的完整性,但數(shù)據(jù)量比原數(shù)據(jù)小得多。與非歸約數(shù)據(jù)相比,在歸約的數(shù)據(jù)上進行挖掘,所需的時間和內(nèi)存資源更少,挖掘?qū)⒏行?,并產(chǎn)生相同或幾乎相同的分析結(jié)果。數(shù)據(jù)歸約主要通過數(shù)據(jù)聚集(如建立數(shù)據(jù)立方體)、維歸約(如刪除不相關(guān)特性)、數(shù)據(jù)壓縮(如最短編碼)、數(shù)字歸約(用較短的表示替換數(shù)據(jù))、概化(去掉不用的屬性)等方法完成。例如,對于FoodMart連鎖店的數(shù)據(jù)挖掘來講,CUSTOMER表中的address1、address2、address3、address4這4個屬性與挖掘目標無關(guān),所以可以將它們刪除掉以節(jié)省空間和時間。2.3選擇挖掘模型,進行數(shù)據(jù)挖掘根據(jù)數(shù)據(jù)挖掘的目標和數(shù)據(jù)的特征,選擇合適的挖掘模型,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進行數(shù)據(jù)挖掘。FoodMart連鎖店的工作設想是:對會員卡方案重新進行定義,以便更好地為客戶提供服務并且使所提供的服務能夠更加密切地滿足客戶的期望。市場部想分析當前銷售事務并找出客戶人口統(tǒng)計信息(婚姻狀況、年收入、在家子女數(shù)等)和所申請卡之間的模式,然后根據(jù)這些信息和申請會員卡的客戶的特征重新定義會員卡。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第7頁。對于這個工作預期,決定采用決策樹的數(shù)據(jù)挖掘方法進行客戶群的分析。所謂決策樹,就是在對數(shù)據(jù)進行決策分類時利用樹的結(jié)構(gòu)將數(shù)據(jù)記錄進行分類,其中樹的一個葉結(jié)點就代表符合某個條件的屬性集,根據(jù)屬性的不同取值建立決策樹的各個分支,隨后遞歸地構(gòu)造每個子節(jié)點的子樹。由于決策樹結(jié)構(gòu)簡單便于人們認識與理解,以及決策樹不需要額外的數(shù)據(jù)訓練,因此,決策樹是數(shù)據(jù)挖掘中常用的一種分類方法。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第7頁。本實例采用“Microsoft決策樹”算法在客戶群中找出會員卡選擇模式。按照以下步驟完成“決策樹”挖掘模型:(1)將要挖掘的維度(事例維度)設置為客戶;(2)將Member_Card成員的屬性設置為數(shù)據(jù)挖掘算法識別模式時要使用的信息;(3)選擇人口統(tǒng)計特征列表(婚姻狀況、年收入、在家子女數(shù)和教育程度),算法將據(jù)此確定模式;(4)處理訓練模型,瀏覽決策樹視圖并從中讀取模式。經(jīng)過處理后,挖掘模型瀏覽器展現(xiàn)出一棵深度為3、寬度為8的決策樹,此瀏覽器將根據(jù)用戶對樹中不同分支節(jié)點的選擇顯示出相應的統(tǒng)計信息。例如,選擇根節(jié)點“全部”顧客的方框后顯示信息如圖4所示。在圖中可以看到數(shù)據(jù)挖掘的結(jié)果:將客戶按照年收入的不同分為8個區(qū)段(類),涉及的客戶總數(shù)為7632人,通過直方圖可以直觀地看到辦理金、銀、銅、普通卡的比例。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第8頁。選擇年收入在$30K-$50K的范圍框后,挖掘模型瀏覽器的顯示信息如圖5所示。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵗治鋈墓?0頁,當前為第8頁。年收入在此范圍內(nèi)的客戶共計1362人,其中辦理金、銀、銅、普通卡的數(shù)量和比例通過合計及直方圖可以一目了然。其它選項依此類推。對年收入在$150K以上的范圍節(jié)點進行進一步分級(顯示其子節(jié)點),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論