專題分析-商務(wù)智能_第1頁(yè)
專題分析-商務(wù)智能_第2頁(yè)
專題分析-商務(wù)智能_第3頁(yè)
專題分析-商務(wù)智能_第4頁(yè)
專題分析-商務(wù)智能_第5頁(yè)
已閱讀5頁(yè),還剩196頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

【專題】商務(wù)智能

1什么是商務(wù)智能?2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化3數(shù)據(jù)觀察和數(shù)據(jù)分析的基礎(chǔ)-數(shù)據(jù)倉(cāng)庫(kù)4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)5數(shù)據(jù)分析層面的商務(wù)智能-數(shù)據(jù)挖掘商務(wù)智能1.1“商務(wù)智能”的本質(zhì)1.2商務(wù)智能應(yīng)用層次1.3商務(wù)智能應(yīng)用發(fā)展1.4“商務(wù)智能”從何而來?1.5案例:三類典型業(yè)務(wù)管理中的商務(wù)智能1什么是商務(wù)智能?

對(duì)企業(yè)本身而言,商務(wù)智能是指一種能力,即通過智能地使用企業(yè)的數(shù)據(jù)財(cái)產(chǎn)(知本)來制定更好的商務(wù)決策。從本質(zhì)上講,商務(wù)智能是幫助企業(yè)提高決策能力和運(yùn)營(yíng)能力的方法、過程以及軟件的集合,其主要目標(biāo)是將企業(yè)所掌握的信息轉(zhuǎn)換成競(jìng)爭(zhēng)優(yōu)勢(shì),提高企業(yè)決策能力、決策效率、決策準(zhǔn)確性。商務(wù)智能幫助識(shí)別、理解公司的運(yùn)營(yíng)數(shù)據(jù),將其轉(zhuǎn)化成為高價(jià)值的可以獲取的信息(或者知識(shí)),并且在恰當(dāng)?shù)臅r(shí)候、通過恰當(dāng)?shù)姆绞?、把恰?dāng)?shù)男畔ⅰ鬟f給恰當(dāng)?shù)娜恕?.1“商務(wù)智能”的本質(zhì)

商務(wù)智能(BusinessIntelligence,BI)已經(jīng)成為企業(yè)創(chuàng)造更多盈利的關(guān)鍵。商務(wù)智能能夠讓企業(yè)從現(xiàn)有的“知本”中提煉更多的有價(jià)值的知識(shí)。BI已經(jīng)緊緊地與“知本”和“知識(shí)”結(jié)合在一起,牢不可分。

生產(chǎn)“商務(wù)智能”的”原材料”和”產(chǎn)品”1.1“商務(wù)智能”的本質(zhì)1.2商務(wù)智能應(yīng)用層次1.3商務(wù)智能應(yīng)用發(fā)展1.4“商務(wù)智能”從何而來?1.5案例:三類典型業(yè)務(wù)管理中的商務(wù)智能1什么是商務(wù)智能?

簡(jiǎn)單的報(bào)告和查詢?cè)诰€分析處理(OLAP)經(jīng)理信息系統(tǒng)(EIS)

數(shù)據(jù)挖掘外網(wǎng)1.2商務(wù)智能應(yīng)用層次去年我們X產(chǎn)品的銷售量是多少?我們擁有多少客戶?用戶向系統(tǒng)提出的問題是:“告訴我發(fā)生了什么”。我們的產(chǎn)品在哪個(gè)國(guó)家獲得了最大的成功?哪部分客戶購(gòu)買了我們的絕大部分產(chǎn)品?用戶在簡(jiǎn)單報(bào)告的基礎(chǔ)上,進(jìn)一步提出更多問題。預(yù)測(cè)哪種客戶最有可能購(gòu)買我們的新產(chǎn)品。市場(chǎng)營(yíng)銷戰(zhàn)略更為有針對(duì)性,成本降低。用戶的問題是:“告訴我未來會(huì)發(fā)生什么”。1.1“商務(wù)智能”的本質(zhì)1.2商務(wù)智能應(yīng)用層次1.3商務(wù)智能應(yīng)用發(fā)展1.4“商務(wù)智能”從何而來?1.5案例:三類典型業(yè)務(wù)管理中的商務(wù)智能1什么是商務(wù)智能?中國(guó)大多數(shù)企業(yè)進(jìn)行商務(wù)智能項(xiàng)目試驗(yàn)時(shí),也是從部署部門戰(zhàn)略開始的。試驗(yàn)期大約6~12個(gè)月。西方企業(yè)大約10年前開始部署部門商務(wù)智能部門商務(wù)智能現(xiàn)已涵蓋了企業(yè)的某一業(yè)務(wù)領(lǐng)域,如生產(chǎn)、人力資源或財(cái)務(wù)西方企業(yè)用了大約5年時(shí)間建立了企業(yè)級(jí)的商務(wù)智能系統(tǒng)及其外網(wǎng)1.3商務(wù)智能應(yīng)用發(fā)展1.1“商務(wù)智能”的本質(zhì)1.2商務(wù)智能應(yīng)用層次1.3商務(wù)智能應(yīng)用發(fā)展1.4“商務(wù)智能”從何而來?1.5案例:三類典型業(yè)務(wù)管理中的商務(wù)智能1什么是商務(wù)智能?這些問題的答案都在業(yè)務(wù)流程和數(shù)據(jù)中。業(yè)務(wù)運(yùn)行離不開數(shù)據(jù),業(yè)務(wù)和數(shù)據(jù)的聯(lián)系形成信息,而信息造就智能。1.4“商務(wù)智能”從何而來?(1)“商務(wù)智能”從業(yè)務(wù)及其數(shù)據(jù)得來企業(yè)如何才能獲得所要求的智能?企業(yè)如何利用智能來培養(yǎng)客戶的忠誠(chéng)度并使企業(yè)盈利?企業(yè)怎樣才能在競(jìng)爭(zhēng)中勝出?例如,美國(guó)阿肯色州小石城的一位消費(fèi)者花14.95美元在網(wǎng)站上購(gòu)買了一張埃爾頓·約翰(EltonJohn)的CD唱片,它導(dǎo)致交易數(shù)據(jù)庫(kù)中的一項(xiàng)記錄(數(shù)據(jù))。1.4“商務(wù)智能”從何而來?

數(shù)據(jù)——未經(jīng)加工和修飾的原料(2)數(shù)據(jù)、信息和智能例如,從小石城那位消費(fèi)者購(gòu)買CD唱片的數(shù)據(jù),可聯(lián)合其它數(shù)據(jù)得到顧客性別、收入對(duì)埃爾頓·約翰CD唱片的購(gòu)買情況(信息),它是業(yè)務(wù)人員對(duì)采集來的原始數(shù)據(jù)進(jìn)行提煉、分選、聯(lián)合得來的。這些信息可以用來分析產(chǎn)品的盈利性、未來購(gòu)買趨勢(shì)等。(2)數(shù)據(jù)、信息和智能1.4“商務(wù)智能”從何而來?信息——含有一定商務(wù)價(jià)值和意義的數(shù)據(jù)例如,唱片公司的一些營(yíng)銷人員在分析了一個(gè)月的購(gòu)買記錄后,發(fā)現(xiàn)新版埃爾頓·約翰唱片最受歐洲“嬰兒潮”中出生的人群所歡迎(智能)。公司便采取措施直接針對(duì)這類消費(fèi)群體進(jìn)行市場(chǎng)促銷(智能應(yīng)用),從而將倉(cāng)庫(kù)中積壓的埃爾頓·約翰的舊作推銷一空。1.4“商務(wù)智能”從何而來?(2)數(shù)據(jù)、信息和智能智能——對(duì)信息、過去的行為以及未來預(yù)測(cè)進(jìn)行完整評(píng)價(jià)的基礎(chǔ)上發(fā)現(xiàn)的業(yè)務(wù)規(guī)律,及其指導(dǎo)業(yè)務(wù)實(shí)踐的活動(dòng)。1.4“商務(wù)智能”從何而來?從數(shù)據(jù)產(chǎn)生智能的過程-小案例菲亞特公司一直從兩個(gè)供應(yīng)商A和B手中購(gòu)買凸型螺帽,并把關(guān)于從兩處購(gòu)買的螺帽的數(shù)量和價(jià)格的“數(shù)據(jù)”分別存放在兩個(gè)數(shù)據(jù)庫(kù)中。當(dāng)兩個(gè)數(shù)據(jù)庫(kù)結(jié)合在一起時(shí),數(shù)據(jù)就成了“信息”。信息表明供應(yīng)商A比供應(yīng)商B提供的螺帽單價(jià)多了0.1美元。采購(gòu)人員了解了這一情況,便產(chǎn)生了集體“智能”,調(diào)整采購(gòu)策略,從而為公司節(jié)省了巨大的開支。①商務(wù)智能技術(shù)應(yīng)用面臨的問題②有用信息(知識(shí))的表達(dá)方法—智能的根本:商務(wù)規(guī)律③分析器的兩種形式—獲取知識(shí)的工具1.4“商務(wù)智能”從何而來?(3)商務(wù)智能應(yīng)用的關(guān)鍵6.2數(shù)據(jù)挖掘應(yīng)用技術(shù)■對(duì)企業(yè)決策者來說,什么是潛在有用的信息?■有用信息如何表達(dá)?更進(jìn)一步說如何規(guī)范化表達(dá)?■有用信息如何獲得?1.4“商務(wù)智能”從何而來?①商務(wù)智能技術(shù)面臨的問題有用信息的自然描述-事實(shí)(Fact)對(duì)一個(gè)企業(yè)決策者來說,“有用信息”實(shí)際上是從“行數(shù)據(jù)”中總結(jié)出來的一些“事實(shí)”。1.4“商務(wù)智能”從何而來?②有用信息(知識(shí))表達(dá)的方法(事實(shí)與規(guī)則)“…我公司1997年全年的鋼材產(chǎn)量完全達(dá)到了國(guó)家的計(jì)劃要求。從總的銷售情況來看,基本上完成了全年的銷售計(jì)劃,全年實(shí)現(xiàn)銷售利稅500億元。當(dāng)然,個(gè)別品種我們尚未打開市場(chǎng),如造船板。在取得成績(jī)的同時(shí),我們也應(yīng)看到如下事實(shí),即我們的產(chǎn)品幾乎都銷往東北地區(qū),其它地區(qū)的市場(chǎng)占有率幾乎全部喪失,個(gè)別地區(qū),如廣東、海南地區(qū)甚至不足1%?!?.4“商務(wù)智能”從何而來?有用信息的自然描述例在這段報(bào)告中我們注意到如下“有用信息”的表達(dá)方式:■1997年全年鋼材產(chǎn)量完全達(dá)到了國(guó)家計(jì)劃要求。■銷售基本上完成了上一年的銷售計(jì)劃?!霎a(chǎn)品幾乎都銷往東北地區(qū)?!鰝€(gè)別地區(qū),如廣東、海南地區(qū)市場(chǎng)占有率甚至不足1%。1.4“商務(wù)智能”從何而來?有用信息的自然描述(事實(shí))例(續(xù))觀察下面的產(chǎn)品按地區(qū)的銷售情況表:我們得出以下結(jié)論(事實(shí)):1998年2月大部分銷售都集中在東北地區(qū)1.4“商務(wù)智能”從何而來?有用信息的規(guī)范化描述—規(guī)則總結(jié)有用信息的表達(dá)方式,我們得到下面的有用信息(知識(shí))的規(guī)范化表達(dá)方式為:IF條件THEN結(jié)論(確信度,支持行數(shù))■確信度(Confidence):所關(guān)注列具有相同值的結(jié)論行值占所查詢行值總計(jì)的百分比。■支持行數(shù):滿足此模式條件的行數(shù)。

1.4“商務(wù)智能”從何而來?“規(guī)則”的一般形式■固定格式的分析器■事實(shí)發(fā)現(xiàn)器(規(guī)則發(fā)現(xiàn)器)數(shù)據(jù)固定格式分析器事實(shí)發(fā)現(xiàn)器用戶1.4“商務(wù)智能”從何而來?③從“數(shù)據(jù)”得到“知識(shí)”的分析器有兩種形式

事實(shí)發(fā)現(xiàn)器有時(shí)稱為“事實(shí)搜索引擎”,它是從數(shù)據(jù)中搜索商業(yè)事實(shí)(規(guī)則)的搜索工具。

1.4“商務(wù)智能”從何而來?“事實(shí)發(fā)現(xiàn)器”是商務(wù)智能的核心!1.1“商務(wù)智能”的本質(zhì)1.2商務(wù)智能應(yīng)用層次1.3商務(wù)智能應(yīng)用發(fā)展1.4“商務(wù)智能”從何而來?1.5案例:三類典型業(yè)務(wù)管理中的商務(wù)智能1什么是商務(wù)智能?BI市場(chǎng)分析員銷售經(jīng)理采購(gòu)經(jīng)理他們?cè)谌粘I虅?wù)工作中會(huì)提出哪些問題?他們?nèi)绾卫蒙虅?wù)智能工具有效解決這些問題?1.5案例:三類典型業(yè)務(wù)管理中的商務(wù)智能(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理

離本財(cái)務(wù)季度完結(jié)還剩下4周的時(shí)間,按照慣例,全美銷售部門副總經(jīng)理羅伯特需要向其上司——全美銷售部門總經(jīng)理進(jìn)行工作匯報(bào),他關(guān)心的首要話題總是:本財(cái)務(wù)季度的銷售狀況如何?為了準(zhǔn)備這次匯報(bào),羅伯特借助商務(wù)智能工具,做了如下工作:全美地區(qū)銷售數(shù)據(jù)第幾周123456789101112銷售指標(biāo)250預(yù)計(jì)收入130135140145152160170185202訂貨額515305080120130150175預(yù)計(jì)收入/銷售指標(biāo)52%54%56%58%61%64%68%74%81%訂貨額/銷售指標(biāo)4%11%21%34%53%75%76%81%87%

(1)瀏覽定時(shí)自動(dòng)更新的全美銷售周報(bào)表,查看銷售預(yù)測(cè)、銷售指標(biāo)和訂貨額等指標(biāo)的狀態(tài)。(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理

(周)153.519920%21%運(yùn)營(yíng)預(yù)算支出成本計(jì)劃運(yùn)營(yíng)利潤(rùn)實(shí)際運(yùn)營(yíng)利潤(rùn)(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理

從銷售報(bào)表中可以清楚看到:銷售預(yù)測(cè)數(shù)據(jù)低于本財(cái)務(wù)季度的銷售指標(biāo)執(zhí)行花費(fèi)低于本財(cái)務(wù)季度的預(yù)算訂貨情況與銷售預(yù)測(cè)相吻合(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理

東部地區(qū)銷售數(shù)據(jù)第幾周123456789101112銷售指標(biāo)80預(yù)計(jì)收入242529323638414345訂貨額136101626323842預(yù)計(jì)收入/銷售指標(biāo)30%31%36%40%45%48%51%54%56%訂貨額/銷售指標(biāo)4%12%21%31%44%68%78%88%93%(2)羅伯特進(jìn)一步了解了全美各地區(qū)(東部、中部和西部)的銷售細(xì)節(jié)。(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理

年份:2000季度:第一季度地區(qū):東部單位:100萬美元376419%18%東部運(yùn)營(yíng)預(yù)算東部支出成本預(yù)計(jì)運(yùn)營(yíng)利潤(rùn)實(shí)際運(yùn)營(yíng)利潤(rùn)從宏觀到微觀的分析轉(zhuǎn)換——“下鉆”(Drilldown)反之,從微觀到宏觀的轉(zhuǎn)換——“上鉆”(Drillup)(周)(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理

觀察數(shù)據(jù)中的某一層面——切片(Takingaslice)(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理

(3)羅伯特決定根據(jù)銷售渠道(直接銷售和間接銷售)了解各地區(qū)的主要表現(xiàn)指標(biāo)(包括訂貨情況、預(yù)計(jì)收入、銷售指標(biāo)、項(xiàng)目執(zhí)行支出等)。銷售信息立方體

銷售地區(qū)東部中部西部銷售渠道間接直接財(cái)政季度第4季度第3季度第2季度第1季度切片分析表明:預(yù)測(cè)銷售的下降起源于銷售渠道中的直接銷售方面。(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理

根據(jù)某一特定季節(jié)進(jìn)行的切片分析根據(jù)某一特定銷售地區(qū)進(jìn)行的切片分析

銷售地區(qū)銷售渠道

財(cái)政季度

銷售地區(qū)銷售渠道

財(cái)政季度決策者不但要了解主要的業(yè)務(wù)指標(biāo),還要按照地區(qū)、銷售渠道和時(shí)間范圍等不同視角去了解業(yè)務(wù)各指標(biāo)的情況——多維分析(Multidimensionalanalysis)切片分析表明:東部地區(qū)的銷售預(yù)測(cè)比較低。(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理

(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理

(4)羅伯特通過進(jìn)一步“鉆取”,查看了東部地區(qū)每一位銷售代表的訂貨情況和銷售預(yù)測(cè)。但是這一項(xiàng)工作對(duì)他并沒有什么幫助。每一位銷售代表的業(yè)績(jī)都達(dá)到或接近他們的銷售指標(biāo),這樣并不能解釋為什么銷售預(yù)測(cè)比較低。東部地區(qū)個(gè)人直銷數(shù)據(jù)銷售代表銷售指標(biāo)預(yù)計(jì)收入訂貨額預(yù)計(jì)收入/銷售指標(biāo)訂貨額/銷售指標(biāo)Sarah3.53.73.5106%100%Andrew1.52.02.9133%193%Alex2.52.62.5104%100%Michelle1.01.11.0110%100%Chole4.55.04.9111%109%Taphael1.01.51.4150%140%Max4.04.14.0103%100%Ryan2.02.12.0105%100%Keeton1.01.51.3150%130%Stephanie5.05.15.0102%100%Jenniter2.02.12.0105%100%Abigail1.01.01.0100%100%Isabel6.05.64.893%80%Theodore1.00.80.680%60%(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理

(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理

(5)羅伯特發(fā)現(xiàn)東部地區(qū)的執(zhí)行花費(fèi)維持在一個(gè)比較低的水平。由于銷售地區(qū)的銷售費(fèi)很大程度上取決于推銷隊(duì)伍的工資。因此,他懷疑可能是雇傭的推銷人員不足導(dǎo)致了銷售費(fèi)用和預(yù)計(jì)利潤(rùn)的低下。于是,他建立了一個(gè)能夠按月顯示東部地區(qū)最近兩個(gè)財(cái)務(wù)季度的預(yù)計(jì)人員和實(shí)際人員的對(duì)照表。東部地區(qū)預(yù)算人員和實(shí)際人員的對(duì)照?qǐng)D(單位:人)分析得到:東部雇傭銷售人員費(fèi)用的下降以及雇傭地銷售人員人數(shù)的不足導(dǎo)致了銷售預(yù)測(cè)的下降。(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理

(6)羅伯特利用鉆取的方法按州查看同樣的指標(biāo),報(bào)告顯示其他三個(gè)州也同樣存在銷售人員短缺的問題。他與東部地區(qū)的銷售經(jīng)理通了電話后,這個(gè)分析結(jié)果得到了肯定。(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理

(二)一家銀行信用卡部門的商務(wù)智能-市場(chǎng)分析員

露茜是一家銀行信用卡部門的市場(chǎng)分析員,她的工作是確定市場(chǎng)促銷的目標(biāo)及其前景。由于爭(zhēng)取新客戶的費(fèi)用遠(yuǎn)遠(yuǎn)大于穩(wěn)定現(xiàn)有顧客的成本,因此露茜必須確定此次促銷活動(dòng)最理想的客戶群體。她關(guān)心的第一個(gè)問題是:常客們是否是銀行的受益顧客?為了回答這個(gè)問題,露茜做了以下工作。(二)一家銀行信用卡部門的商務(wù)智能-市場(chǎng)分析員

(1)制定標(biāo)準(zhǔn),劃定對(duì)象范圍。??椭傅氖敲吭轮辽偈褂靡淮涡庞每ǖ念櫩汀J芤骖櫩褪侵笧殂y行帶來最好回報(bào)的顧客,特別是那些有透支行為,但通常在30~60天之內(nèi)就支付透支額的顧客。受益顧客他們既為銀行帶來了利息收入又帶來了滯納金。(2)利用商務(wù)智能工具,建立一個(gè)能夠顯示那些既是???,又是受益顧客的用戶清單報(bào)告,即收益顧客與??偷慕患糠?。受益顧客與常客的數(shù)量比較報(bào)告72051760825124??褪芤骖櫩皖櫩头诸愵櫩腿藬?shù)???6082受益顧客72051(二)一家銀行信用卡部門的商務(wù)智能-市場(chǎng)分析員

報(bào)告表明,銀行所喜歡的顧客,一般來講并不是那些使用信用卡的常客。因此露茜制定的促銷策略為:針對(duì)受益顧客進(jìn)行促銷,努力提高他們的信用卡使用頻率,使其成為常客。(二)一家銀行信用卡部門的商務(wù)智能-市場(chǎng)分析員

(二)一家銀行信用卡部門的商務(wù)智能-市場(chǎng)分析員

(3)受益顧客的數(shù)量超過72000位,但露茜的促銷預(yù)算只允許達(dá)到36000位顧客(她想送給每一位目標(biāo)客戶一個(gè)價(jià)值1.25美元的促銷袋)。因此,露茜迎來了第二個(gè)問題:促銷應(yīng)針對(duì)哪一部分受益顧客?露茜利用商務(wù)智能工具得到了顧客特征的精確描述,同時(shí)也確定了辨別受益顧客的重要因素。數(shù)據(jù)挖掘報(bào)告——決策樹401709個(gè)記錄帳戶平衡:24378960.7%延遲60天:8586921.4%延遲30天:7205117.9%婚姻狀況=寡居36519個(gè)記錄帳戶平衡:789621.6%延遲60天:1677945.9%延遲30天:1188432.4%婚姻狀況=獨(dú)身65142個(gè)記錄帳戶平衡:1974030.3%延遲60天:987015.2%延遲30天:3553254.5%婚姻狀況=已婚300048個(gè)記錄帳戶平衡:21615372.0%延遲60天:5922019.7%延遲30天:246758.2%居住情況=租房42441個(gè)記錄帳戶平衡:9872.3%延遲60天:592214.0%延遲30天:3553283.7%居住情況=自有房屋22701個(gè)記錄帳戶平衡:1875382.6%延遲60天:394817.4%月可支配收入938美元6909個(gè)記錄帳戶平衡:98714.3%延遲60天:592285.7%月可支配收入938美元35532個(gè)記錄延遲30天:35532100%帳戶平衡延遲60天延遲30天(二)一家銀行信用卡部門的商務(wù)智能-市場(chǎng)分析員

這里所應(yīng)用的決策樹技術(shù)是“數(shù)據(jù)挖掘”中的一種自動(dòng)數(shù)據(jù)分析算法。數(shù)據(jù)分析算法可以在人們不可見、不可估測(cè)的情況下,通過一些復(fù)雜的算法,對(duì)專門組織的歷史數(shù)據(jù)進(jìn)行挖掘分析,得到有價(jià)值的信息。同時(shí),數(shù)據(jù)挖掘還提供“描述”技術(shù),從而提高分析者對(duì)信息的理解程度。(二)一家銀行信用卡部門的商務(wù)智能-市場(chǎng)分析員

(二)一家銀行信用卡部門的商務(wù)智能-市場(chǎng)分析員

(4)由數(shù)據(jù)挖掘報(bào)告分析得到,那些租房居住、單身的顧客通常擁有較多的可自由支配收入,他們屬于受益顧客類型。露茜將促銷目標(biāo)確定為35532個(gè)顧客,這些顧客具有單身、租房居住、具有較高可自由支配收入等特征。利用商務(wù)智能工具精確確定促銷目標(biāo),而不是向隨機(jī)產(chǎn)生的客戶群進(jìn)行促銷,這場(chǎng)促銷戰(zhàn)役以巨大的成功宣告結(jié)束。(三)一家汽車公司的商務(wù)智能-采購(gòu)經(jīng)理

吉姆是一家汽車公司的采購(gòu)經(jīng)理,他的工作就是在全國(guó)范圍內(nèi)為公司進(jìn)行各種合同談判,并對(duì)公司的供應(yīng)商進(jìn)行評(píng)估。他所關(guān)心的問題是:我怎么做才能為公司減少采購(gòu)成本?公司成本包括直接成本和間接成本,在成本最小化問題上,公司歷來都把直接成本作為主要焦點(diǎn),而忽略了間接成本。很少有幾家公司肯為采購(gòu)辦公室用的鉛筆討價(jià)還價(jià)。吉姆就是要針對(duì)這些間接成本進(jìn)行調(diào)查,因特網(wǎng)時(shí)代的到來給他提供了絕好的條件。(三)一家汽車公司的商務(wù)智能-采購(gòu)經(jīng)理

借助商務(wù)智能工具,吉姆做了如下工作:(1)吉姆查看了匯總的電話賬單,這些賬單是電信服務(wù)商通過一個(gè)商務(wù)智能外網(wǎng)上的在線賬單業(yè)務(wù)提供的。電信服務(wù)商的匯總報(bào)告每個(gè)月向客戶分發(fā)或廣播(Broadcast)一次。通過查看10月份的賬單,吉姆感覺相關(guān)移動(dòng)電話費(fèi)用所占的份額高于往常月。10月匯總電話賬單70%17%70%12%辦公室電話電話卡移動(dòng)電話服務(wù)類型月費(fèi)用(美元)電話卡9400移動(dòng)電話6580辦公室電話38025月服務(wù)費(fèi)用540054(三)一家汽車公司的商務(wù)智能-采購(gòu)經(jīng)理

(三)一家汽車公司的商務(wù)智能-采購(gòu)經(jīng)理

(2)吉姆建立了一個(gè)有關(guān)電話費(fèi)的統(tǒng)計(jì)報(bào)告,包括全公司四個(gè)生產(chǎn)基地——新罕布什爾州的Nashua,俄亥俄州的Toledo,德克薩斯州的Austin,內(nèi)華達(dá)州的Reno。該報(bào)告顯示,2000年(從1月到10月)的電話費(fèi)用持續(xù)增長(zhǎng),人均電話費(fèi)也呈增長(zhǎng)態(tài)勢(shì)。尤其是新罕布什爾州的Nashua基地,幾個(gè)月來的電話費(fèi)用增長(zhǎng)顯著。按月按基地顯示的電話費(fèi)用數(shù)據(jù)基地1月2月3月4月5月6月7月8月9月10月Nashua10000110041082412436144061438816225167401656016605Toledo14210147351460014330142701426014630149601509014960Austin8526884187608598856285568778897690548976Remo12789132621314012897128431283413167134641358113464總電話費(fèi)45525478424732448261500815003852800541405428554005(三)一家汽車公司的商務(wù)智能-采購(gòu)經(jīng)理

按月按基地顯示的電話費(fèi)用年份:2000(截至報(bào)告月)設(shè)備:全部服務(wù):全部單位:美元1月2月3月4月5月6月7月8月9月10月300290280270260250220200180160140120100人均電話費(fèi)支出員工總支出(三)一家汽車公司的商務(wù)智能-采購(gòu)經(jīng)理

(三)一家汽車公司的商務(wù)智能-采購(gòu)經(jīng)理

(3)吉姆對(duì)Nashua基地的數(shù)據(jù)進(jìn)行了“下鉆”,查看了各種服務(wù)種類的電話賬單細(xì)節(jié)。他很快發(fā)現(xiàn),相關(guān)的綜合服務(wù)費(fèi)用超過了往年,其中移動(dòng)電話的費(fèi)用在全部增長(zhǎng)中占據(jù)了很大份額。吉姆突然記起,為了提高員工工作效率,Nashua基地為全體管理人員配發(fā)了移動(dòng)電話,報(bào)告中所顯示出來的一場(chǎng)恰恰就是新的移動(dòng)電話使用政策造成的。按月按服務(wù)類型顯示的Nashua生產(chǎn)基地電話賬單類型1月2月3月4月5月6月7月8月9月10月辦公室話費(fèi)8000840082008200810080008200840085008450電話卡費(fèi)用2000210020502000195019001950190018501900手機(jī)話費(fèi)05045742236435644886075644062106255總電話費(fèi)10000110041082412436144061438816225167401656016605(三)一家汽車公司的商務(wù)智能-采購(gòu)經(jīng)理按月按服務(wù)類型顯示的Nashua生產(chǎn)基地電話賬單年份:2000(截至報(bào)告月)設(shè)備:全部服務(wù):全部單位:美元人均電話費(fèi)支出員工人數(shù)1月2月3月4月5月6月7月8月9月10月42038034030026022052504846444240(三)一家汽車公司的商務(wù)智能-采購(gòu)經(jīng)理

(三)一家汽車公司的商務(wù)智能-采購(gòu)經(jīng)理

(4)吉姆對(duì)Nashua基地移動(dòng)電話賬單數(shù)據(jù)進(jìn)行了“下鉆”,發(fā)現(xiàn)國(guó)際長(zhǎng)途電話在增長(zhǎng)幅度較大,特別是打到英國(guó)的長(zhǎng)途電話費(fèi)最為引人注目。吉姆與該地區(qū)的經(jīng)理通了電話,原來他們正在與英國(guó)的幾個(gè)主要供應(yīng)商建立一個(gè)聯(lián)盟,供貨和配送需求不斷更新,需要隨時(shí)聯(lián)系。Nashua生產(chǎn)基地移動(dòng)電話賬單(三)一家汽車公司的商務(wù)智能-采購(gòu)經(jīng)理手機(jī)話費(fèi)類型1月2月3月4月5月6月7月8月9月10月市話2362923441319226525582734289827952877國(guó)內(nèi)長(zhǎng)途156202218872196017501944206119252127國(guó)際-英國(guó)000044901276135213661126國(guó)際-其他81012448688120128124125Nashua生產(chǎn)基地移動(dòng)電話賬單年份:2000(截至報(bào)告月)設(shè)備:全部服務(wù):全部單位:美元1月2月3月4月5月6月7月8月9月10月16012080400人均電話費(fèi)支出行業(yè)內(nèi)人均手機(jī)費(fèi)用支出(三)一家汽車公司的商務(wù)智能-采購(gòu)經(jīng)理(三)一家汽車公司的商務(wù)智能-采購(gòu)經(jīng)理

(5)吉姆得到了這個(gè)重要信息后,馬上與其電信服務(wù)商聯(lián)系,簽訂了一份特殊的協(xié)議——對(duì)與英國(guó)方面的通信業(yè)務(wù)給予優(yōu)惠。該項(xiàng)協(xié)議的簽署,意味著吉姆將為他的公司每年節(jié)省數(shù)百萬美元的經(jīng)費(fèi)。吉姆通過因特網(wǎng)獲得了電信公司提供的相關(guān)數(shù)據(jù),利用商務(wù)智能工具對(duì)其企業(yè)內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)加以綜合分析和利用,采取合理的措施,從而為企業(yè)節(jié)省了大量成本。1什么是商務(wù)智能?2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化3數(shù)據(jù)觀察和數(shù)據(jù)分析的基礎(chǔ)-數(shù)據(jù)倉(cāng)庫(kù)4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)5數(shù)據(jù)分析層面的商務(wù)智能-數(shù)據(jù)挖掘商務(wù)智能2.1為什么要“業(yè)務(wù)流程的可視化”?2.2“業(yè)務(wù)流程可視化”的形式2.3業(yè)務(wù)流程的可視化的基礎(chǔ)2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化組織的效率取決于它的業(yè)務(wù)流程的有效運(yùn)行。但如何知道業(yè)務(wù)流程在正常運(yùn)行?(也就是說如何知道業(yè)務(wù)在正常進(jìn)行?)

不知道業(yè)務(wù)是否正常進(jìn)行,當(dāng)然業(yè)務(wù)(商務(wù))管理也就無從談起,“商務(wù)智能”就更無從談起了!要知道業(yè)務(wù)流程是否正常運(yùn)行,需要對(duì)流程運(yùn)行進(jìn)行監(jiān)視,這就要求“業(yè)務(wù)流程的可視化”!2.1為什么要“業(yè)務(wù)流程的可視化”? 過去,我看到的是各方面報(bào)來的結(jié)果,我說不清數(shù)據(jù)的可靠性。 現(xiàn)在(流程可視化后),我看到的是產(chǎn)生結(jié)果的過程,我可以判斷其真實(shí)性! 北一大偎公司項(xiàng)目經(jīng)理趙紅霞: 2.1為什么要“業(yè)務(wù)流程的可視化”?2.2“業(yè)務(wù)流程可視化”的形式2.3業(yè)務(wù)流程的可視化的基礎(chǔ)2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化2.2“業(yè)務(wù)流程可視化”的形式(1)模型可視化使用可視化的建模工具,利用圖形化的方式描述組織內(nèi)角色、活動(dòng)、流程的狀態(tài)及其相互關(guān)系,建立企業(yè)業(yè)務(wù)流程模型。流程圖建模在可視化建模中運(yùn)用得非常廣泛,它是指將一些符號(hào)放在呈現(xiàn)界面上來描述系統(tǒng)邏輯關(guān)系,并利用模塊圖和網(wǎng)絡(luò)圖來建立系統(tǒng)仿真模型的一種技術(shù)。

(2)信息可視化信息可視化通常被定義為通過使用由計(jì)算機(jī)支持的、交互式的且可視的抽象數(shù)據(jù)呈現(xiàn)方式來加強(qiáng)認(rèn)知的過程。在信息可視化系統(tǒng)中一般使用工作流管理技術(shù)將企業(yè)運(yùn)行過程中產(chǎn)生的數(shù)據(jù)以及結(jié)果“推向”用戶,使用戶及時(shí)感知業(yè)務(wù)的狀態(tài)。2.1為什么要“業(yè)務(wù)流程的可視化”?2.2“業(yè)務(wù)流程可視化”的形式2.3業(yè)務(wù)流程的可視化的基礎(chǔ)2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化(1)信息集成指企業(yè)系統(tǒng)中各業(yè)務(wù)子系統(tǒng)和用戶的信息采用統(tǒng)一的標(biāo)準(zhǔn),規(guī)范和編碼,實(shí)現(xiàn)全系統(tǒng)信息共享,進(jìn)而可實(shí)現(xiàn)相關(guān)用戶軟件間的交互和有序工作。

(2)信息共享指不同層次、不同部門信息系統(tǒng)間,信息和信息產(chǎn)品的交流與共用。2.3業(yè)務(wù)流程的可視化的基礎(chǔ)1什么是商務(wù)智能?2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化3數(shù)據(jù)觀察和數(shù)據(jù)分析的基礎(chǔ)-數(shù)據(jù)倉(cāng)庫(kù)4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)5數(shù)據(jù)分析層面的商務(wù)智能-數(shù)據(jù)挖掘商務(wù)智能3.1什么是數(shù)據(jù)倉(cāng)庫(kù)?3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織3數(shù)據(jù)觀察和數(shù)據(jù)分析的基礎(chǔ)-數(shù)據(jù)倉(cāng)庫(kù)(1)數(shù)據(jù)倉(cāng)庫(kù)的本質(zhì)數(shù)據(jù)倉(cāng)庫(kù)是為了企業(yè)管理決策需要進(jìn)行的業(yè)務(wù)觀察、企業(yè)運(yùn)行分析等數(shù)據(jù)分析工作專門建立的數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、具有時(shí)間特征的、穩(wěn)定的數(shù)據(jù)集合,用以支持經(jīng)營(yíng)管理中的決策制定過程。3.1什么是數(shù)據(jù)倉(cāng)庫(kù)?在現(xiàn)有業(yè)務(wù)系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù)上,不方便直接進(jìn)行分析型數(shù)據(jù)操作。如果直接在現(xiàn)有業(yè)務(wù)系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù)上進(jìn)行分析型數(shù)據(jù)操作,由于數(shù)據(jù)運(yùn)算量巨大,可能導(dǎo)致拖垮現(xiàn)有業(yè)務(wù)系統(tǒng)。上述問題,要求我們必須為分析型系統(tǒng)建立專門的數(shù)據(jù)存儲(chǔ),這就是數(shù)據(jù)倉(cāng)庫(kù)。決策分析為什么不能直接針對(duì)業(yè)務(wù)數(shù)據(jù)?數(shù)據(jù)四大特征1面向主題2集成性3增量變化4相對(duì)穩(wěn)定(2)數(shù)據(jù)倉(cāng)庫(kù)的特征操作型數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)目的支持日常操作支持管理需求、獲取信息使用人員辦事員、DBA、數(shù)據(jù)庫(kù)專家經(jīng)理、管理人員、分析專家數(shù)據(jù)內(nèi)容當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)、派生數(shù)據(jù)數(shù)據(jù)特點(diǎn)細(xì)節(jié)的綜合的,或提煉的數(shù)據(jù)組織面向應(yīng)用面向主題存取類型增加、更改、查詢、刪除查詢、聚集數(shù)據(jù)穩(wěn)定性動(dòng)態(tài)的相對(duì)穩(wěn)定操作需求特點(diǎn)操作需求事先可知道操作需求事先不知道操作特點(diǎn)一個(gè)時(shí)刻操作一單元一個(gè)時(shí)刻操作一集合數(shù)據(jù)庫(kù)設(shè)計(jì)基于E-R圖基于星型模式、雪花模式一次操作數(shù)據(jù)量一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大存取頻率比較高相對(duì)較低響應(yīng)時(shí)間小于1秒-3秒幾秒幾分鐘(3)操作型數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的比較(4)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用體系的基本結(jié)構(gòu)OLAP數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)可視化應(yīng)用工具數(shù)據(jù)存儲(chǔ)數(shù)據(jù)源外部數(shù)據(jù)內(nèi)部業(yè)務(wù)數(shù)據(jù)抽取清理轉(zhuǎn)換業(yè)務(wù)系統(tǒng)分析型系統(tǒng)“十五”期間:業(yè)務(wù)系統(tǒng)分析型系統(tǒng)“十一五”期間:以業(yè)務(wù)系統(tǒng)(數(shù)據(jù))為基礎(chǔ),建立能對(duì)管理決策提供支持的運(yùn)營(yíng)分析與控制系統(tǒng)。分析型信息系統(tǒng)建設(shè)的目的“十五”期間:業(yè)務(wù)系統(tǒng)分析型系統(tǒng)“十一五”期間:業(yè)務(wù)數(shù)據(jù)1業(yè)務(wù)數(shù)據(jù)n…分析用數(shù)據(jù)數(shù)據(jù)中心(數(shù)據(jù)倉(cāng)庫(kù))從已有的業(yè)務(wù)系統(tǒng),建立分析型系統(tǒng)的基礎(chǔ)是:對(duì)業(yè)務(wù)系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行再組織得到分析用的數(shù)據(jù),建立分析用“數(shù)據(jù)中心”(或數(shù)據(jù)倉(cāng)庫(kù))。分析型信息系統(tǒng)的關(guān)鍵(1/3)

—數(shù)據(jù)倉(cāng)庫(kù)業(yè)務(wù)系統(tǒng)分析型系統(tǒng)業(yè)務(wù)數(shù)據(jù)1業(yè)務(wù)數(shù)據(jù)n…分析用數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)分析結(jié)果數(shù)據(jù)挖掘OLAP分析型信息系統(tǒng)的關(guān)鍵(2/3,3/3)

—OLAP+數(shù)據(jù)挖掘①基于分析型數(shù)據(jù)進(jìn)行人工數(shù)據(jù)分析操作就是OLAP!

②基于分析型數(shù)據(jù)開展自動(dòng)(或半自動(dòng))數(shù)據(jù)分析工作就是數(shù)據(jù)挖掘!3.1什么是數(shù)據(jù)倉(cāng)庫(kù)?3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織3數(shù)據(jù)觀察和數(shù)據(jù)分析的基礎(chǔ)-數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)組織數(shù)據(jù)的來源數(shù)據(jù)的結(jié)構(gòu)3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織(1)數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉(cāng)庫(kù)的原始數(shù)據(jù)來源,是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)開發(fā)與應(yīng)用的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)源非常廣泛。從總體內(nèi)容上講,可以分為企業(yè)內(nèi)部數(shù)據(jù)源和企業(yè)外部數(shù)據(jù)源兩大類。

3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織1)企業(yè)內(nèi)部數(shù)據(jù)源企業(yè)內(nèi)部數(shù)據(jù)指的是企業(yè)多年來的數(shù)據(jù)沉淀(主要是業(yè)務(wù)數(shù)據(jù))。由于各企業(yè)的歷史背景與應(yīng)用環(huán)境不同,企業(yè)內(nèi)部數(shù)據(jù)源有很大的差異,表現(xiàn)在數(shù)據(jù)內(nèi)容、結(jié)構(gòu)和存儲(chǔ)類型等許多方面。在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的建設(shè)中,應(yīng)該針對(duì)商務(wù)需求對(duì)內(nèi)部數(shù)據(jù)源進(jìn)行充分的分析,適當(dāng)?shù)膶?duì)比,為正確高效地獲取基礎(chǔ)數(shù)據(jù)做準(zhǔn)備。3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織2)企業(yè)外部數(shù)據(jù)源企業(yè)外部數(shù)據(jù)源的內(nèi)容更為廣泛,數(shù)據(jù)的存儲(chǔ)類型也更為多樣化,比較常見的為目標(biāo)市場(chǎng)信息、競(jìng)爭(zhēng)對(duì)手信息、行業(yè)統(tǒng)計(jì)信息等。外部數(shù)據(jù)源的獲取往往存在著一定的難度,可能采用的幾種主要方式為:從行業(yè)相關(guān)部門獲取資料;向信息咨詢公司購(gòu)買數(shù)據(jù);企業(yè)內(nèi)部組建相應(yīng)機(jī)構(gòu)進(jìn)行專門的調(diào)查研究;從行業(yè)期刊或網(wǎng)絡(luò)中分析摘錄相關(guān)信息等。數(shù)據(jù)倉(cāng)庫(kù)的總線主題粒度維度數(shù)據(jù)立方體數(shù)據(jù)集市星形模式相關(guān)基本概念一致性保障機(jī)制數(shù)據(jù)組織方式3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織(2)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)結(jié)構(gòu)3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織(3)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)結(jié)構(gòu)相關(guān)概念1)主題主題是一個(gè)在較高層次上將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主題基本對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域。面向主題的數(shù)據(jù)組織方式是根據(jù)分析要求將數(shù)據(jù)組織成一個(gè)個(gè)完備的分析領(lǐng)域,稱為主題域。主題域應(yīng)該具有獨(dú)立性和完備性。操作型環(huán)境數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用主題顧客保險(xiǎn)單索賠3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織業(yè)務(wù)(應(yīng)用)與主題例如對(duì)一個(gè)保險(xiǎn)公司來說,應(yīng)用問題可能是汽車保險(xiǎn)、健康保險(xiǎn)和意外傷亡保險(xiǎn)等;而公司的主要主題域卻可能是顧客、保險(xiǎn)單、索賠等。3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織2)粒度粒度是指數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)單元的詳細(xì)程度和級(jí)別。數(shù)據(jù)越詳細(xì),粒度越小級(jí)別就越低;數(shù)據(jù)綜合度越高,粒度越大級(jí)別就越高。在傳統(tǒng)的操作型數(shù)據(jù)庫(kù)系統(tǒng)中,對(duì)數(shù)據(jù)處理和操作都是在最低級(jí)的粒度上進(jìn)行的。但是在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中應(yīng)用的主要是分析型處理,一般需要將數(shù)據(jù)劃分為:詳細(xì)數(shù)據(jù)、輕度總結(jié)、高度總結(jié)三級(jí)或更多級(jí)粒度。高細(xì)節(jié)——低粒度級(jí)例如:一個(gè)顧客一個(gè)月內(nèi)所有電話的通話細(xì)節(jié)。低細(xì)節(jié)——高粒度級(jí)例如:一個(gè)顧客一個(gè)月內(nèi)通話總額。3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織數(shù)據(jù)粒度與對(duì)象信息的詳細(xì)程度低粒度級(jí)能回答細(xì)節(jié)問題數(shù)據(jù)量大高粒度級(jí)能進(jìn)行綜合性查詢數(shù)據(jù)量小權(quán)衡選擇粒度的高低是非常重要的,它關(guān)系到能否滿足企業(yè)決策信息支持的需要,以及能否滿足查詢速度的要求。3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織粒度與數(shù)據(jù)量3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織3)維度維度是指人們觀察事物的特定的角度,例如:時(shí)間維、地區(qū)維。人們從某個(gè)維的角度觀察數(shù)據(jù),還可以根據(jù)細(xì)節(jié)程度的不同形成多個(gè)描述層次,該多個(gè)描述層次就稱為維層次。中國(guó)西北地區(qū)東北地區(qū)華北地區(qū)簡(jiǎn)單層次關(guān)系的維層次3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織中國(guó)西北地區(qū)東北地區(qū)華北地區(qū)黑龍江省遼寧省吉林省沈陽(yáng)市鞍山市…………復(fù)雜層次關(guān)系的維層次3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織(4)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的組織方式1)數(shù)據(jù)立方體數(shù)據(jù)立方體是指由兩個(gè)或更多個(gè)維來描述或分類的數(shù)據(jù)。在三維的情況下以圖形來表示,該類數(shù)據(jù)具有立方體結(jié)構(gòu),一般稱為數(shù)據(jù)立方體。雖然通常從幾何意義的角度將立方體理解為三維,但是在數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)立方體是一個(gè)n維的概念。銷售收入地區(qū)維時(shí)間維產(chǎn)品維產(chǎn)品維時(shí)間維地區(qū)維銷售收入3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織數(shù)據(jù)立方體(圖示)與分析問題問題:“某產(chǎn)品在某個(gè)月份在某個(gè)地區(qū)的銷售收入是多少?”半年季度月份地區(qū)大類具體地區(qū)碼CAMCVCRTR-75UX-11TR-78EC-1XVG上半年1季度一月北部5316059001290450809上半年1季度一月北部539899788564780655上半年1季度一月南部652900680602780680上半年1季度一月南部6835901020608800407上半年1季度一月南部8671300780398745576上半年1季度二月北部5311098980479576879上半年1季度二月北部5391350680609889809……………………………………………………數(shù)據(jù)立方體(數(shù)據(jù))例:某錄像機(jī)生產(chǎn)商某年的部分銷售數(shù)據(jù)3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織產(chǎn)品維層次錄像機(jī)產(chǎn)品CAMCVCRTR-78TR-75UX-11XVGEC-1全部地區(qū)北部地區(qū)南部地區(qū)652531539867683地區(qū)維層次3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織從前數(shù)據(jù)立方體數(shù)據(jù)中可以獲得銷售分析維度的信息。時(shí)間維層次上半年全年下半年一季度二季度4月2月3月6月5月1月三季度四季度10月8月9月12月11月7月3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織注:紅色部分代表了1月份531地區(qū)所有產(chǎn)品的銷售收入

TR-75UX-11TR-78EC-1XVG5315396526838675月4月3月2月1月全部南方北方第1季第2季1年產(chǎn)品地區(qū)27時(shí)間錄像機(jī)CACMVCR3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織“銷售分析”數(shù)據(jù)立方體-便于觀察數(shù)據(jù)!3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織2)數(shù)據(jù)集市數(shù)據(jù)集市是完整的數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯子集,而數(shù)據(jù)倉(cāng)庫(kù)正是由其所有的數(shù)據(jù)集市有機(jī)組合而成的。數(shù)據(jù)集市一般在某一個(gè)業(yè)務(wù)部門建設(shè),滿足其分析決策的需要,可以將其理解為“部門級(jí)數(shù)據(jù)倉(cāng)庫(kù)”。各數(shù)據(jù)集市都應(yīng)該是數(shù)據(jù)倉(cāng)庫(kù)的有機(jī)組成部分,且各數(shù)據(jù)集市間應(yīng)協(xié)調(diào)一致,滿足整個(gè)企業(yè)分析決策的需要。銷售子系統(tǒng)數(shù)據(jù)抽取與集成數(shù)據(jù)抽取銷售子系統(tǒng)銷售子系統(tǒng)數(shù)據(jù)抽取數(shù)據(jù)抽取.........數(shù)據(jù)集市數(shù)據(jù)倉(cāng)庫(kù)業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)集市(DataMart)—部門級(jí)數(shù)據(jù)倉(cāng)庫(kù)

時(shí)間碼產(chǎn)品碼地區(qū)碼銷售量銷售額銷售成本產(chǎn)品碼產(chǎn)品大類產(chǎn)品細(xì)類產(chǎn)品名稱地區(qū)碼國(guó)家地區(qū)城市時(shí)間碼日期月份季度年度時(shí)間維表事實(shí)表產(chǎn)品維表地區(qū)維表3)星形模式為了數(shù)據(jù)分析方便,在數(shù)據(jù)倉(cāng)庫(kù)中,由兩種類型的表(事實(shí)表和維表)保存數(shù)據(jù)。事實(shí)表和維表間通過星形方式連接而成,故稱為星形模式。3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織事實(shí)表與維表事實(shí)表包含的是業(yè)務(wù)數(shù)據(jù)信息,數(shù)據(jù)取值通常是可度量的、連續(xù)型的,且具有可加性,數(shù)據(jù)量可達(dá)到幾百萬甚至上億條記錄。維表包含的是相應(yīng)維度的描述型信息,這些信息用作查詢的約束條件,一般是離散的、描述性的,不具有可加性。3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織(5)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的一致性保障機(jī)制:數(shù)據(jù)總線

一個(gè)數(shù)據(jù)倉(cāng)庫(kù)內(nèi)所有的數(shù)據(jù)集市必須具有統(tǒng)一一致的維定義和統(tǒng)一一致的業(yè)務(wù)事實(shí)。統(tǒng)一的維和統(tǒng)一的事實(shí)就是數(shù)據(jù)倉(cāng)庫(kù)的“總線”??偩€型結(jié)構(gòu)的目的在于避免各數(shù)據(jù)集市不能有機(jī)地組合在一起,不能從全企業(yè)的角度查看數(shù)據(jù)信息。應(yīng)收帳款事實(shí)銷售量事實(shí)銷售額事實(shí)…分銷渠道維時(shí)間維…客戶維產(chǎn)品維統(tǒng)一的事實(shí)統(tǒng)一的維財(cái)務(wù)數(shù)據(jù)集市銷售數(shù)據(jù)集市3.2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)的總線型結(jié)構(gòu)1什么是商務(wù)智能?2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化3數(shù)據(jù)觀察和數(shù)據(jù)分析的基礎(chǔ)-數(shù)據(jù)倉(cāng)庫(kù)4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)5數(shù)據(jù)分析層面的商務(wù)智能-數(shù)據(jù)挖掘商務(wù)智能基于數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行數(shù)據(jù)分析的兩種方式在線分析處理數(shù)據(jù)挖掘在線分析處理是基于數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行數(shù)據(jù)分析的兩種方式之一4.1什么是在線分析處理(OLAP)?4.2OLAP的基本操作4.3OLAP應(yīng)用實(shí)例4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)4.1什么是在線分析處理(OLAP)?(1)OLAP的產(chǎn)生60年代末,E.F.Codd提出了關(guān)系數(shù)據(jù)模型,其促進(jìn)了關(guān)系數(shù)據(jù)庫(kù)及聯(lián)機(jī)事物處理(OLTP)的發(fā)展。后來,聯(lián)機(jī)事務(wù)處理已不能滿足終端用戶對(duì)數(shù)據(jù)庫(kù)查詢分析越來越復(fù)雜的需要,SQL對(duì)大數(shù)據(jù)庫(kù)進(jìn)行的簡(jiǎn)單查詢不能滿足用戶分析的需求。聯(lián)機(jī)分析處理(OnlineAnalysisProcessing)就是針對(duì)用戶決策分析需要對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行大量計(jì)算才能得到所需要的結(jié)果的數(shù)據(jù)分析需求發(fā)展而來的技術(shù)。4.1什么是在線分析處理(OLAP)?(2)OLAP的本質(zhì)OLAP是數(shù)據(jù)處理的一種技術(shù)概念,其基本目的是使企業(yè)的決策者應(yīng)能靈活地操縱企業(yè)的數(shù)據(jù),以多維的形式從多方面和多角度來觀察企業(yè)的狀態(tài)、了解企業(yè)的變化,通過快速、一致、交互地訪問各種可能的信息視圖,幫助管理人員掌握數(shù)據(jù)中存在的規(guī)律,實(shí)現(xiàn)對(duì)數(shù)據(jù)的歸納、分析和處理,幫助組織完成相關(guān)的決策。快速性可分析性多維性信息性用戶對(duì)OLAP的快速反應(yīng)能力有很高的要求

OLAP系統(tǒng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析

OLAP系統(tǒng)必須提供對(duì)數(shù)據(jù)的多維視圖和分析OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息并且管理大容量信息

4.1什么是在線分析處理(OLAP)?(3)OLAP的特征

觀察在某一時(shí)間點(diǎn)或時(shí)間段上各個(gè)產(chǎn)品在各個(gè)地區(qū)的銷售情況產(chǎn)品地區(qū)時(shí)間觀察某地區(qū)各個(gè)產(chǎn)品在各個(gè)時(shí)期的銷售情況產(chǎn)品地區(qū)時(shí)間觀察某種產(chǎn)品在各個(gè)時(shí)期和各個(gè)地區(qū)中的銷售情況產(chǎn)品地區(qū)時(shí)間觀察某種產(chǎn)品在某時(shí)間點(diǎn)或時(shí)間段上在某地區(qū)的銷售情況產(chǎn)品地區(qū)時(shí)間4.1什么是在線分析處理(OLAP)?(4)OLAP多維數(shù)據(jù)視圖

4.1什么是在線分析處理(OLAP)?4.2OLAP的基本操作4.3OLAP應(yīng)用實(shí)例4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)對(duì)于訂貨分析的訂貨立方體,選定訂貨立方體中的客戶維與產(chǎn)品維,在時(shí)間維中選取一個(gè)屬性成員(如“2008年1月”),就得到了訂貨立方體在產(chǎn)品和客戶兩維上的一個(gè)切片。該切片表示2008年1月各客戶、各產(chǎn)品的訂購(gòu)情況。

(1)切片

切片就是在某個(gè)或某些維上選定一個(gè)屬性成員,而在某兩個(gè)維上取一定區(qū)間的屬性成員或全部屬性成員。4.2OLAP的基本操作產(chǎn)品維客戶維產(chǎn)品維客戶維時(shí)間維產(chǎn)品訂購(gòu)情況2008年1月產(chǎn)品訂購(gòu)情況選定時(shí)間維的維成員“2008年1月”選定兩個(gè)維,產(chǎn)品維和客戶維數(shù)據(jù)切片4.2OLAP的基本操作切片操作例接前例,若將時(shí)間維上的取值設(shè)定為一個(gè)區(qū)間(例如取“2008年1月至2008年10月”),而非單一的屬性成員時(shí),就得到一個(gè)數(shù)據(jù)切塊,它可以看成由2008年1月至2008年10月10個(gè)切片疊合而成。(2)切塊

切塊是在立方體中的三個(gè)維上取一定區(qū)間的屬性成員或全部屬性成員。從另一個(gè)角度講,切塊可以看成是由多個(gè)切片疊合起來。

4.2OLAP的基本操作產(chǎn)品維客戶維時(shí)間維數(shù)據(jù)切塊產(chǎn)品維客戶維時(shí)間維4.2OLAP的基本操作切塊操作例實(shí)現(xiàn)所有客戶對(duì)某產(chǎn)品季度訂購(gòu)額與月份訂購(gòu)額之間的鉆取。比如2008年第一季度。(3)上鉆和下鉆

鉆取包括上鉆和下鉆兩種操作。從高級(jí)別數(shù)據(jù)到明細(xì)數(shù)據(jù)視圖稱為下鉆;從明細(xì)級(jí)向上到高級(jí)來觀察數(shù)據(jù),稱為上鉆。數(shù)據(jù)庫(kù)的設(shè)計(jì)以及數(shù)據(jù)的粒度級(jí)別將決定下鉆或上鉆的能力。

4.2OLAP的基本操作(3)上鉆和下鉆

上鉆下鉆銷售額(單位:萬元)第一季度產(chǎn)品145產(chǎn)品253……4.2OLAP的基本操作銷售額(單位:萬元)第一季度1月2月3月產(chǎn)品125515產(chǎn)品2201518……將一個(gè)橫向?yàn)闀r(shí)間、縱向?yàn)楫a(chǎn)品的報(bào)表,變成一個(gè)橫向仍為時(shí)間和縱向旋轉(zhuǎn)為客戶的報(bào)表。

(4)旋轉(zhuǎn)旋轉(zhuǎn)即是改變一個(gè)報(bào)告或頁(yè)面顯示的維方向。通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。

4.2OLAP的基本操作(4)旋轉(zhuǎn)旋轉(zhuǎn)以改變頁(yè)面顯示時(shí)間維客戶維產(chǎn)品維時(shí)間維產(chǎn)品維客戶維4.2OLAP的基本操作3.1什么是在線分析處理(OLAP)?3.2OLAP的基本操作4.3OLAP應(yīng)用實(shí)例4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)(1)問題背景描述以某鋼鐵集團(tuán)銷售公司為背景,給出數(shù)據(jù)倉(cāng)庫(kù)的星型建模方案及OLAP分析例。該鋼鐵集團(tuán)銷售公司是一個(gè)較早應(yīng)用MIS的企業(yè),經(jīng)過多年的發(fā)展,公司積累的數(shù)據(jù)越來越多,大量的數(shù)據(jù)背后隱藏著許多重要的信息。為了充分利用這些數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)中所隱含的知識(shí),公司迫切要求建立數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)OLAP分析。使用工具為SQLServer。4.3OLAP應(yīng)用實(shí)例(2)確定分析主題

建立數(shù)據(jù)倉(cāng)庫(kù)的第一步是確定商業(yè)需求,根據(jù)需求確定分析主題。本例主要討論該鋼鐵集團(tuán)銷售公司的訂貨分析主題。訂貨主題主要從時(shí)間、客戶、產(chǎn)品等維度來分析產(chǎn)品訂購(gòu)情況。

發(fā)現(xiàn)優(yōu)勢(shì)產(chǎn)品,判別產(chǎn)品潛在的銷售能力,選擇合適的分銷渠道識(shí)別客戶群,預(yù)測(cè)客戶的訂貨趨勢(shì),采取靈活的促銷策略降低庫(kù)存量,減少交貨失誤,改善訂貨業(yè)務(wù)通過訂貨分析實(shí)現(xiàn)4.3OLAP應(yīng)用實(shí)例(3)分析數(shù)據(jù)源

在確定主題之后,需要分析數(shù)據(jù)源,并進(jìn)行相關(guān)數(shù)據(jù)的抽取。本例的數(shù)據(jù)源來自該鋼鐵集團(tuán)銷售公司。我們需要的數(shù)據(jù)有:時(shí)間信息(包括年、月)、客戶信息(包括客戶編號(hào)、客戶名稱、客戶分部)、產(chǎn)品信息(包括品種編號(hào)、品種名稱、產(chǎn)品長(zhǎng)度、厚度、寬度),以及事實(shí)表中的事實(shí)度量值訂貨量。4.3OLAP應(yīng)用實(shí)例分析數(shù)據(jù)源

4.3OLAP應(yīng)用實(shí)例(4)建立訂貨分析的星形模式

時(shí)間碼產(chǎn)品碼客戶碼訂貨量產(chǎn)品碼品種編號(hào)品種名稱產(chǎn)品厚度產(chǎn)品寬度產(chǎn)品長(zhǎng)度客戶碼客戶編號(hào)客戶名稱客戶分部時(shí)間碼月份年度時(shí)間維表訂貨事實(shí)表產(chǎn)品維表客戶維表4.3OLAP應(yīng)用實(shí)例時(shí)間維的結(jié)構(gòu)

4.3OLAP應(yīng)用實(shí)例產(chǎn)品維的結(jié)構(gòu)

4.3OLAP應(yīng)用實(shí)例客戶維的結(jié)構(gòu)

4.3OLAP應(yīng)用實(shí)例訂貨事實(shí)的結(jié)構(gòu)

4.3OLAP應(yīng)用實(shí)例建立訂貨事實(shí)表與各維表的關(guān)系

4.3OLAP應(yīng)用實(shí)例(5)訂貨分析的DTS包SQLServer中的數(shù)據(jù)轉(zhuǎn)換服務(wù)DTS(DataTransformationServices)主要作用是把不同的數(shù)據(jù)來源中的數(shù)據(jù)結(jié)合起來,并利用自身的數(shù)據(jù)轉(zhuǎn)換功能把這些結(jié)合后的數(shù)據(jù)放入數(shù)據(jù)倉(cāng)庫(kù)之中。4.3OLAP應(yīng)用實(shí)例訂貨分析的數(shù)據(jù)轉(zhuǎn)換的實(shí)現(xiàn)過程圖

創(chuàng)建連接數(shù)據(jù)轉(zhuǎn)換執(zhí)行并保存DTS包確定流程順序執(zhí)行SQL任務(wù)建立數(shù)據(jù)導(dǎo)入的工作流4.3OLAP應(yīng)用實(shí)例(6)訂貨分析的OLAP實(shí)踐SQLServer分析服務(wù)提供了從數(shù)據(jù)倉(cāng)庫(kù)中設(shè)計(jì)、構(gòu)建及管理多維數(shù)據(jù)集的能力,以及讓客戶端可以取得OLAP數(shù)據(jù)。多維數(shù)據(jù)集構(gòu)建完成后必須能夠讓用戶直接進(jìn)行操作,SQLServer提供了數(shù)據(jù)透視表服務(wù)(PivotTableServices),可以用Excel通過數(shù)據(jù)透視表服務(wù)連接到分析服務(wù)器,將多維數(shù)據(jù)集中的數(shù)據(jù)取來做分析。

4.3OLAP應(yīng)用實(shí)例

訂貨分析的OLAP實(shí)踐的流程

分析服務(wù)器端客戶端分析多維數(shù)據(jù)設(shè)定數(shù)據(jù)來源創(chuàng)建多維數(shù)據(jù)集分析多維數(shù)據(jù)數(shù)據(jù)透視表服務(wù)4.3OLAP應(yīng)用實(shí)例從產(chǎn)品維與時(shí)間維觀察數(shù)據(jù)4.3OLAP應(yīng)用實(shí)例數(shù)據(jù)透視4.3OLAP應(yīng)用實(shí)例碳素鎮(zhèn)板、碳素鎮(zhèn)卷、液化氣瓶卷的訂貨趨勢(shì)分析4.3OLAP應(yīng)用實(shí)例1什么是商務(wù)智能?2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化3數(shù)據(jù)觀察和數(shù)據(jù)分析的基礎(chǔ)-數(shù)據(jù)倉(cāng)庫(kù)4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)5數(shù)據(jù)分析層面的商務(wù)智能-數(shù)據(jù)挖掘商務(wù)智能基于數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行數(shù)據(jù)分析的兩種方式在線分析處理數(shù)據(jù)挖掘數(shù)據(jù)挖掘是基于數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行數(shù)據(jù)分析的兩種方式之一5.1什么是數(shù)據(jù)挖掘?5.2數(shù)據(jù)挖掘能做什么事?—數(shù)據(jù)挖掘的任務(wù)!5數(shù)據(jù)分析層面的商務(wù)智能-數(shù)據(jù)挖掘(1)啤酒與尿布的故事(小案例)某大型超市發(fā)現(xiàn)每到周末,啤酒與尿布的銷量就會(huì)同時(shí)大增,這是什么原因呢?購(gòu)物籃5.1什么是數(shù)據(jù)挖掘?(1)啤酒與尿布的故事(小案例)-續(xù)這是沃爾瑪利用NCR自動(dòng)數(shù)據(jù)挖掘工具(模式識(shí)別軟件)對(duì)一年多詳細(xì)的原始交易數(shù)據(jù)進(jìn)行分析和挖掘后的一個(gè)意外發(fā)現(xiàn):跟尿布一起購(gòu)買最多的商品竟是啤酒!沃爾瑪因此就在其商店里將它們并排擺放在一起,結(jié)果是尿布與啤酒的銷售量雙雙增長(zhǎng)。經(jīng)過研究人員分析發(fā)現(xiàn),原來家里的太太們讓丈夫們?nèi)コ薪o孩子買尿布,而丈夫們?cè)谫I尿布的時(shí)候往往順便買上幾瓶啤酒回去喝。這樣就產(chǎn)生了這個(gè)比較奇怪的現(xiàn)象。數(shù)據(jù)挖掘?qū)?shù)據(jù)挖掘結(jié)果的解釋分析5.1什么是數(shù)據(jù)挖掘?(2)KDD與數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)一詞的第一次出現(xiàn)是在1989年8月在美國(guó)底特律召開的第11屆國(guó)際人工智能聯(lián)合會(huì)議的專題討論會(huì)上。

數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)集中識(shí)別有效的、新穎的、潛在有用的,以及最終可理解模式的非平凡處理過程。5.1什么是數(shù)據(jù)挖掘?KDD是一個(gè)交互式、循環(huán)反復(fù)的整體過程,除了包括數(shù)據(jù)挖掘外,還包括數(shù)據(jù)的預(yù)處理和對(duì)所發(fā)現(xiàn)的結(jié)果進(jìn)行解釋評(píng)估等諸多環(huán)節(jié)。數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)中專門負(fù)責(zé)發(fā)現(xiàn)知識(shí)的核心環(huán)節(jié)。數(shù)據(jù)挖掘KDD5.1什么是數(shù)據(jù)挖掘?KDD的過程可視化數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘解釋評(píng)估數(shù)據(jù)庫(kù)待挖掘數(shù)據(jù)抽取的信息有用的知識(shí)5.1什么是數(shù)據(jù)挖掘?(3)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)為數(shù)據(jù)挖掘提供了更廣闊的空間。數(shù)據(jù)倉(cāng)庫(kù)完成了數(shù)據(jù)的收集、集成、存儲(chǔ)、管理等工作,數(shù)據(jù)挖掘面對(duì)的是經(jīng)過初步加工的數(shù)據(jù),使得數(shù)據(jù)挖掘能更專注于知識(shí)的發(fā)現(xiàn)。另一方面,由于數(shù)據(jù)倉(cāng)庫(kù)所具有的新的特點(diǎn),又對(duì)數(shù)據(jù)挖掘技術(shù)提出了更高的要求。數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)結(jié)合起來,能夠更充分地發(fā)揮潛力。

5.1什么是數(shù)據(jù)挖掘?

數(shù)據(jù)倉(cāng)庫(kù)中集成和存儲(chǔ)著來自若干異構(gòu)數(shù)據(jù)源的信息,這就要求其數(shù)據(jù)挖掘的算法必須更有效、更快速。數(shù)據(jù)倉(cāng)庫(kù)對(duì)數(shù)據(jù)挖掘技術(shù)提出的更高要求

數(shù)據(jù)倉(cāng)庫(kù)中的長(zhǎng)時(shí)間歷史數(shù)據(jù)在時(shí)間軸上的特征,在一定程度上增加了數(shù)據(jù)挖掘的難度。數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展對(duì)數(shù)據(jù)挖掘提出了更高的要求5.1什么是數(shù)據(jù)挖掘?聚類分析分類發(fā)現(xiàn)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)序列模式發(fā)現(xiàn)……數(shù)據(jù)挖掘的任務(wù)5.2數(shù)據(jù)挖掘能做什么事?—數(shù)據(jù)挖掘的任務(wù)?。?)聚類分析1)聚類分析的內(nèi)涵

聚類任務(wù)用于發(fā)現(xiàn)在數(shù)據(jù)庫(kù)中未知的對(duì)象類。這種對(duì)象類劃分的依據(jù)是“物以類聚”,即考察個(gè)體或數(shù)據(jù)對(duì)象間的相似性,滿足相似性條件的個(gè)體或數(shù)據(jù)對(duì)象劃分在一組內(nèi),不滿足相似性條件的個(gè)體或數(shù)據(jù)對(duì)象劃分在不同的組。在聚類之前,對(duì)象類劃分的數(shù)量與類型均是未知的,因此在數(shù)據(jù)挖掘后一般需要對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行合理的分析與解釋。5.2

數(shù)據(jù)挖掘的任務(wù)——聚類分析例如:聚類分析能幫助市場(chǎng)分析人員從客戶的基本庫(kù)中發(fā)現(xiàn)不同的客戶群;可以根據(jù)房子的類型、價(jià)值和地理位置對(duì)一個(gè)城市中的房屋進(jìn)行分組;還能對(duì)Web上的文檔進(jìn)行分類等等。2)聚類分析的一般應(yīng)用模式識(shí)別空間數(shù)據(jù)分析圖像處理經(jīng)濟(jì)科學(xué)網(wǎng)絡(luò)

5.2

數(shù)據(jù)挖掘的任務(wù)——聚類分析3)數(shù)據(jù)挖掘應(yīng)用對(duì)聚類分析算法的要求處理不同類型屬性的能力發(fā)現(xiàn)任意形狀的聚類用于決定輸入?yún)?shù)的領(lǐng)域知識(shí)最小化處理噪聲數(shù)據(jù)的能力對(duì)于輸入數(shù)據(jù)的順序不敏感處理高維屬性數(shù)據(jù)的能力結(jié)合用戶特定的約束結(jié)果可解釋性和可用性5.2

數(shù)據(jù)挖掘的任務(wù)——聚類分析4)什么是好的聚類方法?好的聚類方法將產(chǎn)生高質(zhì)量的類,即在類的內(nèi)部具有高的相似度,而類間具有低的相似度。聚類方法的質(zhì)量依賴于所選用的相似度計(jì)算方法和該方法的實(shí)現(xiàn)情況質(zhì)量聚類方法的質(zhì)量也取決于它發(fā)現(xiàn)隱藏模式的能力5.2

數(shù)據(jù)挖掘的任務(wù)——聚類分析5)聚類分析方法的分類分割聚類方法

1層次聚類方法2基于網(wǎng)格的聚類方法4基于密度的聚類方法35.2

數(shù)據(jù)挖掘的任務(wù)——聚類分析算法步驟:首先隨機(jī)地選擇k個(gè)對(duì)象,每個(gè)對(duì)象作為一個(gè)類的“中心”,分別代表將分成的k個(gè)類;根據(jù)距離“中心”最近的原則,尋找與各對(duì)象最為相似的類,將其他對(duì)象分配到各個(gè)相應(yīng)的類中;在完成對(duì)象的分配之后,針對(duì)每個(gè)類,計(jì)算其所有對(duì)象的平均值,作為該類新的“中心”;根據(jù)距離“中心”最近的原則,重新進(jìn)行所有對(duì)象到各個(gè)相應(yīng)類的分配;返回步驟3,直到?jīng)]有變化為止。

聚類算法例——k-平均算法

k-平均算法屬于分割聚類方法。5.2

數(shù)據(jù)挖掘的任務(wù)——聚類分析有10個(gè)對(duì)象xi,,描述每一個(gè)對(duì)象的屬性為xi1,xi2,取值如下表。設(shè)定聚類個(gè)數(shù)為k=2。這里我們采用歐幾里德距離進(jìn)行距離的計(jì)算。k-平均聚類算法數(shù)值例子x1x2x3x4x5x6x7x8x9x10xi2466584382301234567812345678x8x9x10x1x3x5x2x4x6x7xi1xi2k-平均聚類算法數(shù)值例子聚類問題的擴(kuò)展—數(shù)據(jù)對(duì)聚類問題“數(shù)據(jù)(對(duì)象)對(duì)”聚類問題的實(shí)際背景

—電信客戶聚類分析問題電信客戶聚類分析問題說明,在實(shí)際情況中存在這樣一種數(shù)據(jù)情況:實(shí)際業(yè)務(wù)數(shù)據(jù)中,每條記錄標(biāo)明了兩個(gè)的對(duì)象,這兩個(gè)對(duì)象具有關(guān)聯(lián)關(guān)系(以下稱為“數(shù)據(jù)對(duì)”),實(shí)際問題要求我們?cè)趦蓚€(gè)關(guān)聯(lián)對(duì)象的基礎(chǔ)上,尋找更多具有關(guān)聯(lián)關(guān)系的對(duì)象群體。聚類問題的擴(kuò)展—數(shù)據(jù)對(duì)聚類問題“數(shù)據(jù)(對(duì)象)對(duì)”聚類問題的本質(zhì)—類和對(duì)象間的關(guān)系不同-傳統(tǒng)聚類問題的聚類對(duì)象是獨(dú)立對(duì)象!-“數(shù)據(jù)對(duì)”聚類問題的聚類對(duì)象是相互關(guān)聯(lián)的“對(duì)象對(duì)”!-傳統(tǒng)聚類得到的“類”中:每個(gè)對(duì)象只能屬于一個(gè)類!-“數(shù)據(jù)對(duì)”聚類得到的“類”中:一個(gè)對(duì)象可能屬于多個(gè)類(由“對(duì)象對(duì)”構(gòu)成的“類”)!數(shù)據(jù)對(duì)聚類與傳統(tǒng)聚類問題的差異

—聚類對(duì)象不同聚類問題的擴(kuò)展—數(shù)據(jù)對(duì)聚類問題聚類問題的擴(kuò)展—社會(huì)網(wǎng)絡(luò)分析在社會(huì)網(wǎng)絡(luò)中,聚類對(duì)象包含更多基本對(duì)象(如每個(gè)家庭),聚類結(jié)果是一個(gè)個(gè)“社團(tuán)”。社會(huì)網(wǎng)絡(luò)分析的研究應(yīng)用,將導(dǎo)致對(duì)傳統(tǒng)系統(tǒng)論的革命性發(fā)展!(2)分類發(fā)現(xiàn)1)分類發(fā)現(xiàn)的目的分類發(fā)現(xiàn)的目的是構(gòu)造一個(gè)分類函數(shù)或分類模型(也稱作分類器),通過分類函數(shù),把數(shù)據(jù)庫(kù)中的元組映射到給定類別中的某一個(gè),即要發(fā)現(xiàn)一些指定的商品或事件是否屬于某一特定數(shù)據(jù)子集的規(guī)則。5.2

數(shù)據(jù)挖掘的任務(wù)——分類發(fā)現(xiàn)2)分類發(fā)現(xiàn)的處理過程第一階段第二階段分類模型的建立該階段也稱監(jiān)督學(xué)習(xí),數(shù)據(jù)類別是事先已知的,需要做的工作是通過分析訓(xùn)練樣本數(shù)據(jù)總結(jié)出一般性的分類規(guī)則,建立分類模型。分類模型的應(yīng)用應(yīng)用分類模型前,需要對(duì)建立的模型進(jìn)行評(píng)估,在確保分類模型的準(zhǔn)確性及精確度的情況下,才能運(yùn)用該分類模型對(duì)未知其類別的數(shù)據(jù)樣本進(jìn)行分類處理。5.2

數(shù)據(jù)挖掘的任務(wù)——分類發(fā)現(xiàn)分類發(fā)現(xiàn)的處理過程——第一階段訓(xùn)練集分析分類器建立的模型矩形是黃色圓形是紅色三角是綠色2)分類發(fā)現(xiàn)的處理過程分類發(fā)現(xiàn)的處理過程——第二階段數(shù)據(jù)庫(kù)紅色圖形黃色圖形綠色圖形分類器已建立的模型沒有分辨顏色的圖形2)分類發(fā)現(xiàn)的處理過程3)分類模型的評(píng)估標(biāo)準(zhǔn)預(yù)測(cè)準(zhǔn)確性描述的簡(jiǎn)潔性計(jì)算復(fù)雜性模型強(qiáng)健性處理規(guī)模性

5.2

數(shù)據(jù)挖掘的任務(wù)——分類發(fā)現(xiàn)4)分類發(fā)現(xiàn)的主要方法

基于決策樹模型的數(shù)據(jù)分類——ID3算法1基于統(tǒng)計(jì)模型的數(shù)據(jù)分類——貝葉斯分類2基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分類35.2

數(shù)據(jù)挖掘的任務(wù)——分類發(fā)現(xiàn)5)分類發(fā)現(xiàn)規(guī)則提取的實(shí)例利用決策樹模型對(duì)某鋼鐵公司的歷史銷售數(shù)據(jù)進(jìn)行分析。注:*代表對(duì)應(yīng)的屬性為決策屬性注:行數(shù)代表滿足各行要求的記錄個(gè)數(shù)銷售時(shí)間銷售地區(qū)*銷售產(chǎn)品客戶行業(yè)*銷售渠道*利潤(rùn)行數(shù)2000年華中薄板冶金直銷高2002000年華東管材冶金直銷高5102000年華中圓鋼機(jī)電分銷中3002000年華南線材電力直銷低502000年華東線材電力分銷低600…………………2000年華中薄板電力直銷中802000年華中薄板電力直銷高3205.2

數(shù)據(jù)挖掘的任務(wù)——分類發(fā)現(xiàn)應(yīng)用ID3算法得到的決策樹直銷分銷華中華東冶金電力銷售地區(qū)華中低中高高銷售地區(qū)客戶行業(yè)銷售渠道5.2

數(shù)據(jù)挖掘的任務(wù)——分類發(fā)現(xiàn)利用決策樹提取分類規(guī)則(用“IF-THEN”的形式表示)直銷分銷華中華東冶金電力銷售地區(qū)華中低中高高銷售地區(qū)客戶行業(yè)銷售渠道規(guī)則1:IF銷售渠道=“直銷”and客戶行業(yè)=“冶金”THEN銷售業(yè)務(wù)屬于“高”利潤(rùn)規(guī)則2:IF銷售渠道=“直銷”and客戶行業(yè)=“電力”and銷售地區(qū)=“華中”THEN銷售業(yè)務(wù)屬于“高”利潤(rùn)規(guī)則3:IF銷售渠道=“分銷”and銷售地區(qū)=“華中”THEN銷售業(yè)務(wù)屬于“中”利潤(rùn)規(guī)則4:IF銷售渠道=“分銷”and銷售地區(qū)=“華東”THEN銷售業(yè)務(wù)屬于“低”利潤(rùn)5.2

數(shù)據(jù)挖掘的任務(wù)——分類發(fā)現(xiàn)(3)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)1)關(guān)聯(lián)規(guī)則的含義關(guān)聯(lián)規(guī)則是指大量數(shù)據(jù)中項(xiàng)集之間有趣(價(jià)值)的關(guān)聯(lián)或相關(guān)聯(lián)系。前面提到的“啤酒與尿布”的故事就是關(guān)聯(lián)規(guī)則的一個(gè)典型例子。這也成為零售商的貨籃分析,其通過發(fā)現(xiàn)顧客放入其貨籃中不同商品、即不同項(xiàng)之間的聯(lián)系,分析顧客的購(gòu)買習(xí)慣。通過了解哪些商品頻繁地被顧客同時(shí)購(gòu)買,分析得到商品之間的關(guān)聯(lián),這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營(yíng)銷策略。

5.2

數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)2)描述關(guān)聯(lián)規(guī)則的參數(shù)關(guān)鍵參數(shù)作用度期望可信度支持度可信度5.2

數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)描述關(guān)聯(lián)規(guī)則的參數(shù)-支持度商場(chǎng)10個(gè)顧客同時(shí)購(gòu)買錘子和釘子顧客購(gòu)買錘子

顧客購(gòu)買釘子的關(guān)聯(lián)規(guī)則的支持度為10%100個(gè)顧客去商場(chǎng)購(gòu)買東西5.2

數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)商場(chǎng)20個(gè)顧客購(gòu)買了錘子顧客購(gòu)買錘子

顧客購(gòu)買釘子的關(guān)聯(lián)規(guī)則的可信度為50%100個(gè)顧客去商場(chǎng)購(gòu)買東西其中10個(gè)顧客又購(gòu)買了釘子描述關(guān)聯(lián)規(guī)則的參數(shù)-可信度5.2

數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)商場(chǎng)20個(gè)顧客購(gòu)買了釘子顧客購(gòu)買錘子

顧客購(gòu)買釘子的關(guān)聯(lián)規(guī)則的期望可信度為20%100個(gè)顧客去商場(chǎng)購(gòu)買東西描述關(guān)聯(lián)規(guī)則的參數(shù)-期望可信度5.2

數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)作用度是可信度和期望可信度之間的比值。描述關(guān)聯(lián)規(guī)則的參數(shù)-作用度名稱描述(利用前面的例子)公式支持度顧客購(gòu)買錘子(X)和購(gòu)買釘子(Y)同時(shí)出現(xiàn)的概率P(X∪Y)可信度顧客在購(gòu)買錘子(X)的前提下,又購(gòu)買釘子(Y)的概率P(Y|X)期望可信度顧客購(gòu)買釘子(Y)的概率P(Y)作用度可信度與期望可信度的比值P(Y|X)/P(Y)5.2

數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)支持度是對(duì)關(guān)聯(lián)規(guī)則重要性的衡量可信度是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量作用度描述了一個(gè)事件對(duì)另一事件的影響力大小,有用關(guān)聯(lián)規(guī)則的作用度都應(yīng)該大于1四個(gè)參數(shù)的意義期望可信度描述了在沒有別的事件作用下,某一事件本身的支持度5.2

數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)單層關(guān)聯(lián)規(guī)則:規(guī)則條件中僅涉及同一層次上的屬性。多層關(guān)聯(lián)規(guī)則:規(guī)則條件中涉及不同層次上的屬性。單維關(guān)聯(lián)規(guī)則:處理單個(gè)屬性中的一些關(guān)系。啤酒

尿布(一個(gè)屬性:顧客購(gòu)買的東西)多維關(guān)聯(lián)規(guī)則:處理各個(gè)屬性之間的某些關(guān)系。性別=“女”且職業(yè)=“秘書”

漂亮(多個(gè)屬性:性別、職業(yè))3)關(guān)聯(lián)規(guī)則的類型5.2

數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)4)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的步驟進(jìn)行數(shù)據(jù)清理、集成、轉(zhuǎn)換、聚集等數(shù)據(jù)準(zhǔn)備;根據(jù)實(shí)際情況,確定最小支持度和最小可信度;利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;可視化顯示、解釋、評(píng)估關(guān)聯(lián)規(guī)則。5.2

數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)例:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法“概念樹算法”挖掘多層關(guān)聯(lián)規(guī)則食品飲料水果肉類可樂蘋果礦泉水香蕉豬肉可口可樂百事可樂紅富士

從下到上的概括或抽象反之則為從上到下的具體化5.2

數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)食品飲料水果肉類可樂蘋果礦泉水香蕉豬肉可口可樂百事可樂紅富士

購(gòu)買(可口可樂)

購(gòu)買(蘋果)涉及不同的抽象層關(guān)聯(lián)規(guī)則稱為多層關(guān)聯(lián)規(guī)則。例:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法“概念樹算法”挖掘多層關(guān)聯(lián)規(guī)則5.2

數(shù)據(jù)挖掘的任務(wù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論