第五章-數(shù)據(jù)倉庫和商業(yè)智能課件_第1頁
第五章-數(shù)據(jù)倉庫和商業(yè)智能課件_第2頁
第五章-數(shù)據(jù)倉庫和商業(yè)智能課件_第3頁
第五章-數(shù)據(jù)倉庫和商業(yè)智能課件_第4頁
第五章-數(shù)據(jù)倉庫和商業(yè)智能課件_第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第五章

數(shù)據(jù)倉庫+OLAP第五章

數(shù)據(jù)倉庫+OLAP1課程導(dǎo)入:DSS的數(shù)據(jù)大多來自于事務(wù)處理系統(tǒng)。隨著信息系統(tǒng)處理能力的增強(qiáng),所產(chǎn)生的數(shù)據(jù)越來越多,如何解決數(shù)據(jù)的整合性和提高分析的有效性,成為DSS發(fā)展的難題。問題:MIS中的數(shù)據(jù)庫難道還不滿足數(shù)據(jù)整合分析的要求嗎?為什么?瓶頸在哪里?課程導(dǎo)入:DSS的數(shù)據(jù)大多來自于事務(wù)處理系統(tǒng)。隨著信息系統(tǒng)處2

數(shù)據(jù)倉庫出現(xiàn)的背景:1.DSS的數(shù)據(jù)來源:不同的事務(wù)處理部門,每個(gè)部門都有獨(dú)立的數(shù)據(jù)庫,因此,數(shù)據(jù)庫的結(jié)構(gòu)有所不同,一般有以下三種結(jié)構(gòu):5.1數(shù)據(jù)倉庫整合型分離型析取型DSS的數(shù)據(jù)庫和事務(wù)處理系統(tǒng)的數(shù)據(jù)庫是統(tǒng)一的,決策者可以直接運(yùn)用事務(wù)處理系統(tǒng)中的數(shù)據(jù)進(jìn)行決策分析。DSS的數(shù)據(jù)庫是獨(dú)立于事務(wù)處理系統(tǒng)的,其數(shù)據(jù)可能從各種數(shù)據(jù)源獲取,部分可能來自事務(wù)處理系統(tǒng)。DSS的數(shù)據(jù)庫和事務(wù)處理系統(tǒng)的數(shù)據(jù)庫雖然是分離的,但DSS中的數(shù)據(jù)是從事務(wù)處理系統(tǒng)的數(shù)據(jù)庫中析取得來的。80年代前90年代后數(shù)據(jù)倉庫出現(xiàn)的背景:5.1數(shù)據(jù)倉庫整合型分離型析取型D3用例子說話:某企業(yè)的銷售數(shù)據(jù)查詢C表D表B表A表盡管各表上的數(shù)據(jù)都不一樣,但實(shí)際上都是對該企業(yè)的銷售額數(shù)據(jù)從不同的視角進(jìn)行觀察的結(jié)果。因此,用二維表來表示數(shù)據(jù)的效率是很差的。如果將這些表存儲(chǔ)在不同的數(shù)據(jù)文件或應(yīng)用程序中,就可能產(chǎn)生大量的冗余,同時(shí)會(huì)產(chǎn)生數(shù)據(jù)不一致的情況。假設(shè),用戶甲發(fā)現(xiàn)表A中的數(shù)據(jù)記錄有誤,于是對表A的數(shù)據(jù)進(jìn)行修正,但表A與其他表沒有關(guān)系,其他表的數(shù)據(jù)都沒有得到修正。在年底計(jì)算合計(jì)時(shí),將會(huì)產(chǎn)生數(shù)據(jù)的不一致。因此,將每個(gè)特定的需求看做是對這個(gè)整體的特定維度上的某種操作所得到的結(jié)果—將來自不同數(shù)據(jù)源的數(shù)據(jù)整合起,就可以避免出現(xiàn)以上問題。整合工具——數(shù)據(jù)倉庫。用例子說話:某企業(yè)的銷售數(shù)據(jù)查詢C表D表B表A表4數(shù)據(jù)倉庫(DateWarehouse,DW)是一種數(shù)據(jù)資源架構(gòu)。是一個(gè)面向主題的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合,它用于支持企業(yè)或組織的決策分析處理。5.1.2數(shù)據(jù)倉庫的定義數(shù)據(jù)存儲(chǔ)中心過濾、篩選、整理、分類數(shù)據(jù)倉庫作業(yè)性數(shù)據(jù)決策者數(shù)據(jù)倉庫的基本工作方式數(shù)據(jù)倉庫(DateWarehouse,DW)是一種數(shù)據(jù)資源5數(shù)據(jù)倉庫之父BillInmon的定義:在1991年出版的“BuildingtheDataWarehouse”一書中所提出的定義被廣泛接受——數(shù)據(jù)倉庫(DataWarehouse)是一個(gè)面向主題的(SubjectOriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策(DecisionMakingSupport)。數(shù)據(jù)倉庫之父BillInmon的定義:在1991年出版的“6定義解讀:◆面向主題:操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的(例如顧客、政策類型、保險(xiǎn)公司索賠等)。面向主題使用戶可以不僅能夠確定他們的企業(yè)運(yùn)轉(zhuǎn)如何,而且知道為什么。定義解讀:◆面向主題:操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處7◆集成的:數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。

不同地點(diǎn)保存的數(shù)據(jù)也許編碼類型不同,例如性別數(shù)據(jù)在一個(gè)地方以“0”和“1”進(jìn)行編碼,而在另一個(gè)地方以“F”和“M”表示。這樣的數(shù)據(jù)要進(jìn)入到數(shù)據(jù)倉庫中,要先被清洗成同一種格式,使數(shù)據(jù)具有標(biāo)準(zhǔn)化和一致性的特點(diǎn)。另外,數(shù)據(jù)和時(shí)間格式在世界各地也不同?!艏傻模簲?shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫8◆相對穩(wěn)定的:數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。因此,數(shù)據(jù)倉庫需要大量的自由空間為數(shù)據(jù)量增長做準(zhǔn)備。定義解讀:◆相對穩(wěn)定的:數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的9◆反映歷史變化:數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉庫的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。數(shù)據(jù)倉庫的數(shù)據(jù)通常保存5~10年甚至更長時(shí)間用于趨勢分析、預(yù)測和比較。時(shí)間維是所有數(shù)據(jù)倉庫必須支持的一個(gè)重要維度?!舴从硽v史變化:數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息10不同角度解讀“數(shù)據(jù)倉庫”設(shè)計(jì)者視角:數(shù)據(jù)倉庫的關(guān)鍵成功因素在于如何設(shè)計(jì)其中的數(shù)據(jù)存儲(chǔ)中心的結(jié)構(gòu)以及它的一套數(shù)據(jù)轉(zhuǎn)換和操作機(jī)制,使得作業(yè)性數(shù)據(jù)能夠以恰當(dāng)?shù)男问竭M(jìn)入數(shù)據(jù)倉庫并得到妥善的管理,在需要的時(shí)候能有效的被決策者所利用。數(shù)據(jù)使用者視角:數(shù)據(jù)倉庫應(yīng)當(dāng)根據(jù)不同的管理活動(dòng)的需要,對作業(yè)性數(shù)據(jù)從多角度進(jìn)行加工處理。不同角度解讀“數(shù)據(jù)倉庫”設(shè)計(jì)者視角:數(shù)據(jù)倉庫的關(guān)鍵成功因素在11數(shù)據(jù)倉庫支持第一美國銀行的企業(yè)戰(zhàn)略第一美國銀行(FirstAmerican)改變企業(yè)戰(zhàn)略從傳統(tǒng)的公司經(jīng)營方法轉(zhuǎn)向成為創(chuàng)新金融服務(wù)的領(lǐng)袖,如果沒有一個(gè)被稱為“VISION”的數(shù)據(jù)倉庫,這一戰(zhàn)略的成功實(shí)施是不可能的。這個(gè)數(shù)據(jù)倉庫中保存顧客行為數(shù)據(jù),例如顧客使用過的產(chǎn)品、購買偏好和顧客價(jià)值層次。VISION系統(tǒng)提供了:識(shí)別前20%的盈利顧客;識(shí)別40%--50%的非盈利顧客;顧客保留策略;低成本的分銷渠道;擴(kuò)展顧客關(guān)系的戰(zhàn)略;信息流的再設(shè)計(jì)。通過數(shù)據(jù)倉庫獲取信息能夠促進(jìn)漸進(jìn)的和革命性的變革。第一美國銀行獲得的革命性的變革,是它成功成為“Sweet16”的金融服務(wù)公司。數(shù)據(jù)倉庫支持第一美國銀行的企業(yè)戰(zhàn)略第一美國銀行(First12西爾斯公司的數(shù)據(jù)倉庫到2002年4月,西爾斯羅巴克公司部署了95TB的新的數(shù)據(jù)存儲(chǔ)。這一容量是原來的3倍。西爾斯公司將兩個(gè)關(guān)鍵的數(shù)據(jù)倉庫統(tǒng)一起來并建立一個(gè)存儲(chǔ)的網(wǎng)絡(luò),能夠用庫存和銷售數(shù)據(jù)倉庫處理顧客信息。依靠這一系統(tǒng),西爾斯能夠執(zhí)行有效的目標(biāo)直郵促銷。大約5000名西爾斯員工出于分析目的使用數(shù)據(jù)倉庫。他們能夠得到促銷信息,分析單個(gè)顧客的購買情況并和歷史購買記錄聯(lián)系起來。數(shù)據(jù)倉庫的主要供應(yīng)商Carleton、IBM、Informix、Microsoft、NCR、Oracle、RedBrick和Sybase西爾斯公司的數(shù)據(jù)倉庫到2002年4月,西爾斯羅巴克公司部署了13數(shù)據(jù)集市(DataMart)是部門級(jí)的數(shù)據(jù)倉庫,或是為某種專門的用途開發(fā)的數(shù)據(jù)存儲(chǔ)系統(tǒng)。5.1.2數(shù)據(jù)集市數(shù)據(jù)集市從屬—DependentDataMart數(shù)據(jù)從企業(yè)的數(shù)據(jù)倉庫獲得,可看做數(shù)據(jù)倉庫的一個(gè)子集。獨(dú)立—IndependentDataMart直接從各個(gè)應(yīng)用系統(tǒng)取得數(shù)據(jù)。部門級(jí)的數(shù)據(jù)倉庫。優(yōu)點(diǎn):具有較好的數(shù)據(jù)整合性,因?yàn)槠鋽?shù)據(jù)是從數(shù)據(jù)倉庫中得來的,具有繼承性。缺點(diǎn):若所需數(shù)據(jù)不在集市內(nèi),需先修改數(shù)據(jù)倉庫的結(jié)構(gòu),讓該數(shù)據(jù)先進(jìn)入數(shù)據(jù)倉庫,才能再進(jìn)入集市。優(yōu)點(diǎn):成本低、靈活性好,需要新的數(shù)據(jù)時(shí)不需修改企業(yè)級(jí)的數(shù)據(jù)倉庫??捎闷鋪硖峁﹤€(gè)別部門所需的數(shù)據(jù)。缺點(diǎn):整合性差。雖然在數(shù)據(jù)量和服務(wù)對象上有所不同,但和企業(yè)級(jí)的數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)是一樣的。數(shù)據(jù)倉庫作業(yè)性數(shù)據(jù)決策者數(shù)據(jù)集市數(shù)據(jù)集市從屬的數(shù)據(jù)集市決策者數(shù)據(jù)集市(DataMart)是部門級(jí)的數(shù)據(jù)倉庫,或是為某種14數(shù)據(jù)倉庫的高成本使其主要應(yīng)用于大公司中,作為替代方案,許多企業(yè)使用低成本、小規(guī)模的數(shù)據(jù)集市。數(shù)據(jù)集市的優(yōu)點(diǎn):其成本和企業(yè)數(shù)據(jù)倉庫相比較低(通常在10萬~100萬美元左右)實(shí)施的時(shí)間短,通常少于90天數(shù)據(jù)集市可以在局部進(jìn)行控制而不需要在企業(yè)范圍集中控制,用戶有更多的權(quán)力數(shù)據(jù)集市比數(shù)據(jù)倉庫包含更少的信息,更容易被瀏覽允許業(yè)務(wù)單元建立自己的決策支持系統(tǒng)而不需要依靠公司的信息系統(tǒng)部門獨(dú)立的數(shù)據(jù)集市可以用于驗(yàn)證開發(fā)全面的企業(yè)數(shù)據(jù)倉庫所需資源,這能夠快速實(shí)現(xiàn)收益,投資回報(bào)更快數(shù)據(jù)倉庫的高成本使其主要應(yīng)用于大公司中,作為替代方案,許多企155.2數(shù)據(jù)倉庫的體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)通常由數(shù)據(jù)倉庫、管理部分和分析工具三個(gè)部分組成,這三個(gè)部分之間的關(guān)系下圖所示。數(shù)據(jù)倉庫的數(shù)據(jù)來自多個(gè)數(shù)據(jù)源,包括企業(yè)內(nèi)部數(shù)據(jù)和市場查與分析的外部數(shù)據(jù)。在確定數(shù)據(jù)倉庫信息需求以后,需要進(jìn)行數(shù)據(jù)建模,確定從數(shù)據(jù)源到數(shù)據(jù)倉庫的數(shù)據(jù)抽取、清理和轉(zhuǎn)換過程,分析、劃分維數(shù)以及確定數(shù)據(jù)倉庫的物理存儲(chǔ)結(jié)構(gòu)。元數(shù)據(jù)是數(shù)據(jù)倉庫的核心,用于存儲(chǔ)數(shù)據(jù)模型,定義數(shù)據(jù)結(jié)構(gòu)、轉(zhuǎn)換規(guī)則,數(shù)據(jù)倉庫結(jié)構(gòu)和控制信息等等管理部分的主要功能5.2數(shù)據(jù)倉庫的體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)通常由數(shù)據(jù)倉庫、管16強(qiáng)調(diào):在客戶與服務(wù)器之間是多維聯(lián)機(jī)數(shù)據(jù)分析(OLAP)服務(wù)器。該服務(wù)器的作用:可將數(shù)據(jù)倉庫服務(wù)器所做的OLAP操作工作轉(zhuǎn)移到其上,降低系統(tǒng)中的數(shù)據(jù)傳輸量,提高工作效率。客戶端的作用:與用戶進(jìn)行交互對話,將用戶的需求轉(zhuǎn)換為服務(wù)器可以理解的方式送到服務(wù)器,取回查詢的結(jié)果進(jìn)行顯示和提供報(bào)表等。強(qiáng)調(diào):在客戶與服務(wù)器之間是多維聯(lián)機(jī)數(shù)據(jù)分析(OLAP)服務(wù)器175.2.2ETCL功能數(shù)據(jù)整理中常用的一些技術(shù)和手段1.數(shù)據(jù)抽?。‥xtract)從數(shù)據(jù)源中抽取相應(yīng)的數(shù)據(jù)到DSS中。常見的數(shù)據(jù)源包括一些著名的數(shù)據(jù)庫廠商和ERP廠商;互聯(lián)網(wǎng)。數(shù)據(jù)的抽取要根據(jù)DSS的要求,只選取數(shù)據(jù)源中對于特定的決策問題有用的數(shù)據(jù)。5.2.2ETCL功能數(shù)據(jù)整理中常用的一些技術(shù)和手段18某些數(shù)據(jù)需要經(jīng)過審查和凈化等才能加載到系統(tǒng)的數(shù)據(jù)庫中。數(shù)據(jù)源中可能含有噪音數(shù)據(jù),即錯(cuò)誤數(shù)據(jù),要通過過濾機(jī)制將它們除去。譬如,顧客性別字段為空值,或者填寫了不存在的郵政編碼等…這樣的情況需要根據(jù)業(yè)務(wù)規(guī)則進(jìn)行修正。2.數(shù)據(jù)清洗(Clean)某些數(shù)據(jù)需要經(jīng)過審查和凈化等才能加載到系統(tǒng)的數(shù)據(jù)庫中。2.數(shù)19原始數(shù)據(jù)中,不同的數(shù)據(jù)源的數(shù)據(jù)格式是不同的,有些數(shù)據(jù)需要進(jìn)行拆分或合并后才能形成我們需要的格式,有些可能還需要進(jìn)行計(jì)算。例如,中西方習(xí)慣不一樣,姓名、日期等的表示有所不同,這些都需要轉(zhuǎn)換為統(tǒng)一的格式,方便下一步處理。重要的數(shù)據(jù)轉(zhuǎn)換類型:數(shù)據(jù)聚合,即將零散的數(shù)據(jù)按照某種維度進(jìn)行匯總合計(jì),成為抽象度較高的數(shù)據(jù)。3.數(shù)據(jù)轉(zhuǎn)換(Transform)原始數(shù)據(jù)中,不同的數(shù)據(jù)源的數(shù)據(jù)格式是不同的,有些數(shù)據(jù)需要進(jìn)行20對轉(zhuǎn)換后的數(shù)據(jù)可以指定相應(yīng)的目標(biāo)數(shù)據(jù)庫,對大量數(shù)據(jù)可以由系統(tǒng)根據(jù)相應(yīng)的設(shè)定條件自動(dòng)進(jìn)行加載。4.數(shù)據(jù)加載(Load)有一些專業(yè)的軟件公司專門生產(chǎn)通用的ETL工具,如Informatica,Sagent,Ascential公司等。另外,一些以ERP和數(shù)據(jù)庫產(chǎn)品為主的軟件公司也提供自己專用的ETL工具,如SAP的BI,IBM的WarehouseManager…對轉(zhuǎn)換后的數(shù)據(jù)可以指定相應(yīng)的目標(biāo)數(shù)據(jù)庫,對大量數(shù)據(jù)可以由系統(tǒng)215.2.3數(shù)據(jù)的存儲(chǔ)層次數(shù)據(jù)倉庫的特點(diǎn)之一——豐富的存儲(chǔ)機(jī)制數(shù)據(jù)倉庫中的數(shù)據(jù)存儲(chǔ)是一個(gè)層次化的邏輯結(jié)果,見P111圖5-6。先從作業(yè)性的數(shù)據(jù)源獲得數(shù)據(jù)倉庫的輸入,根據(jù)決策者所需要的主題進(jìn)行存儲(chǔ)。這一層所存儲(chǔ)的是詳細(xì)數(shù)據(jù),稱為當(dāng)前基本數(shù)據(jù)層。在此基礎(chǔ)上可以對詳細(xì)數(shù)據(jù)進(jìn)行不同程度的匯總和抽象,形成概略數(shù)據(jù)層,可分為輕度概略和高度概略。隨著時(shí)間的推移,也為了對數(shù)據(jù)進(jìn)行有效的歸納和管理,詳細(xì)數(shù)據(jù)通常只保存一定的時(shí)間,超過期限就應(yīng)當(dāng)轉(zhuǎn)為歷史詳細(xì)數(shù)據(jù),以便數(shù)據(jù)倉庫長期保管。5.2.3數(shù)據(jù)的存儲(chǔ)層次數(shù)據(jù)倉庫的特點(diǎn)之一——豐富的存儲(chǔ)機(jī)22第五章-數(shù)據(jù)倉庫和商業(yè)智能ppt課件235.2.2數(shù)據(jù)的存儲(chǔ)層次高度概略數(shù)據(jù)層輕度概略數(shù)據(jù)層

當(dāng)前基本數(shù)據(jù)層歷史詳細(xì)數(shù)據(jù)層

5.2.2數(shù)據(jù)的存儲(chǔ)層次高度概略數(shù)據(jù)層輕度概略數(shù)據(jù)24見課本112頁商店中的銷售活動(dòng)所產(chǎn)生的數(shù)據(jù)的處理。案例2:——詳細(xì)數(shù)據(jù)見課本112頁案例2:——詳細(xì)數(shù)據(jù)25案例1:公安監(jiān)控網(wǎng):高速球進(jìn)行實(shí)時(shí)監(jiān)控,傳回的數(shù)據(jù)全是圖像數(shù)據(jù),要求實(shí)時(shí)存儲(chǔ),保存期限15天、一個(gè)月,甚至三個(gè)月。一個(gè)高速球監(jiān)控狀態(tài):每小時(shí)監(jiān)控到的圖像數(shù)據(jù)平均約有225兆~250兆,24小時(shí)連續(xù)運(yùn)轉(zhuǎn)。數(shù)據(jù)倉庫的要求:TB級(jí)存儲(chǔ)容量。案例1:公安監(jiān)控網(wǎng):高速球進(jìn)行實(shí)時(shí)監(jiān)控,傳回的數(shù)據(jù)全是圖像數(shù)26數(shù)據(jù)倉庫開發(fā)的困難1.沒有理解數(shù)據(jù)的價(jià)值2.未能理解數(shù)據(jù)倉庫的概念3.尚未清楚了解用戶將如何使用數(shù)據(jù)倉庫之前,便貿(mào)然開發(fā)數(shù)據(jù)倉庫4.對數(shù)據(jù)倉庫的規(guī)模的估計(jì)模糊5.忽視了數(shù)據(jù)倉庫體系結(jié)構(gòu)和數(shù)據(jù)倉庫開發(fā)方法數(shù)據(jù)倉庫開發(fā)的困難1.沒有理解數(shù)據(jù)的價(jià)值27為了建立有用的數(shù)據(jù)倉庫,在結(jié)構(gòu)、過程、專家知識(shí)以及其他方面,開發(fā)者必須擁有非常豐富的資源。但是光有這些資源,還不能保證建立一個(gè)成功的數(shù)據(jù)倉庫環(huán)境。數(shù)據(jù)倉庫的投資必須有一個(gè)嚴(yán)密的評(píng)估過程,來評(píng)價(jià)領(lǐng)先數(shù)據(jù)倉庫提供商提供的數(shù)據(jù)倉庫的優(yōu)缺點(diǎn)。為了建立有用的數(shù)據(jù)倉庫,在結(jié)構(gòu)、過程、專家知識(shí)以及其他方面,28數(shù)據(jù)倉庫廠商面臨的挑戰(zhàn):目前沒有一個(gè)數(shù)據(jù)倉庫廠家能夠提供端對端(end-to-end)的數(shù)據(jù)倉庫解決方案,但SAS,IBM,Software,AG,InformationBuilders和Platinum已經(jīng)開始朝這個(gè)方向努力,但熱度遠(yuǎn)遠(yuǎn)不夠。以下的例子中,主要的數(shù)據(jù)倉庫提供商IBM就面臨了一種這樣的挑戰(zhàn)。數(shù)據(jù)倉庫廠商面臨的挑戰(zhàn):目前沒有一個(gè)數(shù)據(jù)倉庫廠家能夠提供端對29IBM的挑戰(zhàn)主要數(shù)據(jù)倉庫提供商IBM面臨這樣的挑戰(zhàn):IBM起初的產(chǎn)品是VisualWarehouse(可視化數(shù)據(jù)倉庫),如果在OS/2系統(tǒng)下運(yùn)行,可以很好的整合,但是在其他的操作系統(tǒng)平臺(tái)上,例如WindowsNT和Novell等,它的靈活性就很差。而且VisualWarehouse還不能管理局域網(wǎng)之外的數(shù)據(jù)庫。由此可見,即使是數(shù)據(jù)倉庫供應(yīng)商,也在協(xié)調(diào)各部分工作中遇到了很多麻煩。IBM的挑戰(zhàn)主要數(shù)據(jù)倉庫提供商IBM面臨這樣的挑戰(zhàn):30補(bǔ)充:數(shù)據(jù)倉庫未來發(fā)展方向1.數(shù)據(jù)倉庫技術(shù)和應(yīng)用 數(shù)據(jù)倉庫成為一個(gè)組織決策支持基礎(chǔ)設(shè)施的成熟部分是一個(gè)必然趨勢。數(shù)據(jù)倉庫技術(shù)的發(fā)展包括數(shù)據(jù)抽取、數(shù)據(jù)管理、數(shù)據(jù)表現(xiàn)和方法論等方面。數(shù)據(jù)倉庫的發(fā)展趨勢主要表現(xiàn)在幾個(gè)方面:(1)對非結(jié)構(gòu)化數(shù)據(jù)的處理(2)實(shí)現(xiàn)共享數(shù)據(jù)(3)對信息進(jìn)行打包(4)信息互聯(lián)(萬維網(wǎng))(5)規(guī)則的約束補(bǔ)充:數(shù)據(jù)倉庫未來發(fā)展方向1.數(shù)據(jù)倉庫技術(shù)和應(yīng)用31規(guī)則的約束從大量的不相關(guān)的數(shù)據(jù)中分析提取信息的能力,使得必須產(chǎn)生一些保護(hù)某些數(shù)據(jù)不被其他對象訪問的要求。隨著數(shù)據(jù)的訪問更加容易,這種防止隱私泄露的要求也不斷提高,這就需要建立一些規(guī)則,在進(jìn)行大量有用分析的同時(shí),保護(hù)個(gè)人隱私。萬維網(wǎng)(WWW)隨著目前越來越多的信息相互關(guān)聯(lián),WWW無疑對數(shù)據(jù)倉庫的建立有著重要的影響。網(wǎng)絡(luò)使得訪問和轉(zhuǎn)換大量的相關(guān)數(shù)據(jù)更為容易和經(jīng)濟(jì)。這使得Internet和Web成為把外部數(shù)據(jù)庫和數(shù)據(jù)倉庫整合起來的理想工具。這樣,數(shù)據(jù)的一致性、精確性和數(shù)據(jù)質(zhì)量問題就需要注意和解決了;這樣就可能會(huì)出現(xiàn)第三類企業(yè),它們的主要目標(biāo)就是評(píng)估外部數(shù)據(jù)源的一致性和質(zhì)量。這種質(zhì)量評(píng)估可以決定外部數(shù)據(jù)源載入數(shù)據(jù)倉庫時(shí)的價(jià)值。同樣,這種質(zhì)量評(píng)估可以決定訪問這些數(shù)據(jù)需要的價(jià)格,數(shù)據(jù)質(zhì)量越高,價(jià)格也越高。規(guī)則的約束從大量的不相關(guān)的數(shù)據(jù)中分析提取信息的能力,使得必須32存儲(chǔ)非結(jié)構(gòu)化的數(shù)據(jù)通常,一般的數(shù)據(jù)倉庫只局限于存儲(chǔ)結(jié)構(gòu)化的數(shù)據(jù),形式一般為記錄、域以及數(shù)據(jù)庫。非結(jié)構(gòu)化的數(shù)據(jù),例如多媒體文件、圖形、圖像、聲音、視頻文件,在組織中已越來越重要。對這些文件的存儲(chǔ)、整合和訪問要求有擴(kuò)展的數(shù)據(jù)倉庫結(jié)構(gòu)和接口。在未來數(shù)據(jù)倉庫環(huán)境中,用戶可能會(huì)尋找不同產(chǎn)品之間的聯(lián)系,數(shù)據(jù)倉庫不僅要存儲(chǔ)結(jié)構(gòu)化的數(shù)據(jù),而且還需要能夠掃描和分析圖像、視頻和音頻文件來促進(jìn)這種關(guān)系的建立。要實(shí)現(xiàn)這個(gè)層次上的使用和功能,數(shù)據(jù)倉庫應(yīng)用和工具廠商面臨大量的技術(shù)上的和實(shí)現(xiàn)上的挑戰(zhàn)。存儲(chǔ)非結(jié)構(gòu)化的數(shù)據(jù)通常,一般的數(shù)據(jù)倉庫只局限于存儲(chǔ)結(jié)構(gòu)化的數(shù)332.國內(nèi)數(shù)據(jù)倉庫的需求與應(yīng)用特點(diǎn)國內(nèi)數(shù)據(jù)倉庫的需求主要表現(xiàn)在如下方面:(1)由于銀行商業(yè)化的步伐正在加大,各大、中型銀行開始重新考慮自身的業(yè)務(wù),特別是加強(qiáng)對自身的信貸風(fēng)險(xiǎn)的管理,因而對有關(guān)信貸風(fēng)險(xiǎn)管理和風(fēng)險(xiǎn)規(guī)避的決策支持系統(tǒng)的需求逐漸多了起來。(2)由于電子商務(wù)的迅速發(fā)展,不少網(wǎng)站開始考慮如何提高對顧客的忠誠度,為客戶提供更進(jìn)一步的“貼身”服務(wù)。(3)各大型企業(yè)如移動(dòng)通信公司等開始考慮著手進(jìn)行決策支持以及數(shù)據(jù)倉庫規(guī)則。2.國內(nèi)數(shù)據(jù)倉庫的需求與應(yīng)用特點(diǎn)34雖然國內(nèi)的數(shù)據(jù)倉庫市場經(jīng)過了多年的發(fā)展,但是比起國外大企業(yè)所建的巨型企業(yè)級(jí)數(shù)據(jù)倉庫來講,還只能算是剛剛起步,還存在很多的不足之處,主要表現(xiàn)為以下幾點(diǎn):(1)計(jì)算機(jī)應(yīng)用水平較低,無法提出決策支持需求,所以很多企業(yè)無法馬上實(shí)施數(shù)據(jù)倉庫。(2)缺乏數(shù)據(jù)倉庫方面的人才。(3)缺乏以國內(nèi)環(huán)境為背景的范例和成功應(yīng)用。(4)數(shù)據(jù)倉庫概念過大,很多用戶感覺可望不可及。雖然國內(nèi)的數(shù)據(jù)倉庫市場經(jīng)過了多年的發(fā)展,但是比起國外大企業(yè)所35數(shù)據(jù)倉庫中“數(shù)據(jù)的數(shù)據(jù)”(dataaboutdata)。可對數(shù)據(jù)倉庫中的各種數(shù)據(jù)進(jìn)行詳細(xì)的描述與說明,說明每個(gè)數(shù)據(jù)的上下文關(guān)系,使每個(gè)數(shù)據(jù)具有符合現(xiàn)實(shí)的真實(shí)含義,使最終用戶了解這些數(shù)據(jù)之間的關(guān)系。即描述數(shù)據(jù)及其環(huán)境的數(shù)據(jù)。元素?fù)?jù)通常是根據(jù)不同的系統(tǒng)、不同的應(yīng)用需求來設(shè)計(jì)的,一個(gè)數(shù)據(jù)倉庫中的元素?fù)?jù)對于另一個(gè)數(shù)據(jù)倉庫可能是完全沒有意義的。5.2.4元數(shù)據(jù)常用的元數(shù)據(jù)類型數(shù)據(jù)倉庫中“數(shù)據(jù)的數(shù)據(jù)”(dataaboutdata)。36描述數(shù)據(jù)的來源、源數(shù)據(jù)的結(jié)構(gòu)、索引信息等……數(shù)據(jù)源描述數(shù)據(jù)模型轉(zhuǎn)換映射數(shù)據(jù)模型:組織數(shù)據(jù)所依據(jù)的邏輯結(jié)構(gòu)記錄數(shù)據(jù)的實(shí)體、關(guān)系、有效值和存取規(guī)則記錄數(shù)據(jù)源中的數(shù)據(jù)經(jīng)過哪些處理后才能進(jìn)入到數(shù)據(jù)倉庫。例如轉(zhuǎn)換規(guī)則、屬性的轉(zhuǎn)換等……應(yīng)用性記錄有關(guān)數(shù)據(jù)倉庫的應(yīng)用歷史,用戶類型、使用頻率等描述數(shù)據(jù)的來源、源數(shù)據(jù)的結(jié)構(gòu)、索引信息等……數(shù)據(jù)源描述數(shù)據(jù)37生活中的元數(shù)據(jù)一個(gè)數(shù)據(jù)存儲(chǔ)在共享卷里時(shí),我們可以直接看到它是一個(gè)文檔、或圖片、或視頻、或數(shù)據(jù)庫文件,這些都是數(shù)據(jù)本身。然而在存儲(chǔ)該數(shù)據(jù)時(shí),文件系統(tǒng)還會(huì)產(chǎn)生很多無法直接看到的,與該數(shù)據(jù)有關(guān)的數(shù)據(jù),如文件系統(tǒng)中文件檢索表,路徑信息、地址信息等,而這些數(shù)據(jù)就稱之為文檔、圖片、視頻等在共享卷中的元數(shù)據(jù)。我們可以在很多地方看到元數(shù)據(jù)的存儲(chǔ),網(wǎng)上DOWN下來的電影本身只是一個(gè)視頻文件數(shù)據(jù),而點(diǎn)擊右鍵查看到的視頻文件屬性,如存儲(chǔ)路徑、碼率、文件大小及導(dǎo)演、演員、制作單位等就是視頻文件的元數(shù)據(jù)。生活中的元數(shù)據(jù)一個(gè)數(shù)據(jù)存儲(chǔ)在共享卷里時(shí),我們可以直接看到它是38例子(元數(shù)據(jù)應(yīng)用):假定在同一時(shí)刻我們查詢組織的數(shù)據(jù)倉庫時(shí),找到以下三種數(shù)據(jù)集:1.6153978350621885214005210232.一個(gè)小組9/11/96的報(bào)告指出,機(jī)械工具在亞洲的市場1995年增長了33%。3.領(lǐng)先的體育用品營銷公司:IMG45%,SportStars33%,LegendsInc16%我們能從這些數(shù)據(jù)中得到什么信息呢?例子(元數(shù)據(jù)應(yīng)用):假定在同一時(shí)刻我們查詢組織的數(shù)據(jù)倉庫時(shí),39第一個(gè)數(shù)據(jù),答案是“沒有”。這些數(shù)字可以是部門或地區(qū)的銷售數(shù)據(jù),可能是某些城市的人口,可能是一組樣本的細(xì)胞數(shù)目,還可能是代表一系列計(jì)算機(jī)的機(jī)器碼……有兩個(gè)方法可以確定這些數(shù)據(jù)的意義:通過上下文或者通過元數(shù)據(jù)通過上下文,這些數(shù)據(jù)是我們已知意義的給定表的查詢結(jié)果。根據(jù)元數(shù)據(jù),我們查詢描述這些數(shù)據(jù)的元數(shù)據(jù),元數(shù)據(jù)可以告訴我們表的名稱或者更多的信息。第一個(gè)數(shù)據(jù),答案是“沒有”。這些數(shù)字可以是部門或地區(qū)的銷售數(shù)40第二個(gè)例子看起來易懂一些。這是一句話,自己對自己進(jìn)行了描述。但是有一點(diǎn):日期的顯示出現(xiàn)了歧義。9/11/96究竟是指1996年9月11日(美式),還是指1996年11月9日(英式)呢?我們可以通過元數(shù)據(jù)指出所顯示的數(shù)據(jù)格式為“月/日/年”而消除歧義。第二個(gè)例子看起來易懂一些。這是一句話,自己對自己進(jìn)行了描述。41第三個(gè)例子包含了一些元數(shù)據(jù):我們知道數(shù)據(jù)代表著領(lǐng)先的體育用品營銷公司。但我們不知道百分比代表什么,數(shù)據(jù)是哪個(gè)時(shí)期的,是如何收集起來的,甚至不知道信息的來源。沒有足夠的元數(shù)據(jù),本例中的數(shù)據(jù)就毫無用處??梢园言獢?shù)據(jù)看做一種“夾子”,利用它來處理原始數(shù)據(jù)。沒有元數(shù)據(jù),數(shù)據(jù)就失去了意義,我們不知道它們在哪里,占有多大的容量……第三個(gè)例子包含了一些元數(shù)據(jù):我們知道數(shù)據(jù)代表著領(lǐng)先的體育用品42有關(guān)數(shù)據(jù)倉庫的討論題:1.數(shù)據(jù)倉庫的支持者說,數(shù)據(jù)倉庫的概念能夠運(yùn)用到任何行業(yè)或者知識(shí)領(lǐng)域??紤]幾個(gè)利用數(shù)據(jù)倉庫完善信息管理的例子,你能夠想出一些不能運(yùn)用數(shù)據(jù)倉庫的行業(yè)嗎?2.元數(shù)據(jù)無處不在,找到一個(gè)與學(xué)校、工作或者家里的信息相關(guān)的數(shù)據(jù)庫,盡可能地找出所有的元數(shù)據(jù)。有關(guān)數(shù)據(jù)倉庫的討論題:1.數(shù)據(jù)倉庫的支持者說,數(shù)據(jù)倉庫的概念43課程導(dǎo)入:數(shù)據(jù)倉庫希望解決的主要問題是企業(yè)數(shù)據(jù)的整合,如何將數(shù)據(jù)進(jìn)行有效的分析需要使用新的工具。企業(yè)的經(jīng)理和決策人員、商業(yè)分析人員、DSS助理等往往希望自己能根據(jù)實(shí)際需要來進(jìn)行一些數(shù)據(jù)查詢和數(shù)據(jù)分析,而這種工作需要系統(tǒng)提供更強(qiáng)大的靈活性以及各種分析的角度。例如:P117課程導(dǎo)入:數(shù)據(jù)倉庫希望解決的主要問題是企業(yè)數(shù)據(jù)的整合,如何將傳統(tǒng)的業(yè)務(wù)系統(tǒng)數(shù)據(jù)處理:用戶根據(jù)系統(tǒng)中設(shè)定好的查詢要求對數(shù)據(jù)進(jìn)行查詢,例如,一個(gè)商店的經(jīng)理可以通過諸如“上個(gè)月銷售量超過1000件的日用品有哪些品牌?”之類的查詢,找出哪些商品是暢銷商品。這些查詢的規(guī)則是根據(jù)決策者的經(jīng)驗(yàn)事先設(shè)計(jì)好的,屬于驗(yàn)證性查詢。但是,企業(yè)管理者所需要的查詢并非一定是已經(jīng)經(jīng)驗(yàn)過的事件,有時(shí)可能是一系列隨機(jī)查詢中發(fā)現(xiàn)新的經(jīng)驗(yàn)。例如:經(jīng)理可能要先看看總體數(shù)據(jù)有什么問題,整個(gè)市場的走勢如何,然后他可能發(fā)現(xiàn)某一類商品中究竟哪些商品的銷售量最大。這樣的查詢過程是不可能在開發(fā)系統(tǒng)時(shí)事先設(shè)計(jì)好的,只能提供一系列數(shù)據(jù)操作功能,讓用戶自己聯(lián)機(jī)操作,從需要的數(shù)據(jù)中發(fā)現(xiàn)問題。在基于數(shù)據(jù)的DSS中,設(shè)計(jì)者根據(jù)某些預(yù)定的決策目標(biāo),從大量事務(wù)數(shù)據(jù)中抽取數(shù)據(jù),并將其整理、轉(zhuǎn)換為一些新的存儲(chǔ)格式,并提供方便的聯(lián)機(jī)操作手段,讓決策者在這種新的存儲(chǔ)方式下聯(lián)機(jī)操作獲得決策信息。決策者可以根據(jù)自己關(guān)心的事項(xiàng)(主題)將事務(wù)性數(shù)據(jù)整合起來,用多維數(shù)據(jù)庫的存儲(chǔ)機(jī)制來保存,并在其上進(jìn)行有關(guān)的數(shù)據(jù)操作,這樣的機(jī)制稱為聯(lián)機(jī)分析處理(OLAP),即多維數(shù)據(jù)庫和多維分析。傳統(tǒng)的業(yè)務(wù)系統(tǒng)數(shù)據(jù)處理:用戶根據(jù)系統(tǒng)中設(shè)定好的查詢要求對數(shù)據(jù)45什么是OLAP?定義1:OLAP(聯(lián)機(jī)分析處理)是針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。通過對信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進(jìn)行深入觀察。定義2:OLAP(聯(lián)機(jī)分析處理)是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。(OLAP委員會(huì)的定義)OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。什么是OLAP?定義1:OLAP(聯(lián)機(jī)分析處理)是針對特定46聯(lián)機(jī)分析處理OLAP(On-LineAnalyticalProcessing)應(yīng)用是不同于與聯(lián)機(jī)事務(wù)處理(OLTP)的一類應(yīng)用。它專門設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)重對分析人員和高層管理人員的決策支持,可以應(yīng)分析人員的要求快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀易懂的形式將查詢結(jié)果提供給決策制定人,以便他們準(zhǔn)確掌握企業(yè)(公司)的經(jīng)營狀況,了解市場需求,制定正確方案,增加效益。聯(lián)機(jī)分析處理的用戶是企業(yè)中的專業(yè)分析人員及管理決策人員,他們在分析業(yè)務(wù)經(jīng)營的數(shù)據(jù)時(shí),從不同的角度來審視業(yè)務(wù)的衡量指標(biāo)是一種很自然的思考模式。5.4聯(lián)機(jī)分析處理(OLAP)聯(lián)機(jī)分析處理OLAP(On-LineAnalytical47OLAP和OLTP的性質(zhì)比較OLTPOLAP使用目的企業(yè)的業(yè)務(wù)處理企業(yè)的決策支持面向?qū)ο笫聞?wù)人員、數(shù)據(jù)庫管理人員經(jīng)理、分析人員等知識(shí)工作者主要功能處理日常發(fā)生的業(yè)務(wù)數(shù)據(jù)產(chǎn)生決策所需要的信息數(shù)據(jù)的時(shí)間性當(dāng)前的歷史的數(shù)據(jù)的抽象程度詳細(xì)的、分散的匯總的、整合的視圖關(guān)系表多維數(shù)據(jù)立方體處理方式添加、排序、求和、查詢等切片、切塊、上鉆、下鉆等基本的處理操作讀/寫只讀訪問記錄的數(shù)量數(shù)十個(gè)數(shù)百萬個(gè)數(shù)據(jù)庫規(guī)模MB到GBGB到TB系統(tǒng)性能度量事務(wù)吞吐量查詢吞吐量OLAP和OLTP的性質(zhì)比較OLTPOLAP使用目的企業(yè)的業(yè)48歸納:OLAP技術(shù)有兩個(gè)主要的特點(diǎn):一是在線性(On-Line),表現(xiàn)為對用戶請求的快速響應(yīng)和交互式操作,它的實(shí)現(xiàn)是由客戶機(jī)/服務(wù)器體系結(jié)構(gòu)完成的;二是多維分析(Multi-Analysis),這也是OLAP技術(shù)的核心所在。歸納:OLAP技術(shù)有兩個(gè)主要的特點(diǎn):一是在線性(On-Lin49為了方便對數(shù)據(jù)的操作,需要將大量的數(shù)據(jù)組織成具有多個(gè)維度的多維數(shù)據(jù)庫(MultidimensionalDataBase)。相關(guān)的常用概念:5.4.1多維和數(shù)據(jù)立方體變量維維的層次多維數(shù)據(jù)集為了方便對數(shù)據(jù)的操作,需要將大量的數(shù)據(jù)組織成具有多個(gè)維度的多50又稱為事實(shí),是數(shù)據(jù)庫中數(shù)據(jù)所描述的實(shí)體;必須是數(shù)值型的,是可度量的量。一個(gè)多維數(shù)據(jù)庫的數(shù)據(jù)集合。各個(gè)維和變量的數(shù)組形式稱為多維數(shù)組。變量的某種性質(zhì),是決策者用來觀察變量的依據(jù)。如時(shí)間維等?,F(xiàn)實(shí)世界中,與一個(gè)變量有關(guān)的維往往不止三維,多維立方體也稱為超立方體(Hypercubic)根據(jù)問題的需要,可以將維分解為不同的抽象程度。如,年、季度、月構(gòu)成了時(shí)間維的3個(gè)層次。變量維維的層次多維數(shù)據(jù)集又稱為事實(shí),是數(shù)據(jù)庫中數(shù)據(jù)所描述的實(shí)體;一個(gè)多維數(shù)據(jù)庫的51立方體:方體的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(頂點(diǎn))方體1-D方體2-D方體3-D方體4-D(基本)方體案例:P121納斯達(dá)克股市的多維數(shù)據(jù)庫操作立方體:方體的格alltimeitemlocationsu52數(shù)據(jù)模型:對現(xiàn)實(shí)數(shù)據(jù)的一種規(guī)范化的表示。對用戶的幫助:更直觀方便地掌握數(shù)據(jù)的形態(tài);明確有關(guān)數(shù)據(jù)項(xiàng)之間的相互關(guān)系;在后續(xù)的數(shù)據(jù)分析中更好的理解和操作。5.4.3數(shù)據(jù)建?!獢?shù)據(jù)模型數(shù)據(jù)模型同時(shí)具有商業(yè)和技術(shù)意義。商業(yè)意義:特定的商業(yè)活動(dòng)中所涉及到的所有數(shù)據(jù)實(shí)體。技術(shù)意義:表示一組查詢以及相應(yīng)的數(shù)據(jù)表的連接方式。例如在Access或VFP中所建立的表的連接。數(shù)據(jù)模型:對現(xiàn)實(shí)數(shù)據(jù)的一種規(guī)范化的表示。5.4.3數(shù)據(jù)建53星型模式:

事實(shí)表在中央,連接一組維表。主推模式。雪花模式:

星型模式的精煉,其中一些維分層結(jié)構(gòu)被規(guī)范化成一組較小的維表,形成類似于雪花的形狀。事實(shí)星座:

多個(gè)事實(shí)表共享維表,可以看作星星的集合,因此稱作星系模式,或事實(shí)座。數(shù)據(jù)模型的類型星型模式:事實(shí)表在中央,連接一組維表。主推模式。數(shù)據(jù)模型54星型模式的例子

time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch星型模式的例子time_keytimelocation55雪花模式的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycityprovince_or_statecountrycity雪花模式的例子time_keytimelocation_ke56事實(shí)星座的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper事實(shí)星座的例子time_keytimelocation_ke57從OLAP使用的效率角度考慮,在設(shè)計(jì)數(shù)據(jù)倉庫時(shí)應(yīng)該考慮如下因素:(1)盡可能使用星型架構(gòu),如果采用雪花結(jié)構(gòu),就要最小化事實(shí)表底層維度表以后的維度表數(shù)量。(2)為用戶設(shè)計(jì)包含事實(shí)表的維度表,這些維度表應(yīng)該包含有意義的、用戶希望了解的信息。(3)維度表的設(shè)計(jì)應(yīng)該符合通常意義上的范式約束,維度表中不要出現(xiàn)無關(guān)的數(shù)據(jù)。(4)事實(shí)表中不要包含匯總數(shù)據(jù),事實(shí)表中所包含的用戶需要訪問的數(shù)據(jù)應(yīng)該具有必需的粒度,這些數(shù)據(jù)應(yīng)該是同一層次的數(shù)據(jù)。從OLAP使用的效率角度考慮,在設(shè)計(jì)數(shù)據(jù)倉庫時(shí)應(yīng)該考慮如下因58(5)對事實(shí)表和維度表中的關(guān)鍵字必須創(chuàng)建索引,同一種數(shù)據(jù)盡可能使用一個(gè)事實(shí)表。(6)保證數(shù)據(jù)的參考完整性,是事實(shí)表中的所有數(shù)據(jù)都出現(xiàn)在所有的維度表中,避免事實(shí)表中的某些數(shù)據(jù)行在立方體進(jìn)行聚集運(yùn)算時(shí)沒有參加過來。小組活動(dòng)對一個(gè)現(xiàn)實(shí)的業(yè)務(wù)活動(dòng)構(gòu)造出其多維數(shù)據(jù)模型。(5)對事實(shí)表和維度表中的關(guān)鍵字必須創(chuàng)建索引,同一種數(shù)據(jù)盡可59聯(lián)機(jī)分析準(zhǔn)則OLAP是介于客戶與數(shù)據(jù)倉庫之間的數(shù)據(jù)分析處理系統(tǒng),它需要對來自數(shù)據(jù)倉庫的數(shù)據(jù)進(jìn)行多維處理和分析,因此在系統(tǒng)的構(gòu)造中常常采用三層客戶/服務(wù)器結(jié)構(gòu)。這種三層客戶/服務(wù)器的結(jié)構(gòu)通常將數(shù)據(jù)倉庫、OLAP服務(wù)器與客戶端嚴(yán)格區(qū)分。數(shù)據(jù)準(zhǔn)備區(qū)數(shù)據(jù)倉庫OLAP服務(wù)器數(shù)據(jù)倉庫與OLAP關(guān)系業(yè)務(wù)處理系統(tǒng)第三層第二層第一層數(shù)據(jù)抽取數(shù)據(jù)加載多維化處理數(shù)據(jù)清理、轉(zhuǎn)換可視化處理客戶端聯(lián)機(jī)分析準(zhǔn)則OLAP是介于客戶與數(shù)據(jù)倉庫之間的數(shù)據(jù)分析處理系60三種基本的類型:關(guān)系型ROLAP多維MOLAP混合型HOLAP具體內(nèi)容見課本123頁5.4.3數(shù)據(jù)建模工具三種基本的類型:5.4.3數(shù)據(jù)建模工具61OLAP的基本分析功能包括切片、切塊、旋轉(zhuǎn)、上鉆、下鉆等。5.5數(shù)據(jù)分析操作切片條件:time=“Q2”切塊條件:(location=“Montreal”or“Vancouver”)and(time=“Q1”or“Q2”)and(item=“homeentertainment”or“computer”)旋轉(zhuǎn)在location上卷(由cities到countries)在time下鉆(由quarters到months)OLAP的基本分析功能包括切片、切塊、旋轉(zhuǎn)、上鉆、下鉆等。5625.5.2數(shù)據(jù)透視表以Excel中數(shù)據(jù)透視表的操作為例。(該節(jié)內(nèi)容以演示為主)5.5.2數(shù)據(jù)透視表以Excel中數(shù)據(jù)透視表的操作為例。63Outokumpu銅礦產(chǎn)品公司Outokumpu銅礦產(chǎn)品公司(芬蘭)超過上百萬公斤的基底金屬,主要用于帶扣、飲用水箱和雷達(dá)等產(chǎn)品。該公司的產(chǎn)品在世界范圍內(nèi)用于工業(yè)、電子、采礦、運(yùn)輸和建筑。Outokumpu公司在歐洲、美洲和亞洲有4家分公司,13條獨(dú)立運(yùn)營的業(yè)務(wù)生產(chǎn)線。對該公司來說確定產(chǎn)品的邊際利潤,降低生產(chǎn)成本,降低顧客流失率和提升利潤水平是關(guān)鍵性問題。集成和分析不同業(yè)務(wù)單元的信息是一項(xiàng)巨大的挑戰(zhàn),因?yàn)椴煌止具\(yùn)營的市場有不同的特殊要求,一個(gè)通用的信息系統(tǒng)難以解決問題。解決方案是建立一個(gè)數(shù)據(jù)倉庫和使用基于Web的OLAP服務(wù)器。數(shù)據(jù)庫選用Hyperion軟件公司的Essbase。快速建立了支持顧客盈利性和產(chǎn)品的兩個(gè)模型以及報(bào)告運(yùn)營績效的模型。公司使用了Temtec軟件公司的OLAP前端產(chǎn)品ExecutiveViewer(上有該產(chǎn)品的演示)。ExecutiveViewer基于Web并和很多數(shù)據(jù)庫,包括Hyperion的Essbase相集成。公司能夠使用ExecutiveViewer開發(fā)應(yīng)用系統(tǒng)以快速獲取市場、產(chǎn)品和顧客服務(wù)的信息,并支持?jǐn)?shù)據(jù)下鉆分析。ExecutiveViewer已成為全公司廣為接受的柔性分析工具。Outokumpu銅礦產(chǎn)品公司Outokumpu銅礦產(chǎn)品公司64INGAntai保險(xiǎn)公司(中國臺(tái)灣地區(qū))使用IBM的OLAP服務(wù)器分析大量數(shù)據(jù)檢測欺詐行為并加快針對這些行為的處理速度,僅有幾天就能處理原先需要幾周時(shí)間處理的工作。當(dāng)工具和硬件水平提升后,數(shù)據(jù)處理工作可以在瞬間完成,處理成本也大大降低。TCF銀行應(yīng)用OLAP向那些需要信息的人直接提供信息。銀行現(xiàn)在能夠更準(zhǔn)確地理解顧客以對營銷活動(dòng)進(jìn)行更好的定位。具體見以下案例:INGAntai保險(xiǎn)公司(中國臺(tái)灣地區(qū))使用IBM的OLA65TCF銀行的OLAP和數(shù)據(jù)挖掘作為美國中西部最大的銀行之一,TCF銀行在6個(gè)州有390家分支機(jī)構(gòu),面向所有收入水平的顧客群體服務(wù)。TCF有122億美元資產(chǎn)并運(yùn)營著全美第四大的超市銀行系統(tǒng)。TCF致力于成為一家方便顧客的一站式服務(wù)銀行,它還是全美少數(shù)幾家每周營業(yè)7天,每天營業(yè)12小時(shí),包括節(jié)假日的銀行之一。銀行主要部門(零售銀行、消費(fèi)信貸、抵押貸款、經(jīng)紀(jì)業(yè)務(wù))的用戶發(fā)現(xiàn)IT報(bào)告不能滿足其需求,不得不開發(fā)定制化的程序從IT系統(tǒng)下載數(shù)據(jù)文件,并將數(shù)據(jù)導(dǎo)入電子表格進(jìn)一步分析。簡歷一份標(biāo)準(zhǔn)化的圖表報(bào)告的時(shí)間約需一個(gè)月,而要產(chǎn)生顧客營銷名單則要6周時(shí)間。信息管理部門需要開發(fā)能使用戶更好地理解消費(fèi)者的新流程,以識(shí)別機(jī)遇和更有效地想顧客提供新服務(wù)。TCF銀行在2002年中采用了Informatica公司的PowerCenter和PowerAnalyzer。PowerAnalyzer的報(bào)告產(chǎn)生模板、基于測量的報(bào)告和建立下鉆分析路徑是重要的易于使用的功能,這些特點(diǎn)促使TCF采用了這一工具。公司開發(fā)了包括一系列關(guān)鍵指標(biāo)的報(bào)告的儀表盤,每周550位信貸員和經(jīng)理使用這些報(bào)告。有了這一新的包括交叉銷售功能的OLAP,TCF能夠識(shí)別顧客的類型,并針對性地提供專門的產(chǎn)品和服務(wù)。這在識(shí)別新顧客的需求方面特別關(guān)鍵。另外可以迅速產(chǎn)生報(bào)告以進(jìn)行進(jìn)一步的分析。TCF銀行的OLAP和數(shù)據(jù)挖掘作為美國中西部最大的銀行之一,66補(bǔ)充:商業(yè)智能一、商業(yè)智能的概念商業(yè)智能(BusinessIntelligence,簡稱BI)的概念最早是GartnerGroup于1996年提出來的。當(dāng)時(shí)將商業(yè)智能定義為一類由數(shù)據(jù)倉庫(或數(shù)據(jù)集市)、查詢報(bào)表、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成的、以幫助企業(yè)決策為目的技術(shù)及其應(yīng)用。目前,商業(yè)智能通常被理解為將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識(shí),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營決策的工具。從技術(shù)層面上講,商業(yè)智能不是什么新技術(shù),它只是數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘等技術(shù)的綜合運(yùn)用。補(bǔ)充:商業(yè)智能一、商業(yè)智能的概念67商業(yè)智能是一種解決方案,關(guān)鍵是從許多來自不同的企業(yè)運(yùn)作系統(tǒng)的數(shù)據(jù)中,提取出有用的數(shù)據(jù),進(jìn)行清理以保證數(shù)據(jù)的正確性,然后經(jīng)過抽?。‥xtraction)、轉(zhuǎn)換(Transformation)和裝載(Load),即ETL過程,合并到一個(gè)企業(yè)級(jí)的數(shù)據(jù)倉庫里,從而得到企業(yè)數(shù)據(jù)的一個(gè)全局視圖,在此基礎(chǔ)上利用合適的查詢和分析工具、數(shù)據(jù)挖掘工具、OLAP工具等對其進(jìn)行分析和處理(這時(shí)信息變?yōu)檩o助決策的知識(shí)),最后將知識(shí)呈現(xiàn)給管理者,為管理者的決策過程提供支持。商業(yè)智能是一種解決方案,關(guān)鍵是從許多來自不同的企業(yè)運(yùn)作系統(tǒng)的68外部數(shù)據(jù)庫MSSQLORACAL外部文件ETL工具數(shù)據(jù)倉庫元數(shù)據(jù)數(shù)據(jù)挖掘OLAP分析信息表現(xiàn)查詢報(bào)表數(shù)據(jù)倉庫數(shù)據(jù)模型BI系統(tǒng)用戶元數(shù)據(jù)庫元數(shù)據(jù)數(shù)據(jù)描述用法結(jié)構(gòu)安全設(shè)置數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)查詢請求商業(yè)智能基本過程圖外部數(shù)據(jù)庫MSORACAL外部數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)挖掘OL69目前得到廣泛應(yīng)用的BI軟件大多包含以下功能:1.數(shù)據(jù)獲取和整理功能,即ETL過程。2.數(shù)據(jù)集市/數(shù)據(jù)倉庫3.在線分析處理工具(OLAP)4.數(shù)據(jù)挖掘軟件5.報(bào)表設(shè)計(jì)6.業(yè)務(wù)活動(dòng)分析模型7.經(jīng)理信息系統(tǒng)目前得到廣泛應(yīng)用的BI軟件大多包含以下功能:1.數(shù)據(jù)獲取和整70二、商業(yè)智能包含的內(nèi)容商業(yè)智能包括專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、遺傳算法和智能代理等幾個(gè)方面。

1.神經(jīng)網(wǎng)絡(luò)被稱為有學(xué)習(xí)能力的商業(yè)智能系統(tǒng)。神經(jīng)網(wǎng)絡(luò)具有和人類大腦相似的功能.經(jīng)過對神經(jīng)網(wǎng)絡(luò)系統(tǒng)進(jìn)行一段時(shí)間的訓(xùn)練以后,該系統(tǒng)可以在沒有人干預(yù)的情況下進(jìn)行模擬識(shí)別,以解決特定領(lǐng)域中的問題。神經(jīng)網(wǎng)絡(luò)可以很容易的解決具有上百個(gè)參數(shù)的問題,神經(jīng)網(wǎng)絡(luò)常用于兩類問題:分類和回歸。當(dāng)神經(jīng)網(wǎng)絡(luò)被訓(xùn)練好以后,如果給它制定領(lǐng)域內(nèi)新的模式識(shí)別問題,它就能給你有關(guān)這種模式的相關(guān)信息。原因就是在于神經(jīng)網(wǎng)絡(luò)是按照人腦的模式來制造出來的。它的任務(wù)就是響應(yīng)、自我組織、學(xué)習(xí)、抽象和遺忘,而不是執(zhí)行。

二、商業(yè)智能包含的內(nèi)容商業(yè)智能包括專家系統(tǒng)、神經(jīng)網(wǎng)71

2.遺傳算法是基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計(jì)方法的優(yōu)化技術(shù)。它通過選擇、交叉和變異等進(jìn)化概念,產(chǎn)生出解決問題的新方法和策略。選擇是指挑選出好的解決方案,交叉是將好的方案中的部分進(jìn)行組合連接,而變異則是隨機(jī)的改變解決方案的某些部分。這樣當(dāng)提供了一系列可能的解決方案后,遺傳算法就可以得出許多解決方案。

3.智能代理是將計(jì)算機(jī)和網(wǎng)絡(luò)中許多重復(fù)的工作獨(dú)立出來,自動(dòng)的適應(yīng)人們的愛好和習(xí)慣,按照人們的要求完成工作。融合了許多現(xiàn)代的軟件技術(shù)。它的典型應(yīng)用是在Web上為消費(fèi)商品進(jìn)行篩選或監(jiān)測拍賣,在競價(jià)時(shí)提醒用戶。

二、商業(yè)智能包含的內(nèi)容

2.遺傳算法是基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變72案例:

金蝶的商業(yè)智能方案及其特點(diǎn)商業(yè)智能已經(jīng)成為中國軟件市場的新熱點(diǎn),全球著名的BI廠商已經(jīng)紛紛進(jìn)入中國,以期占領(lǐng)較高的市場份額。如,SAS、SPSS、Hyperion、Cognos、Brio、BusinessObjects、Microstrategy等BI廠商,SAP、ORACLE、SYBASE、Microsoft、IBM也都紛紛推出自己的商業(yè)智能方案。在中國金蝶公司也在推出自己的“金蝶商業(yè)智能方案”,該方案主要借助于BrioPerformanceSuite完成,金蝶公司和Brio公司建立了戰(zhàn)略合作伙伴關(guān)系,雙方公司力圖共同開拓企業(yè)商業(yè)智能分析市場。案例:

金蝶的商業(yè)智能方案及其特點(diǎn)商業(yè)智能已經(jīng)成為73首先,企業(yè)內(nèi)不同平臺(tái)上的應(yīng)用系統(tǒng)如,K/3、SAP、ORACLE、開思TEEMS、CRM、E-Business通過KD-ETL(金蝶數(shù)據(jù)抽取轉(zhuǎn)換導(dǎo)入工具)建立數(shù)據(jù)倉庫;其次,在數(shù)據(jù)倉庫的基礎(chǔ)之上,建立生產(chǎn)、財(cái)務(wù)、市場、采購、人力資源、成本、預(yù)算等各種分析模型,這些模型可以存貯在專門的OLAPSERVER中;最后,利用BrioPerformanceSuite(BRIO商業(yè)性能套件),采集數(shù)據(jù)倉庫和OLAP中的數(shù)據(jù),實(shí)現(xiàn)決策支持,企業(yè)還可以通過利用BrioPortal做出整個(gè)企業(yè)的信息門戶。無論決策支持還是信息門戶,管理者和員工都可以通過WAP手機(jī)、各種PDA(個(gè)人數(shù)字助理)、PC(個(gè)人電腦)、筆記本電腦等設(shè)備輕松快捷的獲得信息和知識(shí)。首先,企業(yè)內(nèi)不同平臺(tái)上的應(yīng)用系統(tǒng)如,K/3、SAP、74是不是必須通過建立數(shù)據(jù)倉庫和OLAPServer才能最終建立企業(yè)的決策支持系統(tǒng)和信息門戶呢?不是必須的。對于中小型企業(yè),建立數(shù)據(jù)倉庫和OLAP成本是昂貴的,并且需要專門的數(shù)據(jù)倉庫管理人員,金蝶商業(yè)智能解決方案提供更為巧妙和簡潔的處理方式,BrioPerformanceSuite可以直接連接在多個(gè)應(yīng)用系統(tǒng)上進(jìn)行決策分析,而勿需建立數(shù)據(jù)倉庫。實(shí)踐證明,這種應(yīng)用方式是非常適合中小型企業(yè)的。當(dāng)然,數(shù)據(jù)倉庫、OLAP的建立對于一個(gè)大型企業(yè)或者數(shù)據(jù)源相當(dāng)豐富的企業(yè)來說是必須的。它的優(yōu)點(diǎn)是不影響應(yīng)用系統(tǒng)的日常操作,分析更為規(guī)范和清晰,能夠處理企業(yè)內(nèi)部大數(shù)據(jù)量。是不是必須通過建立數(shù)據(jù)倉庫和OLAPServe75強(qiáng)大靈活的報(bào)表。報(bào)表中可包括計(jì)算、字段、圖表、旋轉(zhuǎn)透視表等,并可以將分析結(jié)果在企業(yè)內(nèi)部實(shí)現(xiàn)共享。OLAP-強(qiáng)大的交互式分析和靈活的鉆取功能。鉆取功能則讓你從輕松的集團(tuán)的銷售總額透視到子集團(tuán)的銷售額,再透視到子集團(tuán)下屬基本公司的具體銷售情況。分析應(yīng)用開發(fā)及商業(yè)信息成果的發(fā)布。允許開發(fā)者建立支持Web的分析應(yīng)用,并可加入各種通用控件及利用JavaScript進(jìn)行編程定制企業(yè)EIS系統(tǒng)和DSS系統(tǒng)。金蝶商業(yè)智能方案的特點(diǎn):

強(qiáng)大靈活的報(bào)表。報(bào)表中可包括計(jì)算、字段、圖表、旋轉(zhuǎn)透視表等,764.可選擇的語義層。該方案提供了“開放式元數(shù)據(jù)解釋器”(OpenMetadataInterpreter--OMI),構(gòu)造數(shù)據(jù)模型的語義層和業(yè)務(wù)視圖就成為可選擇的。OMI可以動(dòng)態(tài)地從幾乎任何數(shù)據(jù)源中讀取現(xiàn)有的元數(shù)據(jù)。5.可配置的安全性??梢宰孕泄芾戆踩裕部梢岳脭?shù)據(jù)庫的安全性。6.客戶端零管理。Web方式的客戶端軟件實(shí)現(xiàn)了自動(dòng)安裝和升級(jí),顯著地減少了實(shí)施維護(hù)人員和管理者的工作,大大地方便了用戶。4.可選擇的語義層。該方案提供了“開放式元數(shù)據(jù)解釋器777.數(shù)據(jù)庫同步。通過自動(dòng)的分布式刷新(ADR),向所有用戶發(fā)布共享庫的變化,并同步化他們對數(shù)據(jù)庫的視圖,而不需要任何手工的干預(yù)。8.廣泛的環(huán)境支持。支持主流的關(guān)系數(shù)據(jù)庫、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫產(chǎn)品。9.使用方便,為最終用戶而設(shè)計(jì)。10.提供離線分析。7.數(shù)據(jù)庫同步。通過自動(dòng)的分布式刷新(ADR),向所有用781.業(yè)務(wù)活動(dòng)分析模型應(yīng)用范圍:該設(shè)計(jì)適用于企業(yè)內(nèi)部的財(cái)務(wù)、銷售、采購、庫存、倉庫各活動(dòng)環(huán)節(jié)的分析及KPI。銷售分析的關(guān)鍵維度:時(shí)間、產(chǎn)品、銷售員、銷售渠道、促銷手段、顧客地理分布、顧客行業(yè)分布、顧客年齡、顧客性別、顧客收入。

金蝶商業(yè)智能的分析模型:1.業(yè)務(wù)活動(dòng)分析模型金蝶商業(yè)智能的分析模型:79模型作用:(1)在4P中,哪個(gè)是最強(qiáng)的因素,哪個(gè)是最弱的因素?(2)哪些產(chǎn)品的收入占了總收入的80%?哪些產(chǎn)品的盈利占了整個(gè)盈利的80%?(3)哪些是明星產(chǎn)品?哪些是瘦狗產(chǎn)品?哪種產(chǎn)品和銷售部門業(yè)務(wù)增長得最快或者最慢?各種產(chǎn)品的銷售和盈利的時(shí)間變化趨勢?模型作用:(1)在4P中,哪個(gè)是最強(qiáng)的因素,哪個(gè)是最弱80應(yīng)用范圍:該設(shè)計(jì)適用于任何企業(yè)內(nèi)實(shí)際執(zhí)行情況的分析。關(guān)鍵維度:實(shí)際支出、實(shí)際收入、實(shí)際利潤、計(jì)劃支出、計(jì)劃收入、預(yù)計(jì)利潤、計(jì)劃百分比、差量百分比、差量。模型作用:(1)收入、支出、利潤及項(xiàng)目和生產(chǎn)的執(zhí)行情況。(2)預(yù)測到期日是否可以正常完成整個(gè)計(jì)劃。2.計(jì)劃執(zhí)行模型

應(yīng)用范圍:該設(shè)計(jì)適用于任何企業(yè)內(nèi)實(shí)際執(zhí)行情況的分析。2.81應(yīng)用范圍:適用于任何企業(yè)的人力資源的分析。關(guān)鍵維度:雇員姓名、性別、國籍、出生地、婚姻狀況、工齡、學(xué)歷、職位、崗位、血型、膚色、薪水、獎(jiǎng)金、是否解雇、組織架構(gòu)、業(yè)務(wù)目標(biāo)、工作績效、培訓(xùn)記錄、獎(jiǎng)懲記錄。模型作用:(1)了解整個(gè)企業(yè)人力資源狀況,如:學(xué)歷分布、薪水狀況、性別分布等。(2)了解整個(gè)企業(yè)的績效管理。(3)在最重要崗位上的那些管理者,需要獲得哪些培訓(xùn)?(4)每一個(gè)崗位需要什么樣的員工和管理者?

3.人力資源分析模型

應(yīng)用范圍:適用于任何企業(yè)的人力資源的分析。3.人82應(yīng)用范圍:適用于任何企業(yè)CRM分析。關(guān)鍵維度:時(shí)間、地點(diǎn)、客戶、推薦活動(dòng)、商機(jī)、投訴、廣告反映、退貨模型作用:(1)哪種推薦活動(dòng)(打電話、上門拜訪、客戶推薦等)是最有效的?(2)客戶投訴中大部分集中在哪一個(gè)業(yè)務(wù)環(huán)節(jié)?(3)本月和未來數(shù)月哪些客戶將和企業(yè)簽訂銷售或者服務(wù)合同?(4)哪些客戶是你最忠誠的客戶?4.客戶關(guān)系分析模型應(yīng)用范圍:適用于任何企業(yè)CRM分析。4.客戶關(guān)系分析模型83案例討論:(1)試就本案例討論企業(yè)應(yīng)怎樣根據(jù)自己的實(shí)際情況引進(jìn)BI?(2)通過對金蝶商業(yè)智能方案的特點(diǎn)的分析,你認(rèn)為BI可以從哪些方面對企業(yè)產(chǎn)生影響?案例討論:(1)試就本案例討論企業(yè)應(yīng)怎樣根據(jù)自己的實(shí)際情況84補(bǔ)充:數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining):通過某種算法,使用諸如神經(jīng)網(wǎng)絡(luò)、規(guī)則歸納等技術(shù),從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。這個(gè)定義包括好幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問題。補(bǔ)充:數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining):這個(gè)定義85數(shù)據(jù)挖掘的商業(yè)角度定義

數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。在過去,數(shù)據(jù)收集和分析的目的是用于科學(xué)研究,另外由于當(dāng)時(shí)計(jì)算能力的限制,對大數(shù)據(jù)量進(jìn)行分析的復(fù)雜數(shù)據(jù)分析方法受到很大限制。

數(shù)據(jù)挖掘的商業(yè)角度定義86現(xiàn)在,由于各行業(yè)業(yè)務(wù)自動(dòng)化的實(shí)現(xiàn),商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)不是為了分析的目的而收集的,而是由于純機(jī)會(huì)的(Opportunistic)商業(yè)運(yùn)作而產(chǎn)生。分析這些數(shù)據(jù)也不是單純?yōu)榱搜芯康男枰饕菫樯虡I(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤。但所有企業(yè)面臨的一個(gè)共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價(jià)值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競爭力的信息,就像從礦石中淘金一樣。數(shù)據(jù)挖掘也因此而得名?,F(xiàn)在,由于各行業(yè)業(yè)務(wù)自動(dòng)化的實(shí)現(xiàn),商業(yè)領(lǐng)域產(chǎn)87數(shù)據(jù)挖掘的典型方法

模式發(fā)現(xiàn)在大量事務(wù)數(shù)據(jù)中,通過某種規(guī)則發(fā)現(xiàn)算法,發(fā)現(xiàn)它們之間隱藏的關(guān)聯(lián)性。算法:AIS、SETM、APRIORI、APRIORI_TID、DHP數(shù)據(jù)挖掘的典型方法模式發(fā)現(xiàn)在大量事務(wù)數(shù)據(jù)中,通過某種規(guī)則發(fā)88數(shù)據(jù)歸類通過一個(gè)印象函數(shù),將一個(gè)數(shù)據(jù)集合中的數(shù)據(jù)與既定類別印象的過程。是一種“有方向的分析”過程。主要方法:決策樹分類法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)法等數(shù)據(jù)歸類通過一個(gè)印象函數(shù),將一個(gè)數(shù)據(jù)集合中的數(shù)據(jù)與既定類別89分類分析:根據(jù)事先定義的一些數(shù)據(jù)組將數(shù)據(jù)分類,并從中發(fā)現(xiàn)各組中數(shù)據(jù)的公共特征。聚類分析:從數(shù)據(jù)中發(fā)現(xiàn)一組聚類規(guī)則,用這些規(guī)則分組,構(gòu)成相似的對象類。分類和聚類分類分析:根據(jù)事先定義的一些數(shù)據(jù)組將分類和聚類90數(shù)據(jù)挖掘功能、算法和應(yīng)用實(shí)例數(shù)據(jù)挖掘功能算法應(yīng)用實(shí)例關(guān)聯(lián)統(tǒng)計(jì)方法,集合理論市場籃子分析分類決策樹、神經(jīng)網(wǎng)絡(luò)目標(biāo)市場定位、質(zhì)量控制、風(fēng)險(xiǎn)評(píng)估聚類神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)、最優(yōu)化、判別分析市場細(xì)分建模線性和非線性回歸、曲線擬合、神經(jīng)網(wǎng)絡(luò)銷售預(yù)測、利潤預(yù)測、庫存控制序列模式統(tǒng)計(jì)方法、集合理論時(shí)間的市場籃子分析、顧客生命周期分析數(shù)據(jù)挖掘功能、算法和應(yīng)用實(shí)例數(shù)據(jù)挖掘功能算法應(yīng)用實(shí)例關(guān)聯(lián)統(tǒng)計(jì)91數(shù)據(jù)挖掘成功案例(90年代):

美國著名的國家籃球隊(duì)NBA的教練,利用IBM公司提供的數(shù)據(jù)挖掘工具臨場決定替換隊(duì)員。想象你是NBA的教練,你靠什么帶領(lǐng)你的球隊(duì)取得勝利呢?當(dāng)然,最容易想到的是全場緊逼、交叉扯動(dòng)和快速搶斷等具體的戰(zhàn)術(shù)和技術(shù)。但是今天,NBA的教練又有了他們的新式武器:數(shù)據(jù)挖掘。大約20個(gè)NBA球隊(duì)使用了IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件AdvancedScout系統(tǒng)來優(yōu)化他們的戰(zhàn)術(shù)組合。例如Scout就因?yàn)檠芯苛四g(shù)隊(duì)隊(duì)員不同的布陣安排,在與邁阿密熱隊(duì)的比賽中找到了獲勝的機(jī)會(huì)。

數(shù)據(jù)挖掘成功案例(90年代):92系統(tǒng)分析顯示魔術(shù)隊(duì)先發(fā)陣容中的兩個(gè)后衛(wèi)安佛尼.哈德衛(wèi)(AnferneeHardaway)和伯蘭.紹(BrianShaw)在前兩場中被評(píng)為-17分,這意味著他倆在場上,本隊(duì)輸?shù)舻姆謹(jǐn)?shù)比得到的分?jǐn)?shù)多17分。然而,當(dāng)哈德衛(wèi)與替補(bǔ)后衛(wèi)達(dá)利爾.阿姆斯創(chuàng)(DarrellArmstrong)組合時(shí),魔術(shù)隊(duì)得分為正14分。在下一場中,魔術(shù)隊(duì)增加了阿姆斯創(chuàng)的上場時(shí)間。此著果然見效:阿姆斯創(chuàng)得了21分,哈德衛(wèi)得了42分,魔術(shù)隊(duì)以88比79獲勝。魔術(shù)隊(duì)在第四場讓阿姆斯創(chuàng)進(jìn)入先發(fā)陣容,再一次打敗了熱隊(duì)。在第五場比賽中,這個(gè)靠數(shù)據(jù)挖掘支持的陣容沒能拖住熱隊(duì),但AdvancedScout畢竟幫助了魔術(shù)隊(duì)贏得了打滿5場,直到最后才決出勝負(fù)的機(jī)會(huì)。系統(tǒng)分析顯示魔術(shù)隊(duì)先發(fā)陣容中的兩個(gè)后衛(wèi)安佛尼93AdvancedScout是一個(gè)數(shù)據(jù)分析工具,教練可以用便攜式電腦在家里或在路上挖掘存儲(chǔ)在NBA中心的服務(wù)器上的數(shù)據(jù)。每一場比賽的事件都被統(tǒng)計(jì)分類,按得分、助攻、失誤等等。時(shí)間標(biāo)記讓教練非常容易地通過搜索NBA比賽的錄像來理解統(tǒng)計(jì)發(fā)現(xiàn)的含義。例如:教練通過AdvancedScout發(fā)現(xiàn)本隊(duì)的球員在與對方一個(gè)球星對抗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論