




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第13章商務(wù)智能系統(tǒng)
商務(wù)智能系統(tǒng)是應(yīng)用人工智能、數(shù)據(jù)挖掘、數(shù)據(jù)倉庫等先進(jìn)技術(shù),按照企業(yè)既定的業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行分析和挖掘,揭示出隱藏的、未知的知識(shí)或驗(yàn)證已知的規(guī)律,從而支持企業(yè)的智能管理與決策,提高企業(yè)核心競(jìng)爭(zhēng)力。本章將詳細(xì)討論商務(wù)智能系統(tǒng)的起源、體系結(jié)構(gòu)、工作原理和關(guān)鍵技術(shù),并以知名的商務(wù)智能系統(tǒng)為例,剖析商務(wù)智能系統(tǒng)的實(shí)現(xiàn)原理和商務(wù)智能解決方案。13.1商務(wù)智能概述商務(wù)智能將業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換成明確的、基于事實(shí)的、能夠執(zhí)行的信息,并且使得業(yè)務(wù)人員能夠發(fā)現(xiàn)客戶趨勢(shì),創(chuàng)建客戶忠誠(chéng)度,增強(qiáng)與供應(yīng)商的關(guān)系,減少金融風(fēng)險(xiǎn),以及揭示新的銷售商機(jī)。商務(wù)智能的目標(biāo)是了解變化的意義——從而理解甚至預(yù)見變化本身。通過訪問當(dāng)前的、可靠的和易消化的信息,幫助企業(yè)從各個(gè)側(cè)面及不同的維度靈活地瀏覽信息和建立模型。它是提高和維持競(jìng)爭(zhēng)優(yōu)勢(shì)的一條有效的途徑。1商務(wù)智能的產(chǎn)生原因企業(yè)對(duì)社會(huì)環(huán)境變化的需求、技術(shù)進(jìn)步的拉動(dòng)以及經(jīng)營(yíng)理念發(fā)展的結(jié)果。(1)企業(yè)運(yùn)營(yíng)模式的變化。(2)“數(shù)據(jù)=資產(chǎn)”新企業(yè)觀念的建立。(3)傳統(tǒng)分析工具的整合能力有限。(4)信息技術(shù)的推動(dòng)。2商務(wù)智能的定義GartnerGroup最早提出商務(wù)智能概念,它認(rèn)為:商業(yè)智能技術(shù)提供使企業(yè)迅速分析數(shù)據(jù)的技術(shù)和方法,包括收集、管理和分析數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息,然后分發(fā)到企業(yè)各處,輔助商業(yè)決策的制定。商務(wù)智能專家利奧托德這樣描述商務(wù)智能:商務(wù)智能指將存儲(chǔ)于各種商業(yè)信息系統(tǒng)中的數(shù)據(jù)轉(zhuǎn)換成有用信息的技術(shù)。它允許用戶查詢和分析數(shù)據(jù)庫,可以得出影響商業(yè)活動(dòng)的關(guān)鍵因素,最終幫助用戶做出更好、更合理的決策。國(guó)內(nèi)商務(wù)智能專家王茁給商務(wù)智能下了這樣一個(gè)定義:商務(wù)智能是企業(yè)利用現(xiàn)代信息技術(shù)收集、管理和分析結(jié)構(gòu)化和非結(jié)構(gòu)化的商務(wù)數(shù)據(jù)和信息,創(chuàng)造和累計(jì)商務(wù)知識(shí)和見解,改善商務(wù)決策水平,采取有效的商務(wù)行動(dòng),完善各種商務(wù)流程,提升各方面商務(wù)績(jī)效,增強(qiáng)綜合競(jìng)爭(zhēng)力的智慧和能力。國(guó)內(nèi)外一些知名的廠商也根據(jù)自身的產(chǎn)品提出獨(dú)特的見解:IDC將商務(wù)智能定義為:終端用戶查詢和報(bào)告工具、OLAP工具、數(shù)據(jù)挖掘軟件、數(shù)據(jù)集市和數(shù)據(jù)倉庫產(chǎn)品等軟件工具的集合。IBM認(rèn)為:商業(yè)智能是一系列由系統(tǒng)和技術(shù)支持的以簡(jiǎn)化信息收集、分析的策略的集合,它應(yīng)該包括企業(yè)需要收集什么信息、誰需要去訪問這些數(shù)據(jù)、如何把原始數(shù)據(jù)轉(zhuǎn)化為最終導(dǎo)致戰(zhàn)略性決策的智能、客戶服務(wù)和供應(yīng)鏈管理。Microsoft認(rèn)為:商業(yè)智能是任何嘗試獲取、分析企業(yè)數(shù)據(jù)以更清楚地了解市場(chǎng)和客戶、改進(jìn)企業(yè)流程、更有效地參與競(jìng)爭(zhēng)的努力。SAP認(rèn)為:商業(yè)智能是一大類收集、存儲(chǔ)、分析和訪問數(shù)據(jù)以幫助企業(yè)用戶更好進(jìn)行決策的應(yīng)用程序與技術(shù)。SAS認(rèn)為:商業(yè)智能是關(guān)于在組織內(nèi)部和組織周圍正在發(fā)生的智能或知識(shí)。MSTR認(rèn)為:商業(yè)智能是一系列能夠使公司分析數(shù)據(jù)庫中的數(shù)據(jù)并根據(jù)收集的信息獲得的洞察力來做決策的軟件系統(tǒng)。DWReview認(rèn)為:從數(shù)據(jù)分析的觀點(diǎn),商業(yè)智能是收集與研究主題相關(guān)的、高質(zhì)量的、有意義的信息、以幫助分析信息、得出結(jié)論或做出假設(shè)的過程。
商務(wù)智能是一個(gè)綜合的概念,不同的人從不同的角度,會(huì)得出不同的見解:從技術(shù)角度看,商務(wù)智能是以企業(yè)中的數(shù)據(jù)倉庫為基礎(chǔ),經(jīng)由聯(lián)機(jī)分析處理工具、數(shù)據(jù)挖掘工具加上決策人員的專業(yè)知識(shí),從根本上幫助公司把運(yùn)營(yíng)數(shù)據(jù)轉(zhuǎn)化成為高價(jià)值的可以獲取的信息(或者知識(shí)),并且在恰當(dāng)?shù)臅r(shí)候通過恰當(dāng)?shù)姆绞桨亚‘?dāng)?shù)男畔鬟f給恰當(dāng)?shù)娜说倪^程。從數(shù)據(jù)分析的角度看,商務(wù)智能是為了解決商業(yè)活動(dòng)中遇到的各種問題,利用各種信息系統(tǒng)進(jìn)行的高質(zhì)量和有價(jià)值的信息收集、分析、處理過程,其基本功能包括個(gè)性化的信息分析、預(yù)測(cè)和輔助決策。從應(yīng)用的角度看,商務(wù)智能幫助用戶對(duì)商業(yè)數(shù)據(jù)進(jìn)行在線分析處理和數(shù)據(jù)分析,幫助解決商業(yè)問題、預(yù)測(cè)發(fā)展趨勢(shì)、輔助決策,對(duì)客戶進(jìn)行分類、挖掘潛在客戶等等,以便更好地實(shí)現(xiàn)商業(yè)目的。3商務(wù)智智能的特點(diǎn)點(diǎn)現(xiàn)有的商務(wù)務(wù)智能系統(tǒng)統(tǒng)主要具有有以下特點(diǎn)點(diǎn):(1)成熟熟的數(shù)據(jù)倉倉庫管理能能力(2))強(qiáng)強(qiáng)大大的的數(shù)數(shù)據(jù)據(jù)挖挖掘掘和和OLAP能能力力(3))便便捷捷的的報(bào)報(bào)表表功功能能存在在的的缺缺陷陷::(1))主主動(dòng)動(dòng)性性較較差差(2))智智能能性性較較低低(3))難難以以與與企企業(yè)業(yè)中中已已有有的的商商務(wù)務(wù)系系統(tǒng)統(tǒng)集集成成4商商務(wù)務(wù)智智能能的的發(fā)發(fā)展展趨趨勢(shì)勢(shì)商務(wù)務(wù)智智能能的的出出現(xiàn)現(xiàn)是是一一個(gè)個(gè)漸漸進(jìn)進(jìn)的的復(fù)復(fù)雜雜的的演演變變過過程程,,而而且且仍仍處處在在發(fā)發(fā)展展之之中中。。它它經(jīng)經(jīng)歷歷了了事事務(wù)務(wù)處處理理系系統(tǒng)統(tǒng)((TransactionProccssSystem,,TPS))、、高高級(jí)級(jí)管管理理人人員員信信息息系系統(tǒng)統(tǒng)((ExecutiveInformationsystem,,EIS))、、管管理理信信息息系系統(tǒng)統(tǒng)((ManagementInformationSystem,,MIS))和和決決策策支支持持系系統(tǒng)統(tǒng)((DecisionSupportSystem,,DSS))等等階階段段,,最最終終演演變變成成今今天天的的企企業(yè)業(yè)商商務(wù)務(wù)智智能能。。5商商務(wù)務(wù)智智能能的的應(yīng)應(yīng)用用目前前商商務(wù)務(wù)智智能能在在全全球球的的應(yīng)應(yīng)用用主主要要集集中中在在保保險(xiǎn)險(xiǎn)業(yè)業(yè)、、銀銀行行業(yè)業(yè)、、電電信信業(yè)業(yè)、、制制造造業(yè)業(yè)、、零零售售業(yè)業(yè)、、稅稅務(wù)務(wù)和和電電子子商商務(wù)務(wù)等等領(lǐng)領(lǐng)域域。。我國(guó)國(guó)這這方方面面的的應(yīng)應(yīng)用用雖雖然然才才剛剛剛剛起起步步,,但但市市場(chǎng)場(chǎng)空空間間十十分分廣廣闊闊。。據(jù)據(jù)IDC預(yù)預(yù)測(cè)測(cè),,亞亞太太地地區(qū)區(qū)商商務(wù)務(wù)智智能能軟軟件件市市場(chǎng)場(chǎng)正正以以每每年年23%的的速速度度增增長(zhǎng)長(zhǎng),,而而中中國(guó)國(guó)是是亞亞太太地地區(qū)區(qū)商商務(wù)務(wù)智智能能增增長(zhǎng)長(zhǎng)最最為為迅迅速速的的市市場(chǎng)場(chǎng)之之一一;;如如果果中中國(guó)國(guó)經(jīng)經(jīng)濟(jì)濟(jì)繼繼續(xù)續(xù)保保持持高高速速增增長(zhǎng)長(zhǎng),,商商務(wù)務(wù)智智能能軟軟件件在在中中國(guó)國(guó)內(nèi)內(nèi)地地市市場(chǎng)場(chǎng)的的年年銷銷售售額額平平均均增增長(zhǎng)長(zhǎng)速速度度至至少少在在65.6%。。BusinessObjects和和Cognos等等BI提提供供商商已已直直接接或或者者通通過過其其代代理理商商進(jìn)進(jìn)入入中中國(guó)國(guó)市市場(chǎng)場(chǎng)。。BusinessObjects等等公公司司成成立立了了中中國(guó)國(guó)研研究究中中心心,,其其對(duì)對(duì)中中國(guó)國(guó)市市場(chǎng)場(chǎng)的的重重視視程程度度可可見見一一斑斑。。IDC公公司司認(rèn)認(rèn)為為醫(yī)醫(yī)療療、、教教育育和和服服務(wù)務(wù)等等領(lǐng)領(lǐng)域域?qū)⑹鞘巧躺虅?wù)務(wù)智智能能增增長(zhǎng)長(zhǎng)最最快快的的行行業(yè)業(yè)。。13.2商務(wù)務(wù)智能系系統(tǒng)的體體系結(jié)構(gòu)構(gòu)所謂體系系結(jié)構(gòu)((Architecture)是指指一整套套的規(guī)則則和結(jié)構(gòu)構(gòu),為一一個(gè)系統(tǒng)統(tǒng)或產(chǎn)品品的整體體設(shè)計(jì)提提供主框框架。而而一個(gè)商商業(yè)智能能的體系系結(jié)構(gòu)是是指通過過識(shí)別和和理解數(shù)數(shù)據(jù)在系系統(tǒng)中的的流動(dòng)過過程和數(shù)數(shù)據(jù)在企企業(yè)中的的應(yīng)用過過程來提提供商業(yè)業(yè)智能系系統(tǒng)應(yīng)用用的主框框架。1商務(wù)務(wù)智能系系統(tǒng)的處處理流程程商務(wù)智能能系統(tǒng)是是一種提提高企業(yè)業(yè)生存能能力的有有效工具具,從系系統(tǒng)的觀觀點(diǎn)來看看,一個(gè)個(gè)典型的的商務(wù)智智能系統(tǒng)統(tǒng)包括明明確需求求、數(shù)據(jù)據(jù)準(zhǔn)備、、數(shù)據(jù)存存儲(chǔ)、知知識(shí)挖掘掘以及應(yīng)應(yīng)用反饋饋幾個(gè)主主要的處處理流程程。(1)外外部數(shù)據(jù)據(jù)源通過過運(yùn)行環(huán)環(huán)境(ERP、、CRM、SCM等))流入BI循環(huán)環(huán)(包含含有關(guān)客客戶、供供應(yīng)商、、競(jìng)爭(zhēng)對(duì)對(duì)手、產(chǎn)產(chǎn)品以及及企業(yè)本本身的信信息);;(2)進(jìn)進(jìn)入數(shù)據(jù)據(jù)倉庫/數(shù)據(jù)集集市等數(shù)數(shù)據(jù)存儲(chǔ)儲(chǔ)部分———對(duì)加加入數(shù)據(jù)據(jù)倉庫的的數(shù)據(jù)進(jìn)進(jìn)行凈化化和轉(zhuǎn)換換,糾正正錯(cuò)誤的的數(shù)據(jù)和和統(tǒng)一格格式,使使其滿足足數(shù)據(jù)倉倉庫應(yīng)當(dāng)當(dāng)具有的的數(shù)據(jù)格格式和質(zhì)質(zhì)量標(biāo)準(zhǔn)準(zhǔn);將其其存儲(chǔ)在在中央存存儲(chǔ)庫中中(充當(dāng)當(dāng)中央存存儲(chǔ)庫的的可以是是關(guān)系型型數(shù)據(jù)庫庫或者多多維數(shù)據(jù)據(jù)庫),,數(shù)據(jù)的的抽取、、凈化、、轉(zhuǎn)換和和存儲(chǔ)是是BI循循環(huán)的核核心組成成部分;;(3)數(shù)數(shù)據(jù)分析析和知識(shí)識(shí)挖掘部部分———從數(shù)據(jù)據(jù)倉庫/數(shù)據(jù)集集市中獲獲取數(shù)據(jù)據(jù),并利利用數(shù)據(jù)據(jù)分析和和知識(shí)挖挖掘工具具,挖掘掘出對(duì)決決策有用用的知識(shí)識(shí),將所所得結(jié)果果提交給給業(yè)務(wù)決決策者。。這部分分是商務(wù)務(wù)智能系系統(tǒng)的靈靈魂,它它滿足了了從簡(jiǎn)單單報(bào)表經(jīng)經(jīng)由OLAP擴(kuò)擴(kuò)展到數(shù)數(shù)據(jù)挖掘掘范圍內(nèi)內(nèi)的各種種需要;;(4)BI將所所得的知知識(shí)以及及決策者者自身的的反饋信信息再次次帶入運(yùn)運(yùn)作環(huán)境境中,根根據(jù)情況況變化,,表達(dá)新新的需求求,提高高商務(wù)智智能流程程內(nèi)在質(zhì)質(zhì)量。從商務(wù)智智能系統(tǒng)統(tǒng)的循環(huán)環(huán)流程中中可以看看出,數(shù)數(shù)據(jù)倉庫庫、OLAP((On-LineAnalyticalProcessing::聯(lián)機(jī)分分析處理理)和數(shù)數(shù)據(jù)挖掘掘(DataMining)是其其主要的的技術(shù)支支柱:數(shù)據(jù)倉庫庫是處理理海量數(shù)數(shù)據(jù)的基基礎(chǔ),存存儲(chǔ)按照照商務(wù)智智能要求求重新組組織的來來自業(yè)務(wù)務(wù)系統(tǒng)的的數(shù)據(jù);;聯(lián)機(jī)分析析處理不不僅進(jìn)行行數(shù)據(jù)匯匯總/聚聚集,同同時(shí)還提提供切片片、切塊塊、下鉆鉆、上鉆鉆和旋轉(zhuǎn)轉(zhuǎn)等數(shù)據(jù)據(jù)分析功功能,用用戶可以以方便地地對(duì)海量量數(shù)據(jù)進(jìn)進(jìn)行多維維分析;;數(shù)據(jù)挖掘掘的目標(biāo)標(biāo)則是挖挖掘數(shù)據(jù)據(jù)背后隱隱藏的知知識(shí),通通過關(guān)聯(lián)聯(lián)分析、、聚類和和分類等等方法建建立分析析模型,,預(yù)測(cè)企企業(yè)未來來發(fā)展趨趨勢(shì)和將將要面臨臨的問題題。2商務(wù)務(wù)智能系系統(tǒng)的體體系結(jié)構(gòu)構(gòu)從對(duì)處理理流程的的分析可可以看出出,商務(wù)務(wù)智能系系統(tǒng)主要要由三個(gè)個(gè)子系統(tǒng)統(tǒng)組成::數(shù)據(jù)集集成子系系統(tǒng)、數(shù)數(shù)據(jù)存儲(chǔ)儲(chǔ)子系統(tǒng)統(tǒng)以及BI應(yīng)用用子系統(tǒng)統(tǒng)。如下下圖:(1)數(shù)數(shù)據(jù)集成成子系統(tǒng)統(tǒng)數(shù)據(jù)集成成子系統(tǒng)統(tǒng)提供了了一個(gè)解解決企業(yè)業(yè)的數(shù)據(jù)據(jù)一致性性與集成成化問題題的方案案,它通通過數(shù)據(jù)據(jù)整合、、數(shù)據(jù)集集中、數(shù)數(shù)據(jù)交換換等數(shù)據(jù)據(jù)處理手手段,將將企業(yè)各各個(gè)業(yè)務(wù)務(wù)系統(tǒng)面面向應(yīng)用用的數(shù)據(jù)據(jù)重新按按照面向向統(tǒng)計(jì)分分析的方方式進(jìn)行行組織,,屏蔽數(shù)數(shù)據(jù)資源源的異構(gòu)構(gòu)性與分分布性,,從而實(shí)實(shí)現(xiàn)統(tǒng)一一的數(shù)據(jù)據(jù)訪問和和數(shù)據(jù)集集成。目目前,數(shù)數(shù)據(jù)集成成主要通通過ETL工具具軟件、、基于ETL的的數(shù)據(jù)交交換技術(shù)術(shù)實(shí)現(xiàn)。。(2)數(shù)數(shù)據(jù)存儲(chǔ)儲(chǔ)子系統(tǒng)統(tǒng)——數(shù)數(shù)據(jù)倉庫庫數(shù)據(jù)倉庫庫在現(xiàn)有有各業(yè)務(wù)務(wù)系統(tǒng)的的基礎(chǔ)上上,對(duì)數(shù)數(shù)據(jù)進(jìn)行行抽取、、清理,,并有效效集成后后,按照照主題進(jìn)進(jìn)行重新新組織,,最終確確定數(shù)據(jù)據(jù)倉庫的的物理存存儲(chǔ)結(jié)構(gòu)構(gòu),同時(shí)時(shí)組織存存儲(chǔ)數(shù)據(jù)據(jù)倉庫元元數(shù)據(jù)((具體包包括數(shù)據(jù)據(jù)倉庫的的數(shù)據(jù)字字典、記記錄系統(tǒng)統(tǒng)定義、、數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換規(guī)則則、數(shù)據(jù)據(jù)加載頻頻率以及及業(yè)務(wù)規(guī)規(guī)則等信信息)。。(3)BI應(yīng)用用子系統(tǒng)統(tǒng)通過對(duì)分分析需要要的數(shù)據(jù)據(jù)按照多多維數(shù)據(jù)據(jù)模型進(jìn)進(jìn)行再次次重組,,以支持持用戶多多角度、、多層次次的分析析,并利利用數(shù)據(jù)據(jù)分析工工具從中中發(fā)現(xiàn)有有用的知知識(shí),支支持企業(yè)業(yè)的決策策過程。。它主要要包括各各種數(shù)據(jù)據(jù)分析工工具、報(bào)報(bào)表工具具、查詢?cè)児ぞ?、、?shù)據(jù)挖挖掘工具具以及各各種基于于數(shù)據(jù)倉倉庫或數(shù)數(shù)據(jù)集市市開發(fā)的的應(yīng)用。。其中數(shù)數(shù)據(jù)分析析工具主主要針對(duì)對(duì)OLAP服務(wù)務(wù)器,報(bào)報(bào)表工具具、數(shù)據(jù)據(jù)挖掘工工具既針針對(duì)數(shù)據(jù)據(jù)倉庫,,同時(shí)也也針對(duì)OLAP服務(wù)器器。商務(wù)智能能系統(tǒng)的的實(shí)施商業(yè)智能能系統(tǒng)主主要實(shí)現(xiàn)現(xiàn)將來自自不同企企業(yè)運(yùn)作作系統(tǒng)的的數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換為企企業(yè)決策策信息的的過程。。與一般般的信息息系統(tǒng)不不同,它它在處理理海量數(shù)數(shù)據(jù)、數(shù)數(shù)據(jù)分析析和信息息展現(xiàn)等等多個(gè)方方面都具具有突出出性能。。商務(wù)智能能的體系系結(jié)構(gòu)可可以指導(dǎo)導(dǎo)商務(wù)智智能系統(tǒng)統(tǒng)的實(shí)施施,其步步驟為::選擇數(shù)據(jù)據(jù)源數(shù)據(jù)預(yù)處處理數(shù)據(jù)存儲(chǔ)儲(chǔ)數(shù)據(jù)分析析(1)選選擇數(shù)據(jù)據(jù)源數(shù)據(jù)源包包括了企企業(yè)中所所有的信信息系統(tǒng)統(tǒng),以及及根據(jù)決決策分析析需求可可能涉及及的其他他外部數(shù)數(shù)據(jù)資源源,為了了確保商商務(wù)智能能系統(tǒng)的的成功,,在識(shí)別別和確定定數(shù)據(jù)源源時(shí)應(yīng)遵遵循一些些原則::保證數(shù)據(jù)據(jù)的真實(shí)實(shí)性保證數(shù)據(jù)據(jù)的針對(duì)對(duì)性保證數(shù)據(jù)據(jù)的完整整性(2)數(shù)數(shù)據(jù)預(yù)處處理ETL是是商務(wù)智智能系統(tǒng)統(tǒng)整合異異構(gòu)數(shù)據(jù)據(jù)源的解解決方案案,簡(jiǎn)單單的講,,ETL就是抽抽取、轉(zhuǎn)轉(zhuǎn)換和裝裝載,同同時(shí)提供供數(shù)據(jù)質(zhì)質(zhì)量的管管理,并并且貫穿穿整個(gè)商商務(wù)智能能解決方方案的全全過程,,完成整整個(gè)系統(tǒng)統(tǒng)的數(shù)據(jù)據(jù)處理與與調(diào)度。。①數(shù)據(jù)抽抽取數(shù)據(jù)抽取取是在對(duì)對(duì)數(shù)據(jù)倉倉庫的主主題和數(shù)數(shù)據(jù)本身身內(nèi)容理理解的基基礎(chǔ)上,,選擇主主題所涉涉及的相相關(guān)數(shù)據(jù)據(jù)。a.數(shù)數(shù)據(jù)的更更新方式式量更新還還是批量量更新。。實(shí)實(shí)時(shí)更新新還是周周期更新新。b.數(shù)數(shù)據(jù)的傳傳輸模式式數(shù)據(jù)傳輸輸是通過過網(wǎng)絡(luò)把把遠(yuǎn)程的的數(shù)據(jù)文文件運(yùn)用用FTP傳輸?shù)降奖镜啬磕夸浵?。。?shù)據(jù)的的傳輸模模式即數(shù)數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)是采采用拉((Pull)的的方式還還是采用用推(Push)的方方式從數(shù)數(shù)據(jù)源中中獲取。。②數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換換主要是是針對(duì)數(shù)數(shù)據(jù)倉庫庫建立的的模型,,通過一一系列的的轉(zhuǎn)換將將數(shù)據(jù)從從業(yè)務(wù)模模型數(shù)據(jù)據(jù)轉(zhuǎn)換為為分析模模型數(shù)據(jù)據(jù),通過過內(nèi)建的的庫函數(shù)數(shù)、自定定義腳本本或其他他的擴(kuò)展展方式,,實(shí)現(xiàn)多多種復(fù)雜雜轉(zhuǎn)換,,并且支支持調(diào)試試環(huán)境,,監(jiān)控轉(zhuǎn)轉(zhuǎn)換狀態(tài)態(tài)。數(shù)據(jù)據(jù)轉(zhuǎn)換是是將源數(shù)數(shù)據(jù)變?yōu)闉槟繕?biāo)數(shù)數(shù)據(jù)的關(guān)關(guān)鍵環(huán)節(jié)節(jié),它包包括數(shù)據(jù)據(jù)格式轉(zhuǎn)轉(zhuǎn)換、數(shù)數(shù)據(jù)類型型轉(zhuǎn)換、、數(shù)據(jù)匯匯總計(jì)算算數(shù)據(jù)拼拼接等等等。但轉(zhuǎn)轉(zhuǎn)換工作作可以視視具體情情況在不不同的過過程中實(shí)實(shí)現(xiàn),比比如可以以在數(shù)據(jù)據(jù)抽取時(shí)時(shí)轉(zhuǎn)換,,也可以以在數(shù)據(jù)據(jù)加載時(shí)時(shí)轉(zhuǎn)換。。③數(shù)據(jù)據(jù)清洗洗數(shù)據(jù)清清洗實(shí)實(shí)際就就是利利用有有關(guān)技技術(shù)如如數(shù)理理統(tǒng)計(jì)計(jì)、數(shù)數(shù)據(jù)挖挖掘或或預(yù)定定義的的數(shù)據(jù)據(jù)清洗洗規(guī)則則將臟臟數(shù)據(jù)據(jù)轉(zhuǎn)化化成滿滿足數(shù)數(shù)據(jù)質(zhì)質(zhì)量要要求的的數(shù)據(jù)據(jù)。按按數(shù)據(jù)據(jù)清洗洗的實(shí)實(shí)現(xiàn)方方式與與范圍圍,可可將數(shù)數(shù)據(jù)清清洗分分為四四種::①手手工實(shí)實(shí)現(xiàn)方方式::用人人工來來檢測(cè)測(cè)所有有的錯(cuò)錯(cuò)誤并并改正正。這這只能能針對(duì)對(duì)小數(shù)數(shù)據(jù)量量的數(shù)數(shù)據(jù)源源。②②通過過專門門編寫寫的應(yīng)應(yīng)用程程序::通過過編寫寫程序序檢測(cè)測(cè)/改改正錯(cuò)錯(cuò)誤。。但通通常數(shù)數(shù)據(jù)清清洗是是一個(gè)個(gè)反復(fù)復(fù)進(jìn)行行的過過程,,這就就導(dǎo)致致清理理程序序復(fù)雜雜、系系統(tǒng)工工作量量大。。③某某類特特定應(yīng)應(yīng)用領(lǐng)領(lǐng)域的的問題題,如如根據(jù)據(jù)概率率統(tǒng)計(jì)計(jì)學(xué)原原理查查找數(shù)數(shù)值異異常的的記錄錄。④④與特特定應(yīng)應(yīng)用領(lǐng)領(lǐng)域無無關(guān)的的數(shù)據(jù)據(jù)清洗洗,這這一部部分的的研究究主要要集中中于重重復(fù)記記錄的的檢測(cè)測(cè)/刪刪除。。③數(shù)據(jù)據(jù)清洗洗④數(shù)據(jù)據(jù)裝載載數(shù)據(jù)裝裝載主主要是是將經(jīng)經(jīng)過轉(zhuǎn)轉(zhuǎn)換和和清洗洗的數(shù)數(shù)據(jù)加加載到到數(shù)據(jù)據(jù)倉庫庫里面面,即即入庫庫。可可以通通過數(shù)數(shù)據(jù)文文件直直接裝裝載或或直連連數(shù)據(jù)據(jù)庫的的方式式來進(jìn)進(jìn)行,,充分分體現(xiàn)現(xiàn)高效效性。。數(shù)據(jù)據(jù)裝載載有兩兩個(gè)部部分,,一部部分是是把合合法數(shù)數(shù)據(jù)文文件裝裝入回回滾表表中,,該裝裝入過過程沒沒有匯匯總部部分;;另一一部分分是把把初次次匯總總表加加載到到臨時(shí)時(shí)匯總總表,,根據(jù)據(jù)不同同類型型的數(shù)數(shù)據(jù),,可能能會(huì)有有二次次匯總總。當(dāng)當(dāng)加載載臨時(shí)時(shí)匯總總表的的過程程完畢畢以后后,再再把臨臨時(shí)中中間表表的數(shù)數(shù)據(jù)裝裝入到到中間間表中中。在實(shí)施施中,,它的的步驟驟如下下:a.讀讀取取匯總總數(shù)據(jù)據(jù)文件件、無無需進(jìn)進(jìn)行匯匯總的的源數(shù)數(shù)據(jù)文文件或或需以以后匯匯總的的源數(shù)數(shù)據(jù)文文件,,調(diào)用用數(shù)據(jù)據(jù)文件件對(duì)應(yīng)應(yīng)操作作配置置表,,加載載到相相應(yīng)數(shù)數(shù)據(jù)表表(中中間表表或回回滾表表)中中;b.讀讀取取需進(jìn)進(jìn)行實(shí)實(shí)時(shí)匯匯總的的合法法數(shù)據(jù)據(jù)文件件,調(diào)調(diào)用數(shù)數(shù)據(jù)文文件對(duì)對(duì)應(yīng)操操作配配置表表,對(duì)對(duì)數(shù)據(jù)據(jù)庫進(jìn)進(jìn)行更更新操操作;;c.程程序序根據(jù)據(jù)生成成的不不同數(shù)數(shù)據(jù)文文件,,同時(shí)時(shí)生成成匯總總數(shù)據(jù)據(jù),同同先前前步驟驟的匯匯總文文件進(jìn)進(jìn)行對(duì)對(duì)比,,如出出現(xiàn)不不一致致,提提供系系統(tǒng)預(yù)預(yù)警。。(3)數(shù)數(shù)據(jù)存存儲(chǔ)對(duì)于一一個(gè)企企業(yè)來來說,,最關(guān)關(guān)鍵最最重要要的是是如何何以一一種有有效的的方式式逐步步整理理各個(gè)個(gè)業(yè)務(wù)務(wù)處理理系統(tǒng)統(tǒng)中積積累下下來的的歷史史數(shù)據(jù)據(jù),并并通過過靈活活有效效的方方式為為各級(jí)級(jí)業(yè)務(wù)務(wù)人員員提供供統(tǒng)一一的信信息視視圖,,從而而在整整個(gè)企企業(yè)內(nèi)內(nèi)實(shí)現(xiàn)現(xiàn)真正正的信信息共共享。。數(shù)據(jù)倉庫元數(shù)據(jù)存貯貯①數(shù)據(jù)倉庫庫數(shù)據(jù)倉庫是是一種語義義上一致的的數(shù)據(jù)存儲(chǔ)儲(chǔ),它是決決策支持?jǐn)?shù)數(shù)據(jù)模型的的物理實(shí)現(xiàn)現(xiàn),并存放放企業(yè)戰(zhàn)略略決策所需需信息。數(shù)數(shù)據(jù)倉庫也也常常被看看作一種體體系結(jié)構(gòu),,通過將異異種數(shù)據(jù)源源中的數(shù)據(jù)據(jù)集成在一一起而構(gòu)造造,支持結(jié)結(jié)構(gòu)化的和和專門的查查詢、分析析報(bào)告和決決策。通過提供多多維數(shù)據(jù)視視圖和匯總總數(shù)據(jù)的預(yù)預(yù)計(jì)算,數(shù)數(shù)據(jù)倉庫非非常適合聯(lián)聯(lián)機(jī)分析處處理(OLAP)。。OLAP操作使用用數(shù)據(jù)的領(lǐng)領(lǐng)域背景知知識(shí),允許許在不同的的抽象層提提供數(shù)據(jù)。。這些操作作適合不同同的用戶。。盡管數(shù)據(jù)據(jù)倉庫工具具對(duì)于支持持?jǐn)?shù)據(jù)分析析是有幫助助的,但是是仍需要更更多的數(shù)據(jù)據(jù)挖掘工具具,以便進(jìn)進(jìn)行更深入入的自動(dòng)分分析。元數(shù)據(jù)存貯貯簡(jiǎn)單地,元元數(shù)據(jù)存貯貯有兩種形形式:其一一是以數(shù)據(jù)據(jù)集為基礎(chǔ)礎(chǔ),即每一一個(gè)數(shù)據(jù)集集有一個(gè)對(duì)對(duì)應(yīng)的元數(shù)數(shù)據(jù)文檔,,每一個(gè)元元數(shù)據(jù)文件件中包含對(duì)對(duì)相應(yīng)數(shù)據(jù)據(jù)集的元數(shù)數(shù)據(jù)內(nèi)容。。另一種存存在方式是是以數(shù)據(jù)庫庫為基礎(chǔ)((即元數(shù)據(jù)據(jù)庫),給給一個(gè)數(shù)據(jù)據(jù)庫有一個(gè)個(gè)元數(shù)據(jù)文文件,該文文件為一表表格數(shù)據(jù),,它由若干干項(xiàng)組成,,每一項(xiàng)表表示元數(shù)據(jù)據(jù)的一個(gè)要要素,其記記錄為每一一個(gè)數(shù)據(jù)集集的元數(shù)據(jù)據(jù)內(nèi)容。(4)數(shù)數(shù)據(jù)分析在商務(wù)智能能系統(tǒng)中,,需要將交交互式信息息分析、挖挖掘工具、、數(shù)據(jù)分析析軟件、商商務(wù)智能工工具與商業(yè)業(yè)運(yùn)營(yíng)規(guī)則則相結(jié)合對(duì)對(duì)數(shù)據(jù)的模模式和趨勢(shì)勢(shì)進(jìn)行分析析,給用戶戶提供企業(yè)業(yè)商務(wù)的方方方面面的的詳細(xì)信息息,以輔助助商務(wù)活動(dòng)動(dòng)決策獲得得更高的ROI和利利潤(rùn)。數(shù)據(jù)據(jù)分析主要要包含三個(gè)個(gè)方面:聯(lián)機(jī)分析處處理數(shù)據(jù)挖掘聯(lián)機(jī)分析挖挖掘13.3商商務(wù)智能能中的關(guān)鍵鍵技術(shù)商務(wù)智能是是一套完整整的解決方方案,它是是將數(shù)據(jù)倉倉庫、聯(lián)機(jī)機(jī)分析處理理(OLAP)和數(shù)數(shù)據(jù)挖掘等等結(jié)合起來來應(yīng)用到商商業(yè)活動(dòng)中中,從不同同的數(shù)據(jù)源源收集數(shù)據(jù)據(jù),經(jīng)過抽抽取(Extract)、轉(zhuǎn)轉(zhuǎn)換(Transform)和加載(Load),送入入到數(shù)據(jù)倉倉庫或數(shù)據(jù)據(jù)集市,然然后使用合合適的查詢?cè)兣c分析工工具、數(shù)據(jù)據(jù)挖掘工具具和聯(lián)機(jī)分分析處理工工具對(duì)信息息進(jìn)行處理理,將信息息轉(zhuǎn)變成為為輔助決策策的知識(shí),,最后將知知識(shí)呈現(xiàn)于于用戶面前前,以實(shí)現(xiàn)現(xiàn)技術(shù)服務(wù)務(wù)與決策的的目的。1數(shù)據(jù)倉倉庫技術(shù)建立數(shù)據(jù)倉倉庫系統(tǒng)的的目的是要要構(gòu)建一種種體系化的的數(shù)據(jù)存儲(chǔ)儲(chǔ)環(huán)境,將將分析決策策所需的大大量數(shù)據(jù)從從傳統(tǒng)的操操作環(huán)境中中分離出來來,使分散散的、不一一致的操作作數(shù)據(jù)轉(zhuǎn)換換成集成的的、統(tǒng)一的的信息,運(yùn)運(yùn)用這些信信息,發(fā)現(xiàn)現(xiàn)問題、分分析問題、、解決問題題,進(jìn)而進(jìn)進(jìn)行決策,,為在以后后獲得更多多的經(jīng)濟(jì)效效益服務(wù)。。(1)數(shù)據(jù)據(jù)倉庫的定定義“數(shù)據(jù)倉庫庫之父”W.H.Inmon在他的《《BuildingtheDataWarehouse》》一書中指指出:“數(shù)數(shù)據(jù)倉庫是是面向主題題的、集成成的、非易易失的,隨隨時(shí)間變化化的用來支支持管理人人員決策的的數(shù)據(jù)集合合。”從上面這個(gè)個(gè)概念的字字面意義來來看,數(shù)據(jù)據(jù)倉庫包含含兩層含義義:①數(shù)據(jù),即即關(guān)于某事事的事實(shí)和和信息;②倉庫,即即存儲(chǔ)貨物物和商品的的地方或設(shè)設(shè)施。數(shù)據(jù)倉庫的的特征:面向主題性性數(shù)據(jù)倉庫中中的所有數(shù)數(shù)據(jù)都是圍圍繞著某一一主題組織織,如客戶戶、供應(yīng)商商、產(chǎn)品來來建立的。。集成性數(shù)據(jù)倉庫中中的數(shù)據(jù)是是在對(duì)原有有分散的數(shù)數(shù)據(jù)庫數(shù)據(jù)據(jù)抽取、清清理的基礎(chǔ)礎(chǔ)上經(jīng)過系系統(tǒng)加工、、匯總和整整理得到的的,必須消消除源數(shù)據(jù)據(jù)中的不一一致性,以以保證數(shù)據(jù)據(jù)倉庫內(nèi)的的信息是關(guān)關(guān)于整個(gè)企企業(yè)的一致致的全局信信息非易失性數(shù)據(jù)倉庫的的數(shù)據(jù)主要要供企業(yè)決決策分析之之用,所涉涉及的數(shù)據(jù)據(jù)操作主要要是數(shù)據(jù)查查詢,一旦旦某個(gè)數(shù)據(jù)據(jù)進(jìn)入數(shù)據(jù)據(jù)倉庫以后后,一般情情況下將被被長(zhǎng)期保留留,也就是是數(shù)據(jù)倉庫庫中一般有有大量的查查詢操作,,但修改和和刪除操作作很少,通通常只需要要定期的加加載、刷新新。時(shí)變性時(shí)變性表現(xiàn)現(xiàn)在數(shù)據(jù)倉倉庫的數(shù)據(jù)據(jù)是在一個(gè)個(gè)很長(zhǎng)的時(shí)時(shí)間上的數(shù)數(shù)據(jù)。(2)數(shù)數(shù)據(jù)倉庫的的數(shù)據(jù)組織織①數(shù)據(jù)倉庫庫的數(shù)據(jù)組組織結(jié)構(gòu)數(shù)據(jù)倉庫的的數(shù)據(jù)組織織方式與數(shù)數(shù)據(jù)庫不同同,通常是是采用分級(jí)級(jí)的方式組組織。一般般分為早期期細(xì)節(jié)級(jí)、、當(dāng)前細(xì)節(jié)節(jié)級(jí)、輕度度綜合級(jí)、、高度綜合合級(jí)以及元元數(shù)據(jù)五部部分。a 早期細(xì)細(xì)節(jié)數(shù)據(jù)存儲(chǔ)過去的的詳細(xì)數(shù)據(jù)據(jù),反映真真實(shí)的歷史史情況,這這類數(shù)據(jù)隨隨著時(shí)間增增加,數(shù)據(jù)據(jù)量很大,,使用頻率率低,一般般存儲(chǔ)在轉(zhuǎn)轉(zhuǎn)換介質(zhì)中中,例如磁磁帶中。b當(dāng)前細(xì)細(xì)節(jié)數(shù)據(jù)存存儲(chǔ)最近時(shí)時(shí)期的業(yè)務(wù)務(wù)數(shù)據(jù),反反映當(dāng)前業(yè)業(yè)務(wù)的情況況,數(shù)據(jù)量量大,是數(shù)數(shù)據(jù)倉庫用用戶最感興興趣的部分分。隨著時(shí)時(shí)間的推移移,當(dāng)前細(xì)細(xì)節(jié)數(shù)據(jù)由由數(shù)據(jù)倉庫庫的時(shí)間控控制機(jī)制轉(zhuǎn)轉(zhuǎn)為早期細(xì)細(xì)節(jié)數(shù)據(jù)。。c 輕度綜綜合數(shù)據(jù)從從當(dāng)前前基本數(shù)據(jù)據(jù)中提取出出來,通常常以較小的的時(shí)間段((粒度)統(tǒng)統(tǒng)計(jì)而成的的數(shù)據(jù),其其數(shù)據(jù)量較較細(xì)節(jié)及數(shù)數(shù)據(jù)少得多多。d 高度綜綜合數(shù)據(jù)這這一層層的數(shù)據(jù)十十分精煉,,是一種準(zhǔn)準(zhǔn)決策數(shù)據(jù)據(jù)。e元數(shù)數(shù)據(jù)對(duì)對(duì)數(shù)據(jù)倉庫庫中的各種種數(shù)據(jù)進(jìn)行行詳細(xì)的描描述與說明明,說明每每個(gè)數(shù)據(jù)的的上下文關(guān)關(guān)系,使每每個(gè)數(shù)據(jù)具具有符合現(xiàn)現(xiàn)實(shí)的真實(shí)實(shí)含義,使使最終用戶戶了解這些些數(shù)據(jù)之間間的關(guān)系。。每月數(shù)據(jù)2000-2005每周數(shù)據(jù)2000-2005細(xì)節(jié)數(shù)據(jù)2000-2005操作數(shù)據(jù)1995-2000高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)圖13-5數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)圖元數(shù)據(jù)當(dāng)前的數(shù)據(jù)據(jù)總是首先先進(jìn)入當(dāng)前前細(xì)節(jié)級(jí),,然后根據(jù)據(jù)應(yīng)用的需需求,通過過預(yù)運(yùn)算將將數(shù)據(jù)聚合合成輕度綜綜合和高度度綜合級(jí)。。由此可見見,數(shù)據(jù)倉倉庫中存在在著不同的的綜合級(jí)別別,一般稱稱之為“粒粒度”。粒度是指數(shù)數(shù)據(jù)倉庫中中的數(shù)據(jù)單單位,保存存數(shù)據(jù)的細(xì)細(xì)化或綜合合程度的級(jí)級(jí)別。細(xì)化化程度越高高,粒度就就越??;相相反,細(xì)化化程度越低低,粒度級(jí)級(jí)就越大。。粒度可以分分為兩種形形式,第一一種粒度稱稱為多維粒粒度,是對(duì)對(duì)數(shù)據(jù)倉庫庫中的數(shù)據(jù)據(jù)的綜合程程度高低的的一個(gè)度量量,它既影影響數(shù)據(jù)倉倉庫中的數(shù)數(shù)據(jù)量的多多少,也影影響數(shù)據(jù)倉倉庫所能回回答詢問的的種類。另另一種粒度度形式稱為為樣本數(shù)據(jù)據(jù)庫,它根根據(jù)給定的的采樣率從從細(xì)節(jié)數(shù)據(jù)據(jù)庫中抽取取出一個(gè)子子集。與粒度相對(duì)對(duì)應(yīng)的一個(gè)個(gè)概念是“分割”。它的目的的同樣在于于將數(shù)據(jù)分分散到各自自的物理單單元中去,,以便能分分別獨(dú)立處處理。有許許多數(shù)據(jù)分分割的標(biāo)準(zhǔn)準(zhǔn)可供參考考:如日期期、地域、、業(yè)務(wù)領(lǐng)域域等等,也也可以是其其組合。一一般而言,,分割標(biāo)準(zhǔn)準(zhǔn)總應(yīng)包括括日期項(xiàng),,它十分自自然而且分分割均勻。。②數(shù)據(jù)倉庫庫的數(shù)據(jù)組組織形式簡(jiǎn)單堆積文文件輪轉(zhuǎn)綜合文文件簡(jiǎn)化直接文文件連續(xù)文件簡(jiǎn)單堆積文文件從面向應(yīng)用用的數(shù)據(jù)庫庫中每天的的數(shù)據(jù)中提提取出來,,然后按照照相應(yīng)的主主題集成為為數(shù)據(jù)倉庫庫中的記錄錄。輪轉(zhuǎn)綜合文文件數(shù)據(jù)存儲(chǔ)單單位被分為為日、周、、月、年等等幾個(gè)級(jí)別別。在一個(gè)個(gè)星期的七七天中,數(shù)數(shù)據(jù)被逐一一記錄在每每日數(shù)據(jù)集集中;然后后,七天的的數(shù)據(jù)被綜綜合并記錄錄在周數(shù)據(jù)據(jù)集中;接接下去的一一個(gè)星期,,日數(shù)據(jù)集集被重新使使用,以記記錄新數(shù)據(jù)據(jù)。同理,,周數(shù)據(jù)集集達(dá)到五個(gè)個(gè)后,數(shù)據(jù)據(jù)再一次被被綜合并記記入月數(shù)據(jù)據(jù)集。以此此類推。輪輪轉(zhuǎn)綜合結(jié)結(jié)構(gòu)十分簡(jiǎn)簡(jiǎn)捷,數(shù)據(jù)據(jù)量較簡(jiǎn)單單堆積結(jié)構(gòu)構(gòu)大大減少少。當(dāng)然,,它是以損損失數(shù)據(jù)細(xì)細(xì)節(jié)為代價(jià)價(jià)的,越久久遠(yuǎn)的數(shù)據(jù)據(jù),細(xì)節(jié)損損失越多。。1數(shù)據(jù)倉倉庫技術(shù)(2)數(shù)數(shù)據(jù)倉庫的的數(shù)據(jù)組織織②數(shù)據(jù)倉庫的的數(shù)據(jù)組織織形式輪轉(zhuǎn)綜合文文件簡(jiǎn)化直接文文件它類似于簡(jiǎn)簡(jiǎn)單堆積文文件,但它它是間隔一一定時(shí)間的的數(shù)據(jù)庫快快照,比如如每隔一星星期或一個(gè)個(gè)月作一次次。連續(xù)文件它類似于簡(jiǎn)簡(jiǎn)單堆積文文件,但它它是間隔一一定時(shí)間的的數(shù)據(jù)庫快快照,比如如每隔一星星期或一個(gè)個(gè)月作一次次。1數(shù)據(jù)倉倉庫技術(shù)(2)數(shù)數(shù)據(jù)倉庫的的數(shù)據(jù)組織織③數(shù)據(jù)倉庫庫的數(shù)據(jù)模模型數(shù)據(jù)模型是是對(duì)現(xiàn)實(shí)世世界進(jìn)行抽抽象的工具具,抽象的的程度不同同,就形成成不同抽象象級(jí)別層次次上的數(shù)據(jù)據(jù)模型。通通常,數(shù)據(jù)據(jù)數(shù)據(jù)可以以分為三個(gè)個(gè)層次:高高層數(shù)據(jù)模模型(ER圖,實(shí)體體關(guān)系層)、中間層層模型(DIS,數(shù)數(shù)據(jù)項(xiàng)集)、底層數(shù)數(shù)據(jù)模型(物理模型型)。③數(shù)據(jù)倉庫庫的數(shù)據(jù)模模型高層數(shù)據(jù)模模型高層建模以以實(shí)體和關(guān)關(guān)系為特征征,實(shí)體處處于最高抽抽象層,由由“集成范范圍”這個(gè)個(gè)術(shù)語表示示的內(nèi)容來來決定哪些些實(shí)體屬于于模型范圍圍。集成范范圍定義了了數(shù)據(jù)的邊邊界,而且且集成范圍圍需在建模模之前進(jìn)行行定義。這這個(gè)范圍由由系統(tǒng)的建建模者、管管理人員和和最終用戶戶共同確定定。如果范范圍沒有預(yù)預(yù)先確定,,建模過程程就很有可可能一直持持續(xù)下去。。寫出來的的集成范圍圍應(yīng)該盡量量簡(jiǎn)短,而而且應(yīng)該使使用業(yè)務(wù)人人員可以理理解的語言言。高層數(shù)據(jù)模模型對(duì)數(shù)據(jù)據(jù)抽象程度度最大,表表達(dá)工具為為E-R圖圖。中間層模型型對(duì)高層數(shù)據(jù)模模型中標(biāo)識(shí)的的每個(gè)主要的的主題域或?qū)崒?shí)體,都要建建一個(gè)中間層層數(shù)據(jù)模型。。中間層數(shù)據(jù)據(jù)模型4種基基本構(gòu)造,見見圖13-10:聯(lián)接數(shù)據(jù)組::本主題域與與其他主題域域間的聯(lián)系,,一個(gè)主題的的公共碼鍵。?;緮?shù)據(jù)組::屬于基本不不會(huì)發(fā)生變化化的項(xiàng)。二次數(shù)據(jù)組::基本不變化化,但又存在在變化的可能能的數(shù)據(jù)項(xiàng)。。類型數(shù)據(jù)組::經(jīng)常變化的的數(shù)據(jù)項(xiàng)。底層模型它是從中間層層數(shù)據(jù)模型創(chuàng)創(chuàng)建而來的,,建立物理模模型只需擴(kuò)展展中間層模型型,使模型中中包含有關(guān)鍵鍵字和物理特特性就可以實(shí)實(shí)現(xiàn)。其中物物理特性設(shè)計(jì)計(jì)需包括:確定數(shù)據(jù)的粒粒度和分區(qū)。。當(dāng)然關(guān)鍵字字結(jié)構(gòu)得發(fā)生生改變,以便便能加入與每每一個(gè)數(shù)據(jù)單單元都相關(guān)的的時(shí)間元素。。數(shù)據(jù)庫設(shè)計(jì)者者需要在物理理上組織好數(shù)數(shù)據(jù)、保證執(zhí)執(zhí)行一次物理理I/O能夠夠返回最大數(shù)數(shù)量的記錄。。因?yàn)閿?shù)據(jù)倉庫庫中的數(shù)據(jù)一一般不更新,,可以考慮一一些在經(jīng)常更更新情況下不不能使用的物物理設(shè)計(jì)。上述三個(gè)層次次的數(shù)據(jù)模型型對(duì)應(yīng)到傳統(tǒng)統(tǒng)操作型數(shù)據(jù)據(jù)庫建模中即即為:概念模型、邏邏輯模型和物物理模型。在數(shù)據(jù)倉庫庫的設(shè)計(jì)中同同樣存在著這這樣的模型。。數(shù)據(jù)模型既既適用于現(xiàn)有有的系統(tǒng)環(huán)境境也適用于數(shù)數(shù)據(jù)倉庫中的的環(huán)境。但數(shù)數(shù)據(jù)倉庫的數(shù)數(shù)據(jù)模型與操操作型數(shù)據(jù)庫庫的三級(jí)數(shù)據(jù)據(jù)模型又存在在著一定的區(qū)區(qū)別:數(shù)據(jù)倉庫的數(shù)數(shù)據(jù)模型中不不包含純操作作型的數(shù)據(jù);;數(shù)據(jù)倉庫的數(shù)數(shù)據(jù)模型擴(kuò)充充了碼結(jié)構(gòu),,增加了時(shí)間間屬性作為碼碼的一部分;;數(shù)據(jù)倉庫的數(shù)數(shù)據(jù)模型中增增加了一些導(dǎo)導(dǎo)出數(shù)據(jù)。④數(shù)據(jù)倉庫的的數(shù)據(jù)追加方方式常用的技術(shù)和和方法有:時(shí)標(biāo)方法DELTA文文件前后映象文件件的方法日志文件(3)數(shù)據(jù)據(jù)倉庫的體系系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)統(tǒng)是以數(shù)據(jù)倉倉庫為基礎(chǔ),,通過集成工工具、查詢工工具和分析工工具完成對(duì)數(shù)數(shù)據(jù)的轉(zhuǎn)換和和對(duì)信息提取取的系統(tǒng)。通通常采用如圖圖13-11所示的體系系結(jié)構(gòu):數(shù)據(jù)據(jù)源、數(shù)據(jù)存存儲(chǔ)和管理、、數(shù)據(jù)分析以以及數(shù)據(jù)展示示。其中,元元數(shù)據(jù)庫是對(duì)對(duì)數(shù)據(jù)的一種種描述,貫穿穿整個(gè)系統(tǒng)的的各個(gè)部分?jǐn)?shù)據(jù)倉庫的數(shù)數(shù)據(jù)一般分為為操作數(shù)據(jù)庫庫源數(shù)據(jù)和外外部源數(shù)據(jù)兩兩部分。操作數(shù)據(jù)源包包括各種生產(chǎn)產(chǎn)系統(tǒng)數(shù)據(jù)庫庫、聯(lián)機(jī)事務(wù)務(wù)處理系統(tǒng)的的操作數(shù)據(jù)庫庫等;外部源數(shù)據(jù)一一般來自企業(yè)業(yè)的外部信息息,如市場(chǎng)調(diào)調(diào)查與分析及及各類文檔等等。導(dǎo)入的源數(shù)據(jù)據(jù)形成了數(shù)據(jù)據(jù)倉庫的原始始數(shù)據(jù),然而而源數(shù)據(jù)只是是數(shù)據(jù)倉庫的的一部分,但但不是全部。。由于需要數(shù)數(shù)據(jù)倉庫進(jìn)行行OLAP分分析和數(shù)據(jù)挖挖掘,因此需需要在原始數(shù)數(shù)據(jù)的基礎(chǔ)上上增加冗余信信息,比如進(jìn)進(jìn)行大量的預(yù)預(yù)運(yùn)算,建立立多維數(shù)據(jù)庫庫,以求得到到更好的分析析結(jié)果。數(shù)據(jù)的存儲(chǔ)與與管理是整個(gè)個(gè)數(shù)據(jù)倉庫系系統(tǒng)的核心。。在現(xiàn)有各業(yè)業(yè)務(wù)系統(tǒng)的基基礎(chǔ)上,對(duì)數(shù)數(shù)據(jù)進(jìn)行抽取取、清理,并并有效集成,,按照主題進(jìn)進(jìn)行重新組織織,最終確定定數(shù)據(jù)倉庫的的物理存儲(chǔ)結(jié)結(jié)構(gòu),同時(shí)組組織存儲(chǔ)數(shù)據(jù)據(jù)倉庫元數(shù)據(jù)據(jù)(具體包括括數(shù)據(jù)倉庫的的數(shù)據(jù)字典、、記錄系統(tǒng)定定義、數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換規(guī)則、數(shù)數(shù)據(jù)加載頻率率以及業(yè)務(wù)規(guī)規(guī)則等信息)。數(shù)據(jù)訪問和分分析工具不但但要提供一般般的數(shù)據(jù)訪問問功能,如查查詢、匯總、、統(tǒng)計(jì)等,還還要提供對(duì)數(shù)數(shù)據(jù)的深入分分析功能,即即數(shù)據(jù)挖掘的的功能,如數(shù)數(shù)據(jù)的比較、、趨勢(shì)分析、、模式識(shí)別等等。數(shù)據(jù)展示將應(yīng)應(yīng)用結(jié)果,特特別是分析、、決策結(jié)果以以多種媒體形形式表示。(4)數(shù)據(jù)據(jù)倉庫的基本本框架數(shù)據(jù)倉庫提供供了有效地存存取和管理大大量數(shù)據(jù)的理理想環(huán)境,而而數(shù)據(jù)倉庫系系統(tǒng)的建立是是一個(gè)由數(shù)據(jù)據(jù)驅(qū)動(dòng)、以技技術(shù)支撐并滿滿足應(yīng)用需求求的不斷增長(zhǎng)長(zhǎng)和完善的開開發(fā)過程。因因此數(shù)據(jù)倉庫庫的設(shè)計(jì)可以以從數(shù)據(jù)、技技術(shù)和應(yīng)用三三方面展開,,其基本框架架如圖13-13所示基本框架的各各部分描述如如下:項(xiàng)目計(jì)劃。項(xiàng)項(xiàng)目計(jì)劃是指指定義創(chuàng)建數(shù)數(shù)據(jù)倉庫的項(xiàng)項(xiàng)目目標(biāo)和確確定項(xiàng)目范圍圍,包括對(duì)項(xiàng)項(xiàng)目計(jì)劃的評(píng)評(píng)估和流程的的調(diào)整。業(yè)務(wù)需求分析析。業(yè)務(wù)需求求分析是數(shù)據(jù)據(jù)倉庫中一個(gè)個(gè)很重要的階階段,好的業(yè)業(yè)務(wù)需求分析析會(huì)使項(xiàng)目成成功的機(jī)率大大大增加。數(shù)據(jù)線。數(shù)據(jù)據(jù)線的實(shí)施可可以分為模型型設(shè)計(jì)、物理理設(shè)計(jì)、數(shù)據(jù)據(jù)處理三個(gè)步步驟,用以滿滿足對(duì)數(shù)據(jù)的的有效組織和和管理。技術(shù)線。技術(shù)術(shù)線的實(shí)施分分為技術(shù)選擇擇和產(chǎn)品選擇擇兩個(gè)步驟。。如何采用合合理有效的技技術(shù)是實(shí)現(xiàn)一一個(gè)好的數(shù)據(jù)據(jù)倉庫系統(tǒng)的的基本條件。。應(yīng)用線。應(yīng)用用線的實(shí)施分分為應(yīng)用設(shè)計(jì)計(jì)和應(yīng)用開發(fā)發(fā)兩個(gè)步驟。。數(shù)據(jù)倉庫的的建立最終是是為應(yīng)用服務(wù)務(wù)的,所以需需要對(duì)應(yīng)用進(jìn)進(jìn)行設(shè)計(jì)和開開發(fā),以更好好地滿足用戶戶的需要。運(yùn)行維護(hù)。數(shù)數(shù)據(jù)倉庫建成成后就進(jìn)入運(yùn)運(yùn)行維護(hù),在在運(yùn)行中要不不斷驗(yàn)證評(píng)價(jià)價(jià)分析設(shè)計(jì)是是否符合用戶戶需求,產(chǎn)生生出新的分析析要求及時(shí)反反饋回需求分分析,進(jìn)行系系統(tǒng)設(shè)計(jì)的改改進(jìn)。①數(shù)據(jù)線路::模型設(shè)計(jì)。該該階段的主要要任務(wù)是進(jìn)行行數(shù)據(jù)倉庫的的邏輯設(shè)計(jì),,包括選擇合合適的主題,,確定事實(shí)表表、相關(guān)的維維、屬性和粒粒度劃分,設(shè)設(shè)計(jì)正確的表表結(jié)構(gòu)和主鍵鍵、外鍵關(guān)系系等。模型設(shè)設(shè)計(jì)主要包括括四個(gè)基本步步驟:確定合合適的主題、、劃分粒度層層次、設(shè)計(jì)維維表和設(shè)計(jì)事事實(shí)表。物理設(shè)計(jì)。物物理設(shè)計(jì)的主主要任務(wù)是定定義支持模型型設(shè)計(jì)必需的的物理結(jié)構(gòu)。。其過程包括括以下三個(gè)方方面:確定物物理存儲(chǔ)結(jié)構(gòu)構(gòu);確定索引引策略;確定定存儲(chǔ)分配。。數(shù)據(jù)預(yù)處理。。數(shù)據(jù)預(yù)處理理是數(shù)據(jù)倉庫庫設(shè)計(jì)工程中中非常重要的的過程,它由由三個(gè)主要步步驟組成:抽抽?。‥xtraction)、轉(zhuǎn)轉(zhuǎn)換(Transformation)、加載載(Load),簡(jiǎn)稱ETL。②技術(shù)線路::技術(shù)路線包括括技術(shù)選擇和和產(chǎn)品選擇兩兩步。在數(shù)據(jù)據(jù)倉庫建立的的過程中會(huì)遇遇到一些新的的特定的問題題,如管理大大量數(shù)據(jù)的需需求,如何對(duì)對(duì)數(shù)據(jù)進(jìn)行快快速和方便的的訪問等。為為解決這些問問題人們采用用了新的技術(shù)術(shù)。技術(shù)選擇。技技術(shù)體系選擇擇必須從為這這些技術(shù)建立立全局的結(jié)構(gòu)構(gòu)框架和視角角出發(fā),選擇擇中需要同時(shí)時(shí)考慮三個(gè)因因素:商業(yè)需需求、當(dāng)前的的技術(shù)環(huán)境、、計(jì)劃的策略略技術(shù)方向。。產(chǎn)品選擇。技技術(shù)體系確定定以后需要選選擇實(shí)現(xiàn)數(shù)據(jù)據(jù)倉庫應(yīng)用的的各種產(chǎn)品,,包括硬件平平臺(tái)、ETL工具、OLAP服務(wù)器器、數(shù)據(jù)展現(xiàn)現(xiàn)工具等,并并進(jìn)行產(chǎn)品的的安裝和測(cè)試試。③應(yīng)用線路::應(yīng)用設(shè)計(jì)和開開發(fā)的一個(gè)有有效辦法是針針對(duì)不同的用用戶需求,設(shè)設(shè)計(jì)和實(shí)現(xiàn)標(biāo)標(biāo)準(zhǔn)的用戶應(yīng)應(yīng)用模板,提提供給用戶高高效的接入方方式。應(yīng)用路路線包括應(yīng)用用設(shè)計(jì)和應(yīng)用用開發(fā)兩步。。應(yīng)用設(shè)計(jì)。應(yīng)應(yīng)用設(shè)計(jì)的任任務(wù)是設(shè)計(jì)標(biāo)標(biāo)準(zhǔn)的用戶應(yīng)應(yīng)用模板。應(yīng)應(yīng)用設(shè)計(jì)的過過程一般包括括:確定初始始的模板集、、設(shè)計(jì)模板的的標(biāo)準(zhǔn)、設(shè)計(jì)計(jì)詳細(xì)模板、、最后通過用用戶反饋進(jìn)行行改進(jìn)。應(yīng)用開發(fā)。應(yīng)應(yīng)用開發(fā)是通通過應(yīng)用設(shè)計(jì)計(jì)說明書,按按照標(biāo)準(zhǔn)的軟軟件開發(fā)流程程,實(shí)現(xiàn)模板板的設(shè)計(jì)。應(yīng)應(yīng)用開發(fā)的一一般過程是選選擇實(shí)現(xiàn)的方方法,然后進(jìn)進(jìn)行模板的實(shí)實(shí)現(xiàn)、測(cè)試和和數(shù)據(jù)驗(yàn)證,,最后是應(yīng)用用模板的維護(hù)護(hù)。2聯(lián)機(jī)分析析處理OLAP專門門用于支持復(fù)復(fù)雜的決策分分析,是支持持信息管理和和業(yè)務(wù)管理人人員決策活動(dòng)動(dòng)的一種決策策分析工具。。它可以根據(jù)據(jù)分析人員的的要求,迅速速、靈活地對(duì)對(duì)大量數(shù)據(jù)進(jìn)進(jìn)行復(fù)雜的查查詢處理,并并且以直觀的的、容易理解解的形式將查查詢結(jié)果提供供給各種決策策人員,使他他們迅速、準(zhǔn)準(zhǔn)確地掌握企企業(yè)的運(yùn)營(yíng)情情況,了解市市場(chǎng)的需求。。(1)聯(lián)機(jī)機(jī)分析處理理的定義OLAP委委員會(huì)的定定義:OLAP是使使分析人員員、管理人人員或執(zhí)行行人員能夠夠從多種角角度對(duì)從原原始數(shù)據(jù)中中轉(zhuǎn)化出來來的、能夠夠真正為用用戶所理解解的、并真真實(shí)反映企企業(yè)維特性性的信息進(jìn)進(jìn)行快速、、一致、交交互地存取取,從而獲獲得對(duì)數(shù)據(jù)據(jù)的更深入入了解的一一類軟件技技術(shù)。OLAP的目目標(biāo)是滿足足決策支持持或多維環(huán)環(huán)境特定的的查詢和報(bào)報(bào)表需求,,它的技術(shù)術(shù)核心是““維”這個(gè)個(gè)概念,因因此OLAP也可以以說是多維維數(shù)據(jù)分析析工具的集集合。聯(lián)機(jī)分析技技術(shù)具有如如下特點(diǎn)::一是在線線(On-Line),表現(xiàn)現(xiàn)為對(duì)用戶戶請(qǐng)求的快快速響應(yīng)和和交互操作作,它的實(shí)實(shí)現(xiàn)是由客客戶機(jī)/服服務(wù)器體系系結(jié)構(gòu)完成成的;二是是多維分析析(Multi-Analysis),這也是是OLAP技術(shù)的核核心所在。。具有以下優(yōu)優(yōu)點(diǎn):① 快速性性:用戶對(duì)對(duì)OLAP的快速反反應(yīng)能力有有很高的要要求,主要要是指計(jì)算算機(jī)的計(jì)算算的反應(yīng)速速度,系統(tǒng)統(tǒng)應(yīng)能在5秒內(nèi)對(duì)用用戶的大部部分分析要要求做出反反應(yīng),但對(duì)對(duì)業(yè)務(wù)數(shù)據(jù)據(jù)的實(shí)時(shí)信信息卻很難難反應(yīng)。② 可分析析性:OLAP系統(tǒng)統(tǒng)應(yīng)能處理理與應(yīng)用有有關(guān)的任何何邏輯分析析和統(tǒng)計(jì)分分析。③ 多維性性:多維性性是OLAP的關(guān)鍵鍵屬性。系系統(tǒng)必須提提供對(duì)數(shù)據(jù)據(jù)的多維視視圖和分析析,包括對(duì)對(duì)層次維和和多重層次次維的完全全支持。④信信息息性性::不不論論數(shù)數(shù)據(jù)據(jù)量量有有多多大大,,也也不不管管數(shù)數(shù)據(jù)據(jù)存存儲(chǔ)儲(chǔ)在在何何處處,,OLAP系系統(tǒng)統(tǒng)應(yīng)應(yīng)能能及及時(shí)時(shí)獲獲得得信信息息,,并并且且管管理理大大容容量量信信息息。。(2))OLAP的的數(shù)數(shù)據(jù)據(jù)組組織織數(shù)據(jù)據(jù)倉倉庫庫、、OLAP都都以以多多維維數(shù)數(shù)據(jù)據(jù)模模型型為為基基礎(chǔ)礎(chǔ)。。多多維維數(shù)數(shù)據(jù)據(jù)模模型型是是數(shù)數(shù)據(jù)據(jù)分分析析時(shí)時(shí)用用戶戶的的數(shù)數(shù)據(jù)據(jù)視視圖圖,,是是面面向向分分析析的的數(shù)數(shù)據(jù)據(jù)模模型型,,可可以以給給分分析析人人員員提提供供多多種種觀觀察察的的視視角角和和面面向向分分析析的的操操作作。。該該模模型型將將數(shù)數(shù)據(jù)據(jù)看看作作多多維維的的數(shù)數(shù)據(jù)據(jù)方方體體。。①維維是是人人們們觀觀察察數(shù)數(shù)據(jù)據(jù)的的特特定定角角度度。。人們們觀觀察察數(shù)數(shù)據(jù)據(jù)的的某某個(gè)個(gè)特特定定角角度度還還可可以以存存在在細(xì)細(xì)節(jié)節(jié)程程度度不不同同的的多多個(gè)個(gè)描描述述方方面面,,稱稱為為維維的的層層次次((Hierarchy))。。一一個(gè)個(gè)數(shù)數(shù)據(jù)據(jù)維維又又可可以以包包含含一一個(gè)個(gè)或或多多個(gè)個(gè)層層次次維的的一一個(gè)個(gè)取取值值成成為為該該維維的的一一個(gè)個(gè)維維成成員員((Member)),,是是數(shù)數(shù)據(jù)據(jù)項(xiàng)項(xiàng)在在某某維維中中位位置置的的描描述述。。如如前前例例中中所所述述的的每每個(gè)個(gè)工工廠廠、、每每段段時(shí)時(shí)間間、、每每種種產(chǎn)產(chǎn)品品都都是是它它們們所所屬屬維維的的一一個(gè)個(gè)維維成成員員。。②立立方方體體和和超超立立方方(Cube)多維維數(shù)數(shù)據(jù)據(jù)模模型型的的數(shù)數(shù)據(jù)據(jù)結(jié)結(jié)構(gòu)構(gòu)可可以以用用這這樣樣來來一一個(gè)個(gè)多多維維數(shù)數(shù)組組來來表表示示:(維維1,,維維2,,………………維維n,,度度量量值值),,例例如如:商商品品銷銷售售數(shù)數(shù)據(jù)據(jù)是是按按時(shí)時(shí)間間、、地地區(qū)區(qū)、、商商品品種種類類,,加加上上度度量量““銷銷售售額額””組組成成的的一一個(gè)個(gè)三三維維數(shù)數(shù)組組:(地地區(qū)區(qū),,時(shí)時(shí)間間,,商商品品種種類類,,銷銷售售額額)。。三三維維數(shù)數(shù)組組可可以以用用一一個(gè)個(gè)立立方方體體來來直直觀觀的的表表示示。。一一般般地地多多維維數(shù)數(shù)組組用用多多維維立立方方體體來來表表示示,,但但數(shù)數(shù)據(jù)據(jù)立立方方體體并并不不一一定定限限于于三三維維,,因因此此又又稱稱為為超超立立方方②立立方方體體和和超超立立方方(Cube)數(shù)據(jù)據(jù)立立方方體體方方法法的的基基本本思思想想是是實(shí)實(shí)現(xiàn)現(xiàn)某某些些常常用用的的代代價(jià)價(jià)較較高高的的聚聚集集函函數(shù)數(shù)的的計(jì)計(jì)算算,,諸諸如如計(jì)計(jì)數(shù)數(shù)、、求求和和、、平平均均、、最最大大值值等等,,并并將將這這些些實(shí)實(shí)現(xiàn)現(xiàn)視視圖圖儲(chǔ)儲(chǔ)存存在在多多維維數(shù)數(shù)據(jù)據(jù)庫庫中中。。因因?yàn)闉楹芎芏喽嗑劬奂瘮?shù)數(shù)需需經(jīng)經(jīng)常常重重復(fù)復(fù)計(jì)計(jì)算算,,所所以以在在多多維維數(shù)數(shù)據(jù)據(jù)立立方方體體中中存存放放預(yù)預(yù)先先計(jì)計(jì)算算好好的的結(jié)結(jié)果果將將能能保保證證快快速速響響應(yīng)應(yīng),,并并可可靈靈活活地地提提供供不不同同角角度度和和不不同同抽抽象象層層次次上上的的數(shù)數(shù)據(jù)據(jù)視視圖圖。。在在數(shù)數(shù)據(jù)據(jù)立立方方體體中中,,可可對(duì)對(duì)數(shù)數(shù)據(jù)據(jù)進(jìn)進(jìn)行行聚聚集集。。由由于于預(yù)預(yù)先先計(jì)計(jì)算算了了所所有有可可能能的的聚聚集集,,因因此此可可加加快快分分析析時(shí)時(shí)的的響響應(yīng)應(yīng)速速度度。。③多多維維數(shù)數(shù)據(jù)據(jù)集集的的度度量量值值多維維數(shù)數(shù)據(jù)據(jù)集集的的度度量量值值是是基基于于多多維維數(shù)數(shù)據(jù)據(jù)集集中中事事實(shí)實(shí)表表的的一一列列或或多多列列,,數(shù)數(shù)值值型型數(shù)數(shù)字字。。多多維維數(shù)數(shù)據(jù)據(jù)集集的的度度量量值值是是OLAP分分析析的的核核心心值值,,是是用用戶戶在在DW中中需需要要查查看看的的數(shù)數(shù)據(jù)據(jù),,一一般般是是銷銷售售量量、、成成本本、、費(fèi)費(fèi)用用等等。。④多多維維數(shù)數(shù)據(jù)據(jù)模模型型的的組組織織模模式式對(duì)于于三三維維以以上上的的數(shù)數(shù)據(jù)據(jù)方方體體,,很很難難用用可可視視化化的的方方式式直直觀觀地地表表示示出出來來。。為為此此人人們們用用較較形形象象的的星星型型模模式式和和雪雪花花模模式式來來描描述述多多維維數(shù)數(shù)據(jù)據(jù)模模型型。。a.星星型型模模式式星型型模模式式(starSchema)通通常常由由一一個(gè)個(gè)中中心心表表(事事實(shí)實(shí)表表)和和一一組組維維表表組組成成。。事事實(shí)實(shí)表表包包含含大大批批度度量量數(shù)數(shù)據(jù)據(jù)。。維維表表一一般般較較小小,,每每維維一一個(gè)個(gè)。。這這種種模模式式圖圖很很像像星星星星,,維維表表圍圍繞繞中中心心表表,,故故命命名名為為星星型型模模式式。。星型型模模型型是是數(shù)數(shù)據(jù)據(jù)倉倉庫庫最最常常見見的的模模型型范范例例。。星星型型模模型型包包括括兩兩部部分分::事實(shí)實(shí)表表————一一個(gè)個(gè)大大的的包包括括大大批批數(shù)數(shù)據(jù)據(jù)和和不不含含冗冗余余的的中中心心表表((包包括括用用于于分分析析的的測(cè)測(cè)量量指指和和連連接接維維的的鍵鍵,,例例如如總總銷銷售售量量、、月月銀銀行行存存款款額額、、貨貨運(yùn)運(yùn)量量等等))。。維表表————一一組組小小的的附附屬屬表表,,每每維維一一個(gè)個(gè)。。這這種種模模型型圖圖,,很很象象星星星星爆爆發(fā)發(fā)。。維維圖圖圍圍繞繞事事實(shí)實(shí)表表顯顯示示在在射射線線上上。。維維表表包包含含有有描描述述數(shù)數(shù)據(jù)據(jù)部部件件的的屬屬性性,,并并提提供供用用于于比比較較分分析析的的信信息息。。b.雪雪花花模模式式雪花花模模式式(SnowFlakeschema)是是星星型型模模式式的的變變種種。。在在某某些些維維表表中中,,屬屬性性列列不不是是基基本本數(shù)數(shù)據(jù)據(jù)項(xiàng)項(xiàng),,仍仍然然是是一一個(gè)個(gè)維維表表。。也也就就是是說說,,某某些些維維表表不不是是第第一一范范式式。。因因此此要要把把維維表表規(guī)規(guī)范范化化,,即即把把維維表表進(jìn)進(jìn)一一步步分分解解,,生生成成附附加加的的表表,,使使模模式式圖圖形形成成類類似似于于雪雪花花的的形形狀狀。。雪花模式和星星形模式的主主要不同在于于,冗余度小小,維表易于于維護(hù),并節(jié)節(jié)省存儲(chǔ)空間間,但是由于于執(zhí)行查詢需需要更多的連連接操作,雪雪花模式可能能降低查詢的的性能。(3)OLAP的多維分析多維分析是指指對(duì)以多維形形式組織起來來的數(shù)據(jù)采取取切片(Slice)、、切塊(Dice)、鉆鉆?。―rill-down和Roll-up)、旋轉(zhuǎn)((Pivot)等各種分分析動(dòng)作,以以求剖析數(shù)據(jù)據(jù),使用戶能能從多個(gè)角度度、多側(cè)面地地觀察數(shù)據(jù)庫庫中的數(shù)據(jù),,從而深入理理解包含在數(shù)數(shù)據(jù)中的信息息。①數(shù)據(jù)切片(slice)多維數(shù)據(jù)是由由多個(gè)維度組組成的,如果果在某一維度度上選定一個(gè)個(gè)取值,則n維多維數(shù)據(jù)據(jù)就從n維下下降成了n-l維,則稱稱多維數(shù)組的的子集為多維維數(shù)組在維度度i上的切片片。其作用在在于舍棄一些些觀察角度,,便于人們對(duì)對(duì)數(shù)據(jù)的集中中觀察。這種種切片數(shù)量取取決于維i上上的維成員個(gè)個(gè)數(shù)。②數(shù)據(jù)切塊(Dice)在多維數(shù)組的的某一維上選選定某一區(qū)間間的維成員的的動(dòng)作稱為切切塊。切塊可可以看成是若若干個(gè)切片的的疊加。例如如選定n維多多維數(shù)組(維維度1、維度度2、維度3、……維度度n,度量值值)中若干維維度(通常為為3個(gè)維度)的取值范圍圍,從而形成成該多維數(shù)據(jù)據(jù)的子集(維維度1、維度度2、維度3、……AI<維度i<Bl,………,A2<維維度j<B2,……A3<維度k<B4,………維度n,度度量值),即即為該多維數(shù)數(shù)組的一個(gè)切切塊。切片和切塊是是在一部分維維上選定值后后,關(guān)心度量量數(shù)據(jù)在剩余余維上的分布布。如果剩余余的維只有兩兩個(gè),則是切切片;如果有有三個(gè)或以上上,則是切塊塊。③數(shù)據(jù)聚合和鉆鉆取前面提到維度度是具有層次次性的,層次次性實(shí)際上反反映了數(shù)據(jù)的的綜合程度。。維度層次越越高,代表的的數(shù)據(jù)綜合度度越高,細(xì)節(jié)節(jié)越少,數(shù)據(jù)據(jù)量越少;維維度層次性越越低,則代表表的數(shù)據(jù)綜合合度越低,細(xì)細(xì)節(jié)越充分,,數(shù)據(jù)量越大大。數(shù)據(jù)聚合合和鉆取是在在維度層次上上互為逆操作作的兩種OLAP基本分分析動(dòng)作,是是改變維的層層次,變換分分析的粒度。。數(shù)據(jù)聚合是是對(duì)數(shù)據(jù)進(jìn)行行高層次綜合合的操作;是是在某一維上上將低層次的的細(xì)節(jié)數(shù)據(jù)概概括到高層次次的匯總數(shù)據(jù)據(jù),或者減少少維數(shù);數(shù)據(jù)據(jù)鉆取則是從從較高的維度度層次下降到到較低的維度度層次的操作作,它從匯總總數(shù)據(jù)深入到到細(xì)節(jié)數(shù)據(jù)進(jìn)進(jìn)行觀察或增增加新維。鉆鉆取的深度與與維所劃分的的層次相對(duì)應(yīng)應(yīng)。④旋轉(zhuǎn)旋轉(zhuǎn)即改變一一個(gè)報(bào)告或頁頁面顯示的維維方向。通過過旋轉(zhuǎn)可以得得到不同視角角的數(shù)據(jù)。例例如:旋轉(zhuǎn)可可能包含交換換行和列,或或是把某一個(gè)個(gè)行維移到列列維中去,或或把頁面顯示示中的一個(gè)維維和頁面外的的維進(jìn)行交換換。(4)OLAP系統(tǒng)的體系結(jié)結(jié)構(gòu)和分類數(shù)據(jù)倉庫與OLAP的關(guān)關(guān)系是互補(bǔ)的的,現(xiàn)代OLAP系統(tǒng)一一般以數(shù)據(jù)倉倉庫作為基礎(chǔ)礎(chǔ),即從數(shù)據(jù)據(jù)倉庫中抽取取詳細(xì)數(shù)據(jù)的的一個(gè)子集并并經(jīng)過必要的的聚集存儲(chǔ)到到OLAP存存儲(chǔ)器中供前前端分析工具具讀取。OLAP的具體體實(shí)現(xiàn)方案通通常采用三層層客戶/服務(wù)務(wù)器結(jié)構(gòu)。如如圖13-14所示。數(shù)據(jù)倉庫服務(wù)器OLAP服務(wù)器前端展示工具SQL查詢查詢結(jié)果請(qǐng)求返回結(jié)果返回結(jié)果SQL圖13-14OLAP三層客戶/服務(wù)器結(jié)構(gòu)數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)倉庫服務(wù)務(wù)器:實(shí)現(xiàn)和和基層運(yùn)營(yíng)數(shù)數(shù)據(jù)庫系統(tǒng)的的連接,完成成企業(yè)級(jí)數(shù)據(jù)據(jù)一致和數(shù)據(jù)據(jù)共享的工作作OLAP服務(wù)務(wù)器:根據(jù)最最終客戶的請(qǐng)請(qǐng)求實(shí)現(xiàn)分解解成OLAP分析的各種種分析動(dòng)作,,并使用DW中的數(shù)據(jù)完完成這些動(dòng)作作前端展示工具具:將OLAP服務(wù)器處處理得到的結(jié)結(jié)果用直觀的的方式展現(xiàn)給給最終用戶。。OLAP系統(tǒng)統(tǒng)按照其存儲(chǔ)儲(chǔ)器的數(shù)據(jù)存存儲(chǔ)格式可以以分為關(guān)系OLAP(RelationalOLAP,,簡(jiǎn)稱ROLAP)、多多維OLAP(MultidimensionalOLAP,簡(jiǎn)稱稱MOLAP)和混合型型OLAP((HybridOLAP,簡(jiǎn)稱HOLAP))三種類型。。DB圖13-15MOLAP結(jié)構(gòu)圖DBDBOLTP數(shù)據(jù)庫多維數(shù)據(jù)庫OLAP服務(wù)器OLAP客戶端分析數(shù)據(jù)MOLAPMOLAP利利用一個(gè)專有有的多維數(shù)據(jù)據(jù)庫來存儲(chǔ)OLAP分析析所需的數(shù)據(jù)據(jù),數(shù)據(jù)以多多維方式存儲(chǔ)儲(chǔ),并以多維維視圖方式顯顯示,其結(jié)構(gòu)構(gòu)如圖13-15所示。。MOLAP結(jié)結(jié)構(gòu)的主要優(yōu)優(yōu)點(diǎn)是它能迅迅速響應(yīng)決策策分析人員的的分析請(qǐng)求,,并快速地將將分析結(jié)果返返回給用戶,,這得益于它它獨(dú)特的多維維數(shù)據(jù)庫結(jié)構(gòu)構(gòu)以及存儲(chǔ)在在其中的預(yù)處處理程度很高高的數(shù)據(jù)(一一般預(yù)處理程程度在85%以上)。在在MOLAP結(jié)構(gòu)中,OLAP主要要是通過讀取取經(jīng)過預(yù)處理理的數(shù)據(jù)來完完成分析操作作,而這些預(yù)預(yù)處理操作是是預(yù)先定義好好的,這就限限制了MOLAP結(jié)構(gòu)的的靈活性。ROLAPROLAP在在功能上類似似于MOLAP,但是它它的底層數(shù)據(jù)據(jù)庫是關(guān)系數(shù)數(shù)據(jù)庫,而不不是多維數(shù)據(jù)據(jù)庫,其結(jié)構(gòu)構(gòu)如圖13-16所示。。DB圖13-16ROLAP結(jié)構(gòu)圖DBDBOLTP數(shù)據(jù)庫數(shù)據(jù)倉庫OLAP服務(wù)器OLAP客戶端分析數(shù)據(jù)ROLAP的的主要優(yōu)點(diǎn)是是它的靈活性性強(qiáng),用戶可可以動(dòng)態(tài)定義義統(tǒng)計(jì)或計(jì)算算方式。ROLAP的缺缺點(diǎn)是它對(duì)用用戶的分析請(qǐng)請(qǐng)求處理的時(shí)時(shí)間要比MOLAP長(zhǎng)。。MOLAP與與ROLAP是目前使用用最多的兩種種OLAP結(jié)結(jié)構(gòu),這兩種種結(jié)構(gòu)都能完完成相同的分分析功能。MOLAP采采用專用的多多維數(shù)據(jù)庫來來支持多維分分析功能,而而ROLAP則不需要用用專有的多維維數(shù)據(jù)庫來支支持多維分析析操作,它的的數(shù)據(jù)庫層采采用關(guān)系型數(shù)數(shù)據(jù)庫系統(tǒng)。。由于這兩種種結(jié)構(gòu)在各自自的數(shù)據(jù)庫層層采用的數(shù)據(jù)據(jù)庫系統(tǒng)不同同,從而導(dǎo)致致它們不同的的特點(diǎn)。由于MOLAP采用了新新的存儲(chǔ)結(jié)構(gòu)構(gòu),從物理層層實(shí)現(xiàn)起,因因此又稱為物物理OLAP(PhysicalOLAP));而ROLAP主要通通過一些軟件件工具或中間間軟件實(shí)現(xiàn),,物理層仍采采用關(guān)系數(shù)據(jù)據(jù)庫的存儲(chǔ)結(jié)結(jié)構(gòu),因此稱稱為虛擬OLAP(V
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年經(jīng)典的購銷合同6篇
- 2023年高考全國(guó)乙卷理科綜合真題(解析版)
- 2025年高中化學(xué)新教材同步 必修第一冊(cè) 第4章 第1節(jié) 研究與實(shí)踐3 認(rèn)識(shí)元素周期表
- 烹飪用具采購合同范本
- 無損檢測(cè)儀競(jìng)爭(zhēng)策略分析報(bào)告
- 庫房存儲(chǔ)合同范本
- 合伙人合同范本電子
- 個(gè)人自薦書范文
- 農(nóng)藝工中級(jí)模擬題+答案
- 雙方交貨合同范本寫
- 《木蘭詩》第二課時(shí)(公開課)課件
- 核電項(xiàng)目人橋吊車抗震計(jì)算書版
- 消防控制室值班記錄1
- 淺談簽證合同索賠培訓(xùn)課件
- 2023年江蘇經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試筆試題庫及答案解析
- 揭陽市基層診所醫(yī)療機(jī)構(gòu)衛(wèi)生院社區(qū)衛(wèi)生服務(wù)中心村衛(wèi)生室地址信息
- 晉中項(xiàng)目投決會(huì)報(bào)告
- 二年級(jí)下冊(cè)數(shù)學(xué)課件-1.3 分草莓 北師大版(共14張PPT)
- 2022年中小學(xué)心理健康教育指導(dǎo)綱要
- 高架橋梁混凝土工程專項(xiàng)施工方案
- 銀行案件風(fēng)險(xiǎn)排查實(shí)施細(xì)則
評(píng)論
0/150
提交評(píng)論