數(shù)據(jù)倉庫課件_第1頁
數(shù)據(jù)倉庫課件_第2頁
數(shù)據(jù)倉庫課件_第3頁
數(shù)據(jù)倉庫課件_第4頁
數(shù)據(jù)倉庫課件_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉庫(DataWarehouse)

演講人:沈國(guó)峰SQ10058253010

SQ10058253011

SQ10058253008

2010年12月14日

農(nóng)歷十一月初九從數(shù)據(jù)庫到數(shù)據(jù)倉庫數(shù)據(jù)倉庫的概念

數(shù)據(jù)倉庫的特征數(shù)據(jù)倉庫的商業(yè)價(jià)值數(shù)據(jù)倉庫的發(fā)展現(xiàn)狀及發(fā)展方向

內(nèi)容提要從數(shù)據(jù)庫到數(shù)據(jù)倉庫由數(shù)據(jù)庫(DB)發(fā)展到數(shù)據(jù)倉庫(DW)主要有以下幾點(diǎn)原因:

數(shù)據(jù)太多,信息貧乏(datarich,informationpoor):隨著數(shù)據(jù)庫技術(shù)的發(fā)展,企事業(yè)單位建立了大量的數(shù)據(jù)庫,數(shù)據(jù)越來越多,而輔助決策信息卻很貧乏,如何將大量的數(shù)據(jù)轉(zhuǎn)化為輔助決策信息成為了研究的熱點(diǎn)。異構(gòu)環(huán)境數(shù)據(jù)的轉(zhuǎn)換與共享:由于各類數(shù)據(jù)庫產(chǎn)品的增加,異構(gòu)環(huán)境的數(shù)據(jù)隨之增加,如何實(shí)現(xiàn)這些異構(gòu)環(huán)境數(shù)據(jù)的轉(zhuǎn)換和共享也成了研究的熱點(diǎn)。利用數(shù)據(jù)進(jìn)行事務(wù)處理轉(zhuǎn)變?yōu)槔脭?shù)據(jù)支持決策:數(shù)據(jù)庫用于事務(wù)處理,若要達(dá)到輔助決策,則需要更多的數(shù)據(jù),例如:如何利用歷史數(shù)據(jù)的分析來進(jìn)行預(yù)測(cè)。對(duì)大量數(shù)據(jù)的綜合得到宏觀信息等均需要大量的數(shù)據(jù)。就在數(shù)據(jù)倉庫的概念提出后的幾年時(shí)間內(nèi)就得到了迅速的發(fā)展,各種各樣的數(shù)據(jù)倉庫產(chǎn)品也不斷出現(xiàn)并陸續(xù)進(jìn)入市場(chǎng)。

目前市場(chǎng)上主流的數(shù)據(jù)倉庫產(chǎn)品有以下幾種:(BusinessObjects、Oracle、IBM、Sybase、Informix、NCR、Microsoft、SAS、CA)。

數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別1、數(shù)據(jù)庫用于事務(wù)處理,而數(shù)據(jù)倉庫則用于決策分析2、數(shù)據(jù)庫保持事務(wù)處理的當(dāng)前狀態(tài),而數(shù)據(jù)倉庫既保存過去

的數(shù)據(jù)也保存當(dāng)前的數(shù)據(jù)。3、數(shù)據(jù)倉庫的數(shù)據(jù)是大量數(shù)據(jù)庫的集成4、對(duì)數(shù)據(jù)庫的操作比較明確,操作數(shù)據(jù)量少;而對(duì)數(shù)據(jù)倉庫

的操作不明確,操作數(shù)據(jù)量大。數(shù)據(jù)庫與數(shù)據(jù)倉庫的詳細(xì)對(duì)比數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)倉庫面向應(yīng)用面向主題一個(gè)操作存取一個(gè)記錄一個(gè)操作存取一個(gè)集合數(shù)據(jù)是詳細(xì)的數(shù)據(jù)是綜合或提煉的數(shù)據(jù)非冗余數(shù)據(jù)時(shí)常冗余保存當(dāng)前數(shù)據(jù)保存過去和現(xiàn)在的數(shù)據(jù)操作頻繁相對(duì)不頻繁數(shù)據(jù)可更新數(shù)據(jù)幾乎不更新事務(wù)處理需要當(dāng)前數(shù)據(jù)決策分析需要過去和現(xiàn)在的數(shù)據(jù)重復(fù)地操作數(shù)據(jù)啟發(fā)式地操作數(shù)據(jù)很少有復(fù)雜計(jì)算很多復(fù)雜的計(jì)算操作需求事先可知操作需求臨時(shí)決定支持事務(wù)處理支持決策分析從OLTP到OLAP

On-LineTransactionProcessing聯(lián)機(jī)事務(wù)處理系統(tǒng)(OLTP)

也稱為面向交易的處理系統(tǒng),其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計(jì)算中心進(jìn)行處理,并在很短的時(shí)間內(nèi)給出處理結(jié)果。這樣做的最大優(yōu)點(diǎn)是可以即時(shí)地處理輸入的數(shù)據(jù),及時(shí)地回答。也稱為實(shí)時(shí)系統(tǒng)(RealtimeSystem)。衡量聯(lián)機(jī)事務(wù)處理系統(tǒng)的一個(gè)重要性能指標(biāo)是系統(tǒng)性能,具體體現(xiàn)為實(shí)時(shí)響應(yīng)時(shí)間(ResponseTime),即用戶在終端上送入數(shù)據(jù)之后,到計(jì)算機(jī)對(duì)這個(gè)請(qǐng)求給出答復(fù)所需要的時(shí)間。

OLTP數(shù)據(jù)庫旨在使事務(wù)應(yīng)用程序僅寫入所需的數(shù)據(jù),以便盡快處理單個(gè)事務(wù)。定義On-LineAnalysisProcessing聯(lián)機(jī)分析處理系統(tǒng)(OLTP)

聯(lián)機(jī)分析處理(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的。當(dāng)時(shí),Codd認(rèn)為聯(lián)機(jī)事務(wù)處理(OLTP)已不能滿足終端用戶對(duì)數(shù)據(jù)庫復(fù)雜查詢分析的需要,SQL對(duì)大數(shù)據(jù)庫進(jìn)行的簡(jiǎn)單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求,因此Codd提出了多維數(shù)據(jù)庫和多維分析的概念即OLAP。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果,OLAP的技術(shù)核心就是“維度”這個(gè)概念。定義ROLAP

各個(gè)軟件開發(fā)廠家見仁見智,其中一個(gè)流派,認(rèn)為可以沿用關(guān)系型數(shù)據(jù)庫來存儲(chǔ)多維數(shù)據(jù),于是,基于稀疏矩陣表示方法的星型結(jié)構(gòu)(starschema)就出現(xiàn)了。后來又演化出雪花結(jié)構(gòu)。為了與多維數(shù)據(jù)庫相區(qū)別,則把基于關(guān)系型數(shù)據(jù)庫的OLAP稱為RelationalOLAP,簡(jiǎn)稱ROLAP。MOLAPMuiltDimensionOLAP,簡(jiǎn)稱MOLAP,代表產(chǎn)品有Hyperion(原Arborsoftware)Essbase、MsOlap、oracleexpress等。立方體,頁,片的數(shù)據(jù)維=主鍵只存放一次,重復(fù)使用強(qiáng)制性保證數(shù)據(jù)完整性節(jié)省磁盤空間極容易地結(jié)合數(shù)據(jù)和公式支持共享的商業(yè)邏輯保證數(shù)據(jù)的一致性每一個(gè)單元都被索引因此有很高的存取效率1月2月3月芬達(dá)可樂雪碧北京上海南京ROLAP和MOLAP的功能區(qū)別Legacy/Operational/ExternalSystemsTransactionSystemsDecisionSupportSystemsKnowledgeWorkersStrategicTacticalWhat-IfAnalysisCustomizedApplicationsDrill&PivotAnalysisForecastingModelingTime-SeriesQuery&ReportingMOLAPROLAPMDBRDBMSDataCachelinkage運(yùn)籌帷幄,決勝千里。什么是數(shù)據(jù)倉庫?Adatawarehouseisasubject-oriented,integrated,nonvolatile,andtime-variantcollectionofdatainsupportofmanagement’sdecisions.數(shù)據(jù)倉庫之父——BillInmonsubject-oriented

主題:是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,如收入、客戶、銷售渠道等所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進(jìn)行組織的。integrated集成:是指數(shù)據(jù)倉庫中的信息不是從各個(gè)業(yè)務(wù)系統(tǒng)中簡(jiǎn)單抽取出來的,而是經(jīng)過一系列加工、整理和匯總,因此數(shù)據(jù)倉庫中的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。nonvolatile,是指一旦數(shù)據(jù)載入數(shù)據(jù)倉庫以后,一般很少進(jìn)行修改,更多的是對(duì)信息進(jìn)行訪問查詢操作。

time-variant是指數(shù)據(jù)倉庫內(nèi)的信息并不只是反映企業(yè)當(dāng)前的狀態(tài),而是記錄了從過去某一時(shí)刻到當(dāng)前各個(gè)階段的信息,通過這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來趨勢(shì)做出定量分析和預(yù)測(cè)。其他特點(diǎn):

數(shù)據(jù)倉庫的數(shù)據(jù)量很大:通常數(shù)據(jù)倉庫的數(shù)據(jù)量為10GB級(jí),相當(dāng)于一般數(shù)據(jù)庫(100M左右)的100倍,而且大型的數(shù)據(jù)倉庫更可以達(dá)到TB級(jí)的數(shù)據(jù)量。

數(shù)據(jù)倉庫中數(shù)據(jù)量的比重是:索引和綜合數(shù)據(jù)占2/3以上,而原始數(shù)據(jù)則占不到1/3,這和數(shù)據(jù)庫正好形成了鮮明的對(duì)比。

數(shù)據(jù)倉庫軟硬件要求較高:既需要一個(gè)巨大的硬件平臺(tái)又需要一個(gè)并行的數(shù)據(jù)庫系統(tǒng)。

粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別粒度級(jí)越小,細(xì)節(jié)程度越高,綜合程度越低,回答查詢的種類越多粒度影響數(shù)據(jù)倉庫中數(shù)據(jù)量的大小粒度問題是設(shè)計(jì)數(shù)據(jù)倉庫的一個(gè)重要方面粒度的選擇雙重粒度:大多數(shù)組織的最佳解決方法就是采用多重粒度級(jí)的形式短期儲(chǔ)存的低粒度(真實(shí)檔案),滿足細(xì)節(jié)查詢具有綜合的高粒度(輕度綜合),做分析,可以滿足綜合查詢?nèi)绾螜?quán)衡?企業(yè)面臨的挑戰(zhàn)適應(yīng)經(jīng)濟(jì)全球化趨勢(shì)面對(duì)激烈的和市場(chǎng)競(jìng)爭(zhēng)成本控制企業(yè)重組合并增長(zhǎng)的利率個(gè)性化需求越來越高定價(jià)問題日趨復(fù)雜開拓新的銷售渠道可用信息的收集客戶信息One-to-One客戶關(guān)系“豐富的數(shù)據(jù)…貧乏的信息”企業(yè)每天產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)都分散在企業(yè)的各處,如何獲取這些數(shù)據(jù),并將這些數(shù)據(jù)提煉成有意義的一致的信息成為了一種挑戰(zhàn)將數(shù)據(jù)變成企業(yè)資產(chǎn)數(shù)據(jù)倉庫的商業(yè)價(jià)值來源:ByWayneEckerson,SmartCampaniesinthe21stCentury數(shù)據(jù)倉庫化的過程數(shù)據(jù)倉庫支持的企業(yè)商業(yè)智能化過程(閉環(huán)的自學(xué)習(xí)過程)數(shù)據(jù)倉庫解決方案改善商業(yè)過程ImproveorRe-inventBusinessProcesses改善庫存管理自動(dòng)補(bǔ)給優(yōu)化渠道管理提高產(chǎn)品管理能力改善投資/供貨商的談判供應(yīng)鏈管理快速引進(jìn)和測(cè)量新的營(yíng)銷活動(dòng)、產(chǎn)品和服務(wù)改進(jìn)或再造業(yè)務(wù)過程

舉例

以銀行為例,數(shù)據(jù)倉庫可以在競(jìng)爭(zhēng)力、客戶、風(fēng)險(xiǎn)、利潤(rùn)、組織機(jī)構(gòu)等幾個(gè)方面對(duì)銀行產(chǎn)生影響。例如,銀行可以根據(jù)數(shù)據(jù)倉庫中的信息做出決策,應(yīng)對(duì)日益嚴(yán)峻的競(jìng)爭(zhēng),不斷革新業(yè)務(wù)和產(chǎn)品。銀行還可以利用數(shù)據(jù)倉庫分析傳統(tǒng)業(yè)務(wù)的發(fā)展趨勢(shì)、產(chǎn)品之間的差距和機(jī)會(huì)、銀行業(yè)務(wù)行為和績(jī)效、交叉銷售的機(jī)會(huì)、市場(chǎng)細(xì)分、交易渠道使用情況、競(jìng)爭(zhēng)對(duì)手的產(chǎn)品、合理的價(jià)格等。

一旦數(shù)據(jù)倉庫中的信息按照上述方式進(jìn)行組織,銀行就可以通過以下機(jī)會(huì)獲得業(yè)務(wù)優(yōu)勢(shì),如:市場(chǎng)促銷、產(chǎn)品客戶化、產(chǎn)品包裝、銀行業(yè)務(wù)評(píng)估、績(jī)效跟蹤、交叉銷售、風(fēng)險(xiǎn)管理、渠道使用情況、設(shè)定優(yōu)惠價(jià)格、競(jìng)爭(zhēng)對(duì)手聯(lián)盟、客戶份額預(yù)估、費(fèi)用預(yù)先確定等。數(shù)據(jù)倉庫應(yīng)用現(xiàn)狀

目前數(shù)據(jù)倉庫在很多企業(yè)中的應(yīng)用還是停留在完成了報(bào)表的生成和日常事務(wù)的分析,并沒有對(duì)數(shù)據(jù)進(jìn)行深人的挖掘,這樣并不能給銀行帶來真正的效益,也遠(yuǎn)遠(yuǎn)沒有發(fā)揮出數(shù)據(jù)倉庫的商業(yè)應(yīng)用價(jià)值。在對(duì)數(shù)據(jù)倉庫的應(yīng)用中還存在著一個(gè)問題,由于業(yè)務(wù)系統(tǒng)平臺(tái)不統(tǒng)一,依然有許多錯(cuò)綜復(fù)雜的數(shù)據(jù)互不關(guān)聯(lián),導(dǎo)致數(shù)據(jù)倉庫不能有效地發(fā)揮其作用。另外,數(shù)據(jù)倉庫的提出和應(yīng)用通常都是技術(shù)部門在其中扮演重要角色,業(yè)務(wù)部門參與的較少,但實(shí)際上,沒有業(yè)務(wù)部門與技術(shù)部門之間的很好協(xié)調(diào),數(shù)據(jù)倉庫是不可能應(yīng)用成功的。因?yàn)閿?shù)據(jù)倉庫技術(shù)是管理科學(xué)、計(jì)算機(jī)科學(xué)、網(wǎng)絡(luò)科學(xué)以及一系列分析手段的大融合。在我國(guó),由于現(xiàn)在對(duì)數(shù)據(jù)倉庫的分析還缺乏經(jīng)驗(yàn)。

數(shù)據(jù)倉庫在使用時(shí)很重要的一個(gè)問題是如何建立模型,而這要求使用者對(duì)相關(guān)的業(yè)務(wù)非常熟悉并具有相應(yīng)的管理和分析能力,否則得出的結(jié)論很可能是就無用的。數(shù)據(jù)倉庫發(fā)展方向

首先要統(tǒng)一信息系統(tǒng)的平臺(tái),采用統(tǒng)一的數(shù)據(jù)結(jié)構(gòu),在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)集成化方面。他將互連、轉(zhuǎn)換、復(fù)制、調(diào)度、監(jiān)控納入標(biāo)準(zhǔn)化的統(tǒng)一管理,使所有的數(shù)據(jù)都按相同的結(jié)構(gòu)集中存放在一起,以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論