版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、data warehouse overview2數(shù)據(jù)倉庫管理的歷史時期數(shù)據(jù)倉庫管理的歷史時期l人工管理方式: 這一時期是在20世紀(jì)50年代中期以前,這一階段的計算機(jī)應(yīng)用主要用于科學(xué)計算,外存只有紙帶、磁帶、卡片等,數(shù)據(jù)處理的方式基本上是批處理。這一時期數(shù)據(jù)管理的特點是:數(shù)據(jù)不保存;沒有專用的數(shù)據(jù)管理軟件,每個應(yīng)用都必須自己完成存儲結(jié)構(gòu)、存取方法、輸入輸入輸出等數(shù)據(jù)管理功能;一組數(shù)據(jù)對應(yīng)一個應(yīng)用,這使得程序之間可能有重復(fù)的數(shù)據(jù)。l 文件系統(tǒng)管理 這一階段在20世紀(jì)50年代后期至60年代中后期,計算機(jī)應(yīng)用開始用于信息管理,由于數(shù)據(jù)存儲、檢索和維護(hù)等需求,使得相應(yīng)的研究開展起來了,在硬件和軟件方面都
2、得到了發(fā)展,磁盤磁鼓出現(xiàn),操作系統(tǒng)也產(chǎn)生。這一時期數(shù)據(jù)管理的特點主要是: 數(shù)據(jù)保存,數(shù)據(jù)可以長期保存在磁盤上; 有操作系統(tǒng)的文件管理系統(tǒng),文件結(jié)構(gòu)化,數(shù)據(jù)的物理結(jié)構(gòu)和邏輯結(jié)構(gòu)有了區(qū)別; 有了存儲文件后,數(shù)據(jù)可以不再僅僅屬于某一個應(yīng)用,而能進(jìn)行一定程度的復(fù)用。 但文件系統(tǒng)在數(shù)據(jù)管理方面存在缺陷,表現(xiàn)在數(shù)據(jù)冗余度大,數(shù)據(jù)和程序之間缺乏獨立性,容易造成數(shù)據(jù)的不一致性。l 數(shù)據(jù)庫系統(tǒng)(60年代末開始)3數(shù)據(jù)倉庫的發(fā)展的動力數(shù)據(jù)倉庫的發(fā)展的動力l業(yè)務(wù)需求驅(qū)動主要是詳細(xì)的分析科學(xué)的經(jīng)營l市場活動的細(xì)化和實施等l數(shù)據(jù)驅(qū)動數(shù)據(jù)量不斷擴(kuò)大沒有數(shù)據(jù)倉庫等相關(guān)技術(shù)很難全面了解企業(yè)l項目驅(qū)動4數(shù)據(jù)倉庫定義數(shù)據(jù)倉庫定義
3、linmon的定義:datawarehouse is a subject-oriented,integrated,time-variant, and nonvolatile collection of data in support of managements decision making processl數(shù)據(jù)倉庫的特點數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的 數(shù)據(jù)倉庫的數(shù)據(jù)是集成的 數(shù)據(jù)倉庫的數(shù)據(jù)是與時間相關(guān)的 數(shù)據(jù)倉庫的數(shù)據(jù)是穩(wěn)定的 5簡單的數(shù)據(jù)倉庫架構(gòu)簡單的數(shù)據(jù)倉庫架構(gòu)6數(shù)據(jù)倉庫實際應(yīng)用例子數(shù)據(jù)倉庫實際應(yīng)用例子7數(shù)據(jù)集成數(shù)據(jù)集成l企業(yè)全面的經(jīng)營數(shù)據(jù)oltp分散在各個不同系統(tǒng)中(事件獨立)l銀行:卡
4、、儲蓄、信貸、會計、中間業(yè)務(wù)等等系統(tǒng)lboss增值業(yè)務(wù)財務(wù)l集成數(shù)據(jù)建立關(guān)聯(lián)l事件關(guān)聯(lián)(業(yè)務(wù)之間是相互關(guān)聯(lián))l客戶數(shù)據(jù)統(tǒng)一歷史數(shù)據(jù)l大量歷史數(shù)據(jù)的保存問題中國建設(shè)銀行一個中等規(guī)模的省產(chǎn)生每天的交易詳細(xì)記錄大約200m通常在業(yè)務(wù)系統(tǒng)中只保存當(dāng)日數(shù)據(jù)歷史數(shù)據(jù)查詢困難8數(shù)據(jù)倉庫數(shù)據(jù)處理流程數(shù)據(jù)倉庫數(shù)據(jù)處理流程數(shù)據(jù)格式檢查源數(shù)據(jù)清潔、抽取、轉(zhuǎn)換ods數(shù)據(jù)抽取、轉(zhuǎn)換裝載數(shù)據(jù)到dw裝載到olap報表展現(xiàn)業(yè)務(wù)系統(tǒng)數(shù)據(jù)/外部數(shù)據(jù)dw數(shù)據(jù)抽取、轉(zhuǎn)換dw數(shù)據(jù)生成報表裝載數(shù)據(jù)到ods分析性查詢9 etl簡述簡述10etl定義定義etl: extract-transform-load 數(shù)據(jù)抽?。╡xtract)、轉(zhuǎn)換
5、(transform)、裝載(load)的過程。 etl是bi/dw的核心和靈魂,按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價值,是負(fù)責(zé)完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉庫轉(zhuǎn)化的過程,是實施數(shù)據(jù)倉庫的重要步驟11etl應(yīng)用過程應(yīng)用過程l數(shù)據(jù)抽取 抽取主要是針對各個業(yè)務(wù)系統(tǒng)及不同網(wǎng)點的分散數(shù)據(jù),充分理解數(shù)據(jù)定義后,規(guī)劃需要的數(shù)據(jù)源及數(shù)據(jù)定義,制定可操作的數(shù)據(jù)源,制定增量抽取的定義。 (數(shù)據(jù)源和文件等多種形式)l數(shù)據(jù)傳輸 數(shù)據(jù)傳輸是通過網(wǎng)絡(luò)負(fù)責(zé)把遠(yuǎn)程的數(shù)據(jù)到本地目錄下。 12etl應(yīng)用過程應(yīng)用過程l數(shù)據(jù)的清洗和轉(zhuǎn)換 轉(zhuǎn)換主要是針對數(shù)據(jù)倉庫建立的模型,通過一系列的轉(zhuǎn)換來實現(xiàn)將數(shù)據(jù)從業(yè)務(wù)模型 到分析模型,通過內(nèi)建的庫函
6、數(shù)、自定義腳本或其他的擴(kuò)展方式,實現(xiàn)了各種復(fù)雜的 轉(zhuǎn)換,并且支持調(diào)試環(huán)境,清楚的監(jiān)控數(shù)據(jù)轉(zhuǎn)換的狀態(tài)。數(shù)據(jù)轉(zhuǎn)換是真正將源數(shù)據(jù)變?yōu)槟繕?biāo)數(shù)據(jù)的關(guān)鍵環(huán)節(jié),它包括數(shù)據(jù)格式轉(zhuǎn),換數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)匯總計算、數(shù)據(jù)拼接等等。 清洗主要是針對系統(tǒng)的各個環(huán)節(jié)可能出現(xiàn)的數(shù)據(jù)二義性、重復(fù)、不完整、違反業(yè)務(wù) 規(guī)則等問題,允許通過試抽取,將有問題的紀(jì)錄先剔除出來,根據(jù)實際情況調(diào)整相應(yīng) 的清洗操作。 13etl應(yīng)用過程應(yīng)用過程l數(shù)據(jù)加載入庫 數(shù)據(jù)加載主要是將經(jīng)過轉(zhuǎn)換和清洗的數(shù)據(jù)加載到數(shù)據(jù)倉庫里面,即入庫,可以通過數(shù)據(jù)文件直接裝載或直連數(shù)據(jù)庫的方式來進(jìn)行數(shù)據(jù)裝載,可以充分體現(xiàn)高效性letl調(diào)度 etl的調(diào)度控制方式有兩種:
7、自動方式 由系統(tǒng)每天定時或準(zhǔn)實時啟動后臺程序,自動完成數(shù)據(jù)倉庫etl處理流程。 手動方式 用戶可以通過前臺監(jiān)控平臺,對單個目標(biāo)或批量目標(biāo)進(jìn)行手工調(diào)度。 14etl應(yīng)用過程應(yīng)用過程l監(jiān)控 主要是監(jiān)控etl的整個過程,通過掃描etl各模塊的日志中的關(guān)鍵值,如記錄時間等信息與當(dāng)前的狀態(tài)作比較,如果超過某一個值,則認(rèn)為該模塊運行可能出現(xiàn)問提,應(yīng)告警。 15etl工具框架工具框架16olap簡述簡述17olap&oltp(on-line transaction processing)oltpolap用戶操作人員,低層管理人員決策人員,高級管理人員功能日常操作處理分析決策db 設(shè)計面向應(yīng)用面向主題
8、數(shù)據(jù)當(dāng)前的, 最新的細(xì)節(jié)的, 二維的分立的歷史的, 聚集的, 多維的集成的, 統(tǒng)一的存取讀/寫數(shù)十條記錄讀上百萬條記錄工作單位簡單的事務(wù)復(fù)雜的查詢用戶數(shù)上千個上百個db 大小100mb-gb100gb-tb18什么是什么是olap定義定義1 :olap(聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理)是針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。通過對信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進(jìn)行深入觀察。定義定義2 :olap(聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理) 是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實反映企業(yè)維特性的信息
9、進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。(olap委員會的定義)olap的目標(biāo)的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術(shù)核心是“維”這個概念,因此olap也可以說是多維數(shù)據(jù)分析工具的集合。19相關(guān)基本概念相關(guān)基本概念1.維:維:是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性,屬性集合構(gòu)成一個維(時間維、地理維等)。2.維的層次:維的層次:人們觀察數(shù)據(jù)的某個特定角度(即某個維)還可以存在細(xì)節(jié)程度不同的各個描述方面(時間維:日期、月份、季度、年)。3.維的成員:維的成員:維的一個取值。是數(shù)據(jù)項在某維中位置的描述。(“某年某月某日”是在時間維上位置的
10、描述)4.多維數(shù)組:多維數(shù)組:維和變量的組合表示。一個多維數(shù)組可以表示為:(維1,維2,維n,變量)。(時間,地區(qū),產(chǎn)品,銷售額)5.數(shù)據(jù)單元數(shù)據(jù)單元(單元格單元格):多維數(shù)組的取值。(2000年1月,上海,筆記本電腦,$100000)20olap特性特性(1)(1)快速性快速性: :用戶對olap的快速反應(yīng)能力有很高的要求。系統(tǒng)應(yīng)能在5秒內(nèi)對用戶的大部分分析要求做出反應(yīng)。(2)(2)可分析性可分析性: :olap系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計分析。(3)(3)多維性多維性: :多維性是olap的關(guān)鍵屬性。系統(tǒng)必須提供對數(shù)據(jù)的多維視圖和分析,包括對層次維和多重層次維的完全支持。(4
11、)(4)信息性信息性: :不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲在何處,olap系統(tǒng)應(yīng)能及時獲得信息,并且管理大容量信息。21olap表現(xiàn)方式表現(xiàn)方式l鉆取改變維的層次,變換分析的粒度向上鉆?。╮oll up)和向下鉆?。╠rill down)l切片和切塊在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布如果剩余的維只有兩個,則是切片;如果有三個,則是切塊l旋轉(zhuǎn)(pivot)旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換)22olap的分析方法的分析方法(一一)切片、切塊切片、切塊23olap的分析方法的分析方法(二二)鉆取鉆取按時間維向下鉆取按時間維向上鉆取6024olap的分析方法
12、的分析方法(三三)旋轉(zhuǎn)旋轉(zhuǎn)25olap分類分類按照存儲方式olapmolapholaprolap按照處理地點client olapserver olap26olap實現(xiàn)方法實現(xiàn)方法lrolap數(shù)據(jù)存儲:基于關(guān)系數(shù)據(jù)庫結(jié)構(gòu)分類l事實表:用來存儲數(shù)據(jù)和維關(guān)鍵字l維度表:每個維至少使用一個表來存放維的層次、成員類別等維的描述信息 數(shù)據(jù)模型l星型模式l雪花模式 lmolap(multidimensional olap)數(shù)據(jù)存儲:使用多維數(shù)組存儲數(shù)據(jù)l基于多維數(shù)據(jù)組織的olap實現(xiàn)l以多維數(shù)據(jù)組織方式為核心結(jié)構(gòu)分類:l立方塊(cube)lholap(hybrid olap)數(shù)據(jù)存儲:基于混合數(shù)據(jù)組織的o
13、lap實現(xiàn)l其他實現(xiàn)方法27oltp、rolap與與molap模式模式28rolap的的星型模式星型模式(star schema)l事實表:用來存儲事實的度量值和各個維的碼值。l維 表:用來存放維的元數(shù)據(jù)(維的層次、成員類別等描述信息)。time_idsales tablediscount%dollarsunitsfact tablemarket_idproduct_idscenarioproduct_idproduct tablesizebrandproduct_descdimension tabletime_idyearquarterperiod_descperiod tabledimen
14、sion tablescenario tableactualprofitscenariodimension tablemarket_idmarket tableregiondistrictmarket_descdimension table29molap的多維立方體的多維立方體(multicube)30rolap與與molap比較比較lrolap優(yōu)勢沒有大小限制現(xiàn)有的關(guān)系數(shù)據(jù)庫的技術(shù)可以沿用.可以通過sql實現(xiàn)詳細(xì)數(shù)據(jù)與概要數(shù)據(jù)的存儲現(xiàn)有關(guān)系型數(shù)據(jù)庫已經(jīng)對olap做了很多優(yōu)化,包括并行存儲、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、sql 的olap擴(kuò)展(cube,rollup)等
15、大大提高roalp的速度lmolap優(yōu)勢性能好、響應(yīng)速度快專為olap所設(shè)計支持高性能的決策支持計算l復(fù)雜的跨維計算l多用戶的讀寫操作l行級的計算31rolap與與molap比較比較(續(xù)續(xù))lrolap缺點一般比mdd響應(yīng)速度慢不支持有關(guān)預(yù)計算的讀寫操作sql無法完成部分計算l無法完成多行的計算l無法完成維之間的計算lmolap缺點增加系統(tǒng)復(fù)雜度,增加系統(tǒng)培訓(xùn)與維護(hù)費用受操作系統(tǒng)平臺中文件大小的限制,難以達(dá)到tb 級(只能1020g)需要進(jìn)行預(yù)計算,可能導(dǎo)致數(shù)據(jù)爆炸無法支持維的動態(tài)變化缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問的標(biāo)準(zhǔn)32olap體系結(jié)構(gòu)體系結(jié)構(gòu)lrolap architecture lmolap
16、architecture sql result setinfo.requestresult setdatabase server r dbmsfront-end toolroalp architecturerolap servermetadatarequestprocessingsql result setinfo.requestresult setloaddatabase server rdbmsfront-end toolmoalp architecturemolap servermetadatarequestprocessing33olap體系結(jié)構(gòu)體系結(jié)構(gòu)(續(xù)續(xù))lholap archi
17、tectureresult setorsql querysql result setinfo.requestresult setloaddatabase server rdbmsfront-end toolhybrid architecturemolap server34流行流行的的olap工具介紹工具介紹lolap產(chǎn)品lhyperion essbaseloracle expresslibm db2 olap serverlsybase power dimension linformix metacubelca olap serverlmicrosoft analysis serviceslbriolcognoslbusiness objectlmicrostrategy lolap產(chǎn)品涉及的業(yè)務(wù)操作由外部或內(nèi)部數(shù)據(jù)源批量裝入數(shù)據(jù)由業(yè)務(wù)系統(tǒng)增量裝入數(shù)據(jù)沿數(shù)據(jù)層次匯總數(shù)據(jù)對基于業(yè)務(wù)模型的新數(shù)據(jù)進(jìn)行計算時間序列分析高復(fù)雜的查詢沿數(shù)據(jù)層次細(xì)化分析隨機(jī)查詢多個聯(lián)機(jī)會話(多用戶同時訪問)35olap展望展望l面向?qū)ο蟮穆?lián)機(jī)分析處理o3lap(object-oriented olap)l對象關(guān)系的聯(lián)機(jī)分析處理orolap (object relational olap)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新工地人防工程施工方案
- 陽光棚施工措施方案
- 消防小屋改造施工方案
- 中國單邊包邊機(jī)項目投資可行性研究報告
- 2025年中國光伏農(nóng)業(yè)行業(yè)市場全景監(jiān)測及投資前景展望報告
- 中國多功能標(biāo)準(zhǔn)試塊項目投資可行性研究報告
- 2025年中國拋光打磨機(jī)器行業(yè)市場前景預(yù)測及投資戰(zhàn)略研究報告
- 糖果美食課程設(shè)計方案
- 液體肥料運輸安全協(xié)議
- 酒店式公寓裝修主材代購
- MOOC 有機(jī)化學(xué)(上)-北京師范大學(xué) 中國大學(xué)慕課答案
- 《風(fēng)電場項目經(jīng)濟(jì)評價規(guī)范》(NB-T 31085-2016)
- 個人養(yǎng)老金:是什么、怎么繳、如何領(lǐng)PPT個人養(yǎng)老金基礎(chǔ)知識培訓(xùn)PPT課件(帶內(nèi)容)
- 雞鴨屠宰生產(chǎn)企業(yè)安全風(fēng)險分級管控資料
- 醫(yī)院感染管理組織架構(gòu)圖
- 《工程招投標(biāo)與合同管理》題庫試題及答案 共5套試卷
- 離子色譜法分析氯化物原始記錄 (1)
- 高等數(shù)學(xué)說課稿PPT課件(PPT 49頁)
- 造影劑腎病概述和性質(zhì)
- 單片機(jī)交通燈系統(tǒng)設(shè)計報告
- 標(biāo)桿房企人力資源體系研究之龍湖
評論
0/150
提交評論