錄屏2022上半年dbms原理與設(shè)計課件2daba warehouse_第1頁
錄屏2022上半年dbms原理與設(shè)計課件2daba warehouse_第2頁
錄屏2022上半年dbms原理與設(shè)計課件2daba warehouse_第3頁
錄屏2022上半年dbms原理與設(shè)計課件2daba warehouse_第4頁
錄屏2022上半年dbms原理與設(shè)計課件2daba warehouse_第5頁
已閱讀5頁,還剩93頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1數(shù)據(jù)倉庫2本講內(nèi)容1從數(shù)據(jù)庫到數(shù)據(jù)倉庫(WHY)2什么是數(shù)據(jù)倉庫(WHAT)3數(shù)據(jù)倉庫中的數(shù)據(jù)組織(HOW)4數(shù)據(jù)庫體系化環(huán)境5小結(jié)3

數(shù)據(jù)處理的兩種基本類型操作型(與業(yè)務(wù)活動關(guān)聯(lián))分析型(與決策活動關(guān)聯(lián))1從數(shù)據(jù)庫到數(shù)據(jù)倉庫(Why)4數(shù)據(jù)處理的兩種基本類型操作型處理也叫事務(wù)處理,是指對數(shù)據(jù)庫聯(lián)機(jī)的日常操作,通常是對一個或一組記錄的查詢和修改,主要是為企業(yè)的特定應(yīng)用服務(wù)的,人們關(guān)心的是響應(yīng)時間,數(shù)據(jù)的安全性和完整性。分析型處理則用于管理人員的決策分析。例如:DSS,EIS和多維分析等,經(jīng)常要訪問大量的歷史數(shù)據(jù)。兩者之間的巨大差異使得操作型處理和分析型處理的分離成為必然。5傳統(tǒng)的數(shù)據(jù)庫技術(shù) 傳統(tǒng)的數(shù)據(jù)庫技術(shù)是以單一的數(shù)據(jù)資源,即數(shù)據(jù)庫為中心,進(jìn)行從事務(wù)處理、批處理,到?jīng)Q策分析等各種類型的數(shù)據(jù)處理工作。

然而,不同類型的數(shù)據(jù)處理有著其不同的處理特點(diǎn),以單一的數(shù)據(jù)組織方式進(jìn)行組織的數(shù)據(jù)庫并不能反映這種差異,滿足不了數(shù)據(jù)處理多樣化的要求。6從數(shù)據(jù)庫到數(shù)據(jù)倉庫(Why)數(shù)據(jù)庫在操作型應(yīng)用中取得了巨大的成功數(shù)據(jù)庫已經(jīng)成為幾乎所有信息系統(tǒng)的基礎(chǔ)在事務(wù)處理方面的應(yīng)用獲得了巨大的成功經(jīng)歷了三代的發(fā)展造就了四位圖靈獎獲得者1973年:CharlesBachman——網(wǎng)狀數(shù)據(jù)庫1981年:EdgarCodd——關(guān)系型數(shù)據(jù)庫1998年:JimGray——事務(wù)處理2014年:MichaelStonebraer-商用數(shù)據(jù)庫積累了大量的業(yè)務(wù)數(shù)據(jù)(財富)7從數(shù)據(jù)庫到數(shù)據(jù)倉庫(Why)分析型應(yīng)用(DSS)數(shù)據(jù)庫三級模式體系結(jié)構(gòu)告訴我們,任何數(shù)據(jù)庫應(yīng)用都是建立在外模式之上的.傳統(tǒng)數(shù)據(jù)庫的即席查詢功能就可以支持DSS的需求DSS的重點(diǎn)放在模型與方法上,沒有考慮在數(shù)據(jù)庫管理系統(tǒng)層面上的支持8

事務(wù)處理環(huán)境不適宜DSS應(yīng)用的原因(1)事務(wù)處理和分析處理的性能特性不同(2)數(shù)據(jù)集成問題(3)數(shù)據(jù)動態(tài)集成問題(4)歷史數(shù)據(jù)問題(5)數(shù)據(jù)的綜合問題從數(shù)據(jù)庫到數(shù)據(jù)倉庫(Why)9

用戶的行為模式在事務(wù)處理環(huán)境中,數(shù)據(jù)的存取操作頻率高而每次操作處理的時間短在分析處理環(huán)境中,DSS應(yīng)用需要運(yùn)行時間長,消耗系統(tǒng)資源多(1)事務(wù)處理和分析處理的性能特性不同10

DSS需要的數(shù)據(jù):全面、集成相關(guān)數(shù)據(jù)收集得越完整結(jié)果就越可靠企業(yè)內(nèi)部數(shù)據(jù)企業(yè)外部數(shù)據(jù)競爭對手的數(shù)據(jù)…(2)數(shù)據(jù)集成問題11

事務(wù)處理的數(shù)據(jù):與本部門業(yè)務(wù)有關(guān)當(dāng)前數(shù)據(jù)對整個企業(yè)范圍內(nèi)的集成應(yīng)用考慮少當(dāng)前企業(yè)內(nèi)數(shù)據(jù)的狀況分散而非集成——這是事務(wù)處理環(huán)境所固有的事務(wù)處理應(yīng)用產(chǎn)生的細(xì)節(jié)數(shù)據(jù)不能成為統(tǒng)一的整體DSS應(yīng)用必須在應(yīng)用程序中進(jìn)行數(shù)據(jù)集成數(shù)據(jù)集成問題12

數(shù)據(jù)分散的原因事務(wù)處理應(yīng)用的分散“蜘蛛網(wǎng)”問題數(shù)據(jù)不一致問題外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)集成問題13

當(dāng)前企業(yè)事務(wù)處理應(yīng)用間是獨(dú)立的原因設(shè)計方面:為減少系統(tǒng)開發(fā)費(fèi)用和加快開發(fā)進(jìn)度,所采用的設(shè)計方案僅僅針對當(dāng)前問題,并且盡可能簡單而“有效”設(shè)計方案不能保證對以后新出現(xiàn)的問題繼續(xù)有效1)事務(wù)處理應(yīng)用的分散14

原因(續(xù))經(jīng)濟(jì)方面:經(jīng)費(fèi)有限系統(tǒng)的設(shè)計與實現(xiàn)采用“滾雪球”方式優(yōu)先為企業(yè)的關(guān)鍵業(yè)務(wù)活動建立MIS然后再逐步建立其他業(yè)務(wù)的MIS歷史和地理方面:大公司分散在各地企業(yè)兼并DSS應(yīng)用要對分散數(shù)據(jù)進(jìn)行集成,向分析人員提供統(tǒng)一的數(shù)據(jù)視圖事務(wù)處理應(yīng)用的分散15

DSS應(yīng)用的“抽取程序”:數(shù)據(jù)庫/文件數(shù)據(jù)庫/文件

數(shù)據(jù)庫/文件

…….用戶1.抽取程序

用戶2.抽取程序

蜘蛛網(wǎng)逐漸形成2)“蜘蛛網(wǎng)”問題16

問題:時間基準(zhǔn)不統(tǒng)一抽取算法不相同抽取級別也不相同參考不同的外部數(shù)據(jù)結(jié)果:導(dǎo)致對同一問題的分析,不同節(jié)點(diǎn)會產(chǎn)生不同的結(jié)果“蜘蛛網(wǎng)”問題17

多個應(yīng)用間數(shù)據(jù)不一致的常見形式:同一字段有不同數(shù)據(jù)類型同一字段具有不同的名字同名字段,不同含義

數(shù)據(jù)統(tǒng)一是一項很繁重的工作3)數(shù)據(jù)不一致問題18

外部數(shù)據(jù)源刊物發(fā)布的統(tǒng)計數(shù)據(jù)業(yè)界的技術(shù)報告市場比較和分析報告股票行情外部數(shù)據(jù)源的特點(diǎn):非結(jié)構(gòu)化數(shù)據(jù)4)外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)19

數(shù)據(jù)分散的原因小結(jié)事務(wù)處理應(yīng)用的分散“蜘蛛網(wǎng)”問題數(shù)據(jù)不一致問題外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)集成問題20DSS對數(shù)據(jù)集成有迫切需要數(shù)據(jù)集成是一項十分繁雜的工作,都交給應(yīng)用程序完成會大大增加程序員的負(fù)擔(dān)。如果每做一次分析,都要進(jìn)行一次這樣的集成,將會導(dǎo)致極低的處理效率。DSS對數(shù)據(jù)集成的迫切需要是數(shù)據(jù)倉庫技術(shù)出現(xiàn)的最重要動因

數(shù)據(jù)集成問題21

靜態(tài)集成:集成后不再與數(shù)據(jù)源發(fā)生聯(lián)系動態(tài)集成:以一定的周期(例如24小時)刷新集成數(shù)據(jù)(3)數(shù)據(jù)動態(tài)集成問題22

事務(wù)處理系統(tǒng)中的數(shù)據(jù)當(dāng)前數(shù)據(jù)短期數(shù)據(jù)決策分析的數(shù)據(jù)必須要?dú)v史數(shù)據(jù)(4)歷史數(shù)據(jù)問題23(5)數(shù)據(jù)的綜合問題DSS系統(tǒng)的分析對象一般不對細(xì)節(jié)數(shù)據(jù)進(jìn)行分析細(xì)節(jié)數(shù)據(jù)數(shù)量太大,會嚴(yán)重影響分析的效率太多的細(xì)節(jié)數(shù)據(jù)影響分析人員的注意力分析前需要對細(xì)節(jié)數(shù)據(jù)進(jìn)行不同程度的綜合事務(wù)處理系統(tǒng)的對象只關(guān)心細(xì)節(jié)數(shù)據(jù),不具備綜合能力綜合是一種數(shù)據(jù)冗余,需要加以限制24結(jié)論事務(wù)處理環(huán)境不適宜DSS應(yīng)用的原因(1)事務(wù)處理和分析處理的性能特性不同(2)數(shù)據(jù)集成問題(3)數(shù)據(jù)動態(tài)集成問題(4)歷史數(shù)據(jù)問題(5)數(shù)據(jù)的綜合問題

結(jié)論在操作型環(huán)境中直接構(gòu)建分析型應(yīng)用是一種失敗的嘗試需要將分析型處理數(shù)據(jù)和操作型處理數(shù)據(jù)分離25從數(shù)據(jù)庫到數(shù)據(jù)倉庫1從數(shù)據(jù)庫到數(shù)據(jù)倉庫2什么是數(shù)據(jù)倉庫3數(shù)據(jù)倉庫中的數(shù)據(jù)組織4數(shù)據(jù)庫體系化環(huán)境5小結(jié)26

不同的定義:“數(shù)據(jù)倉庫是作為DSS服務(wù)基礎(chǔ)的分析型DB,用來存放大容量的只讀數(shù)據(jù),為制定決策提供所需的信息。”“數(shù)據(jù)倉庫是與操作型系統(tǒng)相分離的、基于標(biāo)準(zhǔn)企業(yè)模型集成的、帶有時間屬性的(即與企業(yè)定義的時間區(qū)段相關(guān))、面向主題及不可更新的數(shù)據(jù)集合?!?什么是數(shù)據(jù)倉庫(What)27

操作型數(shù)據(jù)

分析型數(shù)據(jù)細(xì)節(jié)的綜合的,或提煉的在存取瞬間是準(zhǔn)確的代表過去的數(shù)據(jù)可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期對性能要求高對性能要求寬松一個時刻操作一單元一個時刻操作一集合事務(wù)驅(qū)動分析驅(qū)動面向應(yīng)用面向分析一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常操作支持管理需求操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別

28

數(shù)據(jù)倉庫數(shù)據(jù)的四個基本特征:

數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的

數(shù)據(jù)倉庫的數(shù)據(jù)是集成的

數(shù)據(jù)倉庫的數(shù)據(jù)是不可更新的

數(shù)據(jù)倉庫的數(shù)據(jù)是隨時間不斷變化的數(shù)據(jù)倉庫定義:數(shù)據(jù)倉庫就是一個用以更好地支持企業(yè)或組織的決策分析處理的、面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合2什么是數(shù)據(jù)倉庫(What)29

數(shù)據(jù)倉庫的第一個特征數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進(jìn)行組織的什么是主題主題是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象邏輯意義:對應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對象2.1主題與面向主題30

什么是較高層次是相對面向應(yīng)用的數(shù)據(jù)組織方式而言的是指按照主題進(jìn)行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級別面向主題的數(shù)據(jù)組織方式的特點(diǎn)是對分析對象的數(shù)據(jù)的一個完整、一致的描述能完整、統(tǒng)一地刻畫各個分析對象所涉及的企業(yè)的各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系主題與面向主題31

例:“會員制”商場按照業(yè)務(wù)處理要求,建立的數(shù)據(jù)庫模式:

采購子系統(tǒng):訂單(訂單號,供應(yīng)商號,總金額,日期)訂單細(xì)則(訂單號,商品號,類別,單價,數(shù)量)供應(yīng)商(供應(yīng)商號,供應(yīng)商名,地址,電話)

銷售子系統(tǒng):顧客(顧客號,姓名,性別,年齡,文化程度,地址,電話)銷售(員工號,顧客號,商品號,數(shù)量,單價,日期)面向主題與面向應(yīng)用的數(shù)據(jù)組織方式32

庫存管理子系統(tǒng):領(lǐng)料單(領(lǐng)料單號,領(lǐng)料人,商品號,數(shù)量,日期)進(jìn)料單(進(jìn)料單號,訂單號,進(jìn)料人,收料人,日期)庫存(商品號,庫房號,庫存量,日期)庫房(庫房號,倉庫管理員,地點(diǎn),庫存商品描述)

人事管理子系統(tǒng):員工(員工號,姓名,性別,年齡,文化程度,部門號)部門(部門號,部門名稱,部門主管,電話)面向主題與面向應(yīng)用的數(shù)據(jù)組織方式33

面向應(yīng)用進(jìn)行數(shù)據(jù)組織,需要對企業(yè)中相關(guān)的組織、部門等進(jìn)行詳細(xì)調(diào)查,收集數(shù)據(jù)庫的基礎(chǔ)數(shù)據(jù)及其處理的過程。調(diào)查的重點(diǎn)數(shù)據(jù)處理組織數(shù)據(jù)的依據(jù)企業(yè)的部門組織結(jié)構(gòu)企業(yè)各部門的業(yè)務(wù)活動特點(diǎn)傳統(tǒng)的面向應(yīng)用數(shù)據(jù)組織方式的特點(diǎn)34

數(shù)據(jù)組織應(yīng)反映一個企業(yè)內(nèi)數(shù)據(jù)的動態(tài)特征要表達(dá)每個部門的實際業(yè)務(wù)處理的數(shù)據(jù)流程輸入處理輸出組織數(shù)據(jù)的方式按照實際應(yīng)用即業(yè)務(wù)處理流程來組織組織數(shù)據(jù)的目標(biāo)提高OLTP應(yīng)用的速度和準(zhǔn)確性傳統(tǒng)的面向應(yīng)用數(shù)據(jù)組織方式的特點(diǎn)35

數(shù)據(jù)庫模式與實際的業(yè)務(wù)處理流程中所涉及的單據(jù)或文檔具有對應(yīng)關(guān)系從而可以較好在這些數(shù)據(jù)庫模式上建立起各項實際的應(yīng)用處理在有些應(yīng)用中,這種數(shù)據(jù)組織方式只是對企業(yè)業(yè)務(wù)活動所涉及的數(shù)據(jù)的存儲介質(zhì)的改變,即從紙介質(zhì)到磁介質(zhì)的轉(zhuǎn)變傳統(tǒng)的面向應(yīng)用數(shù)據(jù)組織方式的特點(diǎn)36

沒有體現(xiàn)數(shù)據(jù)庫這一概念提出的原本意圖:數(shù)據(jù)與數(shù)據(jù)處理的分離沒有將數(shù)據(jù)從數(shù)據(jù)處理或應(yīng)用中抽象出來,組織成一個和具體的應(yīng)用獨(dú)立的數(shù)據(jù)世界后果描述同一客觀實體的數(shù)據(jù)與不同的應(yīng)用邏輯捆綁在一起而變得不統(tǒng)一;一個完整的客觀實體的數(shù)據(jù)分散在不同的數(shù)據(jù)庫模式中;傳統(tǒng)的面向應(yīng)用數(shù)據(jù)組織方式的特點(diǎn)37

結(jié)論缺點(diǎn)抽象程度不夠高,數(shù)據(jù)與應(yīng)用沒有完全分離優(yōu)點(diǎn)能較好地將數(shù)據(jù)庫模式和企業(yè)的現(xiàn)實業(yè)務(wù)活動對應(yīng)起來,從而具有很好的操作性便于將企業(yè)原來的各項業(yè)務(wù)從手工處理的方式向計算機(jī)處理方式的轉(zhuǎn)變可以較好地支持OLTP傳統(tǒng)的面向應(yīng)用數(shù)據(jù)組織方式的特點(diǎn)38

步驟:

1、

抽取主題:按照分析的要求來確定

2、確定每個主題所應(yīng)包含的數(shù)據(jù)內(nèi)容例如:商場商品采購

在OLTP數(shù)據(jù)庫中,“訂單”“訂單細(xì)則”

“供應(yīng)商”三個數(shù)據(jù)庫模式清晰完整地描述了一筆采購業(yè)務(wù)所涉及的數(shù)據(jù)內(nèi)容,這是面向應(yīng)用來進(jìn)行數(shù)據(jù)組織的方式;在數(shù)據(jù)倉庫中,主要是進(jìn)行數(shù)據(jù)分析處理,商品采購時的分析活動主要是要了解各供應(yīng)商的情況,“供應(yīng)商”是采購分析時的分析對象。所以不需要組織象“訂單”和“訂單細(xì)則”這樣的數(shù)據(jù)庫模式,因為它們包含的是純操作型的數(shù)據(jù);但是僅僅只用OLTP數(shù)據(jù)庫的“供應(yīng)商”中的數(shù)據(jù)又是不夠的,因而要重新組織“供應(yīng)商”這么一個主題。面向主題的數(shù)據(jù)組織39

商品:商品固有信息:商品號,商品名,類別,顏色等;

商品采購信息:商品號,供應(yīng)商號,供應(yīng)價,供應(yīng)日期,供應(yīng)量等;

商品銷售信息:商品號,顧客號,售價,銷售日期,銷售量等;商品庫存信息:商品號,庫房號,庫存量,日期等;供應(yīng)商:供應(yīng)商固有信息:供應(yīng)商號,供應(yīng)商名,地址,電話等;

商品供應(yīng)信息:供應(yīng)商號,商品號,供應(yīng)價,供應(yīng)日期,供應(yīng)量等;顧客:顧客固有信息:顧客號,顧客名,性別,年齡,文化程度,住址,電話等;

顧客購物信息:顧客號,商品號,售價,購買日期,購買量等;

商場主題:供應(yīng)商、商品、顧客等40面向應(yīng)用到面向主題的轉(zhuǎn)變過程丟棄不必要的、不適于分析的信息把分散在各子系統(tǒng)中有關(guān)某一主題的信息組織起來,形成一個完整一致的描述41面向應(yīng)用到面向主題的轉(zhuǎn)變過程不同的主題之間內(nèi)容重疊:反映主題之間的直接聯(lián)系主題之間的重疊是邏輯上的重疊,不是同一數(shù)據(jù)內(nèi)容的重復(fù)物理存儲主題之間的重疊是細(xì)節(jié)級上的重疊,因為在不同的主題中的綜合方式是不同的。主題間的重疊并不是兩兩重疊。42商品供應(yīng)商顧客面向應(yīng)用到面向主題的轉(zhuǎn)變過程43基于多維數(shù)據(jù)庫基于關(guān)系數(shù)據(jù)庫主題在數(shù)據(jù)倉庫的實現(xiàn)44基于多維數(shù)據(jù)庫以多維數(shù)組形式存儲數(shù)據(jù)遇到的問題數(shù)據(jù)稀疏45

一個主題用一組關(guān)系表表示每個關(guān)系表都含有一個公共碼鍵,是主屬性一個主題的所有表通過公共碼鍵統(tǒng)一聯(lián)系起來基于關(guān)系數(shù)據(jù)庫46

例:主題:商品公共碼鍵:商品號商品表(商品號,商品名,類型,顏色…)/*描述的是商品的固有信息*/采購表1(商品號,供應(yīng)商號,供應(yīng)日期,供應(yīng)價,供應(yīng)日期,…)/*描述的是商品的采購細(xì)節(jié)*/基于關(guān)系數(shù)據(jù)庫示例47

采購表2(商品號,時間段,采購總量,…)/*某時間段內(nèi)商品采購信息*/……采購表n(商品號,…,…)/*時間段不等的采購綜合表*/銷售表1(商品號,顧客號,銷售日期,售價,銷售量,…)/*描述的是商品的銷售細(xì)節(jié)信息*/銷售表2(商品號,時間段,銷售總量,…)/*某時間段內(nèi)商品銷售信息*/……銷售表n(…,…)/*時間段不等的銷售綜合表*/48

庫存表1(商品號,庫房號,庫存量,日期,…)/*描述的是商品的庫存細(xì)節(jié)信息*/庫存表2(商品號,庫房號,庫存量,月份,…)/*每月月底的商品庫存信息*/…庫存表n(商品號,庫房號,…,…)/*時點(diǎn)不同的商品庫存信息*/…49

同一主題的不同的表:存儲在磁盤、磁帶、光盤等不同介質(zhì)中年代久遠(yuǎn)的、細(xì)節(jié)、查詢概率低存貯在廉價慢速設(shè)備上近期的、綜合、查詢概率高保存在快速存儲設(shè)備上

主題中表的存儲50

主題域:一個完備的分析領(lǐng)域獨(dú)立性:主題域必須具有獨(dú)立內(nèi)涵,要求有明確的界限,規(guī)定某項數(shù)據(jù)是否該屬于“商品”主題。完備性:主題內(nèi)包含任何對該主題對象的分析處理要求的一切內(nèi)容面向主題的數(shù)據(jù)組織51

主題的數(shù)據(jù)組織是一個在較高層次上對數(shù)據(jù)的抽象,可以獨(dú)立于數(shù)據(jù)的處理邏輯因而可以在此數(shù)據(jù)環(huán)境上方便地開發(fā)新的分析型應(yīng)用同時,這種獨(dú)立性也是建設(shè)企業(yè)全局?jǐn)?shù)據(jù)庫所要求的,所以面向主題不僅是適用于分析型數(shù)據(jù)環(huán)境的數(shù)據(jù)組織方式,同時也是適用于建設(shè)企業(yè)全局?jǐn)?shù)據(jù)庫的數(shù)據(jù)組織方式面向主題的數(shù)據(jù)組織52

集成的含義從原有的分散的數(shù)據(jù)庫數(shù)據(jù)中抽取、清洗得到從原有的分散的數(shù)據(jù)庫數(shù)據(jù)中綜合得到集成是數(shù)據(jù)倉庫建設(shè)中最關(guān)鍵、最復(fù)雜的步驟2.2特征二:數(shù)據(jù)是集成的53

集成需要解決的問題統(tǒng)一源數(shù)據(jù)中所有矛盾之處字段的同名異義字段的異名同義單位不統(tǒng)一字長不一致……進(jìn)行數(shù)據(jù)綜合和計算綜合時間:抽取數(shù)據(jù)時生成數(shù)據(jù)倉庫內(nèi)部生成特征二:數(shù)據(jù)是集成的54

數(shù)據(jù)倉庫的數(shù)據(jù)存放的是歷史數(shù)據(jù)基本操作是數(shù)據(jù)查詢,一般情況下并不進(jìn)行修改操作數(shù)據(jù)一旦超過存儲期限,可以刪除特征三:數(shù)據(jù)是不可更新的55

數(shù)據(jù)倉庫管理系統(tǒng)數(shù)據(jù)管理功能簡化數(shù)據(jù)查詢要求提高提高大數(shù)據(jù)量的查詢速度查詢界面友好性數(shù)據(jù)的直觀表示特征三:數(shù)據(jù)是不可更新的56特征四:隨時間不斷變化的數(shù)據(jù)倉庫中的數(shù)據(jù)不可更新是針對應(yīng)用而言的數(shù)據(jù)倉庫的用戶進(jìn)行分析處理時是不進(jìn)行數(shù)據(jù)更新操作的數(shù)據(jù)倉庫的數(shù)據(jù)是隨時間的變化不斷變化的57

數(shù)據(jù)倉庫的數(shù)據(jù)隨時間的變化數(shù)據(jù)倉庫隨時間變化不斷增加新的數(shù)據(jù)內(nèi)容數(shù)據(jù)倉庫隨時間變化不斷刪去舊的數(shù)據(jù)內(nèi)容操作型環(huán)境中一般只保存有60-90天的數(shù)據(jù)數(shù)據(jù)倉庫中則需要保存較長時限的數(shù)據(jù)(如5-10年)數(shù)據(jù)倉庫中包含有大量的跟時間有關(guān)的綜合數(shù)據(jù)經(jīng)常按照時間段進(jìn)行綜合隔一定的時間片進(jìn)行抽樣隨著時間的變化不斷地進(jìn)行重新綜合數(shù)據(jù)倉庫數(shù)據(jù)的碼鍵都包含時間項,以標(biāo)明數(shù)據(jù)的歷史時期特征四:隨時間不斷變化的58從數(shù)據(jù)庫到數(shù)據(jù)倉庫1從數(shù)據(jù)庫到數(shù)據(jù)倉庫2什么是數(shù)據(jù)倉庫3數(shù)據(jù)倉庫中的數(shù)據(jù)組織4數(shù)據(jù)庫體系化環(huán)境5小結(jié)593.1數(shù)據(jù)倉庫中的數(shù)據(jù)組織3.2粒度與分割3.3數(shù)據(jù)倉庫的數(shù)據(jù)組織形式3.4數(shù)據(jù)倉庫的數(shù)據(jù)追加3數(shù)據(jù)倉庫中的數(shù)據(jù)組織

60

3.1數(shù)據(jù)倉庫中的數(shù)據(jù)組織

數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)元數(shù)據(jù)高度綜合級輕度綜合級當(dāng)前細(xì)節(jié)級早期細(xì)節(jié)級61數(shù)據(jù)倉庫中的數(shù)據(jù)存在著不同的綜合級別早期細(xì)節(jié)級當(dāng)前細(xì)節(jié)級輕度綜合級高度綜合級粒度:數(shù)據(jù)的不同綜合級別粒度越大、表示細(xì)節(jié)程度越低、綜合程度越高。級別的劃分是根據(jù)粒度進(jìn)行的數(shù)據(jù)倉庫中的數(shù)據(jù)組織

62

數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)的一個例子高度綜合級輕度綜合級當(dāng)前細(xì)節(jié)級早期細(xì)節(jié)級2016-2020年每月銷售表2016-2020年每周銷售表2016-2020年銷售情況表2010-2015年銷售明細(xì)表數(shù)據(jù)倉庫中的數(shù)據(jù)組織

63

元數(shù)據(jù)(metadata):關(guān)于數(shù)據(jù)的數(shù)據(jù)

第一種:從操作型環(huán)境向數(shù)據(jù)倉庫環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù)。包含:所有源數(shù)據(jù)項名、屬性及其在數(shù)據(jù)倉庫中的轉(zhuǎn)換第二種:與終端用戶的多維商業(yè)模型/前端工具之間建立映射的DSS元數(shù)據(jù)數(shù)據(jù)倉庫中的元數(shù)據(jù)643.1數(shù)據(jù)倉庫中的數(shù)據(jù)組織3.2粒度與分割3.3數(shù)據(jù)倉庫的數(shù)據(jù)組織形式3.4數(shù)據(jù)倉庫的數(shù)據(jù)追加3數(shù)據(jù)倉庫中的數(shù)據(jù)組織

65粒度分割3.2粒度與分割66

粒度分為兩種形式:對數(shù)據(jù)倉庫中的數(shù)據(jù)的綜合程度高低的一個度量粒度越小,細(xì)節(jié)程度越高,綜合程度越低粒度大小影響數(shù)據(jù)倉庫效率、能回答詢問的種類“張三在某時某地是否給李四打過電話?”“張三去年共打了幾次長途電話”“某地區(qū)今年長途與普通電話費(fèi)用之比”“今年長途/普通電話費(fèi)用增長率”“預(yù)測未來長途/普通電話費(fèi)用變化趨勢”數(shù)據(jù)倉庫是多粒度的,不同的粒度回答不同的查詢1.粒度67

2)樣本數(shù)據(jù)庫

根據(jù)采樣率的高低來劃分粒度:以一定的采樣率從細(xì)節(jié)數(shù)據(jù)或輕度綜合數(shù)據(jù)中抽取的一個子集用處:代替源數(shù)據(jù)進(jìn)行模擬分析抽樣的方法:隨機(jī)抽取優(yōu)點(diǎn):高效率源數(shù)據(jù)量很大的情況下,抽樣數(shù)據(jù)可以大大下降,分析結(jié)果誤差極小有助于抓住主要因素和主要矛盾1.粒度68

實際:兩種形式的粒度都存在例:“商品”主題表的劃分:

銷售綜合表和采購綜合表是屬于第一種形式的粒度(時間段上信息的綜合)庫存信息的不同表:則屬于第二種形式粒度劃分(不同時點(diǎn)上的粒度)1.粒度69

分割:指將數(shù)據(jù)分散到各自的物理單元中去以便能分別獨(dú)立處理分片:數(shù)據(jù)分割后的數(shù)據(jù)單元分割的目的:提高效率例如:對于某種相關(guān)性的數(shù)據(jù)集合的分析是最常見的將具有相關(guān)性的數(shù)據(jù)組織在一起,會提高效率2.分割70

分割標(biāo)準(zhǔn):根據(jù)實際情況確定1易于重構(gòu)、索引、重組、恢復(fù)、監(jiān)控和順序掃描2按日期、地域或業(yè)務(wù)領(lǐng)域3

按多個分割標(biāo)準(zhǔn)的組合例子:

健康保險生命保險事故保險

2018分片1分片2分片3

2019

分片4分片5分片6

2020分片7分片8分片92.分割713.1數(shù)據(jù)倉庫中的數(shù)據(jù)組織3.2粒度與分割3.3數(shù)據(jù)倉庫的數(shù)據(jù)組織形式3.4數(shù)據(jù)倉庫的數(shù)據(jù)追加3數(shù)據(jù)倉庫中的數(shù)據(jù)組織

72

簡單堆積文件它將由數(shù)據(jù)庫中提取并加工的數(shù)據(jù)逐一積累存儲輪轉(zhuǎn)綜合文件數(shù)據(jù)存儲單位被分為若干個級別輪轉(zhuǎn)記錄--綜合優(yōu)點(diǎn):結(jié)構(gòu)簡捷,數(shù)據(jù)量較簡單堆積結(jié)構(gòu)減少缺點(diǎn):損失數(shù)據(jù)細(xì)節(jié)。越久遠(yuǎn)的數(shù)據(jù),細(xì)節(jié)損失越多3.3數(shù)據(jù)倉庫的數(shù)據(jù)組織形式73

一月一日一月二日一月三日第1日第2日第31日二月一日二月二日二月三日第1月第2月第12月

三月一日三月二日三月三日第1年第2年第10年

3.3數(shù)據(jù)倉庫的數(shù)據(jù)組織形式………簡單堆積文件輪轉(zhuǎn)綜合文件圖1-4數(shù)據(jù)倉庫基本數(shù)據(jù)結(jié)構(gòu)74

簡化直接文件間隔一定時間的數(shù)據(jù)庫快照,類似簡單堆積文件

(按一定的時間間隔對數(shù)據(jù)庫的采樣)連續(xù)文件1)兩個連續(xù)的簡化直接文件比較他們的不同連續(xù)文件3.3數(shù)據(jù)倉庫的數(shù)據(jù)組織形式2)連續(xù)文件+新的簡單文件新的連續(xù)文件75

一月份顧客表數(shù)據(jù)庫快照操作型數(shù)據(jù)圖1-5生成簡化直接文件姓名顧客號地址張平C960100北京王英C960101天津王賓C960102上海李強(qiáng)C960103重慶………………76

連續(xù)文件─兩個連續(xù)的簡化直接文件比較他們的不同連續(xù)文件

姓名顧客號地址張平

C960100

北京王英

C960101

天津王賓

C960102

上海劉仲

C960104

重慶

名顧客號地址張平

C960100

北京王英

C960101

沈陽王賓

C960102

上海劉仲

C960104

大連姓名顧客號時間地址張平

C9601001-2月北京王英

C9601011-1月天津王英

C9601012-2月沈陽王賓

C9601021-2月上海劉仲

C9601041-1月重慶劉仲

C9601042-2月大連1-2月份顧客表比較不同

2月份顧客表1月份顧客表77

連續(xù)文件+新的簡單文件新的連續(xù)文件姓名顧客號地址

張平

C960100北京

王賓

C960102上海

劉仲

C960104大連

姓名顧客號時間地址張平

C9601001-2月北京王英

C9601011-1月天津王英

C9601012-2月沈陽王賓

C9601021-2月上海劉仲

C9601041-1月重慶劉仲

C9601042-2月大連姓名顧客號時間地址張平

C9601001-3月北京王英

C9601011-1月天津王英

C9601012-2月沈陽王賓

C9601021-3月上海劉仲

C9601041-1月重慶劉仲

C9601042-3月大連1-2月份顧客表3月份顧客表1-3月份顧客表比較不同

78

各種文件結(jié)構(gòu)的最終實現(xiàn):關(guān)系數(shù)據(jù)庫中是“表”

793.1數(shù)據(jù)倉庫中的數(shù)據(jù)組織3.2粒度與分割3.3數(shù)據(jù)倉庫的數(shù)據(jù)組織形式3.4數(shù)據(jù)倉庫的數(shù)據(jù)追加3數(shù)據(jù)倉庫中的數(shù)據(jù)組織

80

數(shù)據(jù)追加:數(shù)據(jù)倉庫的數(shù)據(jù)初裝完成后,再向數(shù)據(jù)倉庫輸入數(shù)據(jù)的過程追加內(nèi)容:上次數(shù)據(jù)追加后在OLTP數(shù)據(jù)庫中變化了的數(shù)據(jù)變化數(shù)據(jù)的捕捉途徑:時標(biāo)方法DELTA文件前后映象文件日志文件3.4數(shù)據(jù)倉庫的數(shù)據(jù)追加81

時標(biāo)方法如果數(shù)據(jù)含有時標(biāo),對新插入或更新的數(shù)據(jù)記錄,加更新時的時標(biāo)問題許多數(shù)據(jù)庫中的數(shù)據(jù)并不含有時標(biāo)

1.時標(biāo)方法82

DELTA文件方法由應(yīng)用生成DELTA文件,記錄應(yīng)用所改變的所有內(nèi)容優(yōu)點(diǎn)避免了掃描整個數(shù)據(jù)庫,效率比較高問題生成DELTA文件的應(yīng)用不普遍更改應(yīng)用代碼,應(yīng)用在生成新數(shù)據(jù)時可自動將其記錄下來應(yīng)用成千上萬,且修改代碼十分繁瑣,很難實現(xiàn)2.DELTA文件83

前后映象文件的方法抽取數(shù)據(jù)到數(shù)據(jù)倉庫之后,本次將抽取數(shù)據(jù)之前,對數(shù)據(jù)庫分別作一次快照,比較兩幅快照的不同,確定追加的數(shù)據(jù)問題占用大量資源,影響系統(tǒng)性能3.前后映象文件84

優(yōu)點(diǎn)利用DB的固有機(jī)制,數(shù)據(jù)只限于日志文件,不用掃描整個數(shù)據(jù)庫缺點(diǎn)原來日志文件的格式是依據(jù)DB系統(tǒng)的要求設(shè)計的。要進(jìn)行改進(jìn)如:對一個記錄的多次更新,日志文件將全部變化過程都記錄下來,而數(shù)據(jù)倉庫,只要最終結(jié)果4.日志文件85從數(shù)據(jù)庫到數(shù)據(jù)倉庫1從數(shù)據(jù)庫到數(shù)據(jù)倉庫2什么是數(shù)據(jù)倉庫3數(shù)據(jù)倉庫中的數(shù)據(jù)組織4數(shù)據(jù)庫體系化環(huán)境5小結(jié)86

什么是數(shù)據(jù)庫體系化環(huán)境? 在一個企業(yè)或組織內(nèi),由各面向應(yīng)用的OLTP數(shù)據(jù)庫、以及各級面向主題的數(shù)據(jù)倉庫所組成的完整的數(shù)據(jù)環(huán)境;并在這個數(shù)據(jù)環(huán)境上建立和進(jìn)行一個企業(yè)或部門的從聯(lián)機(jī)事務(wù)處理到企業(yè)管理決策的所有應(yīng)用。4數(shù)據(jù)庫體系化環(huán)境87

數(shù)據(jù)庫體系化環(huán)境分為兩個部分:操作型環(huán)境和分析型環(huán)境,分別為操作型處理和分析型處理這兩類不同的數(shù)據(jù)處理服務(wù)

4數(shù)據(jù)庫體系化環(huán)境88

數(shù)據(jù)庫體系化環(huán)境的構(gòu)成:1.各級數(shù)據(jù)庫和數(shù)據(jù)倉庫2.各面向應(yīng)用的數(shù)據(jù)庫之間、各級數(shù)據(jù)倉庫之間、以及數(shù)據(jù)庫與數(shù)據(jù)倉庫之間的界限和相互聯(lián)系有合理劃分和明確描述3.在不同的數(shù)據(jù)庫或數(shù)據(jù)倉庫上的數(shù)據(jù)處理和應(yīng)用有明確的定義和劃分4.軟硬件資源及其人員的配置有明確規(guī)定體系化環(huán)境是一個結(jié)構(gòu)清晰、層次分明、聯(lián)系明確、可有序運(yùn)行的有機(jī)的整體4數(shù)據(jù)庫體系化環(huán)境89

層次的體系化環(huán)境:

操作型環(huán)境全局級數(shù)據(jù)倉庫部門級的局部倉庫個人級數(shù)據(jù)倉庫

4.1四層體系化環(huán)境操作型環(huán)境全局倉庫部門倉庫個人倉庫注:""表示數(shù)據(jù)的抽取方向操作型環(huán)境個人級部門及全局級數(shù)據(jù)倉庫在體系化環(huán)境中的位置

90

操作型環(huán)境存放:細(xì)節(jié)的操作型數(shù)據(jù),服務(wù)于高性能事務(wù)處理全局級數(shù)據(jù)倉庫:存放細(xì)節(jié)數(shù)據(jù)、導(dǎo)出數(shù)據(jù)部門級局部倉庫:一般存放導(dǎo)出數(shù)據(jù)個人級數(shù)據(jù)倉庫:數(shù)據(jù)一般是暫時存放,用于啟發(fā)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論