![數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)_第1頁(yè)](http://file4.renrendoc.com/view/ebd7f13c33ba87efbffde956da8374a1/ebd7f13c33ba87efbffde956da8374a11.gif)
![數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)_第2頁(yè)](http://file4.renrendoc.com/view/ebd7f13c33ba87efbffde956da8374a1/ebd7f13c33ba87efbffde956da8374a12.gif)
![數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)_第3頁(yè)](http://file4.renrendoc.com/view/ebd7f13c33ba87efbffde956da8374a1/ebd7f13c33ba87efbffde956da8374a13.gif)
![數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)_第4頁(yè)](http://file4.renrendoc.com/view/ebd7f13c33ba87efbffde956da8374a1/ebd7f13c33ba87efbffde956da8374a14.gif)
![數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)_第5頁(yè)](http://file4.renrendoc.com/view/ebd7f13c33ba87efbffde956da8374a1/ebd7f13c33ba87efbffde956da8374a15.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第1頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)1.4.1數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)方法概述數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的設(shè)計(jì)與數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)的區(qū)別數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)面向的數(shù)據(jù)類型面向應(yīng)用面向分析應(yīng)用需求比較明確不太明確系統(tǒng)設(shè)計(jì)目標(biāo)事務(wù)處理的并發(fā)性、安全性、高效性保證數(shù)據(jù)的四個(gè)特征和全局一致性數(shù)據(jù)來(lái)源業(yè)務(wù)操作員的輸入業(yè)務(wù)系統(tǒng)系統(tǒng)設(shè)計(jì)的方法需求驅(qū)動(dòng)數(shù)據(jù)驅(qū)動(dòng)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第2頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.1數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)方法概述數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的設(shè)計(jì)可以分為數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)和數(shù)據(jù)裝載接口的設(shè)計(jì)兩大部分,其中數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)又包括概念模型設(shè)計(jì)、邏輯模型設(shè)計(jì)和物理模型設(shè)計(jì)三個(gè)部分。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第3頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.2數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)數(shù)據(jù)模型數(shù)據(jù)模型是數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的基礎(chǔ),一個(gè)完整、靈活、穩(wěn)定的數(shù)據(jù)模型對(duì)于數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的成功起著如下重要的作用:
1)數(shù)據(jù)模型是整個(gè)系統(tǒng)建設(shè)過(guò)程的導(dǎo)航圖。
2)有利于數(shù)據(jù)的整合。
3)通過(guò)數(shù)據(jù)模型的建立,可以排除數(shù)據(jù)描述的不一致性。
4)由于數(shù)據(jù)模型對(duì)現(xiàn)有的信息以及信息之間的關(guān)系從邏輯層進(jìn)行了全面的描述,當(dāng)未來(lái)業(yè)務(wù)發(fā)生變化或系統(tǒng)需求發(fā)生變化時(shí),可以很容易地實(shí)現(xiàn)系統(tǒng)擴(kuò)展。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第4頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月5)可以消除數(shù)據(jù)倉(cāng)庫(kù)中的冗余數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)建模是數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建工作正式開(kāi)始的第一步,正確而完備的數(shù)據(jù)模型是用戶業(yè)務(wù)需求的體現(xiàn),是數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目成功與否最重要的技術(shù)因素。目前較為流行的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)模型是概念模型、邏輯模型和物理模型三級(jí)數(shù)據(jù)模型。1.4.2數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)數(shù)據(jù)模型1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第5頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.2數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)數(shù)據(jù)模型一、概念模型概念模型描述的是從客觀世界到主觀認(rèn)識(shí)的映射,它是用于我們?yōu)橐欢ǖ哪繕?biāo)設(shè)計(jì)系統(tǒng)、收集信息而服務(wù)的一個(gè)概念性工具。在進(jìn)行系統(tǒng)設(shè)計(jì)時(shí),我們首先要將現(xiàn)實(shí)世界抽象為概念模型,然后再用計(jì)算機(jī)世界的模型和語(yǔ)言對(duì)客觀世界中的具體問(wèn)題進(jìn)行描述。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第6頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.2數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)數(shù)據(jù)模型二、邏輯模型目前數(shù)據(jù)倉(cāng)庫(kù)一般建立在關(guān)系數(shù)據(jù)庫(kù)基礎(chǔ)之上。因此,在數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)中采用的邏輯模型就是關(guān)系模型,無(wú)論是主題還是主題之間的聯(lián)系,都用關(guān)系來(lái)表示。邏輯模型描述了數(shù)據(jù)倉(cāng)庫(kù)的主題的邏輯實(shí)現(xiàn),對(duì)于關(guān)系數(shù)據(jù)庫(kù)來(lái)說(shuō),即每個(gè)主題所對(duì)應(yīng)的關(guān)系表的關(guān)系模式的定義。它能直接反映出業(yè)務(wù)部門(mén)的需求,同時(shí)對(duì)系統(tǒng)的物理實(shí)施有著重要的指導(dǎo)作用。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第7頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.2數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)數(shù)據(jù)模型三、物理模型物理模型是邏輯模型在數(shù)據(jù)倉(cāng)庫(kù)中的實(shí)現(xiàn),如數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、數(shù)據(jù)索引策略、數(shù)據(jù)的存儲(chǔ)策略以及存儲(chǔ)分配優(yōu)化等。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第8頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.2數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)數(shù)據(jù)模型四、三種模型之間的關(guān)系關(guān)系模型物理實(shí)現(xiàn)的細(xì)節(jié)客觀世界主觀世界概念模型邏輯模型物理模型1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第9頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.2數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)數(shù)據(jù)模型五、高級(jí)模型、中級(jí)模型和低級(jí)模型高級(jí)模型:即數(shù)據(jù)概念模型,用E-R圖表示。低級(jí)模型:即物理數(shù)據(jù)模型。中級(jí)模型:稱為數(shù)據(jù)項(xiàng)(dis-dataitemset)。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第10頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.2數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)數(shù)據(jù)模型五、高級(jí)模型、中級(jí)模型和低級(jí)模型dis是E-R圖的細(xì)分。E-R圖的每一個(gè)主題都與一個(gè)dis相對(duì)應(yīng)。主題1主題2主題4主題3disdisdisdisE-R圖高級(jí)模型中級(jí)模型中級(jí)模型1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第11頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.2數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)數(shù)據(jù)模型五、高級(jí)模型、中級(jí)模型和低級(jí)模型每個(gè)dis中的數(shù)據(jù)分為4個(gè)組別:基本數(shù)據(jù)組、二級(jí)數(shù)據(jù)組、連接數(shù)據(jù)組和類型數(shù)據(jù)組。1)連接數(shù)據(jù)組
主要用于本主題與其他主題之間的聯(lián)系,體現(xiàn)E-R圖中主題之間的關(guān)系。一般情況下,連接數(shù)據(jù)組往往是一個(gè)主題的公共碼鍵。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第12頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.2數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)數(shù)據(jù)模型五、高級(jí)模型、中級(jí)模型和低級(jí)模型2)基本數(shù)據(jù)組基本數(shù)據(jù)組包含了本主題中固定的、基本不變的屬性。3)二級(jí)數(shù)據(jù)組
是本主題中有時(shí)會(huì)發(fā)生變化的數(shù)據(jù),其穩(wěn)定性低于基本數(shù)據(jù)組。4)類型數(shù)據(jù)組
是本主題中經(jīng)常改變的數(shù)據(jù),其穩(wěn)定性最低。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第13頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.2數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)數(shù)據(jù)模型五、高級(jí)模型、中級(jí)模型和低級(jí)模型例:商品ID客戶ID姓名性別身份證號(hào)碼住址文化程度電話E-mail交易ID商品金額購(gòu)買(mǎi)時(shí)間交易ID商品金額購(gòu)買(mǎi)時(shí)間交易ID商品金額購(gòu)買(mǎi)時(shí)間電器食品床上用品類型數(shù)據(jù)組二級(jí)數(shù)據(jù)組連接數(shù)據(jù)組基本數(shù)據(jù)組1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第14頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)
通過(guò)概念模型設(shè)計(jì),可以確定數(shù)據(jù)倉(cāng)庫(kù)的主要主題及相互關(guān)系。進(jìn)行概念模型設(shè)計(jì)所要完成的工作有:
1)界定系統(tǒng)邊界,即進(jìn)行任務(wù)和環(huán)境評(píng)估、需求收集和分析,了解用戶迫切需要解決的問(wèn)題及解決這些問(wèn)題所需要的信息,要對(duì)現(xiàn)有數(shù)據(jù)庫(kù)中的內(nèi)容有一個(gè)完整而清晰的認(rèn)識(shí)。
2)確定主要的主題域及其內(nèi)容,即要確定系統(tǒng)所包含的主題域,然后對(duì)每一個(gè)主題域的公共碼鍵、主題域之間的聯(lián)系、充分代表主題的屬性組進(jìn)行較為明確的描述。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第15頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)可以采用兩種方法:
E-R模型和面向?qū)ο蟮姆治龇椒āR?、E-R模型E-R圖描述的是主題以及主題之間的聯(lián)系。用E-R模型進(jìn)行概念模型設(shè)計(jì)的過(guò)程如圖:任務(wù)和環(huán)境評(píng)估需求的收集和分析主題選取,確定主題間關(guān)系主題內(nèi)容描述E-R圖對(duì)主題的選擇進(jìn)行調(diào)整1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第16頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)(1)任務(wù)和環(huán)境的評(píng)估(2)需求的收集和分析(3)主題的選取,確定主題間關(guān)系主題選取的原則:
1)優(yōu)先實(shí)施管理者目前最迫切需求、最關(guān)心的主題。
2)優(yōu)先選擇能夠在較短時(shí)間內(nèi)發(fā)生效益的決策主題。
3)推后實(shí)施業(yè)務(wù)邏輯準(zhǔn)備不充分的主題。
4)推后考慮實(shí)現(xiàn)技術(shù)難度大、可實(shí)現(xiàn)性較低、投資風(fēng)險(xiǎn)大的主題。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第17頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)(4)主題內(nèi)容描述描述的內(nèi)容包括:
1)主題的公共碼鍵。
2)主題之間的聯(lián)系。
3)充分代表主題的屬性組。(5)E-R圖長(zhǎng)方形——表示主題橢圓形——表示主題的屬性組菱形——表示主題之間的聯(lián)系1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第18頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月例1:假設(shè)有商品、客戶和供應(yīng)商三個(gè)主題。商品有如下屬性組:商品固有信息商品庫(kù)存信息商品銷(xiāo)售信息商品采購(gòu)信心客戶有如下屬性組:客戶固有信息客戶購(gòu)物信息供應(yīng)商有如下屬性組:供應(yīng)商固有信息供應(yīng)商品信息則可得到如下E-R圖:1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第19頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月供應(yīng)商商品客戶日期供應(yīng)商號(hào)供應(yīng)商固有信息供應(yīng)商品信息日期客戶號(hào)客戶購(gòu)物信息客戶固有信息日期商品號(hào)商品固有信息商品庫(kù)存信息商品銷(xiāo)售信息商品采購(gòu)信息供應(yīng)購(gòu)買(mǎi)1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第20頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)例2、中醫(yī)藥方劑是中醫(yī)治療疾病的重要手段,方劑中蘊(yùn)涵著中醫(yī)博大、精深的理論。為了揭示蘊(yùn)涵在方劑中的應(yīng)用規(guī)律和內(nèi)部的有機(jī)聯(lián)系,推動(dòng)傳統(tǒng)醫(yī)學(xué)的發(fā)展,加快新藥產(chǎn)品的開(kāi)發(fā),要建立中醫(yī)方劑數(shù)據(jù)倉(cāng)庫(kù)。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第21頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)方劑中的信息可以分為兩個(gè)部分:一部分是藥物的配比,即需要哪幾味中藥,每種藥材各需要多少;另一部分則是其主治的病癥,這兩部分信息被方劑有機(jī)地聯(lián)系在一起。藥物的配比是由藥理決定的,而病癥的規(guī)則又是與病因和發(fā)展的機(jī)理密切聯(lián)系,要分析方劑,就不可能不研究這兩方面的信息。因此可以確定主要的主題為方劑、藥物、病癥,所需的數(shù)據(jù)為方劑數(shù)據(jù)、藥物數(shù)據(jù)、病癥數(shù)據(jù)。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第22頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)主題名公共碼鍵屬性組藥物藥物ID藥物基本信息:藥物ID、藥名、味性、歸經(jīng)、功效、主治和禁忌等藥物相關(guān)信息:藥物ID、產(chǎn)地、采集、保存、炮制等方劑方劑ID方劑基本信息:方劑ID、方劑名、煎服方式、文獻(xiàn)等方劑藥物信息:方劑ID、藥物ID、劑量等方劑適宜病癥:方劑ID、病癥ID等病癥病癥ID病癥基本信息:病癥ID、病癥名、臨床表現(xiàn)、病機(jī)等主題的描述1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第23頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)病癥藥物處方方藥方癥方劑ID方劑藥物信息方劑基本信息方劑適宜病癥藥物基本信息藥物ID藥物相關(guān)信息病癥ID病癥基本信息1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第24頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)二、面向?qū)ο蟮姆治龇椒ú捎妹嫦驅(qū)ο蠓椒ㄟM(jìn)行概念模型設(shè)計(jì)時(shí),E-R模型中的實(shí)體轉(zhuǎn)化為面向?qū)ο笙到y(tǒng)中的類,E-R模型中實(shí)體的屬性對(duì)應(yīng)面向?qū)ο笙到y(tǒng)中類的屬性,E-R模型中實(shí)體間的關(guān)系表現(xiàn)為面向?qū)ο笙到y(tǒng)中類間的關(guān)系。環(huán)境評(píng)估需求分析選擇類確定類間關(guān)系描述類屬性、動(dòng)作對(duì)類的選擇進(jìn)行調(diào)整1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第25頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)二、面向?qū)ο蟮姆治龇椒惓S玫膱D形表示方法是類表。汽車(chē)屬性:顏色類型……動(dòng)作:行駛()類名類的屬性集合類的動(dòng)作集合1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第26頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)二、面向?qū)ο蟮姆治龇椒ㄔ诿嫦驅(qū)ο蟮姆椒ㄖ校愔g存在三種關(guān)系:繼承、包容和關(guān)聯(lián)。1、繼承交通工具汽車(chē)輪船火車(chē)1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第27頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)二、面向?qū)ο蟮姆治龇椒?、包容學(xué)校學(xué)生教師1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第28頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)二、面向?qū)ο蟮姆治龇椒?、關(guān)聯(lián)在面向?qū)ο蠓椒ㄖ校税莺屠^承關(guān)系之外,類之間的其他關(guān)系都?xì)w入關(guān)聯(lián)關(guān)系。因?yàn)轭惖膭?dòng)作反映的是類對(duì)自身或者其他類的作用,而關(guān)聯(lián)關(guān)系是指類間的作用與反作用,所以關(guān)聯(lián)關(guān)系可以通過(guò)類的動(dòng)作來(lái)體現(xiàn)。教師學(xué)生教/學(xué)1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第29頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.3數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)二、面向?qū)ο蟮姆治龇椒ɡ褐嗅t(yī)數(shù)據(jù)倉(cāng)庫(kù)選擇出三個(gè)類:藥物類、方劑類、病癥類,其中藥物類可以派生出治感冒的藥物、治脾胃的藥物和治腸炎的藥物三個(gè)子類,各類之間的關(guān)系如圖:方劑藥物病癥治感冒的藥物治脾胃的藥物治腸炎的藥物1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第30頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)進(jìn)行邏輯模型設(shè)計(jì)所要完成的主要工作有:(1)系統(tǒng)數(shù)據(jù)量的估算(2)數(shù)據(jù)粒度的選擇(3)確定數(shù)據(jù)分割策略(4)增加時(shí)間字段(5)去除純操作型數(shù)據(jù)(6)進(jìn)行合理的表劃分(7)定義關(guān)系模式(8)增加導(dǎo)出字段(9)定義記錄系統(tǒng)1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第31頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)一、系統(tǒng)數(shù)據(jù)量估算
數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)量級(jí)的一個(gè)簡(jiǎn)單估算方法是:
設(shè)在概念模型中出現(xiàn)的表個(gè)數(shù)為N(這些表中應(yīng)當(dāng)不包括不會(huì)放進(jìn)數(shù)據(jù)倉(cāng)庫(kù)的表),對(duì)于每個(gè)表i(0<i<=N)計(jì)算表的大小Si和表的主關(guān)鍵字大小Ki,然后估計(jì)每張表i在單位時(shí)間內(nèi)最大記錄數(shù)Lmax和最少記錄數(shù)Lmin。則數(shù)據(jù)倉(cāng)庫(kù)的粗略數(shù)據(jù)量在如下范圍:1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第32頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)一、系統(tǒng)數(shù)據(jù)量估算其中,T是數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中存在的周期。通常輕度綜合的數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中存放的周期是5~10年。α是考慮由于數(shù)據(jù)索引和數(shù)據(jù)冗余而使得數(shù)據(jù)量增大的冗余因子,α通??扇?.2~2。
上式的含義是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)量=(表記錄的大小十主關(guān)鍵字大小)×記錄的數(shù)量/單位時(shí)間×存儲(chǔ)時(shí)間×冗余因子。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第33頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)一、系統(tǒng)數(shù)據(jù)量估算表i在單位時(shí)間內(nèi)最大記錄數(shù)Limax需要按照公司的客戶數(shù)量或者市場(chǎng)的占用情況估算。比如對(duì)電信公司的計(jì)費(fèi)表記錄數(shù)量的估計(jì),可以采用電信公司的客戶數(shù)量×單位時(shí)間內(nèi)平均通話的次數(shù)×每個(gè)存儲(chǔ)時(shí)間來(lái)估計(jì)表的記錄數(shù)量。
以上方法估算的結(jié)果只能作為數(shù)據(jù)粒度選樣和軟硬件平臺(tái)選取的參考數(shù)據(jù),它同實(shí)際系統(tǒng)的數(shù)據(jù)量可能會(huì)有較大的出入。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第34頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)二、數(shù)據(jù)顆粒度的選擇1、單一數(shù)據(jù)粒度的概念:直接存儲(chǔ)細(xì)節(jié)數(shù)據(jù)并定期在細(xì)節(jié)數(shù)據(jù)基礎(chǔ)上進(jìn)行數(shù)據(jù)綜合。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第35頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)二、數(shù)據(jù)顆粒度的選擇2、雙重粒度的概念:對(duì)于細(xì)節(jié)數(shù)據(jù)只保留近期的數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中,當(dāng)保留周期到達(dá)時(shí),將距離當(dāng)前較遠(yuǎn)的數(shù)據(jù)導(dǎo)出到磁盤(pán)上,從而為最新的數(shù)據(jù)騰出空間。這樣,數(shù)據(jù)倉(cāng)庫(kù)只保留在細(xì)節(jié)數(shù)據(jù)保留周期之內(nèi)的數(shù)據(jù),對(duì)于這個(gè)周期之后的信息,數(shù)據(jù)倉(cāng)庫(kù)只保留其綜合數(shù)據(jù)。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第36頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)二、數(shù)據(jù)顆粒度的選擇2、雙重粒度的概念(續(xù)):1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第37頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)二、數(shù)據(jù)顆粒度的選擇2、雙重粒度的概念(續(xù)):?jiǎn)我涣6群碗p重粒度的區(qū)別在于細(xì)節(jié)數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)的高速存儲(chǔ)設(shè)備中存儲(chǔ)的時(shí)間長(zhǎng)短不同。
在使用雙重粒度時(shí),一個(gè)重要的參數(shù)是細(xì)節(jié)數(shù)據(jù)的保留周期,這個(gè)周期對(duì)于不同行業(yè)、不同需求可能有不同的答案。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第38頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)二、數(shù)據(jù)顆粒度的選擇3、粒度的選擇1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第39頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)二、數(shù)據(jù)顆粒度的選擇4、粒度層次劃分無(wú)論是單一粒度還是雙重粒度,在數(shù)據(jù)倉(cāng)庫(kù)中都存在多重綜合層次的數(shù)據(jù)。有幾個(gè)因素會(huì)影響粒度層次的劃分。
(1)要接受的分析類型
(2)可接受的最低粒度
(3)能存儲(chǔ)數(shù)據(jù)的存儲(chǔ)容量1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第40頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)三、表的分割在確定粒度之后,需要考慮的是表的分割策略,常用的分割策略是按照時(shí)間進(jìn)行如圖所示。比如商品供應(yīng)關(guān)系問(wèn)題可以采用雙重粒度,保留近6個(gè)月的細(xì)節(jié)數(shù)據(jù)。綜合數(shù)據(jù)可以按照年進(jìn)行分割。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第41頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)三、表的分割1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第42頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)四、增加時(shí)間字段在數(shù)據(jù)粒度/分割策略確定之后,我們可以將表按照數(shù)據(jù)粒度/分割策略的需求定義新表,并為各個(gè)表增加合適的時(shí)間字段;比如在上圖中的細(xì)節(jié)數(shù)據(jù),我們使用的時(shí)間字段是“供貨日期”,按月綜合數(shù)據(jù)使用的時(shí)間字段是“供貨月份”。時(shí)間字段實(shí)際上體現(xiàn)了數(shù)據(jù)粒度的信息。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第43頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)五、去除純操作型數(shù)據(jù)在將業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)抽取到細(xì)節(jié)數(shù)據(jù)表或者綜合數(shù)據(jù)表時(shí),需要去除純操作型數(shù)據(jù)。純操作型數(shù)據(jù)就是與分析毫無(wú)關(guān)系的數(shù)據(jù),這些數(shù)據(jù)字段通常是為了方便業(yè)務(wù)系統(tǒng)的運(yùn)營(yíng)而設(shè)立的,它們對(duì)于面向分析的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)沒(méi)有實(shí)際的意義。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第44頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)六、合理的表劃分通過(guò)增加合適的時(shí)間字段、去除純操作型數(shù)據(jù),我們的模型更進(jìn)了一步。但是在實(shí)際的系統(tǒng)中,一張表的字段數(shù)目常常很多。如果直接存放字段數(shù)目很大的表,可能存在下列的問(wèn)題:(1)從數(shù)據(jù)的存儲(chǔ)角度上看,表中有的字段更新較為頻繁,因而對(duì)于這些數(shù)據(jù)字段數(shù)據(jù)倉(cāng)庫(kù)需要經(jīng)常進(jìn)行數(shù)據(jù)追加工作。而表中的其他字段的更新操作很少,對(duì)于這些字段,數(shù)據(jù)追加的工作較少。如果將變化很快的字段同變化很慢(很少)的字段放在一張表中,則將浪費(fèi)大量的存儲(chǔ)空間。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第45頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)六、合理的表劃分(續(xù))(2)從數(shù)據(jù)的訪問(wèn)角度看,表中的部分字段是經(jīng)常被訪問(wèn)的,而其他的字段訪問(wèn)較少。如果將所有字段放在一張表中,就使得表的體積增大,不能將經(jīng)常需要使用的部分放在內(nèi)存中,這樣將影響訪問(wèn)的效率。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第46頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)六、合理的表劃分(續(xù))基于這樣的原因,我們需要對(duì)表中的內(nèi)容進(jìn)行合理的劃分。劃分的方法可以按照數(shù)據(jù)的變化情況進(jìn)行、也可以按照業(yè)務(wù)規(guī)則進(jìn)行。(1)按照數(shù)據(jù)的穩(wěn)定性對(duì)表進(jìn)行劃分。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第47頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)六、合理的表劃分1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第48頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)六、合理的表劃分(2)按照業(yè)務(wù)規(guī)則進(jìn)行表劃分W.H.Inmon在《BuildingtheDataWarehouse》中提出了DIS(dataitemset)的設(shè)計(jì)方法,這種方法是將數(shù)據(jù)按照業(yè)務(wù)規(guī)則對(duì)共有數(shù)據(jù)和專有數(shù)據(jù)進(jìn)行劃分。DIS模型由初始數(shù)據(jù)、二次數(shù)據(jù)、連接數(shù)據(jù)以及不同數(shù)據(jù)“類型”組成.1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第49頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)六、合理的表劃分1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第50頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)六、合理的表劃分例:如圖所示的是一個(gè)商品交易的DIS模型。將交易分成現(xiàn)金、信用卡、支票以及是否大客戶等類型。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第51頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)六、合理的表劃分對(duì)于業(yè)務(wù)系統(tǒng)中記載的:“345號(hào)顧客非大客戶
時(shí)間:2001/l/l14:03購(gòu)買(mǎi)商品:1付款方式:小量
現(xiàn)金”“368號(hào)顧客大客戶
時(shí)間:200l/l/215:53購(gòu)買(mǎi)商品:1付款方式:批量
支票”兩條記錄,映射在DIS模型中,將生成6條記錄。(1)初始數(shù)據(jù)表中的兩條記錄用于記載僅出現(xiàn)一次的信息,比如交易號(hào)、商品號(hào)、顧客號(hào)、支付類型、是否批量等信息。
(2)在現(xiàn)金表中出現(xiàn)一條記錄記載345號(hào)顧客的購(gòu)買(mǎi)行為;在小量表中出現(xiàn)一條記錄記載345號(hào)顧客的購(gòu)買(mǎi)行為。在支票表中出現(xiàn)一條記錄記載368號(hào)顧客的購(gòu)買(mǎi)行為;在批量表中出現(xiàn)一條記錄記載368號(hào)顧客的購(gòu)買(mǎi)行為1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第52頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)六、合理的表劃分1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第53頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)七、定義關(guān)系模式1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第54頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)八、增加導(dǎo)出字段
導(dǎo)出數(shù)據(jù)本身是冗余的,但是生成導(dǎo)出數(shù)據(jù)可以方便數(shù)據(jù)以后的使用。下圖給出了供應(yīng)關(guān)系按月綜合表增加導(dǎo)出數(shù)據(jù)的例子。在按月綜合表中,增加了“平均價(jià)格”、“供貨總價(jià)值”、“供應(yīng)總數(shù)量”等導(dǎo)出字段。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第55頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)九、記錄系統(tǒng)的定義
記錄系統(tǒng)的定義就是指明數(shù)據(jù)倉(cāng)庫(kù)中關(guān)系表各個(gè)字段來(lái)源于哪個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)的哪張表的哪個(gè)字段。從數(shù)據(jù)庫(kù)系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)關(guān)系模式的記錄系統(tǒng)定義:1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第56頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)九、記錄系統(tǒng)的定義綜合數(shù)據(jù)表也需要進(jìn)行類似的工作。但是綜合數(shù)據(jù)表的數(shù)據(jù)是從細(xì)節(jié)數(shù)據(jù)表中抽取,而不是從業(yè)務(wù)數(shù)據(jù)庫(kù)中抽取。對(duì)于綜合數(shù)據(jù)表中的導(dǎo)出字段,我們需要指出它同細(xì)節(jié)數(shù)據(jù)表字段的對(duì)應(yīng)關(guān)系和計(jì)算方法。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第57頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)在數(shù)據(jù)倉(cāng)庫(kù)的物理設(shè)計(jì)中,主要解決如下問(wèn)題:(1)確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)(2)確定數(shù)據(jù)的索引策略(3)確定數(shù)據(jù)的存儲(chǔ)策略(4)存儲(chǔ)分配優(yōu)化。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第58頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)一、確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)中包含巨量數(shù)據(jù),為了提高數(shù)據(jù)的訪問(wèn)效率和可靠性,必須認(rèn)真選擇數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)。對(duì)于數(shù)據(jù)存儲(chǔ)問(wèn)題的解決,有兩種可選的方式:分布存儲(chǔ)方式和集中存儲(chǔ)方式。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第59頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)一、確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)數(shù)據(jù)分布式存儲(chǔ)方式:數(shù)據(jù)分布式存儲(chǔ)是采用磁盤(pán)陣列在多個(gè)節(jié)點(diǎn)間分布的方式來(lái)存儲(chǔ)數(shù)據(jù)。集中式數(shù)據(jù)存儲(chǔ)方式:數(shù)據(jù)集中存儲(chǔ)是將現(xiàn)有的SAN或NAS系統(tǒng)作為服務(wù)器的存儲(chǔ)部分。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第60頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略在數(shù)據(jù)倉(cāng)庫(kù)中由于數(shù)據(jù)量很大,需要對(duì)數(shù)據(jù)的存取路徑進(jìn)行仔細(xì)設(shè)計(jì)和選擇,建立專用的復(fù)雜的索引,以獲得最高的存取效率。在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是不常更新的,即每個(gè)數(shù)據(jù)存儲(chǔ)是穩(wěn)定的。索引一旦建立幾乎不需要再維護(hù)。
下面介紹幾種索引技術(shù)。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第61頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月第一章數(shù)據(jù)倉(cāng)庫(kù)原理1.B—Tree索引
傳統(tǒng)的數(shù)據(jù)庫(kù)采用B-Tree索引,它是一個(gè)高效的索引,如圖所示。1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第62頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.B—Tree索引1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略B—Tree就具有一定的局限性,它存在以下的缺點(diǎn):(1)B—Tree通常要求被索引的字段具有很好的選擇性。(2)
B—Tree索引對(duì)于從大表中選擇少數(shù)的幾個(gè)數(shù)據(jù)記錄的查詢工作是非常適合。(3)B—Tree的快速索引性能實(shí)際上是通過(guò)較大的代價(jià)換取的。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第63頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月2.位索引技術(shù)1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略
Sybase公司推出的數(shù)據(jù)倉(cāng)庫(kù)SybaseIQ,采用位索引技術(shù),它在處理復(fù)雜的查詢時(shí),比傳統(tǒng)數(shù)據(jù)庫(kù)索引B-Tree有了突破。位索引技術(shù)在存儲(chǔ)數(shù)據(jù)的方式上與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)有所不同,它不是以“行記錄”而是按“列”為單位存儲(chǔ)數(shù)據(jù),即對(duì)數(shù)據(jù)進(jìn)行垂直分割。對(duì)于每一個(gè)記錄的字段滿足查詢條件的真假值用1或0的方式表示,或者用字段中不同取值來(lái)表示。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第64頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月2.位索引技術(shù)1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略
一般DSS查詢往往僅涉及大量數(shù)據(jù)記錄中的少數(shù)列,因而不需要訪問(wèn)原始數(shù)據(jù)就能快速獲得查詢結(jié)果。顯然,利用字段的不同取值也能快速進(jìn)行數(shù)據(jù)聚類、分組、求最大值、求最小值及求平均值等。
對(duì)于高度可選擇的數(shù)(稱高基數(shù)),如姓名或地址等可能有數(shù)萬(wàn)個(gè)選擇值,用(1,0)真假值來(lái)索引是不合適的。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第65頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月2.位索引技術(shù)1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略例:檢索“美國(guó)加州有多少男性未申請(qǐng)保險(xiǎn)?”項(xiàng)目性別保險(xiǎn)州1MYMA2MNCA3FYIL4MNCA男未保險(xiǎn)加州100111000111有兩個(gè)滿足條件的記錄1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第66頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月2.位索引技術(shù)1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略B-Tree技術(shù)位索引技術(shù)索引技術(shù)特點(diǎn)對(duì)比1)按行存儲(chǔ)數(shù)據(jù)2)針對(duì)具體查詢建立驅(qū)動(dòng)的索引機(jī)制3)存儲(chǔ)被索引的字段數(shù)據(jù)4)一列允許一個(gè)索引5)適合高基數(shù)字段1)按列存儲(chǔ)數(shù)據(jù)2)針對(duì)實(shí)際特征建索引3)不存儲(chǔ)實(shí)際索引字段內(nèi)容4)一列允許多個(gè)索引5)數(shù)據(jù)壓縮技術(shù)和位操作技術(shù)6)適合低基數(shù)字段速度比較位索引技術(shù)比B-Tree技術(shù)能提高響應(yīng)速度10~100倍。數(shù)據(jù)倉(cāng)庫(kù)的適用性1)適合高基數(shù)字段2)增加構(gòu)造和維護(hù)索引代價(jià)3)不適合復(fù)雜查詢1)適合低基數(shù)字段2)維護(hù)索引工作量小3)適合復(fù)雜查詢1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第67頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略3.標(biāo)識(shí)技術(shù)
使用標(biāo)準(zhǔn)的數(shù)據(jù)庫(kù)技術(shù)來(lái)儲(chǔ)存數(shù)據(jù)倉(cāng)庫(kù)是非常昂貴的。較好的替代方法是用基于標(biāo)識(shí)的技術(shù)來(lái)儲(chǔ)存數(shù)據(jù)倉(cāng)庫(kù)。這種技術(shù)根本不同于關(guān)系數(shù)據(jù)庫(kù)技術(shù)。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第68頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略3.標(biāo)識(shí)技術(shù)姓名籍貫職稱年齡姓名籍貫職稱年齡陳文東江西教授56趙玉吉林講師32何玉輝河北講師32黃小斌江蘇講師28李寶湖南副教授37賽英花山東副教授32施東江蘇講師28彭宏江西講師25曹文杰湖南副教授36廖宇宙湖南教授42例:有如下樣本數(shù)據(jù)1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第69頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略3.標(biāo)識(shí)技術(shù)
假設(shè)可以為此數(shù)據(jù)庫(kù)中的每個(gè)實(shí)體創(chuàng)建一個(gè)標(biāo)識(shí),則有如下標(biāo)識(shí):姓名標(biāo)識(shí)籍貫標(biāo)識(shí)職稱標(biāo)識(shí)年齡標(biāo)識(shí)陳文東-01江西-01教授-0125-01何玉輝-02河北-02副教授-0228-02李寶-03湖南-03講師-0332-03施東-04江蘇-0436-04曹文杰-05吉林-0537-05趙玉-06山東-0642-06黃小斌-0756-07賽英花-08彭宏-09廖宇宙-101.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第70頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略3.標(biāo)識(shí)技術(shù)
一旦建立標(biāo)識(shí)后,數(shù)據(jù)庫(kù)可被精簡(jiǎn),如表所示。記錄101,01,01,07記錄202,02,03,03記錄303,03,02,05記錄404,04,03,02記錄505,03,02,05記錄606,05,03,03記錄707,04,03,02記錄808,06,02,03記錄909,01,03,01記錄1010,03,01,061.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第71頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月使用標(biāo)識(shí)數(shù)據(jù)庫(kù)技術(shù)時(shí),有幾項(xiàng)是非常有利的應(yīng)用:大量壓縮了數(shù)據(jù)。數(shù)據(jù)越多,標(biāo)識(shí)數(shù)據(jù)比標(biāo)準(zhǔn)的、基于記錄的數(shù)據(jù)更有利。因?yàn)閿?shù)據(jù)被大量壓縮,所以整個(gè)數(shù)據(jù)庫(kù)可以存放在內(nèi)存中??梢运饕械男泻退械牧?。1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略3.標(biāo)識(shí)技術(shù)1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第72頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略4.廣義索引
對(duì)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)很廣泛的應(yīng)用問(wèn)題是“這個(gè)月銷(xiāo)售最好和最差的10種商品是哪些?”
可以設(shè)計(jì)這么一塊“黑板”,在上面標(biāo)明當(dāng)月銷(xiāo)售最好和最差的10種商品的名稱或者它們相關(guān)記錄的存放地址。這塊“黑板”就是人們所說(shuō)的“廣義索引”。
“廣義索引”對(duì)于處理最值問(wèn)題時(shí),其效果是非常明顯的,也是較易于實(shí)現(xiàn)的。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第73頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略4.廣義索引
在從操作型環(huán)境抽取數(shù)據(jù)并向數(shù)據(jù)倉(cāng)庫(kù)中裝載的同時(shí),就可以根據(jù)用戶的需要建立許多這樣的“廣義索引”。每次數(shù)據(jù)倉(cāng)庫(kù)裝載時(shí),就重新生成這些“廣義索引”的內(nèi)容。這樣并不需要為了建立“廣義索引”而去掃描數(shù)據(jù)倉(cāng)庫(kù)。而且這些索引都非常小,開(kāi)銷(xiāo)也是相當(dāng)小,但它給應(yīng)用所帶來(lái)的便利卻是顯而易見(jiàn)的。對(duì)于一些經(jīng)常性的查詢,利用一個(gè)規(guī)模小得多的“廣義索引”總比去搜索一個(gè)大得多的關(guān)系表方便得多。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第74頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略4.廣義索引
但是,同時(shí)出現(xiàn)的問(wèn)題就是,隨著數(shù)據(jù)倉(cāng)庫(kù)“年齡”的增長(zhǎng)以及數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間變化的特性,這種“廣義索引”的數(shù)目也就會(huì)成倍的增長(zhǎng),管理這些數(shù)目多、規(guī)模小、名目繁多的“廣義索引”也就成為一件非常棘手的事情。這就需要在元數(shù)據(jù)中完整地定義說(shuō)明這些“廣義索引”。應(yīng)用需要時(shí),首先去查找元數(shù)據(jù),再去查找相應(yīng)的“廣義索引”或表。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第75頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略5.連接索引連接索引是數(shù)據(jù)倉(cāng)庫(kù)中使用得最為廣泛的索引之一,所謂連接索引,就是將事實(shí)表和維表中的索引項(xiàng)進(jìn)行連接運(yùn)算,然后將結(jié)果作為索引保留。由于索引項(xiàng)比整個(gè)記錄條目要小,連接索引也比直接對(duì)事實(shí)表和維表進(jìn)行連接的結(jié)果集合要小得多,因此,連接索引能夠起到較好的索引作用。1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第76頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)二、確定索引策略5.連接索引1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第77頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)三、確定數(shù)據(jù)存儲(chǔ)策略1.表的歸并1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第78頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)三、確定數(shù)據(jù)存儲(chǔ)策略1.表的歸并1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第79頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)三、確定數(shù)據(jù)存儲(chǔ)策略1.表的歸并1.4數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)第一章數(shù)據(jù)倉(cāng)庫(kù)原理第80頁(yè),課件共90頁(yè),創(chuàng)作于2023年2月三、確定數(shù)據(jù)存儲(chǔ)策略1.表的歸并1.4.5數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)1.4數(shù)據(jù)倉(cāng)庫(kù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年鋰電池用特種玻璃粉項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告模范
- 2025年二手教練車(chē)銷(xiāo)售合同格式
- 2025年乳制品代理銷(xiāo)售合同
- 2025年阻沙固沙網(wǎng)項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告模板
- 2025年不動(dòng)產(chǎn)權(quán)購(gòu)房合同范本
- 2025年家禽購(gòu)銷(xiāo)合同協(xié)議
- 2025年陶瓷基體項(xiàng)目申請(qǐng)報(bào)告模范
- 2025年健身器材購(gòu)置合同
- 2025年合伙型股權(quán)分配合同
- 2025年度制造業(yè)租賃協(xié)議樣式
- 小學(xué)人教版五年級(jí)上冊(cè)數(shù)學(xué)填空達(dá)標(biāo)練習(xí)50題
- 北京市西城區(qū)2023-2024學(xué)年五年級(jí)上學(xué)期期末數(shù)學(xué)試卷
- 附屬醫(yī)院神經(jīng)內(nèi)科中長(zhǎng)期發(fā)展規(guī)劃五年發(fā)展規(guī)劃
- 營(yíng)養(yǎng)質(zhì)控中心管理制度
- 醫(yī)療文書(shū)病歷書(shū)寫(xiě)規(guī)范培訓(xùn)教學(xué)課件
- 某美術(shù)館物業(yè)管理方案
- 中醫(yī)中風(fēng)病(腦梗死)診療方案
- 網(wǎng)絡(luò)安全架構(gòu)設(shè)計(jì)和網(wǎng)絡(luò)安全設(shè)備部署
- 電烤箱的使用方法ppt
- Part03 Unit5 Celebrations課件【知識(shí)精研+拓展提升】 中職專用 高一英語(yǔ)高效課堂
- 小學(xué)體育-快速跑-途中跑教學(xué)課件設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論