數(shù)據(jù)倉庫模型與建立過程_第1頁
數(shù)據(jù)倉庫模型與建立過程_第2頁
數(shù)據(jù)倉庫模型與建立過程_第3頁
數(shù)據(jù)倉庫模型與建立過程_第4頁
數(shù)據(jù)倉庫模型與建立過程_第5頁
已閱讀5頁,還剩127頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)倉庫模型與建立過程第1頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)倉庫設(shè)計方法概述對比內(nèi)容數(shù)據(jù)庫系統(tǒng)設(shè)計數(shù)據(jù)倉庫系統(tǒng)設(shè)計面向的處理類型面向應用面向分析應用需求比較明確不太明確系統(tǒng)設(shè)計的目標事務處理的并發(fā)性、安全性、高效性保證數(shù)據(jù)的四個特征和全局一致性數(shù)據(jù)來源業(yè)務操作員的輸入業(yè)務系統(tǒng)系統(tǒng)設(shè)計的方法需求驅(qū)動數(shù)據(jù)驅(qū)動1數(shù)據(jù)倉庫和數(shù)據(jù)庫設(shè)計的區(qū)別1.1第2頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)倉庫設(shè)計方法概述1面向的處理類型1.2數(shù)據(jù)庫系統(tǒng)設(shè)計面向應用來進行設(shè)計,根據(jù)具體的操作事件和操作對象(實體)來進行設(shè)計;目的是建立一個操作型的數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫設(shè)計面向分析的;從最基本的主題開始,不斷完善已有主題,發(fā)展新主題;最終建立起一個面向主題的分析型數(shù)據(jù)環(huán)境。第3頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)倉庫設(shè)計方法概述1應用需求1.3數(shù)據(jù)庫系統(tǒng)設(shè)計面向明確的應用需求設(shè)計人員能夠清晰地了解應用的需求和數(shù)據(jù)流程數(shù)據(jù)倉庫設(shè)計很難獲得對用戶需求的確切了解應用人員往往是企業(yè)的中高層人員他們自己一開始不知道想看什么,需要人引導后期又想什么東西都看,需要給他解釋第4頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)倉庫設(shè)計方法概述1系統(tǒng)設(shè)計的目標1.4數(shù)據(jù)庫系統(tǒng)設(shè)計為了進行OLAP處理通常是對一個或者一組記錄的查詢和修改主要為企業(yè)的特定應用服務的事務處理響應時間、數(shù)據(jù)的安全性和完整性是系統(tǒng)的目標數(shù)據(jù)倉庫設(shè)計為了分析決策主要目標是保證數(shù)據(jù)的四個特征(面向主題、集成的、穩(wěn)定的、時變的),建立起一個全局一致的數(shù)據(jù)環(huán)境,作為企業(yè)決策支持的基礎(chǔ)第5頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)倉庫設(shè)計方法概述1數(shù)據(jù)來源1.5數(shù)據(jù)庫系統(tǒng)設(shè)計數(shù)據(jù)來源主要是業(yè)務操作員的輸入描述如何通過操作員輸入獲取數(shù)據(jù)描述如何將獲取的數(shù)據(jù)按照OLAP的需求合理存放如何使得OLTP的性能更加優(yōu)化如何保證事務處理的安全性數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)來源于業(yè)務系統(tǒng)主要解決如何從業(yè)務系統(tǒng)中得到完整一致的數(shù)據(jù)如何對數(shù)據(jù)進行轉(zhuǎn)換、清洗、綜合如何有效提高數(shù)據(jù)分析的效率與準確性第6頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)倉庫設(shè)計方法概述1兩者系統(tǒng)設(shè)計方法的不同1.6數(shù)據(jù)庫系統(tǒng)設(shè)計“需求驅(qū)動”,先收集需求、分析需求,再進行設(shè)計和開發(fā);系統(tǒng)的需求在收集和分析需求階段之后就定下來了,一旦進入構(gòu)建數(shù)據(jù)庫階段,系統(tǒng)的需求就基本不變了。所以系統(tǒng)設(shè)計一般采用系統(tǒng)生命周期法(SystemsDevelopmentLifeCycle,SDLC)。數(shù)據(jù)倉庫設(shè)計“數(shù)據(jù)驅(qū)動”,從業(yè)務系統(tǒng)已經(jīng)存在的數(shù)據(jù)出發(fā),獲取之后對數(shù)據(jù)進行集成并檢查數(shù)據(jù)的準確性按照分析領(lǐng)域?qū)?shù)據(jù)及數(shù)據(jù)之間的聯(lián)系重新考察,組織數(shù)據(jù)倉庫中的主題?!皵?shù)據(jù)驅(qū)動”的系統(tǒng)設(shè)計方法的優(yōu)點是可以通過了解原有數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)和需要建設(shè)的數(shù)據(jù)倉庫中主題的數(shù)據(jù)的共同性,最大限度地利用現(xiàn)有系統(tǒng),減少系統(tǒng)建設(shè)的工作量。對這種需求不確定的開發(fā)過程,設(shè)計方法有很大的不同,采用與SDLC相反的CLDS法。第7頁,共132頁,2023年,2月20日,星期六收集應用需求分析應用需求構(gòu)建數(shù)據(jù)庫應用編程系統(tǒng)測試系統(tǒng)實施DB應用A應用B應用C數(shù)據(jù)倉庫建模數(shù)據(jù)獲取與集成構(gòu)建數(shù)據(jù)倉庫DSS應用編程系統(tǒng)測試理解需求DWDBDB外部數(shù)據(jù)數(shù)據(jù)倉庫設(shè)計方法概述1兩者系統(tǒng)設(shè)計方法的不同1.6

SDLC方法

CLDS方法第8頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)倉庫的三級模型2流行的的三級模型2.1概念模型(設(shè)計定義和主要工作)從客觀世界到主觀認識的映射首先將現(xiàn)實世界抽象為概念模型,然后再用適合計算機世界的模型和語言來描述邏輯模型(設(shè)計定義和主要工作)數(shù)據(jù)倉庫一般是建立在關(guān)系數(shù)據(jù)庫基礎(chǔ)上,所以采用的邏輯模型是關(guān)系模型主題還有主題之間的關(guān)系都用關(guān)系來表示邏輯模型描述了數(shù)據(jù)倉庫的主題的邏輯實現(xiàn),每個主題對應關(guān)系表的關(guān)系模式的定義物理模型(設(shè)計定義和主要工作)邏輯模型在數(shù)據(jù)倉庫中的實現(xiàn),如數(shù)據(jù)存儲結(jié)構(gòu)、數(shù)據(jù)的索引策略、數(shù)據(jù)的存儲策略以及存儲分配優(yōu)化等第9頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)倉庫的三級模型2Inmon提出的三級模型2.2高級模型即概念模型,用E-R圖表示首先將現(xiàn)實世界抽象為概念模型,然后再用適合計算機世界的模型和語言來描述中級模型數(shù)據(jù)項(Dataitemset,DIS)模型E-R圖的細分每個主題都與一個DIS對應DIS中的數(shù)據(jù)份為4個組別:基本數(shù)據(jù)組、二級數(shù)據(jù)組、連接數(shù)據(jù)組和類型數(shù)據(jù)組低級模型物理數(shù)據(jù)模型第10頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)倉庫的三級模型2Inmon提出的三級模型2.2客戶ID姓名性別身份證號碼住址文化程度電話Email商品ID交易ID商品金額購買時間交易ID商品金額購買時間交易ID商品金額購買時間連接數(shù)據(jù)組基本數(shù)據(jù)組類型數(shù)據(jù)組二級數(shù)據(jù)組電器服裝圖書第11頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)倉庫概念模型3概念模型的定義和主要工作3.1概念模型是數(shù)據(jù)倉庫的數(shù)據(jù)模型的第一層或最高層。由于大多數(shù)業(yè)務數(shù)據(jù)是多維的,但傳統(tǒng)的數(shù)據(jù)模型表示三維以上的數(shù)據(jù)有一定困難。數(shù)據(jù)倉庫中可以采用信息包圖來表示概念模型信息包圖允許用戶設(shè)計多維信息包并與開發(fā)者和其他用戶建立聯(lián)系。這種模型集中在用戶對信息包的需要,信息包提供了分析人員思維模式的可視化表示。工作確定系統(tǒng)邊界:決策類型、需要的信息、原始信息確定主題域及其內(nèi)容:主題域的公共鍵碼、主題域之間的聯(lián)系、屬性組確定維度:如時間維、銷售位置維、產(chǎn)品維、組別維等確定級別:相應維的詳細層次確定度量:也稱指標和事實,用于進行分析的數(shù)值化信息第12頁,共132頁,2023年,2月20日,星期六 維度級別

度量3信息包圖3.2數(shù)據(jù)倉庫的概念模型信息包:第13頁,共132頁,2023年,2月20日,星期六〖例〗畫出銷售分析的信息包圖概念首先根據(jù)銷售分析的實際需求,確定信息包的維度、類別和指標與事實:維度:包括日期維、銷售地點維、銷售產(chǎn)品維、年齡組別維、性別維等。(維度)級別:確定各維的詳細類別如:日期維包括年(10)、季度(40)、月(120)等類別,括號中的數(shù)字分別指出各類別的數(shù)量;銷售地點維包括國家(15)、區(qū)域(45)、城市(280)、區(qū)(880)、商店(2000)等類別,括號中的數(shù)字同樣分別指出各類別的數(shù)量;類似地,可以確定銷售產(chǎn)品、年齡組別維、性別維等的詳細類別。度量:確定用于進行分析的數(shù)值化信息,包括預測銷售量、實際銷售量和預測偏差等。3信息包圖3.2數(shù)據(jù)倉庫的概念模型第14頁,共132頁,2023年,2月20日,星期六度量:預測銷售量、實際銷售量、預測偏差商店(2000)區(qū)(880)產(chǎn)品(240)城市(280)月(120)產(chǎn)品組(48)區(qū)域(45)季度(40)性別組(2)年齡組(8)產(chǎn)品類(6)國家(15)年(10)性別年齡組別銷售產(chǎn)品銷售地點日期信息包:銷售分析 維度級別3信息包圖3.2數(shù)據(jù)倉庫的概念模型第15頁,共132頁,2023年,2月20日,星期六維度是一個物理特性(如時間、地點、產(chǎn)品等),它是表達數(shù)據(jù)倉庫中信息的一個基本途徑,可作為標識數(shù)據(jù)的索引。通常的報表只包含有行和列兩維,但在數(shù)據(jù)倉庫中所存儲的數(shù)據(jù)大多是用多維(三維或三維以上)視圖表示的。維度是多維數(shù)據(jù)集的結(jié)構(gòu)性特性。它們是事實數(shù)據(jù)表中用來描述數(shù)據(jù)的分類的有組織的層次結(jié)構(gòu)(級別)。這些分類和級別描述了一些相似的成員集合。所有維度均直接或間接地基于表,定義此維度的列,選擇列的順序至關(guān)重要。數(shù)據(jù)倉庫概念模型3維度的定義3.3第16頁,共132頁,2023年,2月20日,星期六選擇下表中的“區(qū)域”列,再選擇“州”列,即可定義維度。State_id區(qū)域州1 東部 緬因2 東部 俄亥俄 3 西部 愛達荷4 西部 德克薩斯第17頁,共132頁,2023年,2月20日,星期六3維度定義3.3數(shù)據(jù)倉庫概念模型4月份我在北京賣掉了價值十萬美元的可樂例子1第18頁,共132頁,2023年,2月20日,星期六關(guān)系數(shù)據(jù)庫的記錄視圖:產(chǎn)品時間地區(qū)銷量VCD機2002.3.10北京5728傳真機2002.3.10北京6739刻錄機2002.3.10北京3976復印機2002.3.10北京6395打印機2002.3.10上海6365傳真機2002.3.10上海67443維度定義3.3數(shù)據(jù)倉庫概念模型例子2第19頁,共132頁,2023年,2月20日,星期六多維數(shù)據(jù)庫視圖:時間02.3.1002.3.11上海北京VCD地區(qū)產(chǎn)品57826365傳統(tǒng)型:二維(關(guān)系型)記錄、字段數(shù)據(jù)倉庫:多維(立方體)維、單一事實第20頁,共132頁,2023年,2月20日,星期六傳統(tǒng)型的一個二維表,在數(shù)據(jù)倉庫中可能需要多個立方體來表示;數(shù)據(jù)倉庫的一個立方體可能由多個傳統(tǒng)型的表組成;產(chǎn)品時間地區(qū)數(shù)量金額VCD機2002.3.10北京57282345556銷售數(shù)量立方體銷售金額立方體一個二維表的數(shù)據(jù)可裝載到兩個立方體第21頁,共132頁,2023年,2月20日,星期六維的層次:關(guān)系數(shù)據(jù)庫在字段上做文章,數(shù)據(jù)倉庫在維上做文章;維不僅是查詢數(shù)據(jù)的一個角度,而且提供查詢的深度;年所有產(chǎn)品全國季產(chǎn)品大類地區(qū)月產(chǎn)品小類城市日產(chǎn)品超市同一屬性數(shù)據(jù)可有多種歸類層次:顧客->性別->所有顧客、顧客->文化程度->所有顧客第22頁,共132頁,2023年,2月20日,星期六時間維每個數(shù)據(jù)倉庫都用到無限的;粒度要求高時,細分數(shù)據(jù)劇增。第23頁,共132頁,2023年,2月20日,星期六維度的分解與合成是在一個維度內(nèi)進一步細分數(shù)據(jù)或?qū)?shù)據(jù)按照另一標準組合的過程。例如,當以地理位置維觀察數(shù)據(jù)時,用戶可以首先以國家(如中國)為單位觀察數(shù)據(jù),然后可以選擇觀察某一個地區(qū)(如華東地區(qū))的數(shù)據(jù),接下來可以選擇觀察某一個省或城市(如上海)的數(shù)據(jù),這就是數(shù)據(jù)分解的過程。而合成則是分解的逆過程,例如用戶開始以省市為觀察對象,接著再以地區(qū)、國家等為觀察對象,就是一個數(shù)據(jù)合成的過程。數(shù)據(jù)倉庫概念模型3維度的定義3.3第24頁,共132頁,2023年,2月20日,星期六我們有大量的會員年齡在20–60歲月薪在0–8000元55%的會員被我們認可為忠實會員(好會員)55%會員都是些什么會員?數(shù)據(jù)倉庫概念模型3維度的定義3.3維度分解的例子第25頁,共132頁,2023年,2月20日,星期六維度分解的例子第26頁,共132頁,2023年,2月20日,星期六維度分解的例子第27頁,共132頁,2023年,2月20日,星期六維度分解的例子第28頁,共132頁,2023年,2月20日,星期六維度合成的例子NameStatusMajorBirthPlaceGPAAndersonM.A.historyVancouver3.5BachJuniormathCalgary3.7CarltonJuniorliberalartEdmonton2.6FraserM.S.physicsOttawa3.9GuptaPh.D.mathBombay3.3HartSophomorechemistryRichmond2.7JacksonSeniorcomputingVictoria3.5LiuPh.D.biologyShanghai3.4……………MeyerSophomoremusicBurnaby3.0MonkPh.D.computingVictoria3.8WangM.S.statisticsNanjing3.2WiseFreshmanliteratureToronto3.9加拿大某大學數(shù)據(jù)庫第29頁,共132頁,2023年,2月20日,星期六

ANY

Canadaforeign

B.COntario…ChinaIndia……

Vancouver…Victoria……Beijing….Bombay…

“出生地”維度之級別維度合成的例子第30頁,共132頁,2023年,2月20日,星期六{Bumaby,…..,Vancouver,Victoria}

BritishColumbia{Calgary,…..Edmonton,

Lethbridge}

Alberta{Hamilton,Toronto,Waterloo}

Ontario{Bombay,…..,NewDelhi}

India{Beijing,Nanjing,…..,Shanghai}

China{India,China}

foreign{BritishColumbia,Alberta,…..,Ontario}

Canada{foreign,Canada}

ANY(place)維度合成的例子第31頁,共132頁,2023年,2月20日,星期六{biology,chemistry,computing,…..,physics}

science{literature,music,…..,painting}

art{science,art}ANY(major){freshman,sophomore,junior,senior}

undergraduate{M.S.,M.A.,Ph.D.}

graduate{undergraduate,graduate}

ANY(status){0.0-1.99}

poor{2.0-2.99}

average{3.0-3.99}

good{4.0-4.99}

excellent{poor,average,good,excellent}

ANY(grade)維度合成的例子第32頁,共132頁,2023年,2月20日,星期六年級與學位之維度級別freshmansophomorejuniorseniorM.S.M.A.Ph.DundergraduategraduateANY維度合成的例子第33頁,共132頁,2023年,2月20日,星期六維度合成的例子將研究生數(shù)據(jù)合成出來NamesMajorBirthPlaceGPAVoteAndersonhistoryVancouver3.51FraserphysicsOttawa3.91GuptamathBombay3.31LiubiologyShanghai3.41……………MonkcomputingVictoria3.81WangstaisticsNanjing3.21第34頁,共132頁,2023年,2月20日,星期六策略1:屬性移除(AttributeRemoval)

Names這個屬性中有許多不同的屬性值,且沒有較高的概念層級可以表示它,所以Names屬性可以被移除

MajorBirthPlaceGPAVotehistoryVancouver3.51physicsOttawa3.91mathBombay3.31biologyShanghai3.41…………computingVictoria3.81staisticsNanjing3.21第35頁,共132頁,2023年,2月20日,星期六策略2:維級別的爬升

假如某一屬性在概念階層中存在著一個更高層級的概念,則該屬性值就以其更高層級的值來取代“history”、“physics”、“math”、“biology”會由“science”取代“l(fā)iterature”、“music”、“painting”會由“art”取代第36頁,共132頁,2023年,2月20日,星期六策略3:數(shù)據(jù)計數(shù)的傳播(votepropagation)屬性值向上爬升后,若產(chǎn)生相同的tuple,則將相同的tuple合并為一筆一般化tuple,并將vote值累加到歸納后的tuple中MajorBirth_PlaceGPAVoteartB.Cexcellent35scienceOntarioexcellent10scienceB.Cexcellent30scienceIndiagood10scienceChinagood15第37頁,共132頁,2023年,2月20日,星期六MajorBirth_PlaceGPAVoteArtCanadaexcellent35ScienceCanadaexcellent40ScienceForeigngood25MajorBirth_PlaceGPAVote{art,science}CanadaExcellent75ScienceForeigngood25策略3:數(shù)據(jù)計數(shù)的傳播(votepropagation)第38頁,共132頁,2023年,2月20日,星期六層次結(jié)構(gòu)是維度中成員的集合以及這些成員之間的相對位置。對于由數(shù)據(jù)挖掘模型創(chuàng)建的維度,其層次結(jié)構(gòu)代表該挖掘模型的節(jié)點結(jié)構(gòu)。(1)均衡層次結(jié)構(gòu)和不均衡層次結(jié)構(gòu)在均衡層次結(jié)構(gòu)中,層次結(jié)構(gòu)的所有分支都降至同一級別,而且每個成員的邏輯父代就是其上一級成員。所有的葉節(jié)點與根節(jié)點的距離相同洲—法國—巴黎洲—英國—倫敦

在不均衡層次結(jié)構(gòu)中,層次結(jié)構(gòu)的分支降至不同級別。葉節(jié)點距根節(jié)點的距離不同的維度層次結(jié)構(gòu)

CEO—職員CEO—部門經(jīng)理—職員數(shù)據(jù)倉庫概念模型3維度的層次結(jié)構(gòu)3.4第39頁,共132頁,2023年,2月20日,星期六(2)不齊整層次結(jié)構(gòu)在不齊整層次結(jié)構(gòu)中,一個成員的邏輯父代至少有一個并不直接位于該成員上一級。這將導致層次結(jié)構(gòu)的分支降至不同的級別。例如,Geography維度由級別Country、Province和City組成。Geneva的邏輯父代是Switzerland,因為Switzerland沒有劃分省份。(3)具有多個層次結(jié)構(gòu)的維度數(shù)據(jù)倉庫概念模型3維度的層次結(jié)構(gòu)3.4第40頁,共132頁,2023年,2月20日,星期六度量是基于特定維度的一組事實或指標。度量值是一組值,基于事實數(shù)據(jù)表中的一列,而且通常為數(shù)字。例如一個多維數(shù)據(jù)集具有以下架構(gòu)和單個度量值Sales(基于Sales事實數(shù)據(jù)表中的Sales_Amount列)。數(shù)據(jù)倉庫概念模型3度量和度量值3.6第41頁,共132頁,2023年,2月20日,星期六使用聚合函數(shù)計算度量值使用聚合函數(shù)(Sum、Min、Max、Count等),可以獲得并查詢到需要的各種值,比如:1.對customerA,retailstoreA和productA的Sales度量值的查詢返回為8002.對customerA,retailstoreA和productcategoryAB的Sales度量值的查詢返回4數(shù)據(jù)倉庫概念模型3度量和度量值3.6第42頁,共132頁,2023年,2月20日,星期六單元是多維數(shù)據(jù)集的原子元素,或者為來自與該多維數(shù)據(jù)集相關(guān)聯(lián)的每個維度的某個成員的唯一邏輯交集。實質(zhì)上,多維數(shù)據(jù)集由按度量值、級別以及維度組織的單元組成。數(shù)據(jù)倉庫概念模型3單元3.7第43頁,共132頁,2023年,2月20日,星期六例如,下列關(guān)系圖描述的多維數(shù)據(jù)集有一個帶陰影的單元“源”維度的“航空”成員。"路線"維度的"非洲"成員?!皶r間”維度的“第四季度”成員。"度量值"維度的"包"成員。第44頁,共132頁,2023年,2月20日,星期六計算單元由下列三個元素構(gòu)造1.計算子多維數(shù)據(jù)集維度(包括Measures維度)的所有成員,該選項通常不包括計算成員。維度(包括Measures維度)的單個指定的成員。維度中指定級別上的所有成員,該選項通常不包括計算成員。維度中指定成員的所有后代。維度中指定級別上指定成員的所有后代。解析為包含上述集合之一的集合中的MDX表達式。該列集合與該列集合中未指定的所有其它維度的每個其它成員的組合定義計算子多維數(shù)據(jù)集。數(shù)據(jù)倉庫概念模型3單元3.7第45頁,共132頁,2023年,2月20日,星期六2.計算條件進一步限制計算單元功能應用的MDX邏輯表達式。3.計算公式用來計算包含于計算子多維數(shù)據(jù)集中的單元的值的MDX值表達式。數(shù)據(jù)倉庫概念模型3單元3.7第46頁,共132頁,2023年,2月20日,星期六多維數(shù)據(jù)集是包含維度和度量值的多維結(jié)構(gòu)。維度定義多維數(shù)據(jù)集的結(jié)構(gòu),而度量值提供最終用戶感興趣的數(shù)值。多維數(shù)據(jù)集內(nèi)的單元位置由各維度成員的交集確定,通過對度量值進行聚合得到單元中的值。多維數(shù)據(jù)集提供一種便于使用的查詢數(shù)據(jù)的機制,不但快捷,而且響應時間一致。一個多維數(shù)據(jù)集最多可包含128個維度(每個維度中可包含數(shù)百萬成員)和1,024個度量值。數(shù)據(jù)倉庫概念模型3多維數(shù)據(jù)集3.7第47頁,共132頁,2023年,2月20日,星期六多維數(shù)據(jù)集結(jié)構(gòu)每個多維數(shù)據(jù)集架構(gòu)均包括一個事實數(shù)據(jù)表以及一個或多個維度表。多維數(shù)據(jù)集的度量值出自事實數(shù)據(jù)表中的列,多維數(shù)據(jù)集的維度出自維度表中的列。多維數(shù)據(jù)集存儲可以使用不同的技術(shù)和多種模式存儲多維數(shù)據(jù)集的數(shù)據(jù)和聚合。多維數(shù)據(jù)集需要大量存儲空間,用以包含多維結(jié)構(gòu)中的數(shù)據(jù)和聚合。影響存儲空間要求的一個因素是稀疏度。數(shù)據(jù)倉庫概念模型3多維數(shù)據(jù)集3.7第48頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)倉庫邏輯模型4邏輯模型的定義和主要工作4.1邏輯模型是數(shù)據(jù)倉庫數(shù)據(jù)模型的第二層。與傳統(tǒng)的關(guān)系模型相比,簡化了用戶分析所需的關(guān)系,進而數(shù)據(jù)結(jié)構(gòu)也得到簡化從支持決策的角度去定義數(shù)據(jù)實體,更適合大量復雜查詢。有多個維(度)表,但是只有一個事實表通常有兩種邏輯模型表示法:星型模型和雪花模型工作分析主題,定義邏輯模型(星型模型或雪花模型)確定數(shù)據(jù)粒度的選擇確定數(shù)據(jù)分割策略如需要,增加導出字段等第49頁,共132頁,2023年,2月20日,星期六星形模型包含三種邏輯實體:維度表邏輯上通過key關(guān)聯(lián)維度表往往包含相當多的屬性典型的屬性是文本的、離散的維度往往含有層次(級別)主鍵(primarykey)往往是系統(tǒng)產(chǎn)生的很可能是共享的事實表對應聯(lián)系數(shù)據(jù)倉庫邏輯模型4星型模型4.2第50頁,共132頁,2023年,2月20日,星期六星形模型包含三種邏輯實體:維度表事實表一個數(shù)據(jù)倉庫(OLAP)模型只有一個事實表事實表經(jīng)常有百萬行或更多事實往往是數(shù)字“量度”有些事實可以被累加,另一些不能最小粒度原則不歡迎描述性屬性(瘦高vs.矮胖)對應聯(lián)系數(shù)據(jù)倉庫邏輯模型4星型模型4.2第51頁,共132頁,2023年,2月20日,星期六星形模型包含三種邏輯實體:維度表事實表對應聯(lián)系維度表與事實表不是絕對的同一個表,可以同時是維度表與事實表同一個表,可以有時是維度表,有時是事實表一個事實表對應多個不同維表一個維表可對應不同的事實表數(shù)據(jù)倉庫邏輯模型4星型模型4.2第52頁,共132頁,2023年,2月20日,星期六示例1數(shù)據(jù)倉庫邏輯模型4星型模型4.2第53頁,共132頁,2023年,2月20日,星期六示例2DateMonthYearDateCustIdCustNameCustCityCustCountryCustSalesFactTable

DateProduct

Store

Customer

unit_salesdollar_salesYen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore數(shù)據(jù)倉庫邏輯模型4星型模型4.2第54頁,共132頁,2023年,2月20日,星期六示例3數(shù)據(jù)倉庫邏輯模型4星型模型4.2第55頁,共132頁,2023年,2月20日,星期六星形模式時間維事實表示例3第56頁,共132頁,2023年,2月20日,星期六多維模型事實度量(Metrics)時間維時間維的屬性第57頁,共132頁,2023年,2月20日,星期六雪花模型的特點維表進一步層次化,改善查詢性能增加表數(shù)量,增加查詢復雜性節(jié)省存儲空間層次性好數(shù)據(jù)倉庫邏輯模型4雪花模型4.3第58頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)倉庫邏輯模型4雪花模型4.3示例1第59頁,共132頁,2023年,2月20日,星期六

DateMonthDateCustIdCustNameCustCityCustCountryCustSalesFactTableDateProduct

Store

Customer

unit_sales

dollar_sales

Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductMonthYearMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStore數(shù)據(jù)倉庫邏輯模型4雪花模型4.3示例2第60頁,共132頁,2023年,2月20日,星期六兩種模型比較星型模型通過預連接和建立有選擇的數(shù)據(jù)冗余,為用戶訪問和分析過程大大簡化了數(shù)據(jù)。星型模型效率比較高,因為雪花模型維表層次多,查詢的時候連接操作較多。雪花模型通過最大限度的減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能。雪花模型增加了用戶必須處理的表數(shù)量,增加了某些查詢的復雜性,但這種方式可以使系統(tǒng)進一步專業(yè)化和實用化,同時降低了系統(tǒng)的通用程度。

雪花模型的維表可能是規(guī)范化形式,以便減少冗余,易于維護,節(jié)省存儲空間。

數(shù)據(jù)倉庫邏輯模型4邏輯模型類型選擇4.4第61頁,共132頁,2023年,2月20日,星期六選擇建議星型模型結(jié)構(gòu)效率上優(yōu)于雪花模型,首選星型如果存儲空間上存在瓶頸,可以考慮使用雪花模型如果維護方面要求簡便性,可以考慮使用雪花模型數(shù)據(jù)倉庫邏輯模型4邏輯模型類型選擇4.4第62頁,共132頁,2023年,2月20日,星期六產(chǎn)品銷售事實表:銷售記錄銷售額成本產(chǎn)品件數(shù)維度表時間產(chǎn)品銷售人員客戶商店促銷數(shù)據(jù)倉庫邏輯模型4幾個典型的數(shù)據(jù)倉庫應用模型4.5第63頁,共132頁,2023年,2月20日,星期六網(wǎng)站分析事實表:點擊記錄人次數(shù)人數(shù)維度表時間網(wǎng)站IP(地域)瀏覽器數(shù)據(jù)倉庫邏輯模型4幾個典型的數(shù)據(jù)倉庫應用模型4.5第64頁,共132頁,2023年,2月20日,星期六電信行業(yè)事實表:打電話的記錄通話時間本地費長途費維度表時間客戶年齡客戶信息手機型號電信服務類型數(shù)據(jù)倉庫邏輯模型4幾個典型的數(shù)據(jù)倉庫應用模型4.5第65頁,共132頁,2023年,2月20日,星期六財務/預算分析事實表:財務歷史實際費用預算費用維度表時間部門科目數(shù)據(jù)倉庫邏輯模型4幾個典型的數(shù)據(jù)倉庫應用模型4.5第66頁,共132頁,2023年,2月20日,星期六4.6粒度選擇4數(shù)據(jù)倉庫邏輯模型高度綜合級輕度綜合級當前綜合級早期細節(jié)級多級數(shù)據(jù)組織結(jié)構(gòu)每月電話呼叫信息每天電話呼叫信息電話呼叫情況信息電話呼叫明細信息第67頁,共132頁,2023年,2月20日,星期六粒度的第一種形式粒度:對數(shù)據(jù)倉庫中的數(shù)據(jù)綜合程度高低的一個度量,它既影響數(shù)據(jù)倉庫中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉庫所能回答詢問的種類。粒度越小,綜合程度越低,回答查詢的種類越多;粒度越高,綜合程度越高,查詢的效率也越高。在數(shù)據(jù)倉庫中可將小粒度的數(shù)據(jù)存儲在低速存儲器上;大粒度的數(shù)據(jù)存儲在高速存儲器上。4.6粒度選擇4數(shù)據(jù)倉庫邏輯模型第68頁,共132頁,2023年,2月20日,星期六粒度的第二種形式:樣本數(shù)據(jù)庫樣本數(shù)據(jù)庫:在分析過程中,有許多探索的過程有時分析的目的并不要求精確的結(jié)果,只需要得到相對準確、能反映趨勢的數(shù)據(jù),所以可以提取出樣本數(shù)據(jù)庫。樣本數(shù)據(jù)庫的粒度:是根據(jù)采樣率的高低來劃分的,采樣粒度不同的樣本數(shù)據(jù)庫可以具有相同的綜合級別,它是按一定的采樣率從細節(jié)數(shù)據(jù)庫或輕度綜合數(shù)據(jù)庫中提取的一個子集。樣本數(shù)據(jù)庫的抽取按照數(shù)據(jù)的重要程度不同進行,利用樣本數(shù)據(jù)庫采集重要數(shù)據(jù)進行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。4.6粒度選擇4數(shù)據(jù)倉庫邏輯模型第69頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)粒度級別原因:數(shù)據(jù)倉庫中數(shù)據(jù)量不同,需要解決的問題多種多樣(細節(jié)問題、綜合問題)因此,不同的問題采用不同的數(shù)據(jù)粒度級別。在數(shù)據(jù)量較小的環(huán)境下,可以采用單一的數(shù)據(jù)粒度;對于大數(shù)據(jù)量,需要采用雙重或多重粒度單一粒度直接存儲細節(jié)數(shù)據(jù)并定期在細節(jié)數(shù)據(jù)基礎(chǔ)上進行數(shù)據(jù)綜合從數(shù)據(jù)裝載之后,所有細節(jié)數(shù)據(jù)都將保留在數(shù)據(jù)倉庫中存儲期限(5~10年)到了之后,才會導到后備設(shè)備(如磁帶)中4.6粒度選擇4數(shù)據(jù)倉庫邏輯模型第70頁,共132頁,2023年,2月20日,星期六雙重粒度對于細節(jié)數(shù)據(jù)只保留近期的數(shù)據(jù)在數(shù)據(jù)倉庫中,當保留周期到達時,將距離當前較遠的數(shù)據(jù)導出到磁盤上,從而為新的數(shù)據(jù)騰出空間。數(shù)據(jù)倉庫中只保留在細節(jié)數(shù)據(jù)保留周期內(nèi)的數(shù)據(jù),對于這個周期之后的信息,數(shù)據(jù)倉庫只保留其綜合數(shù)據(jù)。兩者的區(qū)別細節(jié)數(shù)據(jù)在數(shù)據(jù)倉庫的高速存儲設(shè)備中存儲的時間長短不同4.6粒度選擇4數(shù)據(jù)倉庫邏輯模型第71頁,共132頁,2023年,2月20日,星期六如何確定數(shù)據(jù)粒度粒度選擇的標準主要是數(shù)據(jù)倉庫表的總行數(shù)。因為數(shù)據(jù)的存取通常是通過存取索引來實現(xiàn)的,而索引是對應表的行來組織的,即在某一索引中每一行總有個索引項,索引的大小只與表的總行數(shù)有關(guān),而與表的數(shù)據(jù)量無關(guān)。Inmon的數(shù)據(jù)粒度策略4.6粒度選擇4數(shù)據(jù)倉庫邏輯模型必須用雙重粒度且需認真設(shè)計20,000,00010,000,000最好使用雙重粒度10,000,0001,000,000如使用單一粒度,需認真設(shè)計1,000,000100,000單一粒度,設(shè)計簡單100,00010,000數(shù)據(jù)粒度策略5年內(nèi)數(shù)據(jù)量(行)1年內(nèi)數(shù)據(jù)量(行)第72頁,共132頁,2023年,2月20日,星期六影響粒度層次劃分的幾個因素要接受的分析類型粒度層次越高,就越不能進行細節(jié)分析如最低粒度層次定義為月份時,就不能進行按日匯總信息分析可接受的最低粒度粒度劃分策略一定要保證數(shù)據(jù)的粒度確實能夠滿足用戶的決策分析需要。能存儲數(shù)據(jù)的存儲容量若存儲容量有限,則只能采用較高粒度的數(shù)據(jù)粒度劃分策略4.6粒度選擇4數(shù)據(jù)倉庫邏輯模型第73頁,共132頁,2023年,2月20日,星期六分割及其標準:分割:將邏輯上統(tǒng)一的數(shù)據(jù)分散到各自的物理單元中去以便能分別處理,提高數(shù)據(jù)處理效率,數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片。數(shù)據(jù)分割的標準:可按日期、地域、業(yè)務領(lǐng)域或按多個分割標準的組合。數(shù)據(jù)分割的目的:便于進行數(shù)據(jù)的重構(gòu)、索引、重組、恢復、監(jiān)控、掃描4.7確定數(shù)據(jù)分割策略4數(shù)據(jù)倉庫邏輯模型第74頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)分割考慮的因素數(shù)據(jù)量的大小數(shù)據(jù)量較小,可以不進行分割,或只用單一標準進行分割數(shù)據(jù)量很大,應當采用多重標準的組合來較細致地分割數(shù)據(jù)數(shù)據(jù)分析處理的實際情況數(shù)據(jù)分割是跟數(shù)據(jù)分析處理的對象緊密聯(lián)系的。簡單易行選擇用于數(shù)據(jù)分割的標準應當是自然的、易于實施的與粒度的劃分策略相統(tǒng)一同一粒度層次上的數(shù)據(jù)需要進行分割時,應當按照劃分粒度層次時使用的標準進行分割數(shù)據(jù)的穩(wěn)定性數(shù)據(jù)倉庫中的數(shù)據(jù)追加頻率不同,有的快,有的慢,將不同變化頻度的數(shù)據(jù)放在不同的表中進行更新處理4.7確定數(shù)據(jù)分割策略4數(shù)據(jù)倉庫邏輯模型第75頁,共132頁,2023年,2月20日,星期六定義導出字段是在原始數(shù)據(jù)的基礎(chǔ)上進行總結(jié)或計算而生成的數(shù)據(jù)這些數(shù)據(jù)可以在以后的應用中直接利用,避免了重復計算4.8增加導出字段4數(shù)據(jù)倉庫邏輯模型藥物ID出現(xiàn)次數(shù)總劑量方劑ID藥物ID劑量……方劑ID藥物ID劑量…………方劑ID藥物ID劑量……第76頁,共132頁,2023年,2月20日,星期六分布存儲方式采用磁盤陣列在多個節(jié)點間分布的方式來存儲數(shù)據(jù)物理上是分布的,但是邏輯上是統(tǒng)一的5.1存儲結(jié)構(gòu)5數(shù)據(jù)倉庫物理模型內(nèi)部高速網(wǎng)絡模塊0互聯(lián)I/OSCSI/FC網(wǎng)絡I/O模塊1互聯(lián)I/OSCSI/FC網(wǎng)絡I/O模塊N互聯(lián)I/OSCSI/FC網(wǎng)絡I/O…存儲存儲接外部網(wǎng)絡SCSI(SmallComputerSystemInterface)FC(FibreChannel)第77頁,共132頁,2023年,2月20日,星期六集中式數(shù)據(jù)存儲方式將現(xiàn)有SAN(StorageAreaNetwork,存儲局域網(wǎng))或者NAS(NetworkAttachedStorage,網(wǎng)絡接入存儲)作為服務器的存儲部分直接通過FC交換機來直接訪問所有的數(shù)據(jù)而不需要通過其他節(jié)點可以將節(jié)點從數(shù)據(jù)存儲管理的負擔中解脫出來,實現(xiàn)數(shù)據(jù)處理和數(shù)據(jù)存儲的分離。5.1存儲結(jié)構(gòu)5數(shù)據(jù)倉庫物理模型第78頁,共132頁,2023年,2月20日,星期六5.1存儲結(jié)構(gòu)5數(shù)據(jù)倉庫物理模型內(nèi)部高速網(wǎng)絡模塊0互聯(lián)I/OSCSI/FC網(wǎng)絡I/O模塊1互聯(lián)I/OSCSI/FC網(wǎng)絡I/O模塊N互聯(lián)I/OSCSI/FC網(wǎng)絡I/O…接外部網(wǎng)絡FC交換機RAID存儲子系統(tǒng)第79頁,共132頁,2023年,2月20日,星期六5.1存儲結(jié)構(gòu)5數(shù)據(jù)倉庫物理模型RAID磁盤陣列廉價冗余磁盤陣列(RedundantArrayofInexpensiveDisk)是一種采用多磁盤驅(qū)動器來存儲數(shù)據(jù)的數(shù)據(jù)存儲系統(tǒng)分為6個級別:RAID0、1、2、3、4、5及RAID0+1,2、3、4使用頻率較低,5、0、1、0+1使用較多。在RAID的各個級別中,RAID1和RAID0+1提供最佳的數(shù)據(jù)保護和最佳性能,但是就所需的磁盤而言會需要更多的成本。當硬盤成本不是限制因素時,就兼顧性能和容錯而言,RAID1或RAID0+1是最佳選擇。RAID5的成本比RAID1或RAID0+1低,但是它提供的容錯和寫入性能較差。RAID5的寫入性能大約只是RAID1或RAID0+1的一半,這是因為RAID5讀取和寫入奇偶校驗信息需要額外的I/O。

第80頁,共132頁,2023年,2月20日,星期六5.1存儲結(jié)構(gòu)5數(shù)據(jù)倉庫物理模型RAID0因為該級別使用名為條帶集的磁盤文件系統(tǒng),所以又將它稱作磁盤條帶。數(shù)據(jù)被劃分成多個塊并按固定順序分布到陣列中的所有磁盤上。RAID0將多個操作分布到多個磁盤上,以便可以同時獨立地執(zhí)行這些操作,從而改善了讀取/寫入性能。RAID0類似于RAID5,但是RAID5還提供容錯功能。第81頁,共132頁,2023年,2月20日,星期六5.1存儲結(jié)構(gòu)5數(shù)據(jù)倉庫物理模型RAID1因為該級別使用名為鏡像集的磁盤文件系統(tǒng),所以又將它稱作磁盤鏡像。磁盤鏡像可提供一個與所選磁盤完全相同的冗余副本。寫入主磁盤的所有數(shù)據(jù)都會寫入鏡像磁盤。RAID1提供了容錯功能,而且通??梢愿倪M讀取性能(但是可能會降低寫入性能)

第82頁,共132頁,2023年,2月20日,星期六5.1存儲結(jié)構(gòu)5數(shù)據(jù)倉庫物理模型RAID2RAID2是為大型機和超級計算機開發(fā)的帶校驗磁盤陣列。磁盤驅(qū)動器組中的第1、第2、第4、第2n個磁盤驅(qū)動器是專門的校驗盤(hammingcode)。如下圖:第1、2、4個磁盤驅(qū)動器(紅色)是糾錯盤,其余的(紫色)用于存放數(shù)據(jù)。RAID2對大數(shù)據(jù)量的讀寫具有極高的性能,但少量數(shù)據(jù)的讀寫時性能反而不好,所以RAID2實際使用較少。

第83頁,共132頁,2023年,2月20日,星期六5.1存儲結(jié)構(gòu)5數(shù)據(jù)倉庫物理模型RAID3該級別使用與RAID2相同的條帶化方法,但是糾錯方法只需一個磁盤用于奇偶校驗數(shù)據(jù)。磁盤空間的使用情況因數(shù)據(jù)磁盤的數(shù)量而異。RAID3在讀取/寫入性能方面提供一些改進,按橫條。RAID3也極少使用。第84頁,共132頁,2023年,2月20日,星期六5.1存儲結(jié)構(gòu)5數(shù)據(jù)倉庫物理模型RAID4該級別使用的條帶數(shù)據(jù)塊或段比RAID2或RAID3大得多,按豎條。與RAID3一樣,糾錯方法只需一個磁盤用于奇偶校驗數(shù)據(jù)。它將用戶數(shù)據(jù)與糾錯數(shù)據(jù)分開。RAID4不如其他RAID級別效率高,通常不使用。第85頁,共132頁,2023年,2月20日,星期六5.1存儲結(jié)構(gòu)5數(shù)據(jù)倉庫物理模型RAID5該級別又稱作具有奇偶校驗的條帶化,它是新設(shè)計中最常用的策略。與RAID4相似,它將數(shù)據(jù)以大塊形式條帶化到陣列中的磁盤上。不同之處在于它在所有磁盤之間寫入奇偶校驗的方式。數(shù)據(jù)冗余通過奇偶校驗信息提供。數(shù)據(jù)和奇偶校驗信息會在磁盤陣列上排列,所以這兩種信息總是位于不同的磁盤上。與磁盤鏡像(RAID1)相比,具有奇偶校驗的條帶化可提供更好的性能。但是,當條帶成員丟失時(例如,當磁盤發(fā)生故障時),讀取性能會下降。RAID5是最常用的RAID配置之一。

第86頁,共132頁,2023年,2月20日,星期六5.1存儲結(jié)構(gòu)5數(shù)據(jù)倉庫物理模型RAID0+1該級別又稱作具有條帶化的鏡像。該級別使用條帶化的磁盤陣列,而該陣列又鏡像到另一組相同的條帶化磁盤。例如,可使用四個磁盤創(chuàng)建一個條帶化的陣列。然后,條帶化的磁盤陣列使用另一組(四個)條帶化的磁盤進行鏡像。RAID10提供磁盤條帶化帶來的性能益處以及鏡像帶來的磁盤冗余。在所有的RAID級別中,RAID10提供的讀取/寫入性能最高,代價是使用的磁盤數(shù)量是其他級別的兩倍。第87頁,共132頁,2023年,2月20日,星期六5.2索引策略(B樹索引)5數(shù)據(jù)倉庫物理模型1972年R.Bayer和E.M.McCreight提出了一種稱之為B-樹的多路平衡查找樹。它適合在磁盤等直接存取設(shè)備上組織動態(tài)的查找表。B樹索引的定義一棵m(m≥3)階的B-樹是滿足如下性質(zhì)的m叉樹:每個結(jié)點至少包含下列數(shù)據(jù)域:

(j,P0,Kl,P1,K2,…,Ki,Pi),其中:j為關(guān)鍵字總數(shù)Ki(1≤i≤j)是關(guān)鍵字,關(guān)鍵字序列遞增有序:K1<K2<…<Ki。Pi(0≤i≤j)是孩子指針。對于葉結(jié)點,每個Pi為空指針。所有葉子是在同一層上,葉子的層數(shù)為樹的高度h。每個非根結(jié)點中所包含的關(guān)鍵字個數(shù)j滿足:└m/2┘-1≦j≦m-1即每個非根結(jié)點至少應有└

m/2┘

-1個關(guān)鍵字,至多有m-1個關(guān)鍵字。因為每個內(nèi)部結(jié)點的度數(shù)正好是關(guān)鍵字總數(shù)加1,故每個非根的內(nèi)部結(jié)點至少有└

m/2┘子樹,至多有m棵子樹。若樹非空,則根至少有1個關(guān)鍵字,故若根不是葉子,則它至少有2棵子樹。根至多有m-1個關(guān)鍵字,故至多有m棵子樹。

第88頁,共132頁,2023年,2月20日,星期六5.2索引策略(B樹索引)5數(shù)據(jù)倉庫物理模型B-樹的結(jié)點規(guī)模在大多數(shù)系統(tǒng)中,B-樹上的算法執(zhí)行時間主要由讀、寫磁盤的次數(shù)來決定,每次讀寫盡可能多的信息可提高算法的執(zhí)行速度。B-樹中的結(jié)點的規(guī)模一般是一個磁盤頁,而結(jié)點中所包含的關(guān)鍵字及其孩子的數(shù)目取決于磁盤頁的大小。注意:

①對于磁盤上一棵較大的B-樹,通常每個結(jié)點擁有的孩子數(shù)目(即結(jié)點的度數(shù))m為50至2000不等

②一棵度為m的B-樹稱為m階B-樹。

③選取較大的結(jié)點度數(shù)可降低樹的高度,以及減少查找任意關(guān)鍵字所需的磁盤訪問次數(shù)。

第89頁,共132頁,2023年,2月20日,星期六5.2索引策略(B樹索引)5數(shù)據(jù)倉庫物理模型【例】下圖給出了一棵高度為3的1001階B-樹。

說明:

①每個結(jié)點包含1000個關(guān)鍵字,故在第三層上有100多萬個葉結(jié)點,這些葉節(jié)點可容納10億多個關(guān)鍵字。

②圖中各結(jié)點內(nèi)的數(shù)字表示關(guān)鍵字的數(shù)目。

③通常根結(jié)點可始終置于主存中,因此在這棵B-樹中查找任一關(guān)鍵字至多只需二次訪問外存。

第90頁,共132頁,2023年,2月20日,星期六5.2索引策略(B樹索引)5數(shù)據(jù)倉庫物理模型B-樹的查找方法在B-樹中查找給定關(guān)鍵字的方法類似于二叉排序樹上的查找。不同的是在每個結(jié)點上確定向下查找的路徑不一定是二路而是keynum+1路的。對結(jié)點內(nèi)的存放有序關(guān)鍵字序列的向量key[l..keynum]用順序查找或折半查找方法查找。若在某結(jié)點內(nèi)找到待查的關(guān)鍵字K,則返回該結(jié)點的地址及K在key[1..keynum]中的位置;否則,確定K在某個key[i]和key[i+1]之間結(jié)點后,從磁盤中讀指針所指的結(jié)點繼續(xù)查找……。直到在某結(jié)點中查找成功;或直至找到葉結(jié)點且葉結(jié)點中的查找仍不成功時,查找過程失敗。

第91頁,共132頁,2023年,2月20日,星期六5.2索引策略(B樹索引)5數(shù)據(jù)倉庫物理模型B樹的使用條件和特點使用條件當要求被索引的字段的值是唯一或者是接近唯一的時候查詢工作是從大表中選擇少數(shù)幾個數(shù)據(jù)記錄時。特點B樹快速索引性能是通過較大的代價換取的。通常為一個大表建立B樹索引需要大量的時間和磁盤空間B樹使用期間的維護工作量很大數(shù)據(jù)倉庫中的數(shù)據(jù)定期追加,就需要做大量的索引工作如果系統(tǒng)的數(shù)據(jù)10%-15%發(fā)生了變化,就需要對B樹索引進行重構(gòu)

第92頁,共132頁,2023年,2月20日,星期六5.3索引策略(位圖索引)5數(shù)據(jù)倉庫物理模型位圖索引定義OLAP分析中,需要對大量數(shù)據(jù)進行綜合性查詢,而不是幾條記錄,這種情況下B樹索引就受到了很大限制。位圖索引是一種資源耗費很小、對于多維查詢性能很好的索引方法。位圖索引是一組0和1字符,表中每一條記錄都被分配一個在位圖中的相對位置且給定一個值(0或者1)。位圖中每個比特對應一條記錄,所以位圖索引占用的空間很小………………………………………11010………F…M…F…客戶性別第93頁,共132頁,2023年,2月20日,星期六5.3索引策略(位圖索引)5數(shù)據(jù)倉庫物理模型位圖索引使用在位圖上運用邏輯AND和OR可以非常迅速地得到多維查詢結(jié)果例如“通過貸款購買汽車的男性客戶有哪些”,就可以在商品類型、客戶性別、支付方式等字段上建立位圖索引,并在查詢中綜合使用。00010001101001100110……是否貸款是否購車客戶性別ANDAND第94頁,共132頁,2023年,2月20日,星期六5.4索引策略(廣義索引)5數(shù)據(jù)倉庫物理模型廣義索引廣義索引是在數(shù)據(jù)裝載的同時建立,它是一種元數(shù)據(jù)廣義索引涉及的是用戶最關(guān)心的問題,需要在數(shù)據(jù)加載前進行調(diào)查了解。比如使用頻率最高的10種藥物,使用頻率最低的藥物等。比較適合經(jīng)常性的查詢,開銷比較小第95頁,共132頁,2023年,2月20日,星期六5.5索引策略(連接索引)5數(shù)據(jù)倉庫物理模型連接索引就是將事實表和維表中的索引項進行連接運算,然后將結(jié)果作為索引保留。如果對事實表和維表中的所有外鍵進行連接運算,將得到一個很大的表,這種索引稱為全連接索引。但是在一般情況下,不一定對所有外鍵都進行連接運算,可根據(jù)需要使用部分外鍵,生成不同的連接索引在實際應用中,通常先建立全連接索引,然后根據(jù)需要增加其他的連接索引。例子見下頁圖第96頁,共132頁,2023年,2月20日,星期六5.5索引策略(連接索引)5數(shù)據(jù)倉庫物理模型第97頁,共132頁,2023年,2月20日,星期六5.6數(shù)據(jù)存儲策略5數(shù)據(jù)倉庫物理模型數(shù)據(jù)存儲策略考慮因素數(shù)據(jù)的重要程度粒度使用頻率響應時間采取措施重要程度高、使用頻率高或?qū)憫獣r間要求高的數(shù)據(jù)存放在高速存儲設(shè)備上存取頻率低或?qū)憫獣r間要求低的數(shù)據(jù)存放在低速存儲設(shè)備上除此之外,還有以下策略

第98頁,共132頁,2023年,2月20日,星期六5.6數(shù)據(jù)存儲策略5數(shù)據(jù)倉庫物理模型合并表例行分析處理時,涉及的表存儲時放到一起,可大大減少磁頭定位時間,提高I/O效率這種將多個表中相互關(guān)聯(lián)的記錄相鄰存儲的方式稱為合并表第99頁,共132頁,2023年,2月20日,星期六5.6數(shù)據(jù)存儲策略5數(shù)據(jù)倉庫物理模型數(shù)據(jù)序列把經(jīng)常按照某一序列訪問并處理的一組表存儲在一起可減少I/O次數(shù)第100頁,共132頁,2023年,2月20日,星期六5.6數(shù)據(jù)存儲策略5數(shù)據(jù)倉庫物理模型按列存儲同一列數(shù)據(jù)相鄰存儲同一列數(shù)據(jù)具有相同的數(shù)據(jù)類型,按列存儲有許多優(yōu)點,如讀取方便、索引方便、統(tǒng)計方便等Sybase數(shù)據(jù)倉庫產(chǎn)品是按照列來存儲的………5性寒38性平29性溫1劑量味性藥物ID性平性溫性寒…985…第101頁,共132頁,2023年,2月20日,星期六5.6數(shù)據(jù)存儲策略5數(shù)據(jù)倉庫物理模型分割表存放在邏輯設(shè)計中對大表進行分割,分割成多個小表,提高訪問效率;在物理上采用分布式的存儲,達到并行讀取的目的。第102頁,共132頁,2023年,2月20日,星期六5.7存儲分配優(yōu)化5數(shù)據(jù)倉庫物理模型存儲分配優(yōu)化解決數(shù)據(jù)分塊大小、緩沖區(qū)單元大小和個數(shù)等問題和系統(tǒng)配置相關(guān),數(shù)據(jù)倉庫廠商會給出推薦配置設(shè)計人員在系統(tǒng)維護過程中根據(jù)實際情況來調(diào)整設(shè)置正確的塊大小一個文件包括很多塊,每個塊包括很多條記錄塊是數(shù)據(jù)庫的數(shù)據(jù)和內(nèi)存中間I/O傳輸?shù)幕締挝弧K頭中存放記錄控制信息DBMS都有默認塊大小,如2kb或者4kb增加塊的大小,則可以有更多的記錄放入一個塊中,一次可以讀入更多的記錄,減少讀操作的次數(shù)但是大塊當即使需要很少的記錄時,也要讀入很多記錄,影響了內(nèi)存管理第103頁,共132頁,2023年,2月20日,星期六5.7存儲分配優(yōu)化5數(shù)據(jù)倉庫物理模型設(shè)置合適的塊使用參數(shù)塊空閑率DBMS為每個塊預留一部分空間,使塊中的記錄能夠擴展比如塊空閑參數(shù)設(shè)置為20,表示每個塊的20%為記錄更新修改預留空間。當預留空間已滿時,DBMS需要找到一個新的擴展區(qū)間,在工作中尋找新的區(qū)間成為動態(tài)擴展,動態(tài)擴展帶來了巨大的開銷。分配較大的初始擴展空間可以減少動態(tài)擴展數(shù)據(jù)倉庫中,由于更新不多,主要是追加,這個參數(shù)設(shè)置的越小越好第104頁,共132頁,2023年,2月20日,星期六5.7存儲分配優(yōu)化5數(shù)據(jù)倉庫物理模型設(shè)置合適的塊使用參數(shù)塊使用率它指定了一個界限,當塊中已使用空間低于這個界限時才允許向該塊中插入新的數(shù)據(jù)行如該參數(shù)設(shè)置為40,表示當從空間中刪除行時,空間不能馬上被使用,只有當已經(jīng)使用的空間降低到40%以下,空閑空間才可以使用。數(shù)據(jù)倉庫中,很少刪除記錄,除非是將數(shù)據(jù)倉庫中的數(shù)據(jù)存入磁帶中,一般情況下,是將這個參數(shù)設(shè)置的越大越好。第105頁,共132頁,2023年,2月20日,星期六高層設(shè)計中層設(shè)計低層設(shè)計數(shù)據(jù)倉庫生成6數(shù)據(jù)倉庫設(shè)計步驟概述6.1數(shù)據(jù)倉庫設(shè)計的步驟第106頁,共132頁,2023年,2月20日,星期六高層設(shè)計主要考慮商業(yè)過程和商業(yè)需求的集成,將與目前商業(yè)過程有關(guān)的信息和數(shù)據(jù)倉庫視圖實現(xiàn)的目標合并在一起,創(chuàng)建信息包圖。工作確定系統(tǒng)邊界:決策類型、需要的信息、原始信息確定主題域及其內(nèi)容:主題域的公共鍵碼、主題域之間的聯(lián)系、屬性組確定維度:如時間維、銷售位置維、產(chǎn)品維、組別維等確定級別:相應維的詳細層次確定度量:也稱指標和事實,用于進行分析的數(shù)值化信息6高層設(shè)計(概念模型設(shè)計)6.1數(shù)據(jù)倉庫設(shè)計的步驟第107頁,共132頁,2023年,2月20日,星期六創(chuàng)建信息包圖:確定涉及的主題域,例如:時間、顧客、地位置和產(chǎn)品。設(shè)計可以跟蹤的確定一個事件怎樣被完成和運行的關(guān)鍵指標。決定在給定的用戶分析或查詢中實際包含了多少數(shù)據(jù)。確定用戶如何按層次聚合數(shù)據(jù)和移動數(shù)據(jù)。決定數(shù)據(jù)層次。估計數(shù)據(jù)倉庫的大小。確定一個數(shù)據(jù)倉庫里數(shù)據(jù)的更新頻率。定義如何訪問數(shù)據(jù)。決定數(shù)據(jù)如何被傳遞給數(shù)據(jù)倉庫的用戶。6高層設(shè)計(概念模型設(shè)計)6.1數(shù)據(jù)倉庫設(shè)計的步驟第108頁,共132頁,2023年,2月20日,星期六中層設(shè)計建立數(shù)據(jù)倉庫的邏輯模型,對前期收集的信息的細化,將信息包圖轉(zhuǎn)換成星形模型。主要工作定義指標實體。將信息包圖中的內(nèi)容放到星形圖中,每個信息包圖代表一個完整的星和信息包。維度實體在指標實體中表示。定義維度實體。信息包圖中的每一個維度實體位于星形圖的星角上,它以維度表的形式存在。隨著維度實體在星形圖上的定位,進一步定義它與指標實體間的關(guān)系。定義詳細類別實體。在一個簡單的星形圖模型中,指標實體被用于訪問的維度實體包圍。但是在有的決策分析中僅僅知道指標值是不夠的,需要定義詳細類別實體,將星型圖模型轉(zhuǎn)換為雪花圖模型。設(shè)計成果適當?shù)牧6葎澐趾侠淼臄?shù)據(jù)分割策略定義適當?shù)臄?shù)據(jù)源如必要,添加導出字段6中層設(shè)計(邏輯模型設(shè)計)6.3數(shù)據(jù)倉庫設(shè)計的步驟第109頁,共132頁,2023年,2月20日,星期六低層設(shè)計階段的任務:建立數(shù)據(jù)倉庫的物理模型,確定數(shù)據(jù)倉庫的存儲結(jié)構(gòu)、數(shù)據(jù)的存儲位置和索引策略。設(shè)計人員需要了解和考慮的問題:所選用的數(shù)據(jù)庫系統(tǒng),特別是存儲結(jié)構(gòu)和存取方法;數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻率、使用方式以及響應時間;存儲設(shè)備的特性等。主要工作:確定數(shù)據(jù)的存儲結(jié)構(gòu)。不同的存儲結(jié)構(gòu)有不同的實現(xiàn)方式,應綜合考慮存取時間、存取空間利用率和維護代價等因素,根據(jù)各種存儲結(jié)構(gòu)的優(yōu)缺點和適用范圍選擇合適的存儲結(jié)構(gòu)。確定數(shù)據(jù)的存儲位置。對數(shù)據(jù)按照其重要程度、使用頻率和對響應時間的要求等進行分類,并將不同類別的數(shù)據(jù)存儲在不同的存儲設(shè)備中。設(shè)置存儲分配參數(shù),對塊的大小、緩沖區(qū)的大小和個數(shù)等進行物理優(yōu)化處理。確定索引策略。通過對數(shù)據(jù)存取路徑的分析,為各個數(shù)據(jù)存儲建立專用的索引,以獲得存取的高效率。6低層設(shè)計(物理模型設(shè)計)6.4數(shù)據(jù)倉庫設(shè)計的步驟第110頁,共132頁,2023年,2月20日,星期六設(shè)計接口從面向應用和操作的環(huán)境生成完整的數(shù)據(jù)基于時間的數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)的聚合對記錄系統(tǒng)進行掃描,以便追加數(shù)據(jù)數(shù)據(jù)裝入確定數(shù)據(jù)裝入的順序過濾無效或錯誤數(shù)據(jù)數(shù)據(jù)老化數(shù)據(jù)粒度管理數(shù)據(jù)刷新6數(shù)據(jù)倉庫生成6.5數(shù)據(jù)倉庫設(shè)計的步驟第111頁,共132頁,2023年,2月20日,星期六設(shè)計接口數(shù)據(jù)倉庫中的數(shù)據(jù)是從數(shù)據(jù)庫系統(tǒng)中提取出來的,所以在需要在數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)倉庫之間建立一個接口。建立這種接口,并不是簡單的編制一個提取程序。由于數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)據(jù)倉庫中的數(shù)據(jù)有很大區(qū)別,所以在設(shè)計接口時,除了提取外還要完成數(shù)據(jù)的凈化、集成等。接口應包括轉(zhuǎn)換器、監(jiān)控器和集成器等,以完成對數(shù)據(jù)的提取、凈化和集成。6數(shù)據(jù)倉庫生成6.5數(shù)據(jù)倉庫設(shè)計的步驟第112頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)的提取數(shù)據(jù)提取是數(shù)據(jù)倉庫成功的關(guān)鍵。在提取過程中,為了支持實際應用中的趨勢分析,它還必須對數(shù)據(jù)基于時間進行轉(zhuǎn)換。在大多數(shù)情況下,把數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)變化提取出來是通過訪問數(shù)據(jù)庫日志進行的。在數(shù)據(jù)提取時應考慮建立可靠的復制機制,使復制不受諸如系統(tǒng)失敗之類問題的影響,保證傳送符合數(shù)據(jù)完整性規(guī)則的一致數(shù)據(jù),并優(yōu)化傳送過程,減少在捕獲或修改數(shù)據(jù)和傳送復制結(jié)果之間的等待時間。復制機制包括數(shù)據(jù)發(fā)布器和數(shù)據(jù)閱讀器。數(shù)據(jù)發(fā)布器是原始的或控制的源,它控制了從企業(yè)內(nèi)部來的數(shù)據(jù)的捕獲和凈化;數(shù)據(jù)閱讀器是一種對數(shù)據(jù)訪問的系統(tǒng)。6數(shù)據(jù)倉庫生成6.5數(shù)據(jù)倉庫設(shè)計的步驟第113頁,共132頁,2023年,2月20日,星期六需求分析數(shù)據(jù)分析技術(shù)路線應用分析數(shù)據(jù)倉庫部署數(shù)據(jù)倉庫系統(tǒng)運行和維護7數(shù)據(jù)倉庫建設(shè)過程概述7.1數(shù)據(jù)倉庫的建設(shè)過程第114頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)倉庫項目需求分析的特點需求比較模糊,需求分析過程貫穿整個數(shù)據(jù)倉庫設(shè)計過程中數(shù)據(jù)倉庫開發(fā)過程中每一個階段的每一項任務都是由需求決定的設(shè)計階段的每一個決策,無論是數(shù)據(jù)設(shè)計、體系結(jié)構(gòu)設(shè)計、信息傳遞方法的安排,都受到需求的影響需求分析的內(nèi)容常見主題常見分析問題數(shù)據(jù)源的數(shù)據(jù)庫類型工作平臺數(shù)據(jù)量及其質(zhì)量數(shù)據(jù)倉庫的建立環(huán)境網(wǎng)絡狀況各方面各層次人員對數(shù)據(jù)分析的需求等7需求分析7.2數(shù)據(jù)倉庫的建設(shè)過程第115頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)倉庫項目需求分析文檔組成緒論。闡述項目的目的和范圍,包括項目論證,文檔概要總體需求描述。闡述數(shù)據(jù)倉庫中需要什么樣的數(shù)據(jù)具體需求。包括源數(shù)據(jù)的細節(jié),數(shù)據(jù)轉(zhuǎn)換和存儲需求,描述用戶需要的各類信息傳遞方法指標和維度。包括重要的指標和事實,以及分析這些指標所用的維度其他需求。數(shù)據(jù)抽取頻率、數(shù)據(jù)載入方法等用戶期望。說明用戶期望如何使用數(shù)據(jù)倉庫用戶參與。列出用戶在開發(fā)周期中希望參與的任務和活動實施計劃。給出一個合理的數(shù)據(jù)倉庫項目實施計劃7需求分析7.2數(shù)據(jù)倉庫的建設(shè)過程第116頁,共132頁,2023年,2月20日,星期六數(shù)據(jù)倉庫數(shù)據(jù)分析(即數(shù)據(jù)倉庫設(shè)計步驟的內(nèi)容)概念模型設(shè)計邏輯模型設(shè)計物理模型設(shè)計數(shù)據(jù)裝載接口設(shè)計7數(shù)據(jù)分析7.3數(shù)據(jù)倉庫的建設(shè)過程第117頁,共132頁,2023年,2月20日,星期六技術(shù)路線主要內(nèi)容技術(shù)路線主要確定數(shù)據(jù)倉庫的基礎(chǔ)構(gòu)造,包括服務器硬件、操作系統(tǒng)、網(wǎng)絡軟件、數(shù)據(jù)庫軟件、局域網(wǎng)和廣域網(wǎng)、供應商提供的工具、人員、工作步驟和培訓等。操作型基礎(chǔ)構(gòu)造包括人員、流程、培訓和管理軟件,是維持數(shù)據(jù)倉庫所需要的,它們支持數(shù)據(jù)倉庫的管理工作并保持它的工作效率物理基礎(chǔ)構(gòu)造計算機平臺工具7技術(shù)路線7.4數(shù)據(jù)倉庫的建設(shè)過程第118頁,共132頁,2023年,2月20日,星期六計算機平臺硬件和操作系統(tǒng)硬件:選型時考慮可擴展性、供應商的支持和穩(wěn)定性操作系統(tǒng):與硬件相容,選型時考慮可擴展性、安全性、可靠性、內(nèi)存管理和保護服務器硬件方案數(shù)據(jù)倉庫用戶數(shù)量和查詢數(shù)量都會大幅度增加數(shù)據(jù)載入工作也急劇增多可擴展性和查詢性能優(yōu)化是服務器硬件選擇的兩個關(guān)鍵因素主要的服務器硬件結(jié)構(gòu),SMP(對稱多處理機結(jié)構(gòu)),群集,MPP(大規(guī)模并行處理),NUMA(一致高速緩存的不均勻內(nèi)存體系結(jié)構(gòu))7技術(shù)路線7.4數(shù)據(jù)倉庫的建設(shè)過程第119頁,共132頁,2023年,2月20日,星期六S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論