




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
(O管理)ORACLE數(shù)據(jù)倉庫建設(shè)摘要自20世紀(jì)90年代以來,計算機技術(shù)發(fā)展迅猛,各通信商逐步開發(fā)出新的BI為可用、可控、可擴展的數(shù)據(jù)組織,以適應(yīng)通信領(lǐng)域各級主管和業(yè)務(wù)人員的分析需要。詳細(xì)的審核,用來支持所提出的需求;數(shù)據(jù)倉庫設(shè)計以O(shè)DS、DWD、DWA為層次,急措施、數(shù)據(jù)倉庫的維護和優(yōu)化。關(guān)鍵詞:數(shù)據(jù)倉庫,物理模型,維護和優(yōu)化EnglishabstractSincethenineteenninties,computertechnologyisdevelopingrapidly,thecommunicationbusinessgraduallydevelopedanewBIsystem.Realitytocommunicationfieldispresentedforfullyusingdatawarehousetechnologytoexistingdatastructuresbecomeavailable,controllable,scalabledataorganization,toadapttothefieldofcommunicationatalllevelsofmanagersandbusinessanalysis.Inthispaperfromthedatawarehouserequirementanalysisincludestheparticipationofmembers,eachmemberoftheroleplayedby;logicmodelconstructionthroughsoftwaredesign,todeterminetherelationshipbetweentables;physicalmodelconstructionprocesstableanddetailedaudit,usedtosupporttheproposedrequirement;datawarehousedesignwithODS,DWD,DWAlevels,thehorizontallystratifiedlongitudinaldomainconcept,specificimplementationoftheestablishment,andinlatestageprovideserroremergencymeasures,datawarehousemaintenanceandoptimization.Keywords:datawarehouse,physicalmodel,maintenanceandoptimization目錄第一章數(shù)據(jù)倉庫概述11.1本論文采用數(shù)據(jù)倉庫的目的11.2數(shù)據(jù)倉庫的定義和特點11.3數(shù)據(jù)倉庫與數(shù)據(jù)庫21.5元數(shù)據(jù)31.5.1技術(shù)元數(shù)據(jù)31.5.2業(yè)務(wù)元數(shù)據(jù)31.5.3元數(shù)據(jù)的作用41.6數(shù)據(jù)倉庫發(fā)展方向51.6.1數(shù)據(jù)倉庫的產(chǎn)生和發(fā)展51.6.2數(shù)據(jù)倉庫發(fā)展趨勢71.6.3數(shù)據(jù)集市、集市群—行業(yè)的發(fā)展方向81.6.4基于Internet2、光處理器計算機和GGG技術(shù)的DW111.7建設(shè)數(shù)據(jù)倉庫的必要性14第二章數(shù)據(jù)倉庫需求分析152.1需求分析原因152.2需求分析階段152.2.1需求分析成員確立162.2.2需求會議18第三章數(shù)據(jù)倉庫總體設(shè)計193.1數(shù)據(jù)倉庫實施環(huán)境193.2確定數(shù)據(jù)倉庫開發(fā)的生命周期193.3通訊數(shù)據(jù)倉庫設(shè)計原則253.4確定數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)及各部分的主要功能26第四章數(shù)據(jù)倉庫詳細(xì)設(shè)計314.1邏輯模型設(shè)計314.2物理模型設(shè)計32第五章數(shù)據(jù)倉庫實現(xiàn)345.1ODS層建設(shè)345.1.1接口數(shù)據(jù)抽取345.1.2數(shù)據(jù)抽取策略355.1.3ODS層的作用365.2DWD層建設(shè)365.2.1DWD定義365.2.2實體選取的原則365.2.3字段選取的原則375.2.4數(shù)據(jù)轉(zhuǎn)換375.2.5數(shù)據(jù)加載技術(shù)及策略385.3DWA匯總層建設(shè)395.4DWA衍生層建設(shè)40第六章數(shù)據(jù)倉庫后期運維426.1數(shù)據(jù)倉庫測試426.1.1分析源文件426.1.2開發(fā)策略和測試計劃426.1.3測試的開發(fā)與執(zhí)行436.2數(shù)據(jù)倉庫后期維護436.2.1數(shù)據(jù)倉庫數(shù)據(jù)清理436.2.2數(shù)據(jù)倉庫模型更改446.3數(shù)據(jù)倉庫性能優(yōu)化446.3.1調(diào)整數(shù)據(jù)庫服務(wù)器的性能446.3.2調(diào)整內(nèi)存分配446.3.3使用ORACLE的數(shù)據(jù)完整性約束456.3.4使用數(shù)據(jù)庫觸發(fā)器456.3.5使用存儲過程466.3.6應(yīng)用程序調(diào)整46總結(jié)47致謝48參考文獻(xiàn)49第一章數(shù)據(jù)倉庫概述1.1本論文采用數(shù)據(jù)倉庫的目的當(dāng)前,通信行業(yè)(以聯(lián)通為例)內(nèi)部已經(jīng)積累了大量的業(yè)務(wù)處理數(shù)據(jù),但是這些數(shù)據(jù)分布在各級機構(gòu)、各個部門中,而且數(shù)據(jù)的操作平臺各異,有DOS的、有Windows的、有Unix的、有Solaris的;數(shù)據(jù)的來源復(fù)雜,有存儲在硬盤上的,也有存儲在磁帶、光盤上的;數(shù)據(jù)的文件格式多樣,有各種不同數(shù)據(jù)庫的,也有文本文件型的,,在構(gòu)造平臺數(shù)據(jù)資源這個問題提供了方法和手段,能夠充分利用現(xiàn)有的海量數(shù)據(jù)資源并從中找出對通信的運作和決策有價值的信息。1.2數(shù)據(jù)倉庫的定義和特點dss集成性、穩(wěn)定性和時變性。(1)數(shù)據(jù)倉庫是面向主題的一個主題通常與多個操作型信息系統(tǒng)相關(guān)。(2)數(shù)據(jù)倉庫是集成的取出來,進行加工與集成,統(tǒng)一與綜合之后才能進入數(shù)據(jù)倉庫。(3)數(shù)據(jù)倉庫是不可更新的數(shù)據(jù)倉庫主要是為決策分析提供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢。(4)數(shù)據(jù)倉庫是隨時間而變化的務(wù)處理的需求。穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時間改變。(5)匯總的操作性數(shù)據(jù)映射成決策可用的格式。(6)大容量時間序列數(shù)據(jù)集合通常都非常大。(7)非規(guī)范化的DW數(shù)據(jù)可以是而且經(jīng)常是冗余的。(8)元數(shù)據(jù)將描述數(shù)據(jù)的數(shù)據(jù)保存起來。(9)數(shù)據(jù)源數(shù)據(jù)來自內(nèi)部的和外部的非集成操作系統(tǒng)。1.3數(shù)據(jù)倉庫與數(shù)據(jù)庫信息工程專家William博士在90對穩(wěn)定的數(shù)據(jù)集合,它用于對管理決策過程的支持?!边@里的主題,是指用戶使那樣是按照業(yè)務(wù)功能進行組織的。一致的全局信息。歷程和未來趨勢做出定量分析和預(yù)測。二者的聯(lián)系:數(shù)據(jù)庫管理系統(tǒng)來管理的??梢哉f,數(shù)據(jù)庫、數(shù)據(jù)倉庫相輔相成、各有千秋。二者的區(qū)別:(1)出發(fā)點不同數(shù)據(jù)庫是面向事務(wù)的設(shè)計,數(shù)據(jù)倉庫是面向主題設(shè)計的。(2)存儲的數(shù)據(jù)不同數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù),數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)。(3)設(shè)計規(guī)則不同設(shè)計是有意引入冗余,采用反范式的方式來設(shè)計。(4)提供的功能不同數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設(shè)計,數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計。(5)基本元素不同數(shù)據(jù)庫的基本元素是事實表,數(shù)據(jù)倉庫的基本元素是維度表。(6)容量不同數(shù)據(jù)庫在基本容量上要比數(shù)據(jù)倉庫小的多。(7)服務(wù)對象不同人員。1.5元數(shù)據(jù)Metadata兩類:技術(shù)元數(shù)據(jù)(TechnicalMetadata)和業(yè)務(wù)元數(shù)據(jù)(BusinessMetadata1.5.1技術(shù)元數(shù)據(jù)和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式。匯總用的算法,包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚集、匯總、預(yù)定義的查詢與報告。1.5.2業(yè)務(wù)元數(shù)據(jù)法以及公式和報表的;具體包括以下:(1)企業(yè)概念模型的業(yè)務(wù)概念和相互關(guān)系。(2)多維數(shù)據(jù)模型示某主題領(lǐng)域業(yè)務(wù)事實表和維表的多維組織形式。(3)業(yè)務(wù)概念模型和物理數(shù)據(jù)之間的依賴有所體現(xiàn)。1.5.3元數(shù)據(jù)的作用描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中。定義要進入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù)。記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進行的數(shù)據(jù)抽取工作時間安排。記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況。衡量數(shù)據(jù)質(zhì)量。元數(shù)據(jù)管理的主要任務(wù)有兩個方面:取工具、前端工具等之間的消息傳遞,協(xié)調(diào)各模塊和工具之間的工作。我們了解到元數(shù)據(jù)幾乎可以被稱為是數(shù)據(jù)倉庫乃至商業(yè)智能(BI)系統(tǒng)的“靈魂,正是由于元數(shù)據(jù)在整個數(shù)據(jù)倉庫生命周期中有著重要的地位,各個廠商的理。與元數(shù)據(jù)相關(guān)的數(shù)據(jù)倉庫工具大致可分為四類:(1)數(shù)據(jù)抽取工具Ardent的DataStage、CA(原PlatinumDecisionBase和ETI的Extract術(shù)元數(shù)據(jù),幾乎沒有提供對業(yè)務(wù)元數(shù)據(jù)的支持。(2)前端展現(xiàn)工具包括OLAP分析、報表和商業(yè)智能工具等,如MicroStrategy的DSSAgent、Cognos的PowerPlay、BusinessObjects的BO,以及Brio等。它們通過把關(guān)系(3)建模工具CA的ERwinSysbase的PowerDesigner以及Rational的Rose等。(4)元工具元數(shù)據(jù)通常存儲在專用的數(shù)據(jù)庫中,該數(shù)據(jù)庫就如同一個“黑盒子,外部MetadataRepository個集中的存儲空間。包括微軟的Repository,CA的Repository,Ardent的MetaStage和的WCC等。1.6數(shù)據(jù)倉庫發(fā)展方向1.6.1數(shù)據(jù)倉庫的產(chǎn)生和發(fā)展現(xiàn)在基于業(yè)務(wù)數(shù)據(jù)的決策分析——聯(lián)機分析處理(OLAP都顯得更為重要。如果說傳統(tǒng)聯(lián)機事務(wù)處理(OLTP)強調(diào)的是更新數(shù)據(jù)庫——向數(shù)據(jù)庫中添加信息,那么OLAP就是從數(shù)據(jù)庫中獲取信息、利用信息。事實上,將大量的業(yè)務(wù)數(shù)據(jù)應(yīng)用于分析和統(tǒng)計原本是一個非常簡單和自然的想法。但在實際的操作中,人們卻發(fā)現(xiàn)要獲得有用的信息并非如想象的那么容易:第一,所有OLTP強調(diào)的是密集的數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性,并不據(jù)庫在理論上都難以做到兩全。還有大量的歷史數(shù)據(jù)處于脫機狀態(tài),形同虛設(shè)。不適合非計算機專業(yè)人員進行業(yè)務(wù)上的分析和統(tǒng)計。心,它的數(shù)據(jù)從OLTP系統(tǒng)中來、從外部數(shù)據(jù)源來、從歷史業(yè)務(wù)數(shù)據(jù)中來……這境。數(shù)據(jù)倉庫所要研究和解決的問題就是從數(shù)據(jù)庫中獲取信息的問題。抽取、存儲和管理、數(shù)據(jù)的表現(xiàn)以及數(shù)據(jù)倉庫設(shè)計的技術(shù)咨詢四個方面。(1)數(shù)據(jù)的抽取性則至關(guān)重要。(2)存儲和管理什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點著手分析。如何完成對大量數(shù)據(jù)的存儲和管理并行處理能力針對決策支持查詢的優(yōu)化支持多維分析的查詢模式,這也是關(guān)系數(shù)據(jù)庫在數(shù)據(jù)倉庫領(lǐng)域遇到的最嚴(yán)峻的挑戰(zhàn)之一。(3)數(shù)據(jù)的表現(xiàn)掘方面。(4)數(shù)據(jù)倉庫設(shè)計的技術(shù)咨詢數(shù)據(jù)倉庫絕不是簡單的產(chǎn)品堆砌,它是一個綜合性的解決方案和系統(tǒng)工程。甚至于比購買產(chǎn)品更為重要。就目前的發(fā)展來看,建立數(shù)據(jù)倉庫有兩個基本條件:建立數(shù)據(jù)倉庫的行業(yè)有較為成熟的OLTP的概念一經(jīng)出現(xiàn),就首先被應(yīng)用于金融、電信、保險等行業(yè)。1.6.2數(shù)據(jù)倉庫發(fā)展趨勢(1)數(shù)據(jù)倉庫規(guī)模不斷增長性以及可能出現(xiàn)的性能問題。(2)數(shù)據(jù)集市的整合(3)客戶數(shù)據(jù)集成一個關(guān)于客戶的單一視圖,一種稱之為客戶數(shù)據(jù)集成(CDI)的解決方案應(yīng)聲而出,其核心部分由數(shù)據(jù)倉庫和相關(guān)技術(shù)構(gòu)成??蛻魯?shù)據(jù)集成提供了對客戶數(shù)據(jù)360應(yīng)。(4)開發(fā)商的整合越多的功能融合到他們的產(chǎn)品中去。(5)EAI和ETL工具的集成(6)快速反應(yīng)的決策支持電子商務(wù)的不斷增長驅(qū)使著企業(yè)去尋找共享數(shù)據(jù)和對機會快速反應(yīng)的方法,(7)非結(jié)構(gòu)化信息的增長XML處理傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)資源的方式,來存儲和挖掘這些數(shù)據(jù)。(8)越來越了解如何對“成功或失敗”問題做出正確分析——知識管理的決策。這是一個相當(dāng)復(fù)雜的問題,需要花費時間和精力去確定他們。(9)強調(diào)應(yīng)用程序VS數(shù)據(jù)倉庫投資回報率和調(diào)整項目成本。(10)越來越注重盈虧問題不斷增加的對盈虧問題的注意力影響到了IT項目,其中包括數(shù)據(jù)倉庫,最終導(dǎo)明確的投資回報率和更短的回報周期。1.6.3數(shù)據(jù)集市、集市群—行業(yè)的發(fā)展方向SQLServer作為它數(shù)據(jù)倉庫核心的。微軟的OLAP走的是ROLAP的路子,與其數(shù)據(jù)轉(zhuǎn)換一樣,屬于常規(guī)的解決SQLServer的強項。因此,整個解決方概念——數(shù)據(jù)集市(DataMart)集市這樣的規(guī)模,微軟的解決方案便可成為理想的選擇。雖然微軟是無數(shù)IT人士“憎恨”的對象,但我們不得不承認(rèn),它在市場定統(tǒng)中的windows,辦公軟件里得Office到數(shù)據(jù)庫領(lǐng)域的SQLSever等等,無一不則成了他們不錯的選擇。表1-1數(shù)據(jù)集市與數(shù)據(jù)倉庫的區(qū)別數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)來源OLTP、遺留系統(tǒng)、外部數(shù)據(jù)數(shù)據(jù)倉庫范圍企業(yè)級部門級、工作組級主題企業(yè)主題部門或?qū)m椫黝}數(shù)據(jù)粒度最細(xì)粒度較粗粒度數(shù)據(jù)結(jié)構(gòu)3NTF星型、雪片型歷史數(shù)據(jù)大量歷史數(shù)據(jù)適度歷史數(shù)據(jù)優(yōu)化處理海量數(shù)據(jù)、數(shù)據(jù)探索便于訪問分析、快速查詢索引高度索引高度索引數(shù)據(jù)集市可以分為兩種類型:獨立型數(shù)據(jù)集市和從屬型數(shù)據(jù)集市。獨立型數(shù)環(huán)境,它能夠快速地解決某些具體的問題,而且投資規(guī)模也比數(shù)據(jù)倉庫小很多。但獨立數(shù)據(jù)集市也存在一些問題:冗余數(shù)據(jù)。隨著獨立數(shù)據(jù)集市數(shù)量的增長,數(shù)據(jù)冗余量也不斷增長,這中有不少通常并不是必需的。冗余流程。數(shù)據(jù)倉庫的體系結(jié)構(gòu)可以對所有數(shù)據(jù)集市的共同活動進行集維護DSS所需的員工數(shù)量。較低的可伸縮性。獨立數(shù)據(jù)集市直接讀取運作系統(tǒng)的文件或表,這極大限制了DSS的伸縮能力。非集成。獨立數(shù)據(jù)集市是由自成體系的團隊建立的,而且一般是為不同CEO從每個數(shù)據(jù)集市分析到的答案都將是不同的。型數(shù)據(jù)集市更穩(wěn)定,可以作為數(shù)據(jù)集市未來建設(shè)的主要方向。數(shù)據(jù)集市相當(dāng)重要的一項優(yōu)勢——廉價。其成本甚至超過了單一數(shù)據(jù)倉庫系統(tǒng),完整的群體,我把它稱作——數(shù)據(jù)集市群。數(shù)據(jù)集市群的優(yōu)勢主要表現(xiàn)在以下幾方面:(1)成本低廉測。(2)冗余度低除了數(shù)據(jù)集市件容易發(fā)生的數(shù)據(jù)冗余、不一致等問題。(3)后期維護容易不必對原有集市群做什么調(diào)整。(4)數(shù)據(jù)集市群策劃和設(shè)計的震動將是難以想象的。1.6.4基于Internet2、光處理器計算機和GGG技術(shù)的DW(1)Internet21996年由一些大學(xué)和高科技公司組成的聯(lián)盟開發(fā)的,旨在提供超高速的連3-4Internet2已經(jīng)是第三代了,今年早些時候,其骨干網(wǎng)的數(shù)據(jù)傳輸速率已經(jīng)升級為10Gbps。目前大部分的公共互聯(lián)網(wǎng)使用2.5Gbps,一些運營商正在將它們的連接升級至10Gbps。P2P可以在Internet2Internet2Internet2進行的音樂會轉(zhuǎn)播每秒鐘能夠發(fā)送250GB4000倍,比有線電視連接要快800倍。研究人員仍然在研究如何進一步提高Internet2言標(biāo)準(zhǔn)化和兼容性,中間件將大大提高先進網(wǎng)絡(luò)應(yīng)用的易用性。在過去的15年中,互聯(lián)網(wǎng)的速度每年都會翻一番。研究人員相信,這種每年增長100%的趨勢在未來還會持續(xù)下去。Internet2的研究人員已經(jīng)在研究新一10Gbps的Abilene網(wǎng)絡(luò)的平均運行速度為1Gbps-2Gbps。的需求將超過目前的公共IP網(wǎng)絡(luò)的帶寬也是很自然的。(2)未來高性能計算機18光計算機、DNA計算機和量子計算機正在躍躍欲試。與傳統(tǒng)硅芯片計算機不同,光計算機用光束代替電子進行運算和存儲:它以不同波長的光代表不同的數(shù)據(jù),以大量的透鏡、棱鏡和反射鏡將數(shù)據(jù)從一個芯片傳送到另一個芯片。從上個世紀(jì)80年代起,光子計算機就成為新一代計算機的發(fā)展方向。2003年10月底,全球首枚嵌入光核心的商用向量光學(xué)數(shù)字處理器——由以色列一公司研發(fā)的Enlight每秒8萬億次——“地球模擬器”為例,這臺號稱全球運算速度最快的超級計算機峰值運算速度為35.86萬億次,而這個速度是由它的5120個處理器共同創(chuàng)造出來的。由于EnlightEnlight進行擾。一枚單獨的Enlight就可以同時支持2000個用戶,并避免相互干擾。而在Enlight因數(shù)據(jù)配對和基因與多基體配對過程。“德國達(dá)姆施塔特大學(xué)的科爾內(nèi)利婭·登茨博士長期致力于光計算研究。她表示,采用光學(xué)技的預(yù)測不是沒有依據(jù)的。到2015年,硅芯片的運算速度和微型化發(fā)展都將止步需求,將迫使人們不得不尋求革命性的變革。(3)網(wǎng)格技術(shù)種共享計算的方法被正式提出,并首先在科研領(lǐng)域應(yīng)用。后來,為了降低成本,業(yè)帶來了新的機遇。發(fā)展的一個必然?!熬W(wǎng)格的處境就好像10年前的Internet和3年前的Linux但是,進入市場。研究的步伐。一些發(fā)達(dá)國家和跨國公司已為此投下了巨資。在具體實施中,IBM網(wǎng)格創(chuàng)新工作室(用于幫助企業(yè)在其業(yè)務(wù)中實施網(wǎng)格)以及專業(yè)化的行業(yè)專用課程。在產(chǎn)品方面,IBMeServer產(chǎn)品線也形成了一個可以用來設(shè)計和開發(fā)網(wǎng)格解DB2產(chǎn)品和工具也支持網(wǎng)格計算解決方案,使得能快速、方便地建設(shè)復(fù)雜的數(shù)據(jù)基礎(chǔ)設(shè)施。(4)數(shù)據(jù)倉庫、聯(lián)機系統(tǒng)的發(fā)展根據(jù)長久以來的經(jīng)驗,計算機的軟硬件發(fā)展一直是互相促進、互為動力的。以上所述的未來高性能計算機、Internet2、網(wǎng)格技術(shù)等等已經(jīng)為我們勾勒出了的PC10時對一個包含5千萬條記錄的DW作一次完整分析,也僅僅需要幾秒鐘的時間。系統(tǒng)設(shè)計的考慮,聯(lián)機分析會應(yīng)用于普遍的事務(wù)處理系統(tǒng)之中。在數(shù)據(jù)管理上,息,更好地為業(yè)務(wù)決策服務(wù)。1.7建設(shè)數(shù)據(jù)倉庫的必要性企業(yè)建立數(shù)據(jù)倉庫是為了填補現(xiàn)有數(shù)據(jù)存儲形式已經(jīng)不能滿足信息分析的理性能不同。企業(yè)在它們的事務(wù)操作收集數(shù)據(jù)。在企業(yè)運作過程中:隨著定單、處理需要相對穩(wěn)定的數(shù)據(jù),從而問題都能得到一致連續(xù)的解答。決策支持型數(shù)據(jù)庫——既“數(shù)據(jù)倉庫。數(shù)據(jù)倉庫是按回答企業(yè)某方面的問題來分“主題”組織數(shù)據(jù)的,這是最有效的數(shù)據(jù)組織方式。第二章數(shù)據(jù)倉庫需求分析2.1需求分析原因關(guān)進行定義,也是一個不容忽視的階段。首先數(shù)據(jù)倉庫失敗的典型表現(xiàn)形式:圖2-1數(shù)據(jù)倉庫失敗圖示(1)項目超過預(yù)算(2)沒有在規(guī)定的時間內(nèi)完成(3)沒有實現(xiàn)要求的功能(4)用戶不滿意(5)系統(tǒng)性能不滿足要求2.2需求分析階段ETL2.2.1需求分析成員確立(1)接口規(guī)范人員:用來確定當(dāng)前經(jīng)分能否支撐局方提出的需求,經(jīng)過商實施。如圖,例如對聯(lián)通融合業(yè)務(wù)進行商討,判斷接口是否可以實施。圖2-2接口規(guī)范制定流程(2)接口人員:負(fù)責(zé)承接省分上傳的數(shù)據(jù),進行初步的稽核,確認(rèn)是否需ETLETL的負(fù)載最大值等。圖2-3接口入庫流程(3)數(shù)據(jù)庫開發(fā)人員:進行項目的開發(fā)和實施,通過與局方商議,根據(jù)需求預(yù)計項目實施周期。通過Powerdesigner、PL/SQL等工具,進行設(shè)計開發(fā)。(4)ETL調(diào)度人員:在開發(fā)人員腳本成功開發(fā)后,由ETL統(tǒng)一并行調(diào)度,保證及時觸發(fā)節(jié)點,并實時監(jiān)控。圖2-4ETL調(diào)度實例(5)稽核人員:實時的對數(shù)據(jù)進行詳細(xì)的稽核校驗,確保數(shù)據(jù)無誤,能夠及時準(zhǔn)確的上傳至頁面。尤其是對重要字段進行反復(fù)校驗,及時通過郵件反饋。(6)頁面展現(xiàn)人員:當(dāng)稽核人員確定數(shù)據(jù)無誤時,由頁面展現(xiàn)人員進行頁會議記錄等人員參加。2.2.2需求會議的過程和困難,還有一方面就是能夠得到局方配合來完成項目及時準(zhǔn)確的實施。第三章數(shù)據(jù)倉庫總體設(shè)計3.1數(shù)據(jù)倉庫實施環(huán)境數(shù)據(jù)庫以O(shè)RACLE為基礎(chǔ),POWERDESIGNER進行數(shù)據(jù)模型的確定加工,PL/SQLDEVELOPER軟件進行具體的過程開發(fā)。3.2確定數(shù)據(jù)倉庫開發(fā)的生命周期倉庫實施需要這兩方面的不斷協(xié)調(diào),以均衡其所有的需要,要求,任務(wù)和成果。數(shù)據(jù)倉庫項目有3個軌道(tracks)在整理任何數(shù)據(jù)庫項目計劃時,建議以這三個軌道為模板來管理和同步活動。數(shù)據(jù)庫生命周期管理方法(Discover,Design,Develop,Deploy,DaytoDay,Defend,Decommission),昵稱“7D法。環(huán)境的變化。當(dāng)今的業(yè)務(wù)環(huán)境更加復(fù)雜,并涉及比以往任何時候都要快的變化。(TDMs)和業(yè)務(wù)決策者(BDMs)才有可能對已實施的數(shù)據(jù)倉庫、企業(yè)的構(gòu)想和宗旨進行調(diào)整。(1)發(fā)掘被稱為“需求分析和定義斷地問六個基本問題(什么,如何,在何處,誰,何時和為什么),記錄好答案,并把這些答案包含在您起草的解決方案中?!?步的前3步()(PM)主要關(guān)心項目的及時上線、預(yù)算在控制范圍內(nèi),有預(yù)期的運行效果;項目經(jīng)理在沒有PM,這些將成為您的工作。在發(fā)掘階段,PM必須收集三個軌道的信息,即技術(shù)軌道,數(shù)據(jù)軌道和應(yīng)用層軌道。在其他任務(wù)中,PM必須確定利益相關(guān)者和用戶,必須理解他們各自的角色和相應(yīng)的數(shù)據(jù)/視圖需求。PM倡議什么以及跟蹤業(yè)務(wù)和項目健康狀況的支撐度量標(biāo)準(zhǔn)/關(guān)鍵績效指標(biāo)。如果上執(zhí)行得有多么完美。(2)設(shè)計須解決企業(yè)用戶的管理信息系統(tǒng)(MISs)和商務(wù)智能(BI)三維模型??梢允褂脹Q策矩陣,以幫助確定每個三維模型需要包含些什么;沿YX反映第一階段收集的六個問題的答案。標(biāo)識數(shù)據(jù)倉庫相關(guān)的所有數(shù)據(jù)源(內(nèi)部和外部的)/將被導(dǎo)入數(shù)據(jù)倉庫,哪些只會簡單地作為外部數(shù)據(jù)源引用。通常,技術(shù)軌道有自己的PM,但仍然可能需要填補那個角色。數(shù)據(jù)倉庫可量以及他們使用的應(yīng)用(例如,對立方體做一個特別分析,或者從關(guān)系數(shù)據(jù)倉庫中取出緩存的報告),也要估算數(shù)據(jù)倉庫一年中將會存儲的數(shù)據(jù)量。只是因為數(shù)庫。這樣需要足夠的時間來計劃和測試將如何整合所有這些不同的組成部分。跟技術(shù)軌道一樣,應(yīng)用軌道可能有自己的PM或由一個主導(dǎo)的軟件開發(fā)人員會擴大。應(yīng)用層包括獲取從數(shù)據(jù)倉庫收集到的輸出,通常是MIS報告和BI分析MIS系列標(biāo)準(zhǔn)化的進程抓取,這些進程運行在可預(yù)定環(huán)境中。應(yīng)用層的BI部分是一組查詢和響應(yīng),以幫助執(zhí)行管理作出戰(zhàn)略決策,推動商務(wù)運營。BI解決方案往分牌,圖形和數(shù)據(jù)透視表是BI的應(yīng)用例子,它們能刺激更多的數(shù)據(jù)探索,而這可能導(dǎo)致公司內(nèi)部戰(zhàn)略方向的改變。在這個階段許多方法要求原型或試點項目?!?D法”不需要。至多,作為應(yīng)用層的設(shè)計活動中的一部分,可以做一個“點擊模式”--一種輸入/輸出屏幕的快速呈現(xiàn)模型,不涉及或只有極少的代碼但卻能給利益攸關(guān)方可視化的概念,一個切片(slice)“7D法“7D法型和產(chǎn)品系統(tǒng)--它們都被視為項目?!?D法(大多數(shù)原型都是這樣),然后要選擇比第一個切片更仔細(xì)地選擇第二個切片。如果這些切片不能么整合彼此只會遇到困難,在某些情況下,甚至根本不可能。(3)開發(fā)數(shù)據(jù)軌道開發(fā)步驟主要有兩個部分:第一個涉及將數(shù)據(jù)模型映射到其對應(yīng)的物理設(shè)計(實質(zhì)是關(guān)系數(shù)據(jù)倉庫和OLAP立方體的藍(lán)圖)名單的策略。圖3-1通過POWERDESIGNER工具建表第二部分涉及數(shù)據(jù)從外部數(shù)據(jù)源到數(shù)據(jù)倉庫的提取轉(zhuǎn)換加載(ETL)。包含在第二部分但不局限于這一部分的是數(shù)據(jù)轉(zhuǎn)換服務(wù)(DTS)/SQLServer整合服務(wù)(SSIS)補丁的開發(fā)與測試,導(dǎo)入/導(dǎo)出和T-SQL腳本開發(fā)和測試,以及對外部數(shù)據(jù)源組件的數(shù)據(jù)整合測試,這些數(shù)據(jù)不會導(dǎo)入到數(shù)據(jù)倉庫。圖3-2ETL監(jiān)控流程設(shè)計。為了組成通信鏈路的各個層--物理層、數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層以及傳輸層,期數(shù)據(jù)庫--DTS/SSIS軟件包和T-SQL以及把可操作和精心料理的數(shù)據(jù)導(dǎo)入到關(guān)系數(shù)據(jù)倉庫和OLAP立方體中。根據(jù)發(fā)庫,因此,也要準(zhǔn)備為這些方面考慮環(huán)境。能是整個過程中最復(fù)雜和費時的任務(wù),并且可能是代價最高的--如果沒有認(rèn)真(不斷增加特性和功能,而不考慮對其他兩個軌道的設(shè)計和開發(fā)的影響)可能像魚雷一樣破壞項目。除了確保獲得相關(guān)各方的簽字或驗收。(4)部署部署計劃的一部分。位--服務(wù)器,存儲設(shè)備,通信鏈接等,系統(tǒng)軟件的安裝,測試并準(zhǔn)備投入產(chǎn)品。然后是數(shù)據(jù)軌道各組件的展開--數(shù)據(jù)倉庫數(shù)據(jù)庫(關(guān)系型和OLAP)的建立,以及ETLETL進程讓同人員有不同的等級。作為一個PM則發(fā)揮著非常重要的作用。在準(zhǔn)確的指導(dǎo)和引導(dǎo)下,三個軌道“誤點(UI)的數(shù)據(jù)倉太差而不會被企業(yè)用戶采用。(5)日常管理日常業(yè)務(wù)運營的管理是非常重要的;而這常常在規(guī)劃和開發(fā)過程中被忽視。不僅必須確保定期()視所有系統(tǒng)的性能和增長。數(shù)據(jù)倉庫永遠(yuǎn)不會結(jié)束;隨著越來越多的用戶發(fā)現(xiàn)數(shù)(系統(tǒng)軟件)的全面運作,打最新的補丁和升級。當(dāng)業(yè)務(wù)瓶頸出現(xiàn)時盡可能快地診斷和解決問題;確保所有需要做備份的系統(tǒng)及時備份,實際上,有備份工作定義和計劃,并要求所有的備份恢復(fù)測試,后續(xù)測試,開發(fā),或報告數(shù)據(jù)庫。變化到了一定的程度,就需要重新進入發(fā)掘階段,生命周期將回到原點。洗滌,漂洗,重復(fù)下去。(6)防護保護數(shù)據(jù)倉庫涉及的不僅僅是采取定期備份或確保沒有任何應(yīng)用程序包括SQL查詢可能會開放給SQL--理過的,以及(在某些情況下)信息化了的格式存在。部的()或內(nèi)部()相距甚遠(yuǎn)的容錯站點上的鏡像服務(wù)器般復(fù)雜(且昂貴)和恢復(fù)點目標(biāo),也就是多少時間數(shù)據(jù)倉庫離線和多少數(shù)據(jù)丟失我們能夠承擔(dān)。(尤其出現(xiàn)在承擔(dān)數(shù)據(jù)倉庫給養(yǎng)任務(wù)的ETL過程中)界面已經(jīng)把嵌入式SQL調(diào)用暴露給了SQL查明和處理;PM的工作是為整個數(shù)據(jù)倉庫安裝制定一個全面的防御。(7)退役可能有一天當(dāng)數(shù)據(jù)倉庫,或一個組件部分(分期數(shù)據(jù)庫,數(shù)據(jù)集市,報告數(shù)據(jù)庫,立方體)不再符合要求,解除它的時間就到了。并非每一個數(shù)據(jù)庫都可以果數(shù)據(jù)庫實例是“規(guī)范建立的在這種情況下,必須同步進程。一般來說,退役步驟以如下三種方式之一發(fā)生:沒有更換的退役;移交式退役;和逐步到位/逐步淘汰的退役?!皼]有更換的退役是指數(shù)據(jù)庫用來執(zhí)行的功“移交式退役問新的?!爸鸩降轿?逐步淘汰的退役”表明舊的和新的數(shù)據(jù)庫將并存運行一段舊的數(shù)據(jù)庫時,它就可以退役了。每個方案都有其風(fēng)險和回報;我們必須確定何其他人員協(xié)同工作,計劃和執(zhí)行,以確保無縫轉(zhuǎn)換。(8)良性循環(huán)在與這些數(shù)據(jù)倉庫的各個組件打交道的過程中,隨后將會有新一輪的發(fā)現(xiàn),一樣運行,一些新的要求可能會導(dǎo)致日常運作的變化。結(jié)構(gòu),直到數(shù)據(jù)倉庫和業(yè)務(wù)成為無縫的整體。對于這一難題,PM的職責(zé)是確保所有活動和任務(wù)都是按照規(guī)范進行,被既定的成功指標(biāo)接受,并被同步部署。3.3通訊數(shù)據(jù)倉庫設(shè)計原則(1)主題域設(shè)計原則模型共劃分10個域,M域是其中一個單獨的域—企業(yè)管理域,DWA模型設(shè)計遵循主體域劃分原則。(2)規(guī)范性設(shè)計原則(3)完整性設(shè)計原則考慮業(yè)務(wù)覆蓋范圍的完整性和模型設(shè)計的完整性。(4)穩(wěn)定性設(shè)計原則需要增加實體分類關(guān)系數(shù)據(jù)記錄即可,對模型本身不產(chǎn)生影響。(5)前瞻性設(shè)計原則需求進行模型設(shè)計,保證在有新需求時,底層模型能夠?qū)ζ溥M行支撐。(6)擴展性設(shè)計原則層的屬性通過屬性依賴關(guān)系實體來表現(xiàn),這樣在擴充屬性或者擴充實體關(guān)系時,影響核心實體和核心實體關(guān)系。3.4確定數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)及各部分的主要功能的具體結(jié)構(gòu),如圖所示。各組成部分功能如下:圖3-3數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)(1OLAP系統(tǒng)的操作型數(shù)據(jù)、文本文件、HTML文件及知識庫等,各數(shù)據(jù)源的數(shù)據(jù)組織格式可能不一致,所以在這些數(shù)據(jù)進入數(shù)據(jù)倉庫之前要進行必要的整理加工。(2)設(shè)計模塊。用于為數(shù)據(jù)倉庫的源數(shù)據(jù)庫和目標(biāo)數(shù)據(jù)庫建立信息模型。步驟。(3)元數(shù)據(jù)庫。用于存儲數(shù)據(jù)模型和元數(shù)據(jù)。其中,元數(shù)據(jù)定義了數(shù)據(jù)的變化及數(shù)據(jù)時限等。(4)數(shù)據(jù)抽取模塊。該模塊是根據(jù)元數(shù)據(jù)庫中的數(shù)據(jù)源定義、數(shù)據(jù)抽取規(guī)來實現(xiàn),也可以用數(shù)據(jù)倉庫廠商提供的工具來實現(xiàn)。(5)DW管理工具。為數(shù)據(jù)倉庫的運行提供管理手段,以PL/SQLDEVELOPER性等多個方面。(6)數(shù)據(jù)倉庫和數(shù)據(jù)集市。用于存儲重新組織和整理后的數(shù)據(jù)。目前數(shù)據(jù)DSS應(yīng)用的集合。不斷擴充和完再,直至建立全局的數(shù)據(jù)倉庫。(7OLAP服務(wù)器。OLAP具提供多維數(shù)據(jù)視圖及服務(wù)。(8)前端數(shù)據(jù)訪問和分析模塊。該模塊為用戶提供一整套數(shù)據(jù)訪問和分析分析和報表生成工具,數(shù)據(jù)挖掘工具,多維分析工具以及用客戶機/服務(wù)器工具采用現(xiàn)有工具的業(yè)務(wù)需求,可考慮用客戶機/服務(wù)器工具開發(fā)相應(yīng)的前端應(yīng)用。(9)粒度越低,粒度級就越大。確定數(shù)據(jù)粒度的基本準(zhǔn)則定粒度,后續(xù)的工作就會很難進行下去。數(shù)據(jù)粒度劃分基本方法終客戶需求上。來估算數(shù)據(jù)倉庫中將要使用到的DASD(直接存取存儲設(shè)備)數(shù)量。面對數(shù)據(jù)倉和最少數(shù)據(jù)進行估算是估算DAS可以以數(shù)量級為估算單位初步估計行數(shù)的上下5~10最小的DASD數(shù)。以通信行業(yè)的數(shù)據(jù)倉庫系統(tǒng)Oracle作為DBMS,得到數(shù)據(jù)量估算表(見表3-1MAX(M表空間名字表空間說明用途MIN(M))SYSTEM系統(tǒng)表空間X1Y1TEMP1系統(tǒng)臨時表空間X2Y2系統(tǒng)TOLS系統(tǒng)應(yīng)用表空間X3Y3USERS系統(tǒng)用戶表空間X4Y4小計T1T2行大TS_ORIGEN_TA小
原始層表*MIN()BLE*MAX(行數(shù))事實表估計數(shù)據(jù)中心索引表索引TS_DC_IDX估計索引項大小空間項大小總計S1S2表3-1數(shù)據(jù)量估算表從表3-1我們得到了DASD需要多重粒度。表3-2是行業(yè)經(jīng)驗值。表3-2數(shù)據(jù)粒度經(jīng)驗值一年期五年期10,000,000行雙重粒度級20,000,000行雙重粒度級1,000,000行雙重粒度10,000,000行雙重粒度100,000行都可以1,000,000行都可以10,000行都可以100,000行都可以題領(lǐng)域中某個確定的“維度。對于雙重粒度和多重粒度的級別設(shè)計問題,唯一粒度級別是這樣確定的:如果要對客戶交易行為分析,可以確定如下分析維度,DSS分析員交流來確定數(shù)據(jù)粒數(shù)據(jù)、按年匯總數(shù)據(jù)。經(jīng)過上述幾個步驟,基本符合要求的數(shù)據(jù)粒度已經(jīng)確立,析需求。第四章數(shù)據(jù)倉庫詳細(xì)設(shè)計4.1邏輯模型設(shè)計治之,分階段實施的螺旋式開發(fā)方法應(yīng)運而生。結(jié)構(gòu)是為了滿足各種不同的分析邏輯的要求而設(shè)計的。目前業(yè)界許多大公司如:IBMNCRORACLE繞通信業(yè)務(wù)活動的主要主題領(lǐng)域進行的,是多功能的和集成的,如客戶、產(chǎn)品、能滿足單一數(shù)據(jù)視圖的要求??梢酝ㄟ^ETL數(shù)據(jù)抽轉(zhuǎn)換加載提高數(shù)據(jù)質(zhì)量,并通過元數(shù)據(jù)管理來保證數(shù)據(jù)集市間,數(shù)據(jù)集市和數(shù)據(jù)倉庫間數(shù)據(jù)映射的唯一性。B域和MO域數(shù)據(jù)的整合。圖3-4數(shù)據(jù)倉庫架構(gòu)4.2物理模型設(shè)計(1)DB-DW架構(gòu),數(shù)據(jù)倉庫最典型的架構(gòu)是DB-DW結(jié)構(gòu)。數(shù)據(jù)倉庫典型的建設(shè)方法有兩種:夠保證數(shù)據(jù)的一致性,這種架構(gòu)一般適用于相對獨立集中或規(guī)模較小的企業(yè);DW-DM和DM-DWDM(DataMart)是數(shù)據(jù)集市。(2)DB-ODS-DW架構(gòu)ODS(OperationalDataStore)是用于支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合,ODS解決企業(yè)日常性的問題,只存放當(dāng)前或近期的數(shù)據(jù),同操作型數(shù)據(jù)庫類似,數(shù)據(jù)只是增加,沒有修改,因此這又形成了數(shù)據(jù)倉庫DB-ODS-DW的架構(gòu)。第五章數(shù)據(jù)倉庫實現(xiàn)5.1ODS層建設(shè)ODS層是一個面向主題的、集成的、可變的、當(dāng)前的細(xì)節(jié)數(shù)據(jù)層,負(fù)責(zé)對接建ODS(OperationalDataStore可能會做成Stage+ODS數(shù)據(jù)倉庫提供數(shù)據(jù)準(zhǔn)備的工作區(qū),經(jīng)常被作為數(shù)據(jù)倉庫的數(shù)據(jù)處理的過渡,以降低直接進行數(shù)據(jù)處理的復(fù)雜度。5.1.1接口數(shù)據(jù)抽取接口數(shù)據(jù)抽取就是根據(jù)數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)模型的需求,從相應(yīng)的業(yè)務(wù)系統(tǒng)、數(shù)據(jù)庫接口(ODBC、OLEDB、專用數(shù)據(jù)庫驅(qū)動接口)和文件接口。對于不同平臺、不同形式、不同業(yè)務(wù)以及不同數(shù)據(jù)量的源數(shù)據(jù),將采取不同的數(shù)據(jù)抽取接口。點考慮數(shù)據(jù)平臺、源數(shù)據(jù)形式、業(yè)務(wù)系統(tǒng)的性能要求以及業(yè)務(wù)量和數(shù)據(jù)量大小。根據(jù)抽取的源數(shù)據(jù)形式,選擇數(shù)據(jù)抽取接口的原則建議為以下幾點:ODBCOLEDB或?qū)S脭?shù)據(jù)庫驅(qū)動接口方式。對于數(shù)據(jù)形式是文件方式的源數(shù)據(jù),一般直接進入轉(zhuǎn)換和加載流程。OLEDB接口等。如專用的API接口,進行編程。API取效率同時減少對業(yè)務(wù)系統(tǒng)的性能的影響。下圖為ODS加工流程圖5-1ODS加工流程5.1.2數(shù)據(jù)抽取策略須保證不能影響業(yè)務(wù)系統(tǒng)的性能,所以進行數(shù)據(jù)抽取時必須充分考慮這些因素,制定相應(yīng)的策略。就抽取數(shù)據(jù)的時效性而言,包括增量抽取、完全抽取等方式。抽取的數(shù)據(jù)量小,從而轉(zhuǎn)換和加載的數(shù)據(jù)量也小,能夠極大提高數(shù)據(jù)加載性能。全抽取方式:數(shù)據(jù)量很小,采用完全抽取方式性能更高時;無法分離出增量數(shù)據(jù)時。數(shù)據(jù)抽取的時機,必須盡可能避開業(yè)務(wù)系統(tǒng)的高峰時段,聯(lián)通通常在00:00-03:00務(wù)系統(tǒng),由于數(shù)據(jù)量相對比較小,可以根據(jù)實際情況制定相應(yīng)的數(shù)據(jù)抽取策略。5.1.3ODS層的作用(1)快速接收數(shù)據(jù)采集過程傳過來的大量數(shù)據(jù),縮短數(shù)據(jù)采集時間,減少數(shù)據(jù)采集對應(yīng)用系統(tǒng)的沖擊;(2)實現(xiàn)對跨系統(tǒng)、多數(shù)據(jù)源的統(tǒng)一數(shù)據(jù)采集,提高了采集數(shù)據(jù)的可靠性和一致性;(3)所有文本式的數(shù)據(jù),應(yīng)先在整合層集中,再作后續(xù)處理;(4)所有的數(shù)據(jù)后續(xù)處理,因為數(shù)據(jù)整合層,而統(tǒng)一了接口,降低了技術(shù)復(fù)雜性和網(wǎng)絡(luò)不良等因素;(5)數(shù)據(jù)整合層保存了要加載的數(shù)據(jù),避免了數(shù)據(jù)轉(zhuǎn)換過程對數(shù)據(jù)源的直接操作,減少了對數(shù)據(jù)源的影響;(6)當(dāng)數(shù)據(jù)倉庫中的數(shù)據(jù)轉(zhuǎn)換出錯或失敗時,可以從數(shù)據(jù)整合層中再次抽取了系統(tǒng)的效率。5.2DWD層建設(shè)5.2.1DWD定義DWD數(shù)據(jù)倉庫的核心,同時為未來需求的擴展提供歷史數(shù)據(jù)支持。DWD業(yè)級數(shù)據(jù)模型域的劃分。5.2.2實體選取的原則原則1繳費等原則2:業(yè)務(wù)過程中的核心業(yè)務(wù)實體及相關(guān)維度,長期沉淀,如:客戶、產(chǎn)品、訂購實例、渠道等原則3:業(yè)務(wù)過程中產(chǎn)生的可度量實體及相關(guān)維度,長期沉淀,如:帳單、傭金等。原則4:面向處理流程的信息,不需要沉淀,如:出帳規(guī)則實體。原則5:控制流程類的信息,不需要沉淀,如:審批過程類信息。5.2.3字段選取的原則原則1:刪除與規(guī)則相關(guān)的字段。如:刪除訂購實例信用額度實體中信用評估規(guī)則標(biāo)識字段。原則2:增加和分析相關(guān)的屬性或集團統(tǒng)一編碼。如:用戶資料,增加用戶歸屬片區(qū)等屬性,渠道資料,增加集團統(tǒng)一渠道標(biāo)識。原則3:增加時間戳或時間拉鏈字段:針對不同類型數(shù)據(jù),考慮時間處理方用戶資料類數(shù)據(jù)。5.2.4數(shù)據(jù)轉(zhuǎn)換(1)數(shù)據(jù)轉(zhuǎn)換的主要功能數(shù)據(jù)轉(zhuǎn)換是指對從業(yè)務(wù)系統(tǒng)中抽取的源數(shù)據(jù)根據(jù)數(shù)據(jù)倉庫系統(tǒng)模型的要求,果出現(xiàn)以下原因可能會使數(shù)據(jù)轉(zhuǎn)換工作變得復(fù)雜:源數(shù)據(jù)系統(tǒng)同數(shù)據(jù)倉庫系統(tǒng)在模型上的差異性。據(jù)庫的數(shù)據(jù)。時期數(shù)據(jù)結(jié)構(gòu)不一致。源數(shù)據(jù)定義不規(guī)范導(dǎo)致錯誤數(shù)據(jù)。對數(shù)據(jù)的約束不嚴(yán)格,導(dǎo)致無意義數(shù)據(jù)。存在重復(fù)記錄。由于平臺系統(tǒng)的不同,可能會存在大量的轉(zhuǎn)碼工作。(2)數(shù)據(jù)轉(zhuǎn)換技術(shù)和策略根據(jù)實際情況,數(shù)據(jù)轉(zhuǎn)換工作一般會在以下幾個環(huán)節(jié)中具體實現(xiàn):在抽取過程中進行數(shù)據(jù)處理。使用異步數(shù)據(jù)加載,以文件的方式處理。在數(shù)據(jù)加載過程中進行數(shù)據(jù)處理。ETL整個流程的協(xié)調(diào)性工作和大量的非SQL據(jù)倉庫引擎的海量數(shù)據(jù)處理能力。(3)對于移動經(jīng)營分析系統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)轉(zhuǎn)換工作,建議分別采取如下策略:作。期開戶的開戶信息可能缺少個人的基本信息(性別、年齡、身份證號碼等)、的方式進行數(shù)據(jù)的清洗、抽取、組合等轉(zhuǎn)換工作。對于其它如客戶服務(wù)數(shù)據(jù)等,根據(jù)實際情況采用相應(yīng)的轉(zhuǎn)換措施。5.2.5數(shù)據(jù)加載技術(shù)及策略通過數(shù)據(jù)倉庫引擎廠商提供的API編程進行數(shù)據(jù)加載。在兩種數(shù)據(jù)加載技術(shù)中,要包括兩方面的內(nèi)容:加載周期及數(shù)據(jù)追加策略。對不同業(yè)務(wù)系統(tǒng)采用不同的加載周期,但必須保持同一時間業(yè)務(wù)數(shù)據(jù)的完整性。對于營業(yè)系統(tǒng)數(shù)據(jù),比如開戶、賬戶修改、銷戶等信息,以及計費詳單等信息,采用每日加載一次或與業(yè)務(wù)系統(tǒng)信息周期同步;客戶賬務(wù)信息同出賬周期同步;其它信息根據(jù)具體情況,最好是采用最小加載周期。用3種類型:直接追加、全部覆蓋、更新追加。(1)直接追加是指每次加載時直接將數(shù)據(jù)追加到目的表中。對于典型的流水?dāng)?shù)據(jù),一般采用此方法。對于詳單信息、賬務(wù)信息等采用直接追加的方式。(2)全部覆蓋:這部分表抽取的本身就是整個表的所有數(shù)據(jù)(包括當(dāng)前和歷史),所以采用整表覆蓋方式。對于帳戶信息,如果不能夠提供增量數(shù)據(jù),最好的方法就是采用全部覆蓋的方式。(3)更新追加:部分表需要連續(xù)記錄業(yè)務(wù)的狀態(tài)變化,需要通過當(dāng)前的最新方式,需要綜合考慮效率、業(yè)務(wù)實現(xiàn)等諸多因素。5.3DWA匯總層建設(shè)業(yè)務(wù)事件:選取DWD層中需要進行匯總處理的核心業(yè)務(wù)事件。ID,選取最細(xì)粒度的核心實體ID作為匯總最小數(shù)據(jù)粒度。維度層次:梳理核心業(yè)務(wù)實體ID和分析相關(guān)的重要維度的可聚集的維度層次。聚集度量。圖5-2DWA匯總場景圖冗余設(shè)計:考慮查詢性能和ETL加工性能,適量增加匯總維度的冗余。匯總模型:通過對維度的限制和聚合,設(shè)計匯總數(shù)據(jù)模型。DWADWD心業(yè)務(wù)實體ID級、數(shù)據(jù)粒度由細(xì)變粗、選取常用維度、保留事件的業(yè)務(wù)度量,進行數(shù)據(jù)輕度匯總和沉淀。5.4DWA衍生層建設(shè)DWA衍生層是圍繞DWD原來站在事件角度看問題轉(zhuǎn)換為站在核心業(yè)務(wù)實體角度看問題,該部分與DWD層一同構(gòu)成核心業(yè)務(wù)實體的統(tǒng)一數(shù)據(jù)視圖。該層原則上依賴DWD層,對于生產(chǎn)型模型缺失的情況,又有應(yīng)用需求的,在本層進行了補充,如首次通話時間等。DWA層應(yīng)該采用反規(guī)范化冗余設(shè)計,快速支持?jǐn)?shù)據(jù)訪問和應(yīng)用開發(fā);DWA層只能保證相對穩(wěn)定,隨著分析需求的增加,需要進行不斷擴展。(1)DWA設(shè)計步驟圖5-3DWA設(shè)計圖圖5-4衍生信息表圖5-5匯總信息表第六章數(shù)據(jù)倉庫后期運維6.1數(shù)據(jù)倉庫測試測試過程在這里仍然有效。6.1.1分析源文件(source-to-targetmappings件在設(shè)計測試策略時也會變得更加有用。6.1.2開發(fā)策略和測試計劃取分段表,然后是增量表、基本的歷史表格、BI視圖等的測試。analysis-basedanalysis-basedSQL需求,那么基于查詢的方式會更為合適。6.1.3測試的開發(fā)與執(zhí)行考一下測試分類總是有用的。通常數(shù)據(jù)倉庫的測試分類有:記錄計數(shù)(預(yù)期與實際對比)副本記錄參考數(shù)據(jù)有效性參照完整性錯誤與異常邏輯增量過程與歷史過程控制欄值與默認(rèn)值除這些分類外,還可以參考缺陷分類學(xué),比如LarryGreenfield的分類。一個數(shù)據(jù)倉庫測試過程,取得滿意的成果。6.2數(shù)據(jù)倉庫后期維護6.2.1數(shù)據(jù)倉庫數(shù)據(jù)清理前3數(shù)據(jù),只保留上層的數(shù)據(jù)。6.2.2數(shù)據(jù)倉庫模型更改進行替換。當(dāng)聯(lián)通提出新的需求時,就要重新梳理數(shù)據(jù)倉庫結(jié)構(gòu),建立新過程,來滿足聯(lián)通的需要。6.3數(shù)據(jù)倉庫性能優(yōu)化6.3.1調(diào)整數(shù)據(jù)庫服務(wù)器的性能Oracle數(shù)據(jù)庫服務(wù)器是整個系統(tǒng)的核心,它的性能高低直接影響整個系統(tǒng)的性能,為了調(diào)整Oracle數(shù)據(jù)庫服務(wù)器的性能,主要從以下幾個方面考慮:調(diào)整操作系統(tǒng)以適合Oracle數(shù)據(jù)庫服務(wù)器運行,Oracle數(shù)據(jù)庫服務(wù)器很大論如何調(diào)整,Oracle數(shù)據(jù)庫服務(wù)器也無法發(fā)揮其應(yīng)有的性能。(1)為Oracle數(shù)據(jù)庫服務(wù)器規(guī)劃系統(tǒng)資源據(jù)已有計算機可用資源,規(guī)劃分配給
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三農(nóng)農(nóng)業(yè)休閑觀光項目指南
- 建設(shè)工程可行性研究
- 營口冷鏈物流公司
- 項目進度管理與會議紀(jì)要實錄
- 垃圾分類示范城市
- 零售連鎖店數(shù)字化門店運營方案
- 中級養(yǎng)老護理練習(xí)試卷附答案
- 儲能系統(tǒng)和綜合能源系統(tǒng)解決方案分享
- 新能汽車產(chǎn)業(yè)發(fā)展政策及技術(shù)趨勢分析
- 重要項目決策會議紀(jì)要實錄
- 地鐵站安全運行現(xiàn)狀評價報告
- 中石化供應(yīng)鏈VPN接入方案
- 無人機應(yīng)用與基礎(chǔ)操控入門課件
- 跨學(xué)科主題學(xué)習(xí)的設(shè)計
- 掌握說明方法-2024年中考語文閱讀點撥及進階訓(xùn)練(解析版)
- 孔雀東南飛課件幻燈片課件
- 四川省會計師事務(wù)所服務(wù)收費標(biāo)準(zhǔn)
- 中國品牌授權(quán)行業(yè)發(fā)展環(huán)境、市場運行態(tài)勢及投資前景分析預(yù)測報告
- 留置導(dǎo)尿法操作評分標(biāo)準(zhǔn)
- 休克的臨床表現(xiàn)與急救
- 2024年皖北衛(wèi)生職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫附答案
評論
0/150
提交評論