版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
DataWarehouse
數(shù)據(jù)倉庫概念、設(shè)計及應用報告人:曹順良2001年11月12日提綱1.為什么要建立數(shù)據(jù)倉庫2.
數(shù)據(jù)倉庫的概念及特性3.數(shù)據(jù)倉庫的結(jié)構(gòu)4.數(shù)據(jù)倉庫的設(shè)計5.數(shù)據(jù)倉庫的開發(fā)過程6.數(shù)據(jù)倉庫的典型應用事務處理環(huán)境不適宜DSS應用的原因
事務處理和分析處理的性能特性不同操作型處理對數(shù)據(jù)的存取操作頻率高而每次操作處理的時間短;
在分析處理環(huán)境中,某個DSS應用程序可能需要連續(xù)幾個小時,從而消耗大量的系統(tǒng)資源。數(shù)據(jù)集成問題數(shù)據(jù)動態(tài)集成問題歷史數(shù)據(jù)問題數(shù)據(jù)的綜合問題
抽取程序用抽取程序能將數(shù)據(jù)從高性能聯(lián)機事務處理方式中轉(zhuǎn)移出來,在需要總體分析數(shù)據(jù)時就與聯(lián)機事務處理性能不發(fā)生沖突。用抽取程序能將數(shù)據(jù)從聯(lián)機事務處理范圍內(nèi)移出時,數(shù)據(jù)的控制方式就發(fā)生了轉(zhuǎn)變。蜘蛛網(wǎng)問題數(shù)據(jù)缺乏可信性數(shù)據(jù)無時基數(shù)據(jù)算法上的差異抽取的多層次外部數(shù)據(jù)問題無起始的公共數(shù)據(jù)源生產(chǎn)率低根據(jù)全部數(shù)據(jù)生成企業(yè)報表定位數(shù)據(jù)需要瀏覽大量文件抽取程序很多,并且每個都是定制的,不得不克服很多技術(shù)上的障礙。數(shù)據(jù)轉(zhuǎn)化為信息的不可行性數(shù)據(jù)沒有集成化缺乏將數(shù)據(jù)轉(zhuǎn)化為信息所需的歷史數(shù)據(jù)體系結(jié)構(gòu)設(shè)計環(huán)境的層次數(shù)據(jù)操作層只保存原始數(shù)據(jù)并且服務于高性能事務處理領(lǐng)域;數(shù)據(jù)倉庫層存儲不更新的原始數(shù)據(jù),此外一些導出數(shù)據(jù)也在此存在;數(shù)據(jù)的部門層幾乎只存放導出數(shù)據(jù);在數(shù)據(jù)個體層中完成大多數(shù)啟發(fā)式分析操作層原子/數(shù)據(jù)倉庫層部門層個體層數(shù)據(jù)倉庫的概念
數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時間相關(guān)的、不可修改的數(shù)據(jù)集合。[WilliamH.Inmon]與其他數(shù)據(jù)庫應用不同的是,數(shù)據(jù)倉庫更像一種過程,對分布在企業(yè)內(nèi)部各處的業(yè)務數(shù)據(jù)的整合、加工和分析的過程。數(shù)據(jù)倉庫的特性
面向主題典型的主題領(lǐng)域:客戶;產(chǎn)品;交易;帳目集成的數(shù)據(jù)提取、凈化、轉(zhuǎn)換、裝載非易失的數(shù)據(jù)倉庫的數(shù)據(jù)通常是一起載入和訪問的,但并不進行一般意義上的數(shù)據(jù)更新隨時間的變化性數(shù)據(jù)倉庫中的時間期限要遠遠長于操作型系統(tǒng)中的時間期限(5~10年);數(shù)據(jù)倉庫中的數(shù)據(jù)是一系列某一時刻生成的復雜的快照;數(shù)據(jù)倉庫的鍵碼結(jié)構(gòu)總是包含某時間元素。數(shù)據(jù)倉庫的結(jié)構(gòu)早期細節(jié)級當前細節(jié)級輕度綜合級數(shù)據(jù)集市高度綜合級元數(shù)據(jù)操作型轉(zhuǎn)換
數(shù)據(jù)倉庫設(shè)計中的幾個重要概念
ETLETL(Extract/Transformation/Load)—用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換,最終按照預先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。元數(shù)據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義,目標定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息。粒度數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級就越小;相反,細化程度越低,粒度級就越大。分割結(jié)構(gòu)相同的數(shù)據(jù)被分成多個數(shù)據(jù)物理單元。任何給定的數(shù)據(jù)單元屬于且僅屬于一個分割。典型的元數(shù)數(shù)據(jù)包括::數(shù)據(jù)倉庫表表的結(jié)構(gòu)數(shù)據(jù)倉庫表表的屬性數(shù)據(jù)倉庫的的源數(shù)據(jù)((記錄系統(tǒng)統(tǒng))從記錄系統(tǒng)統(tǒng)到數(shù)據(jù)倉倉庫的映射射數(shù)據(jù)模型的的規(guī)格說明明抽取日志訪問數(shù)據(jù)的的公用例行行程序數(shù)據(jù)倉庫設(shè)設(shè)計中的幾幾個重要概概念(續(xù))DataMart數(shù)據(jù)集市--小小型的,面面向部門或或工作組級級數(shù)據(jù)倉庫庫。OperationDataStore操作數(shù)據(jù)存存儲—ODS是能支持企企業(yè)日常的的全局應用用的數(shù)據(jù)集集合,是不不同于DB的一種新的的數(shù)據(jù)環(huán)境境,是DW擴展后得到到的一個混混合形式。。四個基本本特點:面面向主題的的(Subject-Oriented)、集成的、可可變的、當當前或接接近當前的的。datamodel數(shù)據(jù)模型--(1)邏輯數(shù)據(jù)據(jù)結(jié)構(gòu),包包括由DBMS為有效進行行數(shù)據(jù)庫處處理提供的的操作和約約束;(2)用于表示示數(shù)據(jù)的系系統(tǒng)(例如如,ERD或關(guān)系型模模型)。artifact人工關(guān)系--在DSS環(huán)境中用于于表示參照照完整性的的一種設(shè)計計技術(shù)。企業(yè)數(shù)據(jù)模模型到數(shù)據(jù)據(jù)倉庫數(shù)據(jù)據(jù)模型的轉(zhuǎn)轉(zhuǎn)換除去去純純粹粹用用于于操操作作型型環(huán)環(huán)境境的的數(shù)數(shù)據(jù)據(jù)在企企業(yè)業(yè)鍵鍵碼碼結(jié)結(jié)構(gòu)構(gòu)中中增增加加時時間間元元素素增加加導導出出數(shù)數(shù)據(jù)據(jù)創(chuàng)建建人人工工關(guān)關(guān)系系數(shù)據(jù)據(jù)模模型型的的規(guī)規(guī)范范化化/反反規(guī)規(guī)范范化化為了了減減少少程程序序在在表表中中的的跳跳轉(zhuǎn)轉(zhuǎn)、、節(jié)節(jié)省省I/O,,需將將多多個個相相關(guān)關(guān)的的表表合合并并;;引入入冗冗余余數(shù)數(shù)據(jù)據(jù);;當訪訪問問概概率率有有很很大大懸懸殊殊時時,,要要對對數(shù)數(shù)據(jù)據(jù)做做進進一一步步分分離離;;在物物理理數(shù)數(shù)據(jù)據(jù)庫庫的的設(shè)設(shè)計計中中引引入入導導出出數(shù)數(shù)據(jù)據(jù)可可以以減減少少I/O;;建立立所所謂謂的的““創(chuàng)創(chuàng)造造的的””索索引引或或創(chuàng)創(chuàng)造造的的簡簡要要記記錄錄((如如卷卷中中的的前前十十名名顧顧客客是是————))數(shù)據(jù)倉庫體系結(jié)構(gòu)OLTP數(shù)據(jù)源數(shù)據(jù)倉庫數(shù)據(jù)集市?數(shù)據(jù)采集及整合數(shù)據(jù)的映射規(guī)則、模型。。。
(元數(shù)據(jù)管理)數(shù)據(jù)倉庫項目流程管理及系統(tǒng)性能管理和監(jiān)控?數(shù)據(jù)展現(xiàn)及決策生產(chǎn)財務結(jié)算外部航線分析總量分析市場分析InfoPump數(shù)據(jù)分析、DM終端用戶終端用戶從操操作作型型的的現(xiàn)現(xiàn)存存系系統(tǒng)統(tǒng)到到數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中數(shù)數(shù)據(jù)據(jù)轉(zhuǎn)轉(zhuǎn)換換工工作作的的難難點點現(xiàn)有有系系統(tǒng)統(tǒng)缺缺乏乏數(shù)數(shù)據(jù)據(jù)集集成成,,跨跨越越不不同同應應用用的的數(shù)數(shù)據(jù)據(jù)集集成成性性很很差差存取取現(xiàn)現(xiàn)存存系系統(tǒng)統(tǒng)的的效效率率,,掃掃描描已已有有文文件件成成了了數(shù)數(shù)據(jù)據(jù)倉倉庫庫體體系系結(jié)結(jié)構(gòu)構(gòu)設(shè)設(shè)計計者者主主要要面面對對的的問問題題時基的的變化化數(shù)據(jù)要要濃縮縮概念:數(shù)據(jù)周周期、、簡要要記錄錄數(shù)據(jù)周周期::是指從從操作作型數(shù)數(shù)據(jù)發(fā)發(fā)生改改變起起,到到這個個變化化反映映到數(shù)數(shù)據(jù)倉倉庫中中所用用的時時間。從操作作型環(huán)環(huán)境知知道數(shù)數(shù)據(jù)的的改變變到這這個變變化反反映到到數(shù)據(jù)據(jù)倉庫庫中至至少應應該經(jīng)經(jīng)歷24小小時。。簡要記記錄::或聚集集記錄錄,是是把不不同操操作型型數(shù)據(jù)據(jù)的詳詳細信信息聚聚集在在一個個記錄錄中而而形成成的記記錄。。好處::①減減少數(shù)數(shù)據(jù)量量;②為用用戶的的訪問問和分分析提提供了了一種種緊湊湊的方方便的的數(shù)據(jù)據(jù)組織織形式式;缺點::信息息的詳詳細程程度將將會降降低。。數(shù)據(jù)倉倉庫的的建模模數(shù)據(jù)模模型所有的的實體體都是是平等等關(guān)系系。僅僅從從數(shù)據(jù)據(jù)模型型的角角度來來著手手設(shè)計計數(shù)據(jù)據(jù)倉庫庫會產(chǎn)產(chǎn)生一一種““平面面”效效應。。星型連連接事實表表:位于星星型連連接的的中央央,它它是被被大量量載入入數(shù)據(jù)據(jù)的實實體。。維表::周圍圍的其其它實實體。。在很多多情況況下::文本本數(shù)據(jù)據(jù)與數(shù)數(shù)值數(shù)數(shù)據(jù)是是分離離開的的。通過數(shù)數(shù)據(jù)預預連接接和建建立有有選擇擇的數(shù)數(shù)據(jù)冗冗余,,設(shè)計計者為為訪問問和分分析過過程大大大簡簡化了了數(shù)據(jù)據(jù)。星型連連接應應用于于設(shè)計計數(shù)據(jù)據(jù)倉庫庫中很很大的的實體體,而而數(shù)據(jù)據(jù)模型型則應應用于于數(shù)據(jù)據(jù)倉庫庫中較較小的的實體體。VendordataVendordataVendordatavendor_id供應商cust_id客戶order_id發(fā)貨OrderdataOrderdataorder_id訂單CustdataCustdataCustdataNonkeydataOrderdataOrderdataOrderdata產(chǎn)品ProductdataProductdataProductdataProductidVendoridNonkeydatacustidNonkeydataorderidNonkeydataproductid數(shù)據(jù)建建模的的十條條戒律律①必須須回答答緊迫迫的問問題;;②必須須有正正確的的事實實表;;③將有有正確確的維維表,,描述述必須須按最最終用用戶的的業(yè)務務術(shù)語語表達達;④必須須理解解數(shù)據(jù)據(jù)倉庫庫所影影響的的公司司過程程或影影響數(shù)數(shù)據(jù)倉倉庫的的公司司過程程;⑤對于于事實實表,,應該該有正正確的的“粒粒度””;⑥根據(jù)據(jù)需要要存儲儲正確確長度度的公公司歷歷史數(shù)數(shù)據(jù);;⑦以一一種對對于公公司有有意義義的方方式來來集成成所有有必要要的數(shù)數(shù)據(jù);;⑧創(chuàng)建建必要要的總總結(jié)表表;⑨創(chuàng)建建必要要的索索引;;⑩能夠夠加載載數(shù)據(jù)據(jù)倉庫庫數(shù)據(jù)據(jù)庫并并使它它以一一種適適宜的的方式式可用用。數(shù)據(jù)集集市外部數(shù)數(shù)據(jù)用自頂頂向下下的方方法構(gòu)構(gòu)建數(shù)數(shù)據(jù)倉倉庫數(shù)據(jù)集集市建造企企業(yè)數(shù)數(shù)據(jù)倉倉庫建設(shè)中中心數(shù)數(shù)據(jù)模模型一次性性的完完成數(shù)數(shù)據(jù)的的重構(gòu)構(gòu)工作作最小化化數(shù)據(jù)據(jù)冗余余度和和不一一致性性存儲詳詳細的的歷史史數(shù)據(jù)據(jù)從企業(yè)業(yè)數(shù)據(jù)據(jù)倉庫庫中建建造數(shù)數(shù)據(jù)集集市得到大大部分分的集集成數(shù)數(shù)據(jù)直接依依賴于于數(shù)據(jù)據(jù)倉庫庫的可可用性性操作數(shù)數(shù)據(jù)問題投資效效益的的時間間?建設(shè)中中心數(shù)數(shù)據(jù)模模型的的必要要性和和可能能性?初始費費用?企業(yè)數(shù)據(jù)倉庫用自底底向上上的方方法構(gòu)構(gòu)建數(shù)數(shù)據(jù)倉倉庫數(shù)據(jù)集集市建立部部門數(shù)數(shù)據(jù)集集市限制在在一個個主題題區(qū)域域快速投投資收收益區(qū)域自自治––設(shè)設(shè)計計的可可伸縮縮性強強對相關(guān)關(guān)部門門的應應用容容易復復制對每個個數(shù)據(jù)據(jù)集市市需要要數(shù)據(jù)據(jù)重構(gòu)構(gòu)存在一一定的的冗余余及不不一直直性逐步擴擴展到到企業(yè)業(yè)數(shù)據(jù)據(jù)倉庫庫(EDW)把建造造EDW作為一一個長長期的的目標標存在的的問題題:數(shù)據(jù)集集市的的數(shù)據(jù)據(jù)都是是可用用的嗎嗎?能生成成數(shù)據(jù)據(jù)模型型嗎?如何解解決不不一致致性?外部數(shù)據(jù)操作數(shù)據(jù)(全局)&操作數(shù)據(jù)(局部)操作數(shù)數(shù)據(jù)(局部)數(shù)據(jù)集集市企業(yè)數(shù)數(shù)據(jù)倉倉庫數(shù)據(jù)倉倉庫的的開發(fā)發(fā)過程程建立或或獲得得企業(yè)業(yè)的數(shù)數(shù)據(jù)模模型;;定義記記錄系系統(tǒng);;設(shè)計數(shù)數(shù)據(jù)倉倉庫并并按主主題領(lǐng)領(lǐng)域進進行組組織;;設(shè)計和和建立立操作作型環(huán)環(huán)境中中的記記錄系系統(tǒng)和和數(shù)據(jù)據(jù)倉庫庫之間間的接接口,,這些些接口口能保保證數(shù)數(shù)據(jù)倉倉庫的的載入入工作作能有有序的的進行行;開始載載入第第一個個主題題領(lǐng)域域,進進入載載入和和反饋饋過程程,數(shù)數(shù)據(jù)倉倉庫中中的數(shù)數(shù)據(jù)在在此過過程中中也在在不斷斷地改改變。。數(shù)據(jù)模模型的的內(nèi)容容標識主主要主主題領(lǐng)領(lǐng)域。。各個主主要主主題之之間的的各種種關(guān)系系。清晰地地定義義模型型的邊邊界。。把原始始數(shù)據(jù)據(jù)和導導出數(shù)數(shù)據(jù)分分離。。每個主主題領(lǐng)領(lǐng)域需需要標標識鍵碼屬性屬性分分組之之間的的關(guān)系系多重出出現(xiàn)的的數(shù)據(jù)據(jù)數(shù)據(jù)的的類型型表達數(shù)數(shù)據(jù)模模型的的最好好數(shù)據(jù)據(jù)最實時時最準確確最完備備與外部部數(shù)據(jù)據(jù)源最最近最具結(jié)結(jié)構(gòu)兼兼容性性定義記記錄系系統(tǒng)就就是找找出現(xiàn)現(xiàn)存系系統(tǒng)所所具有有的最最好的的數(shù)據(jù)據(jù)將數(shù)據(jù)據(jù)模型型變?yōu)闉閿?shù)據(jù)據(jù)倉庫庫要做做的主主要工工作如果原原先沒沒有時時間元元素的的話,,時間間元素素必須須加入入到鍵鍵碼結(jié)結(jié)構(gòu)中中必須清清除所所有的的純操操作型型數(shù)據(jù)據(jù)需要將將參照照完整整性關(guān)關(guān)系轉(zhuǎn)轉(zhuǎn)換成成“人人工關(guān)關(guān)系””將經(jīng)常常需要要用到到的到到處數(shù)數(shù)據(jù)假假如到到設(shè)計計中對數(shù)據(jù)據(jù)的結(jié)結(jié)構(gòu)進進行調(diào)調(diào)整增加數(shù)數(shù)據(jù)陣陣列增加數(shù)數(shù)據(jù)冗冗余在合適適的情情況下下進一一步分分離數(shù)數(shù)據(jù)在合適適的時時候合合并數(shù)數(shù)據(jù)表表需要做做數(shù)據(jù)據(jù)的穩(wěn)穩(wěn)定性性分析析在接口口中需需完成成的工工作數(shù)據(jù)抽抽取對來自自操作作型、、面向向應用用型環(huán)環(huán)境的的數(shù)據(jù)據(jù)的集集成數(shù)據(jù)時時基的的變更更數(shù)據(jù)壓壓縮對現(xiàn)存存系統(tǒng)統(tǒng)環(huán)境境的有有效掃掃描數(shù)據(jù)倉倉庫開開發(fā)成成功的的關(guān)鍵鍵關(guān)鍵::是數(shù)數(shù)據(jù)體體系結(jié)結(jié)構(gòu)設(shè)設(shè)計者者和DSS分析者者之間間的反反饋循循環(huán)。。有幾點點觀察察結(jié)果果對數(shù)數(shù)據(jù)倉倉庫環(huán)環(huán)境的的成功功建立立是至至關(guān)重重要的的問題題:DSS分析人人員一一定要要嚴格格遵循循“給給我我我所要要的東東西,,然后后我能能告訴訴你我我真正正需要要的東東西””的工工作模模式;;反饋循循環(huán)的的周期期越短短,越越有可可能成成功;;需要調(diào)調(diào)整的的數(shù)據(jù)據(jù)量越越大,,反饋饋循環(huán)環(huán)所需需要的的周期期就越越長數(shù)據(jù)倉倉庫的的應用用在證券業(yè)業(yè)的應應用:可處理理客戶戶分析析、帳帳戶分分析、、證券券交易易數(shù)據(jù)據(jù)分析析、非非資金金交易易分析析等多多個業(yè)業(yè)界關(guān)關(guān)心的的主題題,為為客戶戶提供供針對對其個個人習習慣、、投資資組合合的投投資建建議,,從而而真正正作到到對客客戶的的貼心心服務務。在銀行行領(lǐng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年農(nóng)村房產(chǎn)過戶協(xié)議
- 2025年環(huán)境資源贈與合同
- 工地電工2025年度勞動合同規(guī)范范本14篇
- 2024裝修合同中的采購合同范本
- 2025版塑料回收利用項目投資合作合同范本3篇
- 2025年度生態(tài)大棚建筑與生態(tài)農(nóng)業(yè)示范項目合同4篇
- 2025年度企業(yè)間知識產(chǎn)權(quán)歸屬及合作開發(fā)協(xié)議
- 2025年度銷售業(yè)務員銷售渠道拓展合同
- 二零二五年度商標權(quán)授權(quán)合同補充協(xié)議
- 2025年度自愿不上學協(xié)議書-家庭教育支持與子女學業(yè)規(guī)劃合同
- 2024年醫(yī)銷售藥銷售工作總結(jié)
- GB/T 44888-2024政務服務大廳智能化建設(shè)指南
- 2023-2024學年江西省萍鄉(xiāng)市八年級(上)期末物理試卷
- 四則混合運算100道題四年級上冊及答案
- 四川省高職單招電氣技術(shù)類《電子基礎(chǔ)》歷年考試真題試題庫(含答案)
- 2024年江西生物科技職業(yè)學院單招職業(yè)技能測試題庫帶解析答案
- 橋本甲狀腺炎-90天治療方案
- (2024年)安全注射培訓課件
- 2024版《建設(shè)工程開工、停工、復工安全管理臺賬表格(流程圖、申請表、報審表、考核表、通知單等)》模版
- 部編版《道德與法治》六年級下冊教材分析萬永霞
- 酒店人防管理制度
評論
0/150
提交評論