版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第二章 數(shù)據(jù)倉庫原理2.1 數(shù)據(jù)倉庫結(jié)構(gòu)體系2.2 數(shù)據(jù)倉庫的數(shù)據(jù)模型2.3數(shù)據(jù)抽取、轉(zhuǎn)換和裝載2.4 元數(shù)據(jù)12.1 數(shù)據(jù)倉庫結(jié)構(gòu)體系2.1.1 數(shù)據(jù)倉庫結(jié)構(gòu)2.1.2數(shù)據(jù)集市及其結(jié)構(gòu)2.1.3 數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)2.1.4 數(shù)據(jù)倉庫運行結(jié)構(gòu)23 數(shù)據(jù)倉庫是在數(shù)據(jù)庫基礎(chǔ)上發(fā)展起來的,其數(shù)據(jù)來源于數(shù)據(jù)庫。 數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別:面向主題與面向事務(wù)。數(shù)據(jù)的組織結(jié)構(gòu)不同。2.1.1 數(shù)據(jù)倉庫結(jié)構(gòu)4 數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別:數(shù)據(jù)庫面向事務(wù):圍繞公司功能性應(yīng)用進(jìn)行組織。強(qiáng)調(diào)要做什么!如:保險公司可能的應(yīng)用有汽車保險,人壽保險,健康保險,財產(chǎn)保險等。2.1.1 數(shù)據(jù)倉庫結(jié)構(gòu)5 數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別:面
2、向主題:公司面對的對象。強(qiáng)調(diào)對什么做!如:保險公司可能的對象(主題域)是顧客,保險單,保險費與索賠。生產(chǎn)商可能的對象(主題域)是:產(chǎn)品,銷售商等;零售商可能的對象(主題域)是:顧客,商品,庫存,銷售等;2.1.1 數(shù)據(jù)倉庫結(jié)構(gòu)6 數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別:“與時間相關(guān)”:數(shù)據(jù)庫保存信息的時候,并不強(qiáng)調(diào)一定有時間信息。數(shù)據(jù)倉庫則不同,出于決策的需要,數(shù)據(jù)倉庫中的數(shù)據(jù)都要標(biāo)明時間屬性。同樣都是累計購買過9車產(chǎn)品的顧客,一位是最近三個月購買9車,一位是最近一年從未買過,這對于決策者意義是不同的。2.1.1 數(shù)據(jù)倉庫結(jié)構(gòu)7 數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別:集成性:數(shù)據(jù)倉庫需要把原始數(shù)據(jù)集成。如性別:數(shù)據(jù)庫強(qiáng)調(diào)個
3、體,數(shù)據(jù)倉庫強(qiáng)調(diào)總體2.1.1 數(shù)據(jù)倉庫結(jié)構(gòu)男 女M f 01 0X y8 數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別:集成性:數(shù)據(jù)倉庫需要把原始數(shù)據(jù)集成。如銷售額:數(shù)據(jù)庫強(qiáng)調(diào)個體,數(shù)據(jù)倉庫強(qiáng)調(diào)總體2.1.1 數(shù)據(jù)倉庫結(jié)構(gòu)元千元千元萬元百萬元9 數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別:非易失:很少刪除、修改。數(shù)據(jù)庫是實現(xiàn)數(shù)據(jù)倉庫的一種方式,但并不是唯一的途徑2.1.1 數(shù)據(jù)倉庫結(jié)構(gòu)10 近期基本數(shù)據(jù):是最近時期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉庫用戶最感興趣的部分,數(shù)據(jù)量大。 歷史基本數(shù)據(jù):近期基本數(shù)據(jù)隨時間的推移,由數(shù)據(jù)倉庫的時間控制機(jī)制轉(zhuǎn)為歷史基本數(shù)據(jù)。 輕度綜合數(shù)據(jù):是從近期基本數(shù)據(jù)中提取出的,這層數(shù)據(jù)是按時間段選取,或者按數(shù)據(jù)屬性(a
4、ttributes)和內(nèi)容(contents)進(jìn)行綜合。 高度綜合數(shù)據(jù)層:這一層的數(shù)據(jù)是在輕度綜合數(shù)據(jù)基礎(chǔ)上的再一次綜合,是一種準(zhǔn)決策數(shù)據(jù)。2.1.1 數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)綜合11全國區(qū)域商店省/市城市如:公司的銷售額可以如下綜合1.數(shù)據(jù)集市的產(chǎn)生數(shù)據(jù)倉庫是企業(yè)級的,工作范圍和成本常常是巨大的。數(shù)據(jù)集市是部門級的,伴隨功能性計算機(jī)管理信息系統(tǒng)而存在。數(shù)據(jù)集市windows普通服務(wù)器目前,全世界對數(shù)據(jù)倉庫總投資的一半以上均集中在數(shù)據(jù)集市上。132.1.2 數(shù)據(jù)集市及其結(jié)構(gòu)數(shù)據(jù)集市(Data Marts)是一種更小、更集中的數(shù)據(jù)倉庫,為公司提供分析商業(yè)數(shù)據(jù)的一條廉價途徑。Data Marts是指具有特
5、定應(yīng)用的數(shù)據(jù)倉庫,主要針對某個應(yīng)用或者具體部門級的應(yīng)用,支持用戶獲得競爭優(yōu)勢或者找到進(jìn)入新市場的具體解決方案。142.數(shù)據(jù)集市概念3.數(shù)據(jù)集市與數(shù)據(jù)倉庫差別(1)數(shù)據(jù)倉庫是基于整個企業(yè)的數(shù)據(jù)模型建立的,它面向企業(yè)范圍內(nèi)的主題。而數(shù)據(jù)集市是按照某一特定部門的數(shù)據(jù)模型建立的。(2)部門的主題與企業(yè)的主題之間可能存在關(guān)聯(lián),也可能不存在關(guān)聯(lián)。(3)數(shù)據(jù)集市的數(shù)據(jù)組織一般采用星型模型。不能簡單的認(rèn)為數(shù)據(jù)集市數(shù)據(jù)規(guī)模沒有數(shù)據(jù)倉庫大!15 1、規(guī)模是小的2、特定的應(yīng)用3、面向部門4、由業(yè)務(wù)部門定義,設(shè)計和開發(fā)5、由業(yè)務(wù)部門管理和維護(hù)6、快速實現(xiàn)7、購買較便宜8、投資快速回收9、更詳細(xì)的、預(yù)先存在的數(shù)據(jù)倉庫的
6、摘要子集10、可升級到完整的數(shù)據(jù)倉庫164.數(shù)據(jù)集市的特性獨立數(shù)據(jù)集市(Independent Data Mart)從屬數(shù)據(jù)集市(Dependent Data Mart)為訪問數(shù)據(jù)倉庫非常頻繁的關(guān)鍵業(yè)務(wù)部門建立17數(shù)據(jù)源于中央數(shù)據(jù)倉庫2.1.3 數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu) 數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫(DW)、倉庫管理和分析工具三部分組成。182.1.3 數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu) 數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫(DW)、倉庫管理和分析工具三部分組成。19201、倉庫管理倉庫管理包括:數(shù)據(jù)建模、ETL、元數(shù)據(jù)和系統(tǒng)管理 (1)數(shù)據(jù)建模數(shù)據(jù)建模是建立數(shù)據(jù)倉庫的數(shù)據(jù)模型。數(shù)據(jù)模型包括數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)操作。數(shù)據(jù)結(jié)構(gòu)包括:數(shù)據(jù)類型、內(nèi)容
7、、數(shù)據(jù)間的關(guān)系,描述的是數(shù)據(jù)的靜態(tài)特征。數(shù)據(jù)操作是對數(shù)據(jù)倉庫中數(shù)據(jù)所允許的操作。如檢索、計算等 211、倉庫管理 (1)數(shù)據(jù)建模數(shù)據(jù)倉庫的數(shù)據(jù)模型不同于數(shù)據(jù)庫的數(shù)據(jù)模型在于:數(shù)據(jù)倉庫只為決策分析用,不包含事務(wù)處理的數(shù)據(jù)。數(shù)據(jù)倉庫的數(shù)據(jù)模型中增加了時間屬性數(shù)據(jù)。數(shù)據(jù)倉庫的數(shù)據(jù)模型中增加了一些綜合數(shù)據(jù)。數(shù)據(jù)倉庫的數(shù)據(jù)建模是適應(yīng)決策用戶使用的邏輯數(shù)據(jù)模型。結(jié)果是產(chǎn)生了冗余!數(shù)據(jù)庫和數(shù)據(jù)倉庫底層模型不同,關(guān)系數(shù)據(jù)庫采用ER關(guān)系模型,數(shù)據(jù)倉庫采用多維數(shù)據(jù)模型。(2)數(shù)據(jù)抽取、轉(zhuǎn)換、裝載數(shù)據(jù)倉庫中的數(shù)據(jù),是通過在源數(shù)據(jù)中抽取數(shù)據(jù),按數(shù)據(jù)倉庫的邏輯數(shù)據(jù)模型的要求進(jìn)行數(shù)據(jù)轉(zhuǎn)換,再按物理數(shù)據(jù)模型的要求裝載到數(shù)據(jù)
8、倉庫中去。數(shù)據(jù)抽取Extraction、轉(zhuǎn)換Transformation、裝載loading(ETL)是建立數(shù)據(jù)倉庫的重要步驟,需要花費開發(fā)數(shù)據(jù)倉庫70%的工作量。22(3)元數(shù)據(jù)23元數(shù)據(jù)包括:1、數(shù)據(jù)倉庫的目錄信息(數(shù)據(jù)字典);2、數(shù)據(jù)從數(shù)據(jù)庫向數(shù)據(jù)倉庫轉(zhuǎn)換時對應(yīng)的說明;3、指導(dǎo)從當(dāng)前基本數(shù)據(jù)到綜合數(shù)據(jù)的綜合方式;4、指導(dǎo)用戶使用數(shù)據(jù)倉庫。(4)系統(tǒng)管理數(shù)據(jù)管理、性能監(jiān)控、存儲器管理和安全管理等。24(1)查詢工具 數(shù)據(jù)倉庫的查詢不是指對記錄級數(shù)據(jù)的查詢,而是指對分析要求的查詢。 一般包含: 可視化工具:以圖形化方式展示數(shù)據(jù),可以幫助了解數(shù)據(jù)的結(jié)構(gòu),關(guān)系以及動態(tài)性。252、分析工具(2)多
9、維分析工具(OLAP工具): 通過對信息的多種可能的觀察形式進(jìn)行快速、一致和交互性的存取,這樣便利用戶對數(shù)據(jù)進(jìn)行深入的分析和觀察。 多維數(shù)據(jù)的每一維代表對數(shù)據(jù)的一個特定的觀察視角,如時間、地域、業(yè)務(wù)等。262、分析工具(3)數(shù)據(jù)挖掘工具 從大量數(shù)據(jù)中挖掘具有規(guī)律性知識,需要利用數(shù)據(jù)挖掘(Data Mining)工具。如:IBM的Intelligent Miner,SAS272、分析工具282.1.4 數(shù)據(jù)倉庫的運行結(jié)構(gòu) 數(shù)據(jù)倉庫應(yīng)用是一個典型的客戶/服務(wù)器(C/S)結(jié)構(gòu)形式: 客戶端所做的工作:客戶交互、格式化查詢、結(jié)果顯示、報表生成等。 服務(wù)器端完成各種輔助決策的SQL查詢、復(fù)雜的計算和各類
10、綜合功能等。 29 OLAP服務(wù)器將加強(qiáng)和規(guī)范化決策支持的服務(wù)工作,集中和簡化了原客戶端和數(shù)據(jù)倉庫服務(wù)器的部分工作,降低了系統(tǒng)數(shù)據(jù)傳輸量。 這種結(jié)構(gòu)形式工作效率更高。OLAP的三層C/S結(jié)構(gòu)30 對一個零售企業(yè),它關(guān)心哪些主題? 關(guān)心經(jīng)營時,銷售(金額或數(shù)量)關(guān)心客戶數(shù)量時,顧客與經(jīng)營額有關(guān)的實體有:商品,地域,銷售時間,銷售額2.2 數(shù)據(jù)倉庫的數(shù)據(jù)模型31 數(shù)據(jù)倉庫存儲采用多維數(shù)據(jù)模型。數(shù)據(jù)一般是數(shù)值 2.2 數(shù)據(jù)倉庫的數(shù)據(jù)模型果汁可樂牛奶商品維奶油浴巾香皂北京上海長沙1 2 3 4 5 6 7城市維日期維維就是相同類數(shù)據(jù)的集合,是觀察事物的視角。商店、時間和產(chǎn)品都是維。各個商店的集合是一維
11、,時間的集合是一維,商品的集合是一維。每一個商店、每一段時間、每一種商品就是某一維的一個成員。每一個銷售事實由一個特定的商品、一個特定的時間、一個特定的地區(qū)的銷售數(shù)量、金額組成。事實數(shù)據(jù)表包含描述業(yè)務(wù)內(nèi)特定事件的數(shù)據(jù),這些數(shù)字信息可以匯總。322.2 數(shù)據(jù)倉庫的數(shù)據(jù)模型 大多數(shù)的數(shù)據(jù)倉庫都采用“星型模型”。星型模型是由“事實表”(大表)以及多個“維表”(小表)所組成。 “事實表”中存放大量關(guān)于企業(yè)的事實數(shù)據(jù)(數(shù)量數(shù)據(jù))。包含大批數(shù)據(jù)的中心表。 例如:多個時期的數(shù)據(jù)可能會出現(xiàn)在同一個“事實表”中?!熬S表”中存放描述性數(shù)據(jù),維表是圍繞事實表建立的較小的表。33 2.2.1星型模型 大多數(shù)的數(shù)據(jù)倉庫
12、都采用“星型模型”。星型模型是由“事實表”(大表)以及多個“維表”(小表)所組成。 “事實表”中存放大量關(guān)于企業(yè)的事實數(shù)據(jù)(數(shù)量數(shù)據(jù))。包含大批數(shù)據(jù)的但沒有冗余的中心表。 例如:多個時期的數(shù)據(jù)可能會出現(xiàn)在同一個“事實表”中。“維表”中存放描述性數(shù)據(jù),維表是圍繞事實表建立的較小的表。銀行對存款記賬,A表中存放實際數(shù)據(jù),包括賬號、所屬機(jī)構(gòu)號、存款金額等,B表存放機(jī)構(gòu)號和機(jī)構(gòu)名稱的對應(yīng)關(guān)系。則A是事實表,B是維表。34 2.2.1星型模型星型模型:一個中心表,一組維表,每維一個表,每個表包含一組屬性。 星型模型數(shù)據(jù)如下圖:35 2.2.1星型模型36訂貨表客戶表銷售員表事實表產(chǎn)品表日期表地區(qū)表星型模
13、型數(shù)據(jù)存儲情況示意圖 訂單號訂貨日期客戶號客戶名稱客戶地址銷售員號銷售員名城市產(chǎn)品號產(chǎn)品名稱產(chǎn)品型號單價日期標(biāo)識日月年地區(qū)名稱省別訂單號客戶號銷售員號產(chǎn)品號日期標(biāo)識地區(qū)名稱數(shù)量總額事實表、維表舉例事實表就是主要存實實在在的數(shù)據(jù)(例如筆數(shù)、 金額),如總賬表、資產(chǎn)負(fù)債表。下面是一個事實表部分?jǐn)?shù)據(jù):統(tǒng)計日期 機(jī)構(gòu)代碼 業(yè)務(wù)類型 筆數(shù) 金額20080930 XXXXX1 FX01 86 21752.18 20080930 XXXXX2 FX01 0 0.00 20080930 XXXXX3 FX01 86 21752.18 事實表通過關(guān)聯(lián)維表得到相關(guān)機(jī)構(gòu)的信息,機(jī)構(gòu)信息很多,這里沒有全部列出,這也是
14、為什么要分事實表和維表的原因。38事實表、維表舉例而維表主要存維度信息,不存放數(shù)據(jù)信息,如機(jī)構(gòu)維表、日期維表。如機(jī)構(gòu)維表:統(tǒng)計日期 機(jī)構(gòu)代碼 機(jī)構(gòu)名稱20080930 XXXXX1 北京分行20080930 XXXXX2 上海分行20080930 XXXXX3 重慶分行 事實表通過關(guān)聯(lián)維表得到相關(guān)機(jī)構(gòu)的信息,機(jī)構(gòu)信息很多,這里沒有全部列出,這也是為什么要分事實表和維表的原因。39星型模型:主要有兩方面的原因:1、提高查詢的效率。采用星形模式設(shè)計的數(shù)據(jù)倉庫的優(yōu)點是由于數(shù)據(jù)的組織已經(jīng)過預(yù)處理,主要數(shù)據(jù)都在龐大的事實表中,所以只要掃描事實表就可以進(jìn)行查詢,而不必把多個龐大的表聯(lián)接起來,查詢訪問效率較
15、高。同時由于維表一般都很小,甚至可以放在高速緩存中,與事實表作連接時其速度較快;2、便于用戶理解。對非計算機(jī)專業(yè)的用戶而言,星形模式比較直觀,通過分析星形模式,很容易組合出各種查詢。40 2.2.1星型模型41 2.2.2雪花模型 雪花模型對星型模型的維表進(jìn)一步層次化,原來的各維表為了減少冗余,進(jìn)一步分解,形成一些局部的“層次”區(qū)域。 在上面星型模型的數(shù)據(jù)中 ,對“產(chǎn)品表”“日期表”“地區(qū)表”進(jìn)行擴(kuò)展形成雪花模型數(shù)據(jù)見下圖。 42雪花模式優(yōu)點是:在一定程度上減少了存儲空間;規(guī)范化的結(jié)構(gòu)更容易更新和維護(hù)。缺點:雪花模式比較復(fù)雜,用戶不容易理解;瀏覽內(nèi)容相對困難;額外的連接將使查詢性能下降。在數(shù)據(jù)
16、倉庫中,通常不推薦“雪花化”。因為在數(shù)據(jù)倉庫中,查詢性能相對OLTP系統(tǒng)來說更加被重視,而雪花模式會降低數(shù)據(jù)倉庫系統(tǒng)的性能。432.2.3星網(wǎng)模型星網(wǎng)模型是將多個星型模型連接起來形成網(wǎng)狀結(jié)構(gòu)。多個星型模型通過相同的維,如時間維,連接多個事實表。44地區(qū)鍵事務(wù)鍵用戶鍵時間鍵狀態(tài)鍵時間鍵用戶鍵事務(wù)鍵地區(qū)鍵電話費用時間鍵用戶鍵狀態(tài)鍵電話余額電話公司星網(wǎng)模型實例 2.2.4第三范式范式實際上是傳統(tǒng)的關(guān)系數(shù)據(jù)庫的設(shè)計理論。 數(shù)據(jù)倉庫可以按第三范式進(jìn)行邏輯數(shù)據(jù)建模。它不同于星型模型在于,把事實表和維表的屬性都集中在同一數(shù)據(jù)庫中,按第三范式組織數(shù)據(jù)。它減少了維表中的鍵和不必要的屬性。著名的NCR數(shù)據(jù)倉庫公司
17、采用了第三范式的邏輯數(shù)據(jù)模型。46星型模型在進(jìn)行多維數(shù)據(jù)分析時,速度是很快的。但是增加維度將是很困難的事情。第三范式對于海量數(shù)據(jù)(如TB級),且需要處理大量的動態(tài)業(yè)務(wù)分析時,就顯示了它的優(yōu)勢。472.3 后臺架構(gòu)-ETL482.3 后臺架構(gòu)-ETL 數(shù)據(jù)倉庫的數(shù)據(jù)來源于多個數(shù)據(jù)源,主要是企業(yè)內(nèi)部數(shù)據(jù);存檔的歷史數(shù)據(jù);企業(yè)的外部數(shù)據(jù)。這些數(shù)據(jù)源可能是在不同的硬件平臺上,使用不同的操作系統(tǒng)。源數(shù)據(jù)是以不同的格式存放在不同的數(shù)據(jù)庫中。492.3 后臺架構(gòu)-ETL數(shù)據(jù)倉庫需要將這些源數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換和裝載的過程,存儲到數(shù)據(jù)倉庫的數(shù)據(jù)模型中。可以說,數(shù)據(jù)倉庫的數(shù)據(jù)獲取需要經(jīng)過抽?。‥xtraction
18、)、轉(zhuǎn)換(Transform)、裝載(Load)三個過程即ETL過程。 502.3 后臺架構(gòu)-ETL數(shù)據(jù)倉庫ETL過程主要步驟:決定需要的目標(biāo)數(shù)據(jù);確定數(shù)據(jù)源;確定源到目標(biāo)的數(shù)據(jù)映射關(guān)系;建立抽取規(guī)則;決定轉(zhuǎn)換和清洗規(guī)則;制定匯總計劃;組織數(shù)據(jù)緩沖區(qū)域和檢測工具;編寫裝載規(guī)程;維度表ETL;事實表ETL。51231 數(shù)據(jù)抽取(1)確認(rèn)數(shù)據(jù)源(2)數(shù)據(jù)抽取技術(shù)521.確認(rèn)數(shù)據(jù)源列出對事實表的每一個數(shù)據(jù)項和事實列出每一個維度屬性對于每個目標(biāo)數(shù)據(jù)項,找出源數(shù)據(jù)項一個數(shù)據(jù)元素有多個來源,選擇最好的來源確認(rèn)一個目標(biāo)字段的多個源字段,建立合并規(guī)則確認(rèn)一個目標(biāo)字段的多個源字段,建立分離規(guī)則確定默認(rèn)值檢查缺失
19、值的源數(shù)據(jù)532.數(shù)據(jù)抽取技術(shù)當(dāng)前值。源系統(tǒng)中存儲的數(shù)據(jù)都代表了當(dāng)前時刻的值。當(dāng)商業(yè)交易時,這些數(shù)據(jù)是會發(fā)生變化的。周期性的狀態(tài)。這類數(shù)據(jù)存儲的是每次發(fā)生變化時的狀態(tài)。例如,對于每一保險索賠,都經(jīng)過索賠開始、確認(rèn)、評估和解決等步驟,都要考慮有時間說明。54232 數(shù)據(jù)轉(zhuǎn)換1.數(shù)據(jù)轉(zhuǎn)換的基本功能2.數(shù)據(jù)轉(zhuǎn)換類型3.數(shù)據(jù)整合和合并4.如何實施轉(zhuǎn)換551.數(shù)據(jù)轉(zhuǎn)換的基本功能選擇:從源系統(tǒng)中選擇整個記錄或者部分記錄。 分離/合并:對源系統(tǒng)中的數(shù)據(jù)進(jìn)行分離操作或者合并操作。轉(zhuǎn)化:對源系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化和可理解化。匯總:將最低粒度數(shù)據(jù)進(jìn)行匯總。 清晰:對單個字段數(shù)據(jù)進(jìn)行重新分配和簡化 。562.數(shù)據(jù)轉(zhuǎn)換類型(
20、1)格式修正(2)字段的解碼(3)計算值和導(dǎo)出值(4)單個字段的分離(5)信息的合并(6)特征集合轉(zhuǎn)化(7)度量單位的轉(zhuǎn)化(8)關(guān)鍵字重新構(gòu)造(9)匯總(10)日期/時間轉(zhuǎn)化573.數(shù)據(jù)整合和合并數(shù)據(jù)整合和合并是將相關(guān)的源數(shù)據(jù)組合成一致的數(shù)據(jù)結(jié)構(gòu),裝入數(shù)據(jù)倉庫。(1)實體識別問題 數(shù)據(jù)來源于多個不同的客戶系統(tǒng),對相同客戶可能分別有不同的鍵碼,將它們組合成一條單獨的記錄。 (2)多數(shù)據(jù)源相同屬性不同值的問題 不同系統(tǒng)中得到的值存在一些差別 ,需要給出合理的值。584.如何實施轉(zhuǎn)換自己編寫程序?qū)崿F(xiàn)數(shù)據(jù)轉(zhuǎn)換使用轉(zhuǎn)換工具59233 數(shù)據(jù)裝載(1)數(shù)據(jù)裝載方式(2)數(shù)據(jù)裝載類型601.數(shù)據(jù)裝載方式基本裝
21、載按照裝載的目標(biāo)表,將轉(zhuǎn)換過的數(shù)據(jù)輸入到目標(biāo)表中去。 追加如果目標(biāo)表中已經(jīng)存在數(shù)據(jù),追加過程在保存已有數(shù)據(jù)的基礎(chǔ)上增加輸入數(shù)據(jù)。 破壞性合并用新輸入數(shù)據(jù)更新目標(biāo)記錄數(shù)據(jù)。 建設(shè)性合并保留已有的記錄,增加輸入的記錄,并標(biāo)記為舊記錄的替代。612.數(shù)據(jù)裝載類型最初裝載這是第一次對整個數(shù)據(jù)倉庫進(jìn)行裝載。 增量裝載由于源系統(tǒng)的變化,數(shù)據(jù)倉庫需要裝載變化的數(shù)據(jù)。完全刷新這種類型的數(shù)據(jù)裝載用于周期性重寫數(shù)據(jù)倉庫。622.3.4 ETL工具數(shù)據(jù)轉(zhuǎn)換引擎從指定的數(shù)據(jù)源中抽取數(shù)據(jù),執(zhí)行復(fù)雜的數(shù)據(jù)轉(zhuǎn)換,將結(jié)果導(dǎo)入到目標(biāo)表中。代碼生成器根據(jù)數(shù)據(jù)源參數(shù)和輸出,能自動生成數(shù)據(jù)抽取和轉(zhuǎn)換程序。通過復(fù)制捕獲數(shù)據(jù)在交易日志中
22、捕獲數(shù)據(jù)源的變化。6324 元數(shù)據(jù)241 元數(shù)據(jù)的重要性242 關(guān)于數(shù)據(jù)源的元數(shù)據(jù)243 關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)244 關(guān)于數(shù)據(jù)倉庫映射的元數(shù)據(jù)245 關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)64241 元數(shù)據(jù)的重要性元數(shù)據(jù)65Table邏輯名顧客定義購買商品的個人或組織物理存儲DB.table建立日期2008年1月15日最后更新日期2010年1月20日更新周期每月表編輯程序名ABC241 元數(shù)據(jù)的重要性元數(shù)據(jù)定義了數(shù)據(jù)倉庫有什么,指明了數(shù)據(jù)倉庫中數(shù)據(jù)的內(nèi)容和位置,刻畫了數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)則,存儲了與數(shù)據(jù)倉庫主題有關(guān)的各種商業(yè)信息,而且整個數(shù)據(jù)倉庫的運行都是基于元數(shù)據(jù)的。66Table邏輯名顧客定義購買商品的個
23、人或組織物理存儲DB.table建立日期2008年1月15日最后更新日期2010年1月20日更新周期每月表編輯程序名ABC241 元數(shù)據(jù)的重要性有兩類人會用到元數(shù)據(jù):最終用戶(包括商業(yè)分析人員和IT人員)。最終用戶:從數(shù)據(jù)倉庫獲取信息。包括:數(shù)據(jù)內(nèi)容、匯總數(shù)據(jù)、商業(yè)維度、指標(biāo)、瀏覽路徑、源系統(tǒng)、外部數(shù)據(jù)、轉(zhuǎn)換規(guī)則、查詢模板、報表等最終用戶需要的元數(shù)據(jù),稱為商業(yè)元數(shù)據(jù)。67241 元數(shù)據(jù)的重要性有兩類人會用到元數(shù)據(jù):最終用戶(包括商業(yè)分析人員和IT人員)。IT人員:從ETL,到報表設(shè)計,OLAP都需要。包括:源數(shù)據(jù)結(jié)構(gòu)、源平臺、ETL方法和規(guī)則、外部數(shù)據(jù)、裝載、查詢、報表設(shè)計等IT人員需要的元數(shù)
24、據(jù),稱為技術(shù)元數(shù)據(jù)。包括四類:數(shù)據(jù)源元數(shù)據(jù),數(shù)據(jù)模型元數(shù)據(jù),數(shù)據(jù)倉庫映射元數(shù)據(jù),數(shù)據(jù)倉庫使用元數(shù)據(jù)。686970 這類元數(shù)據(jù)是對不同平臺上的數(shù)據(jù)源的物理結(jié)構(gòu)和含義的描述。具體為: (1)數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項及數(shù)據(jù)類型。數(shù)據(jù)項是數(shù)據(jù)的最小組成單位。通常包括數(shù)據(jù)項名、數(shù)據(jù)項含義說明、數(shù)據(jù)類型、長度、取值等。如FoodIntro 菜品簡介 nvarchar 50 null數(shù)據(jù)結(jié)構(gòu):若干個數(shù)據(jù)項可以組成一個數(shù)據(jù)結(jié)構(gòu),如某表(菜品ID,分類ID,菜名,菜品簡介,價格,圖片)2.4.2關(guān)于數(shù)據(jù)源的元數(shù)據(jù)元數(shù)據(jù)示例某表1 菜品表:Food列 名 中文名稱 數(shù)據(jù)類型 長度 是否允許為空
25、備注FoodID 菜品ID Int Not null 主鍵FoodclassID 分類ID Int null *foodName 菜名 nvarchar 25 null FoodIntro 菜品簡介 nvarchar 50 null *FoodPrice 價格 Float null FoodImage 圖片 varchar 100 null 保存圖片路徑元數(shù)據(jù)示例數(shù)據(jù)文件:訂單明細(xì)表文件組成:訂單序號Id, 訂單編號, 菜名, 價格, 數(shù)量, 下單時間數(shù) 據(jù) 項:訂單序號Id 數(shù)據(jù)類型:整型 數(shù)據(jù)長度:4數(shù) 據(jù) 項:訂單編號 數(shù)據(jù)類型:可變字符類型 數(shù)據(jù)長度:50 數(shù)據(jù)組成:A+日期時間數(shù) 據(jù)
26、 項:菜名 數(shù)據(jù)類型:可變字符類型 數(shù)據(jù)長度:50數(shù) 據(jù) 項:價格 數(shù)據(jù)類型:整型 數(shù)據(jù)長度:4數(shù) 據(jù) 項:數(shù)量 數(shù)據(jù)類型:整型 數(shù)據(jù)長度:4數(shù) 據(jù) 項:下單時間 數(shù)據(jù)類型:日期型 數(shù)據(jù)長度:873 這類元數(shù)據(jù)是對不同平臺上的數(shù)據(jù)源的物理結(jié)構(gòu)和含義的描述。具體為: (1)數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項及數(shù)據(jù)類型。 (2)所有數(shù)據(jù)項的業(yè)務(wù)定義。 (3)每個數(shù)據(jù)項更新的頻率,以及由誰或哪個過程更新的說明。 (4)每個數(shù)據(jù)項的有效值。2.4.2關(guān)于數(shù)據(jù)源的元數(shù)據(jù)74 這組元數(shù)據(jù)描述了數(shù)據(jù)倉庫中有什么數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)系,它們是用戶使用管理數(shù)據(jù)倉庫的基礎(chǔ)。 這種的元數(shù)據(jù)可以支持用戶從數(shù)據(jù)
27、倉庫中獲取數(shù)據(jù)。 2.4.3關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)2.4.4關(guān)于數(shù)據(jù)倉庫映射的元數(shù)據(jù)這類元數(shù)據(jù)是數(shù)據(jù)源與數(shù)據(jù)倉庫數(shù)據(jù)間的映射。 當(dāng)數(shù)據(jù)源中的一個數(shù)據(jù)項與數(shù)據(jù)倉庫建立了映射關(guān)系,就應(yīng)該記下這些數(shù)據(jù)項發(fā)生的任何變換或變動。即用元數(shù)據(jù)反映數(shù)據(jù)倉庫中的數(shù)據(jù)項是從哪個特定的數(shù)據(jù)源抽取的,經(jīng)過那些轉(zhuǎn)換,變換和加載過程。75 1抽取工作之間的復(fù)雜關(guān)系一個數(shù)據(jù)的抽取要經(jīng)過許多步驟。如圖所示:762源數(shù)據(jù)與目標(biāo)數(shù)據(jù)之間的映射(1)抽取工作(2)抽取工作步驟(3)抽取表映射(4)抽取屬性映射(5)記錄篩選規(guī)則772.4.5關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)這類元數(shù)據(jù)是數(shù)據(jù)倉庫中信息的使用情況描述。 數(shù)據(jù)倉庫的用戶最關(guān)心的是兩
28、類元數(shù)據(jù): (1)元數(shù)據(jù)告訴數(shù)據(jù)倉庫中有什么數(shù)據(jù),它們從哪里來。即如何按主題查看數(shù)據(jù)倉庫的內(nèi)容。 (2)元數(shù)據(jù)提供已有的可重復(fù)利用的查詢語言信息。如果某個查詢能夠滿足他們的需求,或者與他們的愿望相似,他們就可以再次使用那些查詢而不必從頭開始編程。 關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)能幫助用戶到數(shù)據(jù)倉庫查詢所需要的信息,用于解決企業(yè)問題。78習(xí) 題1,2,3,5,6,7,8,10,14,177911醉翁亭記 1反復(fù)朗讀并背誦課文,培養(yǎng)文言語感。2結(jié)合注釋疏通文義,了解文本內(nèi)容,掌握文本寫作思路。3把握文章的藝術(shù)特色,理解虛詞在文中的作用。4體會作者的思想感情,理解作者的政治理想。一、導(dǎo)入新課范仲淹因參與改
29、革被貶,于慶歷六年寫下岳陽樓記,寄托自己“先天下之憂而憂,后天下之樂而樂”的政治理想。實際上,這次改革,受到貶謫的除了范仲淹和滕子京之外,還有范仲淹改革的另一位支持者北宋大文學(xué)家、史學(xué)家歐陽修。他于慶歷五年被貶謫到滁州,也就是今天的安徽省滁州市。也是在此期間,歐陽修在滁州留下了不遜于岳陽樓記的千古名篇醉翁亭記。接下來就讓我們一起來學(xué)習(xí)這篇課文吧!【教學(xué)提示】結(jié)合前文教學(xué),有利于學(xué)生把握本文寫作背景,進(jìn)而加深學(xué)生對作品含義的理解。二、教學(xué)新課目標(biāo)導(dǎo)學(xué)一:認(rèn)識作者,了解作品背景作者簡介:歐陽修(10071072),字永叔,自號醉翁,晚年又號“六一居士”。吉州永豐(今屬江西)人,因吉州原屬廬陵郡,因
30、此他又以“廬陵歐陽修”自居。謚號文忠,世稱歐陽文忠公。北宋政治家、文學(xué)家、史學(xué)家,與韓愈、柳宗元、王安石、蘇洵、蘇軾、蘇轍、曾鞏合稱“唐宋八大家”。后人又將其與韓愈、柳宗元和蘇軾合稱“千古文章四大家”。關(guān)于“醉翁”與“六一居士”:初謫滁山,自號醉翁。既老而衰且病,將退休于潁水之上,則又更號六一居士??陀袉栐唬骸傲缓沃^也?”居士曰:“吾家藏書一萬卷,集錄三代以來金石遺文一千卷,有琴一張,有棋一局,而常置酒一壺?!笨驮唬骸笆菫槲逡粻枺魏??”居士曰:“以吾一翁,老于此五物之間,豈不為六一乎?”寫作背景:宋仁宗慶歷五年(1045年),參知政事范仲淹等人遭讒離職,歐陽修上書替他們分辯,被貶到滁州做了
31、兩年知州。到任以后,他內(nèi)心抑郁,但還能發(fā)揮“寬簡而不擾”的作風(fēng),取得了某些政績。醉翁亭記就是在這個時期寫就的。目標(biāo)導(dǎo)學(xué)二:朗讀文章,通文順字1初讀文章,結(jié)合工具書梳理文章字詞。2朗讀文章,劃分文章節(jié)奏,標(biāo)出節(jié)奏劃分有疑難的語句。節(jié)奏劃分示例環(huán)滁/皆山也。其/西南諸峰,林壑/尤美,望之/蔚然而深秀者,瑯琊也。山行/六七里,漸聞/水聲潺潺,而瀉出于/兩峰之間者,釀泉也。峰回/路轉(zhuǎn),有亭/翼然臨于泉上者,醉翁亭也。作亭者/誰?山之僧/曰/智仙也。名之者/誰?太守/自謂也。太守與客來飲/于此,飲少/輒醉,而/年又最高,故/自號曰/醉翁也。醉翁之意/不在酒,在乎/山水之間也。山水之樂,得之心/而寓之酒也
32、。節(jié)奏劃分思考“山行/六七里”為什么不能劃分為“山/行六七里”?明確:“山行”意指“沿著山路走”,“山行”是個狀中短語,不能將其割裂。“望之/蔚然而深秀者”為什么不能劃分為“望之蔚然/而深秀者”?明確:“蔚然而深秀”是兩個并列的詞,不宜割裂,“望之”是總起詞語,故應(yīng)從其后斷句?!窘虒W(xué)提示】引導(dǎo)學(xué)生在反復(fù)朗讀的過程中劃分朗讀節(jié)奏,在劃分節(jié)奏的過程中感知文意。對于部分結(jié)構(gòu)復(fù)雜的句子,教師可做適當(dāng)?shù)闹v解引導(dǎo)。目標(biāo)導(dǎo)學(xué)三:結(jié)合注釋,翻譯訓(xùn)練1學(xué)生結(jié)合課下注釋和工具書自行疏通文義,并畫出不解之處。【教學(xué)提示】節(jié)奏劃分與明確文意相輔相成,若能以節(jié)奏劃分引導(dǎo)學(xué)生明確文意最好;若學(xué)生理解有限,亦可在解讀文意后
33、把握節(jié)奏劃分。2以四人小組為單位,組內(nèi)互助解疑,并嘗試用“直譯”與“意譯”兩種方法譯讀文章。3教師選擇疑難句或值得翻譯的句子,請學(xué)生用兩種翻譯方法進(jìn)行翻譯。翻譯示例:若夫日出而林霏開,云歸而巖穴暝,晦明變化者,山間之朝暮也。野芳發(fā)而幽香,佳木秀而繁陰,風(fēng)霜高潔,水落而石出者,山間之四時也。直譯法:那太陽一出來,樹林里的霧氣散開,云霧聚攏,山谷就顯得昏暗了,朝則自暗而明,暮則自明而暗,或暗或明,變化不一,這是山間早晚的景色。野花開放,有一股清幽的香味,好的樹木枝葉繁茂,形成濃郁的綠蔭。天高氣爽,霜色潔白,泉水淺了,石底露出水面,這是山中四季的景色。意譯法:太陽升起,山林里霧氣開始消散,煙云聚攏,
34、山谷又開始顯得昏暗,清晨自暗而明,薄暮又自明而暗,如此暗明變化的,就是山中的朝暮。春天野花綻開并散發(fā)出陣陣幽香,夏日佳樹繁茂并形成一片濃蔭,秋天風(fēng)高氣爽,霜色潔白,冬日水枯而石底上露,如此,就是山中的四季?!窘虒W(xué)提示】翻譯有直譯與意譯兩種方式,直譯鍛煉學(xué)生用語的準(zhǔn)確性,但可能會降低譯文的美感;意譯可加強(qiáng)譯文的美感,培養(yǎng)學(xué)生的翻譯興趣,但可能會降低譯文的準(zhǔn)確性。因此,需兩種翻譯方式都做必要引導(dǎo)。全文直譯內(nèi)容見我的積累本。目標(biāo)導(dǎo)學(xué)四:解讀文段,把握文本內(nèi)容1賞析第一段,說說本文是如何引出“醉翁亭”的位置的,作者在此運用了怎樣的藝術(shù)手法。明確:首先以“環(huán)滁皆山也”五字領(lǐng)起,將滁州的地理環(huán)境一筆勾出,
35、點出醉翁亭坐落在群山之中,并縱觀滁州全貌,鳥瞰群山環(huán)抱之景。接著作者將“鏡頭”全景移向局部,先寫“西南諸峰,林壑尤美”,醉翁亭坐落在有最美的林壑的西南諸峰之中,視野集中到最佳處。再寫瑯琊山“蔚然而深秀”,點山“秀”,照應(yīng)上文的“美”。又寫釀泉,其名字透出了泉與酒的關(guān)系,好泉釀好酒,好酒叫人醉?!白砦掏ぁ钡拿直惆抵型赋觯缓笠觥白砦掏ぁ眮?。作者利用空間變幻的手法,移步換景,由遠(yuǎn)及近,為我們描繪了一幅幅山水特寫。2第二段主要寫了什么?它和第一段有什么聯(lián)系?明確:第二段利用時間推移,抓住朝暮及四季特點,描繪了對比鮮明的晦明變化圖及四季風(fēng)光圖,寫出了其中的“樂亦無窮”。第二段是第一段“山水之樂”的具體化。3第三段同樣是寫“樂”,但卻是寫的游人之樂,作者是如何寫游人之樂的?明確:“滁人游”,前呼后應(yīng),扶老攜幼,自由自在,熱鬧非凡;“太守宴”,溪深魚肥,泉香酒洌,美味佳肴,應(yīng)有盡有;“眾賓歡”,投壺下棋,觥籌交錯,說說笑笑,無拘無束。如此勾畫了游人之樂。4作者為什么要在第三段寫游人之樂?明確:寫滁人之游,描繪出一幅太平祥和的百姓游樂圖。游樂場景映在太守的眼里,便多了一層政治清明的意味。太守在游人之樂中酒酣而醉,此醉是為山水之樂而醉,更是為能與百姓同樂而醉。體現(xiàn)太守與百姓
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴州城市職業(yè)學(xué)院《醫(yī)用治療儀器》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025安徽省安全員-C證考試(專職安全員)題庫及答案
- 2025江蘇省建筑安全員B證考試題庫及答案
- 貴陽人文科技學(xué)院《中國古代文學(xué)一》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025遼寧省建筑安全員《B證》考試題庫
- 2025湖南省安全員知識題庫及答案
- 2025四川建筑安全員B證考試題庫
- 2025重慶市建筑安全員C證(專職安全員)考試題庫
- 2025甘肅省建筑安全員知識題庫
- 2025年海南建筑安全員C證(專職安全員)考試題庫
- 2024智能變電站新一代集控站設(shè)備監(jiān)控系統(tǒng)技術(shù)規(guī)范部分
- 語文七年級下字帖打印版
- 醫(yī)院員工離職移交表
- 采購部經(jīng)理年度工作總結(jié)精編ppt
- 江蘇省幼兒園教育技術(shù)裝備標(biāo)準(zhǔn)
- 中國醫(yī)院質(zhì)量安全管理 第3-5部分:醫(yī)療保障 消毒供應(yīng) T∕CHAS 10-3-5-2019
- 湖北省3000萬元以下建設(shè)項目前期工作咨詢收費標(biāo)準(zhǔn)
- 2018中國美業(yè)發(fā)展經(jīng)濟(jì)共享峰會方案-41P
- 電子病歷質(zhì)控操作手冊1.9.1版(共26頁)
- 利潤表空白表下載
- 人教版八年級下冊英語單詞表(按單元排序)全冊(附音標(biāo)和解釋)
評論
0/150
提交評論