基于數(shù)據(jù)倉庫的高校數(shù)據(jù)統(tǒng)計服務平臺研究_第1頁
基于數(shù)據(jù)倉庫的高校數(shù)據(jù)統(tǒng)計服務平臺研究_第2頁
基于數(shù)據(jù)倉庫的高校數(shù)據(jù)統(tǒng)計服務平臺研究_第3頁
基于數(shù)據(jù)倉庫的高校數(shù)據(jù)統(tǒng)計服務平臺研究_第4頁
基于數(shù)據(jù)倉庫的高校數(shù)據(jù)統(tǒng)計服務平臺研究_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

基于數(shù)據(jù)倉庫高校數(shù)據(jù)統(tǒng)計服務平臺研究第1頁提要

背景需求分析平臺設計平臺實現(xiàn)平臺布署第2頁背景

各高校建成信息管理系統(tǒng)越來越多,海量數(shù)據(jù)背后隱藏著許多主要信息,是學校正常運轉關鍵資源,以靈活便捷方式對數(shù)據(jù)進行統(tǒng)計、分析,進而為高校管理與決議提供支持需求日益強烈第3頁背景

商業(yè)智能(BI,

business

intelligence)

Gartner

Group,

Howard

Dresner,

1996:一類由

數(shù)據(jù)倉庫(或數(shù)據(jù)集市)、查詢報表、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復等部分組成,以幫助企業(yè)決議為目標技術及其應用。第4頁背景

微軟BI體系框架第5頁背景

IBMBI體系框架第6頁背景

建立BI系統(tǒng)基本步驟包含:

確認和解讀數(shù)據(jù)源;

進行數(shù)據(jù)采集和存放管理;

構建模型并在此基礎上分析數(shù)據(jù)第7頁背景

商業(yè)智能基礎是數(shù)據(jù)倉庫(DW

,

Data

Warehouse)

數(shù)據(jù)倉庫是一個面向主題、集成、相對穩(wěn)定、反應歷史改變數(shù)據(jù)集合。

數(shù)據(jù)倉庫為有效地為BI系統(tǒng)提供了全局一致數(shù)據(jù)環(huán)境,也為歷史數(shù)據(jù)綜合數(shù)據(jù)處理提出了一個行之有效處理方法。第8頁背景

國外:BI應用已經(jīng)進入了數(shù)據(jù)分析階段,有些已經(jīng)積累了高端數(shù)據(jù)挖掘經(jīng)驗;

國內(nèi):BI應用則還停留在數(shù)據(jù)整合初級階段,應用主要領域集

中在電信、保險、銷售等行業(yè),

國內(nèi)高校情況不容樂觀:

數(shù)據(jù)分散在不一樣源系統(tǒng)中,數(shù)據(jù)規(guī)范性和共享性還存在很大問題;

數(shù)據(jù)統(tǒng)計和分析基本上是基于單個系統(tǒng)中操作型數(shù)據(jù)進行,既不能反應出不一樣系統(tǒng)之間數(shù)據(jù)關聯(lián),又缺乏對數(shù)據(jù)全局把握;還會因為操作型數(shù)據(jù)動態(tài)性和分散性影響統(tǒng)計結果準確性,也無法對歷史數(shù)據(jù)進行統(tǒng)計和分析。第9頁背景

要建立高校BI應用,滿足為高校管理與決議提供支持需求,首先必須打破不一樣應用系統(tǒng)之間“藩籬”,建立全局一致數(shù)據(jù)倉庫,將操作型數(shù)據(jù)轉換為靜態(tài)、穩(wěn)定、規(guī)范化、能夠反應歷史分析型數(shù)據(jù),然后在此基礎上搭建統(tǒng)一數(shù)據(jù)統(tǒng)計服務平臺。第10頁需求分析

數(shù)據(jù)統(tǒng)計需求按用途不一樣分為2類:

一是以年報表或者季度報表形式上報上級部門統(tǒng)計數(shù)據(jù),有著固定報表格式、復雜報表內(nèi)容、專門統(tǒng)計口徑,有報表甚至還有嚴格填報流程;

二是部門日常所需要統(tǒng)計數(shù)據(jù),往往和某種類型詳細業(yè)務相關,和第一類需求相比,統(tǒng)計數(shù)據(jù)格式和內(nèi)容比較簡單,沒有復雜填報流程,但時間粒度要求更細,要以月報表、周報表乃至日報表形式提供統(tǒng)計結果,而且要求提供數(shù)據(jù)鉆取功效。第11頁需求分析

這些需要統(tǒng)計數(shù)據(jù)包括高校人事、學生、科研、教學等各個領域,每個領域下面又細分為了很多不一樣細類,詳細如圖1所表示。第12頁平臺設計

總體架構

數(shù)據(jù)倉庫建模

統(tǒng)計數(shù)據(jù)模型第13頁總體架構

高校數(shù)據(jù)統(tǒng)計服務平臺由源系統(tǒng)、數(shù)據(jù)倉庫和統(tǒng)計平臺三部分組成。第14頁總體架構

源系統(tǒng):高校業(yè)務包括數(shù)據(jù)源比較廣泛,主要有些人事系統(tǒng)、教務系統(tǒng)、碩士系統(tǒng)、科研系統(tǒng)等,再加上校園網(wǎng)之外一些其它外部數(shù)據(jù)源,組成了數(shù)據(jù)統(tǒng)計服務平臺數(shù)據(jù)基礎,因為系統(tǒng)業(yè)務職能和詳細需求不一樣,在實現(xiàn)時會選取不一樣數(shù)據(jù)庫,數(shù)據(jù)結構也可能存在較大差異,從而造成數(shù)據(jù)間有較大異構性和不一致性。第15頁總體架構

數(shù)據(jù)倉庫:數(shù)據(jù)倉庫全方面接收源系統(tǒng)數(shù)據(jù),ETL進程對數(shù)據(jù)進行規(guī)范化、驗證、清洗,并最終裝載進入數(shù)據(jù)集市,經(jīng)過數(shù)據(jù)集市支持系統(tǒng)進行數(shù)據(jù)查詢、分析;整個數(shù)據(jù)倉庫包含四大層次:

復制層(SSA,

system-of-records-staging-area)

原子層(SOR,

system-of-record)

匯總層(SMA,

summary-area)

集市層(DM,

data

mart)第16頁總體架構

復制層(SSA,

system-of-records-staging-area):直接復制源系統(tǒng)數(shù)據(jù),盡可能保持業(yè)務數(shù)據(jù)原貌;與源系統(tǒng)數(shù)據(jù)唯一不一樣是,復制層中數(shù)據(jù)在源系統(tǒng)數(shù)據(jù)基礎上加入了時間戳信息,形成了多個版本歷史數(shù)據(jù)信息;

原子層(SOR,

system-of-record):基于模型開發(fā)一套

符合3NF范式規(guī)則表結構,它存放了數(shù)據(jù)倉庫內(nèi)最細層次數(shù)據(jù),并按照不一樣主題域?qū)?shù)據(jù)分類存放;依據(jù)當前部分需求,將全校數(shù)據(jù)在原子層中按人事、學生、教學、科研四大主題存放;原子層是整個數(shù)據(jù)倉庫關鍵和基礎,在設計過程中應含有足夠靈活性,以能應對添加更多數(shù)據(jù)源、支持更多分析需求,同時能夠支持深入升級和更新;第17頁總體架構

匯總層(SMA,

summary-area):匯總層是原子層和集市層中間過渡,因為原子層數(shù)據(jù)是高度規(guī)范化數(shù)據(jù),所以要完成一個查詢需要大量關聯(lián)工作,同時集市層中數(shù)據(jù)粒度往往要比原子層高很多,對要生成集市層中匯總數(shù)據(jù)需要進行大量匯總工作,所以,匯總層依據(jù)需求把原子層數(shù)據(jù)進行適度反范(比如,設計寬表結構將人員信息、干部信息等多個表數(shù)據(jù)合并起來)和匯總(比如,一些慣用人頭匯總、機構匯總等);從而提升數(shù)據(jù)倉庫查詢性能。第18頁總體架構

集市層(DM,

data

mart):集市層保留數(shù)據(jù)是供用戶直接訪問;能夠?qū)⒓袑恿私獬勺罱K用戶直接最終想要看數(shù)據(jù);集市層主要是各類粒度事實數(shù)據(jù),經(jīng)過提供不一樣粒度數(shù)據(jù),適應不一樣數(shù)據(jù)訪問需求;集市層中數(shù)據(jù)以2種不一樣類型存放:一類以星型模型建設,便于部門日常靈活查詢和統(tǒng)計,另一類按寬表以及重新組織適應固定報表表結構存放,便于高校年統(tǒng)和季度統(tǒng)計工作。第19頁總體架構

統(tǒng)計平臺:高校數(shù)據(jù)統(tǒng)計服務平臺采取B/S架構3層體系結構,即:數(shù)據(jù)操作層、邏輯層、表示層。

數(shù)據(jù)操作層

邏輯層

表示層第20頁總體架構

數(shù)據(jù)操作層:充分考慮系統(tǒng)高可用性,數(shù)據(jù)統(tǒng)計服務平臺與數(shù)據(jù)倉庫所使用數(shù)據(jù)庫相互獨立,由此確保數(shù)據(jù)統(tǒng)計服務平臺對數(shù)據(jù)進行加工處理時不會影響數(shù)據(jù)倉庫中數(shù)據(jù);數(shù)據(jù)存取模塊實現(xiàn)對數(shù)據(jù)統(tǒng)計服務平臺數(shù)據(jù)訪問。第21頁總體架構

邏輯層:分為報表預定義、報表查詢、報表生成、報表填報、報表審核及報表匯總等模塊;每個模塊分別實現(xiàn)不一樣功效;在統(tǒng)計平臺中,不一樣身份用戶其功效權限和數(shù)據(jù)權限是不一樣:報表預定義是給系統(tǒng)管理員用;報表生成、報表填報是給院系管理人員使用,只能查看和操作本院系數(shù)據(jù);報表審核、報表匯總是給學校相關部門管理人員用,能夠操作全校數(shù)據(jù);功效權限和數(shù)據(jù)權限經(jīng)過公用層與身份認證服務平臺對接,統(tǒng)一進行管理第22頁總體架構

表示層:提供交互界面給用戶使用,另外還提供一些服務接口供其它系統(tǒng)調(diào)用第23頁數(shù)據(jù)倉庫建模

當前較為流行數(shù)據(jù)倉庫建模方法較多,慣用有

Inmon所提倡范式建模法和Kimball所提倡維度建模法。第24頁數(shù)據(jù)倉庫建模

維度建模法針對各個維做了大量預處理,經(jīng)過這些預處理能夠極大地提升數(shù)據(jù)倉庫處理能力,相對于范式建模法來說,在性能上占據(jù)了顯著優(yōu)勢;同時維度建模非常直觀,緊緊圍繞著業(yè)務模型,能夠直觀地反應出業(yè)務模型中業(yè)務問題。不需要經(jīng)過尤其抽象處理即能夠完成維度建模。所以高校數(shù)據(jù)統(tǒng)計服務平臺數(shù)據(jù)倉庫采取維度建模方式構建。

維度建模法采取事實表—維表方式來構建數(shù)據(jù)倉庫,數(shù)據(jù)集市、事實表存放實際數(shù)據(jù),維表存放事實表中對象屬性,事實表和維表關聯(lián)關系慣用是“星型模型”。第25頁數(shù)據(jù)倉庫建模

維度建模步驟

結合詳細需求確定分析主題,結合高校主要業(yè)務定義了一個公共維

度主題和人事、學生、教學、科研4個業(yè)務主題:公共維度包含時間維、地理維、國家標準及校標,時間維和地理維在不一樣應用場景能夠使用視圖形式轉換為詳細分析維度,國家標準和校標主要用來處理在數(shù)據(jù)集成過程中一致性問題;人事主題關鍵內(nèi)容是教師基本情況,詳細分析主體有收入、崗位、職稱以及出色人才等;學生主題關鍵內(nèi)容是在校生基本情況,詳細分析主題有招生、成績、獎懲、異動、就業(yè)等;科研主題主要分析全校師生科研結果完成情況,根據(jù)實際業(yè)務能夠納入全部科研結果,如項目、論文、著作、專利、學術活動等;教學主題以教學活動相關內(nèi)容為主,如課程計劃、教學任務、選課、教學工作量等。第26頁數(shù)據(jù)倉庫建模

確定分析粒度,通俗地說就是分析對象詳細程度。為了滿足分析可擴展性及需求多樣性,以最小粒度來設計數(shù)據(jù)模型總是能到達最好分析效果,如:統(tǒng)計每個學生明細情況、統(tǒng)計每項科研結果詳細情況。第27頁數(shù)據(jù)倉庫建模

設計維表,維度是統(tǒng)計和分析數(shù)據(jù)角度,與統(tǒng)計查詢參數(shù)相對應。在選取維度時應該將實體作為一個對象,把與該對象相關全部主要屬性都提取出來作為獨立維度。第28頁數(shù)據(jù)倉庫建模

設計事實表,為了跟蹤含有生命周期活動數(shù)據(jù)改變過程以保留歷史信息,設計事實表時使用遲緩改變維方法以捕獲改變數(shù)據(jù)。事實表中版本、開始時間和結束時間3個字段是實現(xiàn)遲緩改變關鍵。版本表示同一事物歷史狀態(tài)順序,開始時間和結束時間表示在該段時間內(nèi)該事物處于某一狀態(tài),每一條數(shù)據(jù)結束時間等于新數(shù)據(jù)開始時間,這么該事物不一樣時間段狀態(tài)就分布在一條時間軸上,從而能夠得到任一時間點該事物狀態(tài)信息第29頁數(shù)據(jù)倉庫建模第30頁統(tǒng)計數(shù)據(jù)模型

確定統(tǒng)計相關星型模型,即數(shù)據(jù)統(tǒng)計針正確是事實表中間那些事實,包括到哪些統(tǒng)計指標,統(tǒng)計粒度怎樣。

確定報表中詳細每一行和每一列分別代表統(tǒng)計指標,統(tǒng)計指標簡單地說即維度取值,每個統(tǒng)計指標對應到維表中是某個維度取某個值,也有可能是多個維度取值累加。

確定單元格統(tǒng)計方法,每個單元格統(tǒng)計指標應該是其對應行、列所代表維度取值并集。

將維度轉化為可執(zhí)行查詢語句,去事實表中查詢出對應統(tǒng)計數(shù)據(jù)和事實數(shù)據(jù),為了方便,在數(shù)據(jù)統(tǒng)計服務平臺報表數(shù)據(jù)庫中還能夠?qū)⒉樵兊浇y(tǒng)計結果固化,以數(shù)據(jù)庫表形式存放下來。第31頁統(tǒng)計數(shù)據(jù)模型

將1張業(yè)務報表拆分為5張配置表,它們分別是指標表、維表、維值表、行列表、指標維度組合表;最終計算得到結果存放在指標數(shù)據(jù)表中。第32頁平臺實現(xiàn)

ETL處理

前臺展示第33頁ETL處理

ETL(extraction-transformation-loading)負責將分散、異構數(shù)據(jù)源中數(shù)據(jù)抽取到暫時中間層后進行清洗、轉換、集成,最終加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中。ETL是實施數(shù)據(jù)倉庫關鍵和靈魂,ETL規(guī)則設計和實施約占整個數(shù)據(jù)倉庫搭建工作量60%~80%。第34頁ETL處理

數(shù)據(jù)抽取

包含初始化數(shù)據(jù)裝載和數(shù)據(jù)刷新:初始化數(shù)據(jù)裝載主要關注是怎樣建立維表、事實表,并把對應數(shù)據(jù)放到這些數(shù)據(jù)表中,在數(shù)據(jù)倉庫建模小節(jié)中已經(jīng)做了詳細介紹;而數(shù)據(jù)刷新關注是當源數(shù)據(jù)發(fā)生改變時怎樣對數(shù)據(jù)倉庫中對應數(shù)據(jù)進行追加和更新等維護第35頁ETL處理

觸發(fā)器方式(又稱為快照式)來實現(xiàn)數(shù)據(jù)刷新,詳細來說就是:在SSA層需

要抽取數(shù)據(jù)數(shù)據(jù)表上建立了插入、修改、刪除3個觸發(fā)器(trigger),每

當源數(shù)據(jù)庫中數(shù)據(jù)表中數(shù)據(jù)發(fā)生改變時,復制到SSA數(shù)據(jù)也會對應發(fā)生

改變,對應觸發(fā)器將改變數(shù)據(jù)寫入一個暫時區(qū)(buffer);在數(shù)據(jù)庫層

定義了一系列作業(yè)(job)和存放過程(procedure):作業(yè)要求了包含

數(shù)據(jù)刷新頻率和數(shù)據(jù)刷新先后次序在內(nèi)一系列任務調(diào)度策略,調(diào)用對應存

儲過程從暫時表中抽取需要刷新數(shù)據(jù),暫時表中抽取過數(shù)據(jù)被標識或刪除;

觸發(fā)器方式好處是:數(shù)據(jù)抽取性能高、規(guī)則簡單,對于編程人員來說易于上手,尤其適合北京大學數(shù)據(jù)倉庫現(xiàn)有規(guī)模還較小特點,是一個簡單易行好方法;但伴隨以后數(shù)據(jù)倉庫規(guī)模越來越大,數(shù)據(jù)表越來越多,需要編寫觸發(fā)器、存放過程和作業(yè)就越來越多,可能會不利于管理第36頁ETL處理

數(shù)據(jù)清洗

主要是針對源數(shù)據(jù)庫中出現(xiàn)二義性、重復、不完整、違反業(yè)務或邏輯規(guī)則等問題數(shù)據(jù)進行統(tǒng)一處理,下表列出了北京大學在對業(yè)務系統(tǒng)進行數(shù)據(jù)清洗時發(fā)覺幾類最常見問題及針對這些問題所采取策略。第37頁ETL處理

數(shù)據(jù)轉換

主要是為了將數(shù)據(jù)清洗后數(shù)據(jù)轉換成數(shù)據(jù)倉庫所需要數(shù)據(jù):來源于不一樣源系統(tǒng)同一數(shù)據(jù)字段數(shù)據(jù)字典或者數(shù)據(jù)格式可能不一樣,在數(shù)據(jù)倉庫中需要給它們提供統(tǒng)一數(shù)據(jù)字典和格式,對數(shù)據(jù)內(nèi)容進行歸一化;其次,數(shù)據(jù)倉庫所需要某些字段內(nèi)容可能是源系統(tǒng)所不具備,而是需要根據(jù)源系統(tǒng)中多個字段內(nèi)容共同確定;

比如,數(shù)據(jù)倉庫中人員類型“事業(yè)單位專業(yè)技術人員”實際上是

依據(jù)人事表中“編制類型=事業(yè)單位”、“崗位級別=985”而且

“人員類別=在職職員”等多個字段內(nèi)容共同得出,像這么字段形成也依賴于數(shù)據(jù)轉換第38頁ETL處理

考查工具

ColverETL:開源ETL工具,無償版本支持連接組件太少(Pass)

Kettle:

功效完善,組件齊全處理平臺

Talend:

功效完善,組件齊全處理平臺

Jitterbit:

ETL工具,不過功效比較簡單,維護、日志、監(jiān)控等功效缺乏

Apatar:

ETL工具,非服務器結構,適合單機版本開發(fā)小ETL程序

OpenDigger:ETL工具,非圖形化接口

Spring

batch:主要用于實現(xiàn)調(diào)度平臺,配置方法和spring工具第39頁ETL處理第40頁ETL處理

Kettle優(yōu)勢

LGPL

License限制較為寬松無償Repository使得版本管理和代碼

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論