淺論數(shù)據(jù)倉庫技術_第1頁
淺論數(shù)據(jù)倉庫技術_第2頁
淺論數(shù)據(jù)倉庫技術_第3頁
淺論數(shù)據(jù)倉庫技術_第4頁
淺論數(shù)據(jù)倉庫技術_第5頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、    淺論數(shù)據(jù)倉庫技術    賴小平摘要:數(shù)據(jù)倉庫技術是網(wǎng)絡時代的數(shù)據(jù)特征,也是數(shù)據(jù)庫系統(tǒng)應用到一定階段的產物。本文闡述了數(shù)據(jù)倉庫的起源、結構、特性,以及數(shù)據(jù)倉庫技術的發(fā)展趨勢。數(shù)據(jù)倉庫技術在不斷發(fā)展,并在實際應用中發(fā)揮了巨大作用,給企業(yè)帶來巨大的變革。關鍵詞:數(shù)據(jù)倉庫;面向主題;數(shù)據(jù)庫中圖法分類號:tp311.11文獻標識碼:a數(shù)據(jù)倉庫(data warehousing,dw)是近年來興起的一種新的數(shù)據(jù)庫應用。隨著各種計算機技術,如數(shù)據(jù)模型、數(shù)據(jù)庫技術和應用開發(fā)技術的不斷進步,數(shù)據(jù)倉庫技術也在不斷發(fā)展,并在實際應用中發(fā)揮了巨大的作用。1數(shù)據(jù)倉庫的起源

2、如今是網(wǎng)絡的時代,數(shù)據(jù)倉庫的出現(xiàn)和發(fā)展是網(wǎng)絡時代的數(shù)據(jù)特征,也是數(shù)據(jù)庫系統(tǒng)應用到一定階段的必然產物。最初的數(shù)據(jù)管理形式主要是文件系統(tǒng),數(shù)據(jù)的存取方式是固定的、死板的。1969年,e.f codd博士提出了關系數(shù)據(jù)模型。此后,關系數(shù)據(jù)庫的出現(xiàn)開創(chuàng)了數(shù)據(jù)管理的一個新時代。近幾十年來,像cs系統(tǒng)結構、存儲過程等新技術、新思路的出現(xiàn),sql在數(shù)據(jù)庫中的應用,使得關系數(shù)據(jù)庫成為聯(lián)機事務處理系統(tǒng)的主宰。然而,應用是不斷進步的,當聯(lián)機事務處理系統(tǒng)應用到一定階段后。用戶發(fā)現(xiàn)這不足以獲得市場競爭的優(yōu)勢,他們需要對大量的業(yè)務數(shù)據(jù)進行分析,從而作出有利的決策。這種基于業(yè)務數(shù)據(jù)的決策分析,稱之為聯(lián)機分析處理,比以往任

3、何時候都顯得重要。人們在實際應用中發(fā)現(xiàn)要查詢的數(shù)據(jù)越來越多,所以人們就設想專門為業(yè)務的統(tǒng)計分析建立一個數(shù)據(jù)中心,這個中心就叫數(shù)據(jù)倉庫。業(yè)界公認的數(shù)據(jù)倉庫概念創(chuàng)始人w.h inmon在數(shù)據(jù)倉庫一書中對數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫就是面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合。從辨證的眼光來看,數(shù)據(jù)倉庫的興起實際是數(shù)據(jù)管理的一種回歸,是螺旋式的上升。如今,各大數(shù)據(jù)庫廠商紛紛宣布產品支持數(shù)據(jù)倉庫并提出一整套用以建立和使用數(shù)據(jù)倉庫的產品,比如:informix公司的數(shù)據(jù)倉庫解決方案oracle公司的數(shù)據(jù)倉庫解決方案;sybase公司的交互式數(shù)據(jù)倉庫解決方案等等。這些發(fā)展引起了學術界的極大興

4、趣,出現(xiàn)了專門研究數(shù)據(jù)倉庫(dw)、聯(lián)機分析處理(olap)、數(shù)據(jù)挖掘(dm)的論文。數(shù)據(jù)倉庫雖然起源于20世紀90年代,但其發(fā)展非常迅速,特別是網(wǎng)絡技術的飛速發(fā)展,為數(shù)據(jù)倉庫的發(fā)展提供了更寬闊的數(shù)據(jù)跑道。當今數(shù)據(jù)倉庫已經不再是純粹的理論。而是一個活生生的事實。2數(shù)據(jù)倉庫的結構(1)基本體系結構(結構1)它由以下5個基本組成部分:數(shù)據(jù)源(db),為數(shù)據(jù)倉庫提供最底層數(shù)據(jù)的運作數(shù)據(jù)庫系統(tǒng)及外部數(shù)據(jù);監(jiān)視器,負責感知數(shù)據(jù)源發(fā)生的變化,并按數(shù)據(jù)倉庫的需求提取數(shù)據(jù);集成器,將從運作數(shù)據(jù)庫中提取的數(shù)據(jù)經過轉換、計算、綜合等操作,并集成到數(shù)據(jù)倉庫中;數(shù)據(jù)倉庫(dw),存儲已經按企業(yè)級視圖轉換的數(shù)據(jù),供分析

5、處理用;客戶應用,供用戶對數(shù)據(jù)倉庫中的數(shù)據(jù)進行訪問查詢,并以直觀的方式表示分析結果的工具。(2)數(shù)據(jù)組織結構(如圖2)3數(shù)據(jù)倉庫的特性傳統(tǒng)的數(shù)據(jù)庫技術是以單一的數(shù)據(jù)資源,即數(shù)據(jù)庫為中心,進行事務處理、批處理、決策分析等各種數(shù)據(jù)處理工作,由于企業(yè)的日常事務處理工作,而難于實現(xiàn)對數(shù)據(jù)分析處理要求,已無法滿足數(shù)據(jù)處理多樣化的要求。近年來,隨著數(shù)據(jù)庫技術的應用和發(fā)展。人們嘗試對db中的數(shù)據(jù)進行再加工,形成一個綜合的、面向分析的環(huán)境,以更好支持決策分析,從而形成了數(shù)據(jù)倉庫技術。數(shù)據(jù)倉庫是面向主題的。這與傳統(tǒng)數(shù)據(jù)庫面向應用相對應。主題是一個在較高層次上將數(shù)據(jù)歸類的標準。每一個主題對應一個宏觀的分析領域。例

6、如:對一個保險公司來說,應用問題可能是汽車保險、人壽保險與意外傷亡保險,公司的主題域卻可能是顧客、保險單、保險費和索賠。不同類型的公司其主題域是不同的,這樣管理人員就可根據(jù)不同的主題進行分析,作出切實可行的決策。數(shù)據(jù)倉庫是集成的。在數(shù)據(jù)倉庫的所有特性中,這是最重要的。數(shù)據(jù)倉庫中的數(shù)據(jù)是從多個不同的數(shù)據(jù)源傳來的。當這些數(shù)據(jù)進入數(shù)據(jù)倉庫時,必須經過數(shù)據(jù)加工和集成,進行轉換,重新格式化,重新排列以及匯總等操作,這是建立數(shù)據(jù)倉庫的關鍵步驟。這樣得到的結果就是只要是存在于數(shù)據(jù)倉庫中的數(shù)據(jù)就是具有企業(yè)的單一物理映像。數(shù)據(jù)倉庫是非易失的。即穩(wěn)定性。操作型環(huán)境中的數(shù)據(jù)一般必然是要更新的,但數(shù)據(jù)倉庫中的數(shù)據(jù)呈現(xiàn)

7、出一組非常不同的特性。數(shù)據(jù)倉庫中的數(shù)據(jù)通常是以批量方式載入與訪問的,對其數(shù)據(jù)并不進行一般意義上的數(shù)據(jù)更新。這樣數(shù)據(jù)倉庫就保存了所有的歷史數(shù)據(jù),而不是日常事務處理產生的數(shù)據(jù),數(shù)據(jù)經過加工和集成進入數(shù)據(jù)倉庫是極少或根本不能修改的。數(shù)據(jù)倉庫是隨時間變化的,它是不同時間的數(shù)據(jù)集合。時變性是指數(shù)據(jù)倉庫中的每個數(shù)據(jù)單元都只是在某一時刻是準確的。在任何情況下記錄都包含某種形式的時間標志用以說明數(shù)據(jù)在哪一時間是準確的。不同環(huán)境中有不同的時間范圍,操作型環(huán)境的時間范圍一般是6090年,而數(shù)據(jù)倉庫中的數(shù)據(jù)的時間范圍通常是510年。由于這種時間范圍上的差異,數(shù)據(jù)倉庫含有比任何其他環(huán)境中都多的歷史數(shù)據(jù)。4數(shù)據(jù)倉庫的技

8、術趨勢數(shù)據(jù)倉庫沒有嚴格的數(shù)學理論基礎,它更偏向干工程。由于這種工程性,數(shù)據(jù)倉庫技術的發(fā)展主要包括以下3個方面:4.1數(shù)據(jù)的抽取數(shù)據(jù)的抽取是數(shù)據(jù)進入數(shù)據(jù)倉庫的入口,它通過抽取過程將數(shù)據(jù)從聯(lián)機事務處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質中導入到數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術上主要涉及互連、復制、轉換、增量、調度和監(jiān)控等幾個方面。在技術發(fā)展上,數(shù)據(jù)抽取所涉及的單個技術環(huán)節(jié)都已經相對成熟,但整體的集成度還很不夠。目前市場上所提供的大多是數(shù)據(jù)抽取工具,這些工具只能成為輔助的角色。未來的技術發(fā)展將集中在系統(tǒng)集成化方面,它將互連、復制、轉換、增量、調度和監(jiān)控等納入標準化的統(tǒng)一管理,以適應數(shù)據(jù)倉庫本身或數(shù)據(jù)源的變化

9、,使系統(tǒng)更加便于管理和維護。4.2數(shù)據(jù)的存儲和管理數(shù)據(jù)的存儲和管理是數(shù)據(jù)倉庫真正的關鍵技術。數(shù)據(jù)倉庫的組織管理方式決定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,同時也決定了其對外部數(shù)據(jù)表現(xiàn)形式。要決定采用什么產品和技術來建立數(shù)據(jù)倉庫,主要從以下幾個問題著手分析:(1)對大量數(shù)據(jù)的存儲和管理;(2)并行處理;(3)針對決策支持查詢的優(yōu)化;(4)支持多維分析的查詢模式。在數(shù)據(jù)倉庫的數(shù)據(jù)存儲管理領域。未來的發(fā)展將使數(shù)據(jù)庫廠商明確推出數(shù)據(jù)倉庫引擎,并作為服務器產品與數(shù)據(jù)庫服務器并駕齊驅,面向決策支持擴充的并行關系數(shù)據(jù)庫將是數(shù)據(jù)倉庫的核心。最具發(fā)展?jié)摿Α?.3數(shù)據(jù)的表現(xiàn)數(shù)據(jù)的表現(xiàn)是數(shù)據(jù)倉庫的門面。主要集中在多維分析、

10、數(shù)理統(tǒng)計和數(shù)據(jù)挖掘方面。多維分析是數(shù)據(jù)倉庫的重要表現(xiàn)形式,近幾年來,多維分析領域的工具和產品注重提供基于web的前端聯(lián)機分析界面,而不僅僅是網(wǎng)上數(shù)據(jù)的發(fā)布。數(shù)理統(tǒng)計原本與數(shù)據(jù)倉庫沒有直接的聯(lián)系,但在實際應用中需要通過對數(shù)據(jù)的統(tǒng)計來驗證假設,以進行決策。數(shù)理統(tǒng)計的算法和功能將普遍集成到聯(lián)機分析產品中,同時與因特網(wǎng)網(wǎng)絡技術緊密結合,推出適用于內聯(lián)網(wǎng),終端免維護的數(shù)據(jù)倉庫訪問前端。數(shù)據(jù)挖掘與數(shù)理統(tǒng)計相似,數(shù)據(jù)挖掘與數(shù)據(jù)倉庫也沒有直接的聯(lián)系。目前許多數(shù)據(jù)挖掘工具其實不過是數(shù)理統(tǒng)計的應用,它們并不能真正尋找出數(shù)據(jù)的規(guī)律。而是驗證盡可能多的假設,最后由人來判斷其合理性。未來的發(fā)展將使數(shù)據(jù)挖掘不僅僅是驗證人

11、們對數(shù)據(jù)特性的假設,而且更要主動地尋找并發(fā)現(xiàn)蘊藏在數(shù)據(jù)之中的規(guī)律。隨著各種計算機技術,如數(shù)據(jù)模型、數(shù)據(jù)庫技術和應用開發(fā)技術的不斷進步,數(shù)據(jù)倉庫技術也在不斷發(fā)展,并在實際應用中發(fā)揮了巨大的作用。目前使用數(shù)據(jù)倉庫所產生的巨大效益刺激了對數(shù)據(jù)倉庫技術的需求,數(shù)據(jù)倉庫市場正以迅猛勢頭向前發(fā)展:一方面。數(shù)據(jù)倉庫市場需求量越來越大。每年約以400的速度擴張:另一方面。數(shù)據(jù)倉庫產品越來越成熟,生產數(shù)據(jù)倉庫工具的廠家越來越多。數(shù)據(jù)倉庫技術及市場將向以下方向發(fā)展:(1)并行化和可擴展性。在硬件層次上。采用多處理器并行結構;在數(shù)據(jù)庫層次上,數(shù)據(jù)庫廠商推出了并行產品,以適應數(shù)據(jù)倉庫市場的需要。(2)集中化。隨著數(shù)據(jù)倉庫項目越來越大,就要求對信息進行集中管理,此外,數(shù)據(jù)的一致性也要求數(shù)據(jù)集中管理。(3)數(shù)據(jù)倉庫與因特網(wǎng)內聯(lián)網(wǎng)的集成。即前臺是網(wǎng)絡服務器,后臺是數(shù)據(jù)倉庫系統(tǒng)。數(shù)據(jù)倉庫的信息及統(tǒng)計分析結果以網(wǎng)絡的形式表現(xiàn)。(4)數(shù)據(jù)挖掘工具和人工智能管理的成熟與廣泛使用。這將是今后推動決策支持演變過程的主要力量,相信會有越來越多的專家系統(tǒng)問世。為企業(yè)的決策提供支持。(5)通用數(shù)據(jù)庫。數(shù)據(jù)倉庫將支持多媒體、結構化和非結構化數(shù)據(jù)。即向通用數(shù)據(jù)庫發(fā)展,具有面向對象的能力。(6)專用數(shù)據(jù)倉庫。即數(shù)據(jù)倉庫的打包。它是指數(shù)據(jù)倉庫將集成一些工具和應用,打包推向用戶。5結束語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論