




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
PartI數(shù)據(jù)倉(cāng)儲(chǔ)技術(shù)篇
第1章數(shù)據(jù)倉(cāng)儲(chǔ)與數(shù)據(jù)采掘概述
1.1資料倉(cāng)儲(chǔ)的發(fā)展與展望
1.2資料倉(cāng)儲(chǔ)的架構(gòu)
1.3數(shù)據(jù)倉(cāng)儲(chǔ)的參照結(jié)構(gòu)
1.4數(shù)據(jù)采掘技術(shù)
1.5數(shù)據(jù)采掘技術(shù)與工具
1.6數(shù)據(jù)倉(cāng)儲(chǔ)與數(shù)據(jù)采掘的應(yīng)用
1.7數(shù)據(jù)倉(cāng)儲(chǔ)應(yīng)用
1.8數(shù)據(jù)倉(cāng)儲(chǔ)導(dǎo)向的決策支持系統(tǒng)
1.9數(shù)據(jù)倉(cāng)儲(chǔ)的商業(yè)應(yīng)用
1.10數(shù)據(jù)倉(cāng)儲(chǔ)與數(shù)據(jù)采掘的應(yīng)用
習(xí)題
隨著信息技術(shù)的不斷推廣和應(yīng)用,許多企業(yè)都已經(jīng)在使用管理信息系統(tǒng)(MIS)處理管理交易和日常業(yè)務(wù)。這些管理信息系統(tǒng)為企業(yè)累積了大量的信息因此,在信息處理中,產(chǎn)生了與傳統(tǒng)數(shù)據(jù)庫(kù)有很大差異的數(shù)據(jù)環(huán)境要求,和從這些巨量數(shù)據(jù)中獲取特殊知識(shí)的工具的需要。
1.1資料倉(cāng)儲(chǔ)的發(fā)展與展望傳統(tǒng)數(shù)據(jù)庫(kù)只保留了當(dāng)前的業(yè)務(wù)處理信息,缺乏決策分析所需要的大量歷史信息。為滿足管理人員的決策分析需求,就需要在數(shù)據(jù)庫(kù)的基礎(chǔ)上產(chǎn)生適應(yīng)決策分析的數(shù)據(jù)環(huán)境─資料倉(cāng)儲(chǔ)(DW,DataWarehouse)。
1.1.1從傳統(tǒng)數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)儲(chǔ)決策處理的系統(tǒng)響應(yīng)問(wèn)題在傳統(tǒng)的業(yè)務(wù)處理系統(tǒng)中,客戶對(duì)系統(tǒng)和數(shù)據(jù)庫(kù)的要求是數(shù)據(jù)存取頻率要高,操作時(shí)間要快。在決策分析處理中,客戶對(duì)系統(tǒng)和數(shù)據(jù)的要求則發(fā)生了很大的變化。這些操作必然要消耗大量的系統(tǒng)資源,這是對(duì)業(yè)務(wù)處理實(shí)時(shí)反應(yīng)的事務(wù)處理系統(tǒng)所無(wú)法忍受的。
決策數(shù)據(jù)需求的問(wèn)題在進(jìn)行決策分析時(shí),需要有整體、正確的整合式資料,這些整合式數(shù)據(jù)不僅包含企業(yè)內(nèi)部各部門的有關(guān)數(shù)據(jù),而且還包含企業(yè)外部的,甚至競(jìng)爭(zhēng)對(duì)手的相關(guān)資料。但是在傳統(tǒng)數(shù)據(jù)庫(kù)中,只儲(chǔ)存了本部門的事務(wù)處理資料,而沒(méi)有與決策問(wèn)題有關(guān)的整合式數(shù)據(jù),更沒(méi)有企業(yè)外部的資料。
在決策數(shù)據(jù)的整合中還需要解決數(shù)據(jù)混亂問(wèn)題。例如,企業(yè)進(jìn)行并購(gòu)活動(dòng)之后,被并購(gòu)企業(yè)的信息系統(tǒng)與并購(gòu)企業(yè)的系統(tǒng)不兼容,數(shù)據(jù)無(wú)法共享。例如,在系統(tǒng)開(kāi)發(fā)中,由于資金的缺乏,只考慮了一些關(guān)鍵系統(tǒng)的開(kāi)發(fā),而對(duì)其他系統(tǒng)不予考慮,使決策數(shù)據(jù)無(wú)法整合。
例如,員工的性別在人力信息系統(tǒng)中可能用邏輯值“M”和“F”表示,在財(cái)務(wù)系統(tǒng)中可能用數(shù)字“0”和“I”表示。例如,名稱為“GH”的域名在人事系統(tǒng)中表示為員工的“員工號(hào)碼”,但是在銷售管理系統(tǒng)中卻表示為“購(gòu)貨號(hào)碼”。這樣在使用這些數(shù)據(jù)作出決策之前,必須對(duì)這些數(shù)據(jù)作分析,確認(rèn)其真實(shí)含義。
在決策分析中,系統(tǒng)常常需要從數(shù)據(jù)庫(kù)中萃取資料、搜尋有用的數(shù)據(jù),然后將這些數(shù)據(jù)導(dǎo)入其他文件或數(shù)據(jù)庫(kù)中,供客戶使用。這些被萃取出來(lái)的資料,有可能被其他客戶再次萃萃取。由于這種不加限制的數(shù)據(jù)連續(xù)萃取,使企業(yè)的數(shù)據(jù)空間構(gòu)成了一個(gè)錯(cuò)綜復(fù)雜的資料“蜘蛛網(wǎng)”(Spider’sWeb),即形成了自然演化架構(gòu)數(shù)據(jù)的整合還涉及到外部數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用問(wèn)題。例如行業(yè)的統(tǒng)計(jì)報(bào)告、顧問(wèn)公司的市場(chǎng)調(diào)查分析資料。這些數(shù)據(jù)必須經(jīng)過(guò)格式、類型的轉(zhuǎn)換,才能被決策系統(tǒng)應(yīng)用。為完成事務(wù)處理的需求,傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)一般只保留當(dāng)前的資料。但是對(duì)于決策分析而言,歷史的、長(zhǎng)期的數(shù)據(jù)卻具有重要的意義。
在決策分析程序中,決策人員往往需要的并不是非常詳細(xì)的資料,而是一些經(jīng)過(guò)匯總、匯總的數(shù)據(jù)。決策數(shù)據(jù)操作的問(wèn)題決策分析人員則往往希望以專業(yè)客戶的身份而不是參數(shù)客戶的身份對(duì)數(shù)據(jù)進(jìn)行操作,他們往往希望能夠用各種工具對(duì)數(shù)據(jù)進(jìn)行多種形式的操作,希望資料操作的結(jié)果能以商業(yè)智慧(BusinessIntelligence,BI)的形式呈現(xiàn)出來(lái)。數(shù)據(jù)倉(cāng)儲(chǔ)與傳統(tǒng)數(shù)據(jù)庫(kù)的對(duì)比數(shù)據(jù)倉(cāng)儲(chǔ)雖然是從數(shù)據(jù)庫(kù)發(fā)展而來(lái)的,但是兩者在許多方面都存在著相當(dāng)大的差異,如表1-1所示。
數(shù)據(jù)庫(kù)只存放當(dāng)前之值,而數(shù)據(jù)倉(cāng)儲(chǔ)則存放歷史值數(shù)據(jù)庫(kù)中數(shù)據(jù)的目標(biāo)是面對(duì)業(yè)務(wù)操作人員數(shù)據(jù)倉(cāng)儲(chǔ)則是面對(duì)中高層主管數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)是動(dòng)態(tài)變化的,數(shù)據(jù)倉(cāng)儲(chǔ)則是靜態(tài)的歷史性數(shù)據(jù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜,數(shù)據(jù)倉(cāng)儲(chǔ)中的數(shù)據(jù)結(jié)構(gòu)則較為簡(jiǎn)單。
數(shù)據(jù)庫(kù)中數(shù)據(jù)的存取頻率較高,但是存取數(shù)據(jù)的數(shù)量較少;數(shù)據(jù)倉(cāng)儲(chǔ)的存取頻率較低,但是數(shù)據(jù)存取量要遠(yuǎn)高于數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)在存取數(shù)據(jù)時(shí)要求響應(yīng)速度很快,數(shù)據(jù)倉(cāng)儲(chǔ)的反應(yīng)時(shí)間則可能長(zhǎng)達(dá)數(shù)小時(shí)。
1.1.2數(shù)據(jù)倉(cāng)儲(chǔ)的定義與基本特色WilliamH.Inmon在1993年所寫的論著《BuildingtheDataWarehouse》則首先系統(tǒng)地闡述了關(guān)于數(shù)據(jù)倉(cāng)儲(chǔ)的理論,為資料倉(cāng)儲(chǔ)的發(fā)展奠定了里程碑。在內(nèi)文中,他將數(shù)據(jù)倉(cāng)儲(chǔ)定義為:
“一個(gè)主題是導(dǎo)向的、整合式、隨時(shí)間變化的、不易失漏性數(shù)據(jù)的集合,用于支持管理層的決策程序”。主題式導(dǎo)向(Subjectoriented)數(shù)據(jù)倉(cāng)儲(chǔ)的創(chuàng)建、使用都是焦距于主題執(zhí)行的。因此,我們必須了解如何按照決策分析來(lái)萃取主題;所萃取出的主題應(yīng)該包含哪些數(shù)據(jù)內(nèi)容;這些數(shù)據(jù)內(nèi)容應(yīng)該如何組織。
在確定主題之后,需要確定主題所應(yīng)該包含的資 料。此時(shí),應(yīng)該注意不能將鎖定主題的數(shù)據(jù)與事務(wù)處理系統(tǒng)中的數(shù)據(jù)相混淆。
在主題的數(shù)據(jù)組織中應(yīng)該注意,不同的主題之間可能會(huì)出現(xiàn)相互重迭的信息。主題在數(shù)據(jù)倉(cāng)儲(chǔ)中可以用多維數(shù)據(jù)庫(kù)方式進(jìn)行儲(chǔ)存。
整合式數(shù)據(jù)(IntegratedData)資料倉(cāng)儲(chǔ)的整合性是指根據(jù)決策分析的需求,將分散于各處的原始數(shù)據(jù)進(jìn)行萃取、篩選、凈化、整合等工作,使數(shù)據(jù)倉(cāng)儲(chǔ)中的數(shù)據(jù)具有整合性。
資料的時(shí)變性(Time-Variant)數(shù)據(jù)倉(cāng)儲(chǔ)的時(shí)變性,就是數(shù)據(jù)應(yīng)該隨著時(shí)間的推移而不斷發(fā)生變化。數(shù)據(jù)倉(cāng)儲(chǔ)數(shù)據(jù)的時(shí)變性,不僅反映在數(shù)據(jù)的追加方面,而且還反映在數(shù)據(jù)的刪除上。數(shù)據(jù)倉(cāng)儲(chǔ)中數(shù)據(jù)的時(shí)變性還表現(xiàn)在匯總數(shù)據(jù)的變化上。
資料的不易失漏性(Nonvolatile)數(shù)據(jù)的不易失漏性可以支持不同的客戶在不同的時(shí)間查詢、分析相同的問(wèn)題時(shí),獲得同一結(jié)果。
資料的聚合性(Aggregate)
數(shù)據(jù)倉(cāng)儲(chǔ)所采用的數(shù)據(jù)聚合方式,主要是以多維資料庫(kù)方式進(jìn)行儲(chǔ)存的多維模式、以關(guān)系數(shù)據(jù)庫(kù)方式進(jìn)行儲(chǔ)存的關(guān)系模型或以兩者相整合的方式進(jìn)行儲(chǔ)存的混合模式。
支持管理中的決策制定程序企業(yè)各級(jí)主管可以利用資料倉(cāng)儲(chǔ)進(jìn)行各種管理決策的分析,利用自己獨(dú)特而敏銳的商業(yè)透視力和業(yè)務(wù)知識(shí),從貌似平淡的資料中發(fā)現(xiàn)潛在的商機(jī)。
1.1.3資料倉(cāng)儲(chǔ)的未來(lái)趨勢(shì)
關(guān)系型對(duì)象數(shù)據(jù)庫(kù)的數(shù)據(jù)倉(cāng)儲(chǔ)關(guān)系型對(duì)象數(shù)據(jù)庫(kù)的出現(xiàn)使得數(shù)據(jù)倉(cāng)儲(chǔ)設(shè)計(jì)人員可以將對(duì)象引入到數(shù)據(jù)倉(cāng)儲(chǔ)環(huán)境中。面向?qū)ο蠹夹g(shù)引入數(shù)據(jù)倉(cāng)儲(chǔ)之后,客戶可以定義適合某種數(shù)據(jù)類型的最佳操作。關(guān)系型對(duì)象數(shù)據(jù)庫(kù)作為數(shù)據(jù)倉(cāng)儲(chǔ)平臺(tái)不僅為復(fù)雜數(shù)據(jù)類提供了可延伸功能,而且還為數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)提供了對(duì)數(shù)據(jù)處理的功能延伸。
網(wǎng)絡(luò)的影響未來(lái)的數(shù)據(jù)倉(cāng)儲(chǔ)將越來(lái)越依賴于網(wǎng)絡(luò)作數(shù)據(jù)的傳輸、數(shù)據(jù)的使用申請(qǐng)?zhí)幚怼?蛻艨梢越逯趦?nèi)部網(wǎng)路或外部網(wǎng)絡(luò)使用數(shù)據(jù)倉(cāng)儲(chǔ),這就需要數(shù)據(jù)倉(cāng)儲(chǔ)具有網(wǎng)絡(luò)使用方面的能力。
操作型數(shù)據(jù)倉(cāng)儲(chǔ)“操作型數(shù)據(jù)倉(cāng)儲(chǔ)”就能夠以一種可以接受的標(biāo)準(zhǔn)對(duì)數(shù)據(jù)倉(cāng)儲(chǔ)進(jìn)行操作。這些標(biāo)準(zhǔn)包括可預(yù)測(cè)性、可利用性和可存取性。
Web應(yīng)用中的代理技術(shù)資料倉(cāng)儲(chǔ)的Web應(yīng)用主要是指客戶利用合作伙伴(partner)的資料倉(cāng)儲(chǔ)或Intranet(企業(yè)內(nèi)部網(wǎng)絡(luò))系統(tǒng)中的多維數(shù)據(jù)集合進(jìn)行決策分析活動(dòng)。
1.2資料倉(cāng)儲(chǔ)的架構(gòu)
1.2.1數(shù)據(jù)倉(cāng)儲(chǔ)的概念架構(gòu)1.2.2虛擬數(shù)據(jù)倉(cāng)儲(chǔ)結(jié)構(gòu)
1.2.3資料市集架構(gòu)1.2.4單一數(shù)據(jù)倉(cāng)儲(chǔ)結(jié)構(gòu)
1.2.5分布式數(shù)據(jù)倉(cāng)儲(chǔ)結(jié)構(gòu)
1.3數(shù)據(jù)倉(cāng)儲(chǔ)的參照結(jié)構(gòu)數(shù)據(jù)倉(cāng)儲(chǔ)的基本功能包括:數(shù)據(jù)萃取、數(shù)據(jù)篩選和凈化、清理之后的數(shù)據(jù)加載、建構(gòu)數(shù)據(jù)市集、完成資料倉(cāng)儲(chǔ)的查詢、決策分析和知識(shí)采掘等。1.3.1數(shù)據(jù)倉(cāng)儲(chǔ)基本功能層數(shù)據(jù)倉(cāng)儲(chǔ)的基本功能部份包含了數(shù)據(jù)源、數(shù)據(jù)準(zhǔn)備區(qū)、數(shù)據(jù)倉(cāng)儲(chǔ)架構(gòu)、數(shù)據(jù)市集或知識(shí)采掘庫(kù)以及數(shù)據(jù)的存取與使用功能部分,如圖1.7所示。資料倉(cāng)儲(chǔ)的數(shù)據(jù)源業(yè)務(wù)資料業(yè)務(wù)數(shù)據(jù)是指那些從組織目前正在執(zhí)行的業(yè)務(wù)處理系統(tǒng)那里收集到并保儲(chǔ)存在業(yè)務(wù)處理系統(tǒng)數(shù)據(jù)儲(chǔ)存中的資料。歷史性資料指組織在長(zhǎng)期的信息處理程序中所累積下來(lái)的資料,這些數(shù)據(jù)一般進(jìn)行了脫機(jī)處理。
辦公資料主要是指組織內(nèi)部的辦公系統(tǒng)數(shù)據(jù),這些數(shù)據(jù)分為電子數(shù)據(jù)和非電子數(shù)據(jù)兩種。Web資料Web數(shù)據(jù)是企業(yè)透過(guò)因特網(wǎng)所獲取的數(shù)據(jù),這些數(shù)據(jù)可以透過(guò)企業(yè)的電子商務(wù)系統(tǒng)獲取,也可以透過(guò)網(wǎng)絡(luò)調(diào)查獲取。
外部數(shù)據(jù)外部數(shù)據(jù)是指那些不為企業(yè)所操作、所擁有、所控制的數(shù)據(jù),這些數(shù)據(jù)有的是電子形式的。數(shù)據(jù)源超資料數(shù)據(jù)源數(shù)據(jù)屬于超數(shù)據(jù)管理層范圍,在數(shù)據(jù)倉(cāng)儲(chǔ)中的所有數(shù)據(jù)都需要透過(guò)超數(shù)據(jù)管理層來(lái)進(jìn)行管理、控制。
數(shù)據(jù)準(zhǔn)備區(qū)的功能結(jié)構(gòu)數(shù)據(jù)的標(biāo)準(zhǔn)化處理數(shù)據(jù)準(zhǔn)備區(qū)的標(biāo)準(zhǔn)化處理主要是將同名不同內(nèi)容的、同內(nèi)容不同名的、同名同內(nèi)容但不同結(jié)構(gòu)的資料進(jìn)行統(tǒng)一處理。數(shù)據(jù)的過(guò)濾與適配
數(shù)據(jù)的過(guò)濾與適配主要是對(duì)進(jìn)入數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)據(jù)按照客戶的需要進(jìn)行篩選。
數(shù)據(jù)的凈化處理數(shù)據(jù)的凈化處理主要是對(duì)準(zhǔn)備加載到數(shù)據(jù)倉(cāng)儲(chǔ)中的數(shù)據(jù)進(jìn)行正確性判斷。加蓋數(shù)據(jù)的時(shí)間戳由于在數(shù)據(jù)倉(cāng)儲(chǔ)中要進(jìn)行數(shù)據(jù)的匯總,以分析交易的發(fā)展趨勢(shì)。
確認(rèn)數(shù)據(jù)質(zhì)量
數(shù)據(jù)倉(cāng)儲(chǔ)中數(shù)據(jù)品量的高低是資料倉(cāng)儲(chǔ)能否成功的關(guān)鍵因素之一。超資料萃取與創(chuàng)建數(shù)據(jù)的持續(xù)改善程序中,還需要從數(shù)據(jù)源中確定這些源數(shù)據(jù)的超數(shù)據(jù)內(nèi)容。
數(shù)據(jù)倉(cāng)儲(chǔ)功的能結(jié)構(gòu)資料重整數(shù)據(jù)重整是為使數(shù)據(jù)倉(cāng)儲(chǔ)能夠更好地為客戶服務(wù)所進(jìn)行的一系列預(yù)先操作。數(shù)據(jù)的整合與分解對(duì)來(lái)自不同系統(tǒng)的數(shù)據(jù)進(jìn)行整合,創(chuàng)建新的數(shù)據(jù)。資料的匯總與聚集數(shù)據(jù)的概括聚集處理就是根據(jù)某一屬性將數(shù)據(jù)進(jìn)行匯總。
數(shù)據(jù)的預(yù)算與推導(dǎo)預(yù)算與推導(dǎo)的結(jié)果都是事先進(jìn)行的計(jì)算,并作為資料倉(cāng)儲(chǔ)的字段儲(chǔ)存在數(shù)據(jù)倉(cāng)儲(chǔ)中。數(shù)據(jù)的編譯與格式化對(duì)來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行編譯和格式化處理,便于今后的統(tǒng)一處理。
數(shù)據(jù)的轉(zhuǎn)換與映像對(duì)己經(jīng)儲(chǔ)存好的數(shù)據(jù)進(jìn)行轉(zhuǎn)移或再映像到數(shù)據(jù)源中,有利于對(duì)新生成或發(fā)生變化的數(shù)據(jù)添加更新。資料倉(cāng)儲(chǔ)創(chuàng)建數(shù)據(jù)倉(cāng)儲(chǔ)創(chuàng)建作為數(shù)據(jù)倉(cāng)儲(chǔ)的核心功能應(yīng)該完成資料倉(cāng)儲(chǔ)的建模、數(shù)據(jù)的一般性、數(shù)據(jù)的整合、數(shù)據(jù)的調(diào)整與確認(rèn)、建構(gòu)結(jié)構(gòu)化查詢。
資料倉(cāng)儲(chǔ)的建模從己經(jīng)創(chuàng)建的數(shù)據(jù)模型中導(dǎo)出資料倉(cāng)儲(chǔ)的數(shù)據(jù)模型(星狀模型或雪花模型)。資料的匯總根據(jù)客戶的需要,從初步的一般性資料中創(chuàng)建客戶所需的高度匯總資料。
資料的聚集從擁有大批量數(shù)據(jù)的數(shù)據(jù)倉(cāng)儲(chǔ)中進(jìn)行查詢分析是一個(gè)非常費(fèi)時(shí)的操作。數(shù)據(jù)的調(diào)整與確認(rèn)在數(shù)據(jù)完成匯總與聚集之后,需要對(duì)匯總與聚集后的數(shù)據(jù)進(jìn)行確認(rèn)。
建構(gòu)結(jié)構(gòu)化查詢?yōu)樘岣咭恍┙Y(jié)構(gòu)化查詢,可以預(yù)定義這些查詢,并將這些結(jié)構(gòu)化查詢作為超數(shù)據(jù)儲(chǔ)存在超數(shù)據(jù)庫(kù)中。超數(shù)據(jù)管理超數(shù)據(jù)管理功能主要包含超數(shù)據(jù)瀏覽與導(dǎo)覽、超資料的萃取與創(chuàng)建、創(chuàng)建字匯表。
超數(shù)據(jù)瀏覽與導(dǎo)覽數(shù)據(jù)倉(cāng)儲(chǔ)的建構(gòu)者在數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè)和維護(hù)程序中需要利用數(shù)據(jù)倉(cāng)儲(chǔ)的超數(shù)據(jù)瀏覽和導(dǎo)覽功能。超資料的萃取與創(chuàng)建在數(shù)據(jù)重整程序中需要從整合數(shù)據(jù)、匯總數(shù)據(jù)和衍生數(shù)據(jù)中捕獲超數(shù)據(jù)。
創(chuàng)建詞匯表在創(chuàng)建數(shù)據(jù)倉(cāng)儲(chǔ)的程序中,需要根據(jù)所捕獲的超資料建構(gòu)超資料的詞匯表。資料市集/知識(shí)采掘庫(kù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)據(jù)存取與使用結(jié)構(gòu)
1.3.2數(shù)據(jù)倉(cāng)儲(chǔ)的管理層1.3.3數(shù)據(jù)倉(cāng)儲(chǔ)的超數(shù)據(jù)管理層
數(shù)據(jù)倉(cāng)儲(chǔ)、數(shù)據(jù)市集和超數(shù)據(jù)詞匯表管理超數(shù)據(jù)管理層利用超數(shù)據(jù)詞匯表來(lái)管理數(shù)據(jù)倉(cāng)儲(chǔ)和數(shù)據(jù)市集中的邏輯數(shù)據(jù)模型、實(shí)體數(shù)據(jù)模型以及與技術(shù)和業(yè)務(wù)相關(guān)的資料說(shuō)明。
超數(shù)據(jù)萃取、創(chuàng)建、儲(chǔ)存和更新管理超數(shù)據(jù)在數(shù)據(jù)倉(cāng)儲(chǔ)對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)萃取、清理、加載等操作程序中需要對(duì)所涉及到的超數(shù)據(jù)進(jìn)行萃取、創(chuàng)建、儲(chǔ)存和更新處理。
預(yù)訂定義的查詢、報(bào)表和索引管理在超數(shù)據(jù)管理中還需要對(duì)設(shè)計(jì)人員為數(shù)據(jù)倉(cāng)儲(chǔ)客戶預(yù)訂定義的查詢和報(bào)表進(jìn)行管理,將預(yù)定義的查詢和報(bào)表的處理方式甚至處理結(jié)果置于超數(shù)據(jù)庫(kù)中。
更新、復(fù)制、恢復(fù)、登錄、歸檔與凈化管理數(shù)據(jù)倉(cāng)儲(chǔ)所連接的數(shù)據(jù)源發(fā)生了變化時(shí),數(shù)據(jù)倉(cāng)儲(chǔ)的內(nèi)容也要定期更新。這些更新工作的進(jìn)行需要依靠超數(shù)據(jù)庫(kù)中所包含約有關(guān)說(shuō)明。
1.3.4數(shù)據(jù)倉(cāng)儲(chǔ)的環(huán)境支持層
數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)據(jù)傳輸層數(shù)據(jù)傳輸層的架構(gòu)數(shù)據(jù)傳輸層中的數(shù)據(jù)傳輸和傳送網(wǎng)絡(luò)包括網(wǎng)絡(luò)協(xié)定、網(wǎng)絡(luò)管理框架、網(wǎng)絡(luò)操作系統(tǒng)和網(wǎng)絡(luò)??蛻舳?服務(wù)器與中間組件客戶端/服務(wù)器代理和中間組件部分包括數(shù)據(jù)庫(kù)網(wǎng)路、數(shù)據(jù)倉(cāng)儲(chǔ)的中間組件、傳輸層的數(shù)據(jù)倉(cāng)儲(chǔ)數(shù)據(jù)發(fā)布和復(fù)制系統(tǒng)等。
數(shù)據(jù)復(fù)制系統(tǒng)在傳輸層的復(fù)制系統(tǒng)中有發(fā)布與復(fù)制系統(tǒng)、數(shù)據(jù)庫(kù)網(wǎng)關(guān)內(nèi)所定義的復(fù)制工具、專用的數(shù)據(jù)倉(cāng)儲(chǔ)產(chǎn)品等。
數(shù)據(jù)倉(cāng)儲(chǔ)的基礎(chǔ)層數(shù)據(jù)倉(cāng)儲(chǔ)的基礎(chǔ)層中包括系統(tǒng)管理、工作流程管理、儲(chǔ)存系統(tǒng)、處理系統(tǒng)等部分,如圖1.16所示。1.4數(shù)據(jù)采掘技術(shù)1989年8月,在第11屆國(guó)際人工智能聯(lián)合會(huì)議的專題研討會(huì)上首次提出了數(shù)據(jù)庫(kù)導(dǎo)向的知識(shí)發(fā)現(xiàn)(KDD,KnowledgeDiscoveryinDatabase)技術(shù)。
該技術(shù)涉及到機(jī)器學(xué)習(xí),模式識(shí)別、統(tǒng)計(jì)學(xué)、智能型數(shù)據(jù)庫(kù)、知識(shí)獲取、專家系統(tǒng)、數(shù)據(jù)可視化、高性能計(jì)算等領(lǐng)域。
1.4.1資料采掘的發(fā)展超大型數(shù)據(jù)庫(kù)的出現(xiàn)依靠計(jì)算機(jī)自動(dòng)收集的各種業(yè)務(wù)處理資料使許多大規(guī)模數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)儲(chǔ)擁有了大量的業(yè)務(wù)處理數(shù)據(jù)、市場(chǎng)變化資料。先進(jìn)的計(jì)算機(jī)技術(shù)先進(jìn)的計(jì)算機(jī)技術(shù)水準(zhǔn)已成為促進(jìn)數(shù)據(jù)采掘技術(shù)發(fā)展的第二個(gè)重要因素。
管理的需求企業(yè)所面臨的市場(chǎng)競(jìng)爭(zhēng)壓力日趨嚴(yán)重,企業(yè)經(jīng)營(yíng)管理者希望能夠從企業(yè)累積的大量歷史資料中,找到應(yīng)對(duì)日趨嚴(yán)重競(jìng)爭(zhēng)壓力的良方,希望能夠從這些數(shù)據(jù)中找到管理中發(fā)生問(wèn)題的根本原因。
對(duì)數(shù)據(jù)采掘的精深計(jì)算能力大規(guī)模數(shù)據(jù)的采掘需要復(fù)雜的、精深的計(jì)算能力,這些精深的計(jì)算能力主要以統(tǒng)計(jì)學(xué)、集合論、信息論、認(rèn)識(shí)論和人工智能等各種學(xué)科理論為基礎(chǔ)。
1.4.2數(shù)據(jù)采掘的定義數(shù)據(jù)采掘的定義現(xiàn)在很多,在不同的教科書上有不同的定義。呈現(xiàn)方式雖然不同,但本質(zhì)都是一樣的。這里主要從技術(shù)角度和商業(yè)角度給出數(shù)據(jù)采掘的定義。數(shù)據(jù)采掘的技術(shù)定義從技術(shù)角度看,資料采掘是從大量的、不完全的、有噪音的、模糊的、隨機(jī)的實(shí)際數(shù)據(jù)中提取隱含在其中的、人們所不知道的但又是潛在有用的信息和知識(shí)的程序。
數(shù)據(jù)采掘的商業(yè)定義商業(yè)應(yīng)用角度來(lái)看,數(shù)據(jù)采掘是一種嶄新的商業(yè)資訊處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行萃取、轉(zhuǎn)化、分析和模式化處理,從中提取輔助商業(yè)決策的關(guān)鍵知識(shí),即從一個(gè)數(shù)據(jù)庫(kù)中自動(dòng)發(fā)現(xiàn)相關(guān)商業(yè)模式。
1.5數(shù)據(jù)采掘技術(shù)與工具
1.5.1常用的數(shù)據(jù)采掘技術(shù)資料采掘的發(fā)展受到數(shù)據(jù)庫(kù)系統(tǒng)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化技術(shù)、信息技術(shù)以及其他學(xué)科的影響,例如類神經(jīng)網(wǎng)絡(luò)、模糊/粗糙集理論、知識(shí)表示、歸納技術(shù)、高性能計(jì)算等。如果從常用的數(shù)據(jù)采掘技術(shù)來(lái)看可以分成三大類:傳統(tǒng)分析類傳統(tǒng)的統(tǒng)計(jì)分析(或稱資料分析)技術(shù)中使用的數(shù)據(jù)采掘模型有線性分析、非線性分析、回歸分析、邏輯回歸分析、單變量分析、多變量分析、時(shí)間序列分析、最近近鄰算法、群集分析等。
知識(shí)發(fā)現(xiàn)類知識(shí)發(fā)現(xiàn)類數(shù)據(jù)采掘技術(shù)包括類神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、基因算法、粗糙集、規(guī)則發(fā)現(xiàn)、關(guān)聯(lián)順序等。類神經(jīng)網(wǎng)絡(luò)是仿真人腦神經(jīng)元結(jié)構(gòu)判定樹(shù)是一個(gè)類似于流程圖的樹(shù)結(jié)構(gòu)基因算法是近幾年發(fā)展起來(lái)的一種嶄新的整體優(yōu)化算法粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下
資料采掘技術(shù)的發(fā)展在資料采掘技術(shù)的最新發(fā)展中包括了文字?jǐn)?shù)據(jù)采掘、Web數(shù)據(jù)采掘、可視化系統(tǒng)、空間數(shù)據(jù)采掘和分布式數(shù)據(jù)采掘技術(shù)等。
文字?jǐn)?shù)據(jù)采掘和Web資料采掘是近幾年新發(fā)展起來(lái)的嶄新資料采掘技術(shù)可可視化系統(tǒng)是為了便數(shù)據(jù)采掘能夠以圖形或影像的方式在屏幕上顯示出來(lái)空間數(shù)據(jù)采掘是地理信息系統(tǒng)導(dǎo)向的數(shù)據(jù)采掘技術(shù)。分布式數(shù)據(jù)采掘是分布式數(shù)據(jù)庫(kù)導(dǎo)向并利用分布式算法從分布式數(shù)據(jù)庫(kù)中采掘知識(shí)的技術(shù)。
1.5.2常用數(shù)據(jù)采掘工具按使用方式分類的數(shù)據(jù)采掘工具決策方案生成工具往往是針對(duì)某個(gè)特定行業(yè)或特定問(wèn)題而開(kāi)發(fā)的一類數(shù)據(jù)采掘工具。商業(yè)分析工具有兩種類型。一種是只為客戶提供一個(gè)黑箱,另一種數(shù)據(jù)采掘工具則向客戶展示數(shù)據(jù)采掘模型
按數(shù)據(jù)采掘技術(shù)分類的數(shù)據(jù)采掘工具按照數(shù)據(jù)采掘的技術(shù)可以分成:類神經(jīng)網(wǎng)絡(luò)導(dǎo)向的工具規(guī)則和判定樹(shù)導(dǎo)向的工具模糊邏輯導(dǎo)向的工具整合性數(shù)據(jù)采掘工具等
按應(yīng)用范圍分類的數(shù)據(jù)采掘工具專用型數(shù)據(jù)采掘工具專用型數(shù)據(jù)采掘工具主要用于某一特定領(lǐng)域。通用型數(shù)據(jù)采掘工具通用型數(shù)據(jù)采掘工具一般不考慮所采掘?qū)ο蟮膶?shí)際含義,只提供各種通用采掘算法。
通用型數(shù)據(jù)采掘工具:IBM公司的IM智能型采掘器,這是一套包括了Explorer、Diamond和Quest在內(nèi)的軟件產(chǎn)品。SPSS公司統(tǒng)計(jì)軟件包SPSS在統(tǒng)計(jì)領(lǐng)域處于領(lǐng)先的地位RedBrick公司的RedBrick數(shù)據(jù)采掘工具是第一個(gè)將數(shù)據(jù)采掘解決方案與數(shù)據(jù)庫(kù)整合在一起的數(shù)據(jù)采掘組件。
1.5.3數(shù)據(jù)采掘工具的評(píng)估標(biāo)準(zhǔn)如何選擇滿足需要的數(shù)據(jù)采掘工具就成了數(shù)據(jù)采掘應(yīng)用中首先要解決的問(wèn)題。在選擇數(shù)據(jù)采掘工具時(shí),一般可以參照以下評(píng)價(jià)標(biāo)準(zhǔn)。
模式種類的數(shù)量數(shù)據(jù)采掘工具能夠提供的模式越多,它的知識(shí)發(fā)現(xiàn)能力越強(qiáng),而且多種類型模式的整合應(yīng)用,有助于降低問(wèn)題的復(fù)雜性。解決復(fù)雜問(wèn)題的能力為了解資料采掘工具解決復(fù)雜問(wèn)題的能力,可以從采掘工具的模式應(yīng)用、數(shù)據(jù)選擇和轉(zhuǎn)換能力、可視化程度和延伸性等方面審視。數(shù)據(jù)采掘工具的延伸性也是提高采掘工具解決復(fù)雜問(wèn)題能力的一個(gè)重要因素。
操作性能操作性能的好壞是一個(gè)影響采掘工具性能的重要因素。數(shù)據(jù)采集能力沒(méi)有一種工具可以支持所有類型的數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)儲(chǔ),但應(yīng)該可以通過(guò)通用接口連接大多數(shù)流行的資料庫(kù)或數(shù)據(jù)倉(cāng)儲(chǔ),這有利于提高數(shù)據(jù)采掘工具的使用范圍。
采掘結(jié)果的輸出數(shù)據(jù)采掘工具不僅能夠?qū)⒉删蚪Y(jié)果以多種方式輸出,而且要求輸出的結(jié)果便于客戶的了解與應(yīng)用。噪音數(shù)據(jù)的處理及采掘工具的穩(wěn)健性噪音數(shù)據(jù)的處理從另一個(gè)角度說(shuō)明采掘工具需要具有一定的穩(wěn)定性,從數(shù)據(jù)采掘工具的目標(biāo)來(lái)看,是希望能夠?qū)ξ粗膶?duì)象做出正確的判斷。
1.5.4常用數(shù)據(jù)采掘工具的選擇 由于數(shù)據(jù)采掘工具種類繁多,客戶在選擇采掘工具時(shí),需要從工具的實(shí)用性和技術(shù)性方面進(jìn)行研究。
從技術(shù)性方面審視資料采掘工具時(shí),需要根據(jù)資料采掘工具評(píng)估標(biāo)準(zhǔn),選擇那些技術(shù)性能指針良好的數(shù)據(jù)采掘工具。
1.6數(shù)據(jù)倉(cāng)儲(chǔ)與數(shù)據(jù)采掘的應(yīng)用
1.6.1數(shù)據(jù)采掘與數(shù)據(jù)倉(cāng)儲(chǔ) 根據(jù)數(shù)據(jù)采掘的定義,我們可以看出,數(shù)據(jù)采掘包含了一系列旨在從數(shù)據(jù)集合中發(fā)現(xiàn)有用而未發(fā)現(xiàn)的模式的技術(shù),如果將其與數(shù)據(jù)倉(cāng)儲(chǔ)緊密聯(lián)結(jié)在一起,將獲得意外的成功。 傳統(tǒng)的觀點(diǎn)認(rèn)為數(shù)據(jù)采掘技術(shù)扎根于計(jì)算機(jī)科學(xué)和數(shù)學(xué),不需要也不會(huì)得益于數(shù)據(jù)倉(cāng)儲(chǔ)。這種觀點(diǎn)是不正確的
當(dāng)然從數(shù)據(jù)采掘與數(shù)據(jù)倉(cāng)儲(chǔ)的整合情況來(lái)看,資料采掘技術(shù)己經(jīng)成為數(shù)據(jù)倉(cāng)儲(chǔ)應(yīng)用的強(qiáng)大支柱。資料采掘技術(shù)在數(shù)據(jù)倉(cāng)儲(chǔ)中的應(yīng)用,正好彌補(bǔ)了數(shù)據(jù)倉(cāng)儲(chǔ)只能提供大量數(shù)據(jù),而無(wú)法進(jìn)行深度信息分析的缺陷。1.6.2數(shù)據(jù)采掘程序確定采掘物件定義清晰的采掘?qū)ο?,認(rèn)清數(shù)據(jù)采掘的目標(biāo)是數(shù)據(jù)采掘的第一步。在資料采掘的第一步中,有時(shí)還需要客戶提供一些先驗(yàn)知識(shí),例如概念樹(shù)等。準(zhǔn)備資料數(shù)據(jù)的選擇在確定數(shù)據(jù)采掘的業(yè)務(wù)對(duì)象之后,就需要搜尋所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),從中選擇出適合于數(shù)據(jù)采掘應(yīng)用的數(shù)據(jù)。
數(shù)據(jù)的預(yù)先處理
在選擇好數(shù)據(jù)之后,還需要對(duì)資料進(jìn)行預(yù)先處理,對(duì)數(shù)據(jù)進(jìn)行凈化,解決數(shù)據(jù)中的遺漏值、冗余、資料值的不一致、數(shù)據(jù)定義的不一致、過(guò)時(shí)的數(shù)據(jù)等問(wèn)題。
采掘模型的建構(gòu)這個(gè)分析模型是鎖定采掘算法而建構(gòu)的。建構(gòu)一個(gè)真正適合采掘算法的分析模型是數(shù)據(jù)采掘成功的關(guān)鍵。模型的建構(gòu)必須從數(shù)據(jù)的分析開(kāi)始。接著,從原始資料中建構(gòu)新的預(yù)示值。下一步,就需要從數(shù)據(jù)中選取一個(gè)子集或樣本來(lái)建構(gòu)模型。最后,需要轉(zhuǎn)換變量,使之和選定用來(lái)建構(gòu)模型的算法一致。
資料采掘?qū)λ玫降慕?jīng)過(guò)轉(zhuǎn)化的數(shù)據(jù)采掘,除了完善與選擇合適的算法需要人工干預(yù)之外,數(shù)據(jù)采掘工作主要由采掘工具自動(dòng)完成。
結(jié)果分析當(dāng)數(shù)據(jù)采掘出現(xiàn)結(jié)果之后,需要對(duì)采掘結(jié)果作解讀與評(píng)估。具體的解讀與評(píng)估方法一般應(yīng)根據(jù)資料采掘操作結(jié)果所制定的決策成敗來(lái)決定。知識(shí)的應(yīng)用數(shù)據(jù)采掘結(jié)果要能夠在實(shí)際中得到應(yīng)用,需要將分析所得到的知識(shí)整合到組織機(jī)構(gòu)中去使這些知識(shí)在實(shí)際的管理決策分析中得到應(yīng)用。
1.6.3資料采掘的客戶
如果從數(shù)據(jù)采掘的程序看,不同的數(shù)據(jù)采掘程序需要不同專長(zhǎng)的人員,大致為:業(yè)務(wù)分析人員、資料分析人員和數(shù)據(jù)管理人員。業(yè)務(wù)分析人員或稱其為企業(yè)管理顧問(wèn)。資料分析人員。要求這些人員精通資料采掘分析技術(shù)。數(shù)據(jù)管理人員。這些人員需要精通數(shù)據(jù)管理技術(shù)。
1.7數(shù)據(jù)倉(cāng)儲(chǔ)應(yīng)用
1.7.1數(shù)據(jù)倉(cāng)儲(chǔ)與數(shù)據(jù)采掘
信息處理、分析處理和數(shù)據(jù)采掘是三種主要的數(shù)據(jù)倉(cāng)儲(chǔ)應(yīng)用。信息處理支持查詢和基本的統(tǒng)計(jì)分析,并使用交叉分析表、列表、圖表或圖形報(bào)告結(jié)果。
在線分析處理支持基本的OLAP操作,包括切片、切塊、下鉆、上卷和轉(zhuǎn)軸。資料采掘支持知識(shí)發(fā)現(xiàn),找出隱藏的模式和關(guān)聯(lián),建構(gòu)分析模型,進(jìn)行分類和預(yù)測(cè),并用可視化工具提供采掘結(jié)果。
1.7.2數(shù)據(jù)采掘和數(shù)據(jù)倉(cāng)儲(chǔ)的關(guān)系
數(shù)據(jù)采掘庫(kù)是數(shù)據(jù)倉(cāng)儲(chǔ)的一個(gè)邏輯上的子集,而不一定是實(shí)體上單獨(dú)的數(shù)據(jù)庫(kù)。
數(shù)據(jù)采掘是一個(gè)相對(duì)獨(dú)立的系統(tǒng),可以獨(dú)立于數(shù)據(jù)倉(cāng)儲(chǔ)存在。數(shù)據(jù)倉(cāng)儲(chǔ)為數(shù)據(jù)采掘打下了良好的基礎(chǔ),包括數(shù)據(jù)萃取、數(shù)據(jù)凈化整理、數(shù)據(jù)一致性處理等。
1.8數(shù)據(jù)倉(cāng)儲(chǔ)導(dǎo)向的決策支持系統(tǒng)在線分析處理工具(OLAP)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 貸款服務(wù)合同
- 工廠用工勞動(dòng)合同
- 個(gè)人勞動(dòng)合同
- 家用電器產(chǎn)品采購(gòu)合同書
- 互聯(lián)網(wǎng)食品配送管理合同
- 文化遺產(chǎn)數(shù)字化保護(hù)合同
- 公共停車場(chǎng)停車服務(wù)合同
- 泰州職業(yè)技術(shù)學(xué)院《公共部門會(huì)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 重慶師范大學(xué)《中學(xué)語(yǔ)文課件設(shè)計(jì)與制作》2023-2024學(xué)年第二學(xué)期期末試卷
- 中山職業(yè)技術(shù)學(xué)院《機(jī)器人操作系統(tǒng)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年度養(yǎng)老服務(wù)機(jī)構(gòu)場(chǎng)地租賃合同及養(yǎng)老服務(wù)協(xié)議
- 貴州省情知識(shí)考試題庫(kù)500題(含答案)
- 大學(xué)生家長(zhǎng)陪讀承諾書
- 安全生產(chǎn)事故調(diào)查與案例分析(第3版)課件 呂淑然 第5章 事故案例評(píng)析
- 2023版交安A、B、C證考試題庫(kù)含答案
- 樓梯 欄桿 欄板(一)22J403-1
- 勞動(dòng)法培訓(xùn)課件
- 2024-2025學(xué)年成都市成華區(qū)七年級(jí)上英語(yǔ)期末考試題(含答案)
- 2025年山西杏花村汾酒集團(tuán)限責(zé)任公司人才招聘71名高頻重點(diǎn)提升(共500題)附帶答案詳解
- 主題活動(dòng)一《我調(diào)查》(教學(xué)實(shí)錄)-2023-2024學(xué)年二年級(jí)下冊(cè)綜合實(shí)踐活動(dòng)內(nèi)蒙古版
- 2024-2025年粵教花城版七年級(jí)音樂(lè)上冊(cè)全冊(cè)教學(xué)設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論