數(shù)據(jù)倉(cāng)庫(kù)技術(shù)簡(jiǎn)介_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)簡(jiǎn)介_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)簡(jiǎn)介_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)簡(jiǎn)介_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)簡(jiǎn)介_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余11頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)技術(shù)簡(jiǎn)介數(shù)據(jù)倉(cāng)庫(kù)技術(shù)簡(jiǎn)介數(shù)據(jù)倉(cāng)庫(kù)技術(shù)簡(jiǎn)介xxx公司數(shù)據(jù)倉(cāng)庫(kù)技術(shù)簡(jiǎn)介文件編號(hào):文件日期:修訂次數(shù):第1.0次更改批準(zhǔn)審核制定方案設(shè)計(jì),管理制度數(shù)據(jù)倉(cāng)庫(kù)技術(shù)概述數(shù)據(jù)倉(cāng)庫(kù)技術(shù)隨著數(shù)據(jù)庫(kù)技術(shù)的日趨成熟以及應(yīng)用系統(tǒng)逐漸完善,無(wú)論是利用早期的RDB、Dbase,還是后來(lái)以其領(lǐng)先的核心技術(shù)日漸壟斷關(guān)系數(shù)據(jù)庫(kù)市場(chǎng)的Oracle、Sysbase、DB2,企業(yè)已經(jīng)積累了大量的數(shù)據(jù),這些數(shù)據(jù)信息為企業(yè)的發(fā)展提供了客觀依據(jù)。毫無(wú)疑問(wèn),在競(jìng)爭(zhēng)激烈的商業(yè)環(huán)境下,信息將是取勝的關(guān)鍵因素,決策者必須能快速可靠、隨時(shí)自主地訪問(wèn)企業(yè)數(shù)據(jù),才能有效地做出計(jì)劃和決策。在這種需求牽引下,形成了數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)的新概念、新技術(shù)。1數(shù)據(jù)倉(cāng)庫(kù)的概念數(shù)據(jù)倉(cāng)庫(kù)的提出是以關(guān)系數(shù)據(jù)庫(kù)、并行處理和分布式技術(shù)的飛速發(fā)展為基礎(chǔ),是解決信息技術(shù)(IT)在發(fā)展中存在的擁有大量數(shù)據(jù),而其中有用信息貧乏的綜合解決方案。數(shù)據(jù)倉(cāng)庫(kù)是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是對(duì)企業(yè)內(nèi)部各部門業(yè)務(wù)數(shù)據(jù)進(jìn)行統(tǒng)一和綜合的中央數(shù)據(jù)倉(cāng)庫(kù)。它為企業(yè)決策支持系統(tǒng)(DSS)和經(jīng)理信息系統(tǒng)(EIS)提供所需的信息。它是一種信息管理技術(shù),為預(yù)測(cè)利潤(rùn)、風(fēng)險(xiǎn)分析、市場(chǎng)分析以及加強(qiáng)客戶服務(wù)與營(yíng)銷活動(dòng)等管理決策提供支持的新技術(shù)。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)對(duì)大量分散、獨(dú)立的數(shù)據(jù)庫(kù)經(jīng)過(guò)規(guī)劃、平衡、協(xié)調(diào)和編輯后,向管理決策者提供輔助決策信息,發(fā)揮大量數(shù)據(jù)的作用和價(jià)值。概括地說(shuō),數(shù)據(jù)倉(cāng)庫(kù)是面向主題的(Subject-Oriented)、集成的(Integrated)、穩(wěn)定的(Nonvolatile)、不同時(shí)間的(Timer-Variant)數(shù)據(jù)集合,用于支持經(jīng)營(yíng)管理中決策制訂過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)面向主題,與傳統(tǒng)數(shù)據(jù)庫(kù)面向應(yīng)用相對(duì)應(yīng)。主題是一個(gè)在較高層次上將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域:數(shù)據(jù)倉(cāng)庫(kù)的集成特性是指在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必須經(jīng)過(guò)數(shù)據(jù)加工和集成,這是建立數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵步驟,首先要統(tǒng)一原始數(shù)據(jù)中的矛盾之處,還要將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用向面向主題的轉(zhuǎn)變;數(shù)據(jù)倉(cāng)庫(kù)的穩(wěn)定性是指數(shù)據(jù)倉(cāng)庫(kù)反映的是歷史數(shù)據(jù)的內(nèi)容,而不是日常事務(wù)處理產(chǎn)生的數(shù)據(jù),數(shù)據(jù)經(jīng)加工和集成進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)后是極少或根本不修改的;數(shù)據(jù)倉(cāng)庫(kù)是不同時(shí)間的數(shù)據(jù)集合,它要求數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)保存時(shí)限能滿足進(jìn)行決策分析的需要,而且數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)都要標(biāo)明該數(shù)據(jù)的歷史時(shí)期。

數(shù)據(jù)倉(cāng)庫(kù)最根本的特點(diǎn)是物理地存放數(shù)據(jù),而且這些數(shù)據(jù)并不是最新的、專有的,而是來(lái)源于其它數(shù)據(jù)庫(kù)的。數(shù)據(jù)倉(cāng)庫(kù)的建立并不是要取代數(shù)據(jù)庫(kù),它要建立在一個(gè)較全面和完善的信息應(yīng)用的基礎(chǔ)上,用于支持高層決策分析,而事務(wù)處理數(shù)據(jù)庫(kù)在企業(yè)的信息環(huán)境中承擔(dān)的是日常操作性的任務(wù)。數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一種新的應(yīng)用,而且到目前為止,數(shù)據(jù)倉(cāng)庫(kù)還是用關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)管理其中的數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)庫(kù)用于事務(wù)處理,也稱為操作型處理,是指對(duì)數(shù)據(jù)庫(kù)聯(lián)機(jī)進(jìn)行日常操作,即對(duì)一個(gè)或一組記錄的查詢和修改,主要面向企業(yè)特定的應(yīng)用服務(wù)。用戶關(guān)心的是響應(yīng)時(shí)間、數(shù)據(jù)的安全性和完整性。數(shù)據(jù)倉(cāng)庫(kù)用于決策支持,也稱分析型處理,它是解決決策支持系統(tǒng)的基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)概念模型是數(shù)據(jù)的多維視圖,它直接影響到前端工具、數(shù)據(jù)庫(kù)的設(shè)計(jì)和聯(lián)機(jī)分析處理(OnLineAnalyticalProcessing,OLAP)的查詢引擎。在多維數(shù)據(jù)模型中,一部分?jǐn)?shù)據(jù)是數(shù)字測(cè)量值,而這些數(shù)字測(cè)量值是依賴于一組維的,這些維提供了測(cè)量值的上下文關(guān)系。因此,多維數(shù)據(jù)視圖就是這樣一些由層次的維構(gòu)成的多維空間中,存放著數(shù)字測(cè)量值。多維概念模型的另一個(gè)特點(diǎn)是對(duì)一個(gè)或多個(gè)維所做的集合運(yùn)算。這些運(yùn)算可以包括對(duì)于同樣維所限定的測(cè)量值的比較。一般來(lái)說(shuō),時(shí)間維是一個(gè)有特殊意義的維,對(duì)決策中的趨勢(shì)分析很重要。針對(duì)多維模型產(chǎn)生了OLAP分析方法,包括以下三種:旋轉(zhuǎn):即將表格的橫、縱坐標(biāo)交換(x、y)→(y、x).上鉆和下鉆:對(duì)所關(guān)心的數(shù)據(jù)根據(jù)維的層次提升或降低觀察的層次。切片和切塊:主要根據(jù)維的限定做投影、選擇等數(shù)據(jù)庫(kù)操作獲得數(shù)據(jù)。2數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織一個(gè)典型的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)如圖所示:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)分為四個(gè)級(jí)別:早期細(xì)節(jié)級(jí)、當(dāng)前細(xì)節(jié)級(jí)、輕度綜合級(jí)、高度綜合級(jí)。源數(shù)據(jù)經(jīng)過(guò)綜合后,首先進(jìn)入當(dāng)前細(xì)節(jié)級(jí),并根據(jù)具體需要進(jìn)行進(jìn)一步的綜合,從而進(jìn)入輕度綜合級(jí)乃至高度綜合級(jí),老化的數(shù)據(jù)將進(jìn)入早期細(xì)節(jié)級(jí)由此可見,數(shù)據(jù)倉(cāng)庫(kù)中存在著不同的綜合級(jí)別,一般稱之為"粒度"。粒度越大,表示細(xì)節(jié)程度越低,綜合程度越高。圖1DW數(shù)據(jù)組織結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)中還有一種重要的數(shù)據(jù)--元數(shù)據(jù)(metadata)。元數(shù)據(jù)是"關(guān)于數(shù)據(jù)的數(shù)據(jù)",在數(shù)據(jù)庫(kù)中,元數(shù)據(jù)是對(duì)數(shù)據(jù)庫(kù)中各個(gè)對(duì)象的描述;在關(guān)系數(shù)據(jù)庫(kù)中,這種描述就是對(duì)表、列、數(shù)據(jù)庫(kù)、視圖和其他對(duì)象的定義。從廣義上講,數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)代表定義數(shù)據(jù)倉(cāng)庫(kù)對(duì)象的任何東西,無(wú)論是一個(gè)表、一個(gè)列、一個(gè)查詢、一個(gè)商業(yè)規(guī)則,還是數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部的數(shù)據(jù)轉(zhuǎn)移。元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)中所有管理、操作數(shù)據(jù)的數(shù)據(jù),是數(shù)據(jù)倉(cāng)庫(kù)的核心。數(shù)據(jù)倉(cāng)庫(kù)反映的是企業(yè)數(shù)據(jù)庫(kù)的業(yè)務(wù)模型,其核心是管理元數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)被分成三類:管理元數(shù)據(jù)。它包括所有建立和使用數(shù)據(jù)倉(cāng)庫(kù)的信息,源數(shù)據(jù)庫(kù)的描述,后端和前端工具選擇,定義數(shù)據(jù)倉(cāng)庫(kù)的模式,綜合數(shù)據(jù)、維和層次信息,預(yù)定義的查詢和報(bào)表,數(shù)據(jù)集市的位置和內(nèi)容,數(shù)據(jù)存儲(chǔ)的物理組織、分段,數(shù)據(jù)抽取、清洗、轉(zhuǎn)換的規(guī)則,數(shù)據(jù)刷新的策略,數(shù)據(jù)存取的權(quán)限、用戶等限定。業(yè)務(wù)元數(shù)據(jù)。這一部分有業(yè)務(wù)流程和定義,數(shù)據(jù)所有關(guān)系和存取控制策略。操作元數(shù)據(jù)。它是數(shù)據(jù)倉(cāng)庫(kù)在運(yùn)行時(shí)的管理信息,記錄數(shù)據(jù)在進(jìn)行層次分析時(shí)的層次位置、現(xiàn)在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)信息、監(jiān)測(cè)信息(包括使用統(tǒng)計(jì)、錯(cuò)誤報(bào)告等)。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織方式共有三種:虛擬存儲(chǔ)方式、基于關(guān)系表的存儲(chǔ)和多維數(shù)據(jù)庫(kù)存儲(chǔ)方式。虛擬存儲(chǔ)方式是虛擬數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式。沒(méi)有專門的數(shù)據(jù)倉(cāng)庫(kù)來(lái)存儲(chǔ)數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)仍然在源數(shù)據(jù)庫(kù)中,只是通過(guò)語(yǔ)義層工具根據(jù)用戶的多維需求,完成多維分析的功能。這種方式組織比較簡(jiǎn)單,花費(fèi)少,用戶使用靈活。但同時(shí)這種方式也存在一個(gè)致命的缺點(diǎn):當(dāng)源數(shù)據(jù)庫(kù)的數(shù)據(jù)組織比較規(guī)范,沒(méi)有數(shù)據(jù)不完備、冗余,又比較接近于多維數(shù)據(jù)模型時(shí),虛擬數(shù)據(jù)倉(cāng)庫(kù)的多維語(yǔ)義層就容易定義。而一般數(shù)據(jù)庫(kù)的組織關(guān)系都比較復(fù)雜,數(shù)據(jù)庫(kù)中的數(shù)據(jù)又有許多冗余和沖突的地方。在實(shí)際組織中,這種方式很難建立起為決策服務(wù)的有效數(shù)據(jù)支持。關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)的組織是將數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)的表結(jié)構(gòu)中,在元數(shù)據(jù)的管理下,完成數(shù)據(jù)倉(cāng)庫(kù)的功能。這種組織方式在建庫(kù)時(shí),有兩個(gè)主要過(guò)程完成數(shù)據(jù)的抽取。首先要提供一種圖形化的點(diǎn)擊操作界面,讓分析員對(duì)源數(shù)據(jù)庫(kù)的內(nèi)容進(jìn)行選擇,定義多維數(shù)據(jù)模型。然后再編制程序把數(shù)據(jù)庫(kù)中的數(shù)據(jù)抽取數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)中。多維數(shù)據(jù)庫(kù)的組織是直接面向OLAP分析操作的數(shù)據(jù)組織形式。這種數(shù)據(jù)庫(kù)產(chǎn)品也比較多,實(shí)現(xiàn)方法不盡相同。其數(shù)據(jù)組織采用多維數(shù)據(jù)結(jié)構(gòu)文件存儲(chǔ)數(shù)據(jù),相應(yīng)有維索引及相應(yīng)的元數(shù)據(jù)管理文件與數(shù)據(jù)相對(duì)應(yīng)。1)、維表多維概念模型可以被多維數(shù)據(jù)庫(kù)直接實(shí)現(xiàn),然而,對(duì)于采用關(guān)系型OLAP方式,則只能將多維概念模型和多維操作映射到關(guān)系和SQL查詢上。大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)都采用星型模型來(lái)表示多維概念模型。數(shù)據(jù)庫(kù)中包括一張事實(shí)表(FactTable),另外對(duì)于每一維都有一張維表(DimensionalTable)。事實(shí)表中的每條元組都包括保證多維關(guān)系的指向各個(gè)維表的外鍵和一些相應(yīng)的測(cè)量數(shù)據(jù)。維表中記錄的是有關(guān)這一維的屬性。星型模型使OLAP的復(fù)雜查詢可以直接通過(guò)各維的層次,執(zhí)行比較、上鉆、下鉆等操作。在數(shù)據(jù)倉(cāng)庫(kù)中除了維表和事實(shí)表的數(shù)據(jù)之外,數(shù)據(jù)倉(cāng)庫(kù)中應(yīng)當(dāng)包含一些預(yù)處理過(guò)的綜合數(shù)據(jù)。預(yù)綜合數(shù)據(jù)的組織可以有兩種形式:增加概括表方式和使用多重編碼的方式。這種數(shù)據(jù)組織方式存在數(shù)據(jù)冗余、多維操作速度慢的缺點(diǎn)。但這種數(shù)據(jù)組織方式是主流方案,大多數(shù)現(xiàn)存數(shù)據(jù)倉(cāng)庫(kù)集成方案都采用這種形式。2)、多維數(shù)據(jù)庫(kù)數(shù)據(jù)組織各公司多維數(shù)據(jù)庫(kù)產(chǎn)品的數(shù)據(jù)組織不完全相同,Arob公司的EESbase多維數(shù)據(jù)庫(kù)是一種具有代表性的產(chǎn)品。例如下面的這種組織方式,可以說(shuō)明多維數(shù)據(jù)庫(kù)的數(shù)據(jù)組織:用于分析的數(shù)據(jù)從關(guān)系數(shù)據(jù)庫(kù)或關(guān)系數(shù)據(jù)倉(cāng)庫(kù)中抽取出來(lái),被存放到多維數(shù)據(jù)庫(kù)的超立方結(jié)構(gòu)中—多維體。這各種多維體是以多維數(shù)組方式記錄各數(shù)值測(cè)量值的具體值。相應(yīng)各維有一定的記錄維及維內(nèi)層次的元數(shù)據(jù)結(jié)構(gòu)。這種數(shù)據(jù)組織方式消除了大量數(shù)據(jù)庫(kù)表中的空穴造成的空間浪費(fèi),又沒(méi)有了在每個(gè)元組中在存儲(chǔ)的外鍵信息,而由統(tǒng)一的維與數(shù)組的對(duì)應(yīng)系數(shù)來(lái)限定數(shù)據(jù),大大減少了存儲(chǔ)空間。當(dāng)使用多維數(shù)據(jù)庫(kù)作為數(shù)據(jù)倉(cāng)庫(kù)的基本數(shù)據(jù)存儲(chǔ)形式時(shí),最主要的缺點(diǎn)是使以維為基本框架的存儲(chǔ)空間大大減少,針對(duì)多維數(shù)據(jù)組織的操作算法,大大提高了多維分析操作的效率。但多維數(shù)據(jù)庫(kù)產(chǎn)品還沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),應(yīng)用還較少。3)、兩種數(shù)據(jù)組織的等價(jià)性關(guān)系數(shù)據(jù)庫(kù)和多維數(shù)據(jù)庫(kù)兩種數(shù)據(jù)組織方法可以構(gòu)成等價(jià)的多維數(shù)據(jù)模型。多種數(shù)據(jù)組織方法的等價(jià)性的數(shù)學(xué)依據(jù)是:多維空間中各點(diǎn)在離散坐標(biāo)中一一對(duì)應(yīng)于多維數(shù)組。數(shù)據(jù)的存儲(chǔ)同樣是有層次性的。對(duì)一個(gè)系統(tǒng)的多維視圖定義是存儲(chǔ)方式的概念形式,是最高層次的模型。采用什么樣的存儲(chǔ)方式(即前面提到了關(guān)系數(shù)據(jù)庫(kù)、多維數(shù)據(jù)庫(kù)兩種形式)是物理數(shù)據(jù)組織的最高層,它們都能實(shí)現(xiàn)對(duì)多維數(shù)據(jù)模型的存儲(chǔ)。關(guān)系型數(shù)據(jù)庫(kù)的組織形式和方式不盡相同。數(shù)據(jù)的具體物理存儲(chǔ)(如數(shù)據(jù)文件的結(jié)構(gòu)、索引、編碼等技術(shù)的采用)是物理存儲(chǔ)的最底層技術(shù)和方法。對(duì)于數(shù)據(jù)文件的不同組織方法形成關(guān)系型數(shù)據(jù)庫(kù)或多維數(shù)據(jù)庫(kù),這兩種數(shù)據(jù)庫(kù)又都能完成數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織,即實(shí)現(xiàn)多維數(shù)據(jù)的存儲(chǔ)。4)、虛擬數(shù)據(jù)倉(cāng)庫(kù)虛擬數(shù)據(jù)倉(cāng)庫(kù)(VirtualDataWarehouse),即構(gòu)造一個(gè)透明的訪問(wèn)機(jī)制(DemandDriven),使用戶以習(xí)慣的方式及時(shí)、直接地訪問(wèn)大型企業(yè)數(shù)據(jù)庫(kù)。虛擬數(shù)據(jù)倉(cāng)庫(kù)策略允許用戶使用一些工具通過(guò)網(wǎng)絡(luò)獲取數(shù)據(jù)。因此這種方法最終會(huì)使提取和維護(hù)大量數(shù)據(jù)的開銷最小。這種方法為用戶提供了最多的非預(yù)先準(zhǔn)備好的查詢可能。虛擬數(shù)據(jù)倉(cāng)庫(kù)是在應(yīng)用層上進(jìn)行研究的,其組織形式是用原有的關(guān)系表模擬多維數(shù)據(jù)。用戶通過(guò)可視化的維定義工具,定義數(shù)據(jù)倉(cāng)庫(kù)中的各維,但在物理存儲(chǔ)上并不實(shí)際進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的組織,而只是在用戶進(jìn)行數(shù)據(jù)查詢使用時(shí),臨時(shí)從網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)中獲取數(shù)據(jù)源定義的各維數(shù)據(jù)。由于采用虛擬的方式,無(wú)需建立大量的數(shù)據(jù)存儲(chǔ),虛擬的數(shù)據(jù)訪問(wèn)方式著眼于最終用戶對(duì)數(shù)據(jù)的直接訪問(wèn),其特點(diǎn)在于用戶可以直接訪問(wèn)數(shù)據(jù)而無(wú)需做大量的分析和結(jié)構(gòu)映射。3數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)是在原有關(guān)系數(shù)據(jù)庫(kù)基礎(chǔ)上發(fā)展形成的,但不同于數(shù)據(jù)庫(kù)系統(tǒng)的組織結(jié)構(gòu)形式,它從原有的業(yè)務(wù)數(shù)據(jù)庫(kù)中獲得的基本數(shù)據(jù)和綜合數(shù)據(jù)被分成一些不同的層次。一般數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)組成包括當(dāng)前基本數(shù)據(jù)、歷史基本數(shù)據(jù)、輕度綜合數(shù)據(jù)、高度綜合數(shù)據(jù)、元數(shù)據(jù)。當(dāng)前基本數(shù)據(jù)是最近時(shí)期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉(cāng)庫(kù)用戶最感興趣的部分,數(shù)據(jù)量大。當(dāng)前基本數(shù)據(jù)隨時(shí)間的推移,由數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間控制機(jī)制轉(zhuǎn)為歷史基本數(shù)據(jù),一般被轉(zhuǎn)存于一些轉(zhuǎn)換介質(zhì)中,如磁帶等。輕度綜合數(shù)據(jù)是從當(dāng)前基本數(shù)據(jù)中提取出來(lái)的,設(shè)計(jì)這層數(shù)據(jù)結(jié)構(gòu)時(shí)會(huì)遇到“綜合處理數(shù)據(jù)的時(shí)間段選取”、“綜合數(shù)據(jù)包含哪些數(shù)據(jù)屬性”和“內(nèi)容”等問(wèn)題。最高一層的數(shù)據(jù)十分精練,是一種準(zhǔn)決策數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一個(gè)廣義概念。整個(gè)系統(tǒng)包括從操作數(shù)據(jù)庫(kù)和外部其他數(shù)據(jù)源的提取、轉(zhuǎn)換工具、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)部分(主要指構(gòu)成數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng))、基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析工具以及與以上各部分相關(guān)的管理綜合部件,構(gòu)成了整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)所要完成的功能包括輔助用戶設(shè)計(jì)建立數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)組織和存儲(chǔ);管理、維護(hù)數(shù)據(jù)倉(cāng)庫(kù)的正常工作,即完成數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器的管理,接受用戶查詢數(shù)據(jù)的請(qǐng)求,使數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)與操作數(shù)據(jù)庫(kù)中的數(shù)據(jù)保持有效同步等工作;綜合集成多種分析工具(包括數(shù)學(xué)統(tǒng)計(jì)分析工具、OLAP多維分析工具、數(shù)據(jù)開采工具),完成用戶根據(jù)決策需求對(duì)數(shù)據(jù)倉(cāng)庫(kù)的有效使用。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的總體結(jié)構(gòu)如圖所示:圖2數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的總體結(jié)構(gòu)從圖中可以看出數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)包括以下內(nèi)容:數(shù)據(jù)抽取和轉(zhuǎn)換工具,它們可以完成對(duì)數(shù)據(jù)源的抽取、清洗、維護(hù)等功能。數(shù)據(jù)建模工具,用于建立數(shù)據(jù)倉(cāng)庫(kù)與源數(shù)據(jù)庫(kù)間的概念模型。模型、元數(shù)據(jù)。能夠支持高速存取、有效地支持多維數(shù)據(jù)模型的前端工具。這樣,整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的組織大致分為三個(gè)部分:數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)體之前,包括源數(shù)據(jù)庫(kù)、外部數(shù)據(jù)文件的清洗、變換、裝載和刷新的工具,這是第一部分。第二部分是數(shù)據(jù)倉(cāng)庫(kù)的具體數(shù)據(jù)、元數(shù)據(jù)的存儲(chǔ)和數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器(包括數(shù)據(jù)庫(kù)服務(wù)器和OLAP服務(wù)器)。第三部分是基于數(shù)據(jù)倉(cāng)庫(kù)的查詢工具,主要包括數(shù)學(xué)統(tǒng)計(jì)分析、OLAP查詢和數(shù)據(jù)開采三類工具。數(shù)據(jù)倉(cāng)庫(kù)的建立首先是根據(jù)數(shù)據(jù)庫(kù)(包括關(guān)系數(shù)據(jù)庫(kù)和其他數(shù)據(jù)源)使用多維視圖定義工具完成數(shù)據(jù)模型的設(shè)計(jì),再通過(guò)“抽取”工具將數(shù)據(jù)庫(kù)中原始數(shù)據(jù)轉(zhuǎn)入數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)結(jié)構(gòu)(有關(guān)數(shù)據(jù)庫(kù)和多維數(shù)據(jù)庫(kù)兩種存儲(chǔ)形式)中。這部分要完成清洗、變換和集成數(shù)據(jù),將數(shù)據(jù)裝載到數(shù)據(jù)倉(cāng)庫(kù)中,定期清理數(shù)據(jù)倉(cāng)庫(kù),消除數(shù)據(jù)倉(cāng)庫(kù)與源數(shù)據(jù)庫(kù)的不一致,清除失效數(shù)據(jù)等。在數(shù)據(jù)初次提取和以后數(shù)據(jù)同步時(shí),需要花費(fèi)的時(shí)間開銷大,需要留出充裕的時(shí)間。而且,這一部分的程序可能是數(shù)據(jù)倉(cāng)庫(kù)中最難管理的,并且有可能是各類軟件組成的集成體。數(shù)據(jù)倉(cāng)庫(kù)中另一個(gè)比較重要的部分是元數(shù)據(jù)管理部件。數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的存儲(chǔ)和管理由多維數(shù)據(jù)視圖來(lái)表現(xiàn),是元數(shù)據(jù)的最主要部分。元數(shù)據(jù)存儲(chǔ)有數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)信息,相應(yīng)也有一些工具程序完成對(duì)多維視圖的定義,元數(shù)據(jù)的管理、存儲(chǔ),對(duì)整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的檢測(cè)和管理。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是為決策支持服務(wù)的,在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)建立以后,用戶可以使用系統(tǒng)提供的多分析工具完成對(duì)數(shù)據(jù)的操作,獲取個(gè)人需要的信息。4數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵技術(shù)與關(guān)系數(shù)據(jù)庫(kù)不同,數(shù)據(jù)倉(cāng)庫(kù)并沒(méi)有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),它更偏向于工程。由于數(shù)據(jù)倉(cāng)庫(kù)的這種工程性,因而在技術(shù)上可以根據(jù)它的工作過(guò)程分為:數(shù)據(jù)的抽取、存儲(chǔ)和管理、數(shù)據(jù)的表現(xiàn)以及數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的技術(shù)咨詢四個(gè)方面。數(shù)據(jù)的抽取數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過(guò)抽取過(guò)程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)并不要求與聯(lián)機(jī)事務(wù)處理系統(tǒng)保持實(shí)時(shí)的同步,因此數(shù)據(jù)抽取可以定時(shí)進(jìn)行,但多個(gè)抽取操作執(zhí)行的時(shí)間、相互的順序、成敗對(duì)數(shù)據(jù)倉(cāng)庫(kù)中信息的有效性則至關(guān)重要。在技術(shù)發(fā)展上,數(shù)據(jù)抽取所涉及的單個(gè)技術(shù)環(huán)節(jié)都已相對(duì)成熟,其中有一些是躲不開編程的,但整體的集成度還很不夠。目前市場(chǎng)上所提供的大多是數(shù)據(jù)抽取工具。這些工具通過(guò)用戶選定源數(shù)據(jù)和目標(biāo)數(shù)據(jù)的對(duì)應(yīng)關(guān)系,會(huì)自動(dòng)生成數(shù)據(jù)抽取的代碼。但數(shù)據(jù)抽取工具支持的數(shù)據(jù)種類是有限的;同時(shí)數(shù)據(jù)抽取過(guò)程涉及數(shù)據(jù)的轉(zhuǎn)換,它是一個(gè)與實(shí)際應(yīng)用密切相關(guān)的部分,其復(fù)雜性使得不可嵌入用戶編程的抽取工具往往不能滿足要求。因此,實(shí)際的數(shù)據(jù)倉(cāng)庫(kù)實(shí)施過(guò)程中往往不一定使用抽取工具。整個(gè)抽取過(guò)程能否因工具的使用而納入有效的管理、調(diào)度和維護(hù)則更為重要。從市場(chǎng)發(fā)展來(lái)看,以數(shù)據(jù)抽取、異構(gòu)互連產(chǎn)品為主項(xiàng)的數(shù)據(jù)倉(cāng)庫(kù)廠商一般都很有可能被其它擁有數(shù)據(jù)庫(kù)產(chǎn)品的公司吞并。在數(shù)據(jù)倉(cāng)庫(kù)的世界里,它們只能成為輔助的角色。2)、數(shù)據(jù)的存儲(chǔ)和管理數(shù)據(jù)倉(cāng)庫(kù)的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性,同時(shí)也決定了其對(duì)外部數(shù)據(jù)表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來(lái)建立數(shù)據(jù)倉(cāng)庫(kù)核心,則需要從數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)特點(diǎn)著手分析數(shù)據(jù)倉(cāng)庫(kù)遇到的第一個(gè)問(wèn)題是對(duì)大量數(shù)據(jù)的存儲(chǔ)和管理。這里所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時(shí)間的推移而累積。從現(xiàn)有技術(shù)和產(chǎn)品來(lái)看,只有關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)能夠擔(dān)當(dāng)此任。關(guān)系數(shù)據(jù)庫(kù)經(jīng)過(guò)近30年的發(fā)展,在數(shù)據(jù)存儲(chǔ)和管理方面已經(jīng)非常成熟,非其它數(shù)據(jù)管理系統(tǒng)可比。目前不少關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)已支持?jǐn)?shù)據(jù)分割技術(shù),能夠?qū)⒁粋€(gè)大的數(shù)據(jù)庫(kù)表分散在多個(gè)物理存儲(chǔ)設(shè)備中,進(jìn)一步增強(qiáng)了系統(tǒng)管理大數(shù)據(jù)量的擴(kuò)展能力。采用關(guān)系數(shù)據(jù)庫(kù)管理數(shù)百個(gè)GB甚至到TB的數(shù)據(jù)已是一件平常的事情。一些廠商還專門考慮大數(shù)據(jù)量的系統(tǒng)備份問(wèn)題,好在數(shù)據(jù)倉(cāng)庫(kù)對(duì)聯(lián)機(jī)備份的要求并不高。

數(shù)據(jù)倉(cāng)庫(kù)要解決的第二個(gè)問(wèn)題是并行處理。在傳統(tǒng)聯(lián)機(jī)事務(wù)處理應(yīng)用中,用戶訪問(wèn)系統(tǒng)的特點(diǎn)是短小而密集;對(duì)于一個(gè)多處理機(jī)系統(tǒng)來(lái)說(shuō),能夠?qū)⒂脩舻恼?qǐng)求進(jìn)行均衡分擔(dān)是關(guān)鍵,這便是并發(fā)操作。而在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,用戶訪問(wèn)系統(tǒng)的特點(diǎn)是龐大而稀疏,每一個(gè)查詢和統(tǒng)計(jì)都很復(fù)雜,但訪問(wèn)的頻率并不是很高。此時(shí)系統(tǒng)需要有能力將所有的處理機(jī)調(diào)動(dòng)起來(lái)為這一個(gè)復(fù)雜的查詢請(qǐng)求服務(wù),將該請(qǐng)求并行處理。因此,并行處理技術(shù)在數(shù)據(jù)倉(cāng)庫(kù)中比以往更加重要。

在針對(duì)數(shù)據(jù)倉(cāng)庫(kù)的TPC-D基準(zhǔn)測(cè)試中,比以往增加了一個(gè)單用戶環(huán)境的測(cè)試,成為"系統(tǒng)功力"(QPPD)。系統(tǒng)的并行處理能力對(duì)QPPD的值有重要影響。目前,關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)在并行處理方面已能做到對(duì)查詢語(yǔ)句的分解并行、基于數(shù)據(jù)分割的并行、以及支持跨平臺(tái)多處理機(jī)的群集環(huán)境和MPP環(huán)境,能夠支持多達(dá)上百個(gè)處理機(jī)的硬件系統(tǒng)并保持性能的擴(kuò)展能力。

數(shù)據(jù)倉(cāng)庫(kù)的第三個(gè)問(wèn)題是針對(duì)決策支持查詢的優(yōu)化。這個(gè)問(wèn)題主要針對(duì)關(guān)系數(shù)據(jù)庫(kù)而言,因?yàn)槠渌鼣?shù)據(jù)管理環(huán)境連基本的通用查詢能力都還不完善。在技術(shù)上,針對(duì)決策支持的優(yōu)化涉及數(shù)據(jù)庫(kù)系統(tǒng)的索引機(jī)制、查詢優(yōu)化器、連接策略、數(shù)據(jù)排序和采樣等諸多部分。普通關(guān)系數(shù)據(jù)庫(kù)采用B樹類的索引,對(duì)于性別、年齡、地區(qū)等具有大量重復(fù)值的字段幾乎沒(méi)有效果。而擴(kuò)充的關(guān)系數(shù)據(jù)庫(kù)則引入了位圖索引的機(jī)制,以二進(jìn)制位表示字段的狀態(tài),將查詢過(guò)程變?yōu)楹Y選過(guò)程,單個(gè)計(jì)算機(jī)的基本操作便可篩選多條記錄。由于數(shù)據(jù)倉(cāng)庫(kù)中各數(shù)據(jù)表的數(shù)據(jù)量往往極不均勻,普通查詢優(yōu)化器所得出得最佳查詢路徑可能不是最優(yōu)的。因此,面向決策支持的關(guān)系數(shù)據(jù)庫(kù)在查詢優(yōu)化器上也作了改進(jìn),同時(shí)根據(jù)索引的使用特性增加了多重索引掃描的能力。以關(guān)系數(shù)據(jù)庫(kù)建立的數(shù)據(jù)倉(cāng)庫(kù)在應(yīng)用時(shí)會(huì)遇到大量的表間連接操作,而連接操作對(duì)于關(guān)系數(shù)據(jù)庫(kù)來(lái)說(shuō)是一件耗時(shí)的操作。擴(kuò)充的關(guān)系數(shù)據(jù)庫(kù)中對(duì)連接操作可以做預(yù)先的定義,我們稱之為連接索引,使得數(shù)據(jù)庫(kù)在執(zhí)行查詢時(shí)可直接獲取數(shù)據(jù)而不必實(shí)施具體的連接操作。數(shù)據(jù)倉(cāng)庫(kù)的查詢常常只需要數(shù)據(jù)庫(kù)中的部分記錄,如最大的前50家客戶,等等。普通關(guān)系數(shù)據(jù)庫(kù)沒(méi)有提供這樣的查詢能力,只好將整個(gè)表的記錄進(jìn)行排序,從而耗費(fèi)了大量的時(shí)間。決策支持的關(guān)系數(shù)據(jù)庫(kù)在此做了改進(jìn),提供了這一功能。此外,數(shù)據(jù)倉(cāng)庫(kù)的查詢并不需要像事務(wù)處理系統(tǒng)那樣精確,但在大容量數(shù)據(jù)環(huán)境中需要有足夠短的系統(tǒng)響應(yīng)時(shí)間。因此,一些數(shù)據(jù)庫(kù)系統(tǒng)增加了采樣數(shù)據(jù)的查詢能力,在精確度允許的范圍內(nèi),大幅度提高系統(tǒng)查詢效率??傊?,將普通關(guān)系數(shù)據(jù)庫(kù)改造成適合擔(dān)當(dāng)數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)器有許多工作可以做,它已成為關(guān)系數(shù)據(jù)庫(kù)技術(shù)的一個(gè)重要研究課題和發(fā)展方向??梢姡瑢?duì)于決策支持的擴(kuò)充是傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)市場(chǎng)的重要技術(shù)措施。數(shù)據(jù)倉(cāng)庫(kù)的第四個(gè)問(wèn)題是支持多維分析的查詢模式,這也是關(guān)系數(shù)據(jù)庫(kù)在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域遇到的最嚴(yán)峻的挑戰(zhàn)之一。用戶在使用數(shù)據(jù)倉(cāng)庫(kù)時(shí)的訪問(wèn)方式與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)有很大的不同。對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的訪問(wèn)往往不是簡(jiǎn)單的表和記錄的查詢,而是基于用戶業(yè)務(wù)的分析模式,即聯(lián)機(jī)分析。如圖所示,它的特點(diǎn)是將數(shù)據(jù)想象成多維的立方體,用戶的查詢便相當(dāng)于在其中的部分維(棱)上施加條件,對(duì)立方體進(jìn)行切片、分割,得到的結(jié)果則是數(shù)值的矩陣或向量,并將其制成圖表或輸入數(shù)理統(tǒng)計(jì)的算法。圖3聯(lián)機(jī)分析數(shù)據(jù)處理示意圖關(guān)系數(shù)據(jù)庫(kù)本身沒(méi)有提供這種多維分析的查詢功能,而且在數(shù)據(jù)倉(cāng)庫(kù)發(fā)展的早期,人們發(fā)現(xiàn)采用關(guān)系數(shù)據(jù)庫(kù)去實(shí)現(xiàn)這種多維查詢模式非常低效、查詢處理的過(guò)程也難以自動(dòng)化。為此,人們提出了多維數(shù)據(jù)庫(kù)的概念。多維數(shù)據(jù)庫(kù)是一種以多維數(shù)據(jù)存儲(chǔ)形式來(lái)組織數(shù)據(jù)的數(shù)據(jù)管理系統(tǒng),它不是關(guān)系型數(shù)據(jù)庫(kù),在使用時(shí)需要將數(shù)據(jù)從關(guān)系數(shù)據(jù)庫(kù)中轉(zhuǎn)載到多維數(shù)據(jù)庫(kù)中方可訪問(wèn)。采用多維數(shù)據(jù)庫(kù)實(shí)現(xiàn)的聯(lián)機(jī)分析應(yīng)用我們稱之為MOLAP。多維數(shù)據(jù)庫(kù)在針對(duì)小型的多維分析應(yīng)用有較好的效果,但它缺少關(guān)系數(shù)據(jù)庫(kù)所擁有的并行處理及大規(guī)模數(shù)據(jù)管理擴(kuò)展性,因此難以承擔(dān)大型數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用。這種狀態(tài)由"星型模式"在關(guān)系數(shù)據(jù)庫(kù)設(shè)計(jì)中得到廣泛的應(yīng)用才徹底改變。幾年前,數(shù)據(jù)倉(cāng)庫(kù)專家們發(fā)現(xiàn),關(guān)系數(shù)據(jù)庫(kù)若采用"星型模式"來(lái)組織數(shù)據(jù)就能很好地解決多維分析的問(wèn)題。"星型模式"只不過(guò)是數(shù)據(jù)庫(kù)設(shè)計(jì)中數(shù)據(jù)表之間的一種關(guān)聯(lián)形式,它的巧妙之處在于能夠找到一個(gè)固定的算法,將用戶的多維查詢請(qǐng)求轉(zhuǎn)換成針對(duì)該數(shù)據(jù)模式的標(biāo)準(zhǔn)SQL語(yǔ)句,而且該語(yǔ)句是最優(yōu)化的。"星型模式"的應(yīng)用為關(guān)系數(shù)據(jù)庫(kù)在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域打開綠燈。采用關(guān)系數(shù)據(jù)庫(kù)實(shí)現(xiàn)的聯(lián)機(jī)分析應(yīng)用稱為ROLAP。目前,大多數(shù)廠商提供的數(shù)據(jù)倉(cāng)庫(kù)解決方案都采用ROLAP。在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)管理領(lǐng)域,從當(dāng)今的技術(shù)發(fā)展來(lái)看,面向決策支持?jǐn)U充的并行關(guān)系數(shù)據(jù)庫(kù)將是數(shù)據(jù)倉(cāng)庫(kù)的核心。在市場(chǎng)上,數(shù)據(jù)庫(kù)廠商將成為數(shù)據(jù)倉(cāng)庫(kù)的中堅(jiān)力量。3)、數(shù)據(jù)的表現(xiàn)數(shù)據(jù)表現(xiàn)是數(shù)據(jù)倉(cāng)庫(kù)的門面。這是一個(gè)工具廠商的天下。它們主要集中在多維分析、數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘方面。多維分析是數(shù)據(jù)倉(cāng)庫(kù)的重要表現(xiàn)形式,由于MOLAP系統(tǒng)是專用的,因此,關(guān)于多維分析領(lǐng)域的工具和產(chǎn)品大多是ROLAP工具。這些產(chǎn)品近兩年來(lái)更加注重提供基于Web的前端聯(lián)機(jī)分析界面,而不僅僅是網(wǎng)上數(shù)據(jù)的發(fā)布。數(shù)理統(tǒng)計(jì)原本與數(shù)據(jù)倉(cāng)庫(kù)沒(méi)有直接的聯(lián)系,但在實(shí)際的應(yīng)用中,客戶需要通過(guò)對(duì)數(shù)據(jù)的統(tǒng)計(jì)來(lái)驗(yàn)證他們對(duì)某些事物的假設(shè),以進(jìn)行決策。與數(shù)理統(tǒng)計(jì)相似,數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)也沒(méi)有直接的聯(lián)系。而且這個(gè)概念在現(xiàn)實(shí)中有些含混。數(shù)據(jù)挖掘強(qiáng)調(diào)的不僅僅是驗(yàn)證人們對(duì)數(shù)據(jù)特性的假設(shè),而且它更要主動(dòng)地尋找并發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)之中的規(guī)律。這聽起來(lái)雖然很吸引人,但在實(shí)現(xiàn)上卻有很大的出入。市場(chǎng)上許多數(shù)據(jù)挖掘工具其實(shí)不過(guò)是數(shù)理統(tǒng)計(jì)的應(yīng)用。它們并不是真正尋找出數(shù)據(jù)的規(guī)律,而是驗(yàn)證盡可能多的假設(shè),其中包括許多毫無(wú)意義的組合,最后由人來(lái)判斷其合理性。因此,在當(dāng)前的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中,有效

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論