基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)_第1頁
基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)_第2頁
基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)_第3頁
基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)_第4頁
基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)第一章

數(shù)據(jù)庫、數(shù)據(jù)庫管理系統(tǒng)與數(shù)據(jù)倉庫

第1章數(shù)據(jù)庫、數(shù)據(jù)庫管理系統(tǒng)與數(shù)據(jù)倉庫

1.1數(shù)據(jù)庫與數(shù)據(jù)庫技術(shù)1.1.1數(shù)據(jù)、數(shù)據(jù)庫與數(shù)據(jù)庫系統(tǒng)1.1.2數(shù)據(jù)庫系統(tǒng)的特點(diǎn)1.1.3數(shù)據(jù)庫技術(shù)新發(fā)展1.2數(shù)據(jù)倉庫1.2.1從傳統(tǒng)數(shù)據(jù)庫到數(shù)據(jù)倉庫1.2.2數(shù)據(jù)倉庫的基本特性1.3數(shù)據(jù)倉庫及其數(shù)據(jù)分析工具1.3.1聯(lián)機(jī)分析與數(shù)據(jù)挖掘1.3.2數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1.3.3數(shù)據(jù)倉庫未來發(fā)展方向

1.1數(shù)據(jù)庫與數(shù)據(jù)庫技術(shù)

數(shù)據(jù)庫是按一定組織方式存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器中的相互關(guān)聯(lián)的數(shù)據(jù)集合,數(shù)據(jù)庫的建立獨(dú)立于程序。數(shù)據(jù)庫管理系統(tǒng)是一個(gè)管理數(shù)據(jù)庫的軟件系統(tǒng),它為用戶提供了描述數(shù)據(jù)庫、操縱數(shù)據(jù)庫和維護(hù)數(shù)據(jù)庫的方法和命令,并且能自動(dòng)控制數(shù)據(jù)庫的安全以及數(shù)據(jù)完整。數(shù)據(jù)庫系統(tǒng)是在文件系統(tǒng)的基礎(chǔ)上發(fā)展起來的。數(shù)據(jù)庫系統(tǒng)是一個(gè)具有管理數(shù)據(jù)庫功能的計(jì)算機(jī)系統(tǒng),它包括應(yīng)用軟件、數(shù)據(jù)庫、數(shù)據(jù)庫管理系統(tǒng)和數(shù)據(jù)庫管理人員幾部分。數(shù)據(jù)、數(shù)據(jù)庫與數(shù)據(jù)庫系統(tǒng)

1.?dāng)?shù)據(jù)(Data)數(shù)據(jù)是信息系統(tǒng)的基本概念和計(jì)算機(jī)系統(tǒng)要處理的基本對(duì)象之一。嚴(yán)格地說,數(shù)據(jù)可定義為:數(shù)據(jù)是對(duì)客觀事物記錄下來的、可以鑒別的符號(hào)。數(shù)據(jù)是客觀事物的屬性、數(shù)量、位置及相互關(guān)系等等的抽象表示。2.?dāng)?shù)據(jù)庫(DataBase,DB)數(shù)據(jù)庫是自描述的,這個(gè)描述稱作數(shù)據(jù)字典(或數(shù)據(jù)目錄,或元數(shù)據(jù))。3.?dāng)?shù)據(jù)庫系統(tǒng)(DataBaseSystem,DBS)數(shù)據(jù)庫系統(tǒng)是指在計(jì)算機(jī)系統(tǒng)中引入數(shù)據(jù)庫后的系統(tǒng)。4.?dāng)?shù)據(jù)庫管理系統(tǒng)隨著計(jì)算機(jī)軟、硬件和相應(yīng)技術(shù)的發(fā)展,數(shù)據(jù)管理經(jīng)歷了人工管理、文件系統(tǒng)和數(shù)據(jù)庫系統(tǒng)3個(gè)階段。

1.1.2數(shù)據(jù)庫系統(tǒng)的特點(diǎn)1.數(shù)據(jù)的結(jié)構(gòu)化2.數(shù)據(jù)的共享性3.數(shù)據(jù)的獨(dú)立性4.數(shù)據(jù)統(tǒng)一由DBMS管理和控制(1)數(shù)據(jù)的安全性(2)數(shù)據(jù)的完整性(3)并發(fā)控制(4)數(shù)據(jù)庫恢復(fù)

1.1.3數(shù)據(jù)庫技術(shù)新發(fā)展1.數(shù)據(jù)模型:關(guān)系數(shù)據(jù)庫與面向?qū)ο髷?shù)據(jù)庫(1)關(guān)系數(shù)據(jù)庫用數(shù)字來表明自然界的各種事物是按照實(shí)體、屬性、值進(jìn)行的。關(guān)系數(shù)據(jù)庫是支持關(guān)系模型的數(shù)據(jù)庫系統(tǒng),而關(guān)系模型由關(guān)系數(shù)據(jù)結(jié)構(gòu)、關(guān)系操作集合和完整性約束三部分組成。(2)結(jié)構(gòu)化查詢語言SQLSQL是結(jié)構(gòu)化查詢語言(StructedQueryLanguage),也被稱為StandardQueryLanguage(標(biāo)準(zhǔn)化查詢語言)。SQL有兩大突出的特點(diǎn):一是所有SQL數(shù)據(jù)庫中的數(shù)據(jù)都存儲(chǔ)在表中,一個(gè)表有行和列組成。二是這種語言被設(shè)計(jì)為不允許按照某種特定的順序來取出,使用SQL只能按查詢條件來讀取記錄。

(3)面向?qū)ο髷?shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫系統(tǒng)是數(shù)據(jù)庫技術(shù)與面向?qū)ο蟪绦蛟O(shè)計(jì)方法相結(jié)合的產(chǎn)物。圖1-4數(shù)據(jù)庫系統(tǒng)ODBCAPI應(yīng)用程序ODBC驅(qū)動(dòng)程序管理器ODBC驅(qū)動(dòng)程序ODBC驅(qū)動(dòng)程序ODBC驅(qū)動(dòng)程序數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)源

將傳統(tǒng)數(shù)據(jù)庫技術(shù)與其他學(xué)科的內(nèi)容相結(jié)合以開發(fā)新型數(shù)據(jù)庫是數(shù)據(jù)庫技術(shù)的一個(gè)新發(fā)展,目前已經(jīng)發(fā)展出一些新型的數(shù)據(jù)庫系統(tǒng)。如:分布式數(shù)據(jù)庫、并行數(shù)據(jù)庫、知識(shí)數(shù)據(jù)庫、主動(dòng)數(shù)據(jù)庫系統(tǒng)、多媒體數(shù)據(jù)庫、模糊數(shù)據(jù)庫。2.傳統(tǒng)數(shù)據(jù)數(shù)據(jù)庫技術(shù)與其他技術(shù)結(jié)合3.面向應(yīng)用的數(shù)據(jù)庫數(shù)據(jù)庫技術(shù)被應(yīng)用于特定領(lǐng)域中時(shí),就出現(xiàn)了數(shù)據(jù)倉庫、工程數(shù)據(jù)庫、統(tǒng)計(jì)數(shù)據(jù)庫、空間數(shù)據(jù)庫、科學(xué)數(shù)據(jù)庫等多種數(shù)據(jù)庫,使數(shù)據(jù)庫領(lǐng)域的應(yīng)用范圍不斷擴(kuò)大。1.2.1從傳統(tǒng)數(shù)據(jù)庫到數(shù)據(jù)倉庫

傳統(tǒng)數(shù)據(jù)庫在聯(lián)機(jī)事物處理中取得了較大的成功,但在基于事物處理的數(shù)據(jù)庫幫助決策分析時(shí)卻產(chǎn)生了很大的困難。主要原因是傳統(tǒng)數(shù)據(jù)庫的處理方式和決策分析中的數(shù)據(jù)需求不相稱,導(dǎo)致傳統(tǒng)數(shù)據(jù)庫無法支持決策分析活動(dòng)。這些不相稱主要體現(xiàn)在如下幾個(gè)方面:(1).決策處理的系統(tǒng)響應(yīng)問題(2).決策數(shù)據(jù)需求的問題(3).決策數(shù)據(jù)操作的問題(4).數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的比較1.2.2數(shù)據(jù)倉庫的基本特性

1.數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫就是一個(gè)面向主題的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合,它用以支持企業(yè)或組織的決策分析處理。

表1-1數(shù)據(jù)倉庫與數(shù)據(jù)庫的對(duì)比對(duì)比內(nèi)容

數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)內(nèi)容當(dāng)前值歷史的、存檔的、歸納的、計(jì)算的數(shù)據(jù)數(shù)據(jù)目標(biāo)面向業(yè)務(wù)操作程序,重復(fù)處理面向主題域,分析應(yīng)用數(shù)據(jù)特性動(dòng)態(tài)變化,按字段更新靜態(tài)、不能直接更新,只能定時(shí)添加、刷新數(shù)據(jù)結(jié)構(gòu)高度結(jié)構(gòu)化、復(fù)雜,適合操作計(jì)算簡(jiǎn)單、適合分析使用頻率高中到低數(shù)據(jù)訪問量每個(gè)事物只訪問少量記錄有的事物可能需要訪問大量記錄對(duì)響應(yīng)時(shí)間的要求以秒為單位時(shí)間長(zhǎng)2.數(shù)據(jù)倉庫的基本特征(1)數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的(2)數(shù)據(jù)倉庫的數(shù)據(jù)是集成的(3)數(shù)據(jù)倉庫是隨時(shí)間變化的(4)數(shù)據(jù)倉庫是不可更新的1.3.1聯(lián)機(jī)分析與數(shù)據(jù)挖掘1.聯(lián)機(jī)分析處理技術(shù)及工具聯(lián)機(jī)分析處理OLAP(On-LineAnalyticalProcessing)應(yīng)用是不同于與聯(lián)機(jī)事務(wù)處理(OLTP)的一類應(yīng)用。它專門設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)重對(duì)分析人員和高層管理人員的決策支持,可以應(yīng)分析人員的要求快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀易懂的形式將查詢結(jié)果提供給決策制定人,以便他們準(zhǔn)確掌握企業(yè)(公司)的經(jīng)營狀況,了解市場(chǎng)需求,制定正確方案,增加效益。2.數(shù)據(jù)挖掘技術(shù)和工具數(shù)據(jù)挖掘(DataMining,DM)是從超大型數(shù)據(jù)庫(VLDB)或數(shù)據(jù)倉庫中發(fā)現(xiàn)并提取隱藏在內(nèi)部的信息的一種新技術(shù)。目的是幫助決策者尋找數(shù)據(jù)間潛在的關(guān)系,發(fā)現(xiàn)經(jīng)營者被忽略的要素,而這些要素對(duì)預(yù)測(cè)趨勢(shì)、決策行為也許是十分有用的信息。 數(shù)據(jù)挖掘技術(shù)是可以滿足和解決當(dāng)前“數(shù)據(jù)太多,信息不足”的技術(shù)。對(duì)于數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDataBase,KDD)的確切定義一直有混淆。(1)數(shù)據(jù)挖掘嚴(yán)格來說,數(shù)據(jù)挖掘可定義為:應(yīng)用一系列技術(shù)從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫的數(shù)據(jù)中提取人們感興趣的信息和知識(shí),這些知識(shí)或信息是隱含的、事先未知而潛在有用的,提取的知識(shí)表示為概念、規(guī)則、規(guī)律、模式等形式。(2)知識(shí)發(fā)現(xiàn)過程1.數(shù)據(jù)準(zhǔn)備2.數(shù)據(jù)挖掘3.結(jié)果表述和解釋1.3.2數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘和數(shù)據(jù)倉庫作為決策支持新技術(shù),在近10年來得到了迅速發(fā)展.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是相互結(jié)合起來一起發(fā)展的,二者是相互影響、相互促進(jìn)的。二者的聯(lián)系可以概括為以下幾點(diǎn):(1)數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供了更好的、更廣泛的數(shù)據(jù)源(2)數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供了新的支持平臺(tái)(3)數(shù)據(jù)倉庫為更好地使用數(shù)據(jù)挖掘工具提供了方便(4)數(shù)據(jù)挖掘?yàn)閿?shù)據(jù)倉庫提供了更好的決策支持(5)數(shù)據(jù)挖掘?qū)?shù)據(jù)倉庫的數(shù)據(jù)組織提供了更高的要求(6)數(shù)據(jù)挖掘還為數(shù)據(jù)倉庫提供了廣泛的技術(shù)支持2.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的區(qū)別數(shù)據(jù)倉庫是一種存儲(chǔ)技術(shù),它的數(shù)據(jù)存儲(chǔ)量是一般數(shù)據(jù)庫的百倍,它包含大量的歷史數(shù)據(jù)、當(dāng)前的詳細(xì)數(shù)據(jù)以及綜合數(shù)據(jù),能為不同用戶的不同決策需求提供所需的數(shù)據(jù)和信息。3.基于數(shù)據(jù)庫技術(shù)的DSS解決方案1.3.3數(shù)據(jù)倉庫未來發(fā)展方向1.數(shù)據(jù)倉庫技術(shù)和應(yīng)用 數(shù)據(jù)倉庫技術(shù)的發(fā)展包括數(shù)據(jù)抽取、數(shù)據(jù)管理、數(shù)據(jù)表現(xiàn)和方法論等方面。數(shù)據(jù)倉庫的發(fā)展趨勢(shì)主要表現(xiàn)在三個(gè)方面:(1)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理(2)實(shí)現(xiàn)共享數(shù)據(jù)(3)對(duì)信息進(jìn)行打包2.國內(nèi)數(shù)據(jù)倉庫的需求與應(yīng)用特點(diǎn)國內(nèi)數(shù)據(jù)倉庫的需求主要表現(xiàn)在如下方面:(1)由于銀行商業(yè)化的步伐正在加大,各大、中型銀行開始重新考慮自身的業(yè)務(wù),特別是加強(qiáng)對(duì)自身的信貸風(fēng)險(xiǎn)的管理,因而對(duì)有關(guān)信貸風(fēng)險(xiǎn)管理和風(fēng)險(xiǎn)規(guī)避的決策支持系統(tǒng)的需求逐漸多了起來。(2)由于電子商務(wù)的迅速發(fā)展,不少網(wǎng)站開始考慮如何提高對(duì)顧客的忠誠度,為客戶提供更進(jìn)一步的“貼身”服務(wù)。(3)各大型企業(yè)如移動(dòng)通信局等開始考慮著手進(jìn)行決策支持以及數(shù)據(jù)倉庫規(guī)則。雖然國內(nèi)的數(shù)據(jù)倉庫市場(chǎng)經(jīng)過了多年的發(fā)展,但是比起國外大企業(yè)所建的巨型企業(yè)級(jí)數(shù)據(jù)倉庫來講,還只能算是剛剛起步,還存在很多的不足之處,主要表現(xiàn)為以下幾點(diǎn):

(1)計(jì)算機(jī)應(yīng)用水平較低,無法提出決策支持需求,所以很多企業(yè)無法馬上實(shí)施數(shù)據(jù)倉庫。(2)缺乏數(shù)據(jù)倉庫方面的人才。(3)缺乏以國內(nèi)環(huán)境為背景的范例和成功應(yīng)用。(4)數(shù)據(jù)倉庫概念過大,很多用戶感覺可望不可及。

小結(jié)1.1數(shù)據(jù)庫與數(shù)據(jù)庫技術(shù)1.1.1數(shù)據(jù)、數(shù)據(jù)庫與數(shù)據(jù)庫系統(tǒng)1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論