BI的體系架構及決策支持系統(tǒng)_第1頁
BI的體系架構及決策支持系統(tǒng)_第2頁
BI的體系架構及決策支持系統(tǒng)_第3頁
BI的體系架構及決策支持系統(tǒng)_第4頁
BI的體系架構及決策支持系統(tǒng)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

BI的體系架構及相關技術一個BI系統(tǒng)為了滿足企業(yè)管理者的要求,從浩如煙海的資料中找出其關心的數(shù)據(jù),必須要做到以下幾步:為了整合各種格式的數(shù)據(jù),清除原有數(shù)據(jù)中的錯誤記錄一一數(shù)據(jù)預處理的要求。對預處理過數(shù)據(jù),應該統(tǒng)一集中起來元數(shù)據(jù)(MetaData)、數(shù)據(jù)倉庫(DataWarehouse)的要求;最后,對于集中起來的龐大的數(shù)據(jù)集,還應進行相應的專業(yè)統(tǒng)計,從中發(fā)掘出對企業(yè)決策有價值的新的機會一一OLAP(聯(lián)機事務分析)和數(shù)據(jù)挖掘(DataMining)的要求。所以,一個典型的BI體系架構應該包含這3步所涉及的相關要求。圖3BI的體系架構整個體系架構中包括:終端用戶查詢和報告工具、OLAP工具、數(shù)據(jù)挖掘(DataMining)軟件、數(shù)據(jù)倉庫(DataWarehouse)和數(shù)據(jù)集市(DataMart)產(chǎn)品、聯(lián)機分析處理(OLAP)等工具。、終端用戶查詢和報告工具。專門用來支持初級用戶的原始數(shù)據(jù)訪問,不包括適應于專業(yè)人士的成品報告生成工具。、數(shù)據(jù)預處理(STL-數(shù)據(jù)抽取、轉換、裝載)從許多來自不同的企業(yè)運作系統(tǒng)的數(shù)據(jù)中提取出有用的數(shù)據(jù)并進行清理,以保證數(shù)據(jù)的正確性,然后經(jīng)過抽取(Extraction)、轉換(Transformation)和裝載(Load),即ETL過程,合并到一個企業(yè)級的數(shù)據(jù)倉庫里,從而得到企業(yè)數(shù)據(jù)的一個全局視圖。、OLAP工具。提供多維數(shù)據(jù)管理環(huán)境,其典型的應用是對商業(yè)問題的建模與商業(yè)數(shù)據(jù)分析。OLAP也被稱為多維分析。、數(shù)據(jù)挖掘(DataMining)軟件。使用諸如神經(jīng)網(wǎng)絡、規(guī)則歸納等技術,用來發(fā)現(xiàn)數(shù)據(jù)之間的關系,做出基于數(shù)據(jù)的推斷。、數(shù)據(jù)倉庫(DataWarehouse)和數(shù)據(jù)集市(DataMart)產(chǎn)品。包括數(shù)據(jù)轉換、管理和存取等方面的預配置軟件,通常還包括一些業(yè)務模型,如財務分析模型。、聯(lián)機分析處理(OLAP)。OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術。其中核心技術在于數(shù)據(jù)預處理、數(shù)據(jù)倉庫的建立(DW)、數(shù)據(jù)挖掘(DM)和聯(lián)機分析處理(OLAP)三個部分。接下來,我們對這幾個核心部分進行詳細說明:數(shù)據(jù)預處理:當早期大型的在線事務處理系統(tǒng)(OLTP)問世后不久,就出現(xiàn)了一種用于“抽取”處理的簡單程序,其作用是搜索整個文件和數(shù)據(jù)庫,使用某些標準選擇合乎要求的數(shù)據(jù),將其復制拷貝出來,用于總體分析。因為這樣做不會影響正在使用的在線事務處理系統(tǒng),降低其性能,同時,用戶可以自行控制抽取出來的數(shù)據(jù)。但是,現(xiàn)在情況發(fā)生了巨大的變化,企業(yè)同時采用了多個在線事務處理系統(tǒng),而這些系統(tǒng)之間的數(shù)據(jù)定義格式不盡相同,即使采用同一軟件廠商提供的不同軟件產(chǎn)品,或者僅僅是產(chǎn)品版本不同,之間的數(shù)據(jù)定義格式也有少許差距。由此,我們必須先定義一個統(tǒng)一的數(shù)據(jù)格式,然后把各個來源的數(shù)據(jù)按新的統(tǒng)一的格式進行轉換,然后集中裝載入數(shù)據(jù)倉庫中。其中,尤其要注意的一點時,并不是各個來源的不同格式的所有數(shù)據(jù)都能被新的統(tǒng)一格式包容,我們也不應強求非要把所有數(shù)據(jù)源的數(shù)據(jù)全部集中起來。Why?原因很多。有可能原來錄入的數(shù)據(jù)中,少量的記錄使用了錯誤的數(shù)據(jù),這類數(shù)據(jù)如果無法校正,應該被舍去。某些數(shù)據(jù)記錄是非結構化的,很難將其轉化成新定義的統(tǒng)一格式,而且從中抽取信息必須讀取整個文件,效率極低,如大容量的二進制數(shù)據(jù)文件,多媒體文件等,這類數(shù)據(jù)如果對企業(yè)決策不大,可以舍去。目前巳有一部分軟件廠商開發(fā)出專門的ETL工具,其中包括:ArdentDataStageEvolutionaryTechnologies,Inc.(ETI)ExtractInformationPowermartSagentSolutionSASInstituteOracleWarehouseBuilderMSSQLServer2000DTS數(shù)據(jù)倉庫:數(shù)據(jù)倉庫概念是由號稱“數(shù)據(jù)倉庫之父”WilliamH.Inmon在上世紀80年代中期撰寫的《建立數(shù)據(jù)倉庫》一書中首次提出,“數(shù)據(jù)倉庫是一個面向主題的、集成的、非易失性的,隨時間變化的用來支持管理人員決策的數(shù)據(jù)集合”。面向主題是數(shù)據(jù)倉庫第一個顯著特點,就是指在數(shù)據(jù)倉庫中,數(shù)據(jù)按照不同的主題進行組織,每一個主題中的數(shù)據(jù)都是從各操作數(shù)據(jù)庫中抽取出來匯集而成,這些與該主題相關的所有歷史數(shù)據(jù)就形成了相應的主題域。數(shù)據(jù)倉庫的第二個顯著特點是集成。數(shù)據(jù)來源于不同的數(shù)據(jù)源,通過相應的規(guī)則進行一致性轉換,最終集成為一體。數(shù)據(jù)倉庫的第三個特點是非易失性。一旦數(shù)據(jù)被加載到數(shù)據(jù)倉庫中,數(shù)據(jù)的值不會再發(fā)生變化,盡管運行系統(tǒng)中對數(shù)據(jù)進行增、刪、改等操作,但對這些數(shù)據(jù)的操作將會作為新的快照記錄到數(shù)據(jù)倉庫中,從而不會影響到巳經(jīng)進入到數(shù)據(jù)倉庫的數(shù)據(jù)。數(shù)據(jù)倉庫最后一個特點是它隨時間變化。數(shù)據(jù)倉庫中每一個數(shù)據(jù)都是在特定時間的記錄,每個記錄都有著相應的時間戳。圖4數(shù)據(jù)倉庫體系架構數(shù)據(jù)倉庫對外部數(shù)據(jù)源和操作型數(shù)據(jù)源的元數(shù)據(jù),按照數(shù)據(jù)倉庫模式設計要求進行歸類,并建成元數(shù)據(jù)庫,相對應的數(shù)據(jù)經(jīng)過ETL后加載到數(shù)據(jù)倉庫中;當信息客戶需要查詢數(shù)據(jù)時先通過信息展現(xiàn)系統(tǒng)了解元數(shù)據(jù)或者直接瀏覽元數(shù)據(jù)庫,再發(fā)起數(shù)據(jù)查詢請求得到所需數(shù)據(jù)。一個典型的企業(yè)數(shù)據(jù)倉庫系統(tǒng),通常包含數(shù)據(jù)源、數(shù)據(jù)存儲與管理、數(shù)據(jù)的訪問三個部分。圖5數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)源:是指企業(yè)操作型數(shù)據(jù)庫中的各種生產(chǎn)運營數(shù)據(jù)、辦公管理數(shù)據(jù)等內(nèi)部數(shù)據(jù)和一些調(diào)查數(shù)據(jù)、市場信息等來自外環(huán)境的數(shù)據(jù)總稱。這些數(shù)據(jù)是構建數(shù)據(jù)倉庫系統(tǒng)的基礎是整個系統(tǒng)的數(shù)據(jù)源泉。數(shù)據(jù)的存儲與管理:數(shù)據(jù)倉庫的存儲主要由元數(shù)據(jù)的存儲及數(shù)據(jù)的存儲兩部分組成。元數(shù)據(jù)是關于數(shù)據(jù)的數(shù)據(jù),其內(nèi)容主要包括數(shù)據(jù)倉庫的數(shù)據(jù)字典、數(shù)據(jù)的定義、數(shù)據(jù)的抽取規(guī)則、數(shù)據(jù)的轉換規(guī)則、數(shù)據(jù)加載頻率等信息。各操作數(shù)據(jù)庫中的數(shù)據(jù)按照元數(shù)據(jù)庫中定義的規(guī)則,經(jīng)過抽取、清理、轉換、集成,按照主題重新組織,依照相應的存儲結構進行存儲。也可以面向應用建立一些數(shù)據(jù)集市,數(shù)據(jù)集市可以看作是數(shù)據(jù)倉庫的一個子集,它含有較少的主題域且歷史時間更短數(shù)據(jù)量更少,一般只能為某個局部范圍內(nèi)的管理人員服務,因此也稱之為部門級數(shù)據(jù)倉庫。數(shù)據(jù)的訪問:由OLAP(聯(lián)機分析處理)、數(shù)據(jù)挖掘、統(tǒng)計報表、即席查詢等幾部分組成。例如OLAP:針對特定的分析主題,設計多種可能的觀察形式,設計相應的分析主題結構(即進行事實表和維表的設計),使管理決策人員在多維數(shù)據(jù)模型的基礎上進行快速、穩(wěn)定和交互性的訪問,并進行各種復雜的分析和預測工作。按照存儲方式來分,OLAP可以分成MOLAP以及ROLAP等方式,MOLAP(Multi-DimensionOLAP)將OLAP分析所需的數(shù)據(jù)存放在多維數(shù)據(jù)庫中。分析主題的數(shù)據(jù)可以形成一個或多個多維立方體。ROLAP(RelationalOLAP)將OLAP分析所需的數(shù)據(jù)存放在關系型數(shù)據(jù)庫中。分析主題的數(shù)據(jù)以“事實表-維表”的星型模式組織。數(shù)據(jù)挖掘:數(shù)據(jù)挖掘的定義非常模糊,對它的定義取決于定義者的觀點和背景。如下是一些DM文獻中的定義:數(shù)據(jù)挖掘是一個確定數(shù)據(jù)中有效的,新的,可能有用的并且最終能被理解的模式的重要過程。數(shù)據(jù)挖掘是一個從大型數(shù)據(jù)庫中提取以前未知的,可理解的,可執(zhí)行的信息并用它來進行關鍵的商業(yè)決策的過程。數(shù)據(jù)挖掘是用在知識發(fā)現(xiàn)過程,來辯識存在于數(shù)據(jù)中的未知關系和模式的一些方法。數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)中有益模式的過程。數(shù)據(jù)挖掘是我們?yōu)槟切┪粗男畔⒛J蕉芯看笮蛿?shù)據(jù)集的一個決策支持過程。雖然數(shù)據(jù)挖掘的這些定義有點不可觸摸,但在目前它巳經(jīng)成為一種商業(yè)事業(yè)。如同在過去的歷次淘金熱中一樣,目標是、開發(fā)礦工、。利潤最大的是賣工具給礦工,而不是干實際的開發(fā)。目前業(yè)內(nèi)巳有很多成熟的數(shù)據(jù)挖掘方法論,為實際應用提供了理想的指導模型。其中,標準化的主要有三個:CRISP-DM;PMML;OLEDBforDM。CRISP-DM(Cross-IndustryStandardProcessforDataMining)是目前公認的、較有影響的方法論之一。CRISP-DM強調(diào),DM不單是數(shù)據(jù)的組織或者呈現(xiàn),也不僅是數(shù)據(jù)分析和統(tǒng)計建模,而是一個從理解業(yè)務需求、尋求解決方案到接受實踐檢驗的完整過程。CRISP-DM將整個挖掘過程分為以下六個階段:商業(yè)理解(BusinessUnderstanding),數(shù)據(jù)理解(DataUnderstanding),數(shù)據(jù)準備(DataPreparation),建模(Modeling),評估(Evaluation)和發(fā)布(Deployment)。其框架圖如下:圖6CRISP-DM模型框架圖從技術層來看,數(shù)據(jù)挖掘技術可分為描述型數(shù)據(jù)挖掘和預測型數(shù)據(jù)挖掘兩種。描述型數(shù)據(jù)挖掘包括數(shù)據(jù)總結、聚類及關聯(lián)分析等。預測型數(shù)據(jù)挖掘包括分類、回歸及時間序列分析等。1、數(shù)據(jù)總結:繼承于數(shù)據(jù)分析中的統(tǒng)計分析。數(shù)據(jù)總結目的是對數(shù)據(jù)進行濃縮,給出它的緊湊描述。傳統(tǒng)統(tǒng)計方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。2、聚類:是把整個數(shù)據(jù)庫分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個群之間的數(shù)據(jù)盡量相似。這種方法通常用于客戶細分。在開始細分之前不知道要把用戶分成幾類,因此通過聚類分析可以找出客戶特性相似的群體,如客戶消費特性相似或年齡特性相似等。在此基礎上可以制定一些針對不同客戶群體的營銷方案。3、關聯(lián)分析:是尋找數(shù)據(jù)庫中值的相關性。兩種常用的技術是關聯(lián)規(guī)則和序列模式。關聯(lián)規(guī)則是尋找在同一個事件中出現(xiàn)的不同項的相關性;序列模式與此類似,尋找的是事件之間時間上的相關性,如對股票漲跌的分析等。4、分類:目的是構造一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。要構造分類器,需要有一個訓練樣本數(shù)據(jù)集作為輸入。訓練集由一組數(shù)據(jù)庫記錄或元組構成,每個元組是一個由有關字段(又稱屬性或特征)值組成的特征向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:(v1,v2,...,vn;c),其中vi表示字段值,c表示類別。5、回歸:是通過具有巳知值的變量來預測其它變量的值。一般情況下,回歸采用的是線性回歸、非線性回歸這樣的標準統(tǒng)計技術。一般同一個模型既可用于回歸也可用于分類。常見的算法有邏輯回歸、決策樹、神經(jīng)網(wǎng)絡等。6、時間序列:時間序列是用變量過去的值來預測未來的值。數(shù)據(jù)挖掘(DataMining)軟件。使用諸如神經(jīng)網(wǎng)絡、規(guī)則歸納等技術,用來發(fā)現(xiàn)數(shù)據(jù)之間的關系,做出基于數(shù)據(jù)的推斷。圖7數(shù)據(jù)挖掘系統(tǒng)以下是一些當前的數(shù)據(jù)挖掘產(chǎn)品:IBM:IntelligentMiner智能礦工Tandem:RelationalDataMiner關系數(shù)據(jù)礦工AngossSoftware:KnowledgeSEEDER知識搜索者ThinkingMachinesCorporation:DarwinTMNeoVistaSoftware:ASICISLDecisionSystems,Inc.:ClementineDataMindCorporation:DataMindDataCruncherSiliconGraphics:MineSetCaliforniaScientificSoftware:BrainMakerWizSoftCorporation:WizWhyLockheedCorporation:ReconSASCorporation:SASEnterpriseMiner聯(lián)機分析處理(OLAP):OLAP的概念最早是由關系數(shù)據(jù)庫之父E.F.Codd于1993年提出的,他同時提出了關于OLAP的12條準則。OLAP的提出引起了很大的反響,OLAP作為一類產(chǎn)品同聯(lián)機事務處理(OLTP)明顯區(qū)分開來。當今的數(shù)據(jù)處理大致可以分成兩大類:聯(lián)機事務處理OLTP(On-LineTransactionProcessing)、聯(lián)機分析處理OLAP(On-LineAnalyticalProcessing)。OLTP是傳統(tǒng)的關系型數(shù)據(jù)庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應用,支持復雜的分析操作,側重決策支持,并且提供直觀易懂的查詢結果。OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術。OLAP的目標是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報表需求,它的技術核心是"維"這個概念?!熬S”是人們觀察客觀世界的角度,是一種高層次的類型劃分?!熬S”一般包含著層次關系,這種層次關系有時會相當復雜。通過把一個實體的多項重要的屬性定義為多個維(DImension),使用戶能對不同維上的數(shù)據(jù)進行比較。因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。OLAP的基本多維分析操作有鉆?。≧ollUp和DrillDown)、切片(Slice)和切塊(Dice)、以及旋轉(Pivot)、DrillAcross、DrillThrough等。鉆取是改變維的層次,變換分析的粒度。它包括向上鉆?。≧ollUp)和向下鉆取(DrillDown)。RollUp是在某一維上將低層次的細節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而DrillDown則相反,它從匯總數(shù)據(jù)深入到細節(jié)數(shù)據(jù)進行觀察或增加新維。切片和切塊是在一部分維上選定值后,關心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個,則是切片;如果有三個,則是切塊。旋轉是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。OLAP有多種實現(xiàn)方法,根據(jù)存儲數(shù)據(jù)的方式不同可以分為ROLAP、MOLAP、HOLAP。ROLAP表示基于關系數(shù)據(jù)庫的OLAP實現(xiàn)(RelationalOLAP)。以關系數(shù)據(jù)庫為核心,以關系型結構進行多維數(shù)據(jù)的表示和存儲。ROLAP將多維數(shù)據(jù)庫的多維結構劃分為兩類表:一類是事實表,用來存儲數(shù)據(jù)和維關鍵字;另一類是維表,即對每個維至少使用一個表來存放維的層次、成員類別等維的描述信息。維表和事實表通過主關鍵字和外關鍵字聯(lián)系在一起,形成了“星型模式”。對于層次復雜的維,為避免冗余數(shù)據(jù)占用過大的存儲空間,可以使用多個表來描述,這種星型模式的擴展稱為“雪花模式”。MOLAP表示基于多維數(shù)據(jù)組織的OLAP實現(xiàn)(MultidimensionalOLAP)。以多維數(shù)據(jù)組織方式為核心,也就是說,MOLAP使用多維數(shù)組存儲數(shù)據(jù)。多維數(shù)據(jù)在存儲中將形成“立方塊(Cube)"的結構,在MOLAP中對“立方塊"的“旋轉”、“切塊”、“切片"是產(chǎn)生多維數(shù)據(jù)報表的主要技術。HOLAP表示基于混合數(shù)據(jù)組織的OLAP實現(xiàn)(HybridOLAP)。如低層是關系型的,高層是多維矩陣型的。這種方式具有更好的靈活性。還有其他的一些實現(xiàn)OLAP的方法,如提供一個專用的SQLServer,對某些存儲模式(如星型、雪片型)提供對SQL查詢的特殊支持。OLAP工具是針對特定問題的聯(lián)機數(shù)據(jù)訪問與分析。它通過多維的方式對數(shù)據(jù)進行分析、查詢和報表。維是人們觀察數(shù)據(jù)的特定角度。例如,一個企業(yè)在考慮產(chǎn)品的銷售情況時,通常從時間、地區(qū)和產(chǎn)品的不同角度來深入觀察產(chǎn)品的銷售情況。這里的時間、地區(qū)和產(chǎn)品就是維。而這些維的不同組合和所考察的度量指標構成的多維數(shù)組則是OLAP分析的基礎,可形式化表示為(維1,維2,……,維n,度量指標),如(地區(qū)、時間、產(chǎn)品、銷售額)。多維分析是指對以多維形式組織起來的數(shù)據(jù)采取切片(Slice)、切塊(Dice)、鉆?。―rillDown和RollUp)、旋轉(Pivot)等各種分析動作,以求剖析數(shù)據(jù),使用戶能從多個角度、多側面地觀察數(shù)據(jù)庫中的數(shù)據(jù),從而深入理解包含在數(shù)據(jù)中的信息。根據(jù)綜合性數(shù)據(jù)的組織方式的不同,目前常見的OLAP主要有基于多維數(shù)據(jù)庫的MOLAP及基于關系數(shù)據(jù)庫的ROLAP兩種。MOLAP是以多維的方式組織和存儲數(shù)據(jù),ROLAP則利用現(xiàn)有的關系數(shù)據(jù)庫技術來模擬多維數(shù)據(jù)。在數(shù)據(jù)倉庫應用中,OLAP應用一般是數(shù)據(jù)倉庫應用的前端工具,同時OLAP工具還可以同數(shù)據(jù)挖掘工具、統(tǒng)計分析工具配合使用,增強決策分析功能?;跀?shù)據(jù)挖掘的決策支持系統(tǒng)在市場經(jīng)濟環(huán)境下,企業(yè)競爭越來越激烈,如何有效地提高企業(yè)管理水平和經(jīng)濟效益,挖掘市場潛力,是現(xiàn)代企業(yè)面對的一個重要課題。對此,企業(yè)信息化建設是提高企業(yè)管理水平的有效方法,而且企業(yè)信息化巳經(jīng)從最初的簡單整合企業(yè)信息資源,發(fā)展到現(xiàn)在建立大型的企業(yè)信息數(shù)據(jù)庫,并從數(shù)據(jù)庫中發(fā)現(xiàn)知識,以提供給決策層應用,從而達到輔助企業(yè)管理及決策的目的?;跀?shù)據(jù)挖掘的決策支持系統(tǒng)構建決策支持系統(tǒng)(DSS)是利用大量信息數(shù)據(jù)結合眾多模型,通過人機交互,輔助各級決策者實現(xiàn)科學決策的系統(tǒng)。該系統(tǒng)是一個融計算機技術、信息技術、人工智能、管理科學、決策科學等學科和技術于一體的技術繼承系統(tǒng)。在企業(yè)沒有建立起決策支持系統(tǒng)前,各個部門基本上具備各自的數(shù)據(jù)信息和獨立的信息處理系統(tǒng),但是各個部門間信息不兼容,即使部門之間有交叉業(yè)務,但是由于信息不統(tǒng)一,也無法做到信息的一致性,不能有效地達到共享,造成所謂的信息孤島。即使建立了大型的、集成的、信息統(tǒng)一的數(shù)據(jù)倉庫,但怎樣才能在大量的數(shù)據(jù)中發(fā)現(xiàn)有用知識呢?這就需要一個全面的解決方案,解決數(shù)據(jù)的一致性和集成性,并在這些經(jīng)過處理的數(shù)據(jù)中發(fā)現(xiàn)知識,以協(xié)助企業(yè)進行有效的決策和管理?;跀?shù)據(jù)挖掘的決策支持系統(tǒng)就是把傳統(tǒng)的決策支持系統(tǒng)和數(shù)據(jù)挖掘有機地結合在一起,通過數(shù)據(jù)挖掘技術來提高系統(tǒng)的智能性,在海量的數(shù)據(jù)中有效地提取有用數(shù)據(jù),發(fā)現(xiàn)有用知識。決策支持系統(tǒng)由兩部分組成(見圖1.1):數(shù)據(jù)倉庫、分析系統(tǒng)(即數(shù)據(jù)挖掘方法)。1.1數(shù)據(jù)倉庫數(shù)據(jù)倉庫的設計首先要滿足決策支持系統(tǒng)的要求,決策支持系統(tǒng)數(shù)據(jù)庫所要求的數(shù)據(jù)要具備三方面特點:概括性、抽象性、統(tǒng)一性。所以在圖2.1中數(shù)據(jù)倉庫和部門數(shù)據(jù)庫之間還應有一個虛擬層,用來為數(shù)據(jù)倉庫提取有用數(shù)據(jù),這個層的功能實現(xiàn)由數(shù)據(jù)挖掘的數(shù)據(jù)清洗過程完成。數(shù)據(jù)倉庫設計的關鍵是數(shù)據(jù)庫的結構設計,包括邏輯設計和物理設計。(1)數(shù)據(jù)庫邏輯設計邏輯設計前需要首先建立一個涉及企業(yè)各個方面的詳細商業(yè)模型,即概念模型。概念模型是獨立于任何一種數(shù)據(jù)模型的信息結構,邏輯設計的任務就是把商業(yè)模型轉換為數(shù)據(jù)庫系統(tǒng)所支持的數(shù)據(jù)模型相符合的邏輯結構。由于大多數(shù)的商用數(shù)據(jù)庫系統(tǒng)是關系型數(shù)據(jù)庫,所以邏輯設計的主要問題就是把概念模型中各個實體與實體屬性的聯(lián)系轉換為關系模式。在企業(yè)中涉及很多實體,如部門實體:人力資源部、生產(chǎn)部、財務部、市場部等等。而各個部門中還涉及部門內(nèi)部的多個實體,如市場部門中涉及的實體有:客戶、客戶經(jīng)理、產(chǎn)品、訂單、銷售業(yè)績,以及城市信息等等,這些實體都有自己的屬性。(2)數(shù)據(jù)庫物理設計數(shù)據(jù)庫在物理設備上的存儲結構與存取方法稱為數(shù)據(jù)庫的物理結構,優(yōu)秀的物理結構設計能使數(shù)據(jù)庫上運行的各種事務響應時間小、存儲空間利用率高、事務吞吐率大。優(yōu)秀的物理設計最重要的是有一個高效率的存取方法,常見的存取方法有索引存取方法、HASH存取方法等,存取方法本文不再詳細敘述。1.2數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘從本質(zhì)上說是一種新的商業(yè)信息處理技術。數(shù)據(jù)挖掘技術把人們對數(shù)據(jù)的應用,從低層次的聯(lián)機查詢操作,提高到?jīng)Q策支持、分析預測等更高級應用上。它通過對這些數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計分析、綜合和推理,發(fā)現(xiàn)數(shù)據(jù)的關聯(lián)性、未來趨勢以及一般性的概括知識等。數(shù)據(jù)挖掘作為一門數(shù)據(jù)處理的新興技術,它具有的特征是處理海量數(shù)據(jù),并且即使這些數(shù)據(jù)是不完全的、冗余的、隨機的、復雜數(shù)據(jù)結構的、維數(shù)大的,都可以通過數(shù)據(jù)清洗來選擇有用數(shù)據(jù),建立知識模型。數(shù)據(jù)挖掘是多學科交叉,涉及計算機科學、統(tǒng)計學、數(shù)學等學科的技術。(1)聯(lián)機分析挖掘OLAMOLAM(OnLineAnalyticalMining)聯(lián)機分析挖掘的概念是OLAP(OnlineAnalyticalProcessing,聯(lián)機分析處理)的發(fā)展。用戶的決策分析需要對數(shù)據(jù)庫中的數(shù)據(jù)進行大量的分析計算才能得到結果,而普通的數(shù)據(jù)處理系統(tǒng)對數(shù)據(jù)庫的簡單查詢,巳經(jīng)不能滿足決策者提出的需求,因此就出現(xiàn)了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。OLAP是聯(lián)機交互式數(shù)據(jù)分析一個良好的框架,但是它只能處理數(shù)值型數(shù)據(jù),對決策支持系統(tǒng)來說是一個較大的局限性。OLAM是在數(shù)據(jù)立方體上進行多層次的數(shù)據(jù)挖掘,OLAM分成若干個抽象層,每個抽象層都有各自的抽象任務。主要包括數(shù)據(jù)集層:它包括相關的數(shù)據(jù)庫和數(shù)據(jù)倉庫等,同時也是OLAM的數(shù)據(jù)源,通過數(shù)據(jù)清洗和集成,生成結構化的便于分析的數(shù)據(jù)環(huán)境。數(shù)據(jù)立方層:形成支持OLAP和OLDM的多維數(shù)據(jù)集,它是相關數(shù)據(jù)的綜合和多維化處理,主要由數(shù)據(jù)立方和元數(shù)據(jù)集組成。OLAP和OLDM應用層:這一層接受數(shù)據(jù)請求,通過訪問多維數(shù)據(jù)集和元數(shù)據(jù),完成數(shù)據(jù)挖掘和分析。用戶接口層:承擔用戶請求的理解以及挖掘結果的解釋和表達等。(2)數(shù)據(jù)挖掘過程數(shù)據(jù)庫中發(fā)現(xiàn)知識是一個有明確學習目標的需要多次反復的過程,因此數(shù)據(jù)挖掘是一個目標和數(shù)據(jù)不斷優(yōu)化的過程。問題定義和數(shù)據(jù)抽取對于多異構的數(shù)據(jù)源,需要根據(jù)源數(shù)據(jù)的結構特點進行相應的數(shù)據(jù)抽取工作。不同類型的源數(shù)據(jù),在結構上差異很大。這就需要以問題定義為基礎來界定數(shù)據(jù)抽取的原則和規(guī)則。數(shù)據(jù)預處理數(shù)據(jù)預處理是對數(shù)據(jù)再加工的過程。經(jīng)過處理后,數(shù)據(jù)具有某種標準格式,可以提供給后續(xù)的數(shù)據(jù)挖掘。數(shù)據(jù)預處理的任務主要有數(shù)據(jù)清洗和數(shù)據(jù)選擇等。對于備選數(shù)據(jù)先噪聲清洗,然后根據(jù)模式要求確定數(shù)據(jù)選擇的原則和策略。選擇出滿足模式要求的數(shù)據(jù),必要時進行數(shù)據(jù)格式的轉換。數(shù)據(jù)挖掘和知識庫數(shù)據(jù)挖掘是在規(guī)格化的目標數(shù)據(jù)集中根據(jù)特定的模型和算法進行數(shù)據(jù)抽象,生成知識。它應該能反復利用獲得的知識和用戶互動,這就需要知識庫的支持,達到滿足用戶要求的知識模式。決策支持系統(tǒng)是一個多策略的挖掘系統(tǒng),所以數(shù)據(jù)挖掘包含諸如描述、關聯(lián)、分類、聚類、時間序列分析以及進化和偏差分析等功能在內(nèi)的數(shù)據(jù)挖掘工具。挖掘出來的中間或者最終知識存儲在知識庫中。這些知識具有不同的抽象層次、適合不同的決策層次的數(shù)據(jù)分析和決策。數(shù)據(jù)挖掘決策支持系統(tǒng)在企業(yè)中的構建數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出可能有潛在價值的信息的技術。用于決策支持,則是提高企業(yè)在面對不斷變換的市場條件下的應變能力,以及挖掘自身潛力,增強自身競爭力的有效手段。2.1數(shù)據(jù)準備完備的信息來源是決策支持系統(tǒng)的基礎,在企業(yè)中商業(yè)決策需要多樣化的信息,如實時信息、歷史信息、社會信息、企業(yè)內(nèi)部信息、行業(yè)信息等等。因此在整理信息的時候,需要做到全面、準確、及時。按企業(yè)信息的業(yè)務屬性,信息可以分為以下幾類:財務信息:主要包括效益分析所需的銷售收入與銷售支出,運營決策所需的成本、管理支出等信息,根據(jù)不同的決策對數(shù)據(jù)的需求,從企業(yè)財務信息數(shù)據(jù)庫提取。銷售信息:主要包括產(chǎn)品類別、價格

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論