版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、摘 要 隨著信息化的迅猛發(fā)展,各醫(yī)院都在建立自己的信息系統(tǒng),數(shù)據(jù)庫規(guī)模不斷 擴大,復雜程度度日益增加,從從大量的數(shù)據(jù)據(jù)中提取有用用的信息供醫(yī)醫(yī)院的決策服服務就 顯得尤為重要。 目前前醫(yī)院信息系系統(tǒng)(HISS)的實現(xiàn),絕絕大部分采用用的是傳統(tǒng)數(shù)數(shù)據(jù)庫技術,數(shù)數(shù)據(jù) 處理以操作型處處理為主,即即聯(lián)機事務處處理(OLTTP)。盡管管產(chǎn)生了大量量的業(yè)務數(shù)據(jù)據(jù), 但真正對決策有有用的信息卻卻很少,而且且也造成了歷歷史數(shù)據(jù)和當當前數(shù)據(jù)、操操作數(shù)據(jù) 和分析數(shù)據(jù)的利利用與管理的的沖突。為了了解決這一問問題,數(shù)據(jù)倉倉庫技術應運運而生。 北京腫腫瘤醫(yī)院有其其自身的特殊殊性,治療上上不同于其它它醫(yī)院,因此此對于信息統(tǒng)
2、統(tǒng) 計、分析和管理理決策上有其其特殊要求。本本論文以FF在建設的腫腫瘤醫(yī)院數(shù)據(jù)據(jù)倉庫為 例,首先介紹了了數(shù)據(jù)倉庫(Dw)和數(shù)數(shù)據(jù)挖掘(DDM)在腫瘤瘤醫(yī)院應用課課題的來源;其次, 闡述了數(shù)據(jù)倉庫庫和數(shù)據(jù)挖掘掘的基本概念念,數(shù)據(jù)挖掘掘的方法、算算法,還有數(shù)數(shù)據(jù)挖掘、 在線分析(OLLAP)和決決策支持(DDSS)的差差異。最后,介介紹了腫瘤醫(yī)醫(yī)院數(shù)據(jù)倉庫庫建 立和應用的全過過程。包括闡闡述了醫(yī)院信信息系統(tǒng)(HHIS)的基基本概念、醫(yī)醫(yī)院分析數(shù)據(jù)據(jù) 的歷史方法及醫(yī)醫(yī)院信息管理理中存在的問問題。腫瘤醫(yī)醫(yī)院HIS數(shù)數(shù)據(jù)庫的結(jié)構構設計,數(shù) 據(jù)倉庫建立過程程中的數(shù)據(jù)準準備,數(shù)據(jù)倉倉庫的架構、存存儲,維度和
3、和粒度設計,主主題 抽取和確定,建建立多維數(shù)據(jù)據(jù)模型及多維維數(shù)據(jù)分析,數(shù)數(shù)據(jù)倉庫和數(shù)數(shù)據(jù)挖掘的主主要功 能及醫(yī)院實際應應用。 關鍵詞:醫(yī)院信信息系統(tǒng);數(shù)數(shù)據(jù)倉庫;數(shù)數(shù)據(jù)挖掘 Abbstracct Withh the fast devellopmennt of inforrmatioontechhnologgy,hosspitalls havve esttablisshed their own iinformmationn systtemsAAnd thhe scaale oof dattabasee hass beenn conttinuouusly extendiing anndthe co
4、mpllexityy beenn drammaticaally iincreaasing sincee the daythhe sysstem wwas builtUUnder this circuumstannce,too seleect thhe rigght innformaation from a masss of data for thehosppitalS deccisionnmakinng is ofuttter immportaance Theese daays thhe traaditioonal ttechniique,nnamelyy Online Trannsactii
5、on Prrocesssing (OUTP),is tthe prrimaryy waytto reaalize theHoospitaal Infformattion SSystemm(HIS)Althhou曲 a lot ofdatta cann be aacquirred byy thiss way,few oof theem aree usefful foor makking ddecisiions WhatS more,iin terrms off utillizatiion annd mannagemeent,itt causses thhe connfusioon bettwee
6、n historiical ddata aand cuurrentt dataa and the cconfliict beetweennoperaation data and aanalyssis daata To solvve thiis prooblem,tthe teechnollogy oof Datta Warrehousse(DW)emergges ass the timess requiree Commparedd withh otheer hosspitalls,Beiijing Canceer Hosspitall has its oownparrticullarityy,
7、 adoptiing ddifferrent methoods iin trreatmeentsFFor thhis reaason,iit haas soome sspeciffic requireementss on tthe sttatisttic,annalysiis andd manaagemennt of inforrmatioonThiis papper taakes the daata waarehouuse off Beijjing Canceer Hosspitall,whicch is beinng esttablisshed,aas ann examplle to in
8、trroducee:firsstly,tthe orrigin of DData WWarehoouse(DDW)andd Dataa Miniing (DM)inn the appliicatioon suubjectts of the ccancerr hosppital;Seconndly,tthe ffundammentall conceppt of DWandd DM,tthe meethod and aarithmmetic of DMM,and the ddifferrence amongg DM,OLAPP and DSS;llastlyy,the entirre couurs
9、e aabout howthhewareehousee was estabblisheed and ussed,inncludiing thhe bassic coonceptt of HHIS,thhe hisstoriccal meethod of annalyziing daata, the prroblemms invvolvedd in tthe maanagemment oof infformattion,tthe sttructuure deesign of thhe warehouuse,daata prreparaation dudngg the estabblishiing
10、 peeriod,tthe frramewoork annd stoorage of thee DW,ddesignn of ddimenssionallity aand ggranullarityy,absttractiing aand coonfirmming subjeccts,buuildinng mulltidimmensioonal ddata mmodel and aanalyzzing mmultiddimenssionall dataa, themaiin funnctionn ofDWW andDDMand someppractiical uuses iin hosspit
11、alls KeyWorrds:Hoospitaal InfformattionSyystem;Data Warehhouse;Data Mininng 圖21多維立立方體9 圖22企業(yè)中中數(shù)據(jù)倉庫結(jié)結(jié)構10 圖23大腸癌癌的決策樹示示意圖13 圖31 醫(yī)院信息息化的層次20 圖32醫(yī)院HHIS中四個個表的關系圖圖25 圖33數(shù)據(jù)倉倉庫所需要的的4個表的關關系27 圖34費用隨隨時間變化的的過程圖28 圖35醫(yī)院數(shù)數(shù)據(jù)倉庫的架架構29 圖36星型模模型30 圖37腫瘤醫(yī)醫(yī)院多維立方方體的關系圖圖33 圖38 多維數(shù)據(jù)據(jù)分析33 圖39費用分分布圖36 圖310胃癌癌病人外科手手術的術前準準備天數(shù)
12、36 圖3,11 200012004病病人數(shù)量的分分析圖388 圖312多維維立方體結(jié)構構圖38 圖313所有有診斷的費用用分布39 圖314樹形形顯示的效果果39 圖315餅圖圖顯示效果40 圖316病人人職業(yè)構成40 圖317 Anaalysiss Servvices中中的聚集441 圖318決策策樹的樹形表表示方法42 圖319決策策樹的公式表表示方法42 圖320大腸腸癌術后決策策樹部分圖45 11引言 本章章主要是文獻獻綜述,并介介紹了數(shù)據(jù)倉倉庫、數(shù)據(jù)挖挖掘技術應用用于腫瘤醫(yī)院院進 行的研究工作,最最后給出論文文的內(nèi)容安排排。 111文獻獻綜述 隨著著計算機應用用的網(wǎng)絡計算算的發(fā)展,
13、計計算正向兩個個不同的方向向拓展:一個個是 廣度計算,二是是深度計算。廣度計算算是把計算機機的應用范圍圍盡量擴大,同同時實 現(xiàn)廣泛的數(shù)據(jù)交交流。深度計計算是人們對對以往計算機機的簡單數(shù)據(jù)據(jù)操作。目前前,深度 操作己提出了更更高的要求,希希望計算機能能夠更多的參參與數(shù)據(jù)分析析與制定決策策的工 作。傳統(tǒng)的數(shù)據(jù)據(jù)庫技術是單單一的數(shù)據(jù)庫庫資源,它適適合操作型事事務處理,但但分析型 處理(或信息型型處理)能力力較弱【2】。數(shù)數(shù)據(jù)倉庫(DDataWaarehouuse。DWW)的出現(xiàn),將將 操作型環(huán)境和分分析型環(huán)境進進行了分離,劃劃清了數(shù)據(jù)處處理的分析型型環(huán)境與操作作型環(huán) 境之間的界限,從從而由原來的的以
14、單一數(shù)據(jù)據(jù)庫為中心的的數(shù)據(jù)環(huán)境發(fā)發(fā)展為一種以以數(shù)據(jù) 倉庫為中心的新新的體系化環(huán)環(huán)境【3】。 近十十幾年,隨著著科學技術飛飛速的發(fā)展,社社會和經(jīng)濟都都取得了極大大的進步,與與 此同時,在各個個領域產(chǎn)生了了大量的數(shù)據(jù)據(jù),如人類對對太空的探索索,銀行每天天的巨額 交易數(shù)據(jù)。顯然然在這些數(shù)據(jù)據(jù)中的信息非非常的豐富,如如何處理這些些數(shù)據(jù)得到有有價值 的信息,人們進進行了有益的的探索。44】計算機技技術的迅速發(fā)發(fā)展使得處理理數(shù)據(jù)成為可可 能,這就推動了了數(shù)據(jù)庫技術術的極大發(fā)展展,但是面對對不斷增加的的如潮水般的的數(shù)據(jù), 人們不再滿足于于數(shù)據(jù)庫的查查詢功能,提提出了深層次次的問題:能能不能從海量量數(shù)據(jù)中 提
15、取信息或者知知識為決策服服務。僅就數(shù)數(shù)據(jù)庫技術而而言已經(jīng)顯得得無能為力了了,同樣, 傳統(tǒng)的統(tǒng)計技術術也面臨著極極大的挑戰(zhàn)【551。這就急急需有新的手手段、新的技技術來處理 這些巨量數(shù)據(jù)。于于是,人們結(jié)結(jié)合統(tǒng)計學、數(shù)數(shù)據(jù)庫、機器器學習等技術術,提出數(shù)據(jù)據(jù)挖 掘(Data Mininng,DM)來解決這一一難題【6。 11111國內(nèi)外現(xiàn)狀狀 在國國外,數(shù)據(jù)挖挖掘已經(jīng)有不不少成功案例例。數(shù)據(jù)挖掘掘首先在金融融、證券、電電信、 零售業(yè)等數(shù)據(jù)密密集型行業(yè)實實施,因為這這些行業(yè)信息息化程度比較較高,數(shù)據(jù)庫庫中已經(jīng) 保留了大量數(shù)據(jù)據(jù)資源。例如如,總部位于于美國阿肯色色州的世界著著名商業(yè)零售售連鎖企業(yè) 沃爾瑪
16、(Wall Martt)的”尿布與啤酒酒”的故事。沃沃爾瑪擁有世世界上最大的的數(shù)據(jù)倉庫 系統(tǒng),通過數(shù)據(jù)據(jù)挖掘工具,得得到了一個意意外發(fā)現(xiàn):跟跟尿布一起購購買最多的商商品竟 然是啤酒。進一一步的分析,揭揭示了隱藏在在”數(shù)據(jù)關聯(lián)”背后的行為為模式,”啤酒與尿 布”的著名故事事,可謂是數(shù)數(shù)據(jù)挖掘產(chǎn)生生巨大價值的的經(jīng)典案例。當當企業(yè)擁有大大量的數(shù) 據(jù)之后,如何從從這些數(shù)據(jù)中中”攥出油水”,才是企業(yè)業(yè)信息化價值值體現(xiàn)的最終終目的。 有數(shù)數(shù)據(jù)表明,進進入二十世紀紀90年代,人人類積累的數(shù)數(shù)據(jù)量以每月月高于15的速 度增加,如果不不借助強有力力的挖掘工具具,僅依靠人人的能力來理理解這些數(shù)據(jù)據(jù)是不可 能的。
17、數(shù)據(jù)據(jù)挖掘的前景景被人們普遍遍看好。國際際知名調(diào)查機機構Garttner GGroup在在高級 技術調(diào)查報告中中,將數(shù)據(jù)挖挖掘和人工智智能列為“未來三到五五年內(nèi)將對工工業(yè)產(chǎn)生深 遠影響的五大關關鍵技術”之首,還將將并行處理體體系和數(shù)據(jù)挖挖掘列為未來來五年內(nèi)投 資焦點的十大新新興技術前兩兩位【”。Garttner的調(diào)調(diào)查報告預計計:到20110年,數(shù)據(jù)據(jù)挖 掘在相關市場的的應用將從目目前少于5增加到超過過80。美美國銀行家協(xié)協(xié)會預測數(shù)據(jù)據(jù) 倉庫和數(shù)據(jù)挖掘掘技術在美國國商業(yè)銀行的的應用增長率率是1499。 與國國外相比,國國內(nèi)對知識發(fā)發(fā)現(xiàn)的研究較較晚,而且較較為分散,沒沒有形成整體體力 量。90年
18、代,國國家自然科學學基金曾支持持過對該領域域項目的研究究,但實際應應用不多。 目前,國內(nèi)的的許多科研單單位和高等院院校競相開展展知識發(fā)現(xiàn)的的基礎理論及及其應用研 究,這些單位包包括清華大學學、中科院計計算技術研究究所、空軍第第三研究所、海海軍裝 備論證中心等【881。其中,北北京系統(tǒng)工程程研究所對模模糊方法在知知識發(fā)現(xiàn)中的的應用進 行了較深入的研研究,北京大大學也在開展展對數(shù)據(jù)立方方體代數(shù)的研研究,華中理理工大學、 復旦大學、浙江江大學、中國國科技大學、中中科院數(shù)學研研究所、吉林林大學、北京京理工 大學等單位開展展了對關聯(lián)規(guī)規(guī)則開采算法法的優(yōu)化和改改造;南京大大學、四川聯(lián)聯(lián)合大學 和上海交通大
19、學學等單位探討討、研究了非非結(jié)構化數(shù)據(jù)據(jù)的知識發(fā)現(xiàn)現(xiàn)以及Webb數(shù)據(jù)挖掘。 雖然然國內(nèi)有很多多大學和研究究機構從事數(shù)數(shù)據(jù)倉庫技術術的研究,但但到目前為止止, 國內(nèi)基本上沒沒有成熟的數(shù)數(shù)據(jù)倉庫解決決方案。在醫(yī)醫(yī)療行業(yè)的應應用更是少之之又少。 目目前提供數(shù)據(jù)據(jù)挖掘產(chǎn)品的的廠商非常多多,如著名的的產(chǎn)品有SAAS Entterpriise Miner、NNCR TTeradaata WWarehoouse Minerr、SPSSS Clemmentinne 70、IBMM DB22 Intellligentt Minee、SQL Serveer 20000數(shù)據(jù)挖掘掘組件、Orracle99i Datt
20、a Minning、 CA C1evverPatth Preedictiive AnnalysiiS Seerver、DDMinerr等。這些產(chǎn)產(chǎn)品各有特色色: NCR、IBMM、ORACCLE等數(shù)據(jù)據(jù)挖掘工具可可以直接在數(shù)數(shù)據(jù)庫上進行行挖掘;SAAS提供了數(shù)數(shù) 據(jù)獲取、取樣、篩篩選、轉(zhuǎn)換工工具來構造要要挖掘的數(shù)據(jù)據(jù)集;SPSSS針對具體體應用領域 推出了多個應用用模版,以簡簡化應用開發(fā)發(fā)過程。 Microosoft將將OLAP功功能集成到 Microsooft SQQL Seerver 70中,提提供可擴充的的基于COMM的OLAPP接口。它通通過一 系列服務程序序支持數(shù)據(jù)倉倉庫應用。數(shù)數(shù)據(jù)
21、傳輸服務務DTS(DData TTransfformattion Servicees)提供數(shù)數(shù)據(jù)輸入輸輸出和自動調(diào)調(diào)度功能,在在數(shù)據(jù)傳輸過過程中可以完完成數(shù)據(jù) 的驗證、清洗洗和轉(zhuǎn)換等操操作,Miccrosofft Offfice 22000套件件中的Acccess和EExcel 可以作為數(shù)據(jù)展展現(xiàn)工具,另另外SOL Serveer還支持第第三方數(shù)據(jù)展展現(xiàn)工具。 12數(shù)據(jù)倉倉庫和數(shù)據(jù)挖挖掘在醫(yī)院應應用的課題來來源 隨著著計算機技術術的飛速發(fā)展展和企業(yè)不斷斷提出新的需需求,傳統(tǒng)的的數(shù)據(jù)庫技術術以 單一的數(shù)據(jù)資源源,即數(shù)據(jù)庫庫為中心,進進行事務管理理、批處理以以及各種類型型的數(shù)據(jù) 處理工作。不同同類
22、型的數(shù)據(jù)據(jù)處理有著不不同的處理特特點,以單一一的數(shù)據(jù)組織織方式進 行組織的數(shù)據(jù)滿滿足不了數(shù)據(jù)據(jù)處理的多樣樣化的要求,因因此數(shù)據(jù)倉庫庫技術應運而而生。 數(shù)據(jù)倉庫技術以以傳統(tǒng)的數(shù)據(jù)據(jù)庫作為存儲儲數(shù)據(jù)和管理理資源的基本本手段,以統(tǒng)統(tǒng)計分析 技術作為分析數(shù)數(shù)據(jù)和提取信信息的有效方方法,它是諸諸多學科相互互結(jié)合、綜合合利用的 技術。 北京京腫瘤醫(yī)院已已經(jīng)運行了醫(yī)醫(yī)院管理系統(tǒng)統(tǒng)將近5年的的時間,積累累了大量的數(shù)數(shù)據(jù), 還有其他的獨立立的信息系統(tǒng)統(tǒng)的數(shù)據(jù),比比如(放射科科、檢驗科、醫(yī)醫(yī)療保險),而而這些 數(shù)據(jù)由于彼此獨獨立并且成為為歷史,沒有有得到再利用用。目前,有有極少的醫(yī)院院能夠整 合這些數(shù)據(jù),充充分利
23、用。在在此基礎上,為為了便于領導導查詢、分析析并支持決策策,本 人在完成碩士論論文期間提出出了“數(shù)據(jù)倉庫和和數(shù)據(jù)挖掘在在腫瘤醫(yī)院中中的應用”這個 研究題目,并在在醫(yī)院中也申申請了“腫瘤醫(yī)院數(shù)數(shù)據(jù)倉庫的建建立和應用”研究課題。 本論論文正是圍繞繞著建立腫瘤瘤醫(yī)院數(shù)據(jù)倉倉庫以及在此此基礎上的分分析和數(shù)據(jù)挖挖掘 來討論數(shù)據(jù)倉庫庫技術及聯(lián)機機分析技術、數(shù)數(shù)據(jù)挖掘技術術的。 13論文的工工作 本文文研究的主要要內(nèi)容是首先先以一、兩個個病種為例,從從腫瘤醫(yī)院現(xiàn)現(xiàn)有的HISS數(shù) 據(jù)出發(fā),探討建建立管理信息息數(shù)據(jù)倉庫(Data Warehhouse)的方法;其其次能夠在此此基 礎上,開展單病病種費用研究究,使
24、用新的的費用管理指指標,應用數(shù)數(shù)據(jù)挖掘技術術(Dataa Mining)中的粗糙集集理論對過度度診斷和治療療的識別問題題進行試分析析。本文主要要工 作包括以下幾個個方面: 數(shù)據(jù)預處理理的研究 由于于數(shù)據(jù)庫系統(tǒng)統(tǒng)所獲數(shù)據(jù)量量的迅速膨脹脹(已達G或或T數(shù)量級),從而導致致了現(xiàn) 實世界數(shù)據(jù)庫中中常常包含許許多含有噪聲聲、不完整、甚甚至是不一致致的數(shù)據(jù)。顯顯然對 數(shù)據(jù)挖掘所涉及及的數(shù)據(jù)對象象必須進行預預處理。 數(shù)據(jù)據(jù)預處理主要要包括:數(shù)據(jù)據(jù)清洗(daata clleaninng)、數(shù)據(jù)據(jù)集成(daata interggratiOOn)、數(shù)據(jù)據(jù)轉(zhuǎn)換(daata trransfoormatiion)、和和
25、數(shù)據(jù)消減(data reducctiOn) 數(shù)據(jù)倉庫建建立過程的多多維分析的實實現(xiàn) 本文文介紹了利用用微軟的Annalysiis Serrvicess工具在已經(jīng)經(jīng)進行整理的的數(shù)據(jù)的基 礎上建立一個數(shù)數(shù)據(jù)倉庫的過過程,包括如如何設計主題題、維度、粒粒度,對數(shù)據(jù)據(jù)倉庫進 行鉆取、旋轉(zhuǎn)等等操作,如何何存儲數(shù)據(jù)倉倉庫,以及如如何用可視化化工具進行進進一步分 析的全過程。 數(shù)據(jù)挖掘的幾幾個算法的嘗嘗試 在已已有數(shù)據(jù)的基基礎上,找出出一些完整的的、有分析價價值的數(shù)據(jù),利利用數(shù)據(jù)挖掘掘 中的一些算法如如(決策樹IID3算法、聚聚集、粗糙集集中RSL語語言)來對數(shù)數(shù)據(jù)進行試 探性的數(shù)據(jù)挖掘掘。并用微軟軟的An
26、allysis Serviices中的的數(shù)據(jù)挖掘模模型來實現(xiàn)決決策 樹和聚集方法的的數(shù)據(jù)挖掘,并并得到有用的的知識。 下一步工作的的展望 由于于時間和人力力的原因,本本文只能做些些探討性的分分析和研究,整整個工作尚不不 能成為成熟的可可應用于實際際的工具。但但本人已在醫(yī)醫(yī)院中申請了了這個項目的的課題, 并已經(jīng)被批準,并并得到了院長長、科主任的的高度重視。因因此會在未來來重點地研究究, 并希望能夠得到到理想的效果果。 此項項工作與HIIs的區(qū)別 聯(lián)機機分析技術(OLAP)就是對大量量信息進行復復雜分析操作作和決策制定定的軟件系 統(tǒng)。為了提高效效率和有效性性,必須把分分析型數(shù)據(jù)從從事務處理環(huán)環(huán)境中
27、提取出出來,按 照決策支持系統(tǒng)統(tǒng)處理的需要要進行重新整整合,建立單單獨的分析處處理環(huán)境。數(shù)數(shù)據(jù)倉庫 正是為了構建這這種新的分析析處理環(huán)境而而出現(xiàn)的一種種數(shù)據(jù)存儲和和組織技術。與與HIS 不同之處在于,數(shù)數(shù)據(jù)倉庫是對對歷史數(shù)據(jù)的的批處理操作作、按照主題題進行分解合合并重 新組織,是深層層次分析利用用的基礎。HHIS主要作作用是使讓大大量的日常業(yè)業(yè)務(如掛號號、 劃價、收費、結(jié)結(jié)算等等)電電子化,以提提高醫(yī)院工作作效率和工作作質(zhì)量。HIIS的應用是是 面向聯(lián)機事務處處理(OLTTP)。 14論文的的組織結(jié)構 全文文分為三章各各章組織如下下: 第一一章,為引言言,主要內(nèi)容容有研究的技技術背景,本本篇
28、論文主要要工作、組織織結(jié) 構的介紹。 第二二章,介紹了了數(shù)據(jù)倉庫的的概念和體系系結(jié)構;數(shù)據(jù)據(jù)挖掘的方法法、算法;多多維 數(shù)據(jù)分析和數(shù)據(jù)據(jù)挖掘與決策策支持的聯(lián)系系與區(qū)別。 第三三章,是對在在腫瘤醫(yī)院建建立數(shù)據(jù)倉庫庫全過程的詳詳細描述,包包括醫(yī)院信息息管 理系統(tǒng)的介紹和和國內(nèi)外的動動態(tài):醫(yī)院分分析數(shù)據(jù)的歷歷史方法,存存在的問題以以及數(shù)據(jù) 倉庫架構、數(shù)據(jù)據(jù)存儲、粒度度和維度的設設計、主體的的提取和確定定、數(shù)據(jù)倉庫庫實現(xiàn)的 功能;數(shù)據(jù)挖掘掘的應用實例例,有幾種算算法的演示和和說明。 最后后,為結(jié)束語語包括了對上上述論文的總總結(jié),和對下下一步工作的的展望。 第2章數(shù)數(shù)據(jù)倉庫與數(shù)數(shù)據(jù)挖掘 21數(shù)據(jù)倉庫庫的
29、定義 211數(shù)據(jù)據(jù)倉庫的定義義 信息技技術的不斷推推廣應用,將將企業(yè)帶入了了一個信息爆爆炸的時代。每每同、每時、 每刻都有潮水般般的信息出現(xiàn)現(xiàn)在管理者的的面前,等待待管理者去處處理、去使用用。這些 管理信息的處理理類型主要是是對管理信息息的處理類型型,主要有事事務型處理和和信息型 處理兩大類。事事務型處理,也也就是通常所所說的業(yè)務操操作處理。這這種操作處理理主要 是對管理信息進進行日常的操操作,對信息息進行查詢和和修改,目的的是滿足組織織特定的 日常管理需要要【9。在在信息型處理理中管理者關關心的是信息息能否得到快快速的處理,信信 息的安全性能否否得到保證,對對信息作進一一步的分析,為為管理人
30、員的的決策提供支支持。 例如如,為決策支支持系統(tǒng)、經(jīng)經(jīng)理信息系統(tǒng)統(tǒng)、戰(zhàn)略信息息系統(tǒng)等提供供信息分析的的支 持。這種類型的的信息處理在在現(xiàn)代企業(yè)中中的應用越來來越廣泛,越越來越引起管管理人員 的重視。管理理信息的信息息型處理,必必須訪問大量量的歷史數(shù)據(jù)據(jù)才能完成;而不像事 務型處理那樣,只只對當前的信信息感興趣1。因此,在在信息型處理理中,產(chǎn)生了了與操 作性處理所采用用的傳統(tǒng)數(shù)據(jù)據(jù)庫有很大差差異的數(shù)據(jù)環(huán)環(huán)境要求。 目目前,數(shù)據(jù)倉倉庫一詞尚沒沒有一個統(tǒng)一一的定義,著著名的數(shù)據(jù)倉倉庫專家WHInmmon 在其著作Buuildinng theeData Warehhouse)一書中給給予如下描述述:數(shù)
31、據(jù)倉庫庫(Dataa Warehouuse)是一一個面向主題題的(Subbject Oriennted)、集集成的(Inntegraate)、相相 對穩(wěn)定的(NoonVolattile)、反反映歷史變化化(Timee Variiant)的的數(shù)據(jù)集合,用用于支 持管理決策。對于數(shù)據(jù)據(jù)倉庫的概念念我們可以從從兩個層次予予以理解,首首先,數(shù)據(jù) 倉庫用于支持決決策,面向分分析型數(shù)據(jù)處處理,它不同同于企業(yè)現(xiàn)有有的操作型數(shù)數(shù)據(jù)庫; 其次,數(shù)據(jù)倉庫庫是對多個異異構的數(shù)據(jù)源源有效集成,集集成后按照主主題進行了重重組, 并包含歷史數(shù)據(jù)據(jù),而且存放放在數(shù)據(jù)倉庫庫中的數(shù)據(jù)一一般不再修改改。 根據(jù)據(jù)數(shù)據(jù)倉庫概概念的含
32、義,數(shù)數(shù)據(jù)倉庫擁有有以下四個特特點: l、面面向主題。操操作型數(shù)據(jù)庫庫的數(shù)據(jù)組織織面向事務處處理任務,各各個業(yè)務系統(tǒng)統(tǒng)之 間各自分離,而而數(shù)據(jù)倉庫中中的數(shù)據(jù)是按按照一定的主主題域進行組組織。主題是是一個抽 象的概念,是指指用戶使用數(shù)數(shù)據(jù)倉庫進行行決策時所關關心的重點方方面,一個主主題通常 與多個操作型信信息系統(tǒng)相關關。 2、集集成的。面向向事務處理的的操作型數(shù)據(jù)據(jù)庫通常與某某些特定的應應用相關,數(shù)數(shù)據(jù) 庫之間相互獨立立,并且往往往是異構的。而而數(shù)據(jù)倉庫中中的數(shù)據(jù)是在在對原有分散散的數(shù) 據(jù)庫數(shù)據(jù)抽取、清清理的基礎上上經(jīng)過系統(tǒng)加加工、匯總和和整理得到的的,必須消除除源數(shù) 據(jù)中的不一致性性,以保證數(shù)
33、數(shù)據(jù)倉庫內(nèi)的的信息是關于于整個企業(yè)的的一致的全局局信息。 3、相相對穩(wěn)定的。操操作型數(shù)據(jù)庫庫中的數(shù)據(jù)通通常實時更新新,數(shù)據(jù)根據(jù)據(jù)需要及時發(fā)發(fā) 生變化。數(shù)據(jù)倉倉庫的數(shù)據(jù)主主要供企業(yè)決決策分析之用用,所涉及的的數(shù)據(jù)操作主主要是數(shù) 據(jù)查詢,一旦某某個數(shù)據(jù)進入入數(shù)據(jù)倉庫以以后,一般情情況下將被長長期保留,也也就是數(shù) 據(jù)倉庫中一般有有大量的查詢詢操作,但修修改和刪除操操作很少,通通常只需要定定期的加 載、刷新。 4、反反映歷史變化化。操作型數(shù)數(shù)據(jù)庫主要關關心當前某一一個時間段內(nèi)內(nèi)的數(shù)據(jù),而而數(shù) 據(jù)倉庫中的數(shù)據(jù)據(jù)通常包含歷歷史信息,系系統(tǒng)記錄了企企業(yè)從過去某某一時點(如如丌始應用 數(shù)據(jù)倉庫的時點點)到目前
34、的的各個階段的的信息,通過過這些信息,可可以對企業(yè)的的發(fā)展歷 程和未來趨勢做做出定量分析析和預測【112】。 212數(shù)據(jù)據(jù)倉庫與數(shù)據(jù)據(jù)庫比較 從“庫”到“倉庫” 數(shù)據(jù)據(jù)倉庫,是在在數(shù)據(jù)庫已經(jīng)經(jīng)大量存在的的情況下,為為了進一步挖挖掘數(shù)據(jù)資源源、 為了決策需要而而產(chǎn)生的,它它決不是所謂謂的“大型數(shù)據(jù)庫庫”。那么,數(shù)數(shù)據(jù)倉庫與傳傳 統(tǒng)數(shù)據(jù)庫比較,有有哪些異同呢呢, 如表211所示: 表221數(shù)據(jù)庫庫和數(shù)據(jù)倉庫庫的對比裹【113】 對比內(nèi)容 數(shù)據(jù)庫 數(shù)據(jù)倉庫庫 數(shù)據(jù)內(nèi)容 當前值 歷史的、存存檔的、歸納納的、計算的的 數(shù)據(jù) 數(shù)據(jù)目標 面向業(yè)務務操作程序重重復處理 面向主題題域,分析應應用 數(shù)據(jù)特性 動態(tài)
35、變化化按字段更新新 靜態(tài)、不不能直接更新新,只能定時時添 加、刷新新 數(shù)據(jù)結(jié)構 高度結(jié)構構化復雜化和和操作計算 簡單適適合分析 使用頻率 高 中到低 數(shù)據(jù)訪問量 每個事務務之訪問少量量記錄 有的事務務可能需要訪訪問大量記錄錄 對響應時間的要要求 以秒為單單位計算 以秒、分分鐘甚至小時時為計算單位位 數(shù)據(jù)據(jù)倉庫的出現(xiàn)現(xiàn),并不是要要取代數(shù)據(jù)庫庫。目前,大大部分數(shù)據(jù)倉倉庫還是用關關系 數(shù)據(jù)庫管理系統(tǒng)統(tǒng)來管理的??煽梢哉f,數(shù)據(jù)據(jù)庫、數(shù)據(jù)倉倉庫相輔相成成、各有千秋秋【l。 213數(shù)據(jù)據(jù)倉庫的體系系結(jié)構 數(shù)據(jù)據(jù)倉庫的體系系結(jié)構分為數(shù)數(shù)據(jù)獲取層、數(shù)數(shù)據(jù)存儲層、數(shù)數(shù)據(jù)挖掘?qū)拥鹊榷鄠€部分。 1數(shù)據(jù)獲取層層 數(shù)據(jù)
36、據(jù)獲取層把決決策主題所需需要的數(shù)據(jù)(當前的、歷歷史的),從從各種相關的的業(yè)務 數(shù)據(jù)庫或數(shù)據(jù)文文件等外部數(shù)數(shù)據(jù)源中抽取取出來,進行行各種必要的的清洗、整合合和轉(zhuǎn)換 處理,再將這些些數(shù)據(jù)集成存存儲到倉庫中中”。數(shù)據(jù)獲獲取層在數(shù)據(jù)據(jù)倉庫的整體體系統(tǒng)應 用中占有非常重重要的地位。 2數(shù)數(shù)據(jù)存儲層 數(shù)據(jù)存存儲層以一定定的組織結(jié)構構存儲各種主主題數(shù)據(jù)。數(shù)數(shù)據(jù)倉庫包括括多個主題, 一個主題的數(shù)據(jù)據(jù)通常存儲在在一個數(shù)據(jù)庫庫中,包括該該主題的一些些綜合性表,如如主題 中選擇的事實表表、維表,還還有為數(shù)據(jù)挖挖掘生成的中中間表等。 3數(shù)數(shù)據(jù)挖掘?qū)?數(shù)據(jù)據(jù)挖掘?qū)蛹沙筛鞣N數(shù)據(jù)挖挖掘的算法,包包含具有很強強功能的數(shù)據(jù)據(jù)
37、挖掘工具, 可以提供靈活有有效的任務模模型、組織形形式,以支持持各項決策的的數(shù)據(jù)挖掘任任務。 數(shù)據(jù)據(jù)挖掘與數(shù)據(jù)據(jù)倉庫的概念念是密不可分分的,數(shù)據(jù)挖挖掘要求有數(shù)數(shù)據(jù)倉庫作為為基 礎,并要求數(shù)據(jù)據(jù)倉庫已經(jīng)存存有豐富的數(shù)數(shù)據(jù)。數(shù)據(jù)挖挖掘比本文后后面談到的多多維分析 更進一步。舉例例,假如以某某類產(chǎn)品的銷銷售情況為例例,如果管理理人員要求比比較各個 區(qū)域某類產(chǎn)品銷銷量在過去一一年的情況,可可以從多維分分析中找答案案。但是,如如果管 理人員要問為何何一種產(chǎn)品銷銷量在某地區(qū)區(qū)的情況突然然變得特別好好或不好,或或者問該 產(chǎn)品在另一地區(qū)區(qū)將會怎樣,這這些是用多維維分析工具難難以簡單解決決的問題,就就需要 利用
38、數(shù)據(jù)挖掘工工具尋找回答答。 在實實旌智能化決決策時,一般般分為兩個步步驟:第一步步實現(xiàn)數(shù)據(jù)倉倉庫和多維分分析, 構造智能決策的的基礎,實現(xiàn)現(xiàn)分析應用:第二步實現(xiàn)現(xiàn)數(shù)據(jù)挖掘,再再發(fā)揮智能化化決策 的特色【l”。數(shù)數(shù)據(jù)挖掘是數(shù)數(shù)據(jù)利用價值值的再發(fā)現(xiàn),它它突破了傳統(tǒng)統(tǒng)意義上的數(shù)數(shù)據(jù)查詢, 是在更大的尺度度上、更深的的層次中對數(shù)數(shù)據(jù)提高利用用的價值,是是數(shù)據(jù)倉庫應應用的關 鍵。 214聯(lián)機機分析處理(OLAP) 1聯(lián)機分析處處理(OLAAP)的概念念 聯(lián)機機分析處理(OLAP)的概念最早早是由關系數(shù)數(shù)據(jù)庫之父EEFCoodd于19993年 提出的,他同時時提出了關于于OLAP的的12條準則則。OLAP
39、P的提出引起起了很大的反反響, OLAP作為一一類產(chǎn)品同聯(lián)聯(lián)機事務處理理(OLTPP)明顯區(qū)分分開來【177。 當今今的數(shù)據(jù)處理理大致可以分分成兩大類:聯(lián)機事務處處理OLTPP(0nLine Transacction Proccessinng)、聯(lián)機機分析處理OOLAP(OOnLine Anallyticaal Processsing)。OOLTP是傳傳統(tǒng)的關系型型數(shù)據(jù)庫的主主要應用,主主要是基本的的、日常的 事務處理,例如如銀行交易【11”。OLAPP是數(shù)據(jù)倉庫庫系統(tǒng)的主要要應用,支持持復雜的分析析 操作,側(cè)重決策策支持,并且且提供直觀易易懂的查詢結(jié)結(jié)果。表22列出了OOLTP與OOLAP
40、之間的比較。 表表22 OLPP與OLTPP比較【199 OLLTP OLAAP 用用戶 操操作人員低低層管理人員員 決決策人員,高高級管理人員員 功功能 日常操作處處理 分析決策 DBB設計 面向應用用 面向主題 當前的,最最新的細節(jié)的的,二維的分分 歷史的,聚聚集的,多維維的集成 數(shù)數(shù)據(jù) 立的的 的的統(tǒng)一的 存存取 讀寫寫數(shù)十條記錄錄 讀上百百萬條記錄 工作單單位 簡單的事務務 復復雜的查詢 用戶戶數(shù) 上千個個 上百個 DBB大小 100MMB_GB IOOGBBTB OLAAP是使分析析人員、管理理人員或執(zhí)行行人員能夠從從多角度對信信息進行快速速、一 致、交互地存取取,從而獲得得對數(shù)據(jù)的
41、更更深入了解的的一類軟件技技術。OLAAP的目標是是 滿足決策支持或或者滿足在多多維環(huán)境下特特定的查詢和和報表需求,它它的技術核心心是”維 這個概念【2201。 “維”是人們觀察察客觀世界的的角度,是一一種高層次的的類型劃分?!熬S”一般包 含著層次關系,這這種層次關系系有時會相當當復雜【2”。通過把一一個實體的多多項重要的 屬性定義為多個個維(dimmensioon),使用用戶能對不同同維上的數(shù)據(jù)據(jù)進行比較。例例如,一 個企業(yè)在考慮產(chǎn)產(chǎn)品的銷售情情況時,通常常從時間、地地區(qū)和產(chǎn)品的的不同角度來來深入觀 察產(chǎn)品的銷售情情況。這里的的時間、地區(qū)區(qū)和產(chǎn)品就是是維。而這些些維的不同組組合和所 考察的度
42、量指標標構成的多維維數(shù)組則是OOLAP分析析的基礎,可可形式化表示示為(維1, 維2,維維n,度量指指標),如(地區(qū)、時間間、產(chǎn)品、銷銷售額)因此此OLAP也也 可以說是多維數(shù)數(shù)據(jù)分析工具具的集合。 20LP的的多維分析操操作 OLLAP的基本本多維分析操操作有鉆取(roll up和drrill ddown)、切切片(sliice) 和切塊(dicce)、以及及旋轉(zhuǎn)(piivot)等等【2”。 鉆取是改改變維的層次次,變換分析析的粒度。它它包括向上鉆鉆取(rolllup)和和向下鉆 取(drilll downn)。rolll up是是在某一維上上將低層次的的細節(jié)數(shù)據(jù)概概括到高層次次的 匯總數(shù)據(jù)
43、,或者者減少維數(shù);而drilll dowwn則相反,它它從匯總數(shù)據(jù)據(jù)深入到細節(jié)節(jié)數(shù)據(jù) 進行觀察或增加加新維。 切片和切切塊是在一部部分維上選定定值后,關心心度量數(shù)據(jù)在在剩余維上的的分布。如果果 剩余的維只有兩兩個,則是切切片;如果有有三個,則是是切塊。 旋轉(zhuǎn)是變變換維的方向向,即在表格格中重新安排排維的放置(例如行列互互換)。 30LP存存儲數(shù)據(jù)的方方式 OLLAP有多種種實現(xiàn)方法,根根據(jù)存儲數(shù)據(jù)據(jù)的方式不同同可以分為RROLAP、MMOLAP、 HOLAP2231。 ROOLAP表示示基于關系數(shù)數(shù)據(jù)庫的OLLAP實現(xiàn)(Relattionall OLAPP)。以關系系數(shù)據(jù) 庫為核心,以關關系型
44、結(jié)構進進行多維數(shù)據(jù)據(jù)的表示和存存儲。ROLLAP將多維維數(shù)據(jù)庫的多多維 結(jié)構劃分為兩類類表:一類是是事實表,用用來存儲數(shù)據(jù)據(jù)和維關鍵字字:另一類是是維表,即對對 每個維至少使用用一個表來存存放維的層次次、成員類別別等維的描述述信息。維表表和事實 表通過主關鍵字字和外關鍵字字聯(lián)系在一起起,形成了”星型模式”。對于層次次復雜的維, 為避免冗余數(shù)據(jù)據(jù)占用過大的的存儲空間,可可以使用多個個表來描述,這這種星型模式式的擴 展稱為”雪花模模式”。 MOOLAP表示示基于多維數(shù)數(shù)據(jù)組織的OOLAP實現(xiàn)現(xiàn)(Multtidimeensionnal OOLAP)。以以 多維數(shù)據(jù)組織織方式為核心心,也就是說說,MO
45、LAAP使用多維維數(shù)組存儲數(shù)數(shù)據(jù)。多維數(shù)數(shù)據(jù)在 存儲中將形成“立方塊(CCube)”的結(jié)構,在在MOLAPP中對“立方塊”的“旋轉(zhuǎn)”、 “切塊”、“切片”是產(chǎn)生多維維數(shù)據(jù)報表的的主要技術【22“。如圖21所示 地 鍋鍋人緋 表中的。條條教州 圖221多維立立方體 HOOLAP表示示基于混合數(shù)數(shù)據(jù)組織的OOLAP實現(xiàn)現(xiàn)(Hybrrid OLLAP)。如如低層是關系系 型的,高層是是多維矩陣型型的。這種方方式具有更好好的靈活性。 還有有其他的一些些實現(xiàn)OLAAP的方法,如如提供一個專專用的SQLL Servver,對某某些 存儲模式(如星星型、雪片型型)提供對SSQL查詢的的特殊支持。 215企企
46、業(yè)中建立數(shù)數(shù)據(jù)倉庫的結(jié)結(jié)構 在企企業(yè)中整個數(shù)數(shù)據(jù)倉庫系統(tǒng)統(tǒng)包含四個層層次,具體由由下圖222表示【2”。 0LAPP囂舞盈 韓塌工工鼻 壓:鹽五1調(diào)工工星 jiii 巨衰衰工旦 叵叵丑冉忻工旦旦 J 日日曰田 門 四拉拉露毫掘工工具 出jj豈 日 日日 鼓韶 最j童市 OLAAP甩務舀 圖22企企業(yè)中數(shù)據(jù)倉倉庫結(jié)構 數(shù)據(jù)源:數(shù)數(shù)據(jù)源是數(shù)據(jù)據(jù)倉庫系統(tǒng)的的基礎,是整整個系統(tǒng)的數(shù)數(shù)據(jù)源泉。 數(shù)據(jù)的存儲儲與管理:數(shù)數(shù)據(jù)的存儲與與管理是整個個數(shù)據(jù)倉庫系系統(tǒng)的核心。數(shù)數(shù)據(jù) 倉庫的真正關鍵鍵是數(shù)據(jù)的存存儲和管理。數(shù)數(shù)據(jù)倉庫的組組織管理方式式?jīng)Q定了它有有別于 傳統(tǒng)數(shù)據(jù)庫,同同時也決定了了其對外部數(shù)數(shù)據(jù)的表現(xiàn)形
47、形式。要決定定采用什么產(chǎn)產(chǎn)品和技 術來建立數(shù)據(jù)倉倉庫的核心,則則需要從數(shù)據(jù)據(jù)倉庫的技術術特點著手分分析。針對現(xiàn)現(xiàn)有各 業(yè)務系統(tǒng)的數(shù)據(jù)據(jù),進行抽取取、清理,并并有效集成,按按照主題進行行組織。數(shù)據(jù)據(jù)按照 數(shù)據(jù)的覆蓋范圍圍可以分為數(shù)數(shù)據(jù)倉庫和數(shù)數(shù)據(jù)集市。 OLAP服服務器:對分分析需要的數(shù)數(shù)據(jù)進行有效效集成,按多多維模型予以以組織,以 便進行多角度、多多層次的分析析,并發(fā)現(xiàn)趨趨勢。 前端工具:主要包括各各種報表工具具、查詢工具具、數(shù)據(jù)分析析工具、數(shù)據(jù)據(jù)挖掘 工具以及各種基基于數(shù)據(jù)倉庫庫或數(shù)據(jù)集市市的應用開發(fā)發(fā)工具。其中中數(shù)據(jù)分析工工具主要 針對OLAP服服務器,報表表工具、數(shù)據(jù)據(jù)挖掘工具主主要針對
48、數(shù)據(jù)據(jù)倉庫。 216數(shù)據(jù)據(jù)倉庫的軟件件 在上上述數(shù)據(jù)倉庫庫的體系機構構中,有各式式各樣的軟件件,可分為數(shù)數(shù)據(jù)倉庫管理理軟 件、數(shù)據(jù)挖掘軟軟件以及各類類工具軟件。 1數(shù)據(jù)倉庫管管理軟件 數(shù)據(jù)據(jù)倉庫管理軟軟件提供對數(shù)數(shù)據(jù)的訪問、抽抽取、轉(zhuǎn)換、分分布、存儲及及管理等功 能。管理軟件靠靠描述性數(shù)據(jù)據(jù)查找、理解解、顯示、分分析和挖掘數(shù)數(shù)據(jù),實現(xiàn)數(shù)數(shù)據(jù)轉(zhuǎn)換 過程的自動化及及其管理,縮縮短從復雜的的海量數(shù)據(jù)(源)到能支支持決策的信信息之間的 差距,有助于進進一步實現(xiàn)智智能化決策【22”。 2數(shù)數(shù)據(jù)挖掘軟件件 數(shù)據(jù)據(jù)挖掘軟件主主要是從統(tǒng)計計學方面提供供相應算法的的軟件,前面面已經(jīng)有所闡闡述。 值得一提的是,目
49、目前有的數(shù)據(jù)據(jù)挖掘軟件產(chǎn)產(chǎn)品不單單用用統(tǒng)計方法,還還借助智能化化的 電腦學習或神經(jīng)經(jīng)網(wǎng)絡等技術術。 3數(shù)數(shù)據(jù)倉庫工具具軟件 數(shù)據(jù)據(jù)倉庫不僅僅僅是個數(shù)據(jù)的的儲存?zhèn)}庫,更更重要的是它它要提供豐富富的各種應用用 工具。各種功能能強大的完整整工具體系,是是數(shù)據(jù)倉庫實實現(xiàn)應用的基基礎。目前一一些商 家推銷的數(shù)據(jù)倉倉庫軟件都帶帶有各自的工工具軟件,也也具有各自的的特色。 4數(shù)據(jù)獲取工工具 在數(shù)數(shù)據(jù)獲取層的的一些工具,用用來清洗、轉(zhuǎn)轉(zhuǎn)換和從別處處提取數(shù)據(jù),“去其糟粕、 取其精華”,將將真實的、對對決策有用的的數(shù)據(jù)保留下下來,使得放放在數(shù)據(jù)倉庫庫的數(shù)據(jù) 有條有理,幫助助決策者再通通過其它分析析工具方便地地使用
50、這些數(shù)數(shù)據(jù)。 5多維分析工工具 通常常,每一個分分析的角度可可以叫作一個個維。因此,多多角度分析方方式稱為多維維 分析。管理人員員往往希望從從不同的角度度來審視業(yè)務務數(shù)值,例如如銀行往往從從時間、 地域、功能、效效益、利潤來來看同一類儲儲蓄的總額。以以前,針對每每個分析的角角度需 要制作一張報表表。現(xiàn)在,利利用在線多維維分析工具,可可以根據(jù)用戶戶常用的多種種分析 角度,事先分析析、考慮構架架好一些輔助助結(jié)構,以便便在查詢時能能盡快抽取到到所要的 記錄,并快速地地從一維轉(zhuǎn)變變到另一維,從從而迅速將不不同角度的信信息展現(xiàn)出來來。 6前臺分析工工具 前臺臺分析工具,包包括聯(lián)機分析析處理工具(OLAP
51、),可以提供供各種分析處處理操作 功能以及簡單易易用的圖形化化界面。圖形形化界面可以以將數(shù)據(jù)倉庫庫的結(jié)果以數(shù)數(shù)字、直 方圖、餅圖、曲曲線等方式,直直觀地提供給給管理決策人人員。管理決決策人員也可可以自 由選擇要分析析的數(shù)據(jù)、定定義分析角度度、顯示分析析結(jié)果。前臺臺分析工具,往往往需要 與多維分析工具具配合,作為為多維分析服服務器的前臺臺界面。 數(shù)據(jù)據(jù)獲取工具、多多維分析及前前臺分析工具具,是數(shù)據(jù)倉倉庫支持進行行決策處理的的 基礎性工具,它它們完成對用用戶數(shù)據(jù)的整整理、觀察和和總結(jié),其作作用是“掌握過去”, 知道“是什么”。在此基礎礎上,再利用用前面提到的的數(shù)據(jù)挖掘,通通過挖掘發(fā)現(xiàn)現(xiàn)問題、 找出
52、規(guī)律,知道道“為什么”,從而預測測未來,達到到真正智能化化決策的效果果。 22數(shù)據(jù)挖掘掘的定義、方方法、算法 221數(shù)據(jù)據(jù)挖掘的定義義 數(shù)據(jù)據(jù)挖掘是利用用了分類、關關聯(lián)性分析、序序列分析、群群集分析、機機器學習、知知 識發(fā)現(xiàn)及其他統(tǒng)統(tǒng)計方法,從從數(shù)據(jù)庫龐大大的數(shù)據(jù)中,找找出隱藏的、未未知的、但對對企 業(yè)經(jīng)營十分有用用的信息【22引。這些信信息是可能有有潛在價值的的支持決策,可可以為企業(yè) 帶來利益,或者者為科學研究究尋找突破口口。 隨著著信息技術的的迅速發(fā)展和和企業(yè)信息化化的深入,企企業(yè)積累的數(shù)數(shù)據(jù)越來越多多。 數(shù)據(jù)的背后應隱隱藏著許多重重要信息企企業(yè)自然希望望能夠?qū)ζ溥M進行更高層次次的分析,
53、以便更好地利用用這些數(shù)據(jù)【22叭。數(shù)據(jù)庫庫系統(tǒng)可以高高效地實現(xiàn)數(shù)數(shù)據(jù)的錄入、修修改、統(tǒng) 計、查詢等功能能,但無法發(fā)發(fā)現(xiàn)數(shù)據(jù)中存存在的關系和和規(guī)則,無法法根據(jù)現(xiàn)有的的數(shù)據(jù)預 測未來的發(fā)展趨趨勢,導致了了“數(shù)據(jù)爆炸但但知識貧乏”的現(xiàn)象。 222數(shù)數(shù)據(jù)挖掘的功功能和方法 1數(shù)據(jù)挖掘的的主要功能 數(shù)據(jù)據(jù)挖掘過程一一般包括數(shù)據(jù)據(jù)抽樣、數(shù)據(jù)據(jù)描述和預處處理、數(shù)據(jù)變變換、模型建建立、 模型評估和發(fā)布布等步驟。數(shù)數(shù)據(jù)挖掘工具具應該能夠為為每個步驟提提供相應的功功能集。 數(shù)據(jù)據(jù)挖掘綜合了了各個學科技技術,有很多多的功能,當當前的主要功功能如下: (1)分類:按照分析對對象的屬性、特特征,建立不不同的組類來來描述
54、事物。例例 如:銀行部門根根據(jù)以前的數(shù)數(shù)據(jù)將客戶分分成了不同的的類別,現(xiàn)在在就可以根據(jù)據(jù)這些來 區(qū)分新申請貸款款的客戶,以以采取相應的的貸款方案。 (2)聚類:識別出分析析對象內(nèi)在的的規(guī)則,按照照這些規(guī)則把把對象分成若若干類。 例如:將申請人人分為高度風風險申請者,中中度風險申請請者,低度風風險申請者。 (3)關聯(lián)規(guī)規(guī)則和序列模模式的發(fā)現(xiàn):關聯(lián)是某種種事物發(fā)生時時其他事物會會發(fā)生 的這樣一種聯(lián)系系。例如:每每天購買啤酒酒的人也有可可能購買香煙煙,比重有多多大,可 以通過關聯(lián)的的支持度和可可信度來描述述。與關聯(lián)不不同,序列是是一種縱向的的聯(lián)系。例 如:今天銀行調(diào)調(diào)整利率,明明天股市的變變化。 (
55、4)預測:把握分析對對象發(fā)展的規(guī)規(guī)律,對未來來的趨勢做出出預見。例如如:對 未來經(jīng)濟發(fā)展的的判斷。 (5)偏差的的檢測;對分分析對象少數(shù)數(shù)的、極端的的特例的描述述,揭示內(nèi)在在的原 因。例如:在銀銀行的1000萬筆交易中中有500例例的欺詐行為為,銀行為了了穩(wěn)健經(jīng)營, 就要發(fā)現(xiàn)這5000例的內(nèi)在在因素,減小小以后經(jīng)營的的風險p。 2決策樹方法法 決策策樹方法起源源于概念學習習系統(tǒng)(CLLS:Conncept Learnning SSystemm),然后發(fā)發(fā) 展到ID3方法法并達到高峰峰,最后又演演化為能處理理連續(xù)屬性的的C45【33”。有名的決決策 樹方法還有CAART和Asssistaant”
56、1。 利用信信息論中的互互信息(信息息增益)尋找找數(shù)據(jù)庫中具具有最大信息息量的字段, 建立一個決策樹樹的節(jié)點,在在根據(jù)字段的的不同取值建建立樹的分支支【3”。在每個分分支子 集中重復建樹的的下層節(jié)點和和分支的過程程,即可建立立決策樹。國國際上最有影影響的和 最早的決策樹方方法是Quiiulan研研制的ID33方法,它對對較大的數(shù)據(jù)據(jù)庫效果較好好。 決策策樹提供了一一種展示類似似在什么條件件下會得到什什么值這類規(guī)規(guī)則的方法【3341。 比如,在大腸癌癌的手術后,要要對大腸癌的的術后情況做做出判斷,圖圖23是為為了解決 這個問題而建立立的一棵決策策樹,從中我我們可以看到到?jīng)Q策樹的基基本組成部分分:
57、決策 節(jié)點、分支和葉葉子【3”。 圖233丈腸癌的決決策樹示意圖圖 決策策樹中最上面面的節(jié)點稱為為根節(jié)點,是是整個決策樹樹的開始。本本例中葉子節(jié)節(jié)點 是“周徑13、周徑 V (00utioook=RaiinWinnd=Weaak)。 圖3319決策策樹的公式表表示方法 決決策樹的優(yōu)點點 可以以生成可以理理解的規(guī)則;計算量相對對來說不是很很大;可以處處理連續(xù)和離離散 字段;決策樹可可以清晰的顯顯示哪些字段段比較重要 決決策樹的常見見問題 1避免過度擬擬合數(shù)據(jù) 基本本的決策樹構構造算法沒有有考慮噪聲,生生成的決策樹樹完全與訓練練例子擬合。 有噪聲情況下,完完全擬合將導導致過分擬合合(overrfi
58、ttiing),即即對訓練數(shù)據(jù)據(jù)的完全 擬合反而不具有有很好的預測測性能。 解決決方法 剪枝枝是一種克服服噪聲的技術術,同時它也也能使樹得到到簡化而變得得更容易理解解。 向前前剪枝(foorwardd prunning) 向后后剪枝(baackwarrd pruuning) 理論論上講,向后后剪枝好于向向前剪枝,但但計算復雜度度大。剪枝過過程中一般要要涉 及一些統(tǒng)計參數(shù)數(shù)或閾值,如如停機閾值;有人提出了了一種和統(tǒng)計計參數(shù)無關的的基于最 小描述的有效剪剪枝法。 剪枝數(shù)據(jù)集的選選擇 選擇擇與生成決策策樹數(shù)據(jù)集不不同的數(shù)據(jù)進進行剪枝 例如如使用訓練集集23的數(shù)數(shù)據(jù)生成樹,另另外13的的數(shù)據(jù)用于剪剪枝
59、(代價復復雜性 算法)。但是當當訓練數(shù)據(jù)集集比較小時,這這樣很容易導導致過學習。當當缺乏獨立剪剪枝數(shù) 據(jù)集時可以采用用交叉有效性性來判斷決策策樹的有效性性。 交叉叉有效性:將將訓練集T分分成互不相交交且大小相等等的k個子集集T1,T22Tk。 對任意子集Tii,用TTi訓練決決策樹,用TTi測試決策策樹的錯誤率率ei,然后后估計 整個算法的錯誤誤率見式(335): 1士 822i二島 (35) 2合并連續(xù)值值屬性 屬性性選擇的其他他度量標準 信息息增益比(ggainraatio)、距距離度量(ddistanncemeaasure)等。不同的的度量 有不同的效果,特特別是對于多多值屬性。 3處理
60、缺少屬屬性值的訓練練樣例 4處理不同代代價的屬性 lDD3算法介紹紹 創(chuàng)建樹的Rooot結(jié)點 如果Exampples都為為正,那么返返回labeel=+中的的單結(jié)點Rooot 如果Exampples都為為反,那么返返回lablle=一單結(jié)結(jié)點樹Rooot 如果Attriibutess為空,那么么返回單節(jié)點點樹Roott,lablle=Exaampless中最普遍的的目 標屬性值 否則開始 A(-Attriibutess中分類能力力最好的屬性性 Rooot的決策屬屬性(-A 對于每每個可能值 在Rooot下加一個個新的分支對對應測試A=vi 令Exaample-vi為Exxamplees中滿足A
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版新能源汽車充電站運營管理承包合同3篇
- 二零二四年度新能源企業(yè)個人生物質(zhì)燃料購銷合同3篇
- 二零二四年度新能源技術研發(fā)人力輸出合同3篇
- 二零二四年離婚協(xié)議及財產(chǎn)分割及子女監(jiān)護撫養(yǎng)贍養(yǎng)權合同11篇
- 2025年度打印紙環(huán)保技術研發(fā)合作采購合同4篇
- 二零二五年度電梯房租賃與健身房運營管理協(xié)議3篇
- 二零二五年度出借信息咨詢與金融創(chuàng)新產(chǎn)品研發(fā)合同4篇
- 二零二五年度旅游景區(qū)場地租賃與旅游產(chǎn)品開發(fā)合同3篇
- 二零二四年石材荒料國際貿(mào)易合同2篇
- 2025年電梯門套綠色產(chǎn)品認證與評價合同3篇
- 外科手術鋪巾順序
- 創(chuàng)新者的窘境讀書課件
- 綜合素質(zhì)提升培訓全面提升個人綜合素質(zhì)
- 如何克服高中生的社交恐懼癥
- 聚焦任務的學習設計作業(yè)改革新視角
- 淋巴瘤患者的護理
- 移動商務內(nèi)容運營(吳洪貴)任務三 APP的品牌建立與價值提供
- 電子競技范文10篇
- 食堂服務質(zhì)量控制方案與保障措施
- VI設計輔助圖形設計(2022版)
- 眼科學??己喆痤}
評論
0/150
提交評論