




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課程簡(jiǎn)介介:1.為為什么出出現(xiàn)數(shù)據(jù)據(jù)倉(cāng)庫(kù)與與數(shù)據(jù)挖挖掘?啤酒與尿尿布7-112.研研究?jī)?nèi)容容從海量數(shù)數(shù)據(jù)中找找到規(guī)律律與聯(lián)系系,為決決策提供供支持3.數(shù)據(jù)倉(cāng)庫(kù)庫(kù)與數(shù)據(jù)據(jù)庫(kù)的不不同數(shù)據(jù)庫(kù)與與數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)主要學(xué)習(xí)習(xí)內(nèi)容:第一篇數(shù)數(shù)據(jù)據(jù)倉(cāng)庫(kù)與與OLAP數(shù)據(jù)倉(cāng)庫(kù)庫(kù)聯(lián)機(jī)分析析處理技技術(shù)(OLAP)數(shù)據(jù)預(yù)處處理技術(shù)術(shù)數(shù)據(jù)清洗洗數(shù)據(jù)集成成和變換換數(shù)據(jù)約簡(jiǎn)簡(jiǎn)第二篇數(shù)數(shù)據(jù)挖挖掘數(shù)據(jù)挖掘掘技術(shù)關(guān)聯(lián)規(guī)則則挖掘、分類(lèi)、聚類(lèi)分分析數(shù)據(jù)挖掘掘在各領(lǐng)領(lǐng)域的應(yīng)應(yīng)用等。主要參考考書(shū):1數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)Inmon W.H著著機(jī)機(jī)械工業(yè)業(yè)出版社社2數(shù)數(shù)據(jù)挖掘掘 概概念與與技術(shù)Jiawei Han& Micheline
2、Kamber著著機(jī)機(jī)械工業(yè)業(yè)出版社社3數(shù)數(shù)據(jù)挖掘掘 朱朱明著著中中國(guó)國(guó)科學(xué)技技術(shù)大學(xué)學(xué)出版社社4數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)與聯(lián)機(jī)機(jī)分析處處理王王珊珊等著著科科學(xué)出版版社考核方法法:考核采取取筆試結(jié)結(jié)合實(shí)驗(yàn)驗(yàn)的方法法:實(shí)驗(yàn)成績(jī)績(jī) 30%筆試成績(jī)績(jī) 70%第一章數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)概述述本章介紹紹了數(shù)據(jù)據(jù)倉(cāng)庫(kù)技技術(shù)產(chǎn)生生的背景景、數(shù)據(jù)據(jù)倉(cāng)庫(kù)的的含義與與特征、數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)與操操作型數(shù)數(shù)據(jù)庫(kù)系系統(tǒng)的區(qū)區(qū)別和數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的基本本體系結(jié)結(jié)構(gòu)。1.1數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的產(chǎn)產(chǎn)生1.2數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的含含義1.3數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的特特征1.4數(shù)數(shù)據(jù)庫(kù)庫(kù)系統(tǒng)與與數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)1.5數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的基基本結(jié)構(gòu)構(gòu)1.6數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的基基本概念念1.7數(shù)數(shù)據(jù)倉(cāng)
3、倉(cāng)庫(kù)的數(shù)數(shù)據(jù)組織織11數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的產(chǎn)產(chǎn)生1.數(shù)數(shù)據(jù)處理理分為兩兩類(lèi):事物處理理分析處理理2.傳傳統(tǒng)數(shù)據(jù)據(jù)庫(kù)較難難滿(mǎn)足分分析處理理的要求求:歷史數(shù)據(jù)據(jù)需求量量大不同系統(tǒng)統(tǒng)的數(shù)據(jù)據(jù)難以集集成(蜘蜘蛛網(wǎng)問(wèn)問(wèn)題)對(duì)大量數(shù)數(shù)據(jù)的訪訪問(wèn)性能能不足事務(wù)處理理和分析析處理數(shù)數(shù)據(jù)環(huán)境境的分離離1.2數(shù)數(shù)據(jù)據(jù)倉(cāng)庫(kù)的的含義對(duì)于什么么是數(shù)據(jù)據(jù)倉(cāng)庫(kù),還有許許多不同同的定義義,如:“數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)是融融合方法法、技術(shù)術(shù)和工具具以在完完整的平平臺(tái)上將將數(shù)據(jù)提提交給終終端用戶(hù)戶(hù)的一種種手段”?!皵?shù)據(jù)倉(cāng)倉(cāng)庫(kù)是對(duì)對(duì)分布在在企業(yè)內(nèi)內(nèi)部各處處的業(yè)務(wù)務(wù)數(shù)據(jù)的的整合、加工和和分析的的過(guò)程”。“數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)是一一種具有有集成性性、穩(wěn)定定性和提
4、提供決策策支持的的處理”?!盀椴樵?xún)?cè)兒头治鑫觯ú皇鞘鞘聞?wù)處處理)而而設(shè)計(jì)的的關(guān)系數(shù)數(shù)據(jù)庫(kù)”20世紀(jì)紀(jì)80年年代中期期,“數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)”這個(gè)個(gè)名詞首首次出現(xiàn)現(xiàn)在號(hào)稱(chēng)稱(chēng)“數(shù)據(jù)據(jù)倉(cāng)庫(kù)之之父”W.H.Inmon的的Building DataWarehouse一書(shū)書(shū)中,在在該書(shū)中中,W.H.Inmon把數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)定義為為“一個(gè)個(gè)面向主主題的、集成的的、穩(wěn)定定的、隨隨時(shí)間變變化的數(shù)數(shù)據(jù)的集集合,以以用于支支持管理理決策過(guò)過(guò)程?!保ā癆 datawarehouse is asubject-oriented,integrated,non-volatile, time-variantcollection of
5、 datainsupportofmanagement decisions.”)William H.Inmon:數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)是一一個(gè)面向主題題的、集成的、非易失的的且隨時(shí)間變變化的數(shù)據(jù)集合合,用于于支持管管理人員員的決策。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)之父-BillInmon1.3數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的特特征數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的數(shù)據(jù)據(jù)是面向向主題的的數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的數(shù)據(jù)據(jù)是集成成的數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的數(shù)據(jù)據(jù)是非易易失的數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的數(shù)據(jù)據(jù)是隨時(shí)時(shí)間不斷斷變化的的面向主題題主題(Subject):特特定的數(shù)數(shù)據(jù)分析析領(lǐng)域與與目標(biāo)。面向主題題:為特特定的數(shù)數(shù)據(jù)分析析領(lǐng)域提提供數(shù)據(jù)據(jù)支持。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)是面向向分析、決策人人員的主主觀要求求的,不不同的用用
6、戶(hù)有不不同的要要求,同同一個(gè)用用戶(hù)的要要求也會(huì)會(huì)隨時(shí)間間而經(jīng)常常變化,因此,數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中的的主題有有時(shí)會(huì)因因用戶(hù)主主觀要求求的變化化而變化化的。面向主題題為特定數(shù)數(shù)據(jù)分析析領(lǐng)域提提供的數(shù)數(shù)據(jù)與傳傳統(tǒng)數(shù)據(jù)據(jù)庫(kù)中的的數(shù)據(jù)是是有不同同的。傳傳統(tǒng)數(shù)據(jù)據(jù)庫(kù)中的的數(shù)據(jù)是是原始的的、基礎(chǔ)礎(chǔ)的數(shù)據(jù)據(jù),而特特定分析析領(lǐng)域數(shù)數(shù)據(jù)則是是需要對(duì)對(duì)它們作作必要的的抽取、加工與與總結(jié)而而形成。面向主題題示例例:一個(gè)個(gè)面向事事務(wù)處理理的“商場(chǎng)”數(shù)據(jù)庫(kù)系系統(tǒng),其其數(shù)據(jù)模模式如下下采購(gòu)子系系統(tǒng):訂單(訂訂單號(hào),供應(yīng)商商號(hào),總總金額,日期)訂單細(xì)則則(訂單單號(hào),商商品號(hào),類(lèi)別,單價(jià),數(shù)量)供應(yīng)商(供應(yīng)商商號(hào),供供應(yīng)商名名,地址址
7、,電話(huà)話(huà))銷(xiāo)售子系系統(tǒng):顧客(顧顧客號(hào),姓名,性別,年齡,文化程程度,地地址,電電話(huà))銷(xiāo)售(員員工號(hào),顧客號(hào)號(hào),商品品號(hào),數(shù)數(shù)量,單單價(jià),日日期)面向主題題示例庫(kù)存管理理子系統(tǒng)統(tǒng):領(lǐng)料單(領(lǐng)料單單號(hào),領(lǐng)領(lǐng)料人,商品號(hào)號(hào),數(shù)量量,日期期)進(jìn)料單(進(jìn)料單單號(hào),訂訂單號(hào),進(jìn)料人人,收料料人,日日期)庫(kù)存(商商品號(hào),庫(kù)房號(hào)號(hào),庫(kù)存存量,日日期)庫(kù)房(庫(kù)庫(kù)房號(hào),倉(cāng)庫(kù)管管理員,地點(diǎn),庫(kù)存商商品描述述)人事管理理子系統(tǒng)統(tǒng):?jiǎn)T工(員員工號(hào),姓名,性別,年齡,文化程程度,部部門(mén)號(hào))部門(mén)(部部門(mén)號(hào),部門(mén)名名稱(chēng),部部門(mén)主管管,電話(huà)話(huà))面向主題題示例如果按照照面向主主題的方方式進(jìn)行行數(shù)據(jù)組組織,首首先應(yīng)該該抽取主主題
8、,即即按照管管理人員員的分析析要求來(lái)來(lái)確定主主題,而而與每個(gè)個(gè)主題相相關(guān)的數(shù)數(shù)據(jù)又與與有關(guān)的的事務(wù)處處理所需需的數(shù)據(jù)據(jù)不盡相相同。在每個(gè)主主題中,都包含含了有關(guān)關(guān)該主題題的所有有信息,同時(shí)又又拋棄了了與分析析處理無(wú)無(wú)關(guān)或不不需要的的數(shù)據(jù),從而將將原本分分散在各各個(gè)子系系統(tǒng)中的的有關(guān)信信息集中中在一個(gè)個(gè)主題中中,形成成有關(guān)該該主題的的一個(gè)完完整一致致的描述述。面向向主題的的數(shù)據(jù)組組織方式式所強(qiáng)調(diào)調(diào)的就是是要形成成一個(gè)這這樣一致致的信息息集合主題一:商品商品固有有信息:商品號(hào)號(hào),商品品名,類(lèi)類(lèi)別,顏顏色等商品采購(gòu)購(gòu)信息:商品號(hào)號(hào),供應(yīng)應(yīng)商號(hào),供應(yīng)價(jià)價(jià),供應(yīng)應(yīng)日期,供應(yīng)量量等商品銷(xiāo)售售信息:商品號(hào)號(hào)
9、,顧客客號(hào),售售價(jià),銷(xiāo)銷(xiāo)售日期期,銷(xiāo)售售量等商品庫(kù)存存信息:商品號(hào)號(hào),庫(kù)房房號(hào),庫(kù)庫(kù)存量,日期等等主題二:供應(yīng)商供應(yīng)商固固有信息息:供應(yīng)應(yīng)商號(hào),供應(yīng)商商名,地地址,電電話(huà)等供應(yīng)商品品信息:供應(yīng)商商號(hào),商商品號(hào),供應(yīng)價(jià)價(jià),供應(yīng)應(yīng)日期,供應(yīng)量量等主題三:顧客顧客固有有信息:顧客號(hào)號(hào),顧客客名,性性別,年年齡,文文化程度度,住址址,電話(huà)話(huà)等顧客購(gòu)物物信息:顧客號(hào)號(hào),商品品號(hào),售售價(jià),購(gòu)購(gòu)買(mǎi)日期期,購(gòu)買(mǎi)買(mǎi)量等)示例了一一個(gè)電信信企業(yè)的的情況。計(jì)費(fèi)數(shù)據(jù)據(jù)庫(kù):計(jì)計(jì)費(fèi)數(shù)據(jù)據(jù)庫(kù)記錄錄了客戶(hù)戶(hù)的消費(fèi)費(fèi)情況財(cái)務(wù)數(shù)據(jù)據(jù)庫(kù):財(cái)財(cái)務(wù)數(shù)據(jù)據(jù)庫(kù)記錄錄了客戶(hù)戶(hù)的繳費(fèi)費(fèi)情況客戶(hù)服務(wù)務(wù)數(shù)據(jù)庫(kù)庫(kù):客戶(hù)戶(hù)的咨詢(xún)?cè)兒屯对V訴情況如果直接
10、接基于傳傳統(tǒng)數(shù)據(jù)據(jù)庫(kù)系統(tǒng)統(tǒng)進(jìn)行“客戶(hù)”和“收收益”信信息的分分析,則則需要訪訪問(wèn)多個(gè)個(gè)數(shù)據(jù)庫(kù)庫(kù)才能獲獲得客戶(hù)戶(hù)或收益益各個(gè)側(cè)側(cè)面的信信息(收收益主題題需從計(jì)計(jì)費(fèi)數(shù)據(jù)據(jù)庫(kù)和財(cái)財(cái)務(wù)數(shù)據(jù)據(jù)庫(kù)中了了解公司司各項(xiàng)業(yè)業(yè)務(wù)的收收入情況況;客戶(hù)戶(hù)主題則則要從計(jì)計(jì)費(fèi)數(shù)據(jù)據(jù)庫(kù)、財(cái)財(cái)務(wù)數(shù)據(jù)據(jù)庫(kù)、客客戶(hù)服務(wù)務(wù)數(shù)據(jù)庫(kù)庫(kù)中獲得得客戶(hù)消消費(fèi)、交交費(fèi)、咨咨詢(xún)等全全方位的的信息。),這這樣將極極大的影影響系統(tǒng)統(tǒng)處理的的時(shí)間和和效率,并且數(shù)數(shù)據(jù)之間間的不一一致性和和不同步步等問(wèn)題題將影響響決策的的可靠性性。而以以“客戶(hù)戶(hù)”和“收益”主題組組織的數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù),將某某個(gè)主題題的全部部相關(guān)數(shù)數(shù)據(jù)集中中于一個(gè)個(gè)地方,這樣決決策者可可以非
11、常常方便地地在數(shù)據(jù)據(jù)倉(cāng)庫(kù)中中的一個(gè)個(gè)位置檢檢索包含含某個(gè)主主題的所所有數(shù)據(jù)據(jù)。面向主題題每個(gè)主題題所需數(shù)數(shù)據(jù)的物物理存儲(chǔ)儲(chǔ):多維數(shù)據(jù)據(jù)庫(kù)(MDDBMulti-DimensionalDataBase)用用多維數(shù)數(shù)組形式式存儲(chǔ)數(shù)數(shù)據(jù)。關(guān)系數(shù)據(jù)據(jù)庫(kù)。用一組關(guān)關(guān)系來(lái)組組織數(shù)據(jù)據(jù)的存儲(chǔ)儲(chǔ),同一一主題的的一組關(guān)關(guān)系都有有一個(gè)公共的關(guān)關(guān)鍵字,存放的的也不是是細(xì)節(jié)性性的業(yè)務(wù)務(wù)數(shù)據(jù),而是經(jīng)經(jīng)過(guò)一定定程度的的綜合形形成的綜綜合性數(shù)數(shù)據(jù)。集成的數(shù)據(jù)是分分散的;由于事事務(wù)處理理應(yīng)用分分散、蜘蜘蛛網(wǎng)問(wèn)問(wèn)題、數(shù)數(shù)據(jù)不一一致問(wèn)題題、外部部數(shù)據(jù)和和非結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中的數(shù)數(shù)據(jù)是為為分析服服務(wù)的,而分析析需要多多種廣
12、泛泛的不同同數(shù)據(jù)源源以便進(jìn)進(jìn)行比較較、鑒別別,因此此數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中的的數(shù)據(jù)必必須從多多個(gè)數(shù)據(jù)據(jù)源中獲獲取,這這些數(shù)據(jù)據(jù)源包括括多種類(lèi)類(lèi)型數(shù)據(jù)據(jù)庫(kù)、文文件系統(tǒng)統(tǒng)以及Internet網(wǎng)上上數(shù)據(jù)等等,它們們通過(guò)數(shù)數(shù)據(jù)集成成而形成成數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中的的數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中存儲(chǔ)儲(chǔ)的數(shù)據(jù)據(jù)一般從從企業(yè)原原來(lái)已建建立的數(shù)數(shù)據(jù)庫(kù)系系統(tǒng)中提提取出來(lái)來(lái),但并并不是原原有數(shù)據(jù)據(jù)的簡(jiǎn)單單拷貝,而是經(jīng)經(jīng)過(guò)了抽抽取、篩篩選、清清理、綜綜合等工工作。這這是因?yàn)闉椋?)原原有數(shù)據(jù)據(jù)庫(kù)系統(tǒng)統(tǒng)記錄的的是每一一項(xiàng)業(yè)務(wù)務(wù)處理的的流水帳帳,這些些數(shù)據(jù)不不適合于于分析處處理。在在進(jìn)入數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)之前必必須經(jīng)過(guò)過(guò)綜合、計(jì)算,同時(shí)拋拋棄一些些分析處
13、處理不需需要的數(shù)數(shù)據(jù)項(xiàng),必要時(shí)時(shí)還要增增加一些些可能涉涉及的外外部數(shù)據(jù)據(jù)。2)數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)每一個(gè)個(gè)主題所所對(duì)應(yīng)的的源數(shù)據(jù)據(jù)在源分分散數(shù)據(jù)據(jù)庫(kù)中有有許多重重復(fù)或不不一致之之處,必必須將這這些數(shù)據(jù)據(jù)轉(zhuǎn)換成成全局統(tǒng)統(tǒng)一的定定義,消消除不一一致和錯(cuò)錯(cuò)誤之處處,以保保證數(shù)據(jù)據(jù)的質(zhì)量量;顯然然,對(duì)不不準(zhǔn)確,甚至不不正確的的數(shù)據(jù)分分析得出出的結(jié)果果將不能能用于指指導(dǎo)企業(yè)業(yè)做出科科學(xué)的決決策。3)源源數(shù)據(jù)加加載到數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)后,還還要根據(jù)據(jù)決策分分析的需需要對(duì)這這些數(shù)據(jù)據(jù)進(jìn)行概概括、聚聚集處理理。事實(shí)上,決策支支持系統(tǒng)統(tǒng)需要集集成的數(shù)數(shù)據(jù)。全全面而正正確的數(shù)數(shù)據(jù)是有有效地分分析和決決策的首首要前提提,相關(guān)關(guān)數(shù)
14、據(jù)收收集得越越完整,得到的的結(jié)果就就越可靠靠。因此此,對(duì)源源數(shù)據(jù)的的集成是是數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)建設(shè)設(shè)中最關(guān)關(guān)鍵,也也是最復(fù)復(fù)雜的一一步。集成的集成的集成的方方法:統(tǒng)一:消消除不一一致的現(xiàn)現(xiàn)象綜合:對(duì)對(duì)原有數(shù)數(shù)據(jù)進(jìn)行行綜合和和計(jì)算需要考慮慮的問(wèn)題題:數(shù)據(jù)格式式計(jì)量單位位數(shù)據(jù)代碼碼含義混混亂數(shù)據(jù)名稱(chēng)稱(chēng)混亂非易失的的數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中的數(shù)數(shù)據(jù)是經(jīng)經(jīng)過(guò)抽取取而形成成的分析析型數(shù)據(jù)據(jù),不具具有原始始性,主主要供企企業(yè)決策策分析之之用,執(zhí)執(zhí)行的主主要是查詢(xún)操作,一一般情況況下不執(zhí)執(zhí)行更新操作。同同時(shí),一一個(gè)穩(wěn)定定的數(shù)據(jù)據(jù)環(huán)境也也有利于于數(shù)據(jù)分分析操作作和決策策的制訂訂。但這也不不等于數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中的數(shù)數(shù)據(jù)不需需要更新操
15、作。在需要進(jìn)進(jìn)行新的的分析決決策時(shí),可能需需要進(jìn)行行新的數(shù)數(shù)據(jù)抽取取和更新操作數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中的一一些過(guò)時(shí)時(shí)的數(shù)據(jù)據(jù),也可可以通過(guò)過(guò)刪除操作丟棄棄掉。因此數(shù)據(jù)據(jù)倉(cāng)庫(kù)的的存儲(chǔ)管管理相對(duì)對(duì)于DBMS來(lái)來(lái)說(shuō)要簡(jiǎn)簡(jiǎn)單得多多。隨時(shí)間不不斷變化化數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中的數(shù)數(shù)據(jù)必須須以一定定時(shí)間段段為單位位進(jìn)行統(tǒng)統(tǒng)一更新新。不斷增加加新的數(shù)數(shù)據(jù)內(nèi)容容不斷刪去去舊的數(shù)數(shù)據(jù)內(nèi)容容更新與時(shí)時(shí)間有關(guān)關(guān)的綜合合數(shù)據(jù)1.4數(shù)數(shù)據(jù)據(jù)倉(cāng)庫(kù)與與傳統(tǒng)數(shù)數(shù)據(jù)庫(kù)的的比較1.兩兩個(gè)系系統(tǒng)的主主要區(qū)別別2.兩兩個(gè)系系統(tǒng)的查查詢(xún)支持持不同3.兩兩個(gè)系系統(tǒng)數(shù)據(jù)據(jù)組織模模式不同同1兩兩個(gè)系統(tǒng)統(tǒng)的主要要區(qū)別傳統(tǒng)數(shù)據(jù)據(jù)庫(kù)系統(tǒng)統(tǒng)的主要要任務(wù)是是執(zhí)行聯(lián)聯(lián)機(jī)事務(wù)務(wù)
16、和查詢(xún)?cè)兲幚怼_@種系系統(tǒng)稱(chēng)為為聯(lián)機(jī)事事務(wù)處理理(OLTP)系統(tǒng)。它們涵涵蓋了一一個(gè)組織織的大部部分日常常操作,如購(gòu)買(mǎi)買(mǎi)、庫(kù)存存、制造造、銀行行、工資資、注冊(cè)冊(cè)、記帳帳等。另另一方面面,數(shù)據(jù)據(jù)倉(cāng)庫(kù)系系統(tǒng)在數(shù)數(shù)據(jù)分析析和決策策支持方方面提供供服務(wù)。這種系系統(tǒng)稱(chēng)為為聯(lián)機(jī)分分析處理理(OLAP)系統(tǒng)。兩個(gè)系統(tǒng)統(tǒng)的主要要區(qū)別概概括如下下:數(shù)據(jù)內(nèi)容容:數(shù)據(jù)庫(kù)庫(kù)系統(tǒng)管管理當(dāng)前前數(shù)據(jù)。通常,這種數(shù)數(shù)據(jù)太瑣瑣碎,難難以用于于決策。數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)系統(tǒng)統(tǒng)管理大大量歷史史的、存存檔的、歸納的的、計(jì)算算的數(shù)據(jù)據(jù),提供供匯總和和聚集機(jī)機(jī)制,并并在不同同的粒度度級(jí)別上上存儲(chǔ)和和管理信信息。這這種特點(diǎn)點(diǎn)使得系系統(tǒng)容易易用于“見(jiàn)多
17、識(shí)識(shí)廣”的的決策。數(shù)據(jù)目標(biāo)標(biāo):數(shù)據(jù)庫(kù)庫(kù)系統(tǒng)是是面向業(yè)業(yè)務(wù)操作作,用于于辦事員員、客戶(hù)戶(hù)和信息息技術(shù)專(zhuān)專(zhuān)業(yè)人員員的事務(wù)務(wù)和查詢(xún)?cè)兲幚?。?shù)據(jù)倉(cāng)倉(cāng)庫(kù)是面面向主題題的,用用于知識(shí)識(shí)工人(包括經(jīng)經(jīng)理、主主管和分分析人員員)的決決策分析析。數(shù)據(jù)特性性:數(shù)據(jù)庫(kù)庫(kù)系統(tǒng)存存儲(chǔ)的是是當(dāng)前數(shù)數(shù)據(jù),數(shù)數(shù)據(jù)是動(dòng)動(dòng)態(tài)變化化的,按按字段進(jìn)進(jìn)行更新新操作。數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中數(shù)數(shù)據(jù)是批批量載入入的、靜靜態(tài)的,系統(tǒng)定定期執(zhí)行行提取過(guò)過(guò)程為數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)增加數(shù)數(shù)據(jù),這這些數(shù)據(jù)據(jù)一旦加加入,一一般不再再?gòu)南到y(tǒng)統(tǒng)中刪除除。數(shù)據(jù)結(jié)構(gòu)構(gòu):數(shù)據(jù)庫(kù)庫(kù)系統(tǒng)采采用面向向應(yīng)用的的數(shù)據(jù)庫(kù)庫(kù)設(shè)計(jì),以高度度結(jié)構(gòu)化化和復(fù)雜雜的形式式組織數(shù)數(shù)據(jù),以以適應(yīng)復(fù)復(fù)雜的事事
18、務(wù)操作作計(jì)算的的需求。數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)通常常采用面面向主題題的星型型或雪花花數(shù)據(jù)組組織模式式,以適適應(yīng)分析析決策,數(shù)據(jù)結(jié)結(jié)構(gòu)簡(jiǎn)單單。2兩兩個(gè)系統(tǒng)統(tǒng)的查詢(xún)?cè)冎С植徊煌琌LTP系統(tǒng)是是為了快快速回答答簡(jiǎn)單查查詢(xún),而而不是為為了存儲(chǔ)儲(chǔ)分析趨趨勢(shì)的歷歷史數(shù)據(jù)據(jù)而創(chuàng)建建的。一一般的,OLTP提供供了大量量的原始始數(shù)據(jù),這些數(shù)數(shù)據(jù)不易易被分析析。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)需要回回答更復(fù)復(fù)雜的查查詢(xún),而而不僅僅僅是一些些像“英英國(guó)主要要城市的的商品平平均銷(xiāo)售售價(jià)格是是多少”之類(lèi)的的簡(jiǎn)單聚聚集數(shù)據(jù)據(jù)查詢(xún)。數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)需要要回答的的查詢(xún)類(lèi)類(lèi)型可以以是簡(jiǎn)單單的查詢(xún)?cè)儯部煽梢允歉吒叨葟?fù)雜雜的,且且還與終終端用戶(hù)戶(hù)使用的的查詢(xún)工工具相關(guān)關(guān)
19、。以下是某某數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)支持持的一些些查詢(xún)示示例:2008年第三三季度,整個(gè)英英格蘭的的總收入入是多少少?2007年英國(guó)國(guó)每一類(lèi)類(lèi)房產(chǎn)銷(xiāo)銷(xiāo)售的總總收入是是多少?2008年租借借房產(chǎn)業(yè)業(yè)務(wù)中每每個(gè)城市市哪個(gè)地地域最受受歡迎?與過(guò)去去的兩年年相比有有何不同同?每個(gè)分支支機(jī)構(gòu)本本月的房房產(chǎn)銷(xiāo)售售月收入入是多少少,并與與剛過(guò)去去的12個(gè)月相相比較。如果對(duì)于于10萬(wàn)萬(wàn)英鎊以以上的房房產(chǎn),法法定價(jià)格格上升3.5%而政府府稅收下下降1.5%,對(duì)英國(guó)國(guó)不同區(qū)區(qū)域的銷(xiāo)銷(xiāo)售會(huì)產(chǎn)產(chǎn)生什么么影響?在英國(guó)主主要城市市中,哪哪種類(lèi)型型的房產(chǎn)產(chǎn)銷(xiāo)售價(jià)價(jià)格高于于平均房房產(chǎn)銷(xiāo)售售價(jià)格?這與人人口統(tǒng)計(jì)計(jì)數(shù)據(jù)有有何聯(lián)系系?3兩兩個(gè)系
20、統(tǒng)統(tǒng)數(shù)據(jù)組組織模式式示例比比較從上述實(shí)實(shí)例,不不難看出出:1)在從從面向應(yīng)應(yīng)用到面面向主題題的轉(zhuǎn)變變過(guò)程中中,丟棄棄了原來(lái)來(lái)有的但但不必要要的、不不適于分分析的信信息;2)在原原有的數(shù)數(shù)據(jù)庫(kù)模模式中,有關(guān)商商品的信信息分散散在各個(gè)個(gè)子系統(tǒng)統(tǒng)之中;面向主主題的數(shù)數(shù)據(jù)組織織方式所所強(qiáng)調(diào)的的就是要要形成關(guān)關(guān)于主題題一致的的信息集集合;3)不同同主題之之間有重重疊內(nèi)容容。1.5數(shù)數(shù)據(jù)據(jù)倉(cāng)庫(kù)的的系統(tǒng)結(jié)結(jié)構(gòu)1.三三層數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)服務(wù)器器OLAP服務(wù)器器前端工具具2.數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的運(yùn)運(yùn)行結(jié)構(gòu)構(gòu)兩層數(shù)據(jù)據(jù)倉(cāng)庫(kù)結(jié)結(jié)構(gòu)多層數(shù)據(jù)據(jù)倉(cāng)庫(kù)結(jié)結(jié)構(gòu)1.三層數(shù)據(jù)據(jù)倉(cāng)庫(kù)結(jié)結(jié)構(gòu)原則上,數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的系系統(tǒng)結(jié)構(gòu)構(gòu)被劃分
21、分為三層層:數(shù)據(jù)據(jù)倉(cāng)庫(kù)服服務(wù)器、OLAP服務(wù)務(wù)器和前前端工具具。1)底底層是數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)服務(wù)器器,它幾幾乎總是是一個(gè)關(guān)關(guān)系數(shù)據(jù)據(jù)庫(kù)系統(tǒng)統(tǒng)。數(shù)據(jù)據(jù)倉(cāng)庫(kù)系系統(tǒng)使用用后端工工具和實(shí)實(shí)用程序序從操作作數(shù)據(jù)庫(kù)庫(kù)和外部部信息源源加載和和刷新它它的數(shù)據(jù)據(jù),這些些機(jī)制統(tǒng)統(tǒng)稱(chēng)ETL(Extract/Transformation/Load)工具具,它們們具有數(shù)數(shù)據(jù)抽取取、數(shù)據(jù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換、數(shù)數(shù)據(jù)加載載和數(shù)據(jù)據(jù)刷新等等功能。此外,這一層層還包含含一個(gè)元元數(shù)據(jù)存存儲(chǔ),它它是關(guān)于于數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)和數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中數(shù)據(jù)據(jù)的信息息。2)中中間層是是OLAP服務(wù)務(wù)器,其其典型的的實(shí)現(xiàn)有有:()關(guān)系系OLAP(ROLAP)模模
22、型,即即擴(kuò)展的的關(guān)系DBMS,它將將多維數(shù)數(shù)據(jù)上的的操作映映射為標(biāo)標(biāo)準(zhǔn)的關(guān)關(guān)系操作作;()多維維OLAP(MOALP)模模型,一一種特殊殊的服務(wù)務(wù)器,它它直接實(shí)實(shí)現(xiàn)多維維數(shù)據(jù)操操作。3)頂頂層是客客戶(hù),它它包括查查詢(xún)和報(bào)報(bào)告工具具、分析析工具和和/或數(shù)數(shù)據(jù)挖掘掘工具(例如關(guān)關(guān)聯(lián)分析析、分類(lèi)類(lèi)分析、預(yù)測(cè)等等)。過(guò)程模型型數(shù)據(jù)倉(cāng)庫(kù)庫(kù)管理系系統(tǒng)元數(shù)據(jù)多維關(guān)系系數(shù)據(jù)庫(kù)多維數(shù)據(jù)庫(kù)外部操作作型數(shù)據(jù)數(shù)據(jù)抽取取數(shù)據(jù)清潔潔數(shù)據(jù)裝載載管理平臺(tái)臺(tái)報(bào)表查詢(xún)?cè)児ぞ邤?shù)據(jù)挖掘掘工具OLAP工具倉(cāng)庫(kù)管理理數(shù)據(jù)據(jù)建模數(shù)據(jù)建模模是建立立數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的數(shù)數(shù)據(jù)模型型。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的數(shù)據(jù)據(jù)模型不不同于數(shù)數(shù)據(jù)庫(kù)的的數(shù)據(jù)模模型在于于:數(shù)據(jù)倉(cāng)庫(kù)
23、庫(kù)只為決決策分析析用,不不包含事事務(wù)處理理的數(shù)據(jù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的增加加了時(shí)間間屬性數(shù)數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)增加了了一些綜綜合數(shù)據(jù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的數(shù)據(jù)據(jù)建模是是適應(yīng)決決策用戶(hù)戶(hù)使用的的邏輯數(shù)數(shù)據(jù)模型型。倉(cāng)庫(kù)管理理元數(shù)數(shù)據(jù)管理理最基本的的元數(shù)據(jù)據(jù)相當(dāng)于于數(shù)據(jù)庫(kù)庫(kù)系統(tǒng)中中的數(shù)據(jù)據(jù)字典。元數(shù)據(jù)定定義了數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)有什么么,指明明了數(shù)據(jù)據(jù)倉(cāng)庫(kù)中中數(shù)據(jù)的的內(nèi)容和和位置,刻畫(huà)了了數(shù)據(jù)的的抽取和和轉(zhuǎn)換規(guī)規(guī)則,存存儲(chǔ)了與與數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)主題題有關(guān)的的各種商商業(yè)信息息,而且且整個(gè)數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的運(yùn)行行都是基基于元數(shù)數(shù)據(jù)的。數(shù)據(jù)源的的元數(shù)據(jù)據(jù)數(shù)據(jù)模型型的元數(shù)數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)映射的的元數(shù)據(jù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)使用的的元數(shù)據(jù)據(jù)倉(cāng)庫(kù)管理理數(shù)據(jù)
24、據(jù)處理異構(gòu)數(shù)據(jù)據(jù)源:企業(yè)內(nèi)部部數(shù)據(jù)存檔的歷歷史數(shù)據(jù)據(jù)企業(yè)的外外部數(shù)據(jù)據(jù)。軟硬件平平臺(tái)不一一致ETL過(guò)過(guò)程抽?。‥xtraction)轉(zhuǎn)換(Transform)裝載(Load)分析工具具查詢(xún)工具具數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的查詢(xún)?cè)儾皇侵钢笇?duì)記錄錄級(jí)數(shù)據(jù)據(jù)的查詢(xún)?cè)儯鞘侵笇?duì)分分析要求求的查詢(xún)?cè)儭?分析工具具多維分析析工具通過(guò)對(duì)信信息的多多種可能能的觀察察形式進(jìn)進(jìn)行快速速、一致致和交互互性的存存取,這這樣便利利用戶(hù)對(duì)對(duì)數(shù)據(jù)進(jìn)進(jìn)行深入入的分析析和觀察察。多維數(shù)據(jù)據(jù)的每一一維代表表對(duì)數(shù)據(jù)據(jù)的一個(gè)個(gè)特定的的觀察視視角,如如時(shí)間、地域、業(yè)務(wù)等等。分析工具具數(shù)據(jù)挖掘掘工具從大量數(shù)數(shù)據(jù)中挖挖掘具有有規(guī)律性性知識(shí),需要利利用數(shù)
25、據(jù)據(jù)挖掘(DataMining)工具。482.數(shù)據(jù)據(jù)倉(cāng)庫(kù)的的運(yùn)行結(jié)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)應(yīng)用是是一個(gè)典典型的客客戶(hù)/服服務(wù)器(C/S)結(jié)構(gòu)構(gòu)形式:客戶(hù)端所所做的工工作:客客戶(hù)交互互、格式式化查詢(xún)?cè)儭⒔Y(jié)果果顯示、報(bào)表生生成等。服務(wù)器端端完成各各種輔助助決策的的SQL查詢(xún)、復(fù)雜的的計(jì)算和和各類(lèi)綜綜合功能能等。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的運(yùn)行行結(jié)構(gòu)兩層數(shù)據(jù)據(jù)倉(cāng)庫(kù)結(jié)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)服務(wù)器器數(shù)據(jù)邏輯輯數(shù)據(jù)服務(wù)務(wù)元數(shù)據(jù)文件服務(wù)務(wù)客戶(hù)端圖形用戶(hù)戶(hù)接口/表示邏邏輯查詢(xún)規(guī)范范數(shù)據(jù)分析析報(bào)表格式式總結(jié)數(shù)據(jù)訪問(wèn)問(wèn)50解釋釋客戶(hù)/服服務(wù)器(C/S)是網(wǎng)網(wǎng)絡(luò)上一一種重要要的組織織形式。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)在網(wǎng)絡(luò)絡(luò)上都是是以服務(wù)務(wù)器(S
26、erver)形式提提供服務(wù)務(wù),能對(duì)對(duì)網(wǎng)絡(luò)上上多個(gè)客客戶(hù)(Client)同時(shí)提提供服務(wù)務(wù)。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的運(yùn)行行結(jié)構(gòu)多層數(shù)據(jù)據(jù)倉(cāng)庫(kù)結(jié)結(jié)構(gòu)多維數(shù)據(jù)據(jù)服務(wù)器器數(shù)據(jù)倉(cāng)庫(kù)庫(kù)數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)邏輯輯數(shù)據(jù)服務(wù)務(wù)元數(shù)據(jù)文件服務(wù)務(wù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)服務(wù)器器應(yīng)用服務(wù)務(wù)器圖形用戶(hù)戶(hù)接口查詢(xún)規(guī)范范數(shù)據(jù)分析析報(bào)表格式式數(shù)據(jù)訪問(wèn)問(wèn)客戶(hù)端過(guò)濾總結(jié)元數(shù)據(jù)多維視圖圖數(shù)據(jù)訪問(wèn)問(wèn)52OLAP服務(wù)器器將加強(qiáng)強(qiáng)和規(guī)范范化決策策支持的的服務(wù)工工作,集集中和簡(jiǎn)簡(jiǎn)化了原原客戶(hù)端端和數(shù)據(jù)據(jù)倉(cāng)庫(kù)服服務(wù)器的的部分工工作,降降低了系系統(tǒng)數(shù)據(jù)據(jù)傳輸量量。這種結(jié)構(gòu)構(gòu)形式工工作效率率更高。OLAP的三層層C/S結(jié)構(gòu)1.6數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的基基本概念念1.ETL2.元元數(shù)據(jù)(
27、MetaData)3.數(shù)數(shù)據(jù)集市市(DataMarket)4.OLAP)1.ETL(Extract/Transformation/Load)數(shù)數(shù)據(jù)抽取取、轉(zhuǎn)換換、加載載工具ETL工工具就是是進(jìn)行數(shù)數(shù)據(jù)的抽抽取、轉(zhuǎn)轉(zhuǎn)換和加加載。具具體來(lái)講講,ETL工具具包括:數(shù)據(jù)提提取(data extract)、數(shù)據(jù)據(jù)轉(zhuǎn)換(datatransform)、數(shù)據(jù)據(jù)清洗(datacleaning)和和數(shù)據(jù)加加載(data loading)。(1)數(shù)據(jù)提取?。―ataExtract)從數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的角角度來(lái)看看,并不不是業(yè)務(wù)務(wù)數(shù)據(jù)庫(kù)庫(kù)中的所所有數(shù)據(jù)據(jù)都是決決策支持持所必需需的。通通常,數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)按照分分析的主主題來(lái)組
28、組織數(shù)據(jù)據(jù),我們們只需提提取出系系統(tǒng)分析析必需的的那一部部分?jǐn)?shù)據(jù)據(jù)。例如如,某超超市確定定以分析析客戶(hù)的的購(gòu)買(mǎi)行行為為主主題建立立數(shù)據(jù)倉(cāng)倉(cāng)庫(kù),則則我們只只需將與與客戶(hù)購(gòu)購(gòu)買(mǎi)行為為相關(guān)的的數(shù)據(jù)提提取出來(lái)來(lái),而超超市服務(wù)務(wù)員工的的數(shù)據(jù)就就沒(méi)有必必要放進(jìn)進(jìn)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)。現(xiàn)有的數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)產(chǎn)品幾幾乎都提提供各種種關(guān)系型型數(shù)據(jù)接接口,提提供提取取引擎,從關(guān)系系型數(shù)據(jù)據(jù)中提取取數(shù)據(jù)。(2)數(shù)數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換(Data Transform)由于業(yè)務(wù)務(wù)系統(tǒng)可可能使用用不同的的數(shù)據(jù)庫(kù)庫(kù)廠商的的產(chǎn)品,比如IBMDB2、Oracle、Informix、Sybase、 NCRTeradata、SQL Server等,各種數(shù)數(shù)
29、據(jù)庫(kù)產(chǎn)產(chǎn)品提供供的數(shù)據(jù)據(jù)類(lèi)型可可能不同同,因此此,需要要將不同同格式的的數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換成統(tǒng)統(tǒng)一的數(shù)數(shù)據(jù)格式式。如時(shí)時(shí)間格式式“年/月/日日”,“月/日日/年”、“日日-月-年”的的不一致致問(wèn)題等等。(3)數(shù)數(shù)據(jù)清清洗(Data Clean)對(duì)于決策策支持系系統(tǒng)來(lái)說(shuō)說(shuō),最重重要的是是決策的的準(zhǔn)確性性,因此此確保數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中數(shù)據(jù)據(jù)的準(zhǔn)確確性是極極其重要要的。從從多個(gè)業(yè)業(yè)務(wù)系統(tǒng)統(tǒng)中獲取取數(shù)據(jù)時(shí)時(shí),必須須對(duì)數(shù)據(jù)據(jù)進(jìn)行必必要的清清洗,從從而得到到準(zhǔn)確的的數(shù)據(jù)。所謂“清清洗”就就是將錯(cuò)錯(cuò)誤的、不一致致的數(shù)據(jù)據(jù)在進(jìn)入入數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)之前前予以更更正或刪刪除,以以免影響響決策支支持系統(tǒng)統(tǒng)決策的的正確性性。(4)數(shù)數(shù)
30、據(jù)加加載(Data Load)數(shù)據(jù)加載載部件負(fù)負(fù)責(zé)將數(shù)數(shù)據(jù)按照照物理數(shù)數(shù)據(jù)模型型定義的的表結(jié)構(gòu)構(gòu)裝入數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù),包括括清空數(shù)數(shù)據(jù)域、填充空空格、有有效性檢檢查等步步驟。2.元元數(shù)據(jù)(MetaData)元數(shù)據(jù)是描述數(shù)數(shù)據(jù)的數(shù)數(shù)據(jù)。元數(shù)據(jù)通通常包括括:數(shù)據(jù)倉(cāng)庫(kù)庫(kù)結(jié)構(gòu)的的描述信信息,包括倉(cāng)倉(cāng)庫(kù)模式式、視圖圖、維、層次結(jié)結(jié)構(gòu)和導(dǎo)導(dǎo)出數(shù)據(jù)據(jù)的定義義,以及及數(shù)據(jù)集集市的位位置和內(nèi)內(nèi)容。操作元數(shù)數(shù)據(jù),包括數(shù)數(shù)據(jù)血統(tǒng)統(tǒng)信息(來(lái)自何何處以及及如何轉(zhuǎn)轉(zhuǎn)換的),數(shù)據(jù)據(jù)流通信信息(主主動(dòng)的、檔案的的或凈化化的)以以及監(jiān)視視信息(倉(cāng)庫(kù)使使用統(tǒng)計(jì)計(jì)、錯(cuò)誤誤報(bào)告、審計(jì)跟跟蹤)。匯總用的的算法,包括度度量與維維定義算算法,
31、數(shù)數(shù)據(jù)粒度度、分割割、主題題域、聚聚集、匯匯總、預(yù)預(yù)定義查查詢(xún)與報(bào)報(bào)告的算算法。由操作環(huán)環(huán)境到數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的映射射信息,包括源源數(shù)據(jù)庫(kù)庫(kù)和它們們的內(nèi)容容,ETL程序序描述,數(shù)據(jù)分分割、提提取、清清理和轉(zhuǎn)轉(zhuǎn)換的規(guī)規(guī)則和缺缺省,數(shù)數(shù)據(jù)刷新新和裁減減的規(guī)則則以及數(shù)數(shù)據(jù)安全全信息(用戶(hù)授授權(quán)和存存取控制制)。關(guān)于系統(tǒng)統(tǒng)性能的的數(shù)據(jù)信信息,除刷新新、更新新和復(fù)制制周期的的定時(shí)和和調(diào)度的的規(guī)則外外,還包包括改善善數(shù)據(jù)存存取和檢檢索性能能的索引引和配置置。商務(wù)元數(shù)數(shù)據(jù),包括商商務(wù)術(shù)語(yǔ)語(yǔ)和定義義,數(shù)據(jù)據(jù)擁有者者信息和和收費(fèi)策策略。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)包括不不同級(jí)別別的綜合合,元數(shù)數(shù)據(jù)是其其中一種種類(lèi)型。其它類(lèi)類(lèi)型包括括
32、當(dāng)前的的細(xì)節(jié)數(shù)數(shù)據(jù)(幾幾乎總是是在磁盤(pán)盤(pán)上),老的細(xì)細(xì)節(jié)數(shù)據(jù)據(jù)(通常常在三級(jí)級(jí)存儲(chǔ)器器上),稍加綜綜合的數(shù)數(shù)據(jù),以以及高度度綜合的的數(shù)據(jù)(可以存存入倉(cāng)庫(kù)庫(kù)也可以以不存入入)。3.數(shù)數(shù)據(jù)集市市(DataMarket)建立數(shù)據(jù)據(jù)集市的的原因數(shù)據(jù)倉(cāng)庫(kù)庫(kù)是一種種反映主主題的全全局性數(shù)數(shù)據(jù)組織織。但是是,全局局性數(shù)據(jù)據(jù)倉(cāng)庫(kù)往往往太大大,在實(shí)實(shí)際應(yīng)用用中將它它們按部部門(mén)或個(gè)個(gè)人分別別建立反反映各個(gè)個(gè)子主題題的局部部性數(shù)據(jù)據(jù)組織,它們即即是數(shù)據(jù)集市市。因此,有時(shí)我我們也稱(chēng)稱(chēng)它為部門(mén)數(shù)據(jù)據(jù)倉(cāng)庫(kù)。例:在有有關(guān)商品品銷(xiāo)售的的數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中可可以建立立多個(gè)不不同主題題的數(shù)據(jù)據(jù)集市:商品采購(gòu)購(gòu)數(shù)據(jù)集集市庫(kù)房使用用數(shù)據(jù)集
33、集市商品銷(xiāo)售售數(shù)據(jù)集集市60數(shù)據(jù)集市市(DataMarts)是一種種更小、更集中中的數(shù)據(jù)據(jù)倉(cāng)庫(kù),為公司司提供分分析商業(yè)業(yè)數(shù)據(jù)的的一條廉廉價(jià)途徑徑。Data Marts是指具具有特定定應(yīng)用的的數(shù)據(jù)倉(cāng)倉(cāng)庫(kù),主主要針對(duì)對(duì)某個(gè)應(yīng)應(yīng)用或者者具體部部門(mén)級(jí)的的應(yīng)用,支持用用戶(hù)獲得得競(jìng)爭(zhēng)優(yōu)優(yōu)勢(shì)或者者找到進(jìn)進(jìn)入新市市場(chǎng)的具具體解決決方案。數(shù)據(jù)集市市概念數(shù)據(jù)集市市類(lèi)型按照數(shù)據(jù)據(jù)獲取來(lái)來(lái)源:獨(dú)立型:直接從從操作型型環(huán)境獲獲取數(shù)據(jù)據(jù)。從屬型:從企業(yè)業(yè)級(jí)數(shù)據(jù)據(jù)倉(cāng)庫(kù)獲獲取數(shù)據(jù)據(jù)。獨(dú)立數(shù)據(jù)據(jù)集市(IndependentDataMart)從屬數(shù)據(jù)據(jù)集市(Dependent DataMart)4.OLAPOLAP(On-lineAnalytical Processing,在線(xiàn)分分析處理理或聯(lián)機(jī)機(jī)分析處處理)就是一個(gè)個(gè)應(yīng)用廣廣泛的數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)使用技技術(shù)。它它可以根根據(jù)分析析人員的的要求,迅速靈靈活地對(duì)對(duì)大量的的數(shù)據(jù)進(jìn)進(jìn)行復(fù)雜雜的查詢(xún)?cè)兲幚?,并以直直觀的容容易理解解的形式式
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 圖書(shū)修復(fù)與保護(hù)保證館藏書(shū)籍的保存質(zhì)量計(jì)劃
- 專(zhuān)業(yè)品牌營(yíng)銷(xiāo)團(tuán)隊(duì)的組建要點(diǎn)計(jì)劃
- 腦卒中的預(yù)防和護(hù)理
- 發(fā)展團(tuán)隊(duì)領(lǐng)導(dǎo)能力提升團(tuán)隊(duì)士氣計(jì)劃
- 社團(tuán)工作的組織和具體安排計(jì)劃
- 四川峨邊華竹溝礦業(yè)開(kāi)發(fā)有限公司華竹溝磷礦礦山地質(zhì)環(huán)境保護(hù)與土地復(fù)墾方案情況
- 茶飲店基礎(chǔ)知識(shí)培訓(xùn)課件
- 肺部粒子植入患者護(hù)理
- 2025年曲靖貨運(yùn)車(chē)從業(yè)考試題
- 2025年黔東南貨車(chē)資格證考試題
- 2025年安徽機(jī)電職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)完美版
- 實(shí)驗(yàn)室在突發(fā)公共衛(wèi)生事件中的作用和任務(wù)(143)-行政管理
- 三人合伙餐飲合同范本
- (一模)2025年滁州市高三第一次教學(xué)質(zhì)量監(jiān)測(cè) 英語(yǔ)試卷(含標(biāo)準(zhǔn)答案)
- 樹(shù)木栽培與養(yǎng)護(hù)合同樣本2025
- 人教PEP版(2024)三年級(jí)下冊(cè)英語(yǔ)Unit3 Learning better單元整體教學(xué)設(shè)計(jì)(共6課時(shí))
- 2025河南中煙漯河卷煙廠招聘7人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025年安徽工貿(mào)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)(有一套)
- 2025年哈爾濱傳媒職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)完整
- 2025年河南林業(yè)職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)完整版
- 地理-浙江省強(qiáng)基聯(lián)盟2025年2月高三年級(jí)聯(lián)考試題和答案
評(píng)論
0/150
提交評(píng)論