下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、各章節(jié)知識(shí)點(diǎn)及課后習(xí)題。(知識(shí)點(diǎn)事課后習(xí)題的斜體表示)第一章:概論數(shù)據(jù)倉(cāng)庫(kù)定義和特征:數(shù)據(jù)倉(cāng)庫(kù)就是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,用以支持經(jīng)營(yíng)管理中的決策制定過程。第二章:數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與開發(fā)數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)體系結(jié)構(gòu):后臺(tái)數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)管理和數(shù)據(jù)倉(cāng)庫(kù)的前臺(tái)查詢服務(wù)。數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)流程:規(guī)劃與分析階段、設(shè)計(jì)與實(shí)施階段、應(yīng)用階段??偩€型數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu):總線型數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的核心思想是使用統(tǒng)一的維和統(tǒng)一的事實(shí)來(lái)構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)的總線。1.數(shù)據(jù)倉(cāng)庫(kù)的概念模型是用什么來(lái)表達(dá)的,為什么實(shí)體聯(lián)系模型不適用來(lái)建立數(shù)據(jù)倉(cāng)庫(kù)的概念模型?數(shù)據(jù)倉(cāng)庫(kù)的概念模型一般用多維數(shù)據(jù)
2、模型。實(shí)體聯(lián)系模型不適合建立數(shù)據(jù)倉(cāng)庫(kù)是因?yàn)閷?shí)體聯(lián)系使用于事務(wù)性處理,它可以保證數(shù)據(jù)的唯一性、一致性,使操作變得簡(jiǎn)單而高效。但數(shù)據(jù)倉(cāng)庫(kù)是面向分析的應(yīng)用,進(jìn)行分析時(shí)關(guān)心的是一個(gè)個(gè)分析領(lǐng)域,而這不適合用實(shí)體關(guān)系建模,由于分析的各種要素分散在關(guān)心復(fù)雜的各種實(shí)體及其聯(lián)系中,這使得分析難以順利進(jìn)行。2.什么是粒度?粒度的大小與數(shù)據(jù)量、查詢能力、查詢效率有什么關(guān)系?粒度是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別,越是詳細(xì)的數(shù)據(jù),粒度級(jí)別就越小。粒度越小,數(shù)據(jù)量越大,查詢能力越高,查詢效率越低3.什么叫數(shù)據(jù)分割?怎么確定數(shù)據(jù)分割的標(biāo)準(zhǔn)?數(shù)據(jù)分割是指把打的數(shù)據(jù)集劃分為多個(gè)較小的數(shù)據(jù)集,并分散到不同的
3、物理單元進(jìn)行存儲(chǔ),使他們能獨(dú)立的被處理。數(shù)據(jù)分割的標(biāo)準(zhǔn)一般基于兩方面:數(shù)據(jù)量:數(shù)據(jù)量的大小是決定是否要進(jìn)行數(shù)據(jù)分割以及如何分割的主要因素。分析對(duì)象性質(zhì):不同的性質(zhì)的主題數(shù)據(jù),其分割的標(biāo)準(zhǔn)可能不同。第三章:數(shù)據(jù)倉(cāng)庫(kù)的管理技術(shù)數(shù)據(jù)倉(cāng)庫(kù)三類數(shù)據(jù):休眠數(shù)據(jù)、元數(shù)據(jù)、臟數(shù)據(jù)。休眠數(shù)據(jù):存在于數(shù)據(jù)倉(cāng)庫(kù)中、當(dāng)前并不使用、將來(lái)也很少使用或者根本就不會(huì)使用的數(shù)據(jù)。休眠數(shù)據(jù)進(jìn)入數(shù)據(jù)庫(kù)的方法:概括表格的創(chuàng)建錯(cuò)誤估計(jì)實(shí)際上所需要的歷史數(shù)據(jù)的年限隨著時(shí)間推移,需求的現(xiàn)實(shí)性逐漸明顯堅(jiān)持讓詳細(xì)數(shù)據(jù)駐留在數(shù)據(jù)倉(cāng)庫(kù)中處理:丟進(jìn)垃圾桶、歸檔處理、近線處理。元數(shù)據(jù):關(guān)于數(shù)據(jù)的數(shù)據(jù)。管理:建立企業(yè)級(jí)的中心知識(shí)庫(kù)是實(shí)現(xiàn)元數(shù)據(jù)管理的基本
4、途徑和關(guān)鍵。臟數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的四種方法:數(shù)據(jù)源系統(tǒng)中的臟數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)不合適的集成造就臟數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)中以前輸入的數(shù)據(jù)過期用戶需求的改變或添加了對(duì)數(shù)據(jù)質(zhì)量有不同要求的用戶。清理臟數(shù)據(jù):數(shù)據(jù)分析、數(shù)據(jù)檢測(cè)、數(shù)據(jù)修正。第四章:聯(lián)機(jī)分析處理olap(聯(lián)機(jī)分析處理)定義:利用聯(lián)機(jī)事務(wù)處理系統(tǒng)產(chǎn)生的大量數(shù)據(jù)為組織的決策提供信息。fasmi:快速性(fast):系統(tǒng)能在數(shù)秒內(nèi)對(duì)用戶的多數(shù)分析要求做出反應(yīng)可分析性(analysis):用戶無(wú)需編程就可以定義新的專門計(jì)算,將其作為分析的一部分,并以用戶所希望的方式給出報(bào)告共享性(shared):在有安全保障的前提下支持多用戶共享與并發(fā)操作多維性(mu
5、lti-dimensional) :提供對(duì)數(shù)據(jù)分析的多維視圖和分析信息性(information):能及時(shí)獲得信息,并且管理大容量信息olap的基本操作:切片、切塊、旋轉(zhuǎn)。多維olap(molap):直接采用多維數(shù)據(jù)庫(kù)進(jìn)行聯(lián)機(jī)分析處理。關(guān)系olap(rolap):采用關(guān)系數(shù)據(jù)庫(kù)來(lái)存放多維數(shù)據(jù)庫(kù)進(jìn)行聯(lián)機(jī)分析處理。1. 試解釋度量值、維、多維數(shù)據(jù)集的概念。度量值:是人們觀察事務(wù)的焦點(diǎn)。如:銷售額維:是人們觀察事務(wù)的角度。如:時(shí)間多維數(shù)據(jù)集:所以同質(zhì)的度量值及其關(guān)聯(lián)的維的維成員構(gòu)成的一個(gè)多維數(shù)據(jù)集。是olap的核心。第5章 :sql server數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用與開發(fā)星形模式:是一種多維的數(shù)據(jù)關(guān)系,它
6、由一個(gè)事實(shí)表(fact table)和一組維表(dimension table)組成。每個(gè)維表都有一個(gè)維作為主鍵,所有這些維的主鍵組合成事實(shí)表的主鍵。事實(shí)表的非主鍵屬性稱為事實(shí)(fact),它們一般都是數(shù)值或其他 可以進(jìn)行計(jì)算的數(shù)據(jù);而維大都是文字、時(shí)間等類型的數(shù)據(jù),按這種方式組織好數(shù)據(jù)我們就可以按照不同的維(事實(shí)表主鍵的部分或全部)來(lái)對(duì)這些事實(shí)數(shù)據(jù)進(jìn)行求 和(summary)、求平均(average)、計(jì)數(shù)(count)、百分比(percent)的聚集計(jì)算,甚至可以做2080分析。這樣就可以從不 同的角度數(shù)字來(lái)分析業(yè)務(wù)主題的情況。第6章 :數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)挖掘的目的:研究發(fā)現(xiàn)知識(shí)的各種
7、方法和技術(shù)。知識(shí)發(fā)現(xiàn)(kdd)的定義:指從大型數(shù)據(jù)庫(kù)中或數(shù)據(jù)倉(cāng)庫(kù)中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、事先未知的、易被理解的模式。知識(shí)發(fā)現(xiàn)的過程:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘及結(jié)果的解釋和評(píng)估。知識(shí)發(fā)現(xiàn)過程的步驟:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、結(jié)果表述和解釋。數(shù)據(jù)挖掘的任務(wù):關(guān)聯(lián)分析、時(shí)序模式、聚類、分類、偏差檢測(cè)及預(yù)測(cè)。數(shù)據(jù)挖掘的對(duì)象:關(guān)系數(shù)據(jù)庫(kù)、文本、圖像與視頻數(shù)據(jù)、web數(shù)據(jù)。數(shù)據(jù)挖掘常用方法:歸納學(xué)習(xí)法、仿生物技術(shù)、公式發(fā)現(xiàn)、統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)方法、可視化技術(shù)。數(shù)據(jù)挖掘的分類:探索性數(shù)據(jù)分析、描述建模、預(yù)測(cè)建模、尋求模式和規(guī)則、根據(jù)內(nèi)容檢索數(shù)據(jù)挖掘的知識(shí)表示:規(guī)則、
8、決策樹、知識(shí)基、網(wǎng)絡(luò)權(quán)值、公式。規(guī)則如何表示:if(發(fā)色=金色v紅色)(眼睛=藍(lán)色v灰色) then 第一類人if(發(fā)色=黑色)(眼睛=黑色) then 第二類人即凡是具有紅色或紅色頭發(fā),并且同時(shí)又藍(lán)色或灰色眼睛的人屬于第一類人,凡是有黑色頭發(fā)或黑色眼睛屬于第二類人。二、區(qū)別數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的區(qū)別 數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)面向事務(wù)面向主題存儲(chǔ)短期數(shù)據(jù)存儲(chǔ)長(zhǎng)期歷史數(shù)據(jù)設(shè)計(jì)盡量避免冗余有意引入冗余為捕獲數(shù)據(jù)而生分析數(shù)據(jù)而生可以修改不可修改olap與oltp的對(duì)比聯(lián)機(jī)事務(wù)處理oltp(online transaction processing)olap是聯(lián)機(jī)分析處理是后來(lái)發(fā)展的。區(qū)別如下:、產(chǎn)生背景和目的不同
9、。前者的目的是通過對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行分析處理,獲得信息,支持決策。或者的目的是加速對(duì)業(yè)務(wù)數(shù)據(jù)的處理,支持企業(yè)的業(yè)務(wù)運(yùn)作。使用的數(shù)據(jù)模型不同。oltp使用的是傳統(tǒng)數(shù)據(jù)模型(關(guān)系模型),olap使用基于圍標(biāo)和事實(shí)表的星型多維數(shù)據(jù)模型。數(shù)據(jù)的綜合程度不同。olap中的數(shù)據(jù)不可更改。但需要周期性的更新,而oltp中的數(shù)據(jù)可以更改。對(duì)數(shù)據(jù)的處理不同。oltp對(duì)數(shù)據(jù)進(jìn)行操作型處理,一般運(yùn)用sql命令進(jìn)行追加、刪除、修改、查詢等。olap則進(jìn)行切片、切塊、旋轉(zhuǎn)、鉆取。聚類分析和最近鄰技術(shù)的對(duì)比數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的對(duì)比:數(shù)據(jù)倉(cāng)庫(kù)是企業(yè)級(jí)的,而數(shù)據(jù)集市是部門級(jí)的。決策支持系統(tǒng)(dss)和專家系統(tǒng)(es)和智能決策支
10、持系統(tǒng)(idss)決策支持系統(tǒng)主要是進(jìn)行分析處理,使得數(shù)值計(jì)算和數(shù)據(jù)處理融為一體,提高了輔助決策的能力,屬于定量分析。專家系統(tǒng)是利用專家的知識(shí)在計(jì)算機(jī)上進(jìn)行推理,達(dá)到專家解決問題的能力,屬于定性分析。智能決策支持系統(tǒng)時(shí)專家系統(tǒng)和決策支持系統(tǒng)結(jié)合形成的系統(tǒng),它是決策支持系統(tǒng)的發(fā)展方向。molap和rolap的對(duì)比:1.查詢功能:molap在查詢性能和相應(yīng)速度上要優(yōu)于rolap2.空間占用:如果所有維成員組合都存在相應(yīng)度量值,molap比較節(jié)省空間,反之,當(dāng)大量維成員組合不存在相應(yīng)度量值, molap會(huì)造成空間大量浪費(fèi)。rolap不會(huì)出現(xiàn)這種問題。3.分析查詢能力: molap在分析查詢能力上要次
11、于rolap一般認(rèn)為:功能強(qiáng)、復(fù)雜的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)一般選擇rolap,功能單一、小型的數(shù)據(jù)集市更宜采用molap數(shù)據(jù)挖掘和專家系統(tǒng)的對(duì)比:專家系統(tǒng)是將大量的專家知識(shí)和啟發(fā)性知識(shí)編制在一個(gè)程序中,以解決困難的問題。數(shù)據(jù)挖掘?qū)<蚁到y(tǒng)相同點(diǎn)都是利用已有的信息來(lái)幫助人們解決問題不同點(diǎn)是從大量已存在的數(shù)據(jù)中發(fā)現(xiàn)人們難以直觀或手工發(fā)現(xiàn)的有用信息來(lái)進(jìn)行決策支持利用專家的知識(shí)和啟發(fā)性知識(shí),按照一定的推理規(guī)則來(lái)幫助人們解決問題。強(qiáng)調(diào)事實(shí)第一強(qiáng)調(diào)經(jīng)驗(yàn)第一唯數(shù)據(jù)唯專家共享維度和專用維度的區(qū)別:專用維度是只能用于當(dāng)前所處理的多維數(shù)據(jù)集,而不能與其他多維數(shù)據(jù)集共享。而共享維度可以在多維數(shù)據(jù)集之間共享。虛擬維度和普通維度的區(qū)別:普通維度類似數(shù)據(jù)庫(kù)中的普通表,虛擬維度類似數(shù)據(jù)庫(kù)中的視圖,虛擬維度是在普通維度的基礎(chǔ)上建立或?qū)С龅?,事?shí)上并沒有物理存儲(chǔ),用戶查看虛擬維度時(shí)實(shí)際上先到普通維度那提取所需數(shù)據(jù)再組合顯示成虛擬維度,因此查詢速度比普通維度慢,但使用方便。綜合題1、 數(shù)據(jù)倉(cāng)庫(kù)a) 多維數(shù)據(jù)模型i. 星型結(jié)構(gòu)ii. 對(duì)某具體應(yīng)用能會(huì)hi多維數(shù)據(jù)模型的星型模式e-r圖。b) 元數(shù)據(jù) c) 數(shù)據(jù)粒度模型設(shè)計(jì)(參考飛機(jī)那題)2、 統(tǒng)計(jì)類數(shù)據(jù)挖掘a)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024綜合崗位勞動(dòng)協(xié)議模板版B版
- 2024年版城市出租車租賃協(xié)議樣式版B版
- 2025年消防安全管理咨詢及標(biāo)準(zhǔn)制定合同2篇
- 2024-2025學(xué)年高中歷史第七單元復(fù)雜多樣的當(dāng)代世界第24課兩極對(duì)峙格局的形成學(xué)案含解析岳麓版必修1
- 2024-2025學(xué)年高中語(yǔ)文課時(shí)分層作業(yè)4歸去來(lái)兮辭并序含解析新人教版必修5
- 二零二四年度時(shí)尚傳媒廣告投放及制作合同
- 2025年度道路照明燈具批發(fā)合同范本3篇
- 2025年酒店客房銷售渠道建設(shè)與維護(hù)合同3篇
- 2025年度綠色生態(tài)農(nóng)業(yè)種植承包合同范本3篇
- 2025年蔬菜種植戶與農(nóng)產(chǎn)品電商平臺(tái)合作合同范本3篇
- 2025年度影視制作公司兼職制片人聘用合同3篇
- 兒童糖尿病的飲食
- 2025屆高考語(yǔ)文復(fù)習(xí):散文的結(jié)構(gòu)與行文思路 課件
- 干細(xì)胞項(xiàng)目商業(yè)計(jì)劃書
- 拉薩市2025屆高三第一次聯(lián)考(一模)語(yǔ)文試卷(含答案解析)
- 浙江省嘉興市2024-2025學(xué)年高一數(shù)學(xué)上學(xué)期期末試題含解析
- 2024年高考新課標(biāo)Ⅱ卷語(yǔ)文試題講評(píng)課件
- 無(wú)人機(jī)航拍技術(shù)教案(完整版)
- 人教PEP版(2024)三年級(jí)上冊(cè)英語(yǔ)Unit 4《Plants around us》單元作業(yè)設(shè)計(jì)
- 《保密法》培訓(xùn)課件
- 醫(yī)院項(xiàng)目竣工驗(yàn)收和工程收尾階段的管理措施專項(xiàng)方案
評(píng)論
0/150
提交評(píng)論