




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、1 .數(shù)據(jù)倉庫的四個(gè)基本特征是指數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的、集成的、不可更新的和隨時(shí)間不斷變化的 。2 . OLAP的實(shí)現(xiàn)方式有以下兩種:基于關(guān)系數(shù)據(jù)庫系統(tǒng)的實(shí)現(xiàn)和基于多維數(shù)據(jù)組織 的實(shí)現(xiàn)。3 .數(shù)據(jù)從操作型環(huán)境到數(shù)據(jù)倉庫過程中,通常需要進(jìn)行的處理操作有數(shù)據(jù)X (extraction )、轉(zhuǎn)換 (transformation )、裝載 (Load)和清洗 (cleaning)。4 .數(shù)據(jù)倉庫中數(shù)據(jù)的分割是指將 數(shù)據(jù)分散到各自的物理單元中去以便能分別獨(dú)立處理。數(shù)據(jù)分割后的數(shù)據(jù)單元稱為 分片,數(shù)據(jù)分片的類型有 水平分片、垂直分片、混合分片和導(dǎo) 出分片等。5 .數(shù)據(jù)倉庫系統(tǒng)是多種技術(shù)的綜合體,它是
2、由 數(shù)據(jù)倉庫的前臺后臺工具 、數(shù)據(jù)倉庫服務(wù) 壁和OLAP服務(wù)器三部分組成。6 .聚集函數(shù)分為三種類型,分別是分布型聚集函數(shù)、 代數(shù)型聚集函數(shù) 、 和整體型聚集函數(shù) 。7 .粒度是數(shù)據(jù)倉庫的重要概念,粒度越 小,數(shù)據(jù)的細(xì)節(jié)程度越 直,可以回答查詢的種類 就越上,但是查詢效率將會很低;提高粒度將會提高查詢效率, 在數(shù)據(jù)倉庫中通常采用多重粒度。OLAP展現(xiàn)在用戶面前的是一幅幅多維視圖。聯(lián)機(jī)分析處理維(Dimension ):是人們觀察數(shù)據(jù)的特定角度,是考慮問題時(shí)的一類屬性,屬性集合構(gòu)成 一個(gè)維(時(shí)間維、地理維等)。維的層次(Level):人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度 不同
3、的各個(gè)描述方面(時(shí)間維:日期、月份、季度、年)。維的成員(Member ):維的一個(gè)取值,是數(shù)據(jù)項(xiàng)在某維中位置的描述。(某年某月某日”是在時(shí)間維上位置的描述)。度量(Measure ):多維數(shù)組的取值。(2000年1月,上海,筆記本電腦, 0000 )。OLAP的基本多維分析操作有鉆取 (Drill-up和Drill-down )、切片(Slice)和切塊(Dice)、 以及旋轉(zhuǎn)(Pivot)等。鉆取:是改變維的層次,變換分析的粒度。它包括向下鉆?。?Drill-down )和向上鉆取(Drill-up ) /上卷(Roll-up)。Drill-up是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的
4、匯總 數(shù)據(jù),或者減少維數(shù);而Drill-down則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加 新維。二 切片和切塊:二是在一部分維上選定值后,二關(guān)心度量數(shù)據(jù)在剩余維上的分布。二如果剩余的 維只有兩個(gè),則是切片;如果有三個(gè)或以上,則是切塊。旋轉(zhuǎn):是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。:、名次解釋:1 .數(shù)據(jù)集市:數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對于特定的用戶是有用的。其范圍 限于選定的主題。例如, 一個(gè)商場的數(shù)據(jù)集市可能限定其主題為顧客、商品和銷售。包括在數(shù)據(jù)集市中的數(shù)據(jù)通常是匯總的。2 .數(shù)據(jù)倉庫的元數(shù)據(jù): 關(guān)于數(shù)據(jù)的數(shù)據(jù)第一種:從操作型環(huán)境向數(shù)據(jù)倉庫環(huán)境轉(zhuǎn)換而建
5、立 的元數(shù)據(jù)。包含:所有源數(shù)據(jù)項(xiàng)名、屬性及其在數(shù)據(jù)倉庫中的轉(zhuǎn)換.第二種:與終端用戶的多維商業(yè)模型/前端工具之間建立映射的DSS元數(shù)據(jù)3 .粒度:對數(shù)據(jù)倉庫中的數(shù)據(jù)的綜合程度高低的一個(gè)度量 ,粒度越小,細(xì)節(jié)程度越高,綜合 程度越低,粒度大小影響數(shù)據(jù)倉庫效率、能回答詢問的種類 ,數(shù)據(jù)倉庫是多粒度的,不同的粒 度回答不同的查詢4 .分割:指將數(shù)據(jù)分散到各自的物理單元中去以便能分別獨(dú)立處理。5 .聚類分析:根據(jù)數(shù)據(jù)的特征找出數(shù)據(jù)間的相似性,將相似的數(shù)據(jù)分成一個(gè)類。又稱無指 導(dǎo)的學(xué)習(xí),客觀根據(jù)被處理對象的特征分類,將相同特征的對象歸為一類。6 .數(shù)據(jù)倉庫的主題: 主題是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)
6、綜合、歸類并進(jìn)行分析 利用的抽象。邏輯意義:對應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對象。7 .分類:分類就是按照分析對象的屬性分門別類,加以定義建立類組,分類的關(guān)鍵是按照 什么樣的標(biāo)準(zhǔn)和規(guī)律進(jìn)行分類,所以分類需要先確定規(guī)則,再進(jìn)行分類。分類聚類區(qū)別:分類規(guī)則需要預(yù)先定義類別和訓(xùn)練樣本,而聚類分析直接面向數(shù)據(jù)源數(shù)據(jù),沒有預(yù)先定義類別和訓(xùn)練樣本,所有記錄都根據(jù)彼此相似程序加以歸類。預(yù)測:利用歷史數(shù)據(jù)建立模型,再運(yùn)用新數(shù)據(jù)作為輸入值,獲得未來變化趨勢,或評估 給定樣本可能具有的屬性范圍。8 .序列模式分析: 給定一個(gè)由不同序列組成的集合,其中,每個(gè)序列由不同的元素按順序 有序排列,每個(gè)元素由不同項(xiàng)目
7、組成, 同時(shí)給定一個(gè)用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現(xiàn)頻率不低于用戶指定的最小支持度閾值。9 .廣義索引:預(yù)先計(jì)算出來的,用來記錄具有某些特殊性質(zhì)數(shù)據(jù)的索引。比如最小值,top-k值等。特點(diǎn):非常小,大大提高查詢效率。最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維數(shù)據(jù)模型。這種模型可以以 星形模式、雪花模式、或事實(shí)星座模式形式存在。10 .星型模型:最常見的模型范例星形模式;其中數(shù)據(jù)倉庫包括(1) 一個(gè)大的、包含大批數(shù)據(jù)、不含冗余的 中心表(事實(shí)表);(2) 一組小的附屬表(維表),每維一個(gè)。這種模 式圖很象星星爆發(fā),維表圍繞中心表顯示在射線上。sale
8、s事實(shí)表item舞表11 . OLAP中的維和維層次:觀察數(shù)據(jù)的角度、程度不同分層。12 .雪片模型:雪花模式是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加的表中。 結(jié)果,模式圖形成類似于雪花的形狀。雪花模式和星形模式的主要不同在于,雪花模式的維表可能是規(guī)范化形式,以便減少冗余。這種表易于維護(hù),并節(jié)省存儲空間,因?yàn)楫?dāng)維結(jié)構(gòu)作為列包含在內(nèi)時(shí),大維表可能非常大。11nte推表e止日軍買強(qiáng)血亞琳強(qiáng),呼Pr推表-值頻繁地在給定數(shù)據(jù)集中一起13 .關(guān)聯(lián)分析:關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性 出現(xiàn)的條件。關(guān)聯(lián)分析廣泛用于購物籃或事務(wù)數(shù)據(jù)分析。1 .操作型數(shù)據(jù)和分析型數(shù)據(jù)的主要區(qū)
9、別是什么?答:OLTP和OLAP的主要區(qū)別如下:用戶和系統(tǒng)的面向性, OLTP是面向顧客的,用于辦事員、客戶和信息技術(shù)人員到額事務(wù)和查詢處理,而 OLAP是面向市場的,用于知識工人的數(shù)據(jù)分析。從數(shù)據(jù)內(nèi)容上區(qū)別,OLTP是當(dāng)前數(shù)據(jù),通常這種數(shù)據(jù)太瑣碎,難以方面地用于決策,OLAP系統(tǒng)管理大量的歷史數(shù)據(jù),提供匯總和匯聚機(jī)制,并在不同的粒度級別上存儲和管理信息。這些特點(diǎn)使得歷史數(shù)據(jù)容易用于見多識廣的決策。從數(shù)據(jù)庫設(shè)計(jì)上,通常 OLTP采用實(shí)體-聯(lián)系模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì)。而OLAP系統(tǒng)通常采用星型或者雪花模型和面向主題的數(shù)據(jù)庫設(shè)計(jì)。從視圖上區(qū)別:OLTP系統(tǒng)主要關(guān)注一個(gè)企業(yè)或者部門內(nèi)部的當(dāng)前數(shù)據(jù)
10、,而不涉及歷史數(shù)據(jù) 或不聽組織的數(shù)據(jù),相比之下,由于組織的變化,OLAP系統(tǒng)常??缭綌?shù)據(jù)庫模式的多個(gè)版本,OLAP系統(tǒng)也出來來自不同組織的信息,由多個(gè)數(shù)據(jù)存儲集成的信息,由于數(shù)據(jù)量巨大,OLAP數(shù)據(jù)頁存放在多個(gè)存儲介質(zhì)上。訪問模式:OLTP系統(tǒng)的訪問主要由短的原子事務(wù)組成,這種系統(tǒng)需要并行控制和恢復(fù)機(jī)制,然而對OLAP系統(tǒng)的訪問大部分是只讀操作,盡管許多查詢是復(fù)雜的查詢。L操作型分析型效據(jù) 細(xì)節(jié)的籌含的.或置母的在存展牖間,凈礴的代表討夫的毆櫥可更新不更新幄和窩笊輪可知他操作需求事苑不知遒生脩周期符合SDLC克至不同的生命周明對性旄費(fèi)求高附性能要求寬松一個(gè)時(shí)為一單元f時(shí)期操作帶嬖動.分折膽動此
11、向應(yīng)用面向分析一次操作數(shù)16量小一次操作數(shù)據(jù)量大芨持日常報(bào)祚支持瞥理需求2 .你是如何理解數(shù)據(jù)倉庫的數(shù)據(jù)是不可更新的,數(shù)據(jù)倉庫的數(shù)據(jù)又是隨時(shí)間不斷變化的。 數(shù)據(jù)倉庫中的數(shù)據(jù)不可更新是針對應(yīng)用而言的,用戶進(jìn)行分析處理時(shí)是不進(jìn)行數(shù)據(jù)更新操作的.數(shù)據(jù)倉庫的數(shù)據(jù)是隨時(shí)間的變化不斷變化的,隨時(shí)間變化不斷增加新的數(shù)據(jù)內(nèi)容,隨時(shí)間變化不斷刪去舊的數(shù)據(jù)內(nèi)容。數(shù)據(jù)倉庫中包含有大量的跟時(shí)間有關(guān)的綜合數(shù)據(jù), 經(jīng)常按照時(shí)間段進(jìn)行綜合,隨著時(shí)間的變化不斷地進(jìn)行重新綜合。3 .舉例說明數(shù)據(jù)倉庫有哪三類聚集函數(shù)。(1)分布的:一個(gè)聚集函數(shù)是分布的,如果它能以如下分布方式進(jìn)行計(jì)算:設(shè)數(shù) 據(jù)被劃分為n個(gè)集合,函數(shù)在每一部分上的
12、計(jì)算得到一個(gè)聚集值。如果將函數(shù)用于n個(gè)聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣,則該函數(shù)可以用分布方式 計(jì)算。例如,count()可以這樣計(jì)算:首先將數(shù)據(jù)方分割成子方的集合,對每個(gè)子方計(jì)算 count(),然后對這些子方得到的計(jì)數(shù)求和。因此,count()是分布聚集函數(shù)。 同理,sum(),min()和max()是分布聚集函數(shù)。一個(gè)度量是分布的,如果它可以用分布聚集函數(shù)得到。(2)代數(shù)的:一個(gè)聚集函數(shù)是代數(shù)的,如果它能夠由一個(gè)具有 M (其中,M是一 個(gè)整數(shù)界)個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算,而每個(gè)參數(shù)都可以用一個(gè)分布聚集函數(shù)求得。例如,avg()可以由sum()/count()計(jì)算,其中s
13、um()和count()是分布聚集函數(shù)。類似地,可以表 明min_N(), max_N()和standard_deviation()是代數(shù)聚集函數(shù)。 一個(gè)度量是代數(shù)的,如果它可以用代數(shù)聚集函數(shù)得到。(3)整體的:一個(gè)聚集函數(shù)是整體的,如果描述它的子聚集所需的存儲沒有一個(gè) 常數(shù)界。即,不存在一個(gè)具有 M個(gè)(其中,M是常數(shù))參數(shù)的代數(shù)函數(shù)進(jìn)行這一計(jì)算。 整體函數(shù)的常見例子包括median(),mode()(即,最常出現(xiàn)的項(xiàng)),和rank()。一個(gè)度量是整體的,如果它可以用整體聚集函數(shù)得到。大部分?jǐn)?shù)據(jù)方應(yīng)用需要有效地計(jì)算分布的和 代數(shù)的度量。對于這些,存在許多有效的技術(shù)。相比之下,有效地計(jì)算整體度量
14、是很困 難的。然而,對于有些整體函數(shù)的近似計(jì)算,有效的技術(shù)是存在的。4 .為什么說 naive Bayesian分類法是 na?Ve的?樸素貝葉斯分類假定一個(gè)屬性值對給定類的影響?yīng)毩⒂谄渌鼘傩缘闹?。該假定稱作類條件獨(dú)立。做此假定是為了簡化所需計(jì)算,并在此意義下稱為“樸素的”。5 .請簡述數(shù)據(jù)倉庫的體系結(jié)構(gòu)。a)數(shù)據(jù)倉庫的后臺工具b)數(shù)據(jù)倉庫服務(wù)器c) OLAP服務(wù)器d) 前臺工具n;ktaA IVIulti-Tiered AivhitectuiviI*'- "hi! itaCesratarDis Mmi t Mira4i Tr-iiiaf«tn Lc41d Reia
15、eitATHljTiisQ忙門Rep mt$口ai 日 miningflData Sourees Dti Storage口LAP 日咂h亡 FrcuM-End Tools6 .舉例說明多維分析操作(drill-down , roll-up)的含義是什么?saleprodikdstore Iddat»amip1c1112p1ci111ple3150P?C21Bpid244Plq22境saleprod Iddateamtpl162成1J9P124Brollupdrill-down(Vwaqvw.Qlj 安全)計(jì)置機(jī)馥1計(jì)H機(jī)安坐電話 ifafeni在bftlt上_1_卷一個(gè)通常用于數(shù)據(jù)倉
16、庫多維數(shù)據(jù)方,(a)展示AllElectronics的匯總數(shù)據(jù)(b)展示數(shù)據(jù)方(a)上的下鉆與上卷結(jié)果。7 .舉例說明數(shù)據(jù)倉庫有哪三類聚集函數(shù)(同3)8 .試述常用的數(shù)值屬性離散化方法等寬:每個(gè)bin的距離間隔一樣。等深:每個(gè)bin所具有的元組的數(shù)目相等。等質(zhì):bin的大小決定后,每一個(gè) bin中的元組是統(tǒng)一分布的9 .向數(shù)據(jù)倉庫追加數(shù)據(jù)時(shí),捕捉數(shù)據(jù)變化常用的途徑有哪些?數(shù)據(jù)追加:數(shù)據(jù)倉庫白數(shù)據(jù)初裝完成后,再向數(shù)據(jù)倉輸入數(shù)據(jù)的過程追加內(nèi)容:上次數(shù)據(jù)追加后在OLT啖據(jù)庫中變化了的數(shù)據(jù)變化數(shù)據(jù)的捕捉途徑:1)時(shí)標(biāo)方法(如果數(shù)據(jù)含有時(shí)標(biāo),對新插入或更新的數(shù)據(jù)記錄,加更新時(shí)的時(shí)標(biāo))2) DELTA文件
17、(由應(yīng)用生成DELTAS件,記錄應(yīng)用所改變的所有內(nèi)容)3)前后映象文件(抽取數(shù)據(jù)到數(shù)據(jù)倉庫之后,本次將抽取數(shù)據(jù)之前,對數(shù)據(jù)庫分別作一次快照,比較兩幅快照的不同,確定追加的數(shù)據(jù))4)日志文件(利用 DB的固有機(jī)制,數(shù)據(jù)只限于日志文件,不用掃描整個(gè)數(shù)據(jù)庫)10 .試述數(shù)據(jù)倉庫的設(shè)計(jì)中提高數(shù)據(jù)倉庫性能的方法和技術(shù)?由于數(shù)據(jù)倉庫的數(shù)據(jù)極少甚至不再更新,可采取如下技術(shù)來提高數(shù)據(jù)倉庫的性能:11 .簡要說明事務(wù)處理環(huán)境不適宜DSS應(yīng)用的原因?操作型處理也叫事務(wù)處理,是指對數(shù)據(jù)庫聯(lián)機(jī)的日常操作,通常是對一個(gè)或一組記錄的查詢和修改,主要是為企業(yè)的特定應(yīng)用服務(wù)的,人們關(guān)心的是響應(yīng)時(shí)間,數(shù)據(jù)的安全性和完整性。分析
18、型處理則用于管理人員的決策分析。例如:DSS (決策支持系統(tǒng)),EIS (主管信息系統(tǒng))和多維分析等,經(jīng)常要訪問大量的歷史數(shù)據(jù)。事務(wù)處理環(huán)境不適宜 DSS應(yīng)用的原因:(1)事務(wù)處理和分析處理的性能特性不同(在事務(wù)處理環(huán)境中,數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短,在分析處理環(huán)境中,DSS應(yīng)用需要運(yùn)行時(shí)間長,消耗系統(tǒng)資源多.)(2)數(shù)據(jù)集成問題(DSS需要的數(shù)據(jù):全面、集成、相關(guān)數(shù)據(jù)收集得越完整結(jié)果就越可靠)(3)數(shù)據(jù)動態(tài)集成問題(事務(wù)處理的數(shù)據(jù): 與本部門業(yè)務(wù)有關(guān)當(dāng)前數(shù)據(jù),對整個(gè)企業(yè)范圍內(nèi) 的集成應(yīng)用考慮少,當(dāng)前企業(yè)內(nèi)數(shù)據(jù)的狀況a.分散而非集成一一這是事務(wù)處理環(huán)境所固有的 b.事務(wù)處理應(yīng)用
19、產(chǎn)生的細(xì)節(jié)數(shù)據(jù)不能成為統(tǒng)一的整體c.DSS應(yīng)用必須在應(yīng)用程序中進(jìn)行數(shù)據(jù)集成)(4)歷史數(shù)據(jù)問題(事務(wù)處理系統(tǒng)中的數(shù)據(jù):當(dāng)前數(shù)據(jù)及短期數(shù)據(jù);決策分析的數(shù)據(jù):必 須要?dú)v史數(shù)據(jù))(5)數(shù)據(jù)的綜合問題(DSS系統(tǒng)的分析對象:一般不對細(xì)節(jié)數(shù)據(jù)進(jìn)行分析,分析前需要對細(xì)節(jié) 數(shù)據(jù)進(jìn)行不同程度的綜合.事務(wù)處理系統(tǒng)的對象:只關(guān)心細(xì)節(jié)數(shù)據(jù),不具備綜合能力,綜合是一種數(shù)據(jù)冗余,需要加以限制)12 .數(shù)據(jù)倉庫的設(shè)計(jì)方法與操作型環(huán)境中系統(tǒng)設(shè)計(jì)采用的系統(tǒng)生命周期法有什么不同?SDLC操作型環(huán)境中,業(yè)務(wù)過程和規(guī)則比較規(guī)范和固定。系統(tǒng)設(shè)計(jì)人員能夠清晰地了解應(yīng)用 的需求和數(shù)據(jù)流程,系統(tǒng)的設(shè)計(jì)一般采取系統(tǒng)生命周期法(Systems
20、 Development Life Cycle)CLDS分析型環(huán)境中,DSS分析對決策分析的需求不能預(yù)先作出規(guī)范說明,只能給設(shè)計(jì)人員 一個(gè)抽象模糊的描述。設(shè)計(jì)人員必須在與用戶不斷的交流中,將系統(tǒng)需求逐步明確與完善。為了強(qiáng)調(diào)這種開發(fā)的不確定型,將此設(shè)計(jì)方法定名為CLDS方法(與SDLC相反)SDLC與CLD5方,法比較魚!5C LDS13 .舉例說明多維分析操作(切片、切塊、旋轉(zhuǎn))的含義是什么?切片和切塊:切片操作在給定的數(shù)據(jù)方的一個(gè)維上進(jìn)行選擇,導(dǎo)致一個(gè)子方。圖2.10圖示了一個(gè)對維time的切片操作,它對中心數(shù)據(jù)方使用條件time = "Q1”選擇銷售數(shù)據(jù)。切塊操作通過對兩個(gè)或多個(gè)
21、維執(zhí)行選擇,定義子方。圖2.10圖示了一個(gè)切塊操作,它涉及三個(gè)維,根據(jù)如下條件對中心表切塊:(location = " Montreal 0r ' Vancouver" a"d (time = 'Q1"or "Q2" a nd (item = " homeentertainmentor "" computer。")轉(zhuǎn)軸:轉(zhuǎn)軸(又稱旋轉(zhuǎn))是一種目視操作,它轉(zhuǎn)動數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示。 圖2.10 給出一個(gè)轉(zhuǎn)軸操作, 這里item和location在一個(gè)2-D切片上轉(zhuǎn)動。其它
22、例子包括轉(zhuǎn)動3-D數(shù) 據(jù)方,或?qū)⒁粋€(gè)3-D立方轉(zhuǎn)換成2-D平面序列。14 .數(shù)據(jù)挖掘的步驟是什么?數(shù)據(jù)挖掘作為KDD (知識發(fā)現(xiàn))的一個(gè)步驟。KDD是一個(gè)以知識使用者為中心,人機(jī)交互的探索過程,包括了在指定的數(shù)據(jù)庫中用數(shù)據(jù) 挖掘算法提取模型,以及圍繞數(shù)據(jù)挖掘所進(jìn)行的預(yù)處理和結(jié)果表達(dá)等一系列的步驟。甌】轄駐據(jù)費(fèi)看作KDD的一個(gè)凈一15 .簡要說明數(shù)據(jù)倉庫環(huán)境中元數(shù)據(jù)的內(nèi)容。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù) 。在數(shù)據(jù)倉庫中,元數(shù)據(jù)是定義倉庫對象的數(shù)據(jù)。對于給定數(shù)據(jù)倉庫的數(shù)據(jù)名和定義,創(chuàng)建元數(shù)據(jù)。其它元數(shù)據(jù)包括對提取數(shù)據(jù)添加的時(shí)間標(biāo)簽、提取數(shù)據(jù)的源、被數(shù)據(jù)清理或集成處理添加的字段等。16 .企業(yè)的數(shù)據(jù)庫體系化
23、環(huán)境的四個(gè)層次是什么?它們之間的關(guān)系是什么?層次的體系化環(huán)境四個(gè)層次分別為:操作型環(huán)境、全局級數(shù)據(jù)倉庫、部門級的局部倉庫、個(gè)人級數(shù)據(jù)倉庫。操作型環(huán)境存放:細(xì)節(jié)的操作型數(shù)據(jù),服務(wù)于高性能事務(wù)處理全局級數(shù)據(jù)倉庫:存放細(xì)節(jié)數(shù)據(jù)、導(dǎo)出數(shù)據(jù)部門級局部倉庫:一般存放導(dǎo)出數(shù)據(jù)個(gè)人級數(shù)據(jù)倉庫:數(shù)據(jù)一般是暫時(shí)存放,用于啟發(fā)式分析。探件型環(huán)境|金碗 副演"一 王式鷲掾作型壞盤 斗|仝局倉床|* 部門倉& 1 飪k倉囪任:口 一 “蠹小 i Kiss 的揚(yáng)|aH.17 .簡要說明數(shù)據(jù)倉庫設(shè)計(jì)的步驟。數(shù)據(jù)倉庫的設(shè)計(jì)方法:CLDS方法(與SDLC相反)參考12題18 .簡要說明異常點(diǎn)挖掘有哪些方法?一
24、定普代定布 二二有替代分布 飛:溫含靜代外粘異常點(diǎn)挖他方法框于承元的罪法,臺值離模型V就靛圖W守密點(diǎn)花就其法紂兗19 .什么是元數(shù)據(jù)?簡要說明數(shù)據(jù)倉庫環(huán)境中元數(shù)據(jù)的內(nèi)容。(參考15)20 .你是如何理解數(shù)據(jù)倉庫的數(shù)據(jù)是不可更新的,數(shù)據(jù)倉庫的數(shù)據(jù)又是隨時(shí)間不斷變化的。答:數(shù)據(jù)倉庫存放的數(shù)據(jù)都是歷史數(shù)據(jù),基本操作都是查詢操作,一般情況下并不進(jìn)行修改操作,數(shù)據(jù)一旦超過存儲期限是可以刪除的。數(shù)據(jù)倉庫隨時(shí)間變化不斷增加新的數(shù)據(jù)內(nèi)容,并且存在大量和時(shí)間有關(guān)的綜合數(shù)據(jù),數(shù)據(jù)倉庫數(shù)據(jù)的碼鍵都包含時(shí)間項(xiàng),以標(biāo)明數(shù)據(jù)的歷史時(shí)期。21 .什么是數(shù)據(jù)驅(qū)動的系統(tǒng)設(shè)計(jì)方法?(參考 12)22 .試簡述數(shù)據(jù)倉庫的體系結(jié)構(gòu)(
25、參考4)23 .簡述采用決策樹方法進(jìn)行分類的過程。1)基本算法(貪婪算法)由上到下,分而治之,遞歸構(gòu)造樹開始時(shí),所有的訓(xùn)練樣本都在樹根屬性都是可分類的屬性(如果是連續(xù)值的話,首先要對其進(jìn)行離散化)根據(jù)選擇的屬性,對樣本遞歸地進(jìn)行劃分在啟發(fā)式或統(tǒng)計(jì)度量(如information gain) 的基礎(chǔ)上選擇測試屬性2)停止劃分的條件某個(gè)節(jié)點(diǎn)上的所有樣本都屬于相同的類所有的屬性都用到了-這時(shí)采用多數(shù)有效的方法對葉子節(jié)點(diǎn)進(jìn)行分類沒有樣本了24請簡述采用神經(jīng)元網(wǎng)絡(luò)進(jìn)行分類的過程。在開始訓(xùn)練之前,用戶必須說明輸入層的單元數(shù)、隱藏層數(shù)(如果多于一層)、每一隱藏層的單元數(shù)和輸出層的單元數(shù),以確定網(wǎng)絡(luò)拓?fù)?。定義網(wǎng)
26、絡(luò)拓?fù)湎騻鞑ニ惴▽W(xué)習(xí)過程:迭代地處理一組訓(xùn)練樣本,將每個(gè)樣本的網(wǎng)絡(luò)預(yù)測與實(shí)際的類標(biāo)號比較。每次迭代后,修改權(quán)值,使得網(wǎng)絡(luò)預(yù)測和實(shí)際類之間的均方差最小25舉一個(gè)實(shí)例說明如何確定數(shù)據(jù)倉庫的主題,如何確定主題所應(yīng)包含的數(shù)據(jù)內(nèi)容?數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進(jìn)行組織的主題 是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象邏輯意義:對應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對象面向主題的數(shù)據(jù)組織步驟1、 抽取主題: 按照分析的要求來確定2、 確定每個(gè)主題所應(yīng)包含的數(shù)據(jù)內(nèi)容例如:商場商品采購1)在OLTP數(shù)據(jù)庫中,“訂單” “訂單細(xì)則”“供應(yīng)商”三個(gè)數(shù)據(jù)庫模式清晰完整地描述了一筆采購業(yè)務(wù)所涉及
27、的數(shù)據(jù)內(nèi)容, 這是面向應(yīng)用來進(jìn)行數(shù)據(jù)組織的方式;2)在數(shù)據(jù)倉庫中,主要是進(jìn)行數(shù)據(jù)分析處理, 商品采購時(shí)的分析活動主要是要了解各供應(yīng)商的情況 , “供應(yīng)商”是采購分析時(shí)的分析對象。所以不需要組織象“訂單”和“訂單細(xì)則”這樣的數(shù)據(jù)庫模式,因?yàn)樗鼈儼氖羌儾僮餍偷臄?shù)據(jù);但是僅僅只用OLTP數(shù)據(jù)庫的“供應(yīng)商”中的數(shù)據(jù)又是不夠的 , 因而要重新組織“供應(yīng)商”這么一個(gè)主題。26舉例說明數(shù)據(jù)倉庫的多粒度。粒度對數(shù)據(jù)倉庫中的數(shù)據(jù)的綜合程度高低的一個(gè)度量粒度越小,細(xì)節(jié)程度越高,綜合程度越低, 粒度大小影響數(shù)據(jù)倉庫效率、能回答詢問的種類,數(shù)據(jù)倉庫是多粒度的,不同的粒度回答不同的查詢實(shí)際:兩種形式的粒度都存在例:
28、 “商品”主題表的劃分:銷售綜合表和采購綜合表是屬于第一種形式的粒度(時(shí)間段上信息的綜合)庫存信息的不同表:則屬于第二種形式粒度劃分(不同時(shí)點(diǎn)上的粒度)27舉例說明什么是“星星模式”。 (名詞解10)28常用的聚類方法有哪些?(1)劃分方法( 2)層次方法( 3)基于密度的方法( 4)基于網(wǎng)格的方法(5)基于模型的方法四、計(jì)算題:1 .現(xiàn)有如下事務(wù)數(shù)據(jù)庫,設(shè)min sup = 60%, min conf = 80%.請用Apriori算法找出所有的頻繁項(xiàng)目集。掃描口對每個(gè)候選計(jì)數(shù)集 口J3J40 口"1515) 頁 1 11L.22-I T1 I W1 I I I _I I I fl
29、 n -JI fl- ft ft- fl ix ft J11方127g6蚓21_21項(xiàng)集支持度計(jì)麴HJ2J4HJ3J4口1刊12UI34IWJ212,15)201X151(4,1510掃描D,對每個(gè)候選計(jì)數(shù)1支持度計(jì)數(shù)1比較候選支持度計(jì)數(shù)HJ2與是小支持度計(jì)數(shù)山4*-(11,15)2UI3I2J4LL_1L史由L2產(chǎn)生 候選。3C3項(xiàng)集支持度討數(shù)ILI2J322面也I掃描口對每 一如晟個(gè)候選i+數(shù)11,12 I 口回|項(xiàng)集支持度計(jì)數(shù)(1143,13HJ2J5J22叱莪候選支持度計(jì)數(shù) 與最小支持度計(jì)數(shù)TIDLhl of iltm IDS1100T2CI0T3(IO T400T500T600 17
30、00TS00T900riJ2.15 12J4 I2J3 riJ2.M Il.B 12J3 I LB rLI2.B.I5 11,12,132 .請根據(jù)能找出的cluster的形狀、預(yù)先指定的參數(shù)、所存在的缺陷這三個(gè)方面對如下聚類 方法進(jìn)行評價(jià):1 . K-MeansK-Mean分群法是一種分割式分群方法,其主要目標(biāo)是要在大量高緯的資料點(diǎn)中找出具有代表性的資料點(diǎn);這些資料點(diǎn)可以稱為群中心,代表點(diǎn);然后再根據(jù)這些群中心,進(jìn)行后續(xù)的處理,這些處理可以包含1 )資料壓縮:以少數(shù)的資料點(diǎn)來代表大量的資料,達(dá)到資料壓縮的功能;2 )資料分類:以少數(shù)代表點(diǎn)來代表特點(diǎn)類別的資料,可以降低資料量及計(jì)算量;2.實(shí)現(xiàn)
31、k-means算法接受輸入量 k ;然后將n個(gè)數(shù)據(jù)對象劃分為 k個(gè)聚類以便使得所獲得的聚類滿足:同 一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所 獲得一個(gè) 中心對象”(引力中心)來進(jìn)行計(jì)算的。k-means算法的工作過程說明如下: 首先從n個(gè)數(shù)據(jù)對象任意選擇 k個(gè)對象作為初始聚類中心; 而對 于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測度函數(shù).k
32、個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。K-means算法的特點(diǎn)采用兩階段反復(fù)循環(huán)過程算法,結(jié)束的條件是不再有數(shù)據(jù)元素被重新分配: 指定聚類即指定數(shù)據(jù)到某一個(gè)聚類,使得它與這個(gè)聚類中心的距離比它到其它聚類中心的距離要近。 修改聚類中心優(yōu)點(diǎn):本算法確定的 K個(gè)劃分到達(dá)平方誤差最小。當(dāng)聚類是密集的,且類與類之間區(qū)別明顯時(shí),效 果較好。對于處理大數(shù)據(jù)集,這個(gè)算法是相對可伸縮和高效的,計(jì)算的復(fù)雜度為O(NKt),其中N是數(shù)據(jù)對象的數(shù)目,t是迭代的次數(shù)。一般來說,K<<N, t<<N。缺點(diǎn): 在K-means算法中K是事先給定的,這個(gè) K值的選定是非
33、常難以估計(jì)的。很多時(shí)候,事先并不知道 給定的數(shù)據(jù)集應(yīng)該分成多少個(gè)類別才最合適。這也是K-means算法的一個(gè)不足。有的算法是通過類的自動合并和分裂,得到較為合理的類型數(shù)目K,例如ISODATA算法。關(guān)于K-means算法中聚類數(shù)目K值的確定在文獻(xiàn)中,是根據(jù)方差分析理論,應(yīng)用混合F統(tǒng)計(jì)量來確定最佳分類數(shù),并應(yīng)用了模糊劃分燧來驗(yàn)證最佳分類數(shù)的正確性。在文獻(xiàn)中,使用了一種結(jié)合全協(xié)方差矩陣的RPCL算法,并逐步刪除那些只包含少量訓(xùn)練數(shù)據(jù)的類。而文獻(xiàn)中使用的是一種稱為次勝者受罰的競爭學(xué)習(xí)規(guī)則,來自動決定類的適當(dāng)數(shù)目。它的 思想是:對每個(gè)輸入而言,不僅競爭獲勝單元的權(quán)值被修正以適應(yīng)輸入值,而且對次勝單元采
34、用懲罰的方 法使之遠(yuǎn)離輸入值。在K-means算法中,首先需要根據(jù)初始聚類中心來確定一個(gè)初始劃分,然后對初始劃分進(jìn)行優(yōu)化。這個(gè)初始聚類中心的選擇對聚類結(jié)果有較大的影響,一旦初始值選擇的不好,可能無法得到有效的聚類結(jié)果,這也成為 K-means算法的一個(gè)主要問題。對于該問題的解決,許多算法采用遺傳算法(GA),例如文獻(xiàn)中采用遺傳算法(GA)進(jìn)行初始化,以內(nèi)部聚類準(zhǔn)則作為評價(jià)指標(biāo)。從K-means算法框架可以看出,該算法需要不斷地進(jìn)行樣本分類調(diào)整,不斷地計(jì)算調(diào)整后的新的 聚類中心,因此當(dāng)數(shù)據(jù)量非常大時(shí),算法的時(shí)間開銷是非常大的。 所以需要對算 法的時(shí)間復(fù)雜度進(jìn)行分析、 改進(jìn),提高算法應(yīng)用范圍。在文
35、獻(xiàn)中從該算法的時(shí)間復(fù)雜度進(jìn)行分析考慮,通過一定的相似性準(zhǔn)則來去掉 聚類中心的侯選集。而在文獻(xiàn)中,使用的 K-means算法是對樣本數(shù)據(jù)進(jìn)行聚類,無論是初始點(diǎn)的選擇還是一次迭代完成時(shí)對數(shù)據(jù)的調(diào)整,都是建立在隨機(jī)選取的樣本數(shù)據(jù)的基礎(chǔ)之上,這樣可以提高算法的收斂 速度。2 . BIRCHBIRCH算法即平衡迭代削減聚類法,其核心是用一個(gè)聚類特征3元組表示一個(gè)簇的有關(guān)信息,從而使一簇點(diǎn)的表示可用對應(yīng)的聚類特征,而不必用具體的一組點(diǎn)來表示。它通過構(gòu)造滿足分支因子和簇直徑限制的 聚類特征樹來求聚類。BIRCH算法通過聚類特征可以方便地進(jìn)行中心、半徑、直徑及類內(nèi)、類間距離的運(yùn)算。算法的聚類特征樹是一個(gè)具有兩
36、個(gè)參數(shù)分枝因子B和類直徑T的高度平衡樹。分枝因子規(guī)定了樹的每個(gè)節(jié)點(diǎn)子女的最多個(gè)數(shù),而類直徑體現(xiàn)了對一類點(diǎn)的直徑大小的限制即這些點(diǎn)在多大范圍內(nèi)可以聚為一類, 非葉子結(jié)點(diǎn)為它的子女的最大關(guān)鍵字,可以根據(jù)這些關(guān)鍵字進(jìn)行插人索弓I,它總結(jié)了其子女的信息。聚類特征樹可以動態(tài)構(gòu)造,因此不要求所有數(shù)據(jù)讀人內(nèi)存,而可以在外存上逐個(gè)讀人。新的數(shù)據(jù)項(xiàng)總是插人到樹中與該數(shù) 據(jù)距離最近的葉子中。如果插人后使得該葉子的直徑大于類直徑T,則把該葉子節(jié)點(diǎn)分裂。 其它葉子結(jié)點(diǎn)也需要檢查是否超過分枝因子來判斷其分裂與否,直至該數(shù)據(jù)插入到葉子中,并且滿足不超過類直徑,而每個(gè)非葉子節(jié)點(diǎn)的子女個(gè)數(shù)不大于分枝因子。算法還可以通過改變類
37、直徑修改特征樹 大小,控制其占內(nèi)存容量。BIRCH算法通過一次掃描就可以進(jìn)行較好的聚類,由此可見,該算法適合于大數(shù)據(jù)量。對于給定的M兆內(nèi)存空間,其空間復(fù)雜度為O(M),時(shí)間間復(fù)雜度為 O(dNBlnB(M/P).其中d為維數(shù),N為節(jié)點(diǎn)數(shù),P為內(nèi)存頁的大小,B為由P決定的分枝因子。I/O花費(fèi)與數(shù)據(jù)量成線性關(guān)系。BIRCH算法只 適用于類的分布呈凸形 及球形的情況,并且由于 BIRCH算法需提供正確的聚類個(gè)數(shù)和簇直徑限制,對不可視的高維數(shù)據(jù)不可行。3 DBSCANDBSCANB法即基于密度的聚類算法。該算法利用類的密度連通性可以快速發(fā)現(xiàn)任意形狀的類。其基本思想是: 對于一個(gè)類中的每個(gè)對象,在其給定
38、半徑的領(lǐng)域中包含的對象不能少于某一給定的最小數(shù)目。在 DBSCAN算法中, 發(fā)現(xiàn)一個(gè)類的過程是基于這樣的事實(shí):一 個(gè)類能夠被其中的任意一個(gè)核心對象所確定。為了發(fā)現(xiàn)一個(gè)類,DBSCANfc從對象集D中找到任意一對象 P,并查找D中關(guān)于關(guān)徑Eps和最小對象數(shù) Minpts的從 P密度可達(dá)的所有對象。如果P是核心對象,即半徑為 Eps的P的鄰域中包含的對象不少于Minpts,則根據(jù)算法,可以找到一個(gè)關(guān)于參數(shù)Eps和Minpts的類。如果P是一個(gè)邊界點(diǎn),則半徑為 Eps的P鄰域包含的對象少于Minpts, P被暫時(shí)標(biāo)注為噪聲點(diǎn)。然后,DBSCANb理D中的下一個(gè)對象。密度可達(dá)對象的獲取是通過不斷執(zhí)行區(qū)
39、域查詢來實(shí)現(xiàn)的。一個(gè)區(qū)域查詢返回指定區(qū)域中的所有對象。為了 有效地執(zhí)行區(qū)域查詢,DBSCANB法使用了空間查詢 R樹結(jié)構(gòu)。在進(jìn)行聚類前,必須建立針對所有數(shù)據(jù)的 R*-樹。另外,DBSCAN要求用戶指定一個(gè)全局參數(shù)Eps(為了減少計(jì)算量,預(yù)先確定參數(shù) Minpts)。為了確定取值,DBSCAN計(jì)算任意對象與它的第 k個(gè)最臨近的對象之間的距離。然后,根據(jù)求得的距離由小到大排序,并繪出排序后的圖,稱做k-dist 圖。 k-dist 圖中的橫坐標(biāo)表示數(shù)據(jù)對象與它的第k 個(gè)最近的對象間的距離;縱坐標(biāo)為對應(yīng)于某一 k- dist距離值的數(shù)據(jù)對象的個(gè)數(shù)。R*-樹的建立和k-dist圖的繪制非常消耗時(shí)間。此外,為了得到較好的聚類結(jié)果,用戶必須根據(jù) k-dist圖,通過 試探選定一個(gè)比較合適的Eps值。DBSCAN算法不進(jìn)行任何的預(yù)處理而直接對整個(gè)數(shù)據(jù)集進(jìn)行聚類操作。當(dāng)數(shù)據(jù)量非常大時(shí),就必須有大內(nèi)存量支持,I/O 消耗也非常大。其時(shí)間復(fù)雜度為O(nlogn)(n 為數(shù)據(jù)量),聚類過程的大部分時(shí)間用在區(qū)域查詢操作上。DBSCAN法對參數(shù)Eps及Minpts非常
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)業(yè)生產(chǎn)管理與調(diào)度方案手冊
- 公司電話客服勞動合同
- 防雷接地施工方案例
- 2025年人力資源制度:全日制從業(yè)人員勞動合同
- 咨詢產(chǎn)品服務(wù)合同
- 環(huán)氧樹脂注漿施工方案
- 晉城房屋糾偏施工方案
- 泄爆吊頂施工方案
- 鋼欄桿安裝工程施工方案
- 濱城區(qū)七上數(shù)學(xué)試卷
- 南大版一年級心理健康第5課《校園“紅綠燈”》課件
- 婦女節(jié)女性健康知識講座關(guān)愛女性健康主題宣教課件
- 2024年浙江省煙草專賣局(公司)管理類崗位招聘筆試真題
- 廣東省惠州市惠東縣2022年小升初語文試卷(學(xué)生版+解析)
- 《木蘭詩》歷年中考古詩欣賞試題匯編(截至2024年)
- 新人教版(2025春季版)七年級下冊英語單詞表(可編輯一表解決所有需求)
- 智能建筑監(jiān)理例會會議記錄
- 中國稀土熱障涂層材料行業(yè)分類、市場運(yùn)行態(tài)勢及產(chǎn)業(yè)鏈全景圖譜分析報(bào)告
- 2025年九年級上冊道德與法治核心知識點(diǎn)梳理匯編
- 七年級數(shù)學(xué)新北師大版(2024)下冊第一章《整式的乘除》單元檢測習(xí)題(含簡單答案)
- 2024年安徽省高職院校單招《職測》參考試題庫(含答案)
評論
0/150
提交評論