浙江工商大學(xué)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘以及試卷真題回憶_第1頁
浙江工商大學(xué)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘以及試卷真題回憶_第2頁
浙江工商大學(xué)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘以及試卷真題回憶_第3頁
浙江工商大學(xué)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘以及試卷真題回憶_第4頁
浙江工商大學(xué)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘以及試卷真題回憶_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫的定義:數(shù)據(jù)倉庫就是面對主題的、集成的、不行更的〔穩(wěn)定性、隨時間不斷變化〔不同時間〕的數(shù)據(jù)集合,用以支持經(jīng)營治理中的決策制定過程。數(shù)據(jù)倉庫特征:數(shù)據(jù)倉庫是將原始的操作數(shù)據(jù)進展各種處理并轉(zhuǎn)換成綜合信息,供給功能強大的分析工具對這些信息進展多方位的分析以幫助企業(yè)領(lǐng)導(dǎo)做出更符合業(yè)務(wù)進展規(guī)律的決策。2、數(shù)據(jù)倉庫與數(shù)據(jù)庫的一樣點與不同點:3、數(shù)據(jù)倉庫的重要特性:面對主題性、集成性、時變性、非易失性、集合性和支持決策作用。4、數(shù)據(jù)挖掘的定義:從技術(shù)角度看,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和學(xué)問的過程。5、數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系:數(shù)據(jù)挖掘是數(shù)據(jù)倉庫進展的必定結(jié)果:數(shù)據(jù)挖掘可以看作是聯(lián)機分析處理的高級階段。數(shù)據(jù)倉庫為數(shù)據(jù)挖掘供給應(yīng)用根底總之,數(shù)據(jù)倉庫為數(shù)據(jù)挖掘供給了更寬闊的活動空間。數(shù)據(jù)倉庫完成數(shù)據(jù)的收集、集成、存儲和治理工作,數(shù)據(jù)挖掘面對的是經(jīng)初步加工的數(shù)據(jù),使得數(shù)據(jù)挖掘更能專注于學(xué)問的覺察。6、數(shù)據(jù)倉庫的體系構(gòu)造:數(shù)據(jù)倉庫系統(tǒng)是由數(shù)據(jù)源、數(shù)據(jù)倉庫的數(shù)據(jù)存儲、數(shù)據(jù)倉庫的應(yīng)用工具和可視化用戶界面組成。7、主題數(shù)據(jù)是數(shù)據(jù)倉庫的核心數(shù)據(jù),一般以多維數(shù)據(jù)模型的形式存儲在數(shù)據(jù)倉庫中。8、在數(shù)據(jù)倉庫中涉及數(shù)據(jù)存儲包括以下幾種:數(shù)據(jù)源、主題數(shù)據(jù)、數(shù)據(jù)預(yù)備區(qū)和查詢效勞數(shù)據(jù)。9、數(shù)據(jù)集市定義:數(shù)據(jù)集市一般是為滿足某個業(yè)務(wù)部門進展分析決策的需求而建立的,我們可以將數(shù)據(jù)集市理解,則這個數(shù)據(jù)集市為獨立數(shù)據(jù)集市。10、元數(shù)據(jù)的定義:元數(shù)據(jù)就是關(guān)于數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)是任何信息處理環(huán)境的一個重要組成局部。元數(shù)據(jù)描述了數(shù)據(jù)倉庫的數(shù)據(jù)和環(huán)境,并使得用戶能夠更便利地使用數(shù)據(jù)倉庫中的數(shù)據(jù)進展各種分析,關(guān)心決策。11、元數(shù)據(jù)的主要兩種作用:元數(shù)據(jù)進展數(shù)據(jù)倉庫的治理和通過元數(shù)據(jù)來使用數(shù)據(jù)倉庫。用于對元數(shù)據(jù)進展治理的元數(shù)據(jù)稱為治理元數(shù)據(jù),而幫助我們使用數(shù)據(jù)倉庫的元數(shù)據(jù)又稱作用戶元數(shù)據(jù)。12、元數(shù)據(jù)的分類:依據(jù)元數(shù)據(jù)的內(nèi)容我們將其分為四類:數(shù)據(jù)源元數(shù)據(jù)、預(yù)處理數(shù)據(jù)源元數(shù)據(jù)、數(shù)據(jù)倉庫主題數(shù)據(jù)元數(shù)據(jù)、查詢效勞元數(shù)據(jù)。13、數(shù)據(jù)倉庫的數(shù)據(jù)模型:概念模型:多維數(shù)據(jù)模型是一種能夠清楚地表達分析領(lǐng)域的數(shù)據(jù)模型。實體關(guān)系模型留意的是數(shù)據(jù)的構(gòu)造,而多維數(shù)據(jù)模型留意的是數(shù)據(jù)的含義。數(shù)據(jù)倉庫的概念模型一般承受多維數(shù)據(jù)模型來建模。在多維數(shù)據(jù)模型中,包含兩種建模要素:觀看事物的角度和觀看得到的事實數(shù)據(jù),前者被稱作維度,后者被稱作事實。一個分析領(lǐng)域或主題表達為由多個維度和一組事實數(shù)據(jù)構(gòu)成的一個星型模型。一個數(shù)據(jù)倉庫通常包含多個主題,其概念模型也就由多個星型模型組成。14、數(shù)據(jù)倉庫中的粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。越是具體的數(shù)據(jù),粒度級別就越??;越是概括的的數(shù)據(jù),粒度級別就越大。推斷:粒度問題是設(shè)計數(shù)據(jù)倉庫的一個格外重要的方面,它既是一個規(guī)律設(shè)計的問題,也是一個物理設(shè)計的問題。15、數(shù)據(jù)分割是把大的數(shù)據(jù)集劃分成多個較小的數(shù)據(jù)集,并分散到多個物理單元中進展存儲,使它們能獨立的被處理。粒度的劃分和數(shù)據(jù)的分割對數(shù)據(jù)倉庫的設(shè)計和實現(xiàn)有重大的影響。16、確定粒度大小的一般原則:假設(shè)數(shù)據(jù)倉庫的空間很有限的話,為了節(jié)約存儲空間,宜承受大粒度集表示數(shù)據(jù)。假設(shè)追求數(shù)據(jù)倉庫能夠答復(fù)的問題類型的力量,要求能夠答復(fù)格外具體的問題,那么使用較小的粒度級別。假設(shè)想要減輕效勞器的負(fù)擔(dān),提高查詢性能,則承受較大的數(shù)據(jù)集粒度。假設(shè)沒有存儲空間的限制,則可以在一個數(shù)據(jù)倉庫中承受多重粒度級別,既存儲多粒度級別的數(shù)據(jù),也存儲高粒度級別的數(shù)據(jù),以同時獲得高的查詢效率和查詢力量。17、數(shù)據(jù)倉庫的建設(shè)應(yīng)當(dāng)以建立部門級的數(shù)據(jù)集市為動身點,同時統(tǒng)觀全局,使建立的數(shù)據(jù)集市成為整個企業(yè)數(shù)據(jù)倉庫的規(guī)律子集。從而由多個數(shù)據(jù)集市集成企業(yè)級的數(shù)據(jù)倉庫。為了實施這種數(shù)據(jù)倉庫建設(shè)的思想,提出了一種總數(shù)據(jù)倉庫的總線型構(gòu)造。這種數(shù)據(jù)倉庫構(gòu)造的核心思想是使用統(tǒng)一的維和統(tǒng)一的事實來構(gòu)造數(shù)據(jù)倉庫的總線。18、統(tǒng)一的維是指該維可以在數(shù)據(jù)集市中共享,且不管它與哪個事實表相連接,維的含義都是完全一樣的。19、統(tǒng)一的事實是指一個事實數(shù)據(jù),比方銷售額,假設(shè)在多個數(shù)據(jù)集市中消滅,則該事實數(shù)據(jù)必需是全都的。20、在數(shù)據(jù)倉庫治理中,最關(guān)鍵的是對數(shù)據(jù)的治理。21、休眠數(shù)據(jù)的治理數(shù)據(jù)倉庫治理的第一塊根本內(nèi)容。、數(shù)據(jù)倉庫治理的三個根本內(nèi)容〔〕2〕3〕數(shù)據(jù)清理。23、休眠數(shù)據(jù)是那些存在與數(shù)據(jù)倉庫中、當(dāng)前并不使用的、將來也很少使用或者根本就不會使用的數(shù)據(jù)。休眠數(shù)據(jù)會以多種方式進入數(shù)據(jù)倉庫,我們在識別和處理它們之前需要理解它們的進入方式。造成這些休眠數(shù)據(jù)在數(shù)據(jù)倉庫中存在的緣由至少有四種:由于概括表格的創(chuàng)立由于錯誤估量實際上所需要的歷史數(shù)據(jù)的年限由于隨著時間的推移,需求的現(xiàn)實性漸漸明顯由于堅持讓具體數(shù)據(jù)駐留在數(shù)據(jù)倉庫中24、休眠數(shù)據(jù)的處理:查找休眠數(shù)據(jù)、刪除休眠數(shù)據(jù)、選擇刪除的數(shù)據(jù)、確定訪問可能性。我們認(rèn)為數(shù)據(jù)倉庫中包25%50%的休眠數(shù)據(jù)時,數(shù)據(jù)倉庫的構(gòu)造或許比較適當(dāng)。25、(必考填空)數(shù)據(jù)治理中最重要的一步是協(xié)調(diào)分布在多種數(shù)據(jù)倉庫中的元數(shù)據(jù),而建立企業(yè)級的中心學(xué)問庫則是實現(xiàn)元數(shù)據(jù)治理的根本途徑和關(guān)鍵。26、臟數(shù)據(jù)進入的四種方式:數(shù)據(jù)源系統(tǒng)中的臟數(shù)據(jù)進入數(shù)據(jù)倉庫不適宜的集成造成臟數(shù)據(jù)進入數(shù)據(jù)倉庫數(shù)據(jù)倉庫中以前輸入的數(shù)據(jù)過期用戶需求的轉(zhuǎn)變或添加了對數(shù)據(jù)質(zhì)量有不同要求的用戶27、OLAP:聯(lián)機分析處理OLTP:聯(lián)機事務(wù)處理OLAM:聯(lián)機分析挖掘FASMI共享多維信息的快速分析28OLAP應(yīng)當(dāng)具有的準(zhǔn)則:根本特性、特別特性、報表特性、維掌握特性29、OLAP的根本概念:度量值:度量值是人們觀看事物的焦點維:維是人們觀看事物的角度多維數(shù)據(jù)集的度量值及其關(guān)聯(lián)的維的維成員構(gòu)成一個多維數(shù)據(jù)集,當(dāng)維數(shù)為3時,多維數(shù)據(jù)集表現(xiàn)為一個數(shù)據(jù)立方體。多維數(shù)據(jù)集能支持各種各樣的查詢,是OLAP的核心。每一個多維數(shù)據(jù)集都可以用一個多維數(shù)組表示。30、虛擬維度是基于物理維度內(nèi)容的規(guī)律維度。31、OLAP的根本操作主要包括對多維數(shù)據(jù)進展切片、切塊、旋轉(zhuǎn)、鉆取等分析操作。據(jù)的一種分析方式。切片就是在各個維上取肯定區(qū)間的成員屬性或全部成員屬性來觀看數(shù)據(jù)的一種分析方式。32、鉆取包含下鉆和上鉆/上卷操作。下鉆是從概括性的數(shù)據(jù)動身獲得相應(yīng)的更具體的數(shù)據(jù),上鉆則相反。旋轉(zhuǎn)即轉(zhuǎn)變一個報告或頁面顯示的維方向。33〔解答必考〕OLTP稱作聯(lián)機事務(wù)處理,OLAPOLTP之后進展起來進展起來的一種技術(shù)。他們的區(qū)分如下:OLAP和OLTP產(chǎn)生的背景和目的不同。前者的目的是通過對現(xiàn)有數(shù)據(jù)進展分析處理,獲得信息,支持決策;而后者的目的則是則是加速對業(yè)務(wù)數(shù)據(jù)的處理,支持企業(yè)的業(yè)務(wù)運作。使用的數(shù)據(jù)模型不同使用的綜合程度不同OLAP中的數(shù)據(jù)不行更改,但需周期性的刷;而OLTP中的數(shù)據(jù)可以更改OLTPSQLOLAP則進展切片、切塊、旋轉(zhuǎn)、鉆取等分析性處理。34OLAP時,有兩種實施方案可供選擇:多維聯(lián)機分析處理,直接承受多維數(shù)據(jù)庫進展聯(lián)機分析處理;關(guān)系聯(lián)機分析處理,承受關(guān)系數(shù)據(jù)庫來存放多維數(shù)據(jù)進展聯(lián)機分析處理35、MOLAPROLAP的特征查詢功能:MOLAP在查詢性能和相應(yīng)速度上要優(yōu)于ROLAP空間占用:假設(shè)全部維成員組合都存在相應(yīng)度量值,MOLAP比較節(jié)約空間,反之,當(dāng)大量維成員組合不存在MOLAP會造成空間大量鋪張。分析查詢力量:MOLAPROLAP假設(shè)建立功能簡單、規(guī)模較大的企業(yè)級數(shù)據(jù)倉庫,則一般選擇ROLAP方式;而假設(shè)是建立功能單一,小型的數(shù)據(jù)集市則宜承受MOLAP方式。MOLAPTB級(只能10~20G)需要進展估量算,可能導(dǎo)致數(shù)據(jù)爆炸無法支持維的動態(tài)變化缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問的標(biāo)準(zhǔn)ROLAP缺點一般響應(yīng)速度較慢不支持有關(guān)估量算的讀寫操作SQL無法完成局部計算無法完成多行的計算無法完成維之間的計算36、星型模式:一般地,我們用一張事實表和多張維表表示星型模式。事實表在模式圖中處于中心位置,存放的是業(yè)務(wù)數(shù)據(jù),具有可加性。維表的信息用做對事實表進展查詢時的約束條件。37、星座模式:一系列同質(zhì)而不同綜合程度的事實表共享一系列維度表38、雪花模式:維度層次較多,使用多個維度表來描述一個維,形成二級維表構(gòu)造,可以大大削減數(shù)據(jù)冗余,節(jié)約存儲空間39、KDD是基于數(shù)據(jù)庫的學(xué)問覺察,指的是從大型數(shù)據(jù)庫中或數(shù)據(jù)倉庫中提取人們感興趣的學(xué)問,這些學(xué)問是隱含的,事先未知的,易被理解的模式。KDD過程可分為三局部:數(shù)據(jù)預(yù)備、數(shù)據(jù)挖掘及結(jié)果的解釋和評估40、數(shù)據(jù)挖掘的任務(wù):關(guān)聯(lián)分析、時序模式、聚類、分類、偏差檢測及推測關(guān)聯(lián)分析:用來覺察關(guān)聯(lián)規(guī)章,這星系模式:多個不同的事實表共享多個維度表,且維度表不完全一樣時序模式:時間序列模式是用變量過去的值來推測將來的值聚類:把整個數(shù)據(jù)庫分成不同的群組分類:數(shù)據(jù)挖掘應(yīng)用最多的任務(wù)要屬分組,分類找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便能夠使用模型推測類標(biāo)記未知的對象類偏差檢測:在數(shù)據(jù)分析中覺察很多特別狀況存在于數(shù)據(jù)庫中,我們可以依據(jù)這些特別狀況獲得很多信息。推測:推測可以利用歷史數(shù)據(jù)或數(shù)據(jù)分布依據(jù)肯定的模型計算出數(shù)值數(shù)據(jù)或識別出將來分布的趨勢。41、數(shù)據(jù)挖掘與專家系統(tǒng)的區(qū)分〔必考〕數(shù)據(jù)挖掘和專家系統(tǒng)的共同點是它們都是利用已有的信息來幫助人們解決問題。不同的是,數(shù)據(jù)挖掘是利專家系統(tǒng)是“唯專家42〔填空〕數(shù)據(jù)挖掘用各種方法獲得學(xué)問的表現(xiàn)形式主要有五種:規(guī)章、決策樹、學(xué)問基〔濃縮數(shù)據(jù)、網(wǎng)絡(luò)權(quán)值和公式。數(shù)據(jù)挖掘的信息論方法所獲的學(xué)問一般表示為決策樹。43〔填空〕遺傳算子主要有:生殖算子〔復(fù)制、選擇算子、穿插算子〔重組、配對算子。遺傳算法是一種基于自然選擇原理和自然遺傳的搜尋算法。44、關(guān)聯(lián)規(guī)章的形式如下:X→Y[a,b],其中X、Y為不相交的交易工程集,其含義關(guān)系為在交易中X的發(fā)生將會導(dǎo)Y的發(fā)生,X和Y之間存在一種關(guān)聯(lián)關(guān)系,a為關(guān)聯(lián)規(guī)章的支持度,b為關(guān)聯(lián)規(guī)章的信任度。大題真題:1、雪花模式,星系模式,星型模式等2、一元線性回歸3、關(guān)聯(lián)規(guī)章大題解答題:聚類算法步驟、OLTPOLAP區(qū)分,數(shù)據(jù)庫與數(shù)據(jù)倉庫區(qū)分時間維度時間碼〔PK〕日期月份季度產(chǎn)品維度產(chǎn)品碼〔PK〕產(chǎn)品名稱產(chǎn)品小類產(chǎn)品大類

銷售事實表時間碼〔PK〕日期月份季度星型模式

地區(qū)維表地區(qū)碼〔PK〕城市地區(qū)時間維度時間碼〔PK〕日期月份季度產(chǎn)品維度產(chǎn)品碼〔PK〕產(chǎn)品名稱產(chǎn)品小類產(chǎn)品大類

銷售事實表時間碼〔PK〕產(chǎn)品碼〔PK〕產(chǎn)品碼〔FK〕銷售量銷售額星座模式

地區(qū)維表地區(qū)碼〔PK〕城市地區(qū)供給商維表供給商維表供給商名稱選購事實表時間碼〔PK〕產(chǎn)品碼〔FK〕選購量選購額時間維度時間碼〔PK〕日期月份季度產(chǎn)品維度產(chǎn)品碼〔PK〕產(chǎn)品名稱產(chǎn)品小類產(chǎn)品大類銷售事實表時間碼〔PK〕日期月份季度地區(qū)維表地區(qū)碼〔PK〕城市地區(qū)國家星系模式季度維度季度維度季碼〔PK〕季度年度維度年碼〔PK〕年度時間維度時間碼〔PK〕季碼年碼小類維度小類碼〔PK〕產(chǎn)品小類產(chǎn)品維表〔PK〕小類碼大類碼銷售事實表時間碼〔PK〕產(chǎn)品碼〔PK〕產(chǎn)品碼〔FK〕銷售量銷售額城市維度城市碼〔PK〕城市名地區(qū)維

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論