2019年整理數(shù)據(jù)挖掘概念與技術(shù)第2版習(xí)題答案_第1頁(yè)
2019年整理數(shù)據(jù)挖掘概念與技術(shù)第2版習(xí)題答案_第2頁(yè)
2019年整理數(shù)據(jù)挖掘概念與技術(shù)第2版習(xí)題答案_第3頁(yè)
2019年整理數(shù)據(jù)挖掘概念與技術(shù)第2版習(xí)題答案_第4頁(yè)
2019年整理數(shù)據(jù)挖掘概念與技術(shù)第2版習(xí)題答案_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘概念概念及技術(shù)DataMiningConcepts and Techniques習(xí)題解答Jiawei Han Micheline Kamber 著范明孟曉峰譯1.3假設(shè)你是BigUniversity的軟件工程師,任務(wù)是設(shè)計(jì)一個(gè)數(shù)據(jù)挖掘系統(tǒng),分析學(xué)校課程數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包括如下信息:每個(gè)學(xué)生的姓名、地址和狀態(tài)例如本科生或研究生、所修課程以及他們的GPA平均積分點(diǎn)。描述你要選取的構(gòu)造。該構(gòu)造的每個(gè)成分的作用是什么?答:該應(yīng)用程序的數(shù)據(jù)挖掘的體系構(gòu)造應(yīng)包括以下主要組成局部:l 數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),萬(wàn)維網(wǎng)或其他信息庫(kù):這是一個(gè)或一組包含學(xué)生和課程信息數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、電子表格或其他類型的信息庫(kù);

2、l 數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)效勞器:根據(jù)用戶數(shù)據(jù)挖掘請(qǐng)求,數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)效勞器負(fù)責(zé)提取相關(guān)數(shù)據(jù);l 知識(shí)庫(kù):這是領(lǐng)域的知識(shí),用于指導(dǎo)搜索或評(píng)估結(jié)果模式的興趣度。l 數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘系統(tǒng)的根本局部,理想情況下由一組功能模塊組成,用于執(zhí)行特征化、關(guān)聯(lián)和相關(guān)分析、分類、預(yù)測(cè)、聚類分析、離群點(diǎn)分析和演變分析等任務(wù)。l 模式評(píng)估模塊:該成分使用興趣度度量,并及數(shù)據(jù)挖掘模塊交互,以便將搜索聚焦在有興趣的模式上。l 用戶界面:該模塊在用戶和數(shù)據(jù)挖掘系統(tǒng)之間通信,允許用戶及系統(tǒng)交互,說(shuō)明挖掘查詢或任務(wù),提供信息以幫助搜索聚焦,根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進(jìn)展探索式數(shù)據(jù)挖掘。1.4 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有何不同?有哪

3、些相似之處?p8答:區(qū)別:數(shù)據(jù)倉(cāng)庫(kù)是面向主題的,集成的,不易更改且隨時(shí)間變化的數(shù)據(jù)集合,用來(lái)支持管理人員的決策,數(shù)據(jù)庫(kù)由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成,是面向操作型的數(shù)據(jù)庫(kù),是組成數(shù)據(jù)倉(cāng)庫(kù)的源數(shù)據(jù)。它用表組織數(shù)據(jù),采用ER數(shù)據(jù)模型。相似:它們都為數(shù)據(jù)挖掘提供了源數(shù)據(jù),都是數(shù)據(jù)的組合。1.5 簡(jiǎn)述以下高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和應(yīng)用:對(duì)象-關(guān)系數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)、流數(shù)據(jù)和萬(wàn)維網(wǎng)。答:對(duì)象關(guān)系數(shù)據(jù)庫(kù)的設(shè)計(jì)是基于面向?qū)ο蟮木幊谭妒降臄?shù)據(jù)是大量對(duì)象類和類層次構(gòu)造組織。每個(gè)實(shí)體在數(shù)據(jù)庫(kù)中被視為一個(gè)對(duì)象。該對(duì)象包含一組變量描述的對(duì)象,一組消息的對(duì)象可以使用的溝通及其他物

4、體或及其余的數(shù)據(jù)庫(kù)系統(tǒng),以及一套方法,每種方法持有的代碼實(shí)現(xiàn)一個(gè)消息??臻g數(shù)據(jù)庫(kù)包含空間有關(guān)的數(shù)據(jù),這可能是代表的形式,柵格或矢量數(shù)據(jù)。柵格數(shù)據(jù)包括n維位圖或像素地圖,矢量數(shù)據(jù)是由點(diǎn),線,多邊形或其他種類的圖元處理,一些例子包括地理空間數(shù)據(jù)庫(kù)圖數(shù)據(jù)庫(kù),超大規(guī)模集成電路芯片設(shè)計(jì),以及醫(yī)療和衛(wèi)星圖像數(shù)據(jù)庫(kù)。文本數(shù)據(jù)庫(kù)包含文本文件或其他長(zhǎng)句或段落格式的文字說(shuō)明,如產(chǎn)品規(guī)格、誤差或錯(cuò)誤報(bào)告、警告信息、總結(jié)報(bào)告、說(shuō)明或其他文件。多媒體數(shù)據(jù)庫(kù)存儲(chǔ)的圖像,音頻,視頻數(shù)據(jù),并應(yīng)用于諸如圖像、基于內(nèi)容的檢索、語(yǔ)音郵件系統(tǒng)、視頻點(diǎn)播系統(tǒng)、互聯(lián)網(wǎng)和以語(yǔ)音為根底的用戶界面。流數(shù)據(jù)是一類新的數(shù)據(jù)的產(chǎn)生和分析,其中數(shù)據(jù)動(dòng)

5、態(tài)地從觀測(cè)平臺(tái)或窗口流進(jìn)或流出。特點(diǎn):海量甚至可能無(wú)限,動(dòng)態(tài)變化,以固定的次序流進(jìn)或流出,只允許一遍或少數(shù)幾遍掃描,要求快速響應(yīng)時(shí)間。如電力供給、網(wǎng)絡(luò)通信、股票交易、電信、Web點(diǎn)擊流、視頻監(jiān)視和氣象或環(huán)境監(jiān)控?cái)?shù)據(jù)。萬(wàn)維網(wǎng)上提供豐富的、全世界范圍內(nèi)的聯(lián)機(jī)信息效勞,其中的數(shù)據(jù)對(duì)象鏈接在一起便于交互訪問(wèn)。及之關(guān)聯(lián)的分布式信息效勞的例子如:美國(guó)在線,雅虎!AltaVista等。翻譯結(jié)果重試抱歉,系統(tǒng)響應(yīng)超時(shí),請(qǐng)稍后再試· 支持中文、英文免費(fèi)在線翻譯 · 支持網(wǎng)頁(yè)翻譯,在輸入框輸入網(wǎng)頁(yè)地址即可 · 提供一鍵清空、復(fù)制功能、支持雙語(yǔ)對(duì)照查看,使您體驗(yàn)更加流暢1.6 定義以下

6、數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、預(yù)測(cè)聚類和演變分析。使用你熟悉的現(xiàn)實(shí)生活的數(shù)據(jù)庫(kù),給出每種數(shù)據(jù)挖掘功能的例子。答:特征化是一個(gè)目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。例如,學(xué)生的特征可被提出,形成所有大學(xué)的計(jì)算機(jī)科學(xué)專業(yè)一年級(jí)學(xué)生的輪廓,這些特征包括作為一種高的年級(jí)平均成績(jī)(GPA:Grade point aversge)的信息,還有所修的課程的最大數(shù)量。􀁺區(qū)分是將目標(biāo)類數(shù)據(jù)對(duì)象的一般特性及一個(gè)或多個(gè)比照類對(duì)象的一般特性進(jìn)展比擬。例如,具有高GPA 的學(xué)生的一般特性可被用來(lái)及具有低GPA 的一般特性比擬。最終的描述可能是學(xué)生的一個(gè)一般可比擬的輪廓,就像具有高GPA 的學(xué)

7、生的75%是四年級(jí)計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生,而具有低GPA 的學(xué)生的65%不是。􀁺關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)那么,這些規(guī)那么表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如,一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)那么為:major(X, “computing science) owns(X, “personal computer)support=12%, confidence=98%其中,X 是一個(gè)表示學(xué)生的變量。這個(gè)規(guī)那么指出正在學(xué)習(xí)的學(xué)生,12%支持度主修計(jì)算機(jī)科學(xué)并且擁有一臺(tái)個(gè)人計(jì)算機(jī)。這個(gè)組一個(gè)學(xué)生擁有一臺(tái)個(gè)人電腦的概率是98%置信度,或確定度。􀁺分類及預(yù)測(cè)不同,因?yàn)?/p>

8、前者的作用是構(gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型或功能,而后者是建立一個(gè)模型去預(yù)測(cè)缺失的或無(wú)效的、并且通常是數(shù)字的數(shù)據(jù)值。它們的相似性是他們都是預(yù)測(cè)的工具:分類被用作預(yù)測(cè)目標(biāo)數(shù)據(jù)的類的標(biāo)簽,而預(yù)測(cè)典型的應(yīng)用是預(yù)測(cè)缺失的數(shù)字型數(shù)據(jù)的值。􀁺聚類分析的數(shù)據(jù)對(duì)象不考慮的類標(biāo)號(hào)。對(duì)象根據(jù)最大花蕾內(nèi)部的相似性、最小化類之間的相似性的原那么進(jìn)展聚類或分組。形成的每一簇可以被看作一個(gè)對(duì)象類。聚類也便于分類法組織形式,將觀測(cè)組織成類分層構(gòu)造,把類似的事件組織在一起。􀁺數(shù)據(jù)演變分析描述和模型化隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì),盡管這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相

9、關(guān)分析、分類、或預(yù)測(cè),這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析2.2 假設(shè)給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間。區(qū)間和對(duì)應(yīng)的頻率如下。 年齡 頻率 15 200 515 450 1520 300 2050 1500 5080 700 80110 44 計(jì)算數(shù)據(jù)的近似中位數(shù)值。 解答: 先判定中位數(shù)區(qū)間:N=200+450+300+1500+700+44=3194;N/2=1597 200+450+300=950<1597<2450=950+1500; 2050 對(duì)應(yīng)中位數(shù)區(qū)間。 median=32.97 歲。2.4 假定用于分析的數(shù)據(jù)包含屬性ag

10、e。數(shù)據(jù)元組的age 值以遞增序是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。答:(a) 該數(shù)據(jù)的均值是什么?中位數(shù)是什么?均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27中位數(shù)應(yīng)是第14個(gè),即x14=25=Q2。(b) 該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰即雙峰、三峰等。這個(gè)數(shù)集的眾數(shù)有兩個(gè):25 和35,發(fā)生在同樣最高的頻率處,因此是雙峰眾數(shù)。(c)

11、 數(shù)據(jù)的中列數(shù)是什么?數(shù)據(jù)的中列數(shù)是最大數(shù)和最小數(shù)的均值。即:midrange。(d) 你能粗略地找出數(shù)據(jù)的第一個(gè)四分位數(shù)Q1和第三個(gè)四分位數(shù)Q3嗎?數(shù)據(jù)集的第一個(gè)四分位數(shù)應(yīng)發(fā)生在25%處,即在(N+1)/4=27+1/4=7 處。所以:Q1=20。而第三個(gè)四分位數(shù)應(yīng)發(fā)生在75%處,即在3×(N+1)/4=21 處。所以:Q3=35(e) 給出數(shù)據(jù)的五數(shù)概括。一個(gè)數(shù)據(jù)集的分布的5 數(shù)概括由最小值、第一個(gè)四分位數(shù)、中位數(shù)、第三個(gè)四分位數(shù)、和最大值構(gòu)成。它給出了分布形狀良好的匯總+并且這些數(shù)據(jù)是:13、20、25、35、70。(f) 畫出數(shù)據(jù)的盒圖。(g) 分位數(shù)分位數(shù)圖及分位數(shù)圖的不同

12、之處是什么?分位數(shù)圖是一種用來(lái)展示數(shù)據(jù)值低于或等于在一個(gè)單變量分布中獨(dú)立的變量的粗略百分比。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨(dú)立變量測(cè)得的值縱軸相對(duì)于它們的分位數(shù)橫軸被描繪出來(lái)。但分位數(shù)分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù)。兩個(gè)坐標(biāo)軸顯示它們的測(cè)量值相應(yīng)分布的值域,且點(diǎn)按照兩種分布分位數(shù)值展示。一條線y=x可畫到圖中+以增加圖像的信息。落在該線以上的點(diǎn)表示在y 軸上顯示的值的分布比x 軸的相應(yīng)的等同分位數(shù)對(duì)應(yīng)的值的分布高。反之,對(duì)落在該線以下的點(diǎn)那么低。2.7 使用習(xí)題2.4 給出的age 數(shù)據(jù)答復(fù)以下問(wèn)題: (a) 使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)展

13、光滑,箱的深度為3。解釋你的步驟。 評(píng)述對(duì)于給定的數(shù)據(jù),該技術(shù)的效果。 (b) 如何確定數(shù)據(jù)中的離群點(diǎn)? (c) 對(duì)于數(shù)據(jù)光滑,還有哪些其他方法? 解答: (a) 使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)展光滑,箱的深度為3。解釋你的步驟。評(píng)述對(duì)于給定的數(shù)據(jù),該技術(shù)的效果。 用箱深度為3 的分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)展光滑需要以下步驟: 步驟1:對(duì)數(shù)據(jù)排序。因?yàn)閿?shù)據(jù)已被排序,所以此時(shí)不需要該步驟。步驟2:將數(shù)據(jù)劃分到大小為3 的等頻箱中。 箱1:13,15,16 箱2:16,19,20 箱3:20,21,22 箱4:22,25,25 箱5:25,25,30 箱6:33,33,35 箱7:35,35,35 箱

14、8:36,40,45 箱9:46,52,70 步驟3:計(jì)算每個(gè)等頻箱的算數(shù)均值。步驟4:用各箱計(jì)算出的算數(shù)均值替換每箱中的每個(gè)值。 箱1:44/3,44/3,44/3 箱2:55/3,55/3,55/3 箱3:21,21,21 箱4:24,24,24 箱5: 80/3 ,80/3, 80/3 箱 6: 101/3,101/3, 101/3 箱7:35,35,35 箱8:121/3,121/3,121/3 箱9:56,56,56 (b) 如何確定數(shù)據(jù)中的離群點(diǎn)? 聚類的方法可用來(lái)將相似的點(diǎn)分成組或“簇,并檢測(cè)離群點(diǎn)。落到簇的集外的值可以被視為離群點(diǎn)。作為選擇,一種人機(jī)結(jié)合的檢測(cè)可被采用,而計(jì)算機(jī)

15、用一種事先決定的數(shù)據(jù)分布來(lái)區(qū)分可能的離群點(diǎn)。這些可能的離群點(diǎn)能被用人工輕松的檢驗(yàn),而不必檢查整個(gè)數(shù)據(jù)集。 (c) 對(duì)于數(shù)據(jù)光滑,還有哪些其他方法? 其它可用來(lái)數(shù)據(jù)光滑的方法包括別的分箱光滑方法,如中位數(shù)光滑和箱邊界光滑。作為選擇,等寬箱可被用來(lái)執(zhí)行任何分箱方式,其中每個(gè)箱中的數(shù)據(jù)范圍均是常量。除了分箱方法外,可以使用回歸技術(shù)擬合成函數(shù)來(lái)光滑數(shù)據(jù),如通過(guò)線性或多線性回歸。分類技術(shù)也能被用來(lái)對(duì)概念分層,這是通過(guò)將低級(jí)概念上卷到高級(jí)概念來(lái)光滑數(shù)據(jù)。2.9假設(shè)醫(yī)院檢測(cè)隨機(jī)選擇的18個(gè)成年人年齡和身體脂肪數(shù)據(jù),得到如下結(jié)果:(a)計(jì)算年齡和脂肪百分比的均值、中位數(shù)和標(biāo)準(zhǔn)差.年齡均值=(23+23+27+

16、27+39+41+47+49+50+ 52+54+54+56+57+58+58+60+61)/18=836/18=46.44, 中位數(shù)=(50+52)/2=51,標(biāo)準(zhǔn)差=方差的平方根=開(kāi)根號(hào)1/n(Xi)2-1/n(Xi)2=開(kāi)根號(hào) 1/18=12.85.脂肪百分比均值=28.78, 中位數(shù)=30.7, 標(biāo)準(zhǔn)差= 8.99.(b)繪制年齡和脂肪百分比的盒圖(c)根據(jù)這兩個(gè)屬性,繪制散布圖,各q-q圖 q-q圖 散布圖(d)根據(jù)z-score 標(biāo)準(zhǔn)化來(lái)標(biāo)準(zhǔn)化這兩個(gè)屬性P46(e)計(jì)算相關(guān)系數(shù)(皮爾遜積矩系數(shù)). 這兩個(gè)變量是正相關(guān)還是負(fù)相關(guān)?ra,b=(ai-A)(bi-B)/NAB=(aibi

17、)-NAB/NAB=(aibi)-18*46.44*28.78/18*12.85相關(guān)系數(shù)是0.82。變量呈正相關(guān)。2.10 如下標(biāo)準(zhǔn)化方法的值域是什么?答:(a) min-max 標(biāo)準(zhǔn)化。值域是new_min, new_max。(b) z-score 標(biāo)準(zhǔn)化。值域是(old_minmean)/,(old_maxmean)/,總的來(lái)說(shuō),對(duì)于所有可能的數(shù)據(jù)集的值域是(,+)。(c) 小數(shù)定標(biāo)標(biāo)準(zhǔn)化。值域是(,1.0)。3.3 P97假定數(shù)據(jù)倉(cāng)庫(kù)包含三維:time,doctor和patient;和兩個(gè)度量:count和charge;其中,charge是醫(yī)生對(duì)病人一次診治的收費(fèi)。(a)列舉三種流行的數(shù)

18、據(jù)倉(cāng)庫(kù)建模模式答:三類模式一般用于建模數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)的星形模型,雪花模型和事實(shí)星座模型。(b)使用(a)列舉的模式之一,畫出上面的數(shù)據(jù)倉(cāng)庫(kù)的模式圖 數(shù)據(jù)倉(cāng)庫(kù)的星形模型C由根本方體day,doctor,patient開(kāi)場(chǎng),為列出2004年每位醫(yī)生的收費(fèi)總數(shù),應(yīng)當(dāng)執(zhí)行哪些OLAP操作?沿課程course維從course_id“上卷到department。l 沿時(shí)間time維從day “上卷到y(tǒng)ear。l 取 time=2004,對(duì)維 time作“切片操作l 沿病人patient維從個(gè)別病人“上卷到全部病人。(d)為得到同樣結(jié)果,寫一個(gè)SQL查詢。假定數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫(kù)中,其模式為fee(day,m

19、onth,year,doctor,hospital,patient,count,charge)。答:SQL查詢語(yǔ)句如下:select doctor, SUM(charge)from feewhere year=2004group by doctor3.5(P98)假定數(shù)據(jù)倉(cāng)庫(kù)包含4維:date, spectator, location, 和game,和兩個(gè)度量:count和charge;其中,charge是觀眾在給定的日期觀看節(jié)目的付費(fèi)。觀眾可以是學(xué)生、成年人或老年人,每類觀眾有不同的收費(fèi)標(biāo)準(zhǔn)。(a)畫出該數(shù)據(jù)倉(cāng)庫(kù)的星形模式圖。答: 星形模式圖如下:b.由根本方體date,spectator,

20、location,game開(kāi)場(chǎng),為列出2004年學(xué)生觀眾在GM_Place的總付費(fèi),應(yīng)執(zhí)行的OLAP操作:l 沿時(shí)間date維從date_id “上卷到y(tǒng)ear。l 沿時(shí)間game維從game_id “上卷到全部。l 沿時(shí)間location維從location_id “上卷到location_name。l 沿時(shí)間spectator維從spectator_id “上卷到status。l 以 status="students", location name="GM Place" and year=2004 作轉(zhuǎn)軸操作3.6 數(shù)據(jù)倉(cāng)庫(kù)可以用星形模式或雪花模式建

21、模。簡(jiǎn)單討論這兩種模式的相似點(diǎn)和不同點(diǎn),然后分析它們的相對(duì)做優(yōu)、缺點(diǎn)。哪種模式更實(shí)用,給出你觀點(diǎn)并陳述你的理由。答:星形模式或雪花模式的相似點(diǎn)是它們包含一個(gè)事實(shí)表和一些維表。它們主要的不同在于,雪花模式的維表可能是標(biāo)準(zhǔn)化形式,以便減少了冗余,這種表易于維護(hù)并節(jié)省存儲(chǔ)空間。然而,及巨大的事實(shí)表相比,這種空間的節(jié)省可以忽略。此外,由于執(zhí)行查詢需要更多的連接操作,雪花形構(gòu)造可能降低瀏覽的性能,這樣,系統(tǒng)的性能可能相對(duì)的受到影響。星型模式的優(yōu)點(diǎn)是簡(jiǎn)單、這使得它更有效,但它需要更多的空間。因此,只要空間的要求不是太大時(shí),星形模式比雪花模式更好,因?yàn)橥ǔP时瓤臻g具有更高的優(yōu)先級(jí)。在工業(yè)上,有時(shí)可能將數(shù)據(jù)

22、從一個(gè)雪花模式非標(biāo)準(zhǔn)化為星型模式以加快處理速度,另一種選擇是保持雪花模式的維表,然后一樣數(shù)據(jù)的當(dāng)前用戶折疊為星形。4.4 假定根本方體有三維A,B,C,其單元數(shù)如下:|A|=1000000,|B|=100,|C|=1000.假定每維均等地分塊成10局部。a假定每維只有一層,畫出完整的立方體的格。答:完整的立方體的格如以下圖b如果每個(gè)立方體單元存放一個(gè)4字節(jié)的度量,假設(shè)立方體是稠密的,所計(jì)算的立方體有多大?答:所計(jì)算的立方體大小如下:all:1A: 1,000,000; B: 100; C: 1, 000; 小計(jì): 1,001,100AB:1,000,000*100=100,000,000;BC

23、: 100*1,000=100,000; AC:1,000,000*1,000=1,000,000,000; 小計(jì): 1,100,100,000ABC:1,000,000*100*1,000=100,000,000,000總和:1+1,001,100+1,100,100,000+100,000,000,000=101,101,101,101 *4 = 404,404,404,404 字節(jié)C指出空間需求量最小的立方體中的塊計(jì)算次序,并計(jì)算2-D平面計(jì)算所需要的內(nèi)存空間總量。 答:順序計(jì)算,需要最少數(shù)量的空間B-C-A.如下圖:計(jì)算二維平面需要的總主內(nèi)存空間是:總空間 = (100×1,

24、000) + (1,000,000×10) + (100×10,000) = 20,100,000 單元*4字節(jié)/單元= 80,400,000 字節(jié)4.12考慮下面的多特征立方體查詢:按item, region, month的所有子集分組,對(duì)每組找出2004年的最小貨架壽命,并對(duì)價(jià)格低于100美元,最小貨架壽命在1.251.5之間的元組找出總銷售額局部。a畫出該查詢的多特征立方體圖。P126R0 R1(>= 1.25 *min(shelf)and <= 1.5 * min(shelf) (b)用擴(kuò)大的SQL表示查詢selectitem, region, mont

25、h, MIN(shelf), SUM(R1)fromPurchaseswhereyear = 2004cube byitem, region, month: R1such that (R1.Shelf >= 1.25*MIN(Shelf) and R1.Shelf <= 1.5*MIN(Shelf)and R1.Price < 100c這是一個(gè)分布式多特征立方體嗎?為什么? 答:不,這不是一個(gè)分布式的多特征立方體。因?yàn)樵趕uch that子句中含有<=的條件。5.1.Apriori算法使用子集支持性質(zhì)的先驗(yàn)知識(shí)。(a)證明頻繁項(xiàng)集的所有非空的子集也必須是頻繁的。答:設(shè)s

26、是一個(gè)頻繁項(xiàng)集,min_sup是最小支持度閥值,任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫(kù)事務(wù)的集合,|D|是D 有事務(wù)量,那么有Support_count(s) = min_sup×|D|;再設(shè)s是s的非空子集,那么任何包含項(xiàng)集s的事務(wù)將同樣包含項(xiàng)集s , 即:support_ count(s') support count(s) = min_sup ×|D|.所以,s也是一個(gè)頻繁項(xiàng)集。(b) 證明項(xiàng)集s的任意非空子集s的支持至少和s的支持度一樣大。 答:設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫(kù)事務(wù)的集合,|D|是D 的事務(wù)量,由定義得:設(shè)s是s的非空子集,由定義得:由a可知:support(s

27、) support(s)由此證明,項(xiàng)集s的任意非空子集s的支持至少和s的支持度一樣大。c給定頻繁項(xiàng)集 l 和 l的子集 s ,證明規(guī)那么的置信度不可能大于 答:設(shè) s 是 l 的子集, 那么 設(shè)s是s的非空子集,那么 由b可知:support_count(s') support count(s),此外,confidence(s)(l-s) confidence(s) (l- s)所以,規(guī)那么的置信度不可能大于。設(shè)數(shù)據(jù)庫(kù)有5個(gè)事務(wù)。設(shè)min_sup =60%, min_conf=80%(a)分別使用Apriori和FP增長(zhǎng)算法找出所有頻繁項(xiàng)集。比擬兩種挖掘過(guò)程的效率。效率比擬:Aprio

28、ri需屢次掃描數(shù)據(jù)庫(kù)而FP增長(zhǎng)建立FP樹只需一次的掃描。在Apriori算法中產(chǎn)生候選是昂貴的由于聯(lián)接,而FP增長(zhǎng)不產(chǎn)生任何候選。(b)列舉所有及下面的元規(guī)那么匹配的強(qiáng)關(guān)聯(lián)規(guī)那么給出支持度S和置信度C,其中,X是代表顧客的變量,itemi是表示項(xiàng)的變量如:“A、“B等:答: k,oe 0.6,1e,ok 0.6,15.5.數(shù)據(jù)庫(kù)有4個(gè)事務(wù),設(shè)min_sup =60%, min_conf=80%a在item_category粒度例如,itemi可以是“Milk,對(duì)于下面的規(guī)那么模板對(duì)最大的k,列出頻繁k項(xiàng)集包含最大的k的頻繁k項(xiàng)集的所有強(qiáng)關(guān)聯(lián)規(guī)那么包括它們的支持度S和置信度c.(b)在 粒度例如

29、:itemi可以是“Sunset-Milk對(duì)于下面的規(guī)那么模板對(duì)最大的k,列出頻繁k項(xiàng)集但不輸出任何規(guī)那么。 假定描述BigUniversity大學(xué)生的數(shù)據(jù)關(guān)系已泛化為表5-13的廣義關(guān)系R.(題目見(jiàn)P179)a畫出status,major,age,nationality的概念分層學(xué)生可以輕松地勾勒出相應(yīng)的概念層次。(b)寫一個(gè)程序,對(duì)所有層使用一致的支持度,詳見(jiàn)P179.(c)使用層穿插單項(xiàng)過(guò)濾,詳見(jiàn)P179 下面的相依表匯總了超級(jí)市場(chǎng)的事務(wù)數(shù)據(jù)。其中,hot dogs表示包含熱狗的事務(wù),hot dogs表示不包含熱狗的事務(wù),hamburgers表示包含漢堡包的事務(wù),hamburgers表示

30、不包含漢堡包的事務(wù),a假定挖掘出了關(guān)聯(lián)規(guī)那么 。給定最小支持度閥值25%,最小置信度閥值50%,該關(guān)聯(lián)規(guī)那么是強(qiáng)規(guī)那么嗎?答:根據(jù)規(guī)那么, support = 2000/5000 = 40%, confidence = 2000/3000 = 66.7%.該關(guān)聯(lián)規(guī)那么是強(qiáng)規(guī)那么.b根據(jù)給定的數(shù)據(jù),買 hot dogs獨(dú)立于買humburgers嗎?如果不是,二者之間存在何種相關(guān)聯(lián)系。答:corrhotdog;hamburger= P(hot dog, hamburger)/(P(hot dog) P(hamburger)=0.4/(0.5 ×0.6) =1.33 > 1. 所以

31、,買 hot dogs不是獨(dú)立于買humburgers。兩者存在正相關(guān)關(guān)系 簡(jiǎn)述決策樹分類的主要步驟。 給定一個(gè)具有50個(gè)屬性每個(gè)屬性包含100個(gè)不同值的5GB的數(shù)據(jù)集,而你的臺(tái)式機(jī)有512M內(nèi)存。簡(jiǎn)述對(duì)這種大型數(shù)據(jù)集構(gòu)造決策樹的一種有效算法。通過(guò)粗略地計(jì)算機(jī)主存的使用說(shuō)明你的答案是正確的。We will use the RainForest algorithm for this problem. Assume there are C class labels. The most memoryrequired will be for AVC-set for the root of the tr

32、ee. To compute the AVC-set for the root node, we scanthe database once and construct the AVC-list for each of the 50 attributes. The size of each AVC-list is100×C. The total size of the AVC-set is then 100×C×50, which will easily fit into 512MB of memoryfor a reasonable C. The computa

33、tion of other AVC-sets is done in a similar way but they will be smallerbecause there will be less attributes available. To reduce the number of scans we can compute the AVC-setfor nodes at the same level of the tree in parallel. With such small AVC-sets per node, we can probably fitthe level in memory.這個(gè)問(wèn)題我們將使用雨林算法。假設(shè)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論