數(shù)據(jù)挖掘復(fù)習(xí)題綱

上傳人：建*** IP屬地：上海上傳時間：2022-02-09 格式：DOCX 頁數(shù)：8 大?。?2.33KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、一、1.2 數(shù)據(jù)倉庫與數(shù)據(jù)庫有何不同？它們有哪些相似之處?簡而言之，數(shù)據(jù)庫是面向事務(wù)的設(shè)計，數(shù)據(jù)倉庫是面向主題設(shè)計的。數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù)，數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)。數(shù)據(jù)庫設(shè)計是盡量避免冗余，一般采用符合范式的規(guī)則來設(shè)計，數(shù)據(jù)倉庫在設(shè)計是有意引入冗余，采用反范式的方式來設(shè)計。數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設(shè)計，數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計，它的兩個基本的元素是維表和事實表。維是看問題的角度，比如時間，部門，維表放的就是這些東西的定義，事實表里放著要查詢的數(shù)據(jù)，同時有維的ID。單從概念上講，有些晦澀。任何技術(shù)都是為應(yīng)用服務(wù)的，結(jié)合應(yīng)用可以很容易地理解。以銀行業(yè)務(wù)為例。數(shù)據(jù)庫是事務(wù)系統(tǒng)的數(shù)據(jù)

2、平臺，客戶在銀行做的每筆交易都會寫入數(shù)據(jù)庫，被記錄下來，這里，可以簡單地理解為用數(shù)據(jù)庫記帳。數(shù)據(jù)倉庫是分析系統(tǒng)的數(shù)據(jù)平臺，它從事務(wù)系統(tǒng)獲取數(shù)據(jù)，并做匯總、加工，為決策者提供決策的依據(jù)。比如，某銀行某分行一個月發(fā)生多少交易，該分行當(dāng)前存款余額是多少。如果存款又多，消費交易又多，那么該地區(qū)就有必要設(shè)立ATM了。顯然，銀行的交易量是巨大的，通常以百萬甚至千萬次來計算。事務(wù)系統(tǒng)是實時的，這就要求時效性，客戶存一筆錢需要幾十秒是無法忍受的，這就要求數(shù)據(jù)庫只能存儲很短一段時間的數(shù)據(jù)。而分析系統(tǒng)是事后的，它要提供關(guān)注時間段內(nèi)所有的有效數(shù)據(jù)。這些數(shù)據(jù)是海量的，匯總計算起來也要慢一些，但是，只要能夠提供有效的

3、分析數(shù)據(jù)就達到目的了。數(shù)據(jù)倉庫，是在數(shù)據(jù)庫已經(jīng)大量存在的情況下，為了進一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的，它決不是所謂的“大型數(shù)據(jù)庫”。那么，數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫比較，有哪些不同呢?讓我們先看看W.H.Inmon關(guān)于數(shù)據(jù)倉庫的定義:面向主題的、集成的、與時間相關(guān)且不可修改的數(shù)據(jù)集合。 “面向主題的”:傳統(tǒng)數(shù)據(jù)庫主要是為應(yīng)用程序進行數(shù)據(jù)處理，未必按照同一主題存儲數(shù)據(jù);數(shù)據(jù)倉庫側(cè)重于數(shù)據(jù)分析工作，是按照主題存儲的。這一點，類似于傳統(tǒng)農(nóng)貿(mào)市場與超市的區(qū)別市場里面，白菜、蘿卜、香菜會在一個攤位上，如果它們是一個小販賣的;而超市里，白菜、蘿卜、香菜則各自一塊。也就是說，市場里的菜(數(shù)據(jù))是按照小販

4、(應(yīng)用程序)歸堆(存儲)的，超市里面則是按照菜的類型(同主題)歸堆的。 “與時間相關(guān)”:數(shù)據(jù)庫保存信息的時候，并不強調(diào)一定有時間信息。數(shù)據(jù)倉庫則不同，出于決策的需要，數(shù)據(jù)倉庫中的數(shù)據(jù)都要標(biāo)明時間屬性。決策中，時間屬性很重要。同樣都是累計購買過九車產(chǎn)品的顧客，一位是最近三個月購買九車，一位是最近一年從未買過，這對于決策者意義是不同的。 “不可修改”:數(shù)據(jù)倉庫中的數(shù)據(jù)并不是最新的，而是來源于其它數(shù)據(jù)源。數(shù)據(jù)倉庫反映的是歷史信息，并不是很多數(shù)據(jù)庫處理的那種日常事務(wù)數(shù)據(jù)(有的數(shù)據(jù)庫例如電信計費數(shù)據(jù)庫甚至處理實時信息)。因此，數(shù)據(jù)倉庫中的數(shù)據(jù)是極少或根本不修改的;當(dāng)然，向數(shù)據(jù)倉庫添加數(shù)據(jù)是允許的。數(shù)據(jù)

5、倉庫的出現(xiàn)，并不是要取代數(shù)據(jù)庫。目前，大部分?jǐn)?shù)據(jù)倉庫還是用關(guān)系數(shù)據(jù)庫管理系統(tǒng)來管理的。可以說，數(shù)據(jù)庫、數(shù)據(jù)倉庫相輔相成、各有千秋。補充一下，數(shù)據(jù)倉庫的方案建設(shè)的目的，是為前端查詢和分析作為基礎(chǔ)，由于有較大的冗余，所以需要的存儲也較大。為了更好地為前端應(yīng)用服務(wù)，數(shù)據(jù)倉庫必須有如下幾點優(yōu)點，否則是失敗的數(shù)據(jù)倉庫方案。 1.效率足夠高?？蛻粢蟮姆治鰯?shù)據(jù)一般分為日、周、月、季、年等，可以看出，日為周期的數(shù)據(jù)要求的效率最高，要求24小時甚至12小時內(nèi)，客戶能看到昨天的數(shù)據(jù)分析。由于有的企業(yè)每日的數(shù)據(jù)量很大，設(shè)計不好的數(shù)據(jù)倉庫經(jīng)常會出問題，延遲1-3日才能給出數(shù)據(jù)，顯然不行的。 2.數(shù)據(jù)質(zhì)量?？蛻粢?/p>

6、各種信息，肯定要準(zhǔn)確的數(shù)據(jù)，但由于數(shù)據(jù)倉庫流程至少分為3步，2次ETL，復(fù)雜的架構(gòu)會更多層次，那么由于數(shù)據(jù)源有臟數(shù)據(jù)或者代碼不嚴(yán)謹(jǐn)，都可以導(dǎo)致數(shù)據(jù)失真，客戶看到錯誤的信息就可能導(dǎo)致分析出錯誤的決策，造成損失，而不是效益。 3.擴展性。之所以有的大型數(shù)據(jù)倉庫系統(tǒng)架構(gòu)設(shè)計復(fù)雜，是因為考慮到了未來3-5年的擴展性，這樣的話，客戶不用太快花錢去重建數(shù)據(jù)倉庫系統(tǒng)，就能很穩(wěn)定運行。主要體現(xiàn)在數(shù)據(jù)建模的合理性，數(shù)據(jù)倉庫方案中多出一些中間層，使海量數(shù)據(jù)流有足夠的緩沖，不至于數(shù)據(jù)量大很多，就運行不起來了。1.3 定義下列數(shù)據(jù)挖掘功能：特征化、區(qū)分、關(guān)聯(lián)和相關(guān)性分析、分類、回歸、聚類、離君點分析。使用你熟悉的現(xiàn)實

7、生活中的數(shù)據(jù)庫，給出每種數(shù)據(jù)挖掘功能的例子。特征化是一個目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。例如，學(xué)生的特征可被提出，形成所有大學(xué)的計算機科學(xué)專業(yè)一年級學(xué)生的輪廓，這些特征包括作為一種高的年級平均成績(GPA：Grade point aversge)的信息，還有所修的課程的最大數(shù)量。. 區(qū)分是將目標(biāo)類數(shù)據(jù)對象的一般特性與一個或多個對比類對象的一般特性進行比較。例如，具有高GPA 的學(xué)生的一般特性可被用來與具有低GPA 的一般特性比較。最終的描述可能是學(xué)生的一個一般可比較的輪廓，就像具有高GPA 的學(xué)生的75%是四年級計算機科學(xué)專業(yè)的學(xué)生，而具有低GPA 的學(xué)生的65%不是。. 關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)

8、則，這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如，一個數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為：major(X, “computing science”) owns(X, “personal computer”)support=12%, confidence=98%其中，X 是一個表示學(xué)生的變量。這個規(guī)則指出正在學(xué)習(xí)的學(xué)生，12%（支持度）主修計算機科學(xué)并且擁有一臺個人計算機。這個組一個學(xué)生擁有一臺個人電腦的概率是98%（置信度，或確定度）。. 分類與預(yù)測不同，因為前者的作用是構(gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型（或功能），而后者是建立一個模型去預(yù)測缺失的或無效的、并且通常是數(shù)字的數(shù)

9、據(jù)值。它們的相似性是他們都是預(yù)測的工具：分類被用作預(yù)測目標(biāo)數(shù)據(jù)的類的標(biāo)簽，而預(yù)測典型的應(yīng)用是預(yù)測缺失的數(shù)字型數(shù)據(jù)的值。. 聚類分析的數(shù)據(jù)對象不考慮已知的類標(biāo)號。對象根據(jù)最大花蕾內(nèi)部的相似性、最小化類之間的相似性的原則進行聚類或分組。形成的每一簇可以被看作一個對象類。聚類也便于分類法組織形式，將觀測組織成類分層結(jié)構(gòu)，把類似的事件組織在一起。. 數(shù)據(jù)延邊分析描述和模型化隨時間變化的對象的規(guī)律或趨勢，盡管這可能包括時間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測，這種分析的明確特征包括時間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析二、2.2假設(shè)所分析的數(shù)據(jù)包括屬性age，它在數(shù)

10、據(jù)元組中的值（以遞増）為13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70A)該數(shù)據(jù)的均值是多少？中位數(shù)是什么？B)該數(shù)據(jù)的眾數(shù)是什么？討論數(shù)據(jù)的模態(tài)（即二模，三模等）。C)該數(shù)據(jù)的中列數(shù)是多少D)你能（粗略地）找出該據(jù)的第一個四分位數(shù)（Q1）和第三個四分位數(shù)（Q3）嗎？E)給出該數(shù)據(jù)的五數(shù)概括。F)繪制出該數(shù)據(jù)的盒圖。G)分位數(shù)分位數(shù)圖與分位數(shù)圖有何不同？解答：(a) 該數(shù)據(jù)的均值是什么？中位數(shù)是什么？(b) 該數(shù)據(jù)的眾數(shù)是什么？討論數(shù)據(jù)的峰（即雙峰、三峰等）。這個數(shù)集的眾數(shù)有兩個：

11、25 和35，發(fā)生在同樣最高的頻率處，因此是雙峰眾數(shù)。(c) 數(shù)據(jù)的中列數(shù)是什么？數(shù)據(jù)的中列數(shù)是最大術(shù)和最小是的均值。即：midrange=(70+13)/2=41.5。(d) 你能（粗略地）找出數(shù)據(jù)的第一個四分位數(shù)（Q1）和第三個四分位數(shù)（Q3）嗎？數(shù)據(jù)集的第一個四分位數(shù)應(yīng)發(fā)生在25%處，即在(N+1)/4=7 處。所以：Q1=20。而第三個四分位數(shù)應(yīng)發(fā)生在75%處，即在3×(N+1)/4=21 處。所以：Q3=35(e) 給出數(shù)據(jù)的五數(shù)概括。一個數(shù)據(jù)集的分布的5 數(shù)概括由最小值、第一個四分位數(shù)、中位數(shù)、第三個四分位數(shù)、和最大值構(gòu)成。它給出了分布形狀良好的匯總，并且這些數(shù)據(jù)是：13

12、、20、25、35、70。(f) 畫出數(shù)據(jù)的盒圖。略。(g) 分位數(shù)分位數(shù)圖與分位數(shù)圖的不同之處是什么？分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在一個單變量分布中獨立的變量的粗略百分比。這樣，他可以展示所有數(shù)的分位數(shù)信息，而為獨立變量測得的值（縱軸）相對于它們的分位數(shù)（橫軸）被描繪出來。但分位數(shù)分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù)，用橫軸表示另一單變量分布的分位數(shù)。兩個坐標(biāo)軸顯示它們的測量值相應(yīng)分布的值域，且點按照兩種分布分位數(shù)值展示。一條線（y=x）可畫到圖中，以增加圖像的信息。落在該線以上的點表示在y 軸上顯示的值的分布比x 軸的相應(yīng)的等同分位數(shù)對應(yīng)的值的分布高。反之，對落在該線以下的點

13、則低。2.3設(shè)給定的數(shù)據(jù)集已經(jīng)分組到區(qū)間。這些區(qū)間和對應(yīng)頻率如下所示：Age frequency1-52006-1545016-2030021-50150051-8070080-11044計算該數(shù)據(jù)的近似中位數(shù)。2.4假設(shè)醫(yī)院對18個隨機挑選的成年人檢查年齡和身體肥胖，得到如下結(jié)果：Age232327273941474950Fat9.526.57.817.831.425.927.427.231.2Age525454565758586061Fat34.642.528.833.430.234.132.941.235.7A) 計算age和%fat的均值，中位數(shù)和標(biāo)準(zhǔn)差。B) 繪制age和%fat的盒

14、圖。C) 繪制基于這兩個變量的散點圖和q-q圖。三3.3在習(xí)題2.2中，age包括如下值（以遞增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70.A) 使用蔞3的箱，用箱均值光滑以上數(shù)據(jù)。說明你的步驟，討論這種技術(shù)對緞帶定數(shù)據(jù)的效果。B) 如何確定該數(shù)據(jù)中的離群點？C) 還有什么其他方法來光滑數(shù)據(jù)？(a) 使用分箱均值光滑對以上數(shù)據(jù)進行光滑，箱的深度為3。解釋你的步驟。評述對于給定的數(shù)據(jù)，該技術(shù)的效果。用箱深度為3 的分箱均值光滑對以上數(shù)據(jù)進行光滑需要以下步驟：𙦥

15、8; 步驟1：對數(shù)據(jù)排序。（因為數(shù)據(jù)已被排序，所以此時不需要該步驟。）􀁺 步驟2：將數(shù)據(jù)劃分到大小為3 的等頻箱中。箱1：13，15，16 箱2：16，19，20 箱3：20，21，22箱4：22，25，25 箱5：25，25，30 箱6：33，33，35箱7：35，35，35 箱8：36，40，45 箱9：46，52，70􀁺 步驟3：計算每個等頻箱的算數(shù)均值。􀁺 步驟4：用各箱計算出的算數(shù)均值替換每箱中的每個值。箱1：44/3，44/3，44/3 箱2：55/3，55/3，55/3 箱3：21，21，21箱4：24，24，24 箱5：80

16、/3，80/3，80/3 箱6：101/3，101/3，101/3箱7：35，35，35 箱8：121/3，121/3，121/3 箱9：56，56，56(b) 如何確定數(shù)據(jù)中的離群點？聚類的方法可用來將相似的點分成組或“簇”，并檢測離群點。落到簇的集外的值可以被視為離群點。作為選擇，一種人機結(jié)合的檢測可被采用，而計算機用一種事先決定的數(shù)據(jù)分布來區(qū)分可能的離群點。這些可能的離群點能被用人工輕松的檢驗，而不必檢查整個數(shù)據(jù)集。(c) 對于數(shù)據(jù)光滑，還有哪些其他方法？其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法，如中位數(shù)光滑和箱邊界光滑。作為選擇，等寬箱可被用來執(zhí)行任何分箱方式，其中每個箱中的數(shù)據(jù)范

17、圍均是常量。除了分箱方法外，可以使用回歸技術(shù)擬合成函數(shù)來光滑數(shù)據(jù)，如通過線性或多線性回歸。分類技術(shù)也能被用來對概念分層，這是通過將低級概念上卷到高級概念來光滑數(shù)據(jù)。3.5如下規(guī)范化方法的值域是什么？A) 最小-最大規(guī)范化B) Z分?jǐn)?shù)規(guī)范化。C) Z分?jǐn)?shù)規(guī)范化，使用均值絕對念頭而不是標(biāo)準(zhǔn)差。D) 小數(shù)定標(biāo)規(guī)范化。(a) min-max 規(guī)范化。值域是new_min, new_max。(b) z-score 規(guī)范化。值域是(old_minmean)/，(old_maxmean)/，總的來說，對于所有可能的數(shù)據(jù)集的值域是(，+)。(c) 小數(shù)定標(biāo)規(guī)范化。值域是(1.0,1.0)。3.6使用如下方法規(guī)

18、范化如下數(shù)據(jù)組：200，300，400，600，1000(a) min=0,max=1，最小-最大規(guī)范化。(b) Z分?jǐn)?shù)規(guī)范化。(c) Z分?jǐn)?shù)規(guī)范化，使用均值絕對偏差而不是標(biāo)準(zhǔn)差。(d) 小數(shù)定標(biāo)規(guī)范化。(a) min-max 規(guī)范化。值域是new_min, new_max。(b) z-score 規(guī)范化。值域是(old_minmean)/，(old_maxmean)/，總的來說，對于所有可能的數(shù)據(jù)集的值域是(，+)。(c) 小數(shù)定標(biāo)規(guī)范化。值域是(1.0,1.0)。4.1試述對于多個異構(gòu)信息源的集成，為什么許多公司更愿意使用更新驅(qū)動的方法（構(gòu)造和使用數(shù)據(jù)倉庫），而不是查詢驅(qū)動的方法（使用包

19、裝程序和集成程序）。描述一些查詢驅(qū)動方法比更新驅(qū)動方法更可取的情況。答：因為對于多個異種信息源的集成，查詢驅(qū)動方法需要復(fù)雜的信息過濾和集成處理，并且與局部數(shù)據(jù)源上的處理競爭資源，是一種低效的方法，并且對于頻繁的查詢，特別是需要聚集操作的查詢，開銷很大。而更新驅(qū)動方法為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能，因為數(shù)據(jù)被處理和重新組織到一個語義一致的數(shù)據(jù)存儲中，進行查詢的同時并不影響局部數(shù)據(jù) 源上進行的處理。此外，數(shù)據(jù)倉庫存儲并集成歷史信息，支持復(fù)雜的多維查詢。 4.2簡略比較以下概念，可以用例子解釋你的觀點。（a）雪花模式、事實星座、星網(wǎng)查詢模型。（b）數(shù)據(jù)清理、數(shù)據(jù)變換、刷新。（

20、c）發(fā)現(xiàn)驅(qū)動的立方體、多特征冷言冷語腐朽、虛擬倉庫（a）雪花形模式、事實星座形、星形網(wǎng)查詢模型。答：雪花形和事實星形模式都是變形的星形模式，都是由事實表和維表組成，雪花形模式的維表都是規(guī)范化的；而事實星座形的某幾個事實表可能會共享一些維表；星形網(wǎng)查詢模型是一個查詢模型而不是模式模型，它是由中心點發(fā)出的涉嫌組成，其中每一條射線代表一個維的概念分層。（b）數(shù)據(jù)清理、數(shù)據(jù)變換、刷新答：數(shù)據(jù)清理是指檢測數(shù)據(jù)中的錯誤，可能時訂正它們；數(shù)據(jù)變換是將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉庫格式；刷新是指傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新。4.5假定數(shù)據(jù)倉庫包含4個維date,spectator,locat

21、ion,game，2個度量count和charge，其中charge是觀眾在給定的日期觀看節(jié)目的費用。觀眾可以是學(xué)生、成年人或老年人，每類觀眾有不同的收費標(biāo)準(zhǔn)。（a）畫出該數(shù)據(jù)倉庫的星形模式圖（b）由基本方體【date,spectator,location,game】開始，為列出2010年學(xué)生觀眾在GM_place的總付費，應(yīng)當(dāng)執(zhí)行哪些OLAP操作？（c）對于數(shù)據(jù)倉庫，位圖是有用的。以該數(shù)據(jù)立方體為例，簡略討論使用位圖索引結(jié)構(gòu)的優(yōu)點和問題。6.3 Apriori算法使用子集支持度性質(zhì)的先驗知識。（a）證明頻繁項集的所有非空子集一定也是頻繁的。（b）證明項集s的任意非空子集s的支持度至

22、少與s的支持度一樣大。（c）給定頻繁項集l和l的子集s，證明規(guī)則“s=>l(s)”的置信度不可能大于“s=>l(s)”的置信度。其中，s是s的子集（d） Apriori算法的一種變形將事務(wù)數(shù)據(jù)庫D中的事務(wù)劃分成n個不重疊的分區(qū)。證明在D中頻繁的項集至少在D的一個分區(qū)中是頻繁的。1證明頻繁集的所有非空子集必須也是頻繁的。證明：根據(jù)定義，如果項集I不滿足最小支持度閾值min_sup，則I不是頻繁的，即supmin_)(<IP如果A想添加到I，則結(jié)果項集不可能不更頻繁出現(xiàn)。因此，也不是頻繁的，即矛盾。 2.同理可證。36.6數(shù)據(jù)庫有5個事務(wù)。設(shè)min_sup

23、=6-%，min_conf=80%。TID購買的商品T100M,O,N,K,E,YT200D,O,N,K,E,YT300M,A,K,ET400M,U,C,K,YT500C,O,O,K,I,E(a) 分別使用Apriori算法和FP-growth算法找出頻繁項集。比較兩種挖掘過程的有效性。(b) 列舉所有與下面元規(guī)則匹配的強關(guān)聯(lián)規(guī)則（緞帶出支持度s和置信度c），其中，X是代表太陽穴的變量，item，是表示項的變量（如“A”，“B ”等）：xtransaction,buys(X,item1)buys（X,item2）=>buys(X,itm3)s,c6.8數(shù)據(jù)庫有4個事務(wù)。設(shè)min_sup=

24、60%,min_conf=80%。Cust_IDTID購買的商品（以brand-item_category形式）01T100Kings-Carb,Sunset-Milk, Dairyland-Cheese,best-Bread02T200Best-Cheese, Dairyland-Milk, Goldenfarm-Apple,Tasty-Pie,Wonder-Bread01T300Westcoast-Apple,Dairyland-Milk,Wonder-Bread,Tasty-Pie03T400Wonder-Bread,Sunset-Milk,Dairyland-Cheese(a) 在it

25、em_category粒度（例如，item,所可能已經(jīng)”milk”)，對于下面的規(guī)則模板xtransaction,buys(X,item1)buys(X,item2)=>buys(X,item3)s,c列出最大k的頻繁k項集和包含最大k的頻繁k諅的所有強關(guān)聯(lián)規(guī)則（包括它們的支持度s和置信度c）。(b)在brand-item_category粒度（例如，item i可以是Sunset-Milk），對于下面的規(guī)則模板xcustomer,buys(X,item1)buys(X,item2)=>buys(X,item3)列出最大k的頻繁k項集（但不輸出任何規(guī)則）7.3量化關(guān)聯(lián)規(guī)則可能提示數(shù)

26、據(jù)集中的異常行為，其中“異?！笨梢愿鶕?jù)統(tǒng)計學(xué)理論定義。例如，7.2.3節(jié)表明關(guān)聯(lián)規(guī)則Sex=femalemeanwage=7,90 $/h(overallmeanwage=9.02 $/h）暗示一個異常模式。該規(guī)則說明，女性的平均工資每小時只有7.90美元，顯著地于每小時9.02美元的總體平均工資。討論如何在具有量化屬性的大型數(shù)據(jù)集中系統(tǒng)而有效地發(fā)現(xiàn)這種量化規(guī)則。8.1簡述決策樹分類的主要步驟。8.7下表由雇員數(shù)據(jù)庫的訓(xùn)練數(shù)據(jù)組成。數(shù)據(jù)已泛化。例如，age“31.35”表示年齡在31-35之間。對于給定的行，count表department、status、age和salary在該行上具有給定值

27、的元組數(shù)。Department statusage salarycountSalessenior31-3546k-50k30Salesjunior26-3026-30k40Salesjunior31-3531-35k40Systemsjunior21-2546-50k20Systemssenior31-3566-70k5Systemsjunior26-3046-50k3Systemssenior41-4566-70k3Marketingsenior36-4046-50k10Marketingjunior31-3541-45k4Secretarysenior46-5036-40k4Secreta

28、ryjunior26-3026-30k6(a) 如何修改基本決策樹算法，以便考慮每個廣義數(shù)據(jù)元組（即每個行）的count？(b) 使用修改過的算法，構(gòu)造繃帶定數(shù)據(jù)的決策樹(c) 給定一個數(shù)據(jù)元組，它的屬性department、age和salary的值分別為“system”“2630”和“4660”。該元級status的相互貝葉斯分類是什么？解一：設(shè)元組的各個屬性之間相互獨立，所以先求每個屬性的類條件概率：P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113;P(26-30|junior)=(40+3+6)/113=49/113；P(46K-50K|j

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘復(fù)習(xí)題綱

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)挖掘復(fù)習(xí)題綱

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔