




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、一、1.2 數(shù)據(jù)倉庫與數(shù)據(jù)庫有何不同?它們有哪些相似之處?簡而言之,數(shù)據(jù)庫是面向事務(wù)的設(shè)計,數(shù)據(jù)倉庫是面向主題設(shè)計的。 數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù),數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)。 數(shù)據(jù)庫設(shè)計是盡量避免冗余,一般采用符合范式的規(guī)則來設(shè)計,數(shù)據(jù)倉庫在設(shè)計是有意引入冗余,采用反范式的方式來設(shè)計。 數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設(shè)計,數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計,它的兩個基本的元素是維表和事實表。維是看問題的角度,比如時間,部門,維表放的就是這些東西的定義,事實表里放著要查詢的數(shù)據(jù),同時有維的ID。 單從概念上講,有些晦澀。任何技術(shù)都是為應(yīng)用服務(wù)的,結(jié)合應(yīng)用可以很容易地理解。以銀行業(yè)務(wù)為例。數(shù)據(jù)庫是事務(wù)系統(tǒng)的數(shù)據(jù)
2、平臺,客戶在銀行做的每筆交易都會寫入數(shù)據(jù)庫,被記錄下來,這里,可以簡單地理解為用數(shù)據(jù)庫記帳。數(shù)據(jù)倉庫是分析系統(tǒng)的數(shù)據(jù)平臺,它從事務(wù)系統(tǒng)獲取數(shù)據(jù),并做匯總、加工,為決策者提供決策的依據(jù)。比如,某銀行某分行一個月發(fā)生多少交易,該分行當(dāng)前存款余額是多少。如果存款又多,消費交易又多,那么該地區(qū)就有必要設(shè)立ATM了。 顯然,銀行的交易量是巨大的,通常以百萬甚至千萬次來計算。事務(wù)系統(tǒng)是實時的,這就要求時效性,客戶存一筆錢需要幾十秒是無法忍受的,這就要求數(shù)據(jù)庫只能存儲很短一段時間的數(shù)據(jù)。而分析系統(tǒng)是事后的,它要提供關(guān)注時間段內(nèi)所有的有效數(shù)據(jù)。這些數(shù)據(jù)是海量的,匯總計算起來也要慢一些,但是,只要能夠提供有效的
3、分析數(shù)據(jù)就達到目的了。 數(shù)據(jù)倉庫,是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它決不是所謂的“大型數(shù)據(jù)庫”。那么,數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫比較,有哪些不同呢?讓我們先看看W.H.Inmon關(guān)于數(shù)據(jù)倉庫的定義:面向主題的、集成的、與時間相關(guān)且不可修改的數(shù)據(jù)集合。 “面向主題的”:傳統(tǒng)數(shù)據(jù)庫主要是為應(yīng)用程序進行數(shù)據(jù)處理,未必按照同一主題存儲數(shù)據(jù);數(shù)據(jù)倉庫側(cè)重于數(shù)據(jù)分析工作,是按照主題存儲的。這一點,類似于傳統(tǒng)農(nóng)貿(mào)市場與超市的區(qū)別市場里面,白菜、蘿卜、香菜會在一個攤位上,如果它們是一個小販賣的;而超市里,白菜、蘿卜、香菜則各自一塊。也就是說,市場里的菜(數(shù)據(jù))是按照小販
4、(應(yīng)用程序)歸堆(存儲)的,超市里面則是按照菜的類型(同主題)歸堆的。 “與時間相關(guān)”:數(shù)據(jù)庫保存信息的時候,并不強調(diào)一定有時間信息。數(shù)據(jù)倉庫則不同,出于決策的需要,數(shù)據(jù)倉庫中的數(shù)據(jù)都要標(biāo)明時間屬性。決策中,時間屬性很重要。同樣都是累計購買過九車產(chǎn)品的顧客,一位是最近三個月購買九車,一位是最近一年從未買過,這對于決策者意義是不同的。 “不可修改”:數(shù)據(jù)倉庫中的數(shù)據(jù)并不是最新的,而是來源于其它數(shù)據(jù)源。數(shù)據(jù)倉庫反映的是歷史信息,并不是很多數(shù)據(jù)庫處理的那種日常事務(wù)數(shù)據(jù)(有的數(shù)據(jù)庫例如電信計費數(shù)據(jù)庫甚至處理實時信息)。因此,數(shù)據(jù)倉庫中的數(shù)據(jù)是極少或根本不修改的;當(dāng)然,向數(shù)據(jù)倉庫添加數(shù)據(jù)是允許的。 數(shù)據(jù)
5、倉庫的出現(xiàn),并不是要取代數(shù)據(jù)庫。目前,大部分?jǐn)?shù)據(jù)倉庫還是用關(guān)系數(shù)據(jù)庫管理系統(tǒng)來管理的。可以說,數(shù)據(jù)庫、數(shù)據(jù)倉庫相輔相成、各有千秋。 補充一下,數(shù)據(jù)倉庫的方案建設(shè)的目的,是為前端查詢和分析作為基礎(chǔ),由于有較大的冗余,所以需要的存儲也較大。為了更好地為前端應(yīng)用服務(wù),數(shù)據(jù)倉庫必須有如下幾點優(yōu)點,否則是失敗的數(shù)據(jù)倉庫方案。 1.效率足夠高??蛻粢蟮姆治鰯?shù)據(jù)一般分為日、周、月、季、年等,可以看出,日為周期的數(shù)據(jù)要求的效率最高,要求24小時甚至12小時內(nèi),客戶能看到昨天的數(shù)據(jù)分析。由于有的企業(yè)每日的數(shù)據(jù)量很大,設(shè)計不好的數(shù)據(jù)倉庫經(jīng)常會出問題,延遲1-3日才能給出數(shù)據(jù),顯然不行的。 2.數(shù)據(jù)質(zhì)量??蛻粢?/p>
6、各種信息,肯定要準(zhǔn)確的數(shù)據(jù),但由于數(shù)據(jù)倉庫流程至少分為3步,2次ETL,復(fù)雜的架構(gòu)會更多層次,那么由于數(shù)據(jù)源有臟數(shù)據(jù)或者代碼不嚴(yán)謹(jǐn),都可以導(dǎo)致數(shù)據(jù)失真,客戶看到錯誤的信息就可能導(dǎo)致分析出錯誤的決策,造成損失,而不是效益。 3.擴展性。之所以有的大型數(shù)據(jù)倉庫系統(tǒng)架構(gòu)設(shè)計復(fù)雜,是因為考慮到了未來3-5年的擴展性,這樣的話,客戶不用太快花錢去重建數(shù)據(jù)倉庫系統(tǒng),就能很穩(wěn)定運行。主要體現(xiàn)在數(shù)據(jù)建模的合理性,數(shù)據(jù)倉庫方案中多出一些中間層,使海量數(shù)據(jù)流有足夠的緩沖,不至于數(shù)據(jù)量大很多,就運行不起來了。1.3 定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)性分析、分類、回歸、聚類、離君點分析。使用你熟悉的現(xiàn)實
7、生活中的數(shù)據(jù)庫,給出每種數(shù)據(jù)挖掘功能的例子。特征化是一個目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。例如,學(xué)生的特征可被提出,形成所有大學(xué)的計算機科學(xué)專業(yè)一年級學(xué)生的輪廓,這些特征包括作為一種高的年級平均成績(GPA:Grade point aversge)的信息,還有所修的課程的最大數(shù)量。. 區(qū)分是將目標(biāo)類數(shù)據(jù)對象的一般特性與一個或多個對比類對象的一般特性進行比較。例如,具有高GPA 的學(xué)生的一般特性可被用來與具有低GPA 的一般特性比較。最終的描述可能是學(xué)生的一個一般可比較的輪廓,就像具有高GPA 的學(xué)生的75%是四年級計算機科學(xué)專業(yè)的學(xué)生,而具有低GPA 的學(xué)生的65%不是。. 關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)
8、則,這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如,一個數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:major(X, “computing science”) owns(X, “personal computer”)support=12%, confidence=98%其中,X 是一個表示學(xué)生的變量。這個規(guī)則指出正在學(xué)習(xí)的學(xué)生,12%(支持度)主修計算機科學(xué)并且擁有一臺個人計算機。這個組一個學(xué)生擁有一臺個人電腦的概率是98%(置信度,或確定度)。. 分類與預(yù)測不同,因為前者的作用是構(gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型(或功能),而后者是建立一個模型去預(yù)測缺失的或無效的、并且通常是數(shù)字的數(shù)
9、據(jù)值。它們的相似性是他們都是預(yù)測的工具:分類被用作預(yù)測目標(biāo)數(shù)據(jù)的類的標(biāo)簽,而預(yù)測典型的應(yīng)用是預(yù)測缺失的數(shù)字型數(shù)據(jù)的值。. 聚類分析的數(shù)據(jù)對象不考慮已知的類標(biāo)號。對象根據(jù)最大花蕾內(nèi)部的相似性、最小化類之間的相似性的原則進行聚類或分組。形成的每一簇可以被看作一個對象類。聚類也便于分類法組織形式,將觀測組織成類分層結(jié)構(gòu),把類似的事件組織在一起。. 數(shù)據(jù)延邊分析描述和模型化隨時間變化的對象的規(guī)律或趨勢,盡管這可能包括時間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測,這種分析的明確特征包括時間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析二、2.2假設(shè)所分析的數(shù)據(jù)包括屬性age,它在數(shù)
10、據(jù)元組中的值(以遞増)為13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70A)該數(shù)據(jù)的均值是多少?中位數(shù)是什么?B)該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的模態(tài)(即二模,三模等)。C)該數(shù)據(jù)的中列數(shù)是多少D)你能(粗略地)找出該據(jù)的第一個四分位數(shù)(Q1)和第三個四分位數(shù)(Q3)嗎?E)給出該數(shù)據(jù)的五數(shù)概括。F)繪制出該數(shù)據(jù)的盒圖。G)分位數(shù)分位數(shù)圖與分位數(shù)圖有何不同?解答:(a) 該數(shù)據(jù)的均值是什么?中位數(shù)是什么?(b) 該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等)。這個數(shù)集的眾數(shù)有兩個:
11、25 和35,發(fā)生在同樣最高的頻率處,因此是雙峰眾數(shù)。(c) 數(shù)據(jù)的中列數(shù)是什么?數(shù)據(jù)的中列數(shù)是最大術(shù)和最小是的均值。即:midrange=(70+13)/2=41.5。(d) 你能(粗略地)找出數(shù)據(jù)的第一個四分位數(shù)(Q1)和第三個四分位數(shù)(Q3)嗎?數(shù)據(jù)集的第一個四分位數(shù)應(yīng)發(fā)生在25%處,即在(N+1)/4=7 處。所以:Q1=20。而第三個四分位數(shù)應(yīng)發(fā)生在75%處,即在3×(N+1)/4=21 處。所以:Q3=35(e) 給出數(shù)據(jù)的五數(shù)概括。一個數(shù)據(jù)集的分布的5 數(shù)概括由最小值、第一個四分位數(shù)、中位數(shù)、第三個四分位數(shù)、和最大值構(gòu)成。它給出了分布形狀良好的匯總,并且這些數(shù)據(jù)是:13
12、、20、25、35、70。(f) 畫出數(shù)據(jù)的盒圖。略。(g) 分位數(shù)分位數(shù)圖與分位數(shù)圖的不同之處是什么?分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在一個單變量分布中獨立的變量的粗略百分比。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨立變量測得的值(縱軸)相對于它們的分位數(shù)(橫軸)被描繪出來。但分位數(shù)分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù)。兩個坐標(biāo)軸顯示它們的測量值相應(yīng)分布的值域,且點按照兩種分布分位數(shù)值展示。一條線(y=x)可畫到圖中,以增加圖像的信息。落在該線以上的點表示在y 軸上顯示的值的分布比x 軸的相應(yīng)的等同分位數(shù)對應(yīng)的值的分布高。反之,對落在該線以下的點
13、則低。2.3設(shè)給定的數(shù)據(jù)集已經(jīng)分組到區(qū)間。這些區(qū)間和對應(yīng)頻率如下所示:Age frequency1-52006-1545016-2030021-50150051-8070080-11044計算該數(shù)據(jù)的近似中位數(shù)。2.4假設(shè)醫(yī)院對18個隨機挑選的成年人檢查年齡和身體肥胖,得到如下結(jié)果:Age232327273941474950Fat9.526.57.817.831.425.927.427.231.2Age525454565758586061Fat34.642.528.833.430.234.132.941.235.7A) 計算age和%fat的均值,中位數(shù)和標(biāo)準(zhǔn)差。B) 繪制age和%fat的盒
14、圖。C) 繪制基于這兩個變量的散點圖和q-q圖。三3.3在習(xí)題2.2中,age包括如下值(以遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.A) 使用蔞3的箱,用箱均值光滑以上數(shù)據(jù)。說明你的步驟,討論這種技術(shù)對緞帶定數(shù)據(jù)的效果。B) 如何確定該數(shù)據(jù)中的離群點?C) 還有什么其他方法來光滑數(shù)據(jù)?(a) 使用分箱均值光滑對以上數(shù)據(jù)進行光滑,箱的深度為3。解釋你的步驟。評述對于給定的數(shù)據(jù),該技術(shù)的效果。用箱深度為3 的分箱均值光滑對以上數(shù)據(jù)進行光滑需要以下步驟:
15、8; 步驟1:對數(shù)據(jù)排序。(因為數(shù)據(jù)已被排序,所以此時不需要該步驟。) 步驟2:將數(shù)據(jù)劃分到大小為3 的等頻箱中。箱1:13,15,16 箱2:16,19,20 箱3:20,21,22箱4:22,25,25 箱5:25,25,30 箱6:33,33,35箱7:35,35,35 箱8:36,40,45 箱9:46,52,70 步驟3:計算每個等頻箱的算數(shù)均值。 步驟4:用各箱計算出的算數(shù)均值替換每箱中的每個值。箱1:44/3,44/3,44/3 箱2:55/3,55/3,55/3 箱3:21,21,21箱4:24,24,24 箱5:80
16、/3,80/3,80/3 箱6:101/3,101/3,101/3箱7:35,35,35 箱8:121/3,121/3,121/3 箱9:56,56,56(b) 如何確定數(shù)據(jù)中的離群點?聚類的方法可用來將相似的點分成組或“簇”,并檢測離群點。落到簇的集外的值可以被視為離群點。作為選擇,一種人機結(jié)合的檢測可被采用,而計算機用一種事先決定的數(shù)據(jù)分布來區(qū)分可能的離群點。這些可能的離群點能被用人工輕松的檢驗,而不必檢查整個數(shù)據(jù)集。(c) 對于數(shù)據(jù)光滑,還有哪些其他方法?其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法,如中位數(shù)光滑和箱邊界光滑。作為選擇,等寬箱可被用來執(zhí)行任何分箱方式,其中每個箱中的數(shù)據(jù)范
17、圍均是常量。除了分箱方法外,可以使用回歸技術(shù)擬合成函數(shù)來光滑數(shù)據(jù),如通過線性或多線性回歸。分類技術(shù)也能被用來對概念分層,這是通過將低級概念上卷到高級概念來光滑數(shù)據(jù)。3.5如下規(guī)范化方法的值域是什么?A) 最小-最大規(guī)范化B) Z分?jǐn)?shù)規(guī)范化。C) Z分?jǐn)?shù)規(guī)范化,使用均值絕對念頭而不是標(biāo)準(zhǔn)差。D) 小數(shù)定標(biāo)規(guī)范化。(a) min-max 規(guī)范化。值域是new_min, new_max。(b) z-score 規(guī)范化。值域是(old_minmean)/,(old_maxmean)/,總的來說,對于所有可能的數(shù)據(jù)集的值域是(,+)。(c) 小數(shù)定標(biāo)規(guī)范化。值域是(1.0,1.0)。3.6使用如下方法規(guī)
18、范化如下數(shù)據(jù)組:200,300,400,600,1000(a) min=0,max=1,最小-最大規(guī)范化。(b) Z分?jǐn)?shù)規(guī)范化。(c) Z分?jǐn)?shù)規(guī)范化,使用均值絕對偏差而不是標(biāo)準(zhǔn)差。(d) 小數(shù)定標(biāo)規(guī)范化。(a) min-max 規(guī)范化。值域是new_min, new_max。(b) z-score 規(guī)范化。值域是(old_minmean)/,(old_maxmean)/,總的來說,對于所有可能的數(shù)據(jù)集的值域是(,+)。(c) 小數(shù)定標(biāo)規(guī)范化。值域是(1.0,1.0)。4.1試述對于多個異構(gòu)信息源的集成,為什么許多公司更愿意使用更 新驅(qū)動的方法(構(gòu)造和使用數(shù)據(jù)倉庫),而不是查詢驅(qū)動的方法(使用包
19、裝程序和集成程序)。描述一些查詢驅(qū)動方法比更 新驅(qū)動方法更可取的情況。 答: 因為對于多個異種信息源的集成, 查詢驅(qū)動方法需要復(fù)雜的信息過濾和集成處理, 并且與局部數(shù)據(jù)源上的處理競爭資源,是一種低效的方法,并且對于頻繁的查詢,特別是需 要聚集操作的查詢,開銷很大。而更新驅(qū)動方法為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能,因 為數(shù)據(jù)被處理和重新組織到一個語義一致的數(shù)據(jù)存儲中, 進行查詢的同時并不影響局部數(shù)據(jù) 源上進行的處理。此外,數(shù)據(jù)倉庫存儲并集成歷史信息,支持復(fù)雜的多維查詢。 4.2簡略比較以下概念,可以用例子解釋你的觀點。(a) 雪花模式、事實星座、星網(wǎng)查詢模型。(b) 數(shù)據(jù)清理、數(shù)據(jù)變換、刷新。(
20、c) 發(fā)現(xiàn)驅(qū)動的立方體、多特征冷言冷語腐朽 、虛擬倉庫(a) 雪花形模式、事實星座形、星形網(wǎng)查詢模型。 答:雪花形和事實星形模式都是變形的星形模式,都是由事實表和維表組成,雪花形模式的維表都是規(guī)范化的;而事實星座形的某幾個事實表可能會共享一些維表;星形網(wǎng)查詢模型是一個查詢模型而不是模式模型,它是由中心點發(fā)出的涉嫌組成,其中每一條射線代表一個維的概念分層。 (b) 數(shù)據(jù)清理、數(shù)據(jù)變換、刷新 答:數(shù)據(jù)清理是指檢測數(shù)據(jù)中的錯誤,可能時訂正它們;數(shù)據(jù)變換是將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉庫格式;刷新是指傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新。4.5假定數(shù)據(jù)倉庫包含4個維date,spectator,locat
21、ion,game,2個度量count和charge,其中charge是觀眾在給定的日期觀看節(jié)目的費用。觀眾可以是學(xué)生、成年人或老年人,每類觀眾有不同的收費標(biāo)準(zhǔn)。(a) 畫出該數(shù)據(jù)倉庫的星形模式圖(b) 由基本方體【date,spectator,location,game】開始,為列出2010年學(xué)生觀眾在GM_place的總付費,應(yīng)當(dāng)執(zhí)行哪些OLAP操作?(c) 對于數(shù)據(jù)倉庫,位圖是有用的。以該數(shù)據(jù)立方體為例,簡略討論使用位圖索引結(jié)構(gòu)的優(yōu)點和問題。6.3 Apriori算法使用子集支持度性質(zhì)的先驗知識。(a) 證明頻繁項集的所有非空子集一定也是頻繁的。(b) 證明項集s的任意非空子集s的支持度至
22、少與s的支持度一樣大。(c) 給定頻繁項集l和l的子集s,證明規(guī)則“s=>l(s)”的置信度不可能大于“s=>l(s)”的置信度。其中,s是s的子集(d) Apriori算法的一種變形將事務(wù)數(shù)據(jù)庫D中的事務(wù)劃分成n個不重疊的分區(qū)。證明在D中頻繁的項集至少在D的一個分區(qū)中是頻繁的。1證明頻繁集的所有非空子集必須也是頻繁的。 證明:根據(jù)定義,如果項集I不滿足最小支持度閾值min_sup,則I不是頻繁的,即supmin_)(<IP如果A想添加到I,則結(jié)果項集不可能不更頻繁出現(xiàn)。因此,也不是頻繁的,即矛盾。 2.同理可證。36.6數(shù)據(jù)庫有5個事務(wù)。設(shè)min_sup
23、=6-%,min_conf=80%。TID購買的商品T100M,O,N,K,E,YT200D,O,N,K,E,YT300M,A,K,ET400M,U,C,K,YT500C,O,O,K,I,E(a) 分別使用Apriori算法和FP-growth算法找出頻繁項集。比較兩種挖掘過程的有效性。(b) 列舉所有與下面元規(guī)則匹配的強關(guān)聯(lián)規(guī)則(緞帶出支持度s和置信度c),其中,X是代表太陽穴的變量,item,是表示項的變量(如“A”,“B ”等):xtransaction,buys(X,item1)buys(X,item2)=>buys(X,itm3)s,c6.8數(shù)據(jù)庫有4個事務(wù)。設(shè)min_sup=
24、60%,min_conf=80%。Cust_IDTID購買的商品(以brand-item_category形式)01T100Kings-Carb,Sunset-Milk, Dairyland-Cheese,best-Bread02T200Best-Cheese, Dairyland-Milk, Goldenfarm-Apple,Tasty-Pie,Wonder-Bread01T300Westcoast-Apple,Dairyland-Milk,Wonder-Bread,Tasty-Pie03T400Wonder-Bread,Sunset-Milk,Dairyland-Cheese(a) 在it
25、em_category粒度(例如,item,所可能已經(jīng)”milk”),對于下面的規(guī)則模板xtransaction,buys(X,item1)buys(X,item2)=>buys(X,item3)s,c列出最大k的頻繁k項集和包含最大k的頻繁k諅的所有強關(guān)聯(lián)規(guī)則(包括它們的支持度s和置信度c)。(b)在brand-item_category粒度(例如,item i可以是Sunset-Milk),對于下面的規(guī)則模板xcustomer,buys(X,item1)buys(X,item2)=>buys(X,item3)列出最大k的頻繁k項集(但不輸出任何規(guī)則)7.3量化關(guān)聯(lián)規(guī)則可能提示數(shù)
26、據(jù)集中的異常行為,其中“異?!笨梢愿鶕?jù)統(tǒng)計學(xué)理論定義。例如,7.2.3節(jié)表明關(guān)聯(lián)規(guī)則Sex=femalemeanwage=7,90 $/h(overallmeanwage=9.02 $/h)暗示一個異常模式。該規(guī)則說明,女性的平均工資每小時只有7.90美元,顯著地于每小時9.02美元的總體平均工資。討論如何在具有量化屬性的大型數(shù)據(jù)集中系統(tǒng)而有效地發(fā)現(xiàn)這種量化規(guī)則。8.1簡述決策樹分類的主要步驟。8.7下表由雇員數(shù)據(jù)庫的訓(xùn)練數(shù)據(jù)組成。數(shù)據(jù)已泛化。例如,age“31.35”表示年齡在31-35之間。對于給定的行,count表department、status、age和salary在該行上具有給定值
27、的元組數(shù)。Department statusage salarycountSalessenior31-3546k-50k30Salesjunior26-3026-30k40Salesjunior31-3531-35k40Systemsjunior21-2546-50k20Systemssenior31-3566-70k5Systemsjunior26-3046-50k3Systemssenior41-4566-70k3Marketingsenior36-4046-50k10Marketingjunior31-3541-45k4Secretarysenior46-5036-40k4Secreta
28、ryjunior26-3026-30k6(a) 如何修改基本決策樹算法,以便考慮每個廣義數(shù)據(jù)元組(即每個行)的count?(b) 使用修改過的算法,構(gòu)造繃帶定數(shù)據(jù)的決策樹(c) 給定一個數(shù)據(jù)元組,它的屬性department、age和salary的值分別為“system”“2630”和“4660”。該元級status的相互貝葉斯分類是什么?解一:設(shè)元組的各個屬性之間相互獨立,所以先求每個屬性的類條件概率:P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113;P(26-30|junior)=(40+3+6)/113=49/113;P(46K-50K|j
29、unior)=(20+3)/113=23/113; X=(department=system,age=2630,salary=46K50K); P(X|junior)=P(systems|junior)P(26-30|junior)P(46K-50K|junior)=23×49×23/1133=25921/1442897=0.01796;P(systems|senior)=(5+3)/(30+5+3+10+4)=23/52;P(26-30|senior)=(0)/53=0;P(46K-50K|senior)=(30+10)/52=40/52; X=(department=system,age=2630,salary=46K50K); P(X|senior)=P(systems|senior)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程建筑合同
- 房地產(chǎn)定向開發(fā)合同
- 杭州房屋買賣合同原件
- 食堂肉類采購合同
- 房屋居間委托合同
- 挖掘機產(chǎn)品銷售合同
- 辦公用品采購與供應(yīng)服務(wù)合同書
- 貨物運輸合同進口
- 1《我們愛整潔》( 教學(xué)設(shè)計)2023-2024學(xué)年統(tǒng)編版道德與法治一年級下冊
- 山西師范大學(xué)《家具設(shè)計與制作》2023-2024學(xué)年第二學(xué)期期末試卷
- 瀝青路面施工質(zhì)量控制要點課件
- 雀巢碘超標(biāo)危機公關(guān)分析
- 六年級奧數(shù)教材
- 螞蟻王國 完整版PPT
- 小學(xué)體育 一年級 居家跳繩練習(xí) 課件
- EFM022靜電場測試儀操作說明書
- 七年級語文閱讀理解十篇含答案解析
- 單元知識結(jié)構(gòu)圖(排球)
- 卡通風(fēng)寒假生活PPT模板課件
- 教學(xué)課件:物流營銷
- 小兒泄瀉(小兒腹瀉?。┰\療方案
評論
0/150
提交評論