數(shù)據(jù)挖掘復(fù)習(xí)_第1頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)_第2頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)_第3頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)_第4頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘重點(diǎn)整理選擇數(shù)據(jù)挖掘函數(shù) 匯總, 分類(lèi), 回歸, 關(guān)聯(lián), 聚類(lèi)知識(shí)點(diǎn)概括1、 聚類(lèi)(Clustering)就是將數(shù)據(jù)分組成為多個(gè)類(lèi)(Cluster)。在同一個(gè)類(lèi)內(nèi)對(duì)象之間具有較高的相似度,不同類(lèi)之間的對(duì)象差別較大2、聚類(lèi)分析中“類(lèi)”的特征:聚類(lèi)所說(shuō)的類(lèi)不是事先給定的,而是根據(jù)數(shù)據(jù)的相似性和距離來(lái)劃分聚類(lèi)的數(shù)目和結(jié)構(gòu)都沒(méi)有事先假定3、 聚類(lèi)方法的目的是尋找數(shù)據(jù)中:潛在的自然分組結(jié)構(gòu)a structure of “natural” grouping感興趣的關(guān)系relationship4、 聚類(lèi)分析的研究對(duì)象R型分析-對(duì)變量進(jìn)行分類(lèi)Q型分析-對(duì)樣品進(jìn)行分類(lèi)5、離群點(diǎn)數(shù)據(jù)挖掘方法簡(jiǎn)介ü

2、; 基于統(tǒng)計(jì)的方法ü 基于距離的方法ü 基于密度的方法ü 基于聚類(lèi)的方法6、 離群點(diǎn)挖掘中需要處理的幾個(gè)問(wèn)題(1) 全局觀點(diǎn)和局部觀點(diǎn) 離群點(diǎn)與眾不同,但具有相對(duì)性。 (2) 點(diǎn)的離群程度 可以通過(guò)定義對(duì)象的偏離程度來(lái)給對(duì)象打分離群因子(Outlier Factor)或離群值得分(Outlier Score),即都為離群點(diǎn)的情況下,也還有分高和分低的區(qū)別。 (3) 離群點(diǎn)的數(shù)量及時(shí)效性正常點(diǎn)的數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)離群點(diǎn)的數(shù)量,離群點(diǎn)的數(shù)量在大規(guī)模數(shù)據(jù)集中所占的比例較低,小于5%甚至1% 7、 離群點(diǎn)的概率定義:離群點(diǎn)是一個(gè)對(duì)象,關(guān)于數(shù)據(jù)的概率分布模型,它具有低概率8、離群

3、點(diǎn)挖掘問(wèn)題由兩個(gè)子問(wèn)題構(gòu)成: (1)定義在一個(gè)數(shù)據(jù)集中什么數(shù)據(jù)是不一致或離群的數(shù)據(jù); (2)找出所定義的離群點(diǎn)的有效挖掘方法。離群點(diǎn)挖掘問(wèn)題可以概括為如何度量數(shù)據(jù)偏離的程度和有效發(fā)現(xiàn)離群點(diǎn)的問(wèn)題。9、為什么會(huì)出現(xiàn)離群點(diǎn)?n 測(cè)量、輸入錯(cuò)誤或系統(tǒng)運(yùn)行錯(cuò)誤所致n 數(shù)據(jù)內(nèi)在特性所決定n 客體的異常行為所致 由于離群點(diǎn)產(chǎn)生的機(jī)制是不確定的,離群點(diǎn)挖掘算法檢測(cè)出的“離群點(diǎn)”是否真正對(duì)應(yīng)實(shí)際的異常行為,不是由離群點(diǎn)挖掘算法來(lái)說(shuō)明、解釋的,只能由領(lǐng)域?qū)<襾?lái)解釋?zhuān)x群點(diǎn)挖掘算法只能為用戶提供可疑的數(shù)據(jù),以便用戶引起特別的注意并最后確定是否真正的異常。對(duì)于異常數(shù)據(jù)的處理方式也取決于應(yīng)用,并由領(lǐng)域?qū)<覜Q策。10、

4、離群點(diǎn)挖掘中需要處理的幾個(gè)問(wèn)題 (1) 全局觀點(diǎn)和局部觀點(diǎn) 離群點(diǎn)與眾不同,但具有相對(duì)性。 (2) 點(diǎn)的離群程度 可以通過(guò)定義對(duì)象的偏離程度來(lái)給對(duì)象打分離群因子(Outlier Factor)或離群值得分(Outlier Score),即都為離群點(diǎn)的情況下,也還有分高和分低的區(qū)別。 (3) 離群點(diǎn)的數(shù)量及時(shí)效性正常點(diǎn)的數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)離群點(diǎn)的數(shù)量,離群點(diǎn)的數(shù)量在大規(guī)模數(shù)據(jù)集中所占的比例較低,小于5%甚至1% 11、一個(gè)對(duì)象可能相對(duì)于所有對(duì)象看上去離群,但它相對(duì)于它的局部近鄰不是離群的12、通過(guò)定義對(duì)象的離群程度來(lái)給對(duì)象打分 ,如都為離群點(diǎn)的情況下,也還有分高和分低的區(qū)別。離群點(diǎn)得分(outlier

5、 score)或離群因子(Outlier Factor)13概率分布模型通過(guò)估計(jì)用戶指定的分布的參數(shù),由數(shù)據(jù)創(chuàng)建。14、離群點(diǎn)檢測(cè)方法準(zhǔn)確性的兩個(gè)指標(biāo):檢測(cè)率、誤報(bào)率15、關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則是形如 X ® Y的蘊(yùn)含表達(dá)式, 其中 X 和 Y 是不相交的項(xiàng)集 例子: Milk, Diaper ® Beer 16、關(guān)聯(lián)規(guī)則的強(qiáng)度 支持度 Support (s)u 確定項(xiàng)集的頻繁程度 置信度 Confidence (c)u 確定Y在包含X的事務(wù)中出現(xiàn)的頻繁程度 17、挖掘關(guān)聯(lián)規(guī)則大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法通常采用的一種策略是,將關(guān)聯(lián)規(guī)則挖掘任務(wù)分解為如下兩個(gè)主要的子任務(wù):1) 頻繁項(xiàng)

6、集產(chǎn)生(Frequent Itemset Generation) 其目標(biāo)是發(fā)現(xiàn)滿足最小支持度閾值的所有項(xiàng)集,這些項(xiàng)集稱(chēng)作頻繁項(xiàng)集。2) 規(guī)則的產(chǎn)生(Rule Generation) 其目標(biāo)是從上一步發(fā)現(xiàn)的頻繁項(xiàng)集中提取所有高置信度的規(guī)則,這些規(guī)則稱(chēng)作強(qiáng)規(guī)則(strong rule)18、先驗(yàn)原理:如果一個(gè)項(xiàng)集是頻繁的,則它的所有子集一定也是頻繁的 相反,如果一個(gè)項(xiàng)集是非頻繁的,則它的所有超集也一定是非頻繁的:a) 這種基于支持度度量修剪指數(shù)搜索空間的策略稱(chēng)為基于支持度的剪枝(support-based pruning)b) 這種剪枝策略依賴于支持度度量的一個(gè)關(guān)鍵性質(zhì),即一個(gè)項(xiàng)集的支持度決不會(huì)超

7、過(guò)它的子集的支持度。這個(gè)性質(zhì)也稱(chēng)為支持度度量的反單調(diào)性(anti-monotone)。 19、信息的定量描述 衡量信息多少的物理量稱(chēng)為信息量。若概率很大,受信者事先已有所估計(jì),則該消息信息量就很??; 若概率很小,受信者感覺(jué)很突然,該消息所含信息量就很大。 拋一枚畸形硬幣,出現(xiàn)正面與反面的概率分別是1/4,3/4,出現(xiàn)正面與反面時(shí)的信息量是多少? 解:出現(xiàn)正面與反面的概率分別是1/4,3/4,它們的信息量是 I(正)= -log p(正)= -log1/4=2I(反)= -log p(反)= -log3/4=0.41520、信源含有的信息量是信源發(fā)出的所有可能消息的平均不確定性,香農(nóng)把信源所含有

8、的信息量稱(chēng)為信息熵,是指每個(gè)符號(hào)所含信息量的統(tǒng)計(jì)平均值。m種符號(hào)的平均信息量為21、拋一枚畸形硬幣,出現(xiàn)正面與反面的概率分別是1/4,3/4,出現(xiàn)正面與反面時(shí)的信息量是多少? 解:出現(xiàn)正面與反面的概率分別是1/4,3/4,信息熵是 22、條件熵在給定yj條件下,xi的條件自信息量為I(xi| yj), X集合的條件熵H(X|yj)為 在給定Y(即各個(gè)yj )條件下,X集合的條件熵H(X|Y)條件熵H(X|Y)表示已知Y后,X的不確定度23、ID3算法小結(jié) ID3算法主要針對(duì)屬性選擇問(wèn)題。是決策樹(shù)學(xué)習(xí)方法中最具影響和最為典型的算法。 該方法使用信息增益度選擇測(cè)試屬性。 當(dāng)獲取信息時(shí),將不確定的內(nèi)

9、容轉(zhuǎn)為確定的內(nèi)容,因此信息伴著不確定性。從直覺(jué)上講,小概率事件比大概率事件包含的信息量大。 ID3算法是一種經(jīng)典的決策樹(shù)學(xué)習(xí)算法,由Quinlan于1979年提出。ID3算法的基本思想是,以信息熵為度量,用于決策樹(shù)節(jié)點(diǎn)的屬性選擇,每次優(yōu)先選取信息量最多的屬性,亦即能使熵值變?yōu)樽钚〉膶傩?,以?gòu)造一顆熵值下降最快的決策樹(shù),到葉子節(jié)點(diǎn)處的熵值為0。此時(shí),每個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)的實(shí)例集中的實(shí)例屬于同一類(lèi)。24、決策樹(shù)基礎(chǔ)有向無(wú)環(huán) 二叉/多叉樹(shù)父節(jié)點(diǎn):沒(méi)有子節(jié)點(diǎn)的節(jié)點(diǎn)內(nèi)部節(jié)點(diǎn):有父節(jié)點(diǎn)、子節(jié)點(diǎn)的節(jié)點(diǎn)葉節(jié)點(diǎn):有父節(jié)點(diǎn)沒(méi)有子節(jié)點(diǎn)的節(jié)點(diǎn)25、決策樹(shù)算法決策樹(shù)的表示決策樹(shù)的基本組成部分:決策結(jié)點(diǎn)、分支和葉子。決策樹(shù)中

10、最上面的結(jié)點(diǎn)稱(chēng)為根結(jié)點(diǎn)。是整個(gè)決策樹(shù)的開(kāi)始。每個(gè)分支是一個(gè)新的決策結(jié)點(diǎn),或者是樹(shù)的葉子。每個(gè)決策結(jié)點(diǎn)代表一個(gè)問(wèn)題或者決策.通常對(duì)應(yīng)待分類(lèi)對(duì)象的屬性。每個(gè)葉結(jié)點(diǎn)代表一種可能的分類(lèi)結(jié)果在沿著決策樹(shù)從上到下的遍歷過(guò)程中,在每個(gè)結(jié)點(diǎn)都有一個(gè)測(cè)試。對(duì)每個(gè)結(jié)點(diǎn)上問(wèn)題的不同測(cè)試輸出導(dǎo)致不同的分枝,最后會(huì)達(dá)到一個(gè)葉子結(jié)點(diǎn)。這一過(guò)程就是利用決策樹(shù)進(jìn)行分類(lèi)的過(guò)程,利用若干個(gè)變量來(lái)判斷屬性的類(lèi)別26、決策樹(shù)作用:l 通過(guò)訓(xùn)練集l 算法指導(dǎo)下l 生成決策樹(shù)l 新數(shù)據(jù)進(jìn)行劃分l 否則是“三拍”決策27、決策樹(shù)的優(yōu)點(diǎn)1、推理過(guò)程容易理解,決策推理過(guò)程可以表示成If Then形式;2、推理過(guò)程完全依賴于屬性變量的取值特點(diǎn);

11、3、可自動(dòng)忽略目標(biāo)變量沒(méi)有貢獻(xiàn)的屬性變量,也為判斷屬性變量的重要性,減少變量的數(shù)目提供參考28、1)決策樹(shù)技術(shù)發(fā)現(xiàn)數(shù)據(jù)模式和規(guī)則的核心是歸納算法。歸納是從特殊到一般的過(guò)程。歸納推理從若干個(gè)事實(shí)中表征出的特征、特性和屬性中,通過(guò)比較、總結(jié)、概括而得出一個(gè)規(guī)律性的結(jié)論。歸納推理試圖從對(duì)象的一部分或整體的特定的觀察中獲得一個(gè)完備且正確的描述。即從特殊事實(shí)到普遍性規(guī)律的結(jié)論。歸納對(duì)于認(rèn)識(shí)的發(fā)展和完善具有重要的意義。人類(lèi)知識(shí)的增長(zhǎng)主要來(lái)源于歸納學(xué)習(xí)2)歸納學(xué)習(xí)的過(guò)程就是尋找一般化描述的過(guò)程。這種一般性描述能夠解釋給定的輸入數(shù)據(jù),并可以用來(lái)預(yù)測(cè)新的數(shù)據(jù)。 3)歸納學(xué)習(xí)由于依賴于檢驗(yàn)數(shù)據(jù),因此又稱(chēng)為檢驗(yàn)學(xué)習(xí)

12、。歸納學(xué)習(xí)存在一個(gè)基本的假設(shè):任一假設(shè)如果能夠在足夠大的訓(xùn)練樣本集中很好的逼近目標(biāo)函數(shù),則它也能在未見(jiàn)樣本中很好地逼近目標(biāo)函數(shù)。該假定是歸納學(xué)習(xí)的有效性的前提條件。29、與決策樹(shù)相關(guān)的重要算法:CLS, ID3,C4.5,CART30、決策樹(shù)解決分類(lèi)問(wèn)題的一般方法 通過(guò)以上對(duì)分類(lèi)問(wèn)題一般方法的描述,可以看出分類(lèi)問(wèn)題,一般包括兩個(gè)步驟: 1、模型構(gòu)建(歸納) 通過(guò)對(duì)訓(xùn)練集合的歸納,建立分類(lèi)模型。 2、預(yù)測(cè)應(yīng)用(推論) 根據(jù)建立的分類(lèi)模型,對(duì)測(cè)試集合進(jìn)行測(cè)試。一、 判斷題(10*2=20分)二、 簡(jiǎn)答題(4*5=20分)1)什么是數(shù)據(jù)挖掘(匯總)數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)) 數(shù)據(jù)挖掘就是從大量的、

13、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。 2)K-均值原理(聚類(lèi)) 是一種得到最廣泛使用的聚類(lèi)算法。 它是將各個(gè)聚類(lèi)子集內(nèi)的所有數(shù)據(jù)樣本的均值作為該聚類(lèi)的代表點(diǎn),算法的主要思想是通過(guò)迭代過(guò)程把數(shù)據(jù)集劃分為不同的類(lèi)別,使得評(píng)價(jià)聚類(lèi)性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu),從而使生成的每個(gè)聚類(lèi)內(nèi)緊湊,類(lèi)間獨(dú)立。這一算法不適合處理離散型屬性,但是對(duì)于連續(xù)型具有較好的聚類(lèi)效果。 K-均值聚類(lèi)的處理流程如下。首先,隨機(jī)選擇k個(gè)對(duì)象,每個(gè)對(duì)象都初始地代表一個(gè)類(lèi)的平均值或中心。對(duì)剩余的對(duì)象,根據(jù)其與各自類(lèi)中心的距離,將它賦給最近的類(lèi)。然后重新計(jì)算每個(gè)類(lèi)的

14、平均值。這個(gè)過(guò)程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。 3)Apriori算法(關(guān)聯(lián)規(guī)則中先驗(yàn)算法,關(guān)聯(lián)) Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則大(頻繁)項(xiàng)目集的算法。它使用一種稱(chēng)作逐層搜索的迭代算法,通過(guò)k-項(xiàng)集用于探索(k+1)-項(xiàng)集。已經(jīng)為大部分商業(yè)產(chǎn)品所使用。 4)先驗(yàn)、后驗(yàn)概率(分類(lèi))設(shè)X表示屬性集,Y表示類(lèi)變量,如果類(lèi)變量和屬性之間的關(guān)心不確定,那么我們可以 把X和Y看作隨機(jī)變量,用P(Y|X)以概率的方式捕捉二者之間的關(guān)系,這個(gè)條件概率又稱(chēng)為Y的后驗(yàn)概率,與之相對(duì)的P(Y)稱(chēng)為Y的先驗(yàn)概率。 5)決策樹(shù)、熵的定義(分類(lèi)) 決策樹(shù)是一種典型的分類(lèi)方法,首先對(duì)數(shù)據(jù)進(jìn)行處理,利用歸

15、納算法生成可讀的規(guī)則和決策樹(shù),然后使用決策對(duì)新數(shù)據(jù)進(jìn)行分析。本質(zhì)上決策樹(shù)是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的過(guò)程。信源含有的信息量是信源發(fā)出的所有可能消息的平均不確定性,香農(nóng)把信源所含有的信息量稱(chēng)為信息熵,是指每個(gè)符號(hào)所含信息量的統(tǒng)計(jì)平均值。 6)離群點(diǎn)和離群點(diǎn)檢測(cè) Hawkins的定義:離群點(diǎn)是在數(shù)據(jù)集中偏離大部分?jǐn)?shù)據(jù)的數(shù)據(jù),使人懷疑這些數(shù)據(jù)的偏離并非由隨機(jī)因素產(chǎn)生,而是產(chǎn)生于完全不同的機(jī)制。Weisberg的定義:離群點(diǎn)是與數(shù)據(jù)集中其余部分不服從相同統(tǒng)計(jì)模型的數(shù)據(jù)。Samuels的定義:離群點(diǎn)是足夠地不同于數(shù)據(jù)集中其余部分的數(shù)據(jù)。Porkess的定義:離群點(diǎn)是遠(yuǎn)離數(shù)據(jù)集中其余部分的數(shù)據(jù) 7)分

16、類(lèi)和聚類(lèi)的區(qū)別(異同點(diǎn)) 答: 聚類(lèi)是非監(jiān)督分類(lèi),僅根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對(duì)象及其關(guān)系的信息,用類(lèi)(簇)標(biāo)號(hào)創(chuàng)建對(duì)象的標(biāo)記,而分類(lèi)是監(jiān)督分類(lèi),使用由類(lèi)標(biāo)號(hào)已知的對(duì)象開(kāi)發(fā)的模型,對(duì)新的、無(wú)標(biāo)記的對(duì)象賦予類(lèi)標(biāo)號(hào)。三、 應(yīng)用題(4*15=60分) 1)系統(tǒng)聚類(lèi)法系統(tǒng)聚類(lèi)法的基本思想先將n個(gè)樣品各自看成一類(lèi),然后規(guī)定樣品之間的“距離”和類(lèi)與類(lèi)之間的距離。選擇距離最近的兩類(lèi)合并成一個(gè)新類(lèi),計(jì)算新類(lèi)和其它類(lèi)(各當(dāng)前類(lèi))的距離,再將距離最近的兩類(lèi)合并。這樣,每次合并減少一類(lèi),直至所有的樣品都?xì)w成一類(lèi)為止。 系統(tǒng)聚類(lèi)法的基本步驟:1.   計(jì)算n個(gè)樣品兩兩間的距離 ,記作D= 。

17、2. 構(gòu)造n個(gè)類(lèi),每個(gè)類(lèi)只包含一個(gè)樣品。3. 合并距離最近的兩類(lèi)為一新類(lèi)。4. 計(jì)算新類(lèi)與各當(dāng)前類(lèi)的距離。5. 重復(fù)步驟3、4,合并距離最近的兩類(lèi)為新類(lèi),直到所有的類(lèi)并為一類(lèi)為止。6. 畫(huà)聚類(lèi)譜系圖。7. 決定類(lèi)的個(gè)數(shù)和類(lèi)。系統(tǒng)聚類(lèi)方法: 1最短距離法 2最長(zhǎng)距離法3中間距離法4重心法5類(lèi)平均法 6離差平方和法(Ward法)上述 6 種方法歸類(lèi)的基本步驟一致,只是類(lèi)與類(lèi)之間的距離有不同的定義。1最短距離法設(shè)抽取5個(gè)樣品,每個(gè)樣品觀察2個(gè)指標(biāo) , X1:您每月大約喝多少瓶啤酒, X2:您對(duì)“飲酒是人生的快樂(lè)”這句話的看法如何?觀察數(shù)據(jù)如

18、下,對(duì)這5個(gè)樣品分類(lèi)。1. 計(jì)算5個(gè)樣品兩兩之間的距離(采用歐氏距離),記為距離矩陣 2. 合并距離最小的兩類(lèi)為新類(lèi),按順序定為第類(lèi)。 3、計(jì)算新類(lèi)與各當(dāng)前類(lèi)的距離, 得距離矩陣如下: 4、重復(fù)步驟2、3,合并距離最近的兩類(lèi)為新類(lèi),直到所有的類(lèi)并為一類(lèi)為止。 5、6、按聚類(lèi)的過(guò)程畫(huà)聚類(lèi)譜系圖 7、決定類(lèi)的個(gè)數(shù)與類(lèi)。 觀察此圖,我們可以把5個(gè)樣品分為3類(lèi),1,2、3、4,5 2最長(zhǎng)距離法(第五章ppt)2)離群點(diǎn)(k-最近鄰的距離,基于聚類(lèi))k-最近鄰的距離 例6-1 在圖6-4所示的二維數(shù)據(jù)集中,當(dāng)k=2時(shí),P1、P2哪個(gè)點(diǎn)具有更高的離群點(diǎn)得分?(使用歐式距離) 解答: 對(duì)P1點(diǎn)進(jìn)行分析:k=

19、2;最近鄰的點(diǎn)為P3(5,7),P2(5,2),distance(P1,P2)與distance(P1,P3)分別為6.08,1.41,平均距離為: 對(duì)P2點(diǎn)進(jìn)行分析:k=2;最近鄰的點(diǎn)為P3,P4,同理有: 因?yàn)镺F1(P1,K)> OF1(P2,K),因此,P1點(diǎn)更有可能是離群點(diǎn)。例6-5 基于聚類(lèi)的離群點(diǎn)檢測(cè)示例1對(duì)于圖所示的二維數(shù)據(jù)集,比較點(diǎn)P1(6,8),P2(5,2),哪個(gè)更有可能成為離群點(diǎn) 假設(shè)數(shù)據(jù)集經(jīng)過(guò)聚類(lèi)后得到聚類(lèi)結(jié)果為C=C1、C2、C3,圖中紅色圓圈標(biāo) 注,三個(gè)簇的質(zhì)心分別為:C1(5.5,7.5)、C2(5,2)、C3(1.75,2.25),試計(jì)算所有對(duì) 象的離群

20、因子。 例6-5 基于聚類(lèi)的離群點(diǎn)檢測(cè)示例1 解答:根據(jù)定義6-6,公式 對(duì)于P1點(diǎn)有:對(duì)于P2有: 可見(jiàn),點(diǎn)P1較P2更可能成為離群點(diǎn)。3)關(guān)聯(lián)規(guī)則(先驗(yàn)apriori原理)例題假如有項(xiàng)目集合I=1,2,3,4,5,有事務(wù)集T:11,2,321,2,431,3,441,2,3,551,3,562,4,571,2,3,4設(shè)定minsup=3/7,misconf=5/7。解: C1項(xiàng)集支持度計(jì)數(shù)123456 4543-比較候選支持度計(jì)數(shù)與minsup-à L1項(xiàng)集支持度計(jì)數(shù)123456 4543-由L1產(chǎn)生C2-à C2項(xiàng)集1,21,31,41,52,32,42,53,43,

21、54,5-掃描T,對(duì)每個(gè)候選計(jì)數(shù)-à C2 項(xiàng)集支持度計(jì)數(shù)1,21,31,41,52,32,42,53,43,54,5 4 5 3 2 3 3 2 2 2 1-比較候選支持度計(jì)數(shù)與minsup -à L2項(xiàng)集支持度計(jì)數(shù)1,21,31,42,32,4 4 5 3 3 3-由L2產(chǎn)生C3-à C3項(xiàng)集1,2,31,2,4-掃描T,對(duì)每個(gè)候選計(jì)數(shù)-à C3項(xiàng)集支持度計(jì)數(shù)1,2,31,2,4 3 2-比較候選支持度計(jì)數(shù)與minsup -à L3項(xiàng)集支持度計(jì)數(shù)1,2,3 3所以頻繁項(xiàng)集為:1,2,3 支持度 置信度1->2,3 3/7 3/62-&

22、gt;1,3 3/7 3/53->1,2 3/7 3/5 支持度 置信度1,2->3 3/7 3/42,3->1 3/7 3/31,3->2 3/7 3/5則強(qiáng)關(guān)聯(lián)規(guī)則是1,2->3,2,3->14)決策樹(shù)(求熵)例題:活動(dòng)的熵 活動(dòng)有2個(gè)屬性值,進(jìn)行,取消。其熵為:H(活動(dòng)) = - (9/14)*log (9/14) - (5/14)*log (5/14) = 0.94 已知戶外的天氣情況下活動(dòng)的條件熵戶外有三個(gè)屬性值,晴,陰和雨。其熵分別為:H(活動(dòng)|戶外=晴) = - (2/5)*log2(2/5) - (3/5)*log2(3/5) = 0.971

23、 H(活動(dòng)|戶外=陰) = - (4/4)*log2(4/4) = 0 H(活動(dòng)|戶外=雨) = - (3/5)*log2(3/5)- (2/5)*log2(2/5) = 0.971 已知戶外時(shí)活動(dòng)的條件熵H(活動(dòng)|戶外)=5/14*H(活動(dòng)|戶外=晴)+4/14*H(活動(dòng)|戶外=陰) +5/14* H(活動(dòng)|戶外=雨)= (5/14)*0.971 + (4/14)*0 +(5/14)*0.971 = 0.693 平均互信息I(活動(dòng);戶外) = H(活動(dòng)) - H(活動(dòng)|戶外) = 0.94- 0.693 = 0.246是否適合打壘球的決策表活動(dòng)的熵H(活動(dòng)) = - (9/14)*lb (9

24、/14) - (5/14)*lb (5/14) = 0.94 已知天氣時(shí)活動(dòng)的條件熵H(活動(dòng)|天氣)=5/14*H(活動(dòng)|天氣=晴)+4/14*H(活動(dòng)|天氣=陰) +5/14* H(活動(dòng)|天氣=雨)= (5/14)*0.971 + (4/14)*0 +(5/14)*0.971 = 0.693 已知溫度時(shí)活動(dòng)的條件熵H(活動(dòng)|溫度) = 0.911 已知濕度時(shí)活動(dòng)的條件熵H(活動(dòng)|濕度) = 0.789 已知風(fēng)速時(shí)活動(dòng)的條件熵H(活動(dòng)|風(fēng)速) = 0.892 各互信息量I(活動(dòng);天氣) = H(活動(dòng)) - H(活動(dòng)|天氣) = 0.94- 0.693 = 0.246 I(活動(dòng);溫度) = H(活動(dòng)) - H(活動(dòng)|溫度) = 0.94- 0.911 = 0.029 I(活動(dòng);濕度) = H(活動(dòng)) - H(活動(dòng)|濕度) = 0.94- 0.789

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論