數(shù)據(jù)挖掘期末復(fù)習(xí)資料_第1頁
數(shù)據(jù)挖掘期末復(fù)習(xí)資料_第2頁
數(shù)據(jù)挖掘期末復(fù)習(xí)資料_第3頁
數(shù)據(jù)挖掘期末復(fù)習(xí)資料_第4頁
數(shù)據(jù)挖掘期末復(fù)習(xí)資料_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘期末復(fù)習(xí)資料2009-02-21 20:38:37|分類: 讀書筆記 |標(biāo)簽: |字號(hào)大中小訂閱 題型:填空(20空)、判斷(20分)、簡答(5個(gè):預(yù)處理方法、決策樹、樸素貝葉斯過程、其他一些知識(shí)內(nèi)容)、大題(算法:關(guān)聯(lián)分析、分類、決策樹、ID3算法、貝葉斯方法、A神經(jīng)網(wǎng)絡(luò)、聚類回歸占得比較?。└攀鲆?、數(shù)據(jù)挖掘是一個(gè)多學(xué)科領(lǐng)域,具體涉及到哪些相關(guān)學(xué)科?數(shù)據(jù)庫及相關(guān)領(lǐng)域知識(shí)。二、什么是數(shù)據(jù)挖掘,產(chǎn)生的背景,典型的數(shù)據(jù)挖掘系統(tǒng)的主要成分?數(shù)據(jù)挖掘定義:數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識(shí)的過程。 典型的數(shù)據(jù)挖掘系統(tǒng)的主要成分:1.數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信

2、息庫;2.數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器:3.知識(shí)庫;4.數(shù)據(jù)挖掘引擎;5.模式評(píng)估模塊;6.圖形用戶界面。 三、數(shù)據(jù)挖掘的功能有哪些?數(shù)據(jù)挖掘功能-可以挖掘什么類型的模式。數(shù)據(jù)挖掘任務(wù):描述和預(yù)測。描述性挖掘任務(wù)刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性;預(yù)測性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷。 數(shù)據(jù)挖掘的功能用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類型。其模式類型介紹如下:(1)、概念/類描述:特征化和區(qū)分。用匯總的、簡潔的、精確的方式描述每個(gè)類和概念,稱這種描述為類/概念描述,通過三種方式得到:1)數(shù)據(jù)特征化 2)數(shù)據(jù)區(qū)分 3)數(shù)據(jù)特征化和比較。 (2)關(guān)聯(lián)分析:發(fā)現(xiàn)規(guī)則,這些規(guī)則展示屬性-值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的

3、條件。關(guān)聯(lián)規(guī)則的含義為:滿足X中條件的數(shù)據(jù)庫元組多半也滿足Y中條件。包括多維關(guān)聯(lián)規(guī)則和單維關(guān)聯(lián)規(guī)則。 (3)分類和預(yù)測:分類與預(yù)測是兩種數(shù)據(jù)分析形式,它們可用于抽取能夠描述重要數(shù)據(jù)集合或預(yù)測未來數(shù)據(jù)趨勢的模型。分類是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型或函數(shù),以便能用模型預(yù)測類標(biāo)記未知的對(duì)象類。如:可以構(gòu)造一個(gè)分類模型來對(duì)銀行貸款進(jìn)行風(fēng)險(xiǎn)評(píng)估(安全或危險(xiǎn));也可建立一個(gè)預(yù)測模型以利用顧客收入與職業(yè)(參數(shù))預(yù)測其可能用于購買計(jì)算機(jī)設(shè)備的支出大小。 (4)聚類分析:它考慮的是數(shù)據(jù)對(duì)象,將數(shù)據(jù)對(duì)象根據(jù)一定的規(guī)則比如,最大化類內(nèi)的相似性,最小化類間的相似性進(jìn)行分組或聚類。同類相聚,異類相離 (5)孤立點(diǎn)分

4、析:有些對(duì)象與數(shù)據(jù)的一般行為或模式不一致,稱這些數(shù)據(jù)對(duì)象是孤立點(diǎn)。(6)演變分析(時(shí)序分析):描述行為隨時(shí)間變化的數(shù)據(jù)對(duì)象的規(guī)律或趨勢,并對(duì)其建模,比如,股票的演變規(guī)律。 四、數(shù)據(jù)挖掘的性能問題包括哪3個(gè)方面?五、知識(shí)發(fā)現(xiàn)包括哪些過程?知識(shí)發(fā)現(xiàn)的過程:1)數(shù)據(jù)清理(消除噪聲或不一致數(shù)據(jù))2)數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)3)數(shù)據(jù)選擇(從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù))4)數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過匯總或聚集操作)5)數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式)6)模式評(píng)估(根據(jù)某種興趣度度量,識(shí)別表示知識(shí)的真正有趣的模式)7)知識(shí)表示(使用可視化和知識(shí)表示技術(shù),

5、向用戶提供挖掘的知識(shí)) 六、數(shù)據(jù)、信息、知識(shí)之間的區(qū)別和聯(lián)系數(shù)據(jù):就是能夠被計(jì)算機(jī)處理的任何事物(事實(shí)、數(shù)字、文本等)數(shù)據(jù)=事實(shí)的記錄操作和交易數(shù)據(jù):如銷售、價(jià)格、庫存、薪水冊等非操作的數(shù)據(jù):如工業(yè)銷售、預(yù)測數(shù)據(jù)、宏觀經(jīng)濟(jì)數(shù)據(jù)元數(shù)據(jù)(Meta data:描述數(shù)據(jù)自身的數(shù)據(jù),如邏輯數(shù)據(jù)庫設(shè)計(jì)或數(shù)據(jù)字典定義信息:數(shù)據(jù)提供的模式、關(guān)聯(lián)、聯(lián)系等信息。信息是對(duì)數(shù)據(jù)的提煉;信息=數(shù)據(jù)+意義如:對(duì)于零售終端的分析能夠獲得什么產(chǎn)品在什么時(shí)候賣出的信息。知識(shí):從信息中提取出有關(guān)歷史模式、一般規(guī)律、和未來趨勢的知識(shí)知識(shí)是讓從定量到定性的過程得以實(shí)現(xiàn)的、抽象的、邏輯的東西。知識(shí)是需要通過信息使用歸納、演繹得方法得到

6、。知識(shí)只有在經(jīng)過廣泛深入地實(shí)踐檢驗(yàn),被人消化吸收,并成為了個(gè)人的信念和判斷取向之后才能成為知識(shí),這一點(diǎn)使得知識(shí)和信息往往混雜在一起。如:通過分析超市的銷售匯總信息,來提供用戶購買行為的知識(shí),從而可以知道哪種促銷方式是最有效的。數(shù)據(jù)倉庫一、數(shù)據(jù)倉庫是一個(gè) 面向主題的、集成的、非易失的、時(shí)變的有組織的數(shù)據(jù)集合。二、OLAP的典型操作有哪些?切片切塊、上卷下鉆、旋轉(zhuǎn)轉(zhuǎn)軸三、多維數(shù)據(jù)模型通常采用哪三種模式?星型模式、雪花模式、事實(shí)星座四、冰山立方體的相關(guān)概念僅計(jì)算滿足最小支持度閾值的單元,這種部分物化的單元稱為冰山立方體。HAVING COUNT(*) = minsup為冰山條件Motivation:

7、v 由于立方體單元在多維空間中的分布常常是稀疏的,因此大量的立方體空間可能被大量具有很低度量值得單元占據(jù)。v 僅需物化數(shù)據(jù)立方體單元的一小部分那些滿足閾值的單元v 減輕計(jì)算數(shù)據(jù)立方體中不重要的聚集單元的負(fù)擔(dān)。五、數(shù)據(jù)倉庫和數(shù)據(jù)庫有什么區(qū)別和聯(lián)系?1、數(shù)據(jù)倉庫中的數(shù)據(jù)時(shí)間期限要遠(yuǎn)遠(yuǎn)長于操作型系統(tǒng)中的數(shù)據(jù)時(shí)間期限操作型系統(tǒng)含有“當(dāng)前值”數(shù)據(jù),時(shí)間期限一般是60-90天;數(shù)據(jù)倉庫從歷史的角度提供信息,其中的數(shù)據(jù)僅僅是一系列某一時(shí)刻生成的復(fù)雜的快照,時(shí)間期限通常是5-10年2、 數(shù)據(jù)倉庫中的鍵碼結(jié)構(gòu)數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu),隱式或顯式地包含時(shí)間元素操作型系統(tǒng)的鍵碼結(jié)構(gòu)可能不包括時(shí)間元素3、 反應(yīng)時(shí)間變化的

8、4、數(shù)據(jù)倉庫是非易失的數(shù)據(jù)倉庫總是物理地分別存放數(shù)據(jù)數(shù)據(jù)倉庫中不進(jìn)行操作型環(huán)境中的數(shù)據(jù)更新數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制數(shù)據(jù)倉庫通常只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問4、 相對(duì)穩(wěn)定的數(shù)據(jù)預(yù)處理一、數(shù)據(jù)預(yù)處理包括哪些過程數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約二、對(duì)于每種預(yù)處理過程都有哪些方法,處理的思想是怎么樣的,比如針對(duì)缺失值有哪些方法?針對(duì)數(shù)據(jù)規(guī)范化有哪些方法?數(shù)據(jù)清理中如何處理噪聲數(shù)據(jù)等。數(shù)據(jù)清理:就是用其例程通過填寫空缺的值,平滑噪聲數(shù)據(jù),識(shí)別,刪除孤立點(diǎn),并解決不一致來清理數(shù)據(jù)。其基本方法為:(1)空缺值1)忽略元組 ,2)人工填寫空缺值 3)使用一個(gè)全局常量填

9、充空缺值,比如用一個(gè)常數(shù)(Unknown)來替換所有空缺的值。4)使用屬性的平均值填充空缺值 5)使用與給定元組屬同類的所有樣本的平均值 6)使用最可能的值填充空缺值,可以使用回歸,或判定樹確定推理獲得(2)噪聲數(shù)據(jù):一個(gè)測量變量中的隨機(jī)錯(cuò)誤或偏差。可以用以下方法1)分箱 包括按箱平均值平滑,即就是將屬性值根據(jù)等深,例如每箱3個(gè)進(jìn)行分箱,然后用這三個(gè)值的平均值代替箱中的值。類似有按箱均值平滑,按箱邊界平滑;Price的排序后數(shù)據(jù) (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34* 劃分為等頻箱:- 箱 1: 4, 8, 9, 1

10、5-箱2: 21, 21, 24, 25-箱3: 26, 28, 29, 34* 用箱均值光滑:-箱1: 9, 9, 9, 9 -箱2: 23, 23, 23, 23 -箱3: 29, 29, 29, 29* 用箱邊界光滑:- Bin 1: 4, 4, 4, 15- Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 342)回歸,讓數(shù)據(jù)適合一個(gè)函數(shù)(如回歸函數(shù))來平滑數(shù)據(jù)。3)聚類 聚類將相似的值組織成群或類,落在群或類外的值就是孤立點(diǎn),也就是噪聲數(shù)據(jù);不一致數(shù)據(jù):許多情況下,所記錄的數(shù)據(jù)可能不一致,這是多方面的因素,比如,由于編碼或表示不同,在數(shù)據(jù)集成的時(shí)

11、候,就有可能造成不一致。規(guī)范化的方法:1)最小最大規(guī)范化 :對(duì)原始數(shù)據(jù)進(jìn)行變換。假定A的屬性最大值和最小值分別是MAX,MIX ,設(shè)A 中的任一值是V,則V的值經(jīng)過規(guī)范化后則為:V=(V-MIN)/(MAX-MIX)*(NEW_max-NEW_min)+NEW_min 其中規(guī)范化后的區(qū)間是NEW_min, NEW_max例如:income的最大,最小值分別為9000,2000,則將它的值映射到0,1時(shí),若income的值6800規(guī)范后為: (6800-2000)/(9000-2000)*(1-0)+0=0.6862)z-score規(guī)范化(或零均值規(guī)范化):就是屬性A的值基于A的平均值和標(biāo)準(zhǔn)差規(guī)

12、范。假設(shè)A的值V規(guī)范后為V,則公式為: V=(V-AVG(A)/A的標(biāo)準(zhǔn)差假設(shè)屬性income的平均值和方差分別為:5400,1600,則值7360的規(guī)范后的值為: (7360-5400)/1600=1。2253)小數(shù)定標(biāo)化:就是科學(xué)表示法的形式,將屬性的值映射到0,1之間。將小數(shù)點(diǎn)的位置規(guī)范化,小數(shù)點(diǎn)的移動(dòng)根據(jù)屬性的最大絕對(duì)值。如將A屬性的值35規(guī)范后為:35/100=0.35屬性構(gòu)造:是由給定的屬性構(gòu)造和添加新的屬性,以有利于挖掘。比如,我們根據(jù)屬性heigh 和 width可以構(gòu)造 area屬性。通過這種組合屬性,屬性構(gòu)造可以發(fā)現(xiàn)關(guān)于數(shù)據(jù)屬性間聯(lián)系的丟失信息,這對(duì)知識(shí)發(fā)現(xiàn)有用的。數(shù)值歸約

13、(1)-直方圖:數(shù)值歸約:通過用替代的,較小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量。直方圖:使用分箱技術(shù)近似數(shù)據(jù)分布,數(shù)值歸約(2)-聚類數(shù)據(jù)挖掘的各種算法掌握每種算法的基本思想,優(yōu)缺點(diǎn),是否是有監(jiān)督的挖掘方法等?一、 Apriori算法的基本思想,如何采用Apriori來挖掘頻繁模式 需要了解的基礎(chǔ)知識(shí):關(guān)聯(lián)規(guī)則判斷標(biāo)準(zhǔn)1、支持度sup(.):表示在購物籃分析中同時(shí)包含關(guān)聯(lián)規(guī)則左右兩邊物品的交易次數(shù)百分比,即支持這個(gè)規(guī)則的交易的次數(shù)百分比。 規(guī)則X?Y在交易數(shù)據(jù)集D中的支持度是對(duì)關(guān)聯(lián)規(guī)則重要性的衡量,反映關(guān)聯(lián)是否是普遍存在的規(guī)律,說明這條規(guī)則在所有交易中有多大的代表性。即在所有交易中X與Y同時(shí)出現(xiàn)的頻率

14、記為: support(X?Y)= P(XY)2、置信度confidence(.):是指購物籃分析中有了左邊商品,同時(shí)又有右邊商品的交易次數(shù)百分比,也就是說在所有的購買了左邊商品的交易中,同時(shí)又購買了右邊商品的交易概率。? 連接:用Lk-1自連接得到Ck? 修剪:一個(gè)k-項(xiàng)集,如果他的一個(gè)k-1項(xiàng)集(他的子集 )不是頻繁的,那他本身也不可能是頻繁的。Apriori 算法:使用候選產(chǎn)生頻繁項(xiàng)集例1:假設(shè)最小支持度為30%,最小置信度為60%。第一步:產(chǎn)生頻繁1-項(xiàng)集(即滿足最小支持度要求);第二步:再次掃描數(shù)據(jù)庫,產(chǎn)生后候選2-項(xiàng)集:第三步:產(chǎn)生頻繁3-項(xiàng)集; 第四集:從滿足條件的頻繁2-項(xiàng)集中

15、構(gòu)造關(guān)聯(lián)規(guī)則:第五步:重復(fù)第二步,產(chǎn)生候選3-項(xiàng)集;例2:數(shù)據(jù)庫面向5個(gè)事物,min-sup=60%,min-conf=80%.TID購買商品T100M,O,N,K,E,YT200D,O,N,K,E,YT300M,A,K,E T400M,U,C,K,YT500C,O,O,K,I,E(1) 分別用Apriori算法找出所有頻繁項(xiàng)集(2) 列舉所有與下面的元規(guī)則匹配的強(qiáng)關(guān)聯(lián)規(guī)則(給出支持度S和置信度C),其中,X代表顧客的變量,item代表項(xiàng)的變量(如“A”,“B”等)對(duì)于? xtransaction,buys(X,item1)buys(X,item2)=buys(X,item3) S,C解:(1

16、)、用Apriori算法找出所有頻繁項(xiàng)集。原數(shù)據(jù)庫D如下:TIDItemsT100M O N K E YT200D O N K E Y T300M A K E T400M U C K Y T500C O O K I E 掃描D后,得到候選1-項(xiàng)集C1,如下所示: ItemsetMONKEYDAUCISup33 2 54311121從而得到頻繁一項(xiàng)集L1:itemsetsupM3O3K5E4Y3再次掃描D后,得到候選2-項(xiàng)集C2:ItemsetM,OM,KM,EM,YO,KO,EO,YK,EK,YE,YSup1322332432根據(jù)上面候選2-項(xiàng)集,產(chǎn)生頻繁2-項(xiàng)集L2:ItemsetM,KO,

17、KO.EK,EK,YSup33343再次掃描D后,得到候選3-項(xiàng)集C3:ItemsetM,O,KM ,K,EM,K,YO,K,EO,K,YK,E,YO,E,YSup1223222根據(jù)上面候選3-項(xiàng)集,產(chǎn)生頻繁3-項(xiàng)集L3:ItemsetSupO,K,E3綜上所述,得到所有的頻繁項(xiàng)集如下所示:頻繁1-項(xiàng)集:M;O;K;E;Y.頻繁2-項(xiàng)集:M,K;O,K;O,E;K,E;K,Y.頻繁3-項(xiàng)集:O,E,K.(2)、從上面得出的頻繁3-項(xiàng)集中,構(gòu)造如下關(guān)聯(lián)規(guī)則: buys(X,O)buys(X,E)=buys(X,K) support=3/5=60%,confidence=100% buys(X,O

18、)buys(X,K)=buys(X,E) support=3/5=60%,confidence=100%buys(X,E)buys(X,K)=buys(X,O) support=3/5=60%,confidence=75%得到符合條件的強(qiáng)關(guān)聯(lián)規(guī)則,即sup=60%,conf=80%,如下所示:buys(X,O)buys(X,E)=buys(X,K) support=3/5=60%,confidence=100%buys(X,O)buys(X,K)=buys(X,E) support=3/5=60%,confidence=100%二、 決策樹算法的基本思想,采用ID3算法進(jìn)行分類。監(jiān)督式(sup

19、ervised learning)的機(jī)器學(xué)習(xí)法-決策樹(Decision Tree)非監(jiān)督式(unsupervised learning)的機(jī)器學(xué)習(xí)法-集群分析法(Cluster Analysis)基礎(chǔ)知識(shí):信息論:若一事件有k種結(jié)果,對(duì)應(yīng)的機(jī)率為Pi。則此事件發(fā)生后所得到的信息量I(視為Entropy)為:I=-(p1*log2(p1)+ p2*log2(p2)+ pk*log2(pk)如:設(shè) k=4 p1=0.25,p2=0.25,p3=0.25,p4=0.25 I=-(0.25*log2(0.25)*4)=2信息獲利(Information Gain) :若分類標(biāo)記(Y)分為(成功、失敗

20、)兩種,X為預(yù)測變量(類別屬性;k類),n為總樣本數(shù)(n1為總樣本數(shù)中具成功標(biāo)記的個(gè)數(shù)),經(jīng)由X變量將樣本分類后mi為X=i類中的總樣本個(gè)數(shù)(mi1為X=i類中具成功標(biāo)記的個(gè)數(shù))。根據(jù)變量X將n個(gè)樣本分為m1,m2,mk的信息獲利為:Gain(X)=I(n,n1)-E(X),其中I(n,n1)=-(n1/n)log2(n1/n)+(1-n1/n)log2(1-n1/n)E(X)=(m1/n)*I(m1,m11)+(m2/n)*I(m2,m21)+(mk/n)*I(mk,mk1) ID3算法(C4.5,C5.0)的一個(gè)例子:I(16,4)=-(4/16)*log2(4/16)+(12/16)*l

21、og2(12/16)=0.8113E(年齡)=(6/16)*I(6,1)+(10/16)*I(10,3)=0.7946 Gain(年齡)=I(16,4)-E(年齡)=0.0167Decision Tree的建立過程(前面是重點(diǎn),這部分看下就行了)(一)決策樹的分割(二)決策樹的剪枝(pruning)三、 貝葉斯方法的基本思想,采用樸素貝葉斯方法進(jìn)行分類樸素貝葉斯分類法:采用監(jiān)督式的學(xué)習(xí)方式,分類前必須事先知道分類形態(tài),透過訓(xùn)練樣本的訓(xùn)練學(xué)習(xí),有效地處理未來欲分類的數(shù)據(jù)。貝葉斯定理:(i) (i)(i)(i) () n (i)(i) i=1(i)表事前機(jī)率(Prior probability)。

22、(i)表事后機(jī)率(Posteriori probability),事件i是一原因,是一結(jié)果。Bayes rule是一由已知結(jié)果求原因的機(jī)率。例:旅客搭乘飛機(jī)必須經(jīng)電子儀器檢查是否身上攜帶金屬物品,攜帶金屬儀器會(huì)發(fā)出聲音的機(jī)會(huì)是97%,但身上無金屬物品儀器會(huì)發(fā)出聲音的機(jī)會(huì)是5%。若已知一般乘客身上帶有金屬物品的機(jī)會(huì)是30%,若某旅客經(jīng)過儀器檢查時(shí)發(fā)出聲音,請(qǐng)問他身上有金屬物品的機(jī)會(huì)是多少?解:設(shè)A=有金屬物,B=儀器會(huì)發(fā)聲則樸素貝葉斯分類法算法:1.計(jì)算各屬性的條件機(jī)率P(C=cj | A1=a1,?,An=an)例一:辦信用卡意愿:項(xiàng)目性別年齡學(xué)生身分收入辦卡1男45否高 會(huì)2女3145否高會(huì)

23、3女2030是低會(huì)4男20是低不會(huì)5女2030是中不會(huì)6女2030否中會(huì)7女3145否高會(huì)8男3145是中不會(huì)9男3145否中會(huì)10女20是低會(huì)判斷(女性,年齡介于3145之間,不具學(xué)生身份,收入中等)者會(huì)不會(huì)辦理信用卡。首先根據(jù)訓(xùn)練樣本計(jì)算各屬性相對(duì)于不同分類結(jié)果的條件機(jī)率:P(性別=女|辦卡=會(huì))=5/7P(性別=女|辦卡=不會(huì))=1/3 P(年齡=3145|辦卡=會(huì))=3/7P(年齡=3145|辦卡=不會(huì))=1/3 P(學(xué)生=否|辦卡=會(huì))=5/7P(學(xué)生=否|辦卡=不會(huì))=0/3P(收入=中|辦卡=會(huì))=2/7P(收入=中|辦卡=不會(huì))=2/3再應(yīng)用樸素貝葉斯分類法進(jìn)行類別預(yù)測:P(辦卡=會(huì))=7/10 P(女|會(huì))P(31-45|會(huì))P(否|會(huì))P(中|會(huì))=15/3430.044P(辦卡=不會(huì))=3/10P(會(huì)) P(不會(huì))P(女|不會(huì))P(31-45|不會(huì))P(否|不會(huì))P(中|不會(huì))=0訓(xùn)練樣本中對(duì)于(女性,年齡介于3145之間,不具學(xué)生身份,收入中等)的個(gè)人,樸素貝葉斯分類法會(huì)將其分類到會(huì)辦理信用卡的類別。辦理的機(jī)率是(0.044)/(0.044+0)=1 (正規(guī)化分類的結(jié)果P(會(huì))/(P(會(huì))+P(不會(huì))。故使用樸素貝葉斯

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論