數(shù)據(jù)挖掘常用算法概述_第1頁
數(shù)據(jù)挖掘常用算法概述_第2頁
數(shù)據(jù)挖掘常用算法概述_第3頁
數(shù)據(jù)挖掘常用算法概述_第4頁
數(shù)據(jù)挖掘常用算法概述_第5頁
已閱讀5頁,還剩90頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、關(guān)聯(lián)分析關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則挖掘的提出關(guān)聯(lián)規(guī)則挖掘的提出l關(guān)聯(lián)規(guī)則挖掘的典型案例:購物籃問題關(guān)聯(lián)規(guī)則挖掘的典型案例:購物籃問題l在商場中擁有大量的商品(項(xiàng)目),如:牛奶、面包等,客戶將在商場中擁有大量的商品(項(xiàng)目),如:牛奶、面包等,客戶將所購買的商品放入到自己的購物籃中。所購買的商品放入到自己的購物籃中。l通過發(fā)現(xiàn)顧客放入購物籃中的不同商品之間的聯(lián)系,分析顧客的通過發(fā)現(xiàn)顧客放入購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣購買習(xí)慣l哪些物品經(jīng)常被顧客購買?哪些物品經(jīng)常被顧客購買?l同一次購買中,哪些商品經(jīng)常會被一起購買?同一次購買中,哪些商品經(jīng)常會被一起購買?l一般用戶的購買過程中是否存在一定

2、的購買時(shí)間序列?一般用戶的購買過程中是否存在一定的購買時(shí)間序列?l具體應(yīng)用:利潤最大化具體應(yīng)用:利潤最大化l商品貨架設(shè)計(jì):更加適合客戶的購物路徑商品貨架設(shè)計(jì):更加適合客戶的購物路徑l貨存安排貨存安排 :實(shí)現(xiàn)超市的零庫存管理:實(shí)現(xiàn)超市的零庫存管理l用戶分類用戶分類 :提供個(gè)性化的服務(wù):提供個(gè)性化的服務(wù)其他典型應(yīng)用其他典型應(yīng)用l相關(guān)文獻(xiàn)的收集相關(guān)文獻(xiàn)的收集l購物籃購物籃 = 文檔(文檔(Document)l項(xiàng)項(xiàng) 目目 = 單詞(單詞(Word)l相關(guān)網(wǎng)站的收集相關(guān)網(wǎng)站的收集l購物籃購物籃 = 詞句(詞句(Sentences)l項(xiàng)項(xiàng) 目目 =鏈接文檔(鏈接文檔(Document)什么是關(guān)聯(lián)規(guī)則挖掘什

3、么是關(guān)聯(lián)規(guī)則挖掘? ?l關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘l簡單的說,關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有簡單的說,關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)趣的關(guān)聯(lián)l在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性、或因果結(jié)構(gòu)。性、或因果結(jié)構(gòu)。l應(yīng)用應(yīng)用l購物籃分析、交叉銷售、產(chǎn)品目錄設(shè)計(jì)、購物籃分析、交叉銷售、產(chǎn)品目錄設(shè)計(jì)、 loss-leader analysis、聚集、分類等。、聚集、分類等。關(guān)聯(lián)規(guī)則挖掘形式化定義關(guān)聯(lián)規(guī)則挖掘形式化定義l給定給定:l交易數(shù)據(jù)

4、庫交易數(shù)據(jù)庫 l每筆交易是:一個(gè)項(xiàng)目列表每筆交易是:一個(gè)項(xiàng)目列表 (消費(fèi)者一次購買活動(dòng)中購買的商消費(fèi)者一次購買活動(dòng)中購買的商品品)l查找查找: l所有描述一個(gè)項(xiàng)目集合與其他項(xiàng)目集合相關(guān)性的規(guī)則所有描述一個(gè)項(xiàng)目集合與其他項(xiàng)目集合相關(guān)性的規(guī)則l應(yīng)用應(yīng)用l* 護(hù)理用品護(hù)理用品 (商店應(yīng)該怎樣提高護(hù)理用品的銷售?商店應(yīng)該怎樣提高護(hù)理用品的銷售?)l家用電器家用電器 * (其他商品的庫存有什么影響其他商品的庫存有什么影響?)l在產(chǎn)品直銷中使用附加郵寄在產(chǎn)品直銷中使用附加郵寄其它相關(guān)概念其它相關(guān)概念l包含包含k個(gè)項(xiàng)目的集合,稱為個(gè)項(xiàng)目的集合,稱為k-項(xiàng)集項(xiàng)集l項(xiàng)集的出現(xiàn)頻率是包含項(xiàng)集的事務(wù)個(gè)數(shù),稱為項(xiàng)集的

5、頻率、支持計(jì)數(shù)項(xiàng)集的出現(xiàn)頻率是包含項(xiàng)集的事務(wù)個(gè)數(shù),稱為項(xiàng)集的頻率、支持計(jì)數(shù)或者計(jì)數(shù)或者計(jì)數(shù)l關(guān)聯(lián)規(guī)則的基本形式:前提條件關(guān)聯(lián)規(guī)則的基本形式:前提條件 結(jié)論結(jié)論 支持度支持度, 置信度置信度lbuys(x, “diapers”) buys(x, “beers”) 0.5%, 60%lmajor(x, “CS”) takes(x, “DB”) grade(x, “A”) 1%, 75%關(guān)聯(lián)規(guī)則興趣度的度量值:支持度關(guān)聯(lián)規(guī)則興趣度的度量值:支持度l推導(dǎo)出的數(shù)據(jù)間的相關(guān)性可稱為規(guī)則(或模式),對規(guī)則興趣度的描推導(dǎo)出的數(shù)據(jù)間的相關(guān)性可稱為規(guī)則(或模式),對規(guī)則興趣度的描述采用支持度、置信度概念。述采用支

6、持度、置信度概念。l支持度(支持度(Support):規(guī)則):規(guī)則XY在交易數(shù)據(jù)庫在交易數(shù)據(jù)庫D中的支持度是交易集中的支持度是交易集中包含中包含X和和Y的交易數(shù)與所有交易數(shù)之比,記為的交易數(shù)與所有交易數(shù)之比,記為support(XY),即,即support(XY)=|T:X Y T,T D|/ |D|,它是概率,它是概率P( X Y ),具),具體體表示為表示為:購買商品購買商品Y的交易的交易同時(shí)購買商品同時(shí)購買商品X和和Y的交易的交易購買商品購買商品X的交易的交易關(guān)聯(lián)規(guī)則興趣度的度量值:置信度關(guān)聯(lián)規(guī)則興趣度的度量值:置信度l置信度(置信度(Confidence),規(guī)則),規(guī)則XY在交易集中的

7、置信度是指包在交易集中的置信度是指包含含X和和Y的交易數(shù)與包含的交易數(shù)與包含X的交易數(shù)之比,記為的交易數(shù)之比,記為confidence(XY),即即confidence(XY)=|T: X Y T,T D|/|T:X T,T D|,它,它是概率是概率P( X|Y ),具體),具體表示為表示為:l最小支持度和最小置信度最小支持度和最小置信度用戶(分析員)不關(guān)心可信程度太低的規(guī)則,因而用戶需要輸入用戶(分析員)不關(guān)心可信程度太低的規(guī)則,因而用戶需要輸入兩個(gè)參數(shù):最小支持度和最小置信度。兩個(gè)參數(shù):最小支持度和最小置信度。購買商品購買商品Y的交易的交易同時(shí)購買商品同時(shí)購買商品X和和Y的交易的交易購買商

8、品購買商品X的交易的交易支持度和置信度舉例支持度和置信度舉例l零售商場銷售分析:零售商場銷售分析:l數(shù)據(jù)項(xiàng)為商品,記錄集合為交易記錄集合數(shù)據(jù)項(xiàng)為商品,記錄集合為交易記錄集合l規(guī)則為:規(guī)則為:“購買商品購買商品X的顧客,同時(shí)購買商品的顧客,同時(shí)購買商品Y”,即,即X Y;l設(shè)最小支持度為設(shè)最小支持度為0 .3;最小置信度也為;最小置信度也為0.3。l分析結(jié)果:分析結(jié)果: Item1 Item2 置置信信度度C 支支持持度度S A B 1 0.33 B A 0.33 0.33 B C 0.33 0.33 B D 0.66 0.66 C B 1 0.33 C D 1 0.33 D B 1 0.66

9、D C 0.5 0.33 交交易易號號 顧顧客客號號 商商品品號號 數(shù)數(shù)量量 日日期期 1 甲甲 A 14 3/4/95 甲甲 B 3 3/4/95 2 乙乙 C 2 5/6/95 乙乙 B 3 5/6/95 乙乙 D 13 5/6/95 3 乙乙 B 10 8/6/95 乙乙 D 12 8/6/95頻繁項(xiàng)集及其基本特征頻繁項(xiàng)集及其基本特征l頻繁項(xiàng)集的定義頻繁項(xiàng)集的定義l如果項(xiàng)集滿足最小支持度,則稱之為頻繁項(xiàng)集(高頻項(xiàng)集)如果項(xiàng)集滿足最小支持度,則稱之為頻繁項(xiàng)集(高頻項(xiàng)集)l頻繁項(xiàng)集的基本特征頻繁項(xiàng)集的基本特征l任何頻繁項(xiàng)集的子集均為頻繁項(xiàng)集。例如:任何頻繁項(xiàng)集的子集均為頻繁項(xiàng)集。例如:ABC

10、是頻繁項(xiàng)集,則是頻繁項(xiàng)集,則AB、AC、BC均為頻繁項(xiàng)集均為頻繁項(xiàng)集l在數(shù)據(jù)庫表分區(qū)的情況下,一個(gè)項(xiàng)集是頻繁的,則至少在一個(gè)分在數(shù)據(jù)庫表分區(qū)的情況下,一個(gè)項(xiàng)集是頻繁的,則至少在一個(gè)分區(qū)內(nèi)是頻繁的區(qū)內(nèi)是頻繁的關(guān)聯(lián)規(guī)則挖掘的種類關(guān)聯(lián)規(guī)則挖掘的種類l布爾布爾 vs. 數(shù)值型關(guān)聯(lián)數(shù)值型關(guān)聯(lián) (基于基于 處理數(shù)據(jù)的類型處理數(shù)據(jù)的類型)l性別性別“女女” 職業(yè)職業(yè)“ 秘書秘書” 1%, 75% 布爾型關(guān)聯(lián)規(guī)則布爾型關(guān)聯(lián)規(guī)則 l性別性別“女女” 收入收入 = 2000 1%, 75% 數(shù)值型關(guān)聯(lián)規(guī)則數(shù)值型關(guān)聯(lián)規(guī)則 l單維單維 vs. 多維多維 關(guān)聯(lián)關(guān)聯(lián)lage(x, “30.39”) income(x, “

11、42.48K”) buys(x, “PC”) 1%, 75%lbuys(x, “Book”) buys(x, “Pen”) buys(x, “Ink”) 1%, 75%l單層單層 vs. 多層多層 分析分析l那個(gè)品種牌子的啤酒與那個(gè)牌子的尿布有關(guān)系那個(gè)品種牌子的啤酒與那個(gè)牌子的尿布有關(guān)系?l各種擴(kuò)展各種擴(kuò)展l相關(guān)性、因果分析相關(guān)性、因果分析l關(guān)聯(lián)并不一定意味著相關(guān)或因果關(guān)聯(lián)并不一定意味著相關(guān)或因果l最大模式和閉合相集最大模式和閉合相集l添加約束添加約束l如如, 哪些哪些“小東西小東西”的銷售促發(fā)了的銷售促發(fā)了“大家伙大家伙”的買賣?的買賣?關(guān)聯(lián)規(guī)則挖掘的基本過程關(guān)聯(lián)規(guī)則挖掘的基本過程l找出所有

12、的找出所有的頻繁項(xiàng)集頻繁項(xiàng)集 F,其中對于任何的其中對于任何的 Z F,在交易集合在交易集合D中至少中至少 s%的事務(wù)包含的事務(wù)包含Zl根據(jù)置信度和頻繁項(xiàng)集根據(jù)置信度和頻繁項(xiàng)集F, 產(chǎn)生關(guān)聯(lián)規(guī)則。具體方法如下:產(chǎn)生關(guān)聯(lián)規(guī)則。具體方法如下:lconf(X Y) = supp(X)/supp(X Y)l如果如果 conf(X Y) c 成立,則產(chǎn)生成立,則產(chǎn)生 X Y 的規(guī)則的規(guī)則, 因?yàn)橐驗(yàn)?lsupp(X Y) = supp(X Y) s 且且lconf(X Y) cl因此關(guān)聯(lián)規(guī)則的挖掘可以轉(zhuǎn)換為頻繁項(xiàng)集的挖掘和頻繁項(xiàng)集之間的關(guān)聯(lián)。因此關(guān)聯(lián)規(guī)則的挖掘可以轉(zhuǎn)換為頻繁項(xiàng)集的挖掘和頻繁項(xiàng)集之間的關(guān)聯(lián)

13、。關(guān)聯(lián)規(guī)則挖掘:一個(gè)例子關(guān)聯(lián)規(guī)則挖掘:一個(gè)例子l對于對于 A C:lsupport = support(A 、C) = 50%lconfidence = support(A 、C)/support(A) = 66.6%交易ID購買商品2000A,B,C1000A,C4000A,D5000B,E,F頻繁項(xiàng)集支持度A75%B50%C50%A,C50%l最小值尺度最小值尺度 50%l最小可信度最小可信度 50%關(guān)聯(lián)規(guī)則挖掘的優(yōu)缺點(diǎn)關(guān)聯(lián)規(guī)則挖掘的優(yōu)缺點(diǎn)l優(yōu)點(diǎn)優(yōu)點(diǎn)l它可以產(chǎn)生清晰有用的結(jié)果它可以產(chǎn)生清晰有用的結(jié)果l它支持間接數(shù)據(jù)挖掘它支持間接數(shù)據(jù)挖掘l可以處理變長的數(shù)據(jù)可以處理變長的數(shù)據(jù)l它的計(jì)算的消耗

14、量是可以預(yù)見的它的計(jì)算的消耗量是可以預(yù)見的 l缺點(diǎn)缺點(diǎn)l當(dāng)問題變大時(shí),計(jì)算量增長得厲害當(dāng)問題變大時(shí),計(jì)算量增長得厲害l難以決定正確的數(shù)據(jù)難以決定正確的數(shù)據(jù)l容易忽略稀有的數(shù)據(jù)容易忽略稀有的數(shù)據(jù)查找頻繁項(xiàng)集查找頻繁項(xiàng)集 Apriori算法算法l查找具有最小支持度的頻繁項(xiàng)集是關(guān)聯(lián)規(guī)則挖掘最為重要的步驟查找具有最小支持度的頻繁項(xiàng)集是關(guān)聯(lián)規(guī)則挖掘最為重要的步驟lApriori算法是目前最有影響力的一個(gè)算法,在算法是目前最有影響力的一個(gè)算法,在1994年,由年,由R.Agrawal, S.Srikant提出提出l該算法基于頻繁項(xiàng)集的特征:如果項(xiàng)集該算法基于頻繁項(xiàng)集的特征:如果項(xiàng)集l = i1,i2,in

15、 是頻繁的,當(dāng)且是頻繁的,當(dāng)且僅當(dāng)項(xiàng)集的所有子集均為頻繁項(xiàng)集僅當(dāng)項(xiàng)集的所有子集均為頻繁項(xiàng)集.也就是說,如果也就是說,如果supp(l) s,當(dāng)且僅,當(dāng)且僅當(dāng)當(dāng) supp(l ) s, l ll因此,我們可以采用層次順序的方法來實(shí)現(xiàn)頻繁項(xiàng)集的挖掘。首先,因此,我們可以采用層次順序的方法來實(shí)現(xiàn)頻繁項(xiàng)集的挖掘。首先,挖掘一階頻繁項(xiàng)集挖掘一階頻繁項(xiàng)集L1。在此基礎(chǔ)上,形成二階候選項(xiàng)集,挖掘二階頻繁。在此基礎(chǔ)上,形成二階候選項(xiàng)集,挖掘二階頻繁項(xiàng)集。依此類推。項(xiàng)集。依此類推。AprioriApriori算法算法l連接連接: 用用 Lk-1自連接得到自連接得到Ckl剪枝剪枝: 一個(gè)一個(gè)k-項(xiàng)集,如果它的一個(gè)

16、項(xiàng)集,如果它的一個(gè)k-1項(xiàng)集(它的子集項(xiàng)集(它的子集 )不是頻繁)不是頻繁的,那他本身也不可能是頻繁的。的,那他本身也不可能是頻繁的。l偽代碼偽代碼:lCk: 長度為長度為k的候選項(xiàng)集的候選項(xiàng)集lLk :長度為長度為k的頻繁項(xiàng)集的頻繁項(xiàng)集lL1 = frequent items; for (k = 1; Lk !=; k+) do begin Ck+1 = 從從Lk 生成候選項(xiàng)集生成候選項(xiàng)集; 對于數(shù)據(jù)庫中的任一交易對于數(shù)據(jù)庫中的任一交易 t do 如果如果 t 中包含中包含 Ck+1中所包含的項(xiàng)集,則計(jì)數(shù)加中所包含的項(xiàng)集,則計(jì)數(shù)加 1 Lk+1 = Ck+1 中超過最小支持度的頻繁項(xiàng)集中超過

17、最小支持度的頻繁項(xiàng)集 end return k Lk;AprioriApriori算法算法 例子例子TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5數(shù)據(jù)庫數(shù)據(jù)庫 Ditemset sup.1223334153itemset sup.12233353掃描掃描 DC1L1itemset1 21 31 52 32 53 5itemset sup1 211 321 512 322 533 52itemset sup1 322 322 533 52L2C2C2掃描掃描 DC3L3itemset2 3 5掃描掃描 Ditemset sup2 3 52Apriori

18、 Apriori 夠快了嗎夠快了嗎? ? 性能瓶頸性能瓶頸lApriori算法的核心算法的核心:l用頻繁的用頻繁的(k 1)-項(xiàng)集生成候選的頻繁項(xiàng)集生成候選的頻繁 k-項(xiàng)集項(xiàng)集l用數(shù)據(jù)庫掃描和模式匹配計(jì)算候選集的支持度用數(shù)據(jù)庫掃描和模式匹配計(jì)算候選集的支持度lApriori 的瓶頸的瓶頸: 候選集生成候選集生成l巨大的候選集巨大的候選集:l104 個(gè)頻繁個(gè)頻繁1-項(xiàng)集要生成項(xiàng)集要生成 107 個(gè)候選個(gè)候選 2-項(xiàng)集,并且累計(jì)和檢項(xiàng)集,并且累計(jì)和檢查它們的頻繁性查它們的頻繁性l要找長度為要找長度為100的頻繁模式,如的頻繁模式,如 a1, a2, , a100, 你必須你必須先產(chǎn)生先產(chǎn)生2100

19、 1030 個(gè)候選集個(gè)候選集l重復(fù)掃描數(shù)據(jù)庫:重復(fù)掃描數(shù)據(jù)庫:l如果最長的模式是如果最長的模式是n的話,則需要的話,則需要 (n +1 ) 次數(shù)據(jù)庫掃描次數(shù)據(jù)庫掃描關(guān)聯(lián)規(guī)則結(jié)果顯示關(guān)聯(lián)規(guī)則結(jié)果顯示 (Table Form )(Table Form )關(guān)聯(lián)規(guī)則可視化關(guān)聯(lián)規(guī)則可視化Using Rule GraphUsing Rule Graph擴(kuò)展知識:多層關(guān)聯(lián)規(guī)則擴(kuò)展知識:多層關(guān)聯(lián)規(guī)則l項(xiàng)通常具有層次項(xiàng)通常具有層次l底層的項(xiàng)通常支持度也低底層的項(xiàng)通常支持度也低l某些特定層的規(guī)則可能更有某些特定層的規(guī)則可能更有意義意義l交易數(shù)據(jù)庫可以按照維或?qū)咏灰讛?shù)據(jù)庫可以按照維或?qū)泳幋a編碼l可以進(jìn)行共享的多維挖

20、掘可以進(jìn)行共享的多維挖掘食品面包牛奶脫脂奶光明統(tǒng)一酸奶白黃TID ItemsT1111, 121, 211, 221T2111, 211, 222, 323T3112, 122, 221, 411T4111, 121T5111, 122, 211, 221, 413擴(kuò)展知識:多維關(guān)聯(lián)規(guī)則擴(kuò)展知識:多維關(guān)聯(lián)規(guī)則l單維關(guān)聯(lián)規(guī)則(維內(nèi)關(guān)聯(lián)規(guī)則)單維關(guān)聯(lián)規(guī)則(維內(nèi)關(guān)聯(lián)規(guī)則)l關(guān)聯(lián)規(guī)則中僅包含單個(gè)謂詞(維)關(guān)聯(lián)規(guī)則中僅包含單個(gè)謂詞(維)l通常針對的是事務(wù)數(shù)據(jù)庫通常針對的是事務(wù)數(shù)據(jù)庫 buys(X, “milk”) buys(X, “bread”)l多維關(guān)聯(lián)規(guī)則:規(guī)則內(nèi)包含多維關(guān)聯(lián)規(guī)則:規(guī)則內(nèi)包含2 個(gè)以

21、上維個(gè)以上維/謂詞謂詞l維間關(guān)聯(lián)規(guī)則維間關(guān)聯(lián)規(guī)則 (不重復(fù)謂詞不重復(fù)謂詞)age(X,”19-25”) occupation(X,“student”) buys(X,“coke”)l混合維關(guān)聯(lián)規(guī)則混合維關(guān)聯(lián)規(guī)則 (存在重復(fù)存在重復(fù)謂詞謂詞) age(X,”19-25”) buys(X, “popcorn”) buys(X, “coke”)分類與預(yù)測分類與預(yù)測本章內(nèi)容本章內(nèi)容l分類與預(yù)測的基本概念分類與預(yù)測的基本概念l決策樹分類決策樹分類l實(shí)例:移動(dòng)通信客戶流失分析系統(tǒng)實(shí)例:移動(dòng)通信客戶流失分析系統(tǒng)l神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)l其他分類方法其他分類方法l預(yù)測(回歸)預(yù)測(回歸)建立模型過程建立模型過程歷史

22、數(shù)據(jù)歷史數(shù)據(jù)模型模型建模建模記錄集合記錄集合預(yù)測預(yù)測數(shù)學(xué)公式數(shù)學(xué)公式規(guī)則集合規(guī)則集合l分類分類 l為一個(gè)事件或?qū)ο筮M(jìn)行歸類為一個(gè)事件或?qū)ο筮M(jìn)行歸類l預(yù)測分類標(biāo)簽(離散值)預(yù)測分類標(biāo)簽(離散值)l基于訓(xùn)練集形成一個(gè)模型,訓(xùn)練集中的類標(biāo)簽是已知的。使用基于訓(xùn)練集形成一個(gè)模型,訓(xùn)練集中的類標(biāo)簽是已知的。使用該模型對新的數(shù)據(jù)進(jìn)行分類該模型對新的數(shù)據(jù)進(jìn)行分類l分類模型:分類器(分類函數(shù)、分類規(guī)則等)分類模型:分類器(分類函數(shù)、分類規(guī)則等)l預(yù)測預(yù)測: l對連續(xù)或者有序的值進(jìn)行建模和預(yù)測(回歸方法)對連續(xù)或者有序的值進(jìn)行建模和預(yù)測(回歸方法) l典型應(yīng)用典型應(yīng)用l客戶客戶/用戶分類用戶分類l信用評分信用評

23、分l目標(biāo)營銷目標(biāo)營銷l醫(yī)療診斷醫(yī)療診斷l(xiāng)分類和預(yù)測分類和預(yù)測分類的相關(guān)概念分類的相關(guān)概念l訓(xùn)練集(訓(xùn)練集(Training Set):由一組數(shù)據(jù)庫記錄或者元組構(gòu)成,每個(gè)):由一組數(shù)據(jù)庫記錄或者元組構(gòu)成,每個(gè)記錄由有關(guān)字段值組成特征向量,這些字段稱為屬性。記錄由有關(guān)字段值組成特征向量,這些字段稱為屬性。l用于分類的屬性稱為標(biāo)簽屬性。標(biāo)簽屬性也就是訓(xùn)練集的類別標(biāo)用于分類的屬性稱為標(biāo)簽屬性。標(biāo)簽屬性也就是訓(xùn)練集的類別標(biāo)記。記。l標(biāo)簽屬性的類型必須是離散的,而且標(biāo)簽屬性的可能值的數(shù)目越標(biāo)簽屬性的類型必須是離散的,而且標(biāo)簽屬性的可能值的數(shù)目越少越好。少越好。分類的兩個(gè)步驟分類的兩個(gè)步驟l模型創(chuàng)建模型創(chuàng)建

24、: 對一個(gè)已經(jīng)事先確定的類別創(chuàng)建模型對一個(gè)已經(jīng)事先確定的類別創(chuàng)建模型l每個(gè)元組屬于一個(gè)事先確定的類別,使用分類標(biāo)簽屬性予以確定每個(gè)元組屬于一個(gè)事先確定的類別,使用分類標(biāo)簽屬性予以確定l用于創(chuàng)建模型的數(shù)據(jù)集叫用于創(chuàng)建模型的數(shù)據(jù)集叫: 訓(xùn)練集。單個(gè)元組稱為訓(xùn)練樣本訓(xùn)練集。單個(gè)元組稱為訓(xùn)練樣本l模型可以用分類規(guī)則,決策樹,或者數(shù)學(xué)方程的形式來表達(dá)。模型可以用分類規(guī)則,決策樹,或者數(shù)學(xué)方程的形式來表達(dá)。l模型使用模型使用: 用創(chuàng)建的模型預(yù)測未來或者類別未知的記錄用創(chuàng)建的模型預(yù)測未來或者類別未知的記錄l估計(jì)模型的準(zhǔn)確率估計(jì)模型的準(zhǔn)確率l使用創(chuàng)建的模型在一個(gè)測試集上進(jìn)行預(yù)測,并將結(jié)果和實(shí)際值進(jìn)行比較使用創(chuàng)

25、建的模型在一個(gè)測試集上進(jìn)行預(yù)測,并將結(jié)果和實(shí)際值進(jìn)行比較l準(zhǔn)確率:準(zhǔn)確率:l測試集和訓(xùn)練集是獨(dú)立的。測試集和訓(xùn)練集是獨(dú)立的。分類過程:模型創(chuàng)建(學(xué)習(xí)過分類過程:模型創(chuàng)建(學(xué)習(xí)過程)程)訓(xùn)練集NAME RANKYEARS TENUREDMikeAssistant Prof3noMaryAssistant Prof7yesBill Professor2yesJimAssociate Prof7yesDaveAssistant Prof6noAnneAssociate Prof3no分類算法IF rank = professorOR years 6THEN tenured = yes 模型分類過程分

26、類過程 : 使用模型使用模型模型測試集NAMERANKYEARS TENUREDTomAssistant Prof2noMerlisa Associate Prof7noGeorge Professor5yesJoseph Assistant Prof7yes未知數(shù)據(jù)(Jeff, Professor, 4)Tenured?本章內(nèi)容本章內(nèi)容l分類與預(yù)測的基本概念分類與預(yù)測的基本概念l決策樹分類決策樹分類l實(shí)例:移動(dòng)通信客戶流失分析系統(tǒng)實(shí)例:移動(dòng)通信客戶流失分析系統(tǒng)l神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)l其他分類方法其他分類方法l預(yù)測預(yù)測(回歸)(回歸)使用決策樹進(jìn)行分類使用決策樹進(jìn)行分類l決策樹決策樹 l一個(gè)樹型的

27、結(jié)構(gòu)一個(gè)樹型的結(jié)構(gòu)l內(nèi)部節(jié)點(diǎn)上選用一個(gè)屬性進(jìn)行分裂內(nèi)部節(jié)點(diǎn)上選用一個(gè)屬性進(jìn)行分裂 (決策節(jié)點(diǎn))(決策節(jié)點(diǎn))l每個(gè)分叉都是分裂的一個(gè)部分每個(gè)分叉都是分裂的一個(gè)部分l葉子節(jié)點(diǎn)表示一個(gè)分布葉子節(jié)點(diǎn)表示一個(gè)分布l節(jié)點(diǎn)的子節(jié)點(diǎn)個(gè)數(shù)跟算法相關(guān)節(jié)點(diǎn)的子節(jié)點(diǎn)個(gè)數(shù)跟算法相關(guān)age?student?credit rating?noyesfairexcellent40nonoyesyesyes30.40決策樹分類的特點(diǎn)決策樹分類的特點(diǎn)l優(yōu)點(diǎn)優(yōu)點(diǎn)l容易生成可以理解的規(guī)則容易生成可以理解的規(guī)則l計(jì)算量相對來說不大計(jì)算量相對來說不大l可以處理離散和連續(xù)字段可以處理離散和連續(xù)字段l可以清晰顯示哪些字段比較重要可以清晰顯示哪

28、些字段比較重要l缺點(diǎn)缺點(diǎn)l對連續(xù)性的字段難以預(yù)測對連續(xù)性的字段難以預(yù)測l類別太多的時(shí)候,錯(cuò)誤的可能性會加大類別太多的時(shí)候,錯(cuò)誤的可能性會加大l一般情況下,標(biāo)簽屬性的個(gè)數(shù)有限一般情況下,標(biāo)簽屬性的個(gè)數(shù)有限決策樹的生成與使用決策樹的生成與使用l決策樹生成算法分成兩個(gè)步驟決策樹生成算法分成兩個(gè)步驟l樹的生成樹的生成l開始,數(shù)據(jù)都在根節(jié)點(diǎn)開始,數(shù)據(jù)都在根節(jié)點(diǎn)l遞歸的進(jìn)行數(shù)據(jù)分割遞歸的進(jìn)行數(shù)據(jù)分割l樹的修剪樹的修剪l去掉一些可能是噪音或者異常的數(shù)據(jù)去掉一些可能是噪音或者異常的數(shù)據(jù)l決策樹使用決策樹使用: 對未知數(shù)據(jù)進(jìn)行分割對未知數(shù)據(jù)進(jìn)行分割l按照決策樹上采用的分割屬性逐層往下,直到一個(gè)葉子節(jié)點(diǎn)按照決策樹

29、上采用的分割屬性逐層往下,直到一個(gè)葉子節(jié)點(diǎn)訓(xùn)練集訓(xùn)練集ageincome studentcredit_ratingbuys_computer=30highnofairno40mediumnofairyes40lowyesfairyes40lowyesexcellentno3140 lowyesexcellentyes=30mediumnofairno40mediumyesfairyes40mediumnoexcellentnoID3算法決策樹結(jié)果:決策樹結(jié)果: “buys_computer”age?overcaststudent?credit rating?noyesfairexcellent

30、40nonoyesyesyes30.40決策樹算法決策樹算法l基本算法(貪心算法)基本算法(貪心算法)l自上而下分而治之的方法自上而下分而治之的方法l開始時(shí),所有的數(shù)據(jù)都在根節(jié)點(diǎn)開始時(shí),所有的數(shù)據(jù)都在根節(jié)點(diǎn)l屬性都是種類字段屬性都是種類字段 (如果是連續(xù)的,將其離散化如果是連續(xù)的,將其離散化)l所有記錄用所選屬性遞歸的進(jìn)行分割所有記錄用所選屬性遞歸的進(jìn)行分割l屬性的選擇是基于一個(gè)啟發(fā)式規(guī)則或者一個(gè)統(tǒng)計(jì)的度量屬性的選擇是基于一個(gè)啟發(fā)式規(guī)則或者一個(gè)統(tǒng)計(jì)的度量 (如如, information gain)l停止分割的條件停止分割的條件l一個(gè)節(jié)點(diǎn)上的數(shù)據(jù)都是屬于同一個(gè)類別一個(gè)節(jié)點(diǎn)上的數(shù)據(jù)都是屬于同一個(gè)

31、類別l沒有屬性可以再用于對數(shù)據(jù)進(jìn)行分割沒有屬性可以再用于對數(shù)據(jù)進(jìn)行分割幾種經(jīng)典算法介紹幾種經(jīng)典算法介紹lCARTl min(P(c1),P(c2)l 2P(c1)P(c2)l P(c1)logP(c1)+P(c2)logP(c2) C4.5(ID3)lC4.5(ID3)l對種類字段處理時(shí),缺省是對每個(gè)值作為一個(gè)分割對種類字段處理時(shí),缺省是對每個(gè)值作為一個(gè)分割lGain和和Gain RatiolCHAIDl在在Overfitting前停止樹的生成前停止樹的生成l必須都是分類屬性必須都是分類屬性l選擇分割。選擇分割。X2檢驗(yàn)檢驗(yàn) 從樹中生成分類規(guī)則從樹中生成分類規(guī)則l用用 IF-THEN 這種形式

32、來表現(xiàn)規(guī)則這種形式來表現(xiàn)規(guī)則l每個(gè)葉子節(jié)點(diǎn)都創(chuàng)建一條規(guī)則每個(gè)葉子節(jié)點(diǎn)都創(chuàng)建一條規(guī)則l每個(gè)分割都成為一個(gè)規(guī)則中的一個(gè)條件每個(gè)分割都成為一個(gè)規(guī)則中的一個(gè)條件l葉子節(jié)點(diǎn)中的類別就是葉子節(jié)點(diǎn)中的類別就是Then的內(nèi)容的內(nèi)容l規(guī)則對于人來說更容易理解規(guī)則對于人來說更容易理解l例子例子lIF age = “=30” AND student = “no” THEN buys_computer = “no”lIF age = “40” AND credit_rating = “excellent” THEN buys_computer = “yes”lIF age = “=30” AND credit_rat

33、ing = “fair” THEN buys_computer = “no”本章內(nèi)容本章內(nèi)容l分類與預(yù)測的基本概念分類與預(yù)測的基本概念l決策樹分類決策樹分類l實(shí)例:移動(dòng)通信客戶流失分析系統(tǒng)實(shí)例:移動(dòng)通信客戶流失分析系統(tǒng)l神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)l其他分類方法其他分類方法l預(yù)測(回歸)預(yù)測(回歸)應(yīng)用背景與問題定義應(yīng)用背景與問題定義l背景背景l(fā)在移動(dòng)通信領(lǐng)域,客戶流失成為通信運(yùn)營企業(yè)關(guān)注的焦點(diǎn)在移動(dòng)通信領(lǐng)域,客戶流失成為通信運(yùn)營企業(yè)關(guān)注的焦點(diǎn)l通信業(yè)務(wù)產(chǎn)生的海量、珍貴數(shù)據(jù)為數(shù)據(jù)挖掘的研究提供了堅(jiān)實(shí)通信業(yè)務(wù)產(chǎn)生的海量、珍貴數(shù)據(jù)為數(shù)據(jù)挖掘的研究提供了堅(jiān)實(shí)的基礎(chǔ)的基礎(chǔ)l把數(shù)據(jù)挖掘理論應(yīng)用于移動(dòng)通信領(lǐng)域的客戶流

34、失分析,進(jìn)而為把數(shù)據(jù)挖掘理論應(yīng)用于移動(dòng)通信領(lǐng)域的客戶流失分析,進(jìn)而為通信企業(yè)的實(shí)際業(yè)務(wù)提供指導(dǎo)是一項(xiàng)具有挑戰(zhàn)性的工作通信企業(yè)的實(shí)際業(yè)務(wù)提供指導(dǎo)是一項(xiàng)具有挑戰(zhàn)性的工作l定義定義l客戶流失分析,就是利用數(shù)據(jù)挖掘等分析方法,對已流失客戶客戶流失分析,就是利用數(shù)據(jù)挖掘等分析方法,對已流失客戶過去一段時(shí)間的通話、繳費(fèi)等信息進(jìn)行分析,提煉出流失客戶過去一段時(shí)間的通話、繳費(fèi)等信息進(jìn)行分析,提煉出流失客戶的行為特征,利用這些特征預(yù)測在網(wǎng)客戶的流失傾向的行為特征,利用這些特征預(yù)測在網(wǎng)客戶的流失傾向 按真實(shí)比例抽取,可能掩蓋流失用戶的特征 解決方法:“樣本放大”數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理抽樣抽樣原始數(shù)據(jù)(流失概率3.2

35、%)采樣后(流失概率25%)10,000310,000300,00050%20:15,00015,00020,000流失非流失數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理時(shí)間相關(guān)屬性時(shí)間相關(guān)屬性屬性序列S1用用戶戶標(biāo)標(biāo)識識性性別別年年齡齡入入網(wǎng)網(wǎng)品品牌牌 1 1月月份份通通話話時(shí)時(shí)長長2 2月月份份通通話話時(shí)時(shí)長長6 6月月份份通通話話時(shí)時(shí)長長 1 1月月份份話話費(fèi)費(fèi) 6 6月月份份話話費(fèi)費(fèi)是是否否流流失失屬性序列Sn“靜態(tài)”屬性流失標(biāo)志解決方法:生成匯總屬性(求和、取均值等)生成“趨勢屬性”,如由屬性序列S1生成屬性“通話時(shí)長趨勢”問題: 決策樹算法缺乏處理時(shí)間相關(guān)屬性的能力,致使效率下降數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理生成趨

36、勢屬性生成趨勢屬性0200400600800100012001400160018002000123456月份通話時(shí)長用戶1用戶2把每個(gè)月通話時(shí)長Y視為月份X(取值從1到6)的線性函數(shù),即Y = + X ,系數(shù)作為屬性“通話時(shí)長趨勢”的取值,從而把求趨勢屬性的問題轉(zhuǎn)化為簡單的線形回歸問題,siisiiixxyyxx121)()(數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理生成趨勢屬性(續(xù))生成趨勢屬性(續(xù))siiisiiiixxwyyxxw121)()(實(shí)際應(yīng)用中,發(fā)現(xiàn)各個(gè)月份的數(shù)值對趨勢屬性的影響不同,可以對各個(gè)月份指定不同的權(quán)重w作為新生成的趨勢屬性,可以進(jìn)一步轉(zhuǎn)換成離散值,如,顯著上升、小幅上升、持平、小幅下降、

37、顯著下降例如:1到6月份權(quán)重分別取1、1、1、2、3、4決策樹示例決策樹示例通話次數(shù)=20品牌話費(fèi)金額神州行全球通 流失=25 流失 非流失 非流失用戶用戶ID通話次數(shù)通話次數(shù)品牌品牌話費(fèi)金額話費(fèi)金額流失標(biāo)志流失標(biāo)志139*88423全球通全球通23品牌 非流失神州行全球通第一步:建立決策樹第二步:預(yù)測流失流失20,80 0.2通話次數(shù)=20品牌消費(fèi)金額神州行10,30 0.2510,50 0.167全球通2,23 0.088,7 0.53=254,36 0.1品牌6,14 0.3神州行全球通1,8 0.115,6 0.45Cx,y k%x:流失用戶數(shù)y:未流失用戶數(shù)k:流失概率 k = x/

38、(x+y)A決策樹算法決策樹算法數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)主要內(nèi)容主要內(nèi)容l分類與預(yù)測的基本概念分類與預(yù)測的基本概念l決策樹分類決策樹分類l實(shí)例:移動(dòng)通信客戶流失分析系統(tǒng)實(shí)例:移動(dòng)通信客戶流失分析系統(tǒng)l神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)l其他分類方法其他分類方法l預(yù)測預(yù)測(回歸)(回歸)神經(jīng)網(wǎng)絡(luò)技術(shù)神經(jīng)網(wǎng)絡(luò)技術(shù)l生物神經(jīng)系統(tǒng)的計(jì)算模擬生物神經(jīng)系統(tǒng)的計(jì)算模擬 (實(shí)際上是一個(gè)很好的學(xué)習(xí)系統(tǒng)的例子實(shí)際上是一個(gè)很好的學(xué)習(xí)系統(tǒng)的例子)l海量并行計(jì)算技術(shù)使得性能大大提高海量并行計(jì)算技術(shù)使得性能大大提高l最早的神經(jīng)網(wǎng)絡(luò)算法為最早的神經(jīng)網(wǎng)絡(luò)算法為 1959由由Rosenblatt提出提出l基本結(jié)構(gòu)基本結(jié)構(gòu)神經(jīng)元結(jié)構(gòu)神經(jīng)元結(jié)構(gòu) k-f加權(quán)

39、和加權(quán)和輸入輸入向量向量X輸出輸出 y激活函數(shù)激活函數(shù)權(quán)重權(quán)重向量向量 ww0w1wnx0 x1xn)sign(yExampleFor n0ikiixw多層感知系統(tǒng)多層感知系統(tǒng)Output nodesInput nodesHidden nodesOutput vectorInput vector: xiwijijiijjOwIjIjeO11)(1 (jjjjjOTOOErrjkkkjjjwErrOOErr)1 (ijijijOErrlww)(jjjErrl)(計(jì)算實(shí)例計(jì)算實(shí)例l一個(gè)訓(xùn)練樣本一個(gè)訓(xùn)練樣本X=1,0,1,輸出為輸出為1lX1=1,x2=0,x3=1,w14=0.2,w15=-0.3

40、,w24=0.4,w25=0.1,w34=-.5,w35=0.2,w46=-0.3,w56=-0.2,l偏置值偏置值:節(jié)點(diǎn)節(jié)點(diǎn)4:-0.4,節(jié)點(diǎn)節(jié)點(diǎn)5:0.2,節(jié)點(diǎn)節(jié)點(diǎn)6:0.1l學(xué)習(xí)率設(shè)為學(xué)習(xí)率設(shè)為0.9l節(jié)點(diǎn)節(jié)點(diǎn)4:輸入值輸入值:w14*x1+w24*x2+w34*x3+節(jié)點(diǎn)節(jié)點(diǎn)4的偏置的偏置=1*0.2+0.4*0-0.5*1-0.4=-0.7輸出值輸出值: 可得可得0.332l同理同理: 節(jié)點(diǎn)節(jié)點(diǎn)5輸入值輸入值0.1,輸出值輸出值0.525l節(jié)點(diǎn)節(jié)點(diǎn)6: 輸入值輸入值:w46*o4+w56*o5+節(jié)點(diǎn)節(jié)點(diǎn)6的偏置的偏置=-0.3*0.332-0.2*0.525+0.1=-0.105輸出

41、值輸出值:0.474計(jì)算實(shí)例計(jì)算實(shí)例誤差計(jì)算誤差計(jì)算l節(jié)點(diǎn)節(jié)點(diǎn)6:0.474*(1-0.474)*(1-0.474)=0.1311l節(jié)點(diǎn)節(jié)點(diǎn)5:0.525*(1-0.525)*0.1311*(-0.2)=-0.0065l同理節(jié)點(diǎn)同理節(jié)點(diǎn)4誤差為誤差為:-0.0087)(1 (jjjjjOTOOErrjkkkjjjwErrOOErr)1(更新權(quán)值和偏置值更新權(quán)值和偏置值lW46:-0.3+(0.9)(0.1311)(0.332)=-0.261l其他其他Wij同理同理l節(jié)點(diǎn)節(jié)點(diǎn)6的偏置的偏置:0.1+(0.9)*(0.1311)=0.218l其他偏置同理其他偏置同理ijijijOErrlww)(j

42、jjErrl)(終止條件終止條件l對所有樣本作一次掃描稱為一個(gè)周期對所有樣本作一次掃描稱為一個(gè)周期l終止條件終止條件:對前一周期所有對前一周期所有Wij的修改值都小于某個(gè)指的修改值都小于某個(gè)指定的閾值定的閾值;或超過預(yù)先指定的周期數(shù)或超過預(yù)先指定的周期數(shù).l防止訓(xùn)練過度防止訓(xùn)練過度前饋神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò)l前饋網(wǎng)絡(luò)的表達(dá)能力l布爾函數(shù)。任何布爾函數(shù)可以被具有兩層單元的網(wǎng)絡(luò)準(zhǔn)確表示,盡管對于最壞的情況,所需隱藏單元的數(shù)量隨著網(wǎng)絡(luò)輸入數(shù)量的增加指數(shù)級增長。 l連續(xù)函數(shù)。任何有界的連續(xù)函數(shù)可以由一個(gè)兩層的網(wǎng)絡(luò)以任意小的誤差逼近。這個(gè)理論適用于隱藏層使用sigmoid單元、輸出層使用(非閾值的)線性單

43、元的網(wǎng)絡(luò)。所需的隱藏單元數(shù)量依賴于要逼近的函數(shù)。l任意函數(shù)。任意函數(shù)可以被一個(gè)有三層單元的網(wǎng)絡(luò)以任意精度逼近。與前面相同,輸出層使用線性單元,兩個(gè)隱藏層使用sigmoid單元,每一層所需的單元數(shù)量一般不確定。神經(jīng)網(wǎng)絡(luò)特點(diǎn)神經(jīng)網(wǎng)絡(luò)特點(diǎn)l優(yōu)點(diǎn)優(yōu)點(diǎn)l有很強(qiáng)的非線性擬合能力,可映射任意復(fù)雜的非線性關(guān)系。有很強(qiáng)的非線性擬合能力,可映射任意復(fù)雜的非線性關(guān)系。l學(xué)習(xí)規(guī)則簡單,便于計(jì)算機(jī)實(shí)現(xiàn)。學(xué)習(xí)規(guī)則簡單,便于計(jì)算機(jī)實(shí)現(xiàn)。l具有很強(qiáng)的魯棒性、記憶能力以及強(qiáng)大的自學(xué)習(xí)能力。具有很強(qiáng)的魯棒性、記憶能力以及強(qiáng)大的自學(xué)習(xí)能力。 l缺點(diǎn)缺點(diǎn)l最嚴(yán)重的問題是沒能力來解釋自己的推理過程和推理依據(jù)。最嚴(yán)重的問題是沒能力來解釋

44、自己的推理過程和推理依據(jù)。l不能向用戶提出必要的詢問,而且當(dāng)數(shù)據(jù)不充分的時(shí)候,不能向用戶提出必要的詢問,而且當(dāng)數(shù)據(jù)不充分的時(shí)候,神經(jīng)網(wǎng)絡(luò)就無法進(jìn)行工作。神經(jīng)網(wǎng)絡(luò)就無法進(jìn)行工作。 l把一切問題的特征都變?yōu)閿?shù)字,把一切推理都變?yōu)閿?shù)值計(jì)把一切問題的特征都變?yōu)閿?shù)字,把一切推理都變?yōu)閿?shù)值計(jì)算,其結(jié)果勢必是丟失信息。算,其結(jié)果勢必是丟失信息。l理論和學(xué)習(xí)算法還有待于進(jìn)一步完善和提高。理論和學(xué)習(xí)算法還有待于進(jìn)一步完善和提高。 應(yīng)用應(yīng)用l適合神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的問題適合神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的問題 l實(shí)例是用很多實(shí)例是用很多“屬性屬性-值值”對表示的。對表示的。 l目標(biāo)函數(shù)的輸出可能是離散值、實(shí)數(shù)值或者由若干目標(biāo)函數(shù)的輸出可

45、能是離散值、實(shí)數(shù)值或者由若干實(shí)數(shù)屬性或離散屬性組成的向量。實(shí)數(shù)屬性或離散屬性組成的向量。 l訓(xùn)練數(shù)據(jù)可能包含錯(cuò)誤。訓(xùn)練數(shù)據(jù)可能包含錯(cuò)誤。 l可容忍長時(shí)間的訓(xùn)練。可容忍長時(shí)間的訓(xùn)練。 l可能需要快速求出目標(biāo)函數(shù)值??赡苄枰焖偾蟪瞿繕?biāo)函數(shù)值。 l人類能否理解學(xué)到的目標(biāo)函數(shù)是不重要的。人類能否理解學(xué)到的目標(biāo)函數(shù)是不重要的。實(shí)驗(yàn)實(shí)驗(yàn)l使用使用Clementine進(jìn)行神經(jīng)網(wǎng)絡(luò)分類挖掘進(jìn)行神經(jīng)網(wǎng)絡(luò)分類挖掘(工具使用參見補(bǔ)充教材)(工具使用參見補(bǔ)充教材)主要內(nèi)容主要內(nèi)容l分類與預(yù)測的基本概念分類與預(yù)測的基本概念l決策樹分類決策樹分類l實(shí)例:移動(dòng)通信客戶流失分析系統(tǒng)實(shí)例:移動(dòng)通信客戶流失分析系統(tǒng)l神經(jīng)網(wǎng)絡(luò)神

46、經(jīng)網(wǎng)絡(luò)l其他分類方法其他分類方法l預(yù)測預(yù)測(回歸)(回歸)其它分類方法其它分類方法l貝葉斯(貝葉斯(Bayesian)分類)分類lk-臨近分類臨近分類l基于案例的推理基于案例的推理l遺傳算法遺傳算法l粗糙集理論粗糙集理論l模糊集方法模糊集方法分類的準(zhǔn)確性:評估錯(cuò)誤率分類的準(zhǔn)確性:評估錯(cuò)誤率l數(shù)據(jù)分區(qū)數(shù)據(jù)分區(qū):訓(xùn)練訓(xùn)練-測試數(shù)據(jù)測試數(shù)據(jù)l將一個(gè)數(shù)據(jù)集合分成兩個(gè)獨(dú)立的數(shù)據(jù)集。例如:將一個(gè)數(shù)據(jù)集合分成兩個(gè)獨(dú)立的數(shù)據(jù)集。例如:訓(xùn)練數(shù)據(jù)訓(xùn)練數(shù)據(jù) (2/3), 測試數(shù)據(jù)測試數(shù)據(jù)(1/3)l通常應(yīng)用于大量數(shù)據(jù)樣本的數(shù)據(jù)集通常應(yīng)用于大量數(shù)據(jù)樣本的數(shù)據(jù)集l交叉驗(yàn)證交叉驗(yàn)證l將一個(gè)數(shù)據(jù)集合分成若干個(gè)子樣本集將一個(gè)

47、數(shù)據(jù)集合分成若干個(gè)子樣本集l用用k-1個(gè)子樣本作為訓(xùn)練數(shù)據(jù),個(gè)子樣本作為訓(xùn)練數(shù)據(jù),1個(gè)子樣本作為個(gè)子樣本作為測試數(shù)據(jù)測試數(shù)據(jù)l每一個(gè)數(shù)據(jù)集合具有合適的寬度每一個(gè)數(shù)據(jù)集合具有合適的寬度分類的準(zhǔn)確性:混淆矩陣分類的準(zhǔn)確性:混淆矩陣l混淆矩陣(混淆矩陣(confusion matrix )用來作為分類規(guī)則特征)用來作為分類規(guī)則特征的表示,它包括了每一類的樣本個(gè)數(shù),包括正確的和錯(cuò)誤的表示,它包括了每一類的樣本個(gè)數(shù),包括正確的和錯(cuò)誤的分類。的分類。l主對角線給出了每一類正確分類的樣本的個(gè)數(shù),非對角線主對角線給出了每一類正確分類的樣本的個(gè)數(shù),非對角線上的元素則表示未被正確分類的樣本個(gè)數(shù)上的元素則表示未被正

48、確分類的樣本個(gè)數(shù)實(shí)際的類實(shí)際的類預(yù)預(yù)測測的的類類A A類類B B類類C C類類總計(jì)總計(jì)A A類類4545235050B B類類10383825050C C類類4640405050總計(jì)總計(jì)5959464645451501503個(gè)類的混淆矩陣個(gè)類的混淆矩陣分類的準(zhǔn)確性:收益圖分類的準(zhǔn)確性:收益圖查全率分析圖:X軸:按離網(wǎng)傾向評分從大到小排序后的客戶占目標(biāo)客戶人數(shù)的百分比;Y軸:前x%的客戶中被準(zhǔn)確預(yù)測為離網(wǎng)的客戶占目標(biāo)客戶中離網(wǎng)總?cè)藬?shù)的百分比,即查全率。 Lift分析圖:X軸:按離網(wǎng)傾向評分從大到小排序后的客戶占目標(biāo)客戶人數(shù)的百分比;Y軸:命中率的提升倍數(shù)。 聚類分析聚類分析聚類分析聚類分析l什么

49、是聚類分析什么是聚類分析?l劃分方法(劃分方法(Partitioning Methods)l分層方法分層方法l基于密度的方法基于密度的方法l異常分析異常分析什么是聚類分析什么是聚類分析? ?l簇(簇(Cluster):一個(gè)數(shù)據(jù)對象的集合一個(gè)數(shù)據(jù)對象的集合l在同一個(gè)簇中,對象之間具有盡可能大的相似性;在同一個(gè)簇中,對象之間具有盡可能大的相似性;l不同簇的對象之間具有盡可能大的相異性。不同簇的對象之間具有盡可能大的相異性。l聚類分析聚類分析l把一個(gè)給定的數(shù)據(jù)對象集合分成不同的簇,即把一個(gè)給定的數(shù)據(jù)對象集合分成不同的簇,即“ 物以類聚物以類聚 ”;l聚類是一種無監(jiān)督分類法聚類是一種無監(jiān)督分類法: 沒

50、有預(yù)先指定的類別標(biāo)識;沒有預(yù)先指定的類別標(biāo)識;l典型的應(yīng)用典型的應(yīng)用l作為一個(gè)獨(dú)立的分析工具,用于了解數(shù)據(jù)的分布;作為一個(gè)獨(dú)立的分析工具,用于了解數(shù)據(jù)的分布; l作為其它算法的一個(gè)數(shù)據(jù)預(yù)處理步驟;作為其它算法的一個(gè)數(shù)據(jù)預(yù)處理步驟;應(yīng)用聚類分析的例子應(yīng)用聚類分析的例子l市場銷售市場銷售: 幫助市場人員發(fā)現(xiàn)客戶數(shù)據(jù)庫中不同群體,然后利用這些知識幫助市場人員發(fā)現(xiàn)客戶數(shù)據(jù)庫中不同群體,然后利用這些知識來開展一個(gè)目標(biāo)明確的市場計(jì)劃;來開展一個(gè)目標(biāo)明確的市場計(jì)劃;l土地使用土地使用: 在一個(gè)陸地觀察數(shù)據(jù)庫中標(biāo)識那些土地使用相似的地區(qū);在一個(gè)陸地觀察數(shù)據(jù)庫中標(biāo)識那些土地使用相似的地區(qū);l保險(xiǎn)保險(xiǎn): 對購買了

51、汽車保險(xiǎn)的客戶,標(biāo)識那些有較高平均賠償成本的客戶;對購買了汽車保險(xiǎn)的客戶,標(biāo)識那些有較高平均賠償成本的客戶;l城市規(guī)劃城市規(guī)劃: 根據(jù)類型、價(jià)格、地理位置等來劃分不同類型的住宅;根據(jù)類型、價(jià)格、地理位置等來劃分不同類型的住宅;l地震研究地震研究: 根據(jù)地質(zhì)斷層的特點(diǎn)把已觀察到的地震中心分成不同的類;根據(jù)地質(zhì)斷層的特點(diǎn)把已觀察到的地震中心分成不同的類;如何評價(jià)一個(gè)好的聚類方法如何評價(jià)一個(gè)好的聚類方法? ?l一個(gè)好的聚類方法要能產(chǎn)生高質(zhì)量的聚類結(jié)一個(gè)好的聚類方法要能產(chǎn)生高質(zhì)量的聚類結(jié)果果簇,這些簇具備以下兩個(gè)特征:簇,這些簇具備以下兩個(gè)特征:l簇內(nèi)極大相似性簇內(nèi)極大相似性l簇間極小相似性簇間極小相

52、似性 l聚類結(jié)果的好壞取決于該聚類方法采用的相似聚類結(jié)果的好壞取決于該聚類方法采用的相似性評估方法以及該方法的具體實(shí)現(xiàn);性評估方法以及該方法的具體實(shí)現(xiàn);l聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式;還是所有的隱含模式;聚類分析中的數(shù)據(jù)類型聚類分析中的數(shù)據(jù)類型l如何度量對象間的距離?如何度量對象間的距離?l歐幾里德距離 l曼哈頓距離 l明考斯基距離聚類分析聚類分析l什么是聚類分析什么是聚類分析?l劃分方法(劃分方法(Partitioning Methods)l分層方法分層方法l基于密度的方法基于密度的方法l異常分析異常分析 劃分方法劃分方法

53、: 基本概念基本概念l劃分方法劃分方法: 將一個(gè)包含將一個(gè)包含n個(gè)數(shù)據(jù)對象的數(shù)據(jù)庫組織成個(gè)數(shù)據(jù)對象的數(shù)據(jù)庫組織成k個(gè)個(gè)劃分(劃分(k=n),其中每個(gè)劃分代表一個(gè)簇(),其中每個(gè)劃分代表一個(gè)簇(Cluster)。)。l給定一個(gè)給定一個(gè)k,要構(gòu)造出,要構(gòu)造出k個(gè)簇,并滿足采用的劃分準(zhǔn)則:個(gè)簇,并滿足采用的劃分準(zhǔn)則:l全局最優(yōu)全局最優(yōu):盡可能的列舉所有的劃分;盡可能的列舉所有的劃分;l啟發(fā)式方法啟發(fā)式方法: k-均值和均值和k-中心點(diǎn)算法中心點(diǎn)算法lk-均值均值 (MacQueen67):由簇的中心來代表簇;由簇的中心來代表簇;lk-中心點(diǎn)或中心點(diǎn)或 PAM (Partition around me

54、doids) (Kaufman & Rousseeuw87): 每個(gè)簇由簇中的某個(gè)每個(gè)簇由簇中的某個(gè)數(shù)據(jù)對象來代表。數(shù)據(jù)對象來代表。 K-均值算法均值算法l給定給定k,算法的處理流程如下,算法的處理流程如下:1.隨機(jī)的把所有對象分配到隨機(jī)的把所有對象分配到k個(gè)非空的簇中;個(gè)非空的簇中;2.計(jì)算每個(gè)簇的平均值,并用該平均值代表相應(yīng)的計(jì)算每個(gè)簇的平均值,并用該平均值代表相應(yīng)的簇;簇;3.將每個(gè)對象根據(jù)其與各個(gè)簇中心的距離,重新分將每個(gè)對象根據(jù)其與各個(gè)簇中心的距離,重新分配到與它最近的簇中;配到與它最近的簇中; 4.回到第二步,直到不再有新的分配發(fā)生?;氐降诙?,直到不再有新的分配發(fā)生。K-均值算法圖示均值算法圖示0123456789100123456789100123456789100123456789100123456789100123456

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論