數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿4---決策樹學(xué)習(xí)技術(shù))

上傳人：w*** IP屬地：天津上傳時(shí)間：2021-10-12 格式：DOCX 頁數(shù)：23 大?。?26.14KB 積分：20 舉報(bào) 版權(quán)申訴

數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿4---決策樹學(xué)習(xí)技術(shù))_第2頁

數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿4---決策樹學(xué)習(xí)技術(shù))_第3頁

數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿4---決策樹學(xué)習(xí)技術(shù))_第4頁

數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿4---決策樹學(xué)習(xí)技術(shù))_第5頁

已閱讀5頁，還剩18頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1 /221 / 22第四章決策樹（decision tree）決策樹也是歸納學(xué)習(xí)中常用的一種知識(shí)表示形式，常用于分類。同時(shí)，也是發(fā) 現(xiàn)概念描述空間的一種有效方法。決策樹的主要優(yōu)點(diǎn)是描述簡(jiǎn)單，分類速度快，特別適合大規(guī)模的數(shù)據(jù)處理。教學(xué)目的：掌握決策樹學(xué)習(xí)的概念重點(diǎn)掌握ID3ID3學(xué)習(xí)算法以及決策樹的構(gòu)造了解目前常用的決策樹改進(jìn)方法4.14.1概念描述空間的歸納學(xué)習(xí)歸納學(xué)習(xí)旨在從大量的經(jīng)驗(yàn)數(shù)據(jù)中歸納抽取出一般的規(guī)則和模式，因而成為知識(shí)獲取的主要手段，在專家系統(tǒng)、模式識(shí)別、圖像處理、語音識(shí)別等領(lǐng)域都有重要應(yīng)用。歸納學(xué)習(xí)是機(jī)器學(xué)習(xí)最核心、最成熟的分支。示例數(shù)字識(shí)別應(yīng)用：假設(shè)有三類數(shù)字，即0，

2、1, 2。每類有兩個(gè)例子，每個(gè)例子有四個(gè)屬性描述，即孔數(shù)（#hole）、端點(diǎn)數(shù)（#end）、交叉點(diǎn)數(shù)（#crosS）、右上弧數(shù)（#right-arc）。如表所示。例子國(guó)CIDSIS廉1答肚ate類1O10012C120031020041033015202215212412可歸納產(chǎn)生三類數(shù)字的如下規(guī)則：0 類：#hole=1#cross=01類：#hole=0#right-arc=02類：#end=2#right-arc=1歸納學(xué)習(xí)是符號(hào)學(xué)習(xí)中研究得最為廣泛的一種方法。思想是：給定關(guān)于某個(gè)概念的一系列已知的正例和反例，從中歸納出一個(gè)通用的概念描述。歸納學(xué)習(xí)能夠獲得新的概念，創(chuàng)立新的規(guī)則，發(fā)現(xiàn)新

3、的理論。它的一般操作是2/222 / 22泛化和特化。泛化用來擴(kuò)展某一假設(shè)的語義信息，使其能包含更多的正例，應(yīng)用于更多的情況；特化是泛化的相反操作，用于限制概念描述的應(yīng)用范圍。示例假設(shè)我們被要求從一副撲克牌中選擇一張牌，如果選到好牌就可以獲獎(jiǎng)。已知前面被抽出的牌有：梅花4、梅花7、黑桃2、紅桃5和黑桃J,其中前三張都獲獎(jiǎng)，后兩張沒有獲獎(jiǎng)。試用歸納學(xué)習(xí)幫助選擇能獲獎(jiǎng)的好牌。解：取紙牌的一組屬性：y-花色（Suit）和階V2-（ Rank）,女口：梅花4顯然，紙牌的示例空間V V就是所有牌的集合。它是由屬性 Suit和Rank所定義的，其中，屬性Vi,V2的可觀察值集合為：Vcl u b

4、s,s p a d,edsi a m o nhdesa rt-s-梅花、黑桃、方塊、紅桃V =1,2,3,4,5,6,7,8,9,10, J,Q,K每個(gè)示例就是單張牌。設(shè)X X是一組確定屬性決定的示例空間（如，V1 V2）; H是定義在X上的假設(shè)空間（如, H=梅花4、梅花7、黑桃2、紅桃5和黑桃J ），也就是用X的屬性按一定的邏輯形式定義的一組概念。Q是定義在X上的目標(biāo)概念c的示例有限集，我們定義Q的描述空間是由H中適合Q的全部示例的假設(shè)構(gòu)成的集合。如果示例空間是有限的，且目標(biāo)概念c是H的成員。當(dāng)新的示例添加到Q中時(shí), Q描述空間將收縮，最終直到僅包含目標(biāo)概念 c,這時(shí)稱描述空間被窮

5、盡。對(duì)描述空間可以用描述圖來表示，它是一個(gè)無回路的有向圖，其中各節(jié)點(diǎn)是描述空間的元素。如果從節(jié)點(diǎn)p到q有一條弧，當(dāng)且僅當(dāng)下面兩條性質(zhì)成立：p比q特殊；不存在節(jié)點(diǎn)r，它比p普遍，比q特殊。取PE=梅花4、梅花7、黑桃2為正例；NE=紅桃5和黑桃J 為反例。這樣對(duì)，梅化4是冃疋示例，其描述圖為ba*ba*bnbnbjTbjT黒桃2怒加反例黑桃J於后的矗述國(guó)加石的搐述國(guó)這里，c clubs; b-black; n-num; a-any-suit 或 any-rank。圖中從左至U右表示 suit從特殊到普遍，垂直方向從下到上表示Rank從特殊到普遍；ba表示的概念為梅花4鞫腹的椅述國(guó)C3 -*

6、baf .aa 43/222 / 22（suitblaOk （Ra nkan y r a n）k,即所有黑色的牌。這時(shí)增加新的示例，如梅花7,能修剪描述空間。刪除三個(gè)涉及階是 4的概念，因?yàn)?它們不能覆蓋該肯定示例，得到新的描述圖。同理，由否定示例紅桃5可修剪掉aa和an,因?yàn)檫@兩個(gè)概念覆蓋該否定示例；肯定示例黑桃 2剪掉梅花，最后由否定示例黑桃J將描述空間縮小到單個(gè)概念bn,即黑色數(shù)字牌。4.24.2決策樹學(xué)習(xí)決策樹是用樣本的屬性作為結(jié)點(diǎn)，用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對(duì)大量樣本的屬性進(jìn)行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點(diǎn)是所有樣本信息中信息量最大的屬性。中間結(jié)點(diǎn)是以

7、該結(jié)點(diǎn)為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結(jié)點(diǎn)是樣本的類別值。決策樹學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法。它著眼于從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則。它采用自頂向下的遞推方式，在決策樹的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點(diǎn)向下的分枝，在決策樹的葉結(jié)點(diǎn)得到結(jié)論。所以，從根結(jié)點(diǎn)到葉結(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條合取規(guī)則，整棵決策樹就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則。決策樹的內(nèi)部結(jié)點(diǎn)是屬性或?qū)傩约?，稱為測(cè)試屬性；葉結(jié)點(diǎn)是所要學(xué)習(xí)劃分的類。先用訓(xùn)練實(shí)例集產(chǎn)生決策樹，然后用其對(duì)未知實(shí)例集進(jìn)行分類。對(duì)實(shí)例進(jìn)行分類時(shí)，由樹根開始對(duì)該對(duì)象的屬性逐漸測(cè)試

8、其值，并且順著分支向下走，直至到達(dá)某個(gè)葉結(jié)點(diǎn)，此葉結(jié)點(diǎn)代表的類即為該對(duì)象所處的類。例如一棵基于表1中數(shù)據(jù)的用于檢測(cè)網(wǎng)絡(luò)入侵行為的決策樹。這個(gè)決策樹，用IP端口和系統(tǒng)名稱標(biāo)示內(nèi)部結(jié)點(diǎn)，用入侵和正常表示葉結(jié)點(diǎn)，如下圖描述。表1入侵?jǐn)?shù)據(jù)例子System nameIP PoriSystem nameCategoiyApollo yf Arte inis004020ArtemisHoimal0D4020ApolloIntrusiohIF PortNormal002210ArtemisHortnal/002210ApolloIntrusiDii000010 004020000010ArtemisNomi

9、al/(J02000010ApolloNormalWoermal決策樹可轉(zhuǎn)換成如下的規(guī)則：(C+C+表示)If (System n ame=Artemis)4/222 / 22In trusi on=false;ElseIf (IP port=002210) In trusi on=true; else if (IP port=004020)In trusi on=true;Else if (IP port=000010) In trusio n=false;根據(jù)決策樹的各種不同屬性，有以下幾種不同的決策樹：決策樹的內(nèi)結(jié)點(diǎn)的測(cè)試屬性可能是單變量的，即每個(gè)內(nèi)結(jié)點(diǎn)只包含一個(gè)屬性，也可能是多變量的，

10、即存在包含多個(gè)屬性的內(nèi)結(jié)點(diǎn)；根據(jù)測(cè)試屬性的不同屬性值的個(gè)數(shù)，可能使每個(gè)內(nèi)結(jié)點(diǎn)有兩個(gè)或多個(gè)分支。如果每個(gè)內(nèi)結(jié)點(diǎn)只有兩個(gè)分支，則稱之為二叉樹決策樹；每個(gè)屬性可能是值類型，也可能是枚舉類型；分類結(jié)果既可能是兩類，也可能是多類。如果二叉決策樹的結(jié)果只能有兩類，則稱之為布爾決策樹。對(duì)布爾決策樹可很容易以析取范式的方式表示。如下圖為（X3 X2）（X3 X4 一xj的析取范式另外，所有的決策樹學(xué)習(xí)都有一些等價(jià)的網(wǎng)絡(luò)表示形式。如上圖的人工神經(jīng)網(wǎng) 絡(luò)與決策樹表達(dá)了同一個(gè)析取概念（3 X2）（X3 X4 XJ，所執(zhí)行的功能相同。4.34.3 CLSCLS學(xué)習(xí)算法概念學(xué)習(xí)系統(tǒng)（CLS: Concept Le

11、arning System 是1966年由Hunt等人提出的, 是早期決策樹學(xué)習(xí)算法，后來的決策樹學(xué)習(xí)算法均可視為CLS算法的改進(jìn)和更新。CLSCLS算法的主要思想是：從一個(gè)空的決策樹出發(fā)，選擇某一屬性（分類屬性）作為測(cè)試屬性，該測(cè)試屬性對(duì)應(yīng)決策樹中的決策結(jié)點(diǎn)，根據(jù)該屬性值的不同，可將訓(xùn)練樣本分成相應(yīng)的子集。如果該子集為空，或該子集中的樣本屬于同一類，則該 Jt示AJC A-5/222 / 22子集為葉結(jié)點(diǎn)，否則該子集對(duì)應(yīng)于決策樹的內(nèi)部結(jié)點(diǎn)，即測(cè)試結(jié)點(diǎn)。需再選擇一個(gè) 新的分類屬性對(duì)該子集進(jìn)行劃分，直至所有的子集者為空或?qū)儆谕活悶橹?。例如，假設(shè)有一組人，眼睛和頭發(fā)的顏色及所屬的人種情況如下

12、表：人員服睛碩色頭垸靈色所屬人種1黑色黒色董種人2金色白種人3灰色金色白種人4藍(lán)色紅色白種人5灰色紅色白種人6黑色全芭混血兒7灰色黑色溫血兒8藍(lán)色黒色混血兒假設(shè)首先選擇眼睛顏色作為測(cè)試屬性，貝以該結(jié)點(diǎn)引出三個(gè)分支圖：選擇眼睛顏色作為決策屬性這三個(gè)分支將樣本集分成三個(gè)子集1，6、2，4，8和3，5, 7。但這三個(gè)子集中的元素都不屬于同一結(jié)果類，因此它們都不是葉結(jié)點(diǎn)，需要繼續(xù)劃分，即需要添加新的測(cè)試結(jié)點(diǎn)。女口頭發(fā)顏色，由于頭發(fā)顏色=黑色，金色，紅色，所以從子集中可引出三個(gè)新的分支：通過增加結(jié)點(diǎn)逐步求精，直到生成一棵能正確分類訓(xùn)練樣本的決策樹。學(xué)習(xí)算法CLS算法的步驟可描述為：令決策樹T的初

13、始狀態(tài)只含有一個(gè)樹根（X，Q），其中X是全體訓(xùn)練實(shí)例的集合，Q是全體測(cè)試屬性的集合；若T的所有葉結(jié)點(diǎn)（X,Q）都有如下狀態(tài)：或者第一個(gè)分量 X中的訓(xùn)練6/222 / 22信源 P(Y | X) X信宿Y其中,實(shí)例都屬于同一個(gè)類，或者第二個(gè)分量Q為空，則停止執(zhí)行學(xué)習(xí)算法，學(xué) 習(xí)的結(jié)果為T ；否則，選取一個(gè)不具有步驟所述狀態(tài)的葉結(jié)點(diǎn)（X,Q）；對(duì)于Q，按照一定規(guī)則選取測(cè)試屬性b,設(shè)X被b的不同取值分為m個(gè) 不相交的子集X；仁im，從（X,Q）伸出m個(gè)分叉，每個(gè)分叉代表b的一個(gè)不同取值，從而形成 m個(gè)新的葉結(jié)點(diǎn)（X,Q-b） , H豈m ；轉(zhuǎn)步驟。從CLS的算法描述可以看出，決策樹的構(gòu)造過程也就

14、是假設(shè)特化的過程。但CLS 算法并沒有規(guī)定采用何種測(cè)試屬性。然而，測(cè)試屬性集的組成以及測(cè)試屬性的先后都對(duì)決策樹的學(xué)習(xí)有著舉足輕重的影響。此外，CLS算法所能處理的學(xué)習(xí)問題不能太大。4.44.4 ID3ID3 （IterativeIterative DichotomizerDichotomizer3 3）學(xué)習(xí)算法CLSCLS算法的思路是找出最有分辨能力的屬性，把數(shù)據(jù)庫(kù)劃分為許多子集（對(duì)應(yīng) 樹的一個(gè)分枝），構(gòu)成一個(gè)分枝過程，然后對(duì)每個(gè)子集遞歸調(diào)用分枝過程，直到所有子集包含同一類型數(shù)據(jù)。最后得到的決策樹能對(duì)新的例子進(jìn)行分類，但CLS的不足是（1）沒給出如何選取測(cè)試屬性b；（2）它處理的學(xué)習(xí)

15、問題不能太大。為此，Quinlan提出了著名的以屬性為分類節(jié)點(diǎn) 的ID3學(xué)習(xí)算法，他是以信息熵的下降速度作為選取測(cè)試屬性的標(biāo)準(zhǔn)，通過窗口來形成決策樹。信息熵的下降也就是信息不確定性的下降。1 1）信息論簡(jiǎn)介信息論是由C.E.Shannon （信息論的創(chuàng)始人）1948年為解決信息傳遞（通信）過程問題而提出的以數(shù)學(xué)的方法來度量并研究信息的理論，也稱為統(tǒng)計(jì)通信理論。他把一個(gè)傳遞信息的系統(tǒng) 視為，由發(fā)送端（信源）、接收端（信宿）和連接兩者的通道（信道）三者組成。P（Y |X）稱為信道的傳輸概率或轉(zhuǎn)移概率，它反映信道的輸入與輸出關(guān)系7/222 / 22用矩陣來表示，稱為轉(zhuǎn)移概率矩陣。P(Vi|Ui

17、影響，信源發(fā)出的信息能夠被信宿全部收到，在這種情況下，信宿的先驗(yàn)不確定性就會(huì)被完全消除。但是，在一般情況下，干擾總會(huì)對(duì)信源發(fā)出的信息造成某種破壞，使信宿收到的信息不完全。因此，先驗(yàn)不確定性不能全部被消除，只能部分地消除。換句話說，通信結(jié)束之后，信宿仍然具有一定程度的不確定性。這就是后驗(yàn)不確定性。顯然，后驗(yàn)不確定性總要小于先驗(yàn)不確定性，不可能大于先驗(yàn)不確定性。(1)如果后驗(yàn)不確定性的大小正好等于先驗(yàn)不確定性的大小，這就表示信宿根本沒有收到信息。(2)如果后驗(yàn)不確定性的大小等于零，這就表示作宿收到了全部信息。可見，信息是用來消除(隨機(jī))不確定性的度量。信息量的大小，由所消除的不確定性的大

18、小來計(jì)量。下面介紹幾個(gè)概念：信息(符號(hào))Ui ( i =1,2,，r )的發(fā)生概率p(Ui)組成信源數(shù)學(xué)模型(樣本空間或概率空間)：5u2 urX,P=12rILP(Ul) P(U2)P(Ur)自信息量：消息Ui發(fā)生后所含有的信息量。即在收到Ui事件之前，收信者對(duì) 8/222 / 22信源發(fā)出Ui的不確定性，定義為信號(hào)符號(hào)Ui的自信息量l(Ui)。即l(Ui) =log2log2 P(Ui)P(u其中，P(Ui)為信源發(fā)出Ui事件的概率；信息熵：自信息的數(shù)學(xué)期望。因?yàn)樽孕畔⒘恐荒芊从撤?hào)收到前的不確定性，而信息熵可以用來度量整個(gè)信源 X整體的不確定性，即信源發(fā)出信息前的平均不確定性。定

19、義如下：rE(X)二 P(Ui)l(Ui) P(U2)l(U2)P(Ur)l(Ur)=7. P (Ui ) l 0 g P(U i )i 4其中，r為信源X所有可能的符號(hào)數(shù)Ui,U2/ ,Ur，即用信源每發(fā)一個(gè)符號(hào)所提供的平均自信息量來定義信息熵。上式中，對(duì)數(shù)底數(shù)b可為任何正數(shù)，不同的取值對(duì)應(yīng)熵的不同單位，但通常取b=2 ;并規(guī)定：當(dāng)p(uj=o時(shí),P(Ui)log b P(uJ =0。當(dāng)對(duì)數(shù)的底為2時(shí)，l(u的單位為比特(bit)；當(dāng)對(duì)數(shù)的底為e時(shí)，l(uj的單位為奈特(nat);當(dāng)對(duì)數(shù)的底為10時(shí)，l(u)的單位為哈特(hart)；1奈特=1.44比特；1哈特=3.32比特。E(X

20、)的性質(zhì)如下：E(X) =0時(shí)，說明只存在著唯一的可能性，不存在不確定性；如果n種可能的發(fā)生都具有相同的概率，即對(duì)所有的ui，有P(Ui) =1/n，則E(X)達(dá)到最大值log2n，說明系統(tǒng)的不確定性最大；P(ui)互相越接近，E(X)就越大；P(Ui)相差大，則E(X)就小。如果信道中無干擾(噪聲)，信道輸出符號(hào)與輸入符號(hào)一一對(duì)應(yīng)，那么接收到傳送過來的符號(hào)后，就消除了對(duì)發(fā)送符號(hào)的先驗(yàn)不確定性。后驗(yàn)熵一般信道中有干擾存在，信宿接收到符號(hào) V后，對(duì)信源發(fā)出的是什么符號(hào)仍有不確定性。對(duì)此如何度量？當(dāng)沒有接收到輸出符號(hào)V時(shí)，已知發(fā)出符號(hào)U的概率分布P(U)，而接收到輸出 9/222 / 22符號(hào)

21、V二Vj后，輸入符號(hào)的概率分布發(fā)生了變化，變成了后驗(yàn)概率分布P(U |Vj)。10/222 / 22n=hil| lLCJX)如果a為X中取有限個(gè)不同值$42,，am的屬性，樣本集X劃分為m個(gè)不同的子E(X |C- C2IH C,n那么，接收到輸出符號(hào)V = Vj后，關(guān)于U的平均不確定性為:E(U |Vj)八 P(Ui |Vj)log-iP(Ui |Vj)這就是接收到輸出符號(hào)Vj后關(guān)于U的后驗(yàn)熵。即后驗(yàn)熵是當(dāng)信道接收到輸出符號(hào)Vj 后，關(guān)于輸入符號(hào)U的信息度量。條件熵后驗(yàn)熵在輸出符號(hào)集V的范圍內(nèi)是個(gè)隨機(jī)量，所以對(duì)于后驗(yàn)熵在輸出符號(hào)集V中求期望，得到條件熵：E(U |V)八 P(Vj)E(U |

22、Vj)j1八 P(Vj) P(Ui |Vj)log2-(*)j iP(Ui |Vj)這個(gè)條件熵稱為稱為信道疑義度。它表示在輸出端收到全部輸出符號(hào) V后，對(duì)于輸入端的符號(hào)集U尚存在的不確定性(存在疑義)。對(duì)U集尚存在的不確定性是由于干擾(噪聲)引起的，如果是一一對(duì)應(yīng)，那么接收到符號(hào)集 V后，對(duì)U集的不確定性完全消除，則信道疑義度E(U |V) =0。在決策分類中，假設(shè)X是訓(xùn)練樣本集，|X|是訓(xùn)練樣本數(shù)；樣本劃分為n個(gè)不同的類C-,C2,Cn，則任意樣本X屬于類Ci的概率為所以，樣本X的平均信息熵為集X-,X2，Xm，則由式(* )知，由屬性a劃分的決策樹分類的平均條件熵為mE(X |a

24、為測(cè)試屬性，即選擇使 E(X|a)最小的屬性a a作為測(cè)試屬性。此外，ID3ID3中還引入了窗口方法進(jìn)行增量學(xué)習(xí) 來解決實(shí)例過大問題。具體算法為：選出整個(gè)訓(xùn)練實(shí)例集X的規(guī)模為W的隨機(jī)子集Xi ；( W稱為窗口規(guī)模，子集稱為窗口) 以使得式(* )的值最小為標(biāo)準(zhǔn)，選取每次的測(cè)試屬性，形成當(dāng)前窗口的決策樹；順序掃描所有訓(xùn)練實(shí)例，找出當(dāng)前的決策樹的例外，如果沒有例外，則訓(xùn)練結(jié)束；組合當(dāng)前窗口的一些訓(xùn)練實(shí)例與某些在中找到的例外，形成新的窗口，轉(zhuǎn)。示例表4.1給出了一個(gè)可能帶有噪聲的數(shù)據(jù)集合。它有4個(gè)屬性：Outlook,Temperature Humidity和windy。它被分為兩類：P

25、和N分別表示正例和反例。試構(gòu)造決策樹將數(shù)據(jù)進(jìn)行分類。解：因?yàn)槌跏紩r(shí)刻屬于P類和N類的實(shí)例個(gè)數(shù)均為12個(gè)，所以初始時(shí)刻的熵值為：H(X)12log12-12log12=124242424如果選取Outlook屬性作為測(cè)試屬性，則由式(* )有H (X | Outlook ) ( log _ _ log)_( log _ _ log )24999924_Z(_| o g_)= 0.5 5 2 82477H (X84444114477| Temp )(loglog )(loglog)248888241111111154411(l o gIo 曠)-0.673924555512 / 2211 /

26、22可以看出，H(XOutlook)最小，即有關(guān)Outlook的信息對(duì)于分類有最大的幫助，提供最大的信息量，即I(X;Outlook)最大。所以選擇Outlook屬性作為測(cè)試屬性，就可將訓(xùn)練實(shí)例集分為三個(gè)子集，生成三個(gè)葉結(jié)點(diǎn)，對(duì)每個(gè)葉點(diǎn)依次利用上面的過程, 則最終生成如下的決策樹:3 3)基于ID3ID3的信息增益的決策樹構(gòu)造算法ID3算法有著廣泛的應(yīng)用，其中較為著名的有C4.5、C5.0系統(tǒng)。C4.5的新功能是它能將決策樹轉(zhuǎn)換為等價(jià)的規(guī)則表示，并且解決了連續(xù)取值的學(xué)習(xí)問題。12 (-4log 48812 -)+(448 8 log)=0.H (X | Humi )=24121212lo

27、g122412log1212 1284 ,455、 6 ,3333、-log)+ =( -lo-)H (X|Windy )24(-888log8246log66 6/ 5,5、+10( -55-log )=12410log101010表4.1樣本數(shù)據(jù)集屬性O(shè)utbokTemperatuieHumidityVftndy類1OicasiHotHighNotN2gicsstHotHighVeryN3mastHotHighMediumN4SunnyHotMghNatF5SunnyHotHighMediumP15RainMildH妙NotN1RjainMildHighNtdiumH8RainHotNbn

28、mlNotP9RixiCoolNoanalMediumN10RainHotNormalVeryN11SurmyCoolMorml.VeryP12SurmyGoodNomual.MediumF13Ove nc fistWdHighNotN14OwitastMildHighMediumN15ucastCoolNormalNotF16OitastCoolMcmnalMediumF17RainMildNomialNoti-I1SWdNormalMediumN19OVE ivastMildWomiAlMediumF206 icestMildNormlUetyP21SurmyMildHighVeiyP22

29、SunnyMildHighMediumP23SunnyHotNoiimalNotP24RainMildHighVeiyN918313 / 2212 / 22如果屬性A作為決策樹的根且A具有v個(gè)值，則A可將E分成v個(gè)子集ni個(gè)反例，那么Ei所需的期望信息是設(shè)樣本集E共有C類樣本，每類樣本數(shù)為以屬性A作為決策樹的根,A具有v個(gè)值可將E分成v個(gè)子集E-E2,Ev。假設(shè)Ei中含有j類樣本的個(gè)數(shù)為Pij ， j - 1,2, c 0則子集Ei的信息量為Ell簡(jiǎn)log 2 Pij(* )(1)(1) ID3ID3算法的基本原理設(shè)E=Fi F2Fn是n維有限向量空間，F(xiàn)j是有限離散符號(hào)集，E中的每一元素e

30、 =(vV2,，vj稱為例子，Vj Fj, j =1,2，n。設(shè)PE和NE是E的兩個(gè)例子集，分別稱為正例集和反例集。| PE |= p,| NE |二n，則ID3基于如下兩種假設(shè)：在向量空間E上的一棵正確決策樹，對(duì)任意例子的分類概率同E中正例、反例的概率一致；一棵決策樹對(duì)一例子做出正確分類判別所需的信息為i(p,n) p log2 p n p + n p + nEI,E2, ,Ev。假設(shè)Ei中含有Pi個(gè)正例和 1( Pi, nJ，以屬性A為根分類所需的期望熵為v p nE(A)日 I ( Pi, nJ y p + n則A根的信息增益為gai(A) =l(p,n) -E(A)ID3ID3的

31、思想是選擇gain(A)最大(即E(A)最小)的屬性A作為根結(jié)點(diǎn)。其方法可推廣到多類情況。(上面只研究正、反兩類)cPi，i h,2, ,c，即 | E |八 pi。若i 二以A為根分類的信息熵為v | Ei |E(A): I(Ei)i | E |所以，選擇屬性A*使E(A)最小。(2)(2) 建樹的算法步驟對(duì)于任意的選擇屬性A,假設(shè)A有v個(gè)屬性值，對(duì)應(yīng)的概率分別為p, p2,pv14 / 2213 / 22I（A10）151533log 2log 22020 2020202220-0.792815151515115log 2丄=3.11552 1l （中）-bog 21 - ？ log

32、2333送噸心681（優(yōu)）=0所以,153E（A320 丨（良）20 1 仲）1（優(yōu)）=2.5016220以屬性A擴(kuò)展，生成v個(gè)子結(jié)點(diǎn)EI，E2,，Ev , Ei是屬性A取i個(gè)值時(shí)，按照最小的信息熵原理選擇的A的后繼屬性，分別對(duì)應(yīng)的信息熵為I（EI）,I（E2）, ,l（Ev）；根據(jù)公式（* ）計(jì)算E（A）；選擇A*使E（A*）最小，將A*作為根屬性；利用步驟的計(jì)算結(jié)果，建立結(jié)點(diǎn) A*的后繼結(jié)點(diǎn)EE2,EV; 對(duì)所有的Ei，若為葉結(jié)點(diǎn)，則停止擴(kuò)展此結(jié)點(diǎn)。否則遞歸執(zhí)行的過程。（3 3）應(yīng)用實(shí)例決策樹的構(gòu)造主要分為兩個(gè)階段：建樹階段和調(diào)整階段。例如下面以某課堂教學(xué)評(píng)估數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘和知識(shí)

33、發(fā)現(xiàn)為例。該課堂教學(xué)評(píng)估指標(biāo)體系表共分為若干項(xiàng)，經(jīng)研究可歸納為：教學(xué)態(tài)度（A6 ）、教學(xué)內(nèi)容（A7 ）、教學(xué)方法（A8 ）、教學(xué)效果（A9 ）、評(píng)價(jià)（A.0）共五項(xiàng)，實(shí)際數(shù)據(jù) 見表1所示由于屬性初值為連續(xù)值，需進(jìn)行離散化處理。將屬性劃分為若干個(gè)區(qū)段，C1:95100 分、C2: 8094 分、C3: 7079 分、C4: 6069 分、C5: 60 分。見表 2 所示。解：去掉屬性A1。因?yàn)锳1對(duì)于結(jié)論屬性而言，無互信息，亦稱無信息增益，即gain （AJ = 0。計(jì)算測(cè)試集的全部信息量:然后計(jì)算各結(jié)點(diǎn)的信息量I （Ei），如A6gain（A6）=1（幾0）-E（A6）二1.7053415 /

34、 2214 / 22AAAAA血192.692 6913392 5592.6287.0586.27SOP85 0587.05390.4592.77S6.2E9 9SO 45438.396.9397.0397.1593.3591491 S384,9788 8591.1695.6556 13S5 3395 9595.65pF59.337.23342S3 1S9 3TS3.2580.67763SO392.S591.4EE 28992 851084.55S4-4779 3EQ 554 65u93393.3791.0790.393.312Pl 0591.7785.686.1591.051387 .S58

35、889.17 87 287 6 5149019590.9386.27 88 9590.951595.296.0739(5392 695 21691.38S.63S3 9E7S591317S7.15S7 534.17873587 151893.0590 486.63E7 1593 05197E.567.377.7573.52087.4P2.4779 132.7即4AAAAAAr1C2C2C2C22C2C2C2C2良C2C2C2C2良4ClClClCl憂5C2C2C2C2罠6ClClClCl憂702C2C3C3良s02C3C3C3中9C2C2C2C2良10C3C3C3C3中11C2C2C20212

36、C2C2C2C2良13C2C2C2C2艮.14C2C2C2C2良15ClClC2C2罠C2C2C2C217C2C2C2C2良12C2C2C2C2良19C3C3C3C3中20C2C2C3C3同理，可計(jì)算出ASA8,A信息熵:gai n( A7) =0.65876, gain( As)= 0.411, gain( A9) = 0.5 50 1故取A7為根屬性。同樣對(duì)Ci這一分支繼續(xù)使用ID3 方法進(jìn)一步劃分，可得到如圖所示的決策樹。該決策樹完全概括了教師教學(xué)評(píng)估的三個(gè)等級(jí)的 20個(gè)記錄。從圖中可以看出：教學(xué)A7是一重要指標(biāo)。表1或表2中隱藏的知識(shí)有如下幾種情況:規(guī)則1：IF(A7=C2) THEN

37、(良)規(guī)則2：IF(A7 =C3) THEN仲）規(guī)則3：IF(A7 = GA9 = C1)THEN(優(yōu))規(guī)則4：IF(A7 = G a A9 = C 2)THEN(良)即，如果教學(xué)內(nèi)容為良，則課堂教學(xué)質(zhì)量評(píng)價(jià)等級(jí)一定為良；如果教學(xué)內(nèi)容為中, 則課堂教學(xué)質(zhì)量評(píng)價(jià)等級(jí)一定為中；如果教學(xué)內(nèi)容和教學(xué)效果均為優(yōu)，則課堂教學(xué) 質(zhì)量評(píng)價(jià)等級(jí)一定為優(yōu)；如果教學(xué)內(nèi)容為優(yōu)而教學(xué)效果為良，則課堂教學(xué)質(zhì)量評(píng)價(jià) 等級(jí)為良。因此，從這些規(guī)則中，可以歸納出一條重要的知識(shí)，就是：教學(xué)內(nèi)容組織好的老師，其課堂教學(xué)質(zhì)量的綜合評(píng)價(jià)成績(jī)較好。4.54.5 C4.5C4.5 方法表仝16 / 2215 / 22（1）類別Cj的發(fā)生概

38、率:心)旦j |T|freq(Cj,T)|T|（2）屬性V =Vj的發(fā)生概率:/、|T | P（Vi八帀P(5 |Vi|j，I Ti Ik=-j Wfreq(Cj ,T)log 2(freq(C,T)=inf o(T)ID3算法在數(shù)據(jù)挖掘中占有非常重要的地位。但是在應(yīng)用中，ID3ID3算法存在不能夠處理連續(xù)屬性、計(jì)算信息增益時(shí)偏向于選擇取值較多的屬性等不足。C4.5是在ID3 基礎(chǔ)上發(fā)展起來的決策樹生成算法，由J.R.Quinlan在1993年提出。C4.5克服了 ID3 在應(yīng)用中存在的不足，主要體現(xiàn)在以下幾個(gè)方面：（1）用信息增益率來選擇屬性，它克服了信息增益選擇屬性時(shí)偏向于選擇取值較

39、多的屬性的不足；（2）在樹構(gòu)造過程中或者構(gòu)造完成之后，進(jìn)行剪枝；（3）能夠完成對(duì)連續(xù)屬性的離散化處理；（4）能夠?qū)τ诓煌暾麛?shù)據(jù)進(jìn)行處理；（5）C4.5采用的知識(shí)表示形式為決策樹，并最終可以形成產(chǎn)生式規(guī)則。4.5.14.5.1構(gòu)造決策樹設(shè)T為數(shù)據(jù)集，類別集合為G,C2,，Cd，選擇一個(gè)屬性V把T分為多個(gè)子集。設(shè)V有互不重合的n個(gè)值VV2，,vj，則T被分為n個(gè)子集衛(wèi),，Tn，這里中的所有實(shí)例的取值均為Vi。令|T|為數(shù)據(jù)集T的例子數(shù)，|T |為V的例子數(shù)，|Cj卜freq（Cj,T）為Cj類的例子數(shù)，|CjV|為V =Vi例子中，具有Cj類別的例子數(shù)。則有：（3）屬性V二w的例子中，具有類別C

40、j的條件概率:Quinlan在ID3中使用信息論中的信息增益（Gain）來選擇屬性，而C4.5C4.5采用屬性的信息增益率（GainGain RatioRatio）來選擇屬性。1 1、類別的信息熵H(C) p(Cj)log2(p(Cj) logC)jj |T |T |2 2、類別條件熵17 / 2216 / 22j |T|Ti|92|CjV|H(V)=二iP(vi)log2(p(vj)送號(hào)i二 |T |og(#)=spl _t nO(V)按照屬性V把集合T分割，分割后的類別條件熵為:H(C|V)p(Vj) p(Cj |vJlogp(Cj |vjjio(TJ = inf Ov(T)3 3、信息

41、增益，即互信息I (C,V)二H(C)-H(C|V )=in 0(T) - in 0V(T) = g a i(V)4 4、屬性V V的信息熵5 5、信息增益率gain _ratio = I (C,V) / H (V) = gain(V)/ split _inf o(V)C4.5對(duì)ID3改進(jìn)是用信息增益率來選擇屬性。理論和實(shí)驗(yàn)表明，采用“信息增益率” （C4.5）比采用“信息增益” （ID3）更好, 主要是克服了 ID3方法選擇偏向于取值多的屬性的不足。4.5.24.5.2連續(xù)屬性的處理在ID3中沒有處理連續(xù)屬性的功能。在 C4.5中，設(shè)在集合T中，連續(xù)屬性A的取值為w,v2,，vm，則任何在v

42、i和vi 1之間的任意取值都可以把實(shí)例集合分為兩部分T1 =t| A Zi和Tt | A vi可以看到，一共有m-1種分割情況。對(duì)屬性A的m-1種分割的任意一種情況，作為該屬性的兩個(gè)離散取值，重新構(gòu) 造該屬性的離散值，再按照上述公式計(jì)算每種分割所對(duì)應(yīng)的信息增益率 gai _ rati（vi），在m-1種分割中，選擇最大增益率的分割作為屬性A的分枝：T h r e s h W)d= vk其中，ga in _ ratio (vQ二max gai n_ ratio (vj，則連續(xù)屬性A可以分割為:18 / 2217 / 224.5.34.5.3決策樹剪枝由于噪聲和隨機(jī)因素的影響，決策樹一般會(huì)很復(fù)雜。

43、因此，需要進(jìn)行剪枝操作。1 1什么時(shí)候剪枝？剪枝操作有兩種策略：（1）在樹生成過程中判斷是否繼續(xù)擴(kuò)展決策樹。若停止擴(kuò)展，則相當(dāng)于剪去該結(jié)點(diǎn)以下的分枝；（2）對(duì)于生成好的樹剪去某些結(jié)點(diǎn)和分枝。C 4 .5采用的是第二種方法。剪枝之后的決策樹的葉結(jié)點(diǎn)不再只包含一類實(shí)例。結(jié)點(diǎn)有一個(gè)分布描述，即該葉結(jié)點(diǎn)屬于某類的概率。2 2、基于誤差的剪枝決策樹的剪枝通常是用葉結(jié)點(diǎn)替代一個(gè)或者多個(gè)子樹，然后選擇出現(xiàn)概率最高的類作為該結(jié)點(diǎn)的類別。在 C4.5中，還允許用其中的樹枝來替代子樹。如果使用葉結(jié)點(diǎn)或者樹枝代替原來的子樹之后，誤差率若能夠下降，則就使用此葉結(jié)點(diǎn)或者樹枝代替原來的子樹。3 3、誤差率的判斷

44、設(shè)一個(gè)葉結(jié)點(diǎn)覆蓋N個(gè)實(shí)例，其中E個(gè)為錯(cuò)誤的。對(duì)于具有信任度 CF的實(shí)例, 計(jì)算一個(gè)2項(xiàng)分布，UCF（E,N），該2項(xiàng)分布，即實(shí)例的誤判概率，那么N個(gè)實(shí)例判斷錯(cuò)誤的數(shù)目為N UCF（E,N）。子樹的錯(cuò)誤數(shù)目為所有葉結(jié)點(diǎn)的總和。如：注：（）中為覆蓋的實(shí)例數(shù)目設(shè)CF=0.25,貝U U該子數(shù)的實(shí)例判斷錯(cuò)誤數(shù)目為:19 / 2218 / 226 U 0.25 (0,6)9 U 0.25 (0,9)1 U 0.25 (0,1)=6 0.2069 0.143 1 0.750 二 3.273若以一個(gè)結(jié)點(diǎn)C1代替該子樹，則16個(gè)實(shí)例中有一個(gè)錯(cuò)誤（C3）,誤判實(shí)例數(shù)目為16xU0.25（1,16） =16 x

45、0.157=2.51 2由于判斷錯(cuò)誤數(shù)目小于上述子樹，則以該葉結(jié)點(diǎn)代替子樹。4.5.44.5.4從決策樹抽取規(guī)則在C4.5中，從決策樹抽取規(guī)則需要兩個(gè)步驟：獲得簡(jiǎn)單規(guī)則、精簡(jiǎn)規(guī)則屬性。1 1獲得簡(jiǎn)單規(guī)則對(duì)于已生成的決策樹，可以直接從中獲得規(guī)則。從根到葉的每一條路徑都可以是一條規(guī)則。例如，下面的決策樹中可以得到規(guī)則決策樹：F =0J = 0: c I a SDsX = 0: c l a 0s J = 1K =1: cl a Ss* F =1G =1: cl aSsJ = 0: c l a S0sG=0K=0:clas）sJ =1*5 = 1: c l a1a規(guī)則：if F =1,G =0, J

46、 =1, K =1 the nclass2 2、精簡(jiǎn)規(guī)則屬性在上述獲得的簡(jiǎn)單規(guī)則中，可能包含了許多無關(guān)的屬性。在上面的規(guī)則中，條件 F和G的取值對(duì)于結(jié)論沒有任何影響。在不影響規(guī)則的預(yù)測(cè)效果的情況下，可以刪除一些不必要的條件。設(shè)規(guī)則的形式為R：If A the n class C精簡(jiǎn)之后的規(guī)則為R:If A_ then class C其中，A是從A中刪除條件之后的形式 4.64.6決策樹的改進(jìn)算法20 / 2219 / 22E(X,a)l(X,a)V(X,a)|a 二 a)(1)(1) 二叉樹算法Kononenko等人認(rèn)為Quinlan的熵函數(shù)并不理想，有偏向于取值較多的屬性的毛病。為了克服

47、這個(gè)毛病，Kononenko等人建議限制決策樹為二叉樹，使得取值多的屬性與取值少的屬性有同等的機(jī)會(huì)。此法已在 ASSISTANT系統(tǒng)中實(shí)現(xiàn)。改進(jìn)思想和缺點(diǎn)見知識(shí)發(fā)現(xiàn)，史忠植著，清華大學(xué)出版社，2002P28-29(2)(2) 按信息比值進(jìn)行估計(jì)的方法由于每個(gè)實(shí)例關(guān)于屬性a的取值，需要做試驗(yàn)，計(jì)算等，這是需要付出一定代價(jià)的。設(shè)屬性 a取值印，玄2,，它們擁有的實(shí)例個(gè)數(shù)分別為n?,m，且ka ni二n，其中n為訓(xùn)練實(shí)例屬于屬性a的總數(shù)。Qui nlan利用屬性a的熵值V(X,a)i 4來定義為了獲取實(shí)例關(guān)于屬性 a的取值所需要付出的代價(jià)：；niniV(X,a)-logy n n在屬性a提供相同

48、的信息量I(X,a)的同時(shí)，V(X,a)的取值越小越好。Qui nlan定義了另一種測(cè)試屬性選取標(biāo)準(zhǔn)：即選取使得E(X,a)最大的屬性a作為測(cè)試屬性。優(yōu)點(diǎn)：能有效克服偏向取值多的屬性的毛病。缺點(diǎn)：更偏向于選擇對(duì)統(tǒng)一屬性值取值比較集中的屬性(即熵值最小的屬性)，而并不一定是對(duì)分類貢獻(xiàn)最大最重要的屬性。另外，當(dāng)屬性a只有一個(gè)取值時(shí)，V(X,a) =0，則 E(X,a)沒意義。(3)(3) 按分類信息估值Cendrowska根據(jù)屬性為實(shí)例分類提供了多少有用信息來選取測(cè)試屬性。將訓(xùn)練實(shí)例分為l類G,C2, ,Cl。設(shè)屬性a的取值ag,ak，取其中所有|C |=0類，設(shè)有m個(gè)，定義:F(X,a)二C

49、endrowska認(rèn)為，應(yīng)選取使得F(X,a)最大的屬性a作為測(cè)試屬性。(4)(4) 按劃分距離估值的方法21 / 2220 / 22PC i j)logPC i 1 j)PG i)De Mantaras建議利用劃分距離的辦法來選擇測(cè)試屬性。設(shè)待分類屬性分別屬于I 個(gè)不同的類Ci,C2,C|，如果有一種劃分方法能夠把X 一下分為I個(gè)子集 Xi,X2，X|，其中每個(gè)Xi中的實(shí)例恰好屬于Ci類，這稱之為理想劃分。另一方面，如果根據(jù)某個(gè)屬性的各個(gè)可能取值把 X分為子集，這也是一個(gè)劃分。如果能夠在兩個(gè)劃分之間定義一種距離，則可以在由各個(gè)屬性定義的劃分當(dāng)中選擇離理想劃分最近的那一個(gè)，將此屬性定為當(dāng)前的測(cè)試屬性。De Ma ntaras定義的距離也是以信息和熵為基礎(chǔ)的。將H（X,C）簡(jiǎn)記為H（C）。設(shè)：一、宀，:*表示X的某種劃分，貝U其信息熵為mH（：）-八 p（： i）logo（： i）i=1設(shè)二】

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿4---決策樹學(xué)習(xí)技術(shù))

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿4---決策樹學(xué)習(xí)技術(shù))

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔