第3章_分類與決策樹.ppt_第1頁
第3章_分類與決策樹.ppt_第2頁
第3章_分類與決策樹.ppt_第3頁
第3章_分類與決策樹.ppt_第4頁
第3章_分類與決策樹.ppt_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第3章分類與預(yù)測,主要內(nèi)容,分類與決策樹概述 ID3、C4.5與C5.0 CART,分類 VS. 預(yù)測,分類和預(yù)測是兩種數(shù)據(jù)分析形式,用于提取描述重要數(shù)據(jù)類或預(yù)測未來的數(shù)據(jù)趨勢 的模型 分類: 預(yù)測類對象的分類標號(或離散值) 根據(jù)訓練數(shù)據(jù)集和類標號屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù) 預(yù)測: 建立連續(xù)函數(shù)值模型 比如預(yù)測空缺值,或者預(yù)測顧客在計算機設(shè)備上的花費 典型應(yīng)用 欺詐檢測、市場定位、性能預(yù)測、醫(yī)療診斷,分類是一種應(yīng)用非常廣泛的數(shù)據(jù)挖掘技術(shù) 分類與預(yù)測的區(qū)別: 當估計的屬性值是離散值時,這就是分類; 當估計的屬性值是連續(xù)值時,這就是預(yù)測。,分類和預(yù)測-示例,分類 銀行貸款員需

2、要分析數(shù)據(jù),來弄清哪些貸款申請者是安全的,哪些是有風險的(將貸款申請者分為“安全”和“有風險”兩類) 我們需要構(gòu)造一個分類器來預(yù)測類屬編號,比如預(yù)測顧客屬類 預(yù)測 銀行貸款員需要預(yù)測貸給某個顧客多少錢是安全的 構(gòu)造一個預(yù)測器,預(yù)測一個連續(xù)值函數(shù)或有序值,常用方法是回歸分析,數(shù)據(jù)分類一個兩步過程 (1),第一步,也成為學習步,目標是建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器 分類算法通過分析或從訓練集“學習”來構(gòu)造分類器。 訓練集由數(shù)據(jù)庫元組(用n維屬性向量表示)和他們相對應(yīng)的類編號組成;假定每個元組屬于一個預(yù)定義的類 訓練元組:訓練數(shù)據(jù)集中的單個元組 學習模型可以用分類規(guī)則、決策樹或數(shù)學公式的形

3、式提供,數(shù)據(jù)分類一個兩步過程 (2),第二步,使用模型,對將來的或未知的對象進行分類 首先評估模型的預(yù)測準確率 對每個測試樣本,將已知的類標號和該樣本的學習模型類預(yù)測比較 模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比 測試集要獨立于訓練樣本集,否則會出現(xiàn)“過分擬合”的情況,第一步建立模型,訓練數(shù) 據(jù)集,分類算法,IF rank = professor OR years 6 THEN tenured = yes,分類規(guī)則,第二步用模型進行分類,分類規(guī)則,測試集,未知數(shù)據(jù),(Jeff, Professor, 4),Tenured?,監(jiān)督學習 VS. 無監(jiān)督學習,監(jiān)督學習(用于分類)

4、 模型的學習在被告知每個訓練樣本屬于哪個類的“指導”下進行 新數(shù)據(jù)使用訓練數(shù)據(jù)集中得到的規(guī)則進行分類 無監(jiān)督學習(用于聚類) 每個訓練樣本的類編號是未知的,要學習的類集合或數(shù)量也可能是事先未知的 通過一系列的度量、觀察來建立數(shù)據(jù)中的類編號或進行聚類,數(shù)據(jù)預(yù)測的兩步過程,數(shù)據(jù)預(yù)測也是一個兩步的過程,類似于前面描述的數(shù)據(jù)分類 對于預(yù)測,沒有“類標號屬性” 要預(yù)測的屬性是連續(xù)值,而不是離散值,該屬性可簡稱“預(yù)測屬性” E.g. 銀行貸款員需要預(yù)測貸給某個顧客多少錢是安全的 預(yù)測器可以看作一個映射或函數(shù)y=f(X) 其中X是輸入;y是輸出,是一個連續(xù)或有序的值 與分類類似,準確率的預(yù)測,也要使用單獨的

5、測試集,3.1 決策樹概述,決策樹(Decision Tree) 一種描述概念空間的有效的歸納推理辦法?;跊Q策樹的學習方法可以進行不相關(guān)的多概念學習,具有簡單快捷的優(yōu)勢,已經(jīng)在各個領(lǐng)域取得廣泛應(yīng)用。,決策樹是一種樹型結(jié)構(gòu),其中每個內(nèi)部結(jié)點表示在一個屬性上的測試,每個分支代表一個測試輸出,每個葉結(jié)點代表一種類別。,決策樹學習是以實例為基礎(chǔ)的歸納學習。 從一類無序、無規(guī)則的事物(概念)中推理出決策樹表示的分類規(guī)則。 概念分類學習算法:來源于 Hunt,Marin和Stone 于1966年研制的CLS學習系統(tǒng),用于學習單個概念。 1979年, J.R. Quinlan 給出ID3算法,并在1983

6、年和1986年對ID3 進行了總結(jié)和簡化,使其成為決策樹學習算法的典型。 Schlimmer 和Fisher 于1986年對ID3進行改造,在每個可能的決策樹節(jié)點創(chuàng)建緩沖區(qū),使決策樹可以遞增式生成,得到ID4算法。 1988年,Utgoff 在ID4基礎(chǔ)上提出了ID5學習算法,進一步提高了效率。 1993年,Quinlan 進一步發(fā)展了ID3算法,改進成C4.5算法。 另一類決策樹算法為CART,與C4.5不同的是,CART的決策樹由二元邏輯問題生成,每個樹節(jié)點只有兩個分枝,分別包括學習實例的正例與反例。 其基本思想是以信息熵為度量構(gòu)造一棵熵值下降最快的樹,到葉子節(jié)點處的熵值為零,此時每個葉節(jié)

7、點中的實例都屬于同一類。,決策樹學習采用的是自頂向下的遞歸方法。 決策樹的每一層節(jié)點依照某一屬性值向下分為子節(jié)點,待分類的實例在每一節(jié)點處與該節(jié)點相關(guān)的屬性值進行比較,根據(jù)不同的比較結(jié)果向相應(yīng)的子節(jié)點擴展,這一過程在到達決策樹的葉節(jié)點時結(jié)束,此時得到結(jié)論。 從根節(jié)點到葉節(jié)點的每一條路經(jīng)都對應(yīng)著一條合理的規(guī)則,規(guī)則間各個部分(各個層的條件)的關(guān)系是合取關(guān)系。整個決策樹就對應(yīng)著一組析取的規(guī)則。 決策樹學習算法的最大優(yōu)點是,它可以自學習。在學習的過程中,不需要使用者了解過多背景知識,只需要對訓練例子進行較好的標注,就能夠進行學習。如果在應(yīng)用中發(fā)現(xiàn)不符合規(guī)則的實例,程序會詢問用戶該實例的正確分類,從而

8、生成新的分枝和葉子,并添加到樹中。,樹是由節(jié)點和分枝組成的層次數(shù)據(jù)結(jié)構(gòu)。節(jié)點用于存貯信息或知識,分枝用于連接各個節(jié)點。樹是圖的一個特例,圖是更一般的數(shù)學結(jié)構(gòu),如貝葉斯網(wǎng)絡(luò)。 決策樹是描述分類過程的一種數(shù)據(jù)結(jié)構(gòu),從上端的根節(jié)點開始,各種分類原則被引用進來,并依這些分類原則將根節(jié)點的數(shù)據(jù)集劃分為子集,這一劃分過程直到某種約束條件滿足而結(jié)束。,可以看到,一個決策樹的內(nèi)部結(jié)點包含學習的實例,每層分枝代表了實例的一個屬性的可能取值,葉節(jié)點是最終劃分成的類。如果判定是二元的,那么構(gòu)造的將是一棵二叉樹,在樹中每回答一個問題就降到樹的下一層,這類樹一般稱為CART(Classification And Reg

9、ression Tree)。 判定結(jié)構(gòu)可以機械的轉(zhuǎn)變成產(chǎn)生式規(guī)則??梢酝ㄟ^對結(jié)構(gòu)進行廣度優(yōu)先搜索,并在每個節(jié)點生成“IFTHEN”規(guī)則來實現(xiàn)。如圖6-13的決策樹可以轉(zhuǎn)換成下規(guī)則: IF “個子大” THEN IF “脖子短” THEN IF “鼻子長” THEN 可能是大象 形式化表示成,構(gòu)造一棵決策樹要解決四個問題: 收集待分類的數(shù)據(jù),這些數(shù)據(jù)的所有屬性應(yīng)該是完全標注的。 設(shè)計分類原則,即數(shù)據(jù)的哪些屬性可以被用來分類,以及如何將該屬性量化。 分類原則的選擇,即在眾多分類準則中,每一步選擇哪一準則使最終的樹更令人滿意。 設(shè)計分類停止條件,實際應(yīng)用中數(shù)據(jù)的屬性很多,真正有分類意義的屬性往往是有

10、限幾個,因此在必要的時候應(yīng)該停止數(shù)據(jù)集分裂: 該節(jié)點包含的數(shù)據(jù)太少不足以分裂, 繼續(xù)分裂數(shù)據(jù)集對樹生成的目標(例如ID3中的熵下降準則)沒有貢獻, 樹的深度過大不宜再分。 通用的決策樹分裂目標是整棵樹的熵總量最小,每一步分裂時,選擇使熵減小最大的準則,這種方案使最具有分類潛力的準則最先被提取出來,預(yù)測變量,目標變量,記錄 樣本,類標號屬性,類別集合:Class=“優(yōu)”,“良”,“差”,決策樹的基本原理,根節(jié)點,葉子節(jié)點,分裂屬性,分裂謂詞,每一個葉子節(jié)點都被確定一個類標號,每一個節(jié)點都代表了一個數(shù)據(jù)集。 根節(jié)點1代表了初始數(shù)據(jù)集D 其它節(jié)點都是數(shù)據(jù)集D的子集。 例如,節(jié)點2代表數(shù)據(jù)集D中年齡小

11、于40歲的那部分樣本組成的數(shù)據(jù)集。 子節(jié)點是父節(jié)點的子集。 If (年齡3000) Then 信用等級=“優(yōu)”,決策樹是指具有下列三個性質(zhì)的樹: 每個非葉子節(jié)點都被標記一個分裂屬性Ai; 每個分支都被標記一個分裂謂詞,這個分裂謂詞是分裂父節(jié)點的具體依據(jù); 每個葉子節(jié)點都被標記一個類標號CjC。 任何一個決策樹算法,其核心步驟都是為每一次分裂確定一個分裂屬性,即究竟按照哪一個屬性來把當前數(shù)據(jù)集劃分為若干個子集,從而形成若干個“樹枝”。,熵,是數(shù)據(jù)集中的不確定性、突發(fā)性或隨機性的程度的度量。 當一個數(shù)據(jù)集中的記錄全部都屬于同一類的時候,則沒有不確定性,這種情況下的熵就為0。 決策樹分裂的基本原則是

12、,數(shù)據(jù)集被分裂為若干個子集后,要使每個子集中的數(shù)據(jù)盡可能的“純”,也就是說子集中的記錄要盡可能屬于同一個類別。如果套用熵的概念,即要使分裂后各子集的熵盡可能的小。,3.2 ID3、C4.5與C5.0,數(shù)據(jù)集D被按照分裂屬性“年齡”分裂為兩個子集D1 和D2,信息增益: Gain(D,年齡)= H(D)P(D1)H(D1)+ P(D2)H(D2),顯然,如果D1和D2中的數(shù)據(jù)越“純”,H(D1)和H(D2)就越小,信息增益就越大,或者說熵下降得越多。 按照這個方法,測試每一個屬性的信息增益,選擇增益值最大的屬性作為分裂屬性。,信息熵計算舉例,令C1對應(yīng)“是”,C2對應(yīng)“否”。那么C1有9個樣本,

13、C2有5個樣本,所以數(shù)據(jù)集D的熵為:,決策樹歸納策略 (1),輸入 數(shù)據(jù)劃分D是訓練元組和對應(yīng)類標號的集合 attribute_list,候選屬性的集合 Attribute_selection_method,指定選擇屬性的啟發(fā)性過程 算法步驟 樹以代表訓練樣本的單個節(jié)點(N)開始 如果樣本都在同一個類,則該節(jié)點成為樹葉,并用該類標記 否則,算法調(diào)用Attribute_selection_method,選擇能夠最好的將樣本分類的屬性;確定“分裂準則”,指出“分裂點”或“分裂子集”。,決策樹歸納策略 (2),對測試屬性每個已知的值,創(chuàng)建一個分支,并以此劃分元組 算法使用同樣的過程,遞歸的形成每個劃

14、分上的元組決策樹。一旦一個屬性出現(xiàn)在一個節(jié)點上,就不在該節(jié)點的任何子節(jié)點上出現(xiàn) 遞歸劃分步驟停止的條件 劃分D(在N節(jié)點提供)的所有元組屬于同一類 沒有剩余屬性可以用來進一步劃分元組使用多數(shù)表決 沒有剩余的樣本 給定分支沒有元組,則以D中多數(shù)類創(chuàng)建一個樹葉,屬性選擇度量,屬性選擇度量是一種選擇分裂準則,將給定類標號的訓練元組最好的進行劃分的方法 理想情況,每個劃分都是“純”的,即落在給定劃分內(nèi)的元組都屬于相同的類 屬性選擇度量又稱為分裂準則 常用的屬性選擇度量 信息增益 增益率 Gini指標,信息增益 (1),S是一個訓練樣本的集合,該樣本中每個集合的類編號已知。每個樣本為一個元組。有個屬性用

15、來判定某個訓練樣本的類編號 假設(shè)S中有m個類,總共s個訓練樣本,每個類Ci有si個樣本(i1,2,3.m),那么任意一個樣本屬于類Ci的概率是si / s,那么用來分類一個給定樣本的期望信息是:,信息增益 (2),一個有v個值的屬性Aa1,a2,.,av可以將S分成v個子集S1,S2,.,Sv,其中Sj包含S中屬性A上的值為aj的樣本。假設(shè)Sj包含類Ci的sij個樣本。根據(jù)A的這種劃分的期望信息稱為A的熵 A上該劃分的獲得的信息增益定義為: 具有高信息增益的屬性,是給定集合中具有高區(qū)分度的屬性。所以可以通過計算S中樣本的每個屬性的信息增益,來得到一個屬性的相關(guān)性的排序。,若以“年齡”作為分裂屬

16、性,則產(chǎn)生三個子集(因為該屬性有三個不同的取值),所以D按照屬性“年齡”劃分出的三個子集的熵的加權(quán)和為:,其中有一個子集的熵為0,同理,若以“收入水平”為分裂屬性:,若以“有固定收入”為分裂屬性: 若以“VIP”為分裂屬性:,以“年齡”作為分裂屬性,所得信息增益最大。,葉子節(jié)點,ID3的主要缺點,ID3算法只能處理分類屬性(離散屬性),而不能處理連續(xù)屬性(數(shù)值屬性)。在處理連續(xù)屬性時,一般要先將連續(xù)屬性劃分為多個區(qū)間,轉(zhuǎn)化為分類屬性。例如“年齡”,要把數(shù)值事先轉(zhuǎn)換為諸如“小于30歲”、“30至50歲”、“大于50歲”這樣的區(qū)間,再根據(jù)年齡值落入了某一個區(qū)間取相應(yīng)的類別值。通常,區(qū)間端點的選取包

17、含著一定的主觀因素。 ID3生成的決策樹是一棵多叉樹,分支的數(shù)量取決于分裂屬性有多少個不同的取值。這不利于處理分裂屬性取值數(shù)目較多的情況。因此目前流行的決策樹算法大多采用二叉樹模型。,ID3是采用“信息增益”來選擇分裂屬性的。雖然這是一種有效的方法,但其具有明顯的傾向性,即它傾向于選擇具有大量不同取值的屬性,從而產(chǎn)生許多小而純的子集。 尤其是關(guān)系數(shù)據(jù)庫中作為主鍵的屬性,每一個樣本都有一個不同的取值。如果以這樣的屬性作為分裂屬性,那么將產(chǎn)生非常多的分支,而且每一個分支產(chǎn)生的子集的熵均為0(因為子集中只有一個樣本?。?。顯然,這樣的決策樹是沒有實際意義的。因此,Quinlan提出使用增益比例來代替信

18、息增益。,3.2.2 C4.5,設(shè)S代表訓練數(shù)據(jù)集,由s個樣本組成。A是S的某個屬性,有m個不同的取值,根據(jù)這些取值可以把S劃分為m個子集,Si表示第i個子集(i=1,2,m),|Si|表示子集Si中的樣本數(shù)量。那么:,稱為“數(shù)據(jù)集S關(guān)于屬性A的熵”。,用來衡量屬性A分裂數(shù)據(jù)集的廣度和均勻性。樣本在屬性A上的取值分布越均勻,Split_Info(S,A)的值就越大。 增益比例的定義為: 增益比例消除了選擇那些值較多且均勻分布的屬性作為分裂屬性的傾向性。,連續(xù)屬性的處理,設(shè)屬性Y有m個不同的取值,按大小順序升序排列為v1 vi”將數(shù)據(jù)集劃分為兩個部分,形成兩個分支。顯然, v1,v2, vm-1

19、就是可能的閾值的集合,共(m-1)個元素。 把這些閾值一一取出來,并根據(jù)“Yvi”和“Y vi”把訓練數(shù)據(jù)集劃分為兩個子集,并計算每一種劃分方案下的信息增益或增益比例,選擇最大增益或增益比例所對應(yīng)的那個閾值,作為最優(yōu)的閾值。 可以看出,如果選擇連續(xù)屬性作為分裂屬性,則分裂后只有兩個分支,而不象離散屬性那樣可能會有多個分支(由離散屬性的取值個數(shù)決定)。,如果要計算“年齡”屬性的信息增益,則首先將不同的屬性值排序20,25,28,40,46,55,56,58,60,65,70 那么可能的閾值集合為20,25,28,40,46,55,56,58,60,65,70,從中一一取出,并形成分裂謂詞,例如取

20、出“20”,形成謂詞“20”和“20”,用它們劃分訓練數(shù)據(jù)集,然后計算信息增益或增益比例。,處理有缺失值的樣本,C4.5并不會武斷地將一個有缺失值的樣本拋棄,也不會隨意地將它分配到某個類別中去。 “收入水平”的值,取為“高”的概率為3/12,取為“中”的概率為5/12,取為“低”的概率為4/12。 S1(收入水平=“高”)的樣本數(shù)量為:3+2(3/12);,3.2.4 C5.0算法,C5.0是經(jīng)典的決策樹模型的算法之一,可生成多分支的決策樹,目標變量為分類變量 使用c5.0算法可以生成決策樹(decision tree)或者規(guī)則集(rule sets)。C5.0模型根據(jù)能夠帶來最大信息增益(i

21、nformation gain)的字段拆分樣本。第一次拆分確定的樣本子集隨后再次拆分,通常是根據(jù)另一個字段進行拆分,這一過程重復(fù)進行直到樣本子集不能再被拆分為止。最后,重新檢驗最低層次的拆分,那些對模型值沒有顯著貢獻的樣本子集被剔除或者修剪。,C5.0的優(yōu)點,優(yōu)點: C5.0模型在面對數(shù)據(jù)遺漏和輸入字段很多的問題時非常穩(wěn)健。 C5.0模型通常不需要很長的訓練次數(shù)進行估計。 C5.0模型比一些其他類型的模型易于理解,模型推出的規(guī)則有非常直觀的解釋。 C5.0也提供強大的增強技術(shù)以提高分類的精度。,C5.0算法選擇分支變量的依據(jù) 以信息熵的下降速度作為確定最佳分支變量和分割閥值的依據(jù)。信息熵的下降

22、意味著信息的不確定性下降,舉例:在Clementine中應(yīng)用C5.0,這里,以學生參加某次社會公益活動的數(shù)據(jù)(文件名為Students.xls)為例,講解C5.0算法的具體實現(xiàn)操作。 分析目標是,研究那些因素將顯著影響到學生參與社會公益活動。 其中,是否參加為輸出變量,除編號以外的變量均為輸入變量。,數(shù)據(jù)流如下:,一、建立模型,第一步建立數(shù)據(jù)源,第二步選擇Modeling卡中的C5.0節(jié)點并將其連接到恰當位置,鼠標右擊該節(jié)點,彈出下面窗口。,模型名稱(Model name) 輸出類型(Output type):此處指定希望最終生成的模型是決策樹還是規(guī)則集。 群體字符(Group symboli

23、cs)。如果選擇該選項,C5.0會嘗試將所有與輸出字段格式相似的字符值合并。如果沒有選擇該選項,C5.0會為用于拆分母節(jié)點的字符字段的每個值創(chuàng)建一個子節(jié)點。 使用自舉法(Use boosting):提高其精確率。這種方法按序列建立多重模型。第一個模型以通常的方式建立。隨后,建立第二個模型,聚焦于被第一個模型錯誤分類的記錄。以此類推,最后應(yīng)用整個模型集對樣本進行分類,使用加權(quán)投票過程把分散的預(yù)測合并成綜合預(yù)測。The Number of trials選項允許控制用于助推的模型數(shù)量。,交叉驗證(Crossvalidate):如果選擇了該選項,C5.0將使用一組基于訓練數(shù)據(jù)子集建立的模型,來估計基于

24、全部數(shù)據(jù)建立的模型的精確度。如果數(shù)據(jù)集過小,不能拆分成傳統(tǒng)意義上的訓練集和測試集,這將非常有用?;蛴糜诮徊骝炞C的模型數(shù)目。 模式(Mode):對于簡單的訓練,絕大多數(shù)C5.0參數(shù)是自動設(shè)置。高級訓練模式選項允許對訓練參數(shù)更多的直接控制。,簡單模式選項(simple) 偏好(Favor): 在accuracy下,C5.0會生成盡可能精確的決策樹。在某些情況下,這會導致過度擬和。選擇Generality(一般化)項以使用不易受該問題影響的算法設(shè)置。 期望噪聲百分數(shù)(Expected noise (%): 指定訓練集中的噪聲或錯誤數(shù)據(jù)期望比率。,高級模式選項 修剪純度(pruning severit

25、y):決定生成決策樹或規(guī)則集被修剪的程度。提高純度值將獲得更小,更簡潔的決策樹。降低純度值將獲得更加精確的決策樹。 子分支最少記錄數(shù)(Minimum records per child branch):子群大小可以用于限制決策樹任一分支的拆分數(shù)。只有當兩個或以上的后序子分支包括來自訓練集的記錄不少于最小記錄數(shù),決策樹才會繼續(xù)拆分。默認值為2,提高該值將有助于避免噪聲數(shù)據(jù)的過度訓練。 全局修剪(Use global pruning): 第一階段:局部修建 第二階段:全局修剪 排除屬性(Winnow attributes):如果選擇了該選項,C5.0會在建立模型前檢驗預(yù)測字段的有用性。被發(fā)現(xiàn)與分析

26、無關(guān)的預(yù)測字段將不參與建模過程。這一選項對有許多預(yù)測字段元的模型非常有用,并且有助于避免過度擬和。,圖1 指定錯誤歸類損失,錯誤歸類損失允許指定不同類型預(yù)測錯誤之間的相對重要性。 錯誤歸類損失矩陣顯示預(yù)測類和實際類每一可能組合的損失。所有的錯誤歸類損失都預(yù)設(shè)設(shè)置為1.0。要輸入自定義損失值,選擇Use misclassification costs,然后把自定義值輸入到損失矩陣中。,具體設(shè)置,執(zhí)行結(jié)果,二、預(yù)測結(jié)果,為觀測C5.0對每個樣本的預(yù)測結(jié)果,可在流管理器的Models卡中,鼠標右擊C5.0模型結(jié)果,選擇彈出菜單中的Add To Stream,并將模型結(jié)果連接到數(shù)據(jù)流中,然后連接Tab

27、le節(jié)點查看預(yù)測結(jié)果,如下圖所示:,三、C5.0模型評價,3.3 CART,分類和回歸樹(Classification and Regression Trees,CART,在Clementine中簡寫為C&RT) CART算法中的每一次分裂把數(shù)據(jù)分為兩個子集,每個子集中的樣本比被劃分之前具有更好的一致性。它是一個遞歸的過程,也就是說,這些子集還會被繼續(xù)劃分,這個過程不斷重復(fù),直到滿足終止準則,然后通過修剪和評估,得到一棵最優(yōu)的決策樹。,三個步驟,生成最大樹 生成一棵充分生長的最大樹 樹的修剪 根據(jù)修剪算法對最大樹進行修剪,生成由許多子樹組成的子樹序列 子樹評估 從子樹序列中選擇一棵最優(yōu)的子樹作

28、為最后的結(jié)果。,3.3.1 生成最大樹,標準問題集 就某個給定的屬性來說,由于屬性的取值可能有很多個,所以按照這個屬性來分裂數(shù)據(jù)集的方式也有很多種,屬性的標準問題集就是所有候選分支方案的集合。 連續(xù)屬性的標準問題集 離散屬性的標準問題集,雜度,在ID3算法中,用“熵”來度量數(shù)據(jù)集隨機性的程度。 在CART中我們把這種隨機性的程度稱為“雜度”(impurity,也稱為“不純度”),并且用“吉尼”(gini)指標來衡量它。,吉尼指標,設(shè)t是決策樹上的某個節(jié)點,該節(jié)點的數(shù)據(jù)集為S,由s個樣本組成,其類標號屬性具有m個不同的取值,即定義了m個不同的類Ci(i=1,2,m)。設(shè)屬于類Ci的樣本的個數(shù)為si。那么這個節(jié)點的吉尼指

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論