第4章 分類:基本概念、決策樹與模型評估課件_第1頁
第4章 分類:基本概念、決策樹與模型評估課件_第2頁
第4章 分類:基本概念、決策樹與模型評估課件_第3頁
第4章 分類:基本概念、決策樹與模型評估課件_第4頁
第4章 分類:基本概念、決策樹與模型評估課件_第5頁
已閱讀5頁,還剩177頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘

分類:基本概念、決策樹與模型評價第4章分類:基本概念、決策樹與模型評價數(shù)據(jù)挖掘

分類:基本概念、決策樹與模型評價第4章分類:基

分類的是利用一個分類函數(shù)(分類模型、分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)影射到給定類別中的一個。

分類的是利用一個分類函數(shù)(分類模型、分類器分類分類訓(xùn)練集:數(shù)據(jù)庫中為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練集。訓(xùn)練集中的單個元組稱為訓(xùn)練樣本,每個訓(xùn)練樣本有一個類別標記。一個具體樣本的形式可為:(v1,v2,...,vn;c);其中vi表示屬性值,c表示類別。測試集:用于評估分類模型的準確率訓(xùn)練集:數(shù)據(jù)庫中為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練集。數(shù)據(jù)分類——一個兩步過程(1)第一步,建立一個模型,描述預(yù)定數(shù)據(jù)類集和概念集假定每個元組屬于一個預(yù)定義的類,由一個類標號屬性確定學(xué)習(xí)模型可以用分類規(guī)則、決策樹或數(shù)學(xué)公式的形式提供數(shù)據(jù)分類——一個兩步過程(1)第一步,建立一個模型,描述預(yù)數(shù)據(jù)分類——一個兩步過程(2)第二步,使用模型,對將來的或未知的對象進行分類首先評估模型的預(yù)測準確率對每個測試樣本,將已知的類標號和該樣本的學(xué)習(xí)模型類預(yù)測比較模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比測試集要獨立于訓(xùn)練樣本集,否則會出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況如果準確性能被接受,則分類規(guī)則就可用來對新數(shù)據(jù)進行分類數(shù)據(jù)分類——一個兩步過程(2)第二步,使用模型,對將來的或有監(jiān)督的學(xué)習(xí)VS.無監(jiān)督的學(xué)習(xí)有監(jiān)督的學(xué)習(xí)(用于分類)模型的學(xué)習(xí)在被告知每個訓(xùn)練樣本屬于哪個類的“監(jiān)督”下進行新數(shù)據(jù)使用訓(xùn)練數(shù)據(jù)集中得到的規(guī)則進行分類無監(jiān)督的學(xué)習(xí)(用于聚類)每個訓(xùn)練樣本的類編號是未知的,要學(xué)習(xí)的類集合或數(shù)量也可能是事先未知的通過一系列的度量、觀察來建立數(shù)據(jù)中的類編號或進行聚類有監(jiān)督的學(xué)習(xí)VS.無監(jiān)督的學(xué)習(xí)有監(jiān)督的學(xué)習(xí)(用于分類)分類模型的構(gòu)造方法1.機器學(xué)習(xí)方法:決策樹法規(guī)則歸納2.統(tǒng)計方法:知識表示是判別函數(shù)和原型事例貝葉斯法非參數(shù)法(近鄰學(xué)習(xí)或基于事例的學(xué)習(xí))3.神經(jīng)網(wǎng)絡(luò)方法:BP算法,模型表示是前向反饋神經(jīng)網(wǎng)絡(luò)模型4.粗糙集(roughset)知識表示是產(chǎn)生式規(guī)則分類模型的構(gòu)造方法1.機器學(xué)習(xí)方法:一個決策樹的例子categoricalcategoricalcontinuousclassRefundMarStTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80KSplittingAttributes訓(xùn)練數(shù)據(jù)模型:決策樹一個決策樹的例子categoricalcategorical決策樹的另一個例子categoricalcategoricalcontinuousclassMarStRefundTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K決策樹的另一個例子categoricalcategorica用決策樹歸納分類什么是決策樹?類似于流程圖的樹結(jié)構(gòu)每個內(nèi)部節(jié)點表示在一個屬性上的測試每個分枝代表一個測試輸出每個樹葉節(jié)點代表類或類分布決策樹的生成由兩個階段組成決策樹構(gòu)建開始時,所有的訓(xùn)練樣本都在根節(jié)點遞歸的通過選定的屬性,來劃分樣本(必須是離散值)樹剪枝許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和孤立點,樹剪枝試圖檢測和剪去這種分枝決策樹的使用:對未知樣本進行分類通過將樣本的屬性值與決策樹相比較用決策樹歸納分類什么是決策樹?為了對未知數(shù)據(jù)對象進行分類識別,可以根據(jù)決策樹的結(jié)構(gòu)對數(shù)據(jù)集中的屬性進行測試,從決策樹的根節(jié)點到葉節(jié)點的一條路徑就形成了相應(yīng)對象的類別測試。決策樹可以很容易轉(zhuǎn)換為分類規(guī)則為了對未知數(shù)據(jù)對象進行分類識別,可以根據(jù)決策樹的結(jié)構(gòu)決策樹分類任務(wù)DecisionTree決策樹分類任務(wù)DecisionTree一個決策樹的例子categoricalcategoricalcontinuousclassRefundMarStTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80KSplittingAttributes訓(xùn)練數(shù)據(jù)模型:決策樹一個決策樹的例子categoricalcategorical應(yīng)用決策樹進行分類RefundMarStTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K測試數(shù)據(jù)Startfromtherootoftree.應(yīng)用決策樹進行分類RefundMarStTaxIncYESN應(yīng)用決策樹進行分類RefundMarStTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K測試數(shù)據(jù)應(yīng)用決策樹進行分類RefundMarStTaxIncYESN應(yīng)用決策樹進行分類RefundMarStTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K測試數(shù)據(jù)應(yīng)用決策樹進行分類RefundMarStTaxIncYESN應(yīng)用決策樹進行分類RefundMarStTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K測試數(shù)據(jù)應(yīng)用決策樹進行分類RefundMarStTaxIncYESN應(yīng)用決策樹進行分類RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K測試數(shù)據(jù)應(yīng)用決策樹進行分類RefundMarStTaxIncYESN應(yīng)用決策樹進行分類RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K測試數(shù)據(jù)AssignCheatto“No”應(yīng)用決策樹進行分類RefundMarStTaxIncYESN決策樹分類DecisionTree決策樹分類DecisionTree決策樹有許多決策樹算法:Hunt算法信息增益——Informationgain

(ID3)增益比率——Gainration(C4.5)基尼指數(shù)——Giniindex

(SLIQ,SPRINT)決策樹有許多決策樹算法:Hunt算法設(shè)Dt

是與結(jié)點t相關(guān)聯(lián)的訓(xùn)練記錄集算法步驟:如果Dt

中所有記錄都屬于同一個類yt,則t是葉結(jié)點,用yt標記如果Dt

中包含屬于多個類的記錄,則選擇一個屬性測試條件,將記錄劃分成較小的子集。對于測試條件的每個輸出,創(chuàng)建一個子結(jié)點,并根據(jù)測試結(jié)果將Dt中的記錄分布到子結(jié)點中。然后,對于每個子結(jié)點,遞歸地調(diào)用該算法Dt?Hunt算法設(shè)Dt是與結(jié)點t相關(guān)聯(lián)的訓(xùn)練記錄集Dt?Hunt算法Don’tCheatRefundDon’tCheatDon’tCheatYesNoRefundDon’tCheatYesNoMaritalStatusDon’tCheatCheatSingle,DivorcedMarriedTaxableIncomeDon’tCheat<80K>=80KRefundDon’tCheatYesNoMaritalStatusDon’tCheatCheatSingle,DivorcedMarriedHunt算法Don’tRefundDon’tDon’t決策樹Hunt算法采用貪心策略構(gòu)建決策樹.在選擇劃分數(shù)據(jù)的屬性時,采取一系列局部最優(yōu)決策來構(gòu)造決策樹.決策樹歸納的設(shè)計問題如何分裂訓(xùn)練記錄怎樣為不同類型的屬性指定測試條件?怎樣評估每種測試條件?如何停止分裂過程決策樹Hunt算法采用貪心策略構(gòu)建決策樹.決策樹Hunt算法采用貪心策略構(gòu)建決策樹.在選擇劃分數(shù)據(jù)的屬性時,采取一系列局部最優(yōu)決策來構(gòu)造決策樹.決策樹歸納的設(shè)計問題如何分裂訓(xùn)練記錄怎樣為不同類型的屬性指定測試條件?怎樣評估每種測試條件?如何停止分裂過程決策樹Hunt算法采用貪心策略構(gòu)建決策樹.怎樣為不同類型的屬性指定測試條件?依賴于屬性的類型標稱序數(shù)連續(xù)依賴于劃分的路數(shù)2路劃分多路劃分怎樣為不同類型的屬性指定測試條件?依賴于屬性的類型基于標稱屬性的分裂多路劃分:

劃分數(shù)(輸出數(shù))取決于該屬性不同屬性值的個數(shù).二元劃分:

劃分數(shù)為2,這種劃分要考慮創(chuàng)建k個屬性值的二元劃分的所有2k-1-1種方法.CarTypeFamilySportsLuxuryCarType{Family,

Luxury}{Sports}CarType{Sports,Luxury}{Family}ORCarType{Family,

Sports}{Luxury}基于標稱屬性的分裂多路劃分:劃分數(shù)(輸出數(shù))取決于該屬性不多路劃分:

劃分數(shù)(輸出數(shù))取決于該屬性不同屬性值的個數(shù).二元劃分:

劃分數(shù)為2,需要保持序數(shù)屬性值的有序性.基于序數(shù)屬性的劃分SizeSmallMediumLargeSize{Medium,

Large}{Small}Size{Small,Medium}{Large}ORSize{Small,Large}{Medium}多路劃分:劃分數(shù)(輸出數(shù))取決于該屬性不同屬性值的個數(shù).基基于連續(xù)屬性的劃分多路劃分:vi≤A<vi+1(i=1,…,k)二元劃分:(A<v)or(Av)考慮所有的劃分點,選擇一個最佳劃分點v基于連續(xù)屬性的劃分基于連續(xù)屬性的劃分基于連續(xù)屬性的劃分決策樹決策樹歸納的設(shè)計問題如何分裂訓(xùn)練記錄怎樣為不同類型的屬性指定測試條件?怎樣評估每種測試條件?如何停止分裂過程決策樹怎樣選擇最佳劃分?在劃分前:10個記錄class0,

10個記錄class1怎樣選擇最佳劃分?在劃分前:10個記錄class0,怎樣選擇最佳劃分?選擇最佳劃分的度量通常是根據(jù)劃分后子結(jié)點不純性的程度。不純性的程度越低,類分布就越傾斜結(jié)點不純性的度量:不純性大不純性小怎樣選擇最佳劃分?選擇最佳劃分的度量通常是根據(jù)劃分后子結(jié)點不怎樣找到最佳劃分?B?YesNoNodeN3NodeN4A?YesNoNodeN1NodeN2劃分前:M0M1M2M3M4M12M34Gain=M0–M12vsM0–M34怎樣找到最佳劃分?B?YesNoNodeN3NodeN4結(jié)點不純性的測量GiniEntropyclassificationerror結(jié)點不純性的測量Gini不純性的測量:GINI給定結(jié)點t的Gini值計算:

(p(j|t)是在結(jié)點t中,類j發(fā)生的概率).當類分布均衡時,Gini值達到最大值(1-1/nc)相反當只有一個類時,Gini值達到最小值0不純性的測量:GINI給定結(jié)點t的Gini值計算:計算GINI的例子P(C1)=0/6=0P(C2)=6/6=1Gini=1–P(C1)2–P(C2)2=1–0–1=0P(C1)=1/6P(C2)=5/6Gini=1–(1/6)2–(5/6)2=0.278P(C1)=2/6P(C2)=4/6Gini=1–(2/6)2–(4/6)2=0.444計算GINI的例子P(C1)=0/6=0基于GINI的劃分當一個結(jié)點p分割成k個部分(孩子),劃分的質(zhì)量可由下面公式計算

ni=孩子結(jié)點i的記錄數(shù), n

=父結(jié)點p的記錄數(shù).基于GINI的劃分當一個結(jié)點p分割成k個部分(孩二元屬性:計算GINI對于二元屬性,結(jié)點被劃分成兩個部分得到的GINI值越小,這種劃分越可行.B?YesNoNodeN1NodeN2Gini(N1)

=1–(5/6)2–(2/6)2

=0.194Gini(N2)

=1–(1/6)2–(4/6)2

=0.528Ginisplit

=7/12*0.194+

5/12*0.528

=0.333二元屬性:計算GINI對于二元屬性,結(jié)點被劃分成兩個部分標稱屬性:計算Gini多路劃分二元劃分一般多路劃分的Gini值比二元劃分小,這一結(jié)果并不奇怪,因為二元劃分實際上合并了多路劃分的某些輸出,自然降低了子集的純度Multi-waysplitTwo-waysplit(findbestpartitionofvalues)標稱屬性:計算Gini多路劃分Multi-waysplit連續(xù)屬性:計算Gini使用二元劃分劃分點v選擇N個記錄中所有屬性值作為劃分點對每個劃分進行類計數(shù),A<vandAv計算每個候選點v的Gini指標,并從中選擇具有最小值的候選劃分點時間復(fù)雜度為(n2)連續(xù)屬性:計算Gini使用二元劃分連續(xù)屬性:計算Gini...降低計算復(fù)雜性的方法,將記錄進行排序從兩個相鄰的排過序的屬性值之間選擇中間值作為劃分點計算每個候選點的Gini值時間復(fù)雜度為nlogn劃分點排序后的值連續(xù)屬性:計算Gini...降低計算復(fù)雜性的方法,劃分點

定義:給定一個概率空間事件的自信息定義為

因自信息反映了事件發(fā)生所需要的信息量。值越大說明需要越多的信息才能確定事件的發(fā)生,其隨機性也越大,而當發(fā)生時所攜帶的信息量也越大。反過來,值越小,需要較少信息量就能確定的發(fā)生,即事件隨機性較小。當其發(fā)生時所攜信息量就少。是對不確定性大小的一種刻畫熵---定義定義:給定一個概率空間熵---定義1.定義:在概率空間上定義的隨機變量I(X)的數(shù)學(xué)期望

稱為隨機變量X的平均自信息,又稱X的信息熵或熵記為H(x)熵---定義1.定義:在概率空間非負性:H大于等于0連續(xù)性:H對任意q連續(xù)極值性:當q都等于1\K時H達到最大值logK熵---定義非負性:H大于等于0熵---定義基于InformationGain的劃分給定結(jié)點t的Entropy值計算:(p(j|t)是在結(jié)點t中,類j發(fā)生的概率).當類分布均衡時,Entropy值達到最大值(lognc)相反當只有一個類時,Gini值達到最小值0Entropy與GINI相似基于InformationGain的劃分給定結(jié)點t的E計算Entropy的例子P(C1)=0/6=0P(C2)=6/6=1Entropy=–0log0

–1log1=–0–0=0P(C1)=1/6P(C2)=5/6Entropy=–(1/6)log2(1/6)

–(5/6)log2(1/6)=0.65P(C1)=2/6P(C2)=4/6Entropy=–(2/6)log2(2/6)

–(4/6)log2(4/6)=0.92計算Entropy的例子P(C1)=0/6=0基于InformationGain的劃分...InformationGain:

ni=孩子結(jié)點i的記錄數(shù), n

=結(jié)點p的記錄數(shù). 在ID3andC4.5中使用基于InformationGain的劃分...Infor基于InformationGain的劃分...增益率(GainRatio):熵和Gini指標等不純性趨向于有利于具有大量不同值的屬性!如:利用雇員id產(chǎn)生更純的劃分,但它卻毫無用處每個劃分相關(guān)聯(lián)的記錄數(shù)太少,將不能做出可靠的預(yù)測解決該問題的策略有兩種:限制測試條件只能是二元劃分使用增益率。K越大SplitInfo越大增益率越小基于InformationGain的劃分...增益率(G基于ClassificationError的劃分給定結(jié)點t的ClassificationError值計算

:當類分布均衡時,error值達到最大值(1-1/nc)相反當只有一個類時,error值達到最小值0基于ClassificationError的劃分給定結(jié)點例子P(C1)=0/6=0P(C2)=6/6=1Error=1–max(0,1)=1–1=0P(C1)=1/6P(C2)=5/6Error=1–max(1/6,5/6)=1–5/6=1/6P(C1)=2/6P(C2)=4/6Error=1–max(2/6,4/6)=1–4/6=1/3例子P(C1)=0/6=0P(C2)=不純性度量之間的比較二元分類問題:不純性度量之間的比較二元分類問題:第4章分類:基本概念、決策樹與模型評估課件決策樹Hunt算法采用貪心策略構(gòu)建決策樹.在選擇劃分數(shù)據(jù)的屬性時,采取一系列局部最優(yōu)決策來構(gòu)造決策樹.決策樹歸納的設(shè)計問題如何分裂訓(xùn)練記錄怎樣為不同類型的屬性指定測試條件?怎樣評估每種測試條件?如何停止分裂過程決策樹Hunt算法采用貪心策略構(gòu)建決策樹.停止分裂過程當所有的記錄屬于同一類時,停止分裂當所有的記錄都有相同的屬性時,停止分裂提前終止樹的生長停止分裂過程當所有的記錄屬于同一類時,停止分裂第4章分類:基本概念、決策樹與模型評估課件三種著名的決策樹Cart:基本的決策樹算法Id3:利用增益比不純性,樹采用二叉樹,停止準則為當所有的記錄屬于同一類時,停止分裂,或當所有的記錄都有相同的屬性時,停止分裂C4.5:id3的改進版本,也是最流行的分類數(shù)算法。采用多重分支和剪枝技術(shù)。三種著名的決策樹Cart:基本的決策樹算法決策樹特點:決策樹是一種構(gòu)建分類模型的非參數(shù)方法不需要昂貴的的計算代價決策樹相對容易解釋決策樹是學(xué)習(xí)離散值函數(shù)的典型代表決策數(shù)對于噪聲的干擾具有相當好的魯棒性冗余屬性不會對決策樹的準確率造成不利影響數(shù)據(jù)碎片問題。隨著數(shù)的生長,可能導(dǎo)致葉結(jié)點記錄數(shù)太少,對于葉結(jié)點代表的類,不能做出具有統(tǒng)計意義的判決子樹可能在決策樹中重復(fù)多次。使決策樹過于復(fù)雜決策樹特點:子樹重復(fù)問題

Samesubtreeappearsinmultiplebranches子樹重復(fù)問題Samesubtreeappearsin決策邊界

決策邊界斜決策樹x+y<1Class=+

Class=斜決策樹x+y<1Class=+Class=模型過分擬合和擬合不足分類模型的誤差大致分為兩種:訓(xùn)練誤差:是在訓(xùn)練記錄上誤分類樣本比例泛化誤差:是模型在未知記錄上的期望誤差一個好的分類模型不僅要能夠很好的擬合訓(xùn)練數(shù)據(jù),而且對未知樣本也要能準確分類。換句話說,一個好的分類模型必須具有低訓(xùn)練誤差和低泛化誤差。當訓(xùn)練數(shù)據(jù)擬合太好的模型,其泛化誤差可能比具有較高訓(xùn)練誤差的模型高,這種情況成為模型過分擬合模型過分擬合和擬合不足分類模型的誤差大致分為兩種:模型過分擬合和擬合不足當決策樹很小時,訓(xùn)練和檢驗誤差都很大,這種情況稱為模型擬合不足。出現(xiàn)擬合不足的原因是模型尚未學(xué)習(xí)到數(shù)據(jù)的真實結(jié)構(gòu)。隨著決策樹中結(jié)點數(shù)的增加,模型的訓(xùn)練誤差和檢驗誤差都會隨之下降。當樹的規(guī)模變得太大時,即使訓(xùn)練誤差還在繼續(xù)降低,但是檢驗誤差開始增大,導(dǎo)致模型過分擬合模型過分擬合和擬合不足當決策樹很小時,訓(xùn)練和檢驗誤差都很大,模型模型過分擬合和擬合不足過分擬合模型模型過分擬合和擬合不足過分擬合導(dǎo)致過分擬合的原因?qū)е逻^分擬合的原因?qū)е逻^分擬合的原因噪聲導(dǎo)致的過分擬合例子:哺乳動物的分類問題十個訓(xùn)練記錄中有兩個被錯誤標記:蝙蝠和鯨如果完全擬合訓(xùn)練數(shù)據(jù),決策樹1的訓(xùn)練誤差為0,但它在檢驗數(shù)據(jù)上的誤差達30%.人和海豚,針鼴誤分為非哺乳動物相反,一個更簡單的決策樹2,具有較低的檢驗誤差(10%),盡管它的訓(xùn)練誤差較高,為20%決策樹1過分擬合了訓(xùn)練數(shù)據(jù)。因為屬性測試條件4條腿具有欺騙性,它擬合了誤標記的訓(xùn)練紀錄,導(dǎo)致了對檢驗集中記錄的誤分類導(dǎo)致過分擬合的原因噪聲導(dǎo)致的過分擬合噪聲導(dǎo)致的過分擬合(例子)噪聲導(dǎo)致決策邊界的改變噪聲導(dǎo)致的過分擬合(例子)噪聲導(dǎo)致決策邊界的改變?nèi)狈Υ硇詷颖緦?dǎo)致的過分擬合根據(jù)少量訓(xùn)練記錄做出分類決策的模型也容易受過分擬合的影響。由于訓(xùn)練數(shù)據(jù)缺乏具有代表性的樣本,在沒有多少訓(xùn)練記錄的情況下,學(xué)習(xí)算法仍然細化模型就會產(chǎn)生過分擬合。缺乏代表性樣本導(dǎo)致的過分擬合根據(jù)少量訓(xùn)練記錄做出分類決策的模第4章分類:基本概念、決策樹與模型評估課件例子:五個訓(xùn)練記錄,所有的記錄都是正確標記的,對應(yīng)的決策樹盡管訓(xùn)練誤差為0,但檢驗誤差高達30%人、大象和海豚被誤分類,因為決策樹把恒溫但不冬眠的動物分為非哺乳動物。決策樹做出這樣的分類決策是因為只有一個訓(xùn)練記錄(鷹)具有這些特征。這個例子清楚的表明,當決策樹的葉結(jié)點沒有足夠的代表性樣本時,很可能做出錯誤的預(yù)測。例子:五個訓(xùn)練記錄,所有的記錄都是正確標記的,對應(yīng)的決策樹盡過分擬合與多重比較模型的過分擬合可能出現(xiàn)在使用多重比較過程的算法中多重比較的例子:考慮未來十個交易日股市是升還是降一個人十次猜測至少正確預(yù)測八次的概率是:0.0547假設(shè)從50個股票分析家中選擇一個投資顧問,策略是選擇在未來的十個交易日做出最多正確預(yù)測的分析家。該策略的缺點是,即使所有的分析家都用隨機猜測做出預(yù)測,至少有一個分析家做出八次正確預(yù)測的概率是:1-(1-0.0547)50=0.9399,這一結(jié)果相當高。過分擬合與多重比較模型的過分擬合可能出現(xiàn)在使用多重比較過程的多重比較過程與模型過分擬合有什么關(guān)系?在決策樹增長過程中,可以進行多種測試,以確定哪個屬性能夠最好的劃分訓(xùn)練數(shù)據(jù)。在這種情況下,算法實際上是使用多重比較過程來決定是否需要擴展決策樹。當候選屬性多,訓(xùn)練記錄數(shù)少時,這種影響就變得更加明顯。多重比較過程與模型過分擬合有什么關(guān)系?泛化誤差估計過分擬合的主要原因一直是個爭辯的話題,但大家還是普遍同意模型的復(fù)雜度對模型的過分擬合有影響。如何確定正確的模型復(fù)雜度?理想的復(fù)雜度是能產(chǎn)生最低泛化誤差的模型的復(fù)雜度。估計泛化誤差的方法使用再代入估計。用訓(xùn)練誤差提供對泛化誤差的樂觀估計結(jié)合模型復(fù)雜度估計統(tǒng)計上界使用確定集泛化誤差估計過分擬合的主要原因一直是個爭辯的話題,但大家還是第4章分類:基本概念、決策樹與模型評估課件結(jié)合模型復(fù)雜度奧卡姆剃刀(Occam'sRazor):給定兩個具有相同泛化誤差的模型,較簡單的模型比復(fù)雜的模型更可取

因為復(fù)雜模型中的附加成分很大程度上是偶然的擬合。因此,分類模型評估應(yīng)把模型復(fù)雜度考慮進去方法:悲觀誤差估計、最小描述長度原則(MDL)結(jié)合模型復(fù)雜度奧卡姆剃刀(Occam'sRazor):悲觀誤差評估悲觀誤差估計公式:Q(ti)為每個結(jié)點ti的罰分,e(T)為訓(xùn)練樣本集的錯分樣本數(shù),Nt為訓(xùn)練樣本總數(shù),k為葉結(jié)點數(shù)。悲觀誤差評估第4章分類:基本概念、決策樹與模型評估課件例子1:如果罰分等于0.5,訓(xùn)練樣本集中樣本數(shù)為24個,我們構(gòu)建了7個葉結(jié)點的決策樹,訓(xùn)練樣本集的錯分樣本數(shù)為4根據(jù)公式我們得e’(T)=(4+7*0.5)/24=0.3125例子2:如果罰分等于0.5,訓(xùn)練樣本集中樣本數(shù)為24個,我們構(gòu)建了4個葉結(jié)點的決策樹,訓(xùn)練樣本集的錯分樣本數(shù)為6根據(jù)公式我們得e’(T)=(6+4*0.5)/24=0.3333當罰分等于1時,例1,2為0.458,0.4170.5的罰分項表示只要至少能夠改進一個訓(xùn)練記錄的分類,結(jié)點就應(yīng)當擴充,因為擴展一個結(jié)點等價于總誤差增加0.5,代價比犯一個訓(xùn)練錯誤小例子1:如果罰分等于0.5,訓(xùn)練樣本集中樣本數(shù)為24個,我們最小描述長度(MDL)Cost(Model,Data)=Cost(Data|Model)+Cost(Model)Cost是傳輸總代價.最小化cost值.Cost(Data|Model)是誤分類記錄編碼的開銷.Cost(Model)是模型編碼的開銷.最小描述長度(MDL)Cost(Model,Data)=使用確認集該方法中,不是用訓(xùn)練集估計泛化誤差,而是把原始的訓(xùn)練數(shù)據(jù)集分為兩個較小的子集,一個子集用于訓(xùn)練,而另一個稱為確認集,用于估計泛化誤差。該方法為評估模型在未知樣本上的性能提供了較好辦法。使用確認集該方法中,不是用訓(xùn)練集估計泛化誤差,而是把原始的訓(xùn)處理決策樹中的過分擬合先剪枝(EarlyStoppingRule)樹增長算法在產(chǎn)生完全擬合整個訓(xùn)練數(shù)據(jù)集的之前就停止決策樹的生長為了做到這一點,需要采用更具限制性的結(jié)束條件:

當結(jié)點的記錄數(shù)少于一定閾值,則停止生長當不純性度量的增益低于某個確定的閾值時,則停止生長(e.g.,informationgain).缺點:很難為提前終止選取正確的閾值:

閾值太高,導(dǎo)致擬合不足閾值太低,導(dǎo)致不能充分解決過分擬合的問題。處理決策樹中的過分擬合先剪枝(EarlyStopping處理決策樹中的過分擬合…后剪枝在該方法中,初始決策樹按照最大規(guī)模生長,然后進行剪枝的步驟,按照自底向上的方式修剪完全增長的決策樹。修剪有兩種做法:

用新的葉結(jié)點替換子樹,該葉結(jié)點的類標號由子樹下記錄中的多數(shù)類確定用子樹中最常用的分支代替子樹處理決策樹中的過分擬合…后剪枝處理決策樹中的過分擬合…與先剪枝相比,后剪枝技術(shù)傾向于產(chǎn)生更好的結(jié)果。因為不像先剪枝,后剪枝是根據(jù)完全增長的決策樹作出的剪枝決策,先剪枝則可能過早終止決策樹的生長。然而,對于后剪枝,當子樹被剪掉后,生長完全決策樹的額外開銷就被浪費了。處理決策樹中的過分擬合…不平衡類問題PREDICTEDCLASS

ACTUAL

CLASSClass=YesClass=NoClass=Yesa

(TP)b

(FN)Class=Noc

(FP)d

(TN)不平衡類問題PREDICTEDCLASS

Class=Ye準確率的缺點考慮2類問題類0的樣本數(shù)=9990類1的樣本數(shù)=10如果模型預(yù)測所有的樣本為類0,準確率為9990/10000=99.9%準確率的值具有欺騙性模型并沒有分對類1的任何樣本準確率的缺點考慮2類問題度量度量精度確定在分類器斷言為正類的那部分記錄中實際為正類的記錄所占的比例。精度越高,分類器的假正類錯誤率就越低。召回率度量被分類器正確預(yù)測的正樣本的比例。具有高召回率的分類器很少將正樣本誤分為負樣本。精度確定在分類器斷言為正類的那部分記錄中實際為正類的記錄所占ROC(ReceiverOperatingCharacteristic)ROC曲線是顯示分類器真正率(TPR)和假正率(FPR)之間折中的一種圖形化方法。ROC曲線上有幾個關(guān)鍵點,它們有公認的解釋:(TPR=0,F(xiàn)PR=0):把每個實例都預(yù)測為負類的模型(TPR=1,F(xiàn)PR=1):把每個實例都預(yù)測為正類的模型(TPR=1,F(xiàn)PR=0):理想模型ROC(ReceiverOperatingCharac使用ROC曲線比較模型沒有哪個模型能夠壓倒對方FRR<0.36,M1

較好FRR>0.36,M2較好ROC曲線下方的面積理想情況:

面積=1隨機猜測:

面積=0.5使用ROC曲線比較模型沒有哪個模型能夠壓倒對方怎樣產(chǎn)生ROC曲線Threshold>=ROC曲線:怎樣產(chǎn)生ROC曲線Threshold>=ROC曲線:演講完畢,謝謝觀看!演講完畢,謝謝觀看!數(shù)據(jù)挖掘

分類:基本概念、決策樹與模型評價第4章分類:基本概念、決策樹與模型評價數(shù)據(jù)挖掘

分類:基本概念、決策樹與模型評價第4章分類:基

分類的是利用一個分類函數(shù)(分類模型、分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)影射到給定類別中的一個。

分類的是利用一個分類函數(shù)(分類模型、分類器分類分類訓(xùn)練集:數(shù)據(jù)庫中為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練集。訓(xùn)練集中的單個元組稱為訓(xùn)練樣本,每個訓(xùn)練樣本有一個類別標記。一個具體樣本的形式可為:(v1,v2,...,vn;c);其中vi表示屬性值,c表示類別。測試集:用于評估分類模型的準確率訓(xùn)練集:數(shù)據(jù)庫中為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練集。數(shù)據(jù)分類——一個兩步過程(1)第一步,建立一個模型,描述預(yù)定數(shù)據(jù)類集和概念集假定每個元組屬于一個預(yù)定義的類,由一個類標號屬性確定學(xué)習(xí)模型可以用分類規(guī)則、決策樹或數(shù)學(xué)公式的形式提供數(shù)據(jù)分類——一個兩步過程(1)第一步,建立一個模型,描述預(yù)數(shù)據(jù)分類——一個兩步過程(2)第二步,使用模型,對將來的或未知的對象進行分類首先評估模型的預(yù)測準確率對每個測試樣本,將已知的類標號和該樣本的學(xué)習(xí)模型類預(yù)測比較模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比測試集要獨立于訓(xùn)練樣本集,否則會出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況如果準確性能被接受,則分類規(guī)則就可用來對新數(shù)據(jù)進行分類數(shù)據(jù)分類——一個兩步過程(2)第二步,使用模型,對將來的或有監(jiān)督的學(xué)習(xí)VS.無監(jiān)督的學(xué)習(xí)有監(jiān)督的學(xué)習(xí)(用于分類)模型的學(xué)習(xí)在被告知每個訓(xùn)練樣本屬于哪個類的“監(jiān)督”下進行新數(shù)據(jù)使用訓(xùn)練數(shù)據(jù)集中得到的規(guī)則進行分類無監(jiān)督的學(xué)習(xí)(用于聚類)每個訓(xùn)練樣本的類編號是未知的,要學(xué)習(xí)的類集合或數(shù)量也可能是事先未知的通過一系列的度量、觀察來建立數(shù)據(jù)中的類編號或進行聚類有監(jiān)督的學(xué)習(xí)VS.無監(jiān)督的學(xué)習(xí)有監(jiān)督的學(xué)習(xí)(用于分類)分類模型的構(gòu)造方法1.機器學(xué)習(xí)方法:決策樹法規(guī)則歸納2.統(tǒng)計方法:知識表示是判別函數(shù)和原型事例貝葉斯法非參數(shù)法(近鄰學(xué)習(xí)或基于事例的學(xué)習(xí))3.神經(jīng)網(wǎng)絡(luò)方法:BP算法,模型表示是前向反饋神經(jīng)網(wǎng)絡(luò)模型4.粗糙集(roughset)知識表示是產(chǎn)生式規(guī)則分類模型的構(gòu)造方法1.機器學(xué)習(xí)方法:一個決策樹的例子categoricalcategoricalcontinuousclassRefundMarStTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80KSplittingAttributes訓(xùn)練數(shù)據(jù)模型:決策樹一個決策樹的例子categoricalcategorical決策樹的另一個例子categoricalcategoricalcontinuousclassMarStRefundTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K決策樹的另一個例子categoricalcategorica用決策樹歸納分類什么是決策樹?類似于流程圖的樹結(jié)構(gòu)每個內(nèi)部節(jié)點表示在一個屬性上的測試每個分枝代表一個測試輸出每個樹葉節(jié)點代表類或類分布決策樹的生成由兩個階段組成決策樹構(gòu)建開始時,所有的訓(xùn)練樣本都在根節(jié)點遞歸的通過選定的屬性,來劃分樣本(必須是離散值)樹剪枝許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和孤立點,樹剪枝試圖檢測和剪去這種分枝決策樹的使用:對未知樣本進行分類通過將樣本的屬性值與決策樹相比較用決策樹歸納分類什么是決策樹?為了對未知數(shù)據(jù)對象進行分類識別,可以根據(jù)決策樹的結(jié)構(gòu)對數(shù)據(jù)集中的屬性進行測試,從決策樹的根節(jié)點到葉節(jié)點的一條路徑就形成了相應(yīng)對象的類別測試。決策樹可以很容易轉(zhuǎn)換為分類規(guī)則為了對未知數(shù)據(jù)對象進行分類識別,可以根據(jù)決策樹的結(jié)構(gòu)決策樹分類任務(wù)DecisionTree決策樹分類任務(wù)DecisionTree一個決策樹的例子categoricalcategoricalcontinuousclassRefundMarStTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80KSplittingAttributes訓(xùn)練數(shù)據(jù)模型:決策樹一個決策樹的例子categoricalcategorical應(yīng)用決策樹進行分類RefundMarStTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K測試數(shù)據(jù)Startfromtherootoftree.應(yīng)用決策樹進行分類RefundMarStTaxIncYESN應(yīng)用決策樹進行分類RefundMarStTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K測試數(shù)據(jù)應(yīng)用決策樹進行分類RefundMarStTaxIncYESN應(yīng)用決策樹進行分類RefundMarStTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K測試數(shù)據(jù)應(yīng)用決策樹進行分類RefundMarStTaxIncYESN應(yīng)用決策樹進行分類RefundMarStTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K測試數(shù)據(jù)應(yīng)用決策樹進行分類RefundMarStTaxIncYESN應(yīng)用決策樹進行分類RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K測試數(shù)據(jù)應(yīng)用決策樹進行分類RefundMarStTaxIncYESN應(yīng)用決策樹進行分類RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K測試數(shù)據(jù)AssignCheatto“No”應(yīng)用決策樹進行分類RefundMarStTaxIncYESN決策樹分類DecisionTree決策樹分類DecisionTree決策樹有許多決策樹算法:Hunt算法信息增益——Informationgain

(ID3)增益比率——Gainration(C4.5)基尼指數(shù)——Giniindex

(SLIQ,SPRINT)決策樹有許多決策樹算法:Hunt算法設(shè)Dt

是與結(jié)點t相關(guān)聯(lián)的訓(xùn)練記錄集算法步驟:如果Dt

中所有記錄都屬于同一個類yt,則t是葉結(jié)點,用yt標記如果Dt

中包含屬于多個類的記錄,則選擇一個屬性測試條件,將記錄劃分成較小的子集。對于測試條件的每個輸出,創(chuàng)建一個子結(jié)點,并根據(jù)測試結(jié)果將Dt中的記錄分布到子結(jié)點中。然后,對于每個子結(jié)點,遞歸地調(diào)用該算法Dt?Hunt算法設(shè)Dt是與結(jié)點t相關(guān)聯(lián)的訓(xùn)練記錄集Dt?Hunt算法Don’tCheatRefundDon’tCheatDon’tCheatYesNoRefundDon’tCheatYesNoMaritalStatusDon’tCheatCheatSingle,DivorcedMarriedTaxableIncomeDon’tCheat<80K>=80KRefundDon’tCheatYesNoMaritalStatusDon’tCheatCheatSingle,DivorcedMarriedHunt算法Don’tRefundDon’tDon’t決策樹Hunt算法采用貪心策略構(gòu)建決策樹.在選擇劃分數(shù)據(jù)的屬性時,采取一系列局部最優(yōu)決策來構(gòu)造決策樹.決策樹歸納的設(shè)計問題如何分裂訓(xùn)練記錄怎樣為不同類型的屬性指定測試條件?怎樣評估每種測試條件?如何停止分裂過程決策樹Hunt算法采用貪心策略構(gòu)建決策樹.決策樹Hunt算法采用貪心策略構(gòu)建決策樹.在選擇劃分數(shù)據(jù)的屬性時,采取一系列局部最優(yōu)決策來構(gòu)造決策樹.決策樹歸納的設(shè)計問題如何分裂訓(xùn)練記錄怎樣為不同類型的屬性指定測試條件?怎樣評估每種測試條件?如何停止分裂過程決策樹Hunt算法采用貪心策略構(gòu)建決策樹.怎樣為不同類型的屬性指定測試條件?依賴于屬性的類型標稱序數(shù)連續(xù)依賴于劃分的路數(shù)2路劃分多路劃分怎樣為不同類型的屬性指定測試條件?依賴于屬性的類型基于標稱屬性的分裂多路劃分:

劃分數(shù)(輸出數(shù))取決于該屬性不同屬性值的個數(shù).二元劃分:

劃分數(shù)為2,這種劃分要考慮創(chuàng)建k個屬性值的二元劃分的所有2k-1-1種方法.CarTypeFamilySportsLuxuryCarType{Family,

Luxury}{Sports}CarType{Sports,Luxury}{Family}ORCarType{Family,

Sports}{Luxury}基于標稱屬性的分裂多路劃分:劃分數(shù)(輸出數(shù))取決于該屬性不多路劃分:

劃分數(shù)(輸出數(shù))取決于該屬性不同屬性值的個數(shù).二元劃分:

劃分數(shù)為2,需要保持序數(shù)屬性值的有序性.基于序數(shù)屬性的劃分SizeSmallMediumLargeSize{Medium,

Large}{Small}Size{Small,Medium}{Large}ORSize{Small,Large}{Medium}多路劃分:劃分數(shù)(輸出數(shù))取決于該屬性不同屬性值的個數(shù).基基于連續(xù)屬性的劃分多路劃分:vi≤A<vi+1(i=1,…,k)二元劃分:(A<v)or(Av)考慮所有的劃分點,選擇一個最佳劃分點v基于連續(xù)屬性的劃分基于連續(xù)屬性的劃分基于連續(xù)屬性的劃分決策樹決策樹歸納的設(shè)計問題如何分裂訓(xùn)練記錄怎樣為不同類型的屬性指定測試條件?怎樣評估每種測試條件?如何停止分裂過程決策樹怎樣選擇最佳劃分?在劃分前:10個記錄class0,

10個記錄class1怎樣選擇最佳劃分?在劃分前:10個記錄class0,怎樣選擇最佳劃分?選擇最佳劃分的度量通常是根據(jù)劃分后子結(jié)點不純性的程度。不純性的程度越低,類分布就越傾斜結(jié)點不純性的度量:不純性大不純性小怎樣選擇最佳劃分?選擇最佳劃分的度量通常是根據(jù)劃分后子結(jié)點不怎樣找到最佳劃分?B?YesNoNodeN3NodeN4A?YesNoNodeN1NodeN2劃分前:M0M1M2M3M4M12M34Gain=M0–M12vsM0–M34怎樣找到最佳劃分?B?YesNoNodeN3NodeN4結(jié)點不純性的測量GiniEntropyclassificationerror結(jié)點不純性的測量Gini不純性的測量:GINI給定結(jié)點t的Gini值計算:

(p(j|t)是在結(jié)點t中,類j發(fā)生的概率).當類分布均衡時,Gini值達到最大值(1-1/nc)相反當只有一個類時,Gini值達到最小值0不純性的測量:GINI給定結(jié)點t的Gini值計算:計算GINI的例子P(C1)=0/6=0P(C2)=6/6=1Gini=1–P(C1)2–P(C2)2=1–0–1=0P(C1)=1/6P(C2)=5/6Gini=1–(1/6)2–(5/6)2=0.278P(C1)=2/6P(C2)=4/6Gini=1–(2/6)2–(4/6)2=0.444計算GINI的例子P(C1)=0/6=0基于GINI的劃分當一個結(jié)點p分割成k個部分(孩子),劃分的質(zhì)量可由下面公式計算

ni=孩子結(jié)點i的記錄數(shù), n

=父結(jié)點p的記錄數(shù).基于GINI的劃分當一個結(jié)點p分割成k個部分(孩二元屬性:計算GINI對于二元屬性,結(jié)點被劃分成兩個部分得到的GINI值越小,這種劃分越可行.B?YesNoNodeN1NodeN2Gini(N1)

=1–(5/6)2–(2/6)2

=0.194Gini(N2)

=1–(1/6)2–(4/6)2

=0.528Ginisplit

=7/12*0.194+

5/12*0.528

=0.333二元屬性:計算GINI對于二元屬性,結(jié)點被劃分成兩個部分標稱屬性:計算Gini多路劃分二元劃分一般多路劃分的Gini值比二元劃分小,這一結(jié)果并不奇怪,因為二元劃分實際上合并了多路劃分的某些輸出,自然降低了子集的純度Multi-waysplitTwo-waysplit(findbestpartitionofvalues)標稱屬性:計算Gini多路劃分Multi-waysplit連續(xù)屬性:計算Gini使用二元劃分劃分點v選擇N個記錄中所有屬性值作為劃分點對每個劃分進行類計數(shù),A<vandAv計算每個候選點v的Gini指標,并從中選擇具有最小值的候選劃分點時間復(fù)雜度為(n2)連續(xù)屬性:計算Gini使用二元劃分連續(xù)屬性:計算Gini...降低計算復(fù)雜性的方法,將記錄進行排序從兩個相鄰的排過序的屬性值之間選擇中間值作為劃分點計算每個候選點的Gini值時間復(fù)雜度為nlogn劃分點排序后的值連續(xù)屬性:計算Gini...降低計算復(fù)雜性的方法,劃分點

定義:給定一個概率空間事件的自信息定義為

因自信息反映了事件發(fā)生所需要的信息量。值越大說明需要越多的信息才能確定事件的發(fā)生,其隨機性也越大,而當發(fā)生時所攜帶的信息量也越大。反過來,值越小,需要較少信息量就能確定的發(fā)生,即事件隨機性較小。當其發(fā)生時所攜信息量就少。是對不確定性大小的一種刻畫熵---定義定義:給定一個概率空間熵---定義1.定義:在概率空間上定義的隨機變量I(X)的數(shù)學(xué)期望

稱為隨機變量X的平均自信息,又稱X的信息熵或熵記為H(x)熵---定義1.定義:在概率空間非負性:H大于等于0連續(xù)性:H對任意q連續(xù)極值性:當q都等于1\K時H達到最大值logK熵---定義非負性:H大于等于0熵---定義基于InformationGain的劃分給定結(jié)點t的Entropy值計算:(p(j|t)是在結(jié)點t中,類j發(fā)生的概率).當類分布均衡時,Entropy值達到最大值(lognc)相反當只有一個類時,Gini值達到最小值0Entropy與GINI相似基于InformationGain的劃分給定結(jié)點t的E計算Entropy的例子P(C1)=0/6=0P(C2)=6/6=1Entropy=–0log0

–1log1=–0–0=0P(C1)=1/6P(C2)=5/6Entropy=–(1/6)log2(1/6)

–(5/6)log2(1/6)=0.65P(C1)=2/6P(C2)=4/6Entropy=–(2/6)log2(2/6)

–(4/6)log2(4/6)=0.92計算Entropy的例子P(C1)=0/6=0基于InformationGain的劃分...InformationGain:

ni=孩子結(jié)點i的記錄數(shù), n

=結(jié)點p的記錄數(shù). 在ID3andC4.5中使用基于InformationGain的劃分...Infor基于InformationGain的劃分...增益率(GainRatio):熵和Gini指標等不純性趨向于有利于具有大量不同值的屬性!如:利用雇員id產(chǎn)生更純的劃分,但它卻毫無用處每個劃分相關(guān)聯(lián)的記錄數(shù)太少,將不能做出可靠的預(yù)測解決該問題的策略有兩種:限制測試條件只能是二元劃分使用增益率。K越大SplitInfo越大增益率越小基于InformationGain的劃分...增益率(G基于ClassificationError的劃分給定結(jié)點t的ClassificationError值計算

:當類分布均衡時,error值達到最大值(1-1/nc)相反當只有一個類時,error值達到最小值0基于ClassificationError的劃分給定結(jié)點例子P(C1)=0/6=0P(C2)=6/6=1Error=1–max(0,1)=1–1=0P(C1)=1/6P(C2)=5/6Error=1–max(1/6,5/6)=1–5/6=1/6P(C1)=2/6P(C2)=4/6Error=1–max(2/6,4/6)=1–4/6=1/3例子P(C1)=0/6=0P(C2)=不純性度量之間的比較二元分類問題:不純性度量之間的比較二元分類問題:第4章分類:基本概念、決策樹與模型評估課件決策樹Hunt算法采用貪心策略構(gòu)建決策樹.在選擇劃分數(shù)據(jù)的屬性時,采取一系列局部最優(yōu)決策來構(gòu)造決策樹.決策樹歸納的設(shè)計問題如何分裂訓(xùn)練記錄怎樣為不同類型的屬性指定測試條件?怎樣評估每種測試條件?如何停止分裂過程決策樹Hunt算法采用貪心策略構(gòu)建決策樹.停止分裂過程當所有的記錄屬于同一類時,停止分裂當所有的記錄都有相同的屬性時,停止分裂提前終止樹的生長停止分裂過程當所有的記錄屬于同一類時,停止分裂第4章分類:基本概念、決策樹與模型評估課件三種著名的決策樹Cart:基本的決策樹算法Id3:利用增益比不純性,樹采用二叉樹,停止準則為當所有的記錄屬于同一類時,停止分裂,或當所有的記錄都有相同的屬性時,停止分裂C4.5:id3的改進版本,也是最流行的分類數(shù)算法。采用多重分支和剪枝技術(shù)。三種著名的決策樹Cart:基本的決策樹算法決策樹特點:決策樹是一種構(gòu)建分類模型的非參數(shù)方法不需要昂貴的的計算代價決策樹相對容易解釋決策樹是學(xué)習(xí)離散值函數(shù)的典型代表決策數(shù)對于噪聲的干擾具有相當好的魯棒性冗余屬性不會對決策樹的準確率造成不利影響數(shù)據(jù)碎片問題。隨著數(shù)的生長,可能導(dǎo)致葉結(jié)點記錄數(shù)太少,對于葉結(jié)點代表的類,不能做出具有統(tǒng)計意義的判決子樹可能在決策樹中重復(fù)多次。使決策樹過于復(fù)雜決策樹特點:子樹重復(fù)問題

Samesubtreeappearsinmultiplebranches子樹重復(fù)問題Samesubtreeappearsin決策邊界

決策邊界斜決策樹x+y<1Class=+

Class=斜決策樹x+y<1Class=+Class=模型過分擬合和擬合不足分類模型的誤差大致分為兩種:訓(xùn)練誤差:是在訓(xùn)練記錄上誤分類樣本比例泛化誤差:是模型在未知記錄上的期望誤差一個好的分類模型不僅要能夠很好的擬合訓(xùn)練數(shù)據(jù),而且對未知樣本也要能準確分類。換句話說,一個好的分類模型必須具有低訓(xùn)練誤差和低泛化誤差。當訓(xùn)練數(shù)據(jù)擬合太好的模型,其泛化誤差可能比具有較高訓(xùn)練誤差的模型高,這種情況成為模型過分擬合模型過分擬合和擬合不足分類模型的誤差大致分為兩種:模型過分擬合和擬合不足當決策樹很小時,訓(xùn)練和檢驗誤差都很大,這種情況稱為模型擬合不足。出現(xiàn)擬合不足的原因是模型尚未學(xué)習(xí)到數(shù)據(jù)的真實結(jié)構(gòu)。隨著決策樹中結(jié)點數(shù)的增加,模型的訓(xùn)練誤差和檢驗誤差都會隨之下降。當樹的規(guī)模變得太大時,即使訓(xùn)練誤差還在繼續(xù)降低,但是檢驗誤差開始增大,導(dǎo)致模型過分擬合模型過分擬合和擬合不足當決策樹很小時,訓(xùn)練和檢驗誤差都很大,模型模型過分擬合和擬合不足過分擬合模型模型過分擬合和擬合不足過分擬合導(dǎo)致過分擬合的原因?qū)е逻^分擬合的原因?qū)е逻^分擬合的原因噪聲導(dǎo)致的過分擬合例子:哺乳動物的分類問題十個訓(xùn)練記錄中有兩個被錯誤標記:蝙蝠和鯨如果完全擬合訓(xùn)練數(shù)據(jù),決策樹1的訓(xùn)練誤差為0,但它在檢驗數(shù)據(jù)上的誤差達30%.人和海豚,針鼴誤分為非哺乳動物相反,一個更簡單的決策樹2,具有較低的檢驗誤差(10%),盡管它的訓(xùn)練誤差較高,為20%決策樹1過分擬合了訓(xùn)練數(shù)據(jù)。因為屬性測試條件4條腿具有欺騙性,它擬合了誤標記的訓(xùn)練紀錄,導(dǎo)致了對檢驗集中記錄的誤分類導(dǎo)致過分擬合的原因噪聲導(dǎo)致的過分擬合噪聲導(dǎo)致的過分擬合(例子)噪聲導(dǎo)致決策邊界的改變噪聲導(dǎo)致的過分擬合(例子)噪聲導(dǎo)致決策邊界的改變?nèi)狈Υ硇詷颖緦?dǎo)致的過分擬合根據(jù)少量訓(xùn)練記錄做出分類決策的模型也容易受過分擬合的影響。由于訓(xùn)練數(shù)據(jù)缺乏具有代表性的樣本,在沒有多少訓(xùn)練記錄的情況下,學(xué)習(xí)算法仍然細化模型就會產(chǎn)生過分擬合。缺乏代表性樣本導(dǎo)致的過分擬合根據(jù)少量訓(xùn)練記錄做出分類決策的模第4章分類:基本概念、決策樹與模型評估課件例子:五個訓(xùn)練記錄,所有的記錄都是正確標記的,對應(yīng)的決策樹盡管訓(xùn)練誤差為0,但檢驗誤差高達30%人、大象和海豚被誤分類,因為決策樹把恒溫但不冬眠的動物分為非哺乳動物。決策樹做出這樣的分類決策是因為只有一個訓(xùn)練記錄(鷹)具有這些特征。這個例子清楚的表明,當決策樹的葉結(jié)點沒有足夠的代表性樣本時,很可能做出錯誤的預(yù)測。例子:五個訓(xùn)練記錄,所有的記錄都是正確標記的,對應(yīng)的決策樹盡過分擬合與多重比較模型的過分擬合可能出現(xiàn)在使用多重比較過程的算法中多重比較的例子:考慮未來十個交易日股市是升還是降一個人十次猜測至少正確預(yù)測八次的概率是:0.0547假設(shè)從50個股票分析家中選擇一個投資顧問,策略是選擇在未來的十個交易日做出最多正確預(yù)測的分析家。該策略的缺點是,即使所有的分析家都用隨機猜測做出預(yù)測,至少有一個分析家做出八次正確預(yù)測的概率是:1-(1-0.0547)50=0.9399,這一結(jié)果相當高。過分擬合與多重比較模型的過分擬合可能出現(xiàn)在使用多重比較過程的多重比較過程與模型過分擬合有什么關(guān)系?在決策樹增長過程中,可以進行多種測試,以確定哪個屬性能夠最好的劃分訓(xùn)練數(shù)據(jù)。在這種情況下,算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論