決策樹原理與應(yīng)用:C50_第1頁
決策樹原理與應(yīng)用:C50_第2頁
決策樹原理與應(yīng)用:C50_第3頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、決策樹原理與應(yīng)用: C5.0分類預(yù)測指通過向現(xiàn)有數(shù)據(jù)的學(xué)習(xí),使模型具備對未來 新數(shù)據(jù)的預(yù)測能力。對于分類預(yù)測有這樣幾個重要,一是此 模型使用的方法是歸納和提煉,而不是演繹。非數(shù)據(jù)挖掘類 的軟件的基本原理往往是演繹,軟件能通過一系列的運(yùn)算, 用已知的公式對數(shù)據(jù)進(jìn)行運(yùn)算或統(tǒng)計(jì)。分類預(yù)測的基本原理 是歸納,是學(xué)習(xí), 是發(fā)現(xiàn)新知識和新規(guī)律; 二是指導(dǎo)性學(xué)習(xí) 所謂指導(dǎo)性學(xué)習(xí),指數(shù)據(jù)中包含的變量不僅有預(yù)測性變量, 還有目標(biāo)變量;三是學(xué)習(xí),模型通過歸納而不斷學(xué)習(xí)。 事實(shí)上,預(yù)測包含目標(biāo)變量為連續(xù)型變量的預(yù)測和目標(biāo)變量 為分在變量的分類預(yù)測。兩者雖然都是預(yù)測,但結(jié)合決策樹 算法和我們之前介紹過的時間序列算法知

2、,二者還是有明顯 的差別的。Clementine 決策樹的特點(diǎn)是數(shù)據(jù)分析能力出色,分析結(jié)果易 于展示。決策樹算法是應(yīng)用非常廣泛的分類預(yù)測算法。1.1 決策樹算法概述 1.11 什么是決策樹決策樹算法屬于有指 導(dǎo)的學(xué)習(xí),即原數(shù)據(jù)必須包含預(yù)測變量和目標(biāo)變量。決策樹 之所以如此命名,是因?yàn)槠浞治鼋Y(jié)果以一棵倒置的樹的形式 呈現(xiàn)。決策樹由上到下依次為根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn)。 一個節(jié)點(diǎn)對應(yīng)于數(shù)據(jù)中的一個字段,即一個字段即 Question對數(shù)據(jù)進(jìn)行一次劃分。決策樹分為分類決策樹(目標(biāo)變量為分類型數(shù)值)和回歸決策樹(目標(biāo)變量為連續(xù) 型變量)。分類決策樹葉節(jié)點(diǎn)所含樣本中,其輸出變量的眾 數(shù)就是分類結(jié)果;回歸

3、樹的葉節(jié)點(diǎn)所含樣本中,其輸出變量 的平均值就是預(yù)測結(jié)果。這一點(diǎn)需要格外注意。與其它分類預(yù)測算法不同的是,決策樹基于邏輯比較(即布爾比較)。可以簡單描述為:If (條件1) Then (結(jié)果1); If (條件2) Then (結(jié)果2)。這樣,每一個葉節(jié)點(diǎn)都對應(yīng)于一 條布爾比較的推理規(guī)則,對新數(shù)據(jù)的預(yù)測就正是依靠這些復(fù) 雜的推理規(guī)則。在實(shí)際應(yīng)用中,一個數(shù)據(jù)產(chǎn)生的推理規(guī)則是 極為龐大和復(fù)雜的,因此對推理規(guī)則的精簡是需要關(guān)注的。1.12 決策樹的幾何理解將訓(xùn)練樣本集(即操作中常說的 Training Data )看做一個 n 維空間上的一個點(diǎn),則上面我們 提到的布爾比較后的推理規(guī)則就像是存在于這個

4、n 維空間中 的“線”。決策樹建立的過程形象上看,就是倒置的樹生長 的過程,其幾何意義上是,每個分枝(每條推理規(guī)則)完成對n維空間區(qū)域劃分的過程。決策樹正式生成,則 n維空間 正式劃分完畢,則每一個小區(qū)域,代表一個葉節(jié)點(diǎn)。通常 n 維空間不易于理解,故采用倒置的樹來表示此結(jié)果。需要注 意的一點(diǎn)是,在劃分過程中,要盡量做到不同類別的結(jié)果歸 于不同的“區(qū)域” 。1.13 決策樹的核心問題:生成與修剪決策樹核心問題有二。一是利用 Training Data 完成決策樹的生成過程;二是利用 Testing Data 完成對決策樹的精簡過程。即前面我們提到的, 生成的推理規(guī)則往往過多,精簡是必需的。一、

5、決策樹的生長決策樹生長過程的本質(zhì)是對 Training Data 反復(fù)分組(分枝)的過程,當(dāng)數(shù)據(jù)分組(分枝)不再有意義 注意,什么叫分組不再有意義時,決策樹生成過程 停止。因此,決策樹生長的核心算法是確定數(shù)據(jù)分析的標(biāo)準(zhǔn), 即分枝標(biāo)準(zhǔn)。何為有意義呢?注意,當(dāng)決策樹分枝后結(jié)果差異不再顯著下 降,則繼續(xù)分組沒有意義。也就是說,我們分組的目的,是 為了讓輸出變量在差異上盡量小,到達(dá)葉節(jié)點(diǎn)時,不同葉節(jié) 點(diǎn)上的輸出變量為相同類別,或達(dá)到用戶指定的決策樹停止 生成的標(biāo)準(zhǔn)。這樣,分枝準(zhǔn)則涉及到兩方面問題: 1、如果從眾多輸入變 量中選擇最佳分組變量; 2、如果從分組變量的眾多取值中 找到最佳分割點(diǎn)。 不同的決

6、策樹算法, 如 C4.5、C5.0、Chaid 、 Quest、 Cart 采用了不同策略。二、決策樹的修剪完整的決策樹并不是一棵分類預(yù)測新數(shù)據(jù) 對象的最佳樹。其原因是完整的決策樹對 Training Data 描述 過于“精確”。我們知道,隨著決策樹的生長,決策樹分枝 時所處理的樣本數(shù)量在不斷減少,決策樹對數(shù)據(jù)總體珠代表 程度在不斷下降。在對根節(jié)點(diǎn)進(jìn)行分枝時,處理的是全部樣 本,再往下分枝,則是處理的不同分組下的分組下的樣本。 可見隨著決策樹的生長和樣本數(shù)量的不斷減少,越深層處的 節(jié)點(diǎn)所體現(xiàn)的數(shù)據(jù)特征就越個性化,可能出現(xiàn)如上推理規(guī) 則:“年收入大于 50000 元且年齡大于 50 歲且姓名叫

7、張三的 人購買了此產(chǎn)品” 。這種過度學(xué)習(xí)從而精確反映 Training Data 特征,失去一般代表性而無法應(yīng)用于新數(shù)據(jù)分類預(yù)測的現(xiàn) 象,叫過度擬合( Overfitting )或過度學(xué)習(xí)。那我們應(yīng)該怎么 辦呢?修剪! 常用的修剪技術(shù)有預(yù)修剪( Pre-Pruning )和后修剪 (Post-Pruning)。 Pre-Pruning 可以事先指定決策樹的最大深 度,或最小樣本量,以防止決策樹過度生長。前提是用戶對 變量聚會有較為清晰的把握,且要反復(fù)嘗試調(diào)整,否則無法 給出一個合理值。注意,決策樹生長過深無法預(yù)測新數(shù)據(jù), 生長過淺亦無法預(yù)測新數(shù)據(jù)。Post-pruning 是一個邊修剪邊檢驗(yàn)的

8、過程, 即在決策樹充分生 長的基礎(chǔ)上,設(shè)定一個允許的最大錯誤率,然后一邊修剪子 樹,一邊計(jì)算輸出結(jié)果的精度或誤差。當(dāng)錯誤率高于最大值 后,立即停止剪枝?;?Training Data 的 Post-Pruning 應(yīng)該 使用 Testing Data。決策樹中的 C4.5、C5.0、CHAID、CART 和 QUEST 都使用了不同 剪枝策略。2.2Clementine的C5.0的算法及應(yīng)用 C5.0是C4.5的商業(yè)化版 本,因此算法細(xì)節(jié)因版權(quán)問題尚未公開,本節(jié)討論的是與 C5.0 算法核心相同的 C4.5 算法。 C4.5 是在決策樹老鼻祖算 法 ID3 算法的基礎(chǔ)上發(fā)展起來的, ID3

9、算法自 1979 年由 Quinlan 提出,經(jīng)不斷改善形成具有決策樹里程碑意義的 C4.5 算法。需要注意的是 C5.0 用于生成多分支決策樹, 輸入變量可以是 分類型,也可以是數(shù)值型,輸出變量為分類型。注意不同的 決策樹算法對輸入和輸出數(shù)據(jù)類型的要求。正如 1.1 節(jié)提到的,決策樹的核心問題之一是決策樹分枝準(zhǔn) 則的確定。 C5.0 以信息增益率為標(biāo)準(zhǔn)確定最佳分組變量和最 佳分割點(diǎn)。其核心概念是信息熵。1.2.1 信息熵和信息增益一、 信息熵信息熵是信息論中的基本 概念。信息論由 Shannon于1948年提出并發(fā)展起來,用于 解決信息傳遞過程中的問題,也稱統(tǒng)計(jì)通信理論。它認(rèn)為:1、信息傳遞

10、由信源、信道和信宿組成;2、傳遞系統(tǒng)存在于一個隨機(jī)干擾環(huán)境中,因此傳遞系統(tǒng)對信息的傳遞是隨機(jī)誤差的。 如果把發(fā)送信息記為 U 而接收到 信息記V,由信道可記為通信模型,為P(U|V)。信道模型是一個條件概率矩陣 P(U|V) 。信道模型可以看作是一個條件概率矩陣,信源也往往被理解 為某種隨機(jī)序列, 也具有某種發(fā)生概率, 且其概率求和為 1 。在實(shí)際通信前,信宿信源會發(fā)出什么信息不可能知道,稱為 信宿對信源狀態(tài)具有不確定性,由于這種不確定性是發(fā)生在 通信之前的,故稱為先驗(yàn)不確定性。在收到信息后的不確定性,稱為后驗(yàn)不確定性。如果先驗(yàn)不確定性等于后驗(yàn)不確定性,則表示信息量為零;如果后驗(yàn)不確定性等于零

11、,則表示 信宿收到了信源的全部信息。可見:信息是指對不確定性的消除。信息量由消除的不確定性來確 定。數(shù)據(jù)定義為: -Log2P(Ui) 。信息量單位是 bit ,是以 2 為 底的對數(shù)形式。信息熵是信息量的數(shù)學(xué)期望,其表示式由于 過于復(fù)雜而不寫。如果P ( U )差別越小,信息熵越大,平均不確定性越大;P(U)差別越在,信息熵越小,平均不確定性越小。如:信息熵等于 0,則表示只存在一種信息發(fā)送可能,沒有發(fā)送的不確定性。如果 P(U) =1/K ,即 K 個信源概率相同,則信息熵 差別最大,不確定性最大。二、信息增益信息熵又稱為先驗(yàn)熵,是在信息發(fā)送前信息量 的數(shù)學(xué)期望;后驗(yàn)熵指在信息發(fā)送后,人信

12、宿角度對信息量 的數(shù)學(xué)期望。 一般先驗(yàn)熵大于后驗(yàn)熵, 先驗(yàn)熵與后驗(yàn)熵估差, 即所謂的信息增益。信息增益,反映的是信息消除隨機(jī)不確 定性的程度。2.2.2 C5.0 的決策樹生長算法一、如何從眾多的分組變量中選擇一個最佳的分組變量 C5.0 以信息論為指導(dǎo),以信息增益率為標(biāo)準(zhǔn)確定最佳分組變量和 分割點(diǎn)。決策樹將輸出變量(是否購買)看做信源發(fā)出的信 息 U ,將輸入變量看成信宿收到的信息 V 。則在實(shí)際通信之前,也即是決策樹建立之前, 輸出變量做為信源發(fā)出的信息, 完全隨機(jī),其平均不確定性即為P0.在實(shí)際通信過程中添加變量1后,其平均不確定性為 P1,則添加變量1產(chǎn)生的信息 增益為P0-P1,其它

13、變量如此。則根據(jù)信息增益大小判斷哪 個變量為最佳分組變量。這里有個問題,即類別值多的輸入 變量較類別值少的輸入變量更有機(jī)會成為最佳分組變量。為 解決此問題,提出將信息增益量除以信息熵,由抵消了類別 值的影響,即有信息增益率來表征。 那么,如何評價數(shù)值型輸入變量消除平均不確定性的能力 呢?一般對其進(jìn)行分箱處理,然后根據(jù)上述方法判定。分箱 不采用了 MDLP 的熵分組方法, Clementine 中 C5.0 節(jié)點(diǎn)本 身包含了 MDLP 算法,它將自動完成數(shù)值型輸入變量的分箱 處理。二、輸入變量帶有缺失值時如何選擇最佳分組變量C5.0 在選擇最佳分組變量時,通常將帶有缺失值的樣本當(dāng)作臨時剔除 樣本

14、看待,并進(jìn)行權(quán)數(shù)調(diào)整處理。三、如何從分組變量的眾多取值中找到一個最佳的分割點(diǎn)在 確定了最佳分組變量后, C5.0 將繼續(xù)確定最佳分組變量的分 割點(diǎn)。 如果分組變量是分類型變量, 由按分組變量的 K 個取 值進(jìn)行分組,形成 K 個分枝。 如果分組變量是數(shù)值型變量,則先通過 MDLP 分箱法或 ChiMerge 分箱法進(jìn)行分箱處理,然后分組。如果分組變量中存在缺失值,那怎么辦呢?你無法判定此樣 本分到哪個組中去, C5.0 的處理是將其分到所有組中去。但 其權(quán)重不再為 1,而為此組樣本數(shù)占總樣本數(shù)的比例。2.2.3 C5.0 的剪枝算法 C5.0 采用 Post-Pruning 法從葉節(jié)點(diǎn)向 上逐

15、層剪枝,其關(guān)鍵是誤差的估計(jì)及剪枝標(biāo)準(zhǔn)的設(shè)置。一、 誤差估計(jì)一般決策樹的檢驗(yàn)應(yīng)該使用Testing Data,但C5.0 使用了統(tǒng)計(jì)的置信區(qū)間的估計(jì)方法,直接在 Training Data 中估計(jì)誤差。二、剪枝標(biāo)準(zhǔn)在得到誤差的估計(jì)后,C5.0 將按照“減少誤差”判斷是否剪枝。首先,計(jì)算待剪子樹中葉節(jié)點(diǎn)的加權(quán)誤差, 然后與父節(jié)點(diǎn)的誤差進(jìn)行比較,如果大于則可以剪掉,否則 不能剪掉。224 C5.0的推理規(guī)則集C5.0不有夠構(gòu)建決策樹,同時還可 以生成推理規(guī)則集。但是從決策樹導(dǎo)入推理規(guī)則集非常煩 鎖,推理規(guī)則集通常有自己生成算法,即 PRISM 。該算法 gf1987rh 提出,是一種“覆蓋”算法,對

16、 Training Data100% 正確。2.2.5 C5.0的基本應(yīng)用示例下面對一個使用了C5.0的挖掘案例進(jìn)行介紹,這里不再像之前介紹案例似的步步介紹,現(xiàn)在 只對重點(diǎn)部分進(jìn)行介紹。主要是 C5.0 的面板設(shè)置及 C5.0 呈 現(xiàn)的結(jié)果。下圖為 C5.0的面板設(shè)置。模型名稱:可以自動,亦可以自定義。在平時練習(xí)時默認(rèn)自 動即可,在商業(yè)活動中為避免重名或混亂,一律要自定義命 名,這是數(shù)據(jù)挖掘的基本規(guī)范。使用分區(qū)數(shù)據(jù):英文 Use Partitioned data 。勾選表示利用 Partition 變量將樣本集進(jìn)行分割。 但 C5.0 并不在 Testing Data 上進(jìn)行模型檢驗(yàn),還需要

17、Partition 嗎?需要, Partition 的目 的是比較同一模型在不同樣本集上的穩(wěn)健性。輸出類型:英文 Output Type。Decision Tree表示得不到成決 策樹和由決策樹得到的推理規(guī)則; Rule Set表示輸出推理規(guī) 則集,這個推理規(guī)則集并非由 Decision Tree 生成,而是由 PRISM 法生成的。 這里首先輸出決策樹。 組符號:英文 Group Symbolics。選中表示使用 ChiMerge分箱法檢查當(dāng)前分組變 量的各個類別能否合并,如果可以應(yīng)先合并再分枝,此方法 得到的 Decision Tree 相對精簡。 否則, 對 K 個分類型分組變 量將生成

18、 K 叉樹,對數(shù)值型分組變量將生成二叉樹。使用推進(jìn):英文 Use Boosting。表示采用推進(jìn)方法建立模型 以提高模型預(yù)測的穩(wěn)健性。交叉驗(yàn)證:英文 Cross-validate。表示將采用交叉驗(yàn)證的方法 構(gòu)建模型。模式:英文Mode。決定決策樹的剪枝策略。Simple 表示系統(tǒng)自動調(diào)整參數(shù)值,此時支持選項(xiàng)中往往選擇“精準(zhǔn) 性”,表示以預(yù)測精度做為修剪依據(jù)。 此時默認(rèn)置信度為 0.75。 Expert 選項(xiàng)表示自行調(diào)整參數(shù)進(jìn)行剪枝。下圖為選擇 Expert 后的設(shè)置面板。在修剪嚴(yán)重性(Pruning Severity )中輸入置信度,默認(rèn)范圍為 0.25 到 1.在每個分支的最小紀(jì)錄數(shù)中設(shè)置每

19、個節(jié)點(diǎn)允許的最少樣本量,亦可自行設(shè)置。 Clementine 分 別以文字和決策樹圖形的形式展示 C5.0 決策樹的分析結(jié)果。 打開結(jié)果頁面得如下圖。在“模型”面板中,展示了從決策 樹上直接獲得的推理規(guī)則集。我們發(fā)現(xiàn),在家長是否鼓勵節(jié) 點(diǎn)中,不鼓勵的含 30 個樣本, 93.3% 的選擇不參加社會公益 活動。在家長是否鼓勵中鼓勵的節(jié)點(diǎn)分支中,當(dāng)在校綜合測 評小于等于 48 時,含 15 個樣本且有 0.8 比例的為不參加公 益活動,其余的為參加公益活動。在下面有“歷史” “頻數(shù)” 的選項(xiàng)卡,點(diǎn)擊可以查看每一條推理規(guī)則的具體信息。三、 預(yù)測結(jié)果那么,我們?nèi)绾晤A(yù)測結(jié)果呢?將新生成的數(shù)學(xué)模型 “添加

20、到流” ,并添加到“類型”節(jié)點(diǎn)上,執(zhí)行,得到我們 的預(yù)測結(jié)果,如下圖。在下圖中新生成了兩個字然,分別為“ C-是否參與”與“ CC-是否參與”。第一個字段表示的是從 決策樹上得到的預(yù)測分類值,符合相應(yīng)的推理規(guī)則。第二個 字段表示的是得到此預(yù)測結(jié)果的置信度。此置信度是相應(yīng)規(guī) 則的置信信經(jīng)拉普拉斯估計(jì)器 (Laplace Estimator )調(diào)整后的 結(jié)果。 Laplace Estimator 是 Laplace 于 18 世紀(jì)發(fā)明的經(jīng)典方 法。注意,如果輸出變量為數(shù)值型變量,不存在LaplaceEstimator 。 C5.0 的數(shù)值類型要求是:輸入數(shù)據(jù)是分類型數(shù)據(jù) 或數(shù)值型數(shù)據(jù)皆可,輸出數(shù)據(jù)

21、必須是分類型數(shù)據(jù)。 C5 的損 失矩陣和 Boosting 技術(shù)一、損失矩陣前面的分析有個缺點(diǎn),即沒有考慮商業(yè)上的損失問題。事實(shí)上,當(dāng)我們使用Clementine 對相關(guān)商業(yè)問題進(jìn)行分析探討時,做出的決策是 要背負(fù)很大的商業(yè)期望的。如果預(yù)測失敗,就要承擔(dān)相當(dāng)?shù)?損失。當(dāng)然, 我們說數(shù)據(jù)挖掘中誤差是不可避免的, 但顯然, 把可能出現(xiàn)的誤差及其導(dǎo)致的損失反映出來,也是對商業(yè)客 戶的另外一種服務(wù),也是極為重要的。本文將在前面探討的 基礎(chǔ)上,引入實(shí)際的商業(yè)問題,不僅引入了損失矩陣,也引 入了 Boosting 技術(shù)。事實(shí)上,以二分問題為例,我們往往會選擇那些置信低但損 失小的決策,而不選擇那些置信度高

22、而損失高昂的決策,因 為只有這樣才可以有效地規(guī)避損失期望值。在分類預(yù)測問題 中往往出現(xiàn)兩類問題,一是實(shí)際為真卻預(yù)測為假,我們稱之 為棄真錯誤;一是實(shí)際假卻預(yù)測為真,我們稱之為取偽。棄 真取偽錯誤在傳統(tǒng)的統(tǒng)計(jì)分析中也存在,典型的就是我們的 假設(shè)檢驗(yàn)。損失矩陣是處理此類問題的有效手段,損失矩陣可以把可能 導(dǎo)致的損失引入到系統(tǒng)分析過程,從而得出更加符合商業(yè)實(shí) 際的結(jié)果。損失矩陣的用法一般分為兩種,一是在數(shù)據(jù)建模 階段使用損失矩陣;一是在樣本預(yù)測時使用損失矩陣。Clementine5.0 采用的是第一種損失矩陣使用法, 而不是第二 種。1、數(shù)據(jù)建模過程的損失矩陣。前面我介介紹到,在數(shù)據(jù)建 模過程中涉及

23、到修剪的過程,修剪時的標(biāo)準(zhǔn)是什么?是 “Reduce-Error ”,即當(dāng)此節(jié)點(diǎn)層的 Error 大于其父節(jié)點(diǎn)的 Error 時,則修剪掉,否則不予以修剪。引入損失矩陣后,修 剪方法由原先的“ Reduce-Error”轉(zhuǎn)變?yōu)椤?Reduce-Cost”法, 即當(dāng)葉節(jié)點(diǎn)的損失大于其父節(jié)點(diǎn)的損失時,則進(jìn)行修剪,否 則不予以修剪。2、樣本預(yù)測階段。在前面介紹中,我們提到,新數(shù)據(jù)的預(yù) 測由預(yù)測分類結(jié)果的眾數(shù)給出,置信度也是一個重要的考量 標(biāo)準(zhǔn)。加入損失矩陣的因素后,我們將結(jié)合某種分類預(yù)測的 錯判損失進(jìn)行考量。這樣,如果一種決策雖然有較高的置信 水平而它的錯判損失較大,我們寧可選擇置信度較低而其錯 判

24、較小的決策。下圖為 C5.0 中的損失矩陣設(shè)置頁面, 我們將棄真的錯判損失 自定義為 1,而將取偽的錯判損失自定義為 2.這樣得出的預(yù) 測結(jié)果中, Yes 的置信度都較高。C5 的損失矩陣和 Boosting 技術(shù) 一、損失矩陣前面的分析有個缺點(diǎn),即沒有考慮商業(yè)上的損 失問題。事實(shí)上,當(dāng)我們使用 Clementine 對相關(guān)商業(yè)問題進(jìn) 行分析探討時,做出的決策是要背負(fù)很大的商業(yè)期望的。如 果預(yù)測失敗,就要承擔(dān)相當(dāng)?shù)膿p失。當(dāng)然,我們說數(shù)據(jù)挖掘 中誤差是不可避免的,但顯然,把可能出現(xiàn)的誤差及其導(dǎo)致 的損失反映出來,也是對商業(yè)客戶的另外一種服務(wù),也是極為重要的。本文將在前面探討的基礎(chǔ)上,引入實(shí)際的商

25、業(yè)問 題,不僅引入了損失矩陣,也引入了 Boosting 技術(shù)。 事實(shí)上,以二分問題為例,我們往往會選擇那些置信低但損 失小的決策,而不選擇那些置信度高而損失高昂的決策,因 為只有這樣才可以有效地規(guī)避損失期望值。在分類預(yù)測問題 中往往出現(xiàn)兩類問題,一是實(shí)際為真卻預(yù)測為假,我們稱之 為棄真錯誤;一是實(shí)際假卻預(yù)測為真,我們稱之為取偽。棄 真取偽錯誤在傳統(tǒng)的統(tǒng)計(jì)分析中也存在,典型的就是我們的 假設(shè)檢驗(yàn)。損失矩陣是處理此類問題的有效手段,損失矩陣可以把可能 導(dǎo)致的損失引入到系統(tǒng)分析過程,從而得出更加符合商業(yè)實(shí) 際的結(jié)果。損失矩陣的用法一般分為兩種,一是在數(shù)據(jù)建模 階段使用損失矩陣;一是在樣本預(yù)測時使用

26、損失矩陣。Clementine5.0 采用的是第一種損失矩陣使用法, 而不是第二 種。1、數(shù)據(jù)建模過程的損失矩陣。前面我介介紹到,在數(shù)據(jù)建 模過程中涉及到修剪的過程,修剪時的標(biāo)準(zhǔn)是什么?是 “Reduce-Error ”,即當(dāng)此節(jié)點(diǎn)層的 Error 大于其父節(jié)點(diǎn)的 Error 時,則修剪掉,否則不予以修剪。引入損失矩陣后,修 剪方法由原先的“ Reduce-Error”轉(zhuǎn)變?yōu)椤?Reduce-Cost”法, 即當(dāng)葉節(jié)點(diǎn)的損失大于其父節(jié)點(diǎn)的損失時,則進(jìn)行修剪,否 則不予以修剪。2、樣本預(yù)測階段。在前面介紹中,我們提到,新數(shù)據(jù)的預(yù) 測由預(yù)測分類結(jié)果的眾數(shù)給出,置信度也是一個重要的考量 標(biāo)準(zhǔn)。加入損

27、失矩陣的因素后,我們將結(jié)合某種分類預(yù)測的 錯判損失進(jìn)行考量。這樣,如果一種決策雖然有較高的置信 水平而它的錯判損失較大,我們寧可選擇置信度較低而其錯 判較小的決策。下圖為 C5.0 中的損失矩陣設(shè)置頁面, 我們將棄真的錯判損失 自定義為 1,而將取偽的錯判損失自定義為 2.這樣得出的預(yù) 測結(jié)果中, Yes 的置信度都較高。二、 Boosting 技術(shù)沒有哪 個模型能百分百進(jìn)行分類預(yù)測,一個模型給出的預(yù)測結(jié)論有 誤差是常見的。因?yàn)轭A(yù)測結(jié)果一方面取決于模型,一方面取 決于樣本。不同的模型擁有不同的學(xué)習(xí)原理,其擬合偏差也 不一樣。同時樣本抽取時也會產(chǎn)生隨機(jī)誤差。一般模型本身 導(dǎo)致的誤差我們稱之為偏差

28、,要降低偏差,就需要更換模型 或者增加、 減少參數(shù)設(shè)置, 這是以犧牲模型簡潔性為代價的。 我們將樣本的隨機(jī)抽取產(chǎn)生的誤差稱為方差,此方差的分布 服從正態(tài)分布(只要某因素受多個獨(dú)立疊加的元因素影響, 則其分布服從正態(tài)分布) 。要想減少方差,則需要增加幾組 獨(dú)立樣本并嘗試建立多個模型,讓多個模型對預(yù)測結(jié)果進(jìn)行 投票。對于分類問題,以模型分類結(jié)果的眾數(shù)類別作為最終 分類;對于預(yù)測問題,以多個模型預(yù)測的均值作為最終的預(yù) 測。事實(shí)上,多增加幾組獨(dú)立樣本要考慮數(shù)據(jù)獲取的成本和可行 性;不同模型在投票中的同等的地位也過粗糙,而且也要考 慮模型預(yù)測精度。 Boosting 技術(shù)是解決上述問題的一處現(xiàn)實(shí) 有效的

29、技術(shù)。1、建模階段在建模過程中, Boosting 技術(shù)通過對現(xiàn)有加權(quán)樣 本的反復(fù)抽樣以模擬增加樣本集。整個過程需要 K 次迭代, 或者說需要建立 K 個模型。 前面我們提到了一個選項(xiàng) “是否 使用選區(qū)數(shù)據(jù)” ,英文“ Use Partition Data ”,即模型會對數(shù)據(jù) 集抽樣劃分為訓(xùn)練樣本集( Training Data )和檢驗(yàn)樣本集(Testing Data),前都用來學(xué)習(xí)訓(xùn)練,后者用為測試檢驗(yàn)。由于 C5.0 的檢驗(yàn)發(fā)生在 Training Data 上,故 Testing Data 不涉及檢驗(yàn)。我們?nèi)匀皇褂梅謪^(qū)數(shù)據(jù),目的是為了在不同樣本 集上建立模型,并測試其穩(wěn)健性。使用 Boosting 技術(shù)建模時, 第一次迭代每個樣本被選入訓(xùn)練 樣本集的概率或者說其權(quán)重相同。模型建立完畢,重新調(diào)整 各樣本的權(quán)重,使它們進(jìn)行第二次迭代,此次權(quán)重調(diào)整的原 則是:上次未能正確預(yù)測的樣本權(quán)重增大,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論