客戶分類和識別潛在客戶的方法_第1頁
客戶分類和識別潛在客戶的方法_第2頁
客戶分類和識別潛在客戶的方法_第3頁
客戶分類和識別潛在客戶的方法_第4頁
客戶分類和識別潛在客戶的方法_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、客戶分類和識別潛在客戶的方法在前一章,我們探討了利用日常收集的客戶數(shù)據(jù)來獲取市場細(xì)分的方法。但同時存在許多情況,在試圖開拓新型市場時, 您更有可能將客戶歸入現(xiàn)有市場細(xì)分中或預(yù)定義類別。一般來說,這種要求在您已經(jīng)運(yùn)用專用客戶信息來定義分類,而這些信息只對一小部分客戶是可用的(如客戶調(diào)查數(shù)據(jù)或客戶忠誠卡信息)的情況下是必要的。您現(xiàn)在可能想將所有客戶分成這些類別。但問題在于:憑借手上日常收集到的客戶信息,您能把這些客戶全部歸類嗎?或者,您可能已經(jīng)依據(jù)日常收集的數(shù)據(jù)將客戶進(jìn)行了分類,現(xiàn)在還有一些能與現(xiàn)有客戶或潛在新客戶相鏈接的附加數(shù)據(jù)(如人口統(tǒng)計(jì)學(xué)數(shù)據(jù)) 。您能單憑人口統(tǒng)計(jì)學(xué)數(shù)據(jù)就能發(fā)現(xiàn)潛在、能夠創(chuàng)造

2、利潤的客戶嗎?本章我們將關(guān)注數(shù)據(jù)挖掘技術(shù),以期能夠解決這類問題。5.1業(yè)務(wù)需求在前幾章中,我們探討了如何從日常收集的數(shù)據(jù)獲得客戶細(xì)分的問題。憑借分群數(shù)據(jù)挖掘技術(shù),我們能夠明白對不同類型客戶沒有任何預(yù)先認(rèn)識的情況下也可推斷客戶細(xì)分是如何成為可能的。這是我們在第27 頁節(jié) “技術(shù)的類型”中所說的探索型數(shù)據(jù)挖掘的一個例子。我們還提供了現(xiàn)有業(yè)務(wù)規(guī)則細(xì)分,并且我們能夠展示這些業(yè)務(wù)規(guī)則,即怎樣才能將獲得的細(xì)分映射到我們所發(fā)現(xiàn)的分群上。進(jìn)行有效的映射需要在數(shù)個事務(wù)上聚集客戶事務(wù)數(shù)據(jù),通過識別號需要某些鏈接事務(wù)的工具。一個顯而易見的問題是,是否能使用其它方法使客戶與諸如業(yè)務(wù)規(guī)則細(xì)分等預(yù)定義類別相匹配?如果匹配

3、,則能否應(yīng)用于單個事務(wù)數(shù)據(jù)?回答是肯定的,我們用以實(shí)現(xiàn)該過程的數(shù)據(jù)挖掘技術(shù)稱為分類,它隸屬于總標(biāo)題“預(yù)測性數(shù)據(jù)挖掘”。在您的零售機(jī)構(gòu)中有大量用于分類的潛在應(yīng)用。事實(shí)上,在任何已對客戶進(jìn)行分類(或您能想到的其它任何事)的情況下,您都可以使用分類來發(fā)現(xiàn)怎樣用相關(guān)數(shù)據(jù)對其它客戶進(jìn)行分類,將它們歸入相同的類別。有關(guān)該過程的示例是通過采用專用信息獲得的現(xiàn)有客戶細(xì)分,如客戶調(diào)查或焦點(diǎn)人群。收集這種類型的信息往往代價昂貴,并且您可能僅能提供給小部分客戶。您也可將對小部分客戶有用的日常收集到的數(shù)據(jù)用于您所有的客戶(如事務(wù)數(shù)據(jù)) 。如果這些數(shù)據(jù)能用于決定一個客戶從屬于哪部分, 則毫無疑問您也能用同樣的數(shù)據(jù)為所有

4、的客戶進(jìn)行分類。或者,您可能已通過使用日常收集的數(shù)據(jù)獲得客戶細(xì)分, 就如我們在前一章所做的那樣,但現(xiàn)在您想確定能與最有贏利性的市場細(xì)分相匹配的潛在客戶。在這種情況下,如果您能獲得可用于現(xiàn)有和潛在客戶相鏈接的外部數(shù)據(jù)(如人口統(tǒng)計(jì)學(xué)數(shù)據(jù)) ,您就可以根據(jù)人口統(tǒng)計(jì)學(xué)數(shù)據(jù)進(jìn)行分類,以便確定現(xiàn)有客戶的歸屬,然后用這種方法確定潛在客戶是否屬于最有贏利性的細(xì)分?無庸諱言,分類能用來做以上所有事情,但一般來說,該方法不可能100 正確地對所有客戶進(jìn)行分類。這個問題后來成為一個疑問:為了有效使用分類結(jié)果,您需要在確定客戶屬于哪類細(xì)分時抱有多大的信心呢?在下面的幾個部分中,我們將向您講述如何運(yùn)用分類對客戶進(jìn)行歸類

5、,如何說明分類器的表現(xiàn),最重要的是提出建議以便指導(dǎo)怎樣將結(jié)果應(yīng)用到您的業(yè)務(wù)中,同時通過銷售系統(tǒng)點(diǎn)及其它與客戶打交道的部門,作為市場營銷活動的指導(dǎo)。解決方案大綱通用數(shù)據(jù)挖掘方法的第一階段 這部分也是首先將業(yè)務(wù)需求轉(zhuǎn)化為可通過數(shù)據(jù)挖掘得以解決的一系列問題。在進(jìn)行分類的情況下,可能會運(yùn)用大量數(shù)據(jù)挖掘技術(shù)。難題在于要因地制宜,為解決該業(yè)務(wù)需求確定一項(xiàng)最合適的技術(shù)。所有的數(shù)據(jù)挖掘分類技術(shù)都可以構(gòu)造出數(shù)據(jù)的數(shù)學(xué)表述,將客戶不同性質(zhì)的相關(guān)變量與已指派給小部分客戶的預(yù)定義類別聯(lián)系起來。我們稱該數(shù)學(xué)表述為分類模型。在本章將描述的示例展示了如何構(gòu)建這種模型,然后將展示其對尚未預(yù)定義的客戶進(jìn)行分類。該預(yù)定義類別可以

6、是您所選的任何項(xiàng), 比如,我們已經(jīng)描述過的客戶細(xì)分, 或盈利性類別,或甚至可以是客戶會轉(zhuǎn)而投到競爭對手一方的可能性。要闡述進(jìn)行分類的方法,我們將使用用于忠誠卡客戶的預(yù)定義業(yè)務(wù)規(guī)則細(xì)分,關(guān)于忠誠卡客戶已在前幾章中定義。 我們已經(jīng)知道, 如果使用聚集 NRS,那么這些客戶可被成功地映射到業(yè)務(wù)規(guī)則細(xì)分中。我們的問題是:我們能否使用單個銷售事務(wù)點(diǎn)的數(shù)據(jù)做同樣的事情?如果能,那么因?yàn)槲覀儞碛杏糜谒锌蛻舻男畔?,而不僅僅限于持有忠誠卡的客戶,就可以用分類模型在銷售點(diǎn)上為全部客戶分類,并向他們提供適當(dāng)?shù)慕ㄗh。數(shù)據(jù)挖掘技術(shù)能用以決定應(yīng)該提供什么樣的建議,這是第 137 頁第六章所表達(dá)的主題“應(yīng)該向客戶推薦哪些

7、產(chǎn)品?” 。要構(gòu)建分類模型,首先有必要獲得已指派給業(yè)務(wù)細(xì)分的客戶組數(shù)據(jù)。我們稱這組客戶為“訓(xùn)練組”。我們所掌握的該組客戶數(shù)據(jù)將分成我們用以開發(fā)分類模型的“ 訓(xùn)練數(shù)據(jù)集 ”,以及用以驗(yàn)證模型的“測試數(shù)據(jù)集 ”。在我們的示例中,所需數(shù)據(jù)是個體事務(wù)處理記錄,但這與人口統(tǒng)計(jì)學(xué)數(shù)據(jù)或能從用于訓(xùn)練組和您想分類的客戶組獲得的其它信息一樣簡單。我們稱該第二組客戶為“目標(biāo)組 ”。我們所掌握的目標(biāo)組數(shù)據(jù)的類型與訓(xùn)練組的類型一樣,但對這些客戶我們沒有預(yù)定義業(yè)務(wù)類別。我們稱這類型數(shù)據(jù)為“因?yàn)檫@種類型數(shù)據(jù)是我們在將分類模型應(yīng)用到業(yè)務(wù)上時要用到的。操作數(shù)據(jù) ”,分類概念是,我們用客戶的訓(xùn)練組構(gòu)建分類模型,然后用該模型對目

8、標(biāo)組中的客戶進(jìn)行分類。下圖是 5-1 的示意圖。圖 5-1 培訓(xùn)、測試及申請應(yīng)用分類模型5.2要使用的數(shù)據(jù)“通用挖掘方法的第二階段” 將確定要用于構(gòu)建分類模型的數(shù)據(jù)。在此示例中,我們運(yùn)用第 53 頁節(jié) “推薦數(shù)據(jù)模型”描述的CLA 和 TLA 兩種數(shù)據(jù)模型構(gòu)建用來將客戶歸類到預(yù)定義業(yè)務(wù)規(guī)則細(xì)分的分類模型中。因?yàn)槲覀兊挠?xùn)練組客戶最初是使用 CLA 模型聚集的 NRS 被指派到業(yè)務(wù)細(xì)分的, 因而我們首先運(yùn)用數(shù)據(jù)挖掘分類技術(shù)來展示這些數(shù)據(jù)是如何很好地支持最初所作的分類。 然后使用 TLA 模型展示目標(biāo)組客戶在單個事務(wù)限制使用 NRS 時是如何很好地將其歸到相同的業(yè)務(wù)細(xì)分的。創(chuàng)建分類模型需要擴(kuò)展 CL

9、A 和 TLA 數(shù)據(jù)模型。在這兩種情況下,在訓(xùn)練組中的每個客戶記錄必須包含業(yè)務(wù)細(xì)分標(biāo)簽,然后才能成為分類的目標(biāo)變量。同時也有必要創(chuàng)建一些附加變量,以供一些分類模型使用。這些附加變量來自于業(yè)務(wù)細(xì)分,每個附加變量對應(yīng)相應(yīng)的業(yè)務(wù)細(xì)分類別(如,一般購物者變量,家庭購物者變量)。如果業(yè)務(wù)細(xì)分標(biāo)簽與變量名稱匹配,則每個新變量的值均設(shè)置為“ 1”,如果不匹配,則設(shè)置為“ 0”。當(dāng)討論分類模型的構(gòu)造時,我們使用術(shù)語“ 目標(biāo)變量 ”來稱呼那些新變量。修改過的 CLA 和TLA數(shù)據(jù)模型的結(jié)構(gòu)如圖5.2 所示:圖 5-2CLA 和 TLA 數(shù)據(jù)模型表的結(jié)構(gòu)5.3初始化并預(yù)處理數(shù)據(jù)如果您已經(jīng)準(zhǔn)備好初始化數(shù)據(jù)以開始細(xì)分

10、,則您無需任何附加信息就可以開始通用數(shù)據(jù)挖掘方法的第三階段 。然而,如我們已經(jīng)討論過的,構(gòu)造分類模型需要創(chuàng)建兩個單獨(dú)的訓(xùn)練組客戶數(shù)據(jù)示例訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。這需要采取一些特定的預(yù)處理步驟。創(chuàng)建訓(xùn)練及測試數(shù)據(jù)集訓(xùn)練集用于開發(fā)初始模型。當(dāng)建立模型后,測試數(shù)據(jù)集通過測量通常術(shù)語稱之為“隱性數(shù)據(jù)”的性能進(jìn)行驗(yàn)證模型。驗(yàn)證的關(guān)鍵部分是檢測看是否出現(xiàn)了未知的“超負(fù)荷”現(xiàn)象。超負(fù)荷是指只能與訓(xùn)練數(shù)據(jù)相適應(yīng),但無法適應(yīng)其它數(shù)據(jù)集的情況。分層采樣如果您擁有大量客戶,并在不同細(xì)分中客戶數(shù)目有很大變化的情況下,那么有時需要您在現(xiàn)有的全部數(shù)據(jù)中進(jìn)行采樣,以開發(fā)測試及訓(xùn)練數(shù)據(jù)集。在這些情況下,在每個細(xì)分或類別的客戶

11、記錄中按一定比例采樣是很重要的。該技術(shù)稱為 分層采樣 。在某些情況下,雖然單個細(xì)分或類別名稱已被指派到一組客戶中,但該細(xì)分中客戶特點(diǎn)仍存在顯著差異。我們在先前第四章中的一般購物者細(xì)分的示例中已見過此種狀況。在這些例子中,通過首先在某時分群全部來自一個類別的客戶,然后再從每個群集中采樣。在客戶細(xì)分并不均勻的情況下,該分層采樣比較先進(jìn),已證實(shí)該分層采樣可使分類性能得到顯著提高。提示:諸如 IM for Data 這樣的 數(shù)據(jù)挖掘產(chǎn)品具有諸多優(yōu)勢,您可挖掘所有數(shù)據(jù),在此情況下,可無需分層采樣。均衡樣本存在一個一般性誤解,使得開發(fā)分類模型前必須創(chuàng)建所謂的“均衡樣本 ”。該誤解主要來自于下述觀點(diǎn),如果在

12、特定的類別或細(xì)分中,客戶數(shù)目記錄存在巨大變化,那么有必要通過從每個類別或細(xì)分中創(chuàng)建包含相同數(shù)目的客戶采樣標(biāo)本予以補(bǔ)償。 正如我們將要展示的那樣,分類器模型可生成一個輸出, 其可評估客戶從屬于某個特定類別的可能性。如果訓(xùn)練組是您客戶的典型樣本,無任何理由對某個細(xì)分或類別特殊對待,那么也就無創(chuàng)建均衡樣本的理由。通過考察樣本示例,您就可以全面了解其中的情況。想象一下,就其NRS 而言,所有客戶均具有相同特征,但您卻已利用其它信息將其分配到細(xì)分和類別中。如果您試圖通過 NRS 數(shù)據(jù)為這些客戶分類,那么很明顯,客戶相互之間很難分辯彼此。那么他們從屬于某特定細(xì)分的可能性就是最初指派到細(xì)分中客戶數(shù)量與客戶總

13、數(shù)量之比(如果90的客戶是一般購物者,如果在其它量不變化的情況下,客戶隨機(jī)選取一般購物者的可能性比率仍然還是90)。如果您已使用均衡樣本,分類器可能會得出結(jié)論,認(rèn)為可能正常情況下,只有在您知道客戶總數(shù),并且訓(xùn)練組本身就是細(xì)分和類別的不均衡表現(xiàn)時才可使用均衡樣本。例如,您可能知道在客戶總數(shù)中,每個類中的客戶數(shù)均相等,但在訓(xùn)練組中,由于某些采樣原因樣本分布不均勻。在這種情況下,均衡采樣可用于解決均衡問題。在其它情況下,均衡可能是適當(dāng)?shù)模瑒t其風(fēng)險在于把客戶錯誤地分類到一個類別中,而不是別的什么原因,這點(diǎn)對您來說非常重要。這個問題通過采用稱為“出錯加權(quán)”步驟也能夠得以解決,我們將在第104 頁 5.5

14、 節(jié) “挖掘技術(shù)”中探討分類器的不同類型時詳述該問題。在我們舉的數(shù)據(jù)集示例中,因?yàn)榭赏诰蛩袛?shù)據(jù),故而不需要任何分層采樣。我們也知道訓(xùn)練組是客戶總數(shù)的典型性樣本,并且由于在此階段,我們沒有理由特殊對待某一組客戶,無需任何形式的均衡樣本。因此,可以通過隨機(jī)分解數(shù)據(jù)開發(fā)測試和訓(xùn)練集,如可以在訓(xùn)練數(shù)據(jù)集中分解 50的訓(xùn)練組客戶,另外的 50則在測試數(shù)據(jù)集中分解。您需要仔細(xì)考慮下列有關(guān)預(yù)處理步驟的重要事項(xiàng):與您將使用結(jié)果模型進(jìn)行分類的客戶相比,客戶的訓(xùn)練組如何具有典型性?您將如何使用分類結(jié)果?一個類別是否會比另一個更重要?5.4評估數(shù)據(jù)數(shù)據(jù)評估包括運(yùn)用丟失值、溢出值和多余變量的解決問題。這是通用挖掘方

15、法的第四階段。因?yàn)槲覀冋褂门c第四章一樣的數(shù)據(jù)模型,所以應(yīng)遵循第63 頁中 4.4 節(jié)“評估數(shù)據(jù)”所涉及的相同程序。大部分分類模型對密切相關(guān)的特征變量是非常敏感的,因此用我們在第63 頁 4.4 節(jié) “評估數(shù)據(jù)”中所描述的步驟去移除或結(jié)合這種變量,需根據(jù)您將采用的分類技術(shù)類型仔細(xì)考慮。相關(guān)原因?qū)⒃谙乱徽鹿?jié)討論。評估階段的一個重要部分是確保檢驗(yàn)和訓(xùn)練數(shù)據(jù)集準(zhǔn)確反映全部客戶數(shù)據(jù)集的統(tǒng)計(jì)特征。確認(rèn)是否正確分割數(shù)據(jù)的一種好方法是使用單變量統(tǒng)計(jì)檢查這些數(shù)據(jù)集(平均值、標(biāo)準(zhǔn)偏差和眾數(shù)值)的統(tǒng)計(jì),并檢查測試與訓(xùn)練集的統(tǒng)計(jì)是否仍然與整個數(shù)據(jù)集統(tǒng)計(jì)相匹配。5.5挖掘技術(shù)通用數(shù)據(jù)挖掘方法的第五階段 不僅可確定并選

16、取我們將要使用的適當(dāng)數(shù)據(jù)挖掘技術(shù),還將決定針對具體業(yè)務(wù)需求如何應(yīng)用這些方法。如果進(jìn)行客戶分類,可以采取多種不同的數(shù)據(jù)挖掘技術(shù)。要決定哪種技術(shù)是最合適的,需要了解不同技術(shù)是如何構(gòu)建分類器模型以及如何對其進(jìn)行翻譯的。本章節(jié)將探討您可能用到的一些技術(shù),以及如何應(yīng)用它們。挖掘技術(shù)的分類在進(jìn)行客戶分類時,通常要使用多種技術(shù),然后將結(jié)果進(jìn)行比較或結(jié)合,以獲得最佳的整體分類。這樣做是因?yàn)椴煌募夹g(shù)使用不同的方法執(zhí)行分類任務(wù),正如前一章的分群技術(shù),這在執(zhí)行中將會導(dǎo)致變化。以下是一些最常用的技術(shù):決策樹神經(jīng)網(wǎng)絡(luò)徑向基函數(shù)在此,我們使用兩種具有很大差別的技術(shù):決策樹和RBF 分類器。決策樹的主要優(yōu)點(diǎn)是可提供良好的

17、性能。其能夠執(zhí)行多重分類,所得結(jié)果最接近,并相對容易解釋。相比之下, RBF 技術(shù)通常提供較好的性能,但結(jié)果不容易解釋,而且一個類別只能執(zhí)行一次分類。關(guān)注這兩種不同方法的原因是要闡明其不同之處,以描述在創(chuàng)建分類模型時將采取的步驟,并展示如何把兩種分類技術(shù)的結(jié)果聯(lián)系在一起,增加您對最終結(jié)果的信心。決策樹分類器決策樹分類器是從客戶記錄的訓(xùn)練數(shù)據(jù)集中, 通過不斷地將客戶分成更小的組構(gòu)建而成的。細(xì)分組的目的是讓新組中某類客戶類別比原先的組更純。比如,如果原始組包含兩類客戶的混合,即一般購物者與家庭購物者,則可將該組分為兩組,一組是占主要地位的一般購物者,另一組是家庭購物者,這就可以達(dá)到想要的目標(biāo)。純度

18、測量是通過在該組主要類別里的客戶數(shù)目除以該組所有客戶數(shù)目所得的比率。如果分離該組,這個測量標(biāo)準(zhǔn)的平均值會增加,這樣該分離便增加了我們確定不同客戶類別的能力。比如,如果我們從該組中隨機(jī)選擇一個客戶,并將其標(biāo)記為主要類別,則現(xiàn)在其正確的機(jī)會就更大了。提示:我們用于確定分離質(zhì)量的實(shí)際測量稱GINI 索引。 GINI 索引可測量分離的純度,然后通過每組客戶的數(shù)目對其加權(quán)。這會導(dǎo)致分離錯誤最小,同時避免僅將少量客戶與其余客戶分離的瑣碎分離。如何進(jìn)行每項(xiàng)分離的決定要通過檢查每個特征變量,并找出可導(dǎo)致最純分離的變量及其數(shù)值后作出的。一旦執(zhí)行分離,則由此得出的每個組可使用其它變量或甚至使用同一變量進(jìn)行再次分離

19、。然后繼續(xù)該步驟,不斷分成越來越小的組,直到組中只剩下一個類別的客戶,或者獲得可接受的純度。這最終將產(chǎn)生樹結(jié)構(gòu)類型,如圖5.3 所示:提示:圖 5-3 所示的決策樹產(chǎn)生于合成數(shù)據(jù),用以說明不同的分類器是如何工作,而非來自于第 118 頁 5.6 節(jié) “解釋結(jié)果” 評估的示例數(shù)據(jù)集。在購買 “嬰兒產(chǎn)品與食品”中,合成數(shù)據(jù)集包含兩個客戶類別,每個類別有兩個差別明顯的特征行為。在此情況下,一般購物者的特點(diǎn)是或者他們在購買嬰兒產(chǎn)品與食品時花銷相對都比較高,或者兩類花銷都比較低。相比之下,家庭購物者的特點(diǎn)是在購買嬰兒產(chǎn)品上的花銷高,同時相應(yīng)的食品花銷就低,反之,食品花銷高,嬰兒產(chǎn)品的花銷就低。圖 5-3

20、簡單決策樹雖然我們稱此為決策樹分類器,但圖示數(shù)據(jù)挖掘器通常將它畫成倒置的樹來表示。在圖示的頂端,第一個分離稱為根節(jié)點(diǎn),隨后繼續(xù)推進(jìn)分支部分的分離,分支部分的節(jié)點(diǎn)稱為葉節(jié)點(diǎn)或簡稱為葉。這并不表明數(shù)據(jù)挖掘器自欺欺人,但我們必須談?wù)撘幌履承┤速M(fèi)解的看待世界的方式。一般來說,分離可以繼續(xù)到所有葉節(jié)點(diǎn)只包含一個客戶類型,或直到出現(xiàn)可接受的錯誤。在限制中,分離能在決策樹每個葉節(jié)點(diǎn)上產(chǎn)生一個客戶。這是一個決策樹數(shù)據(jù)超負(fù)荷的好例子。因?yàn)閷τ?xùn)練數(shù)據(jù)的正確分類雖然能 100完成,但對測試數(shù)據(jù)集卻不可能產(chǎn)生同樣的結(jié)果。為阻止超負(fù)荷發(fā)生,并生成一個可應(yīng)用于不可見情況下的樹,則基本決策樹必須被精減到訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)

21、集都能獲得可以接受的執(zhí)行狀況的水平。 這可以通過包括從簡單的人工精減到全自動精減的許多途徑得以實(shí)現(xiàn)。在后一種情況下,精減通常試圖用樹的復(fù)雜性來平衡錯誤的數(shù)量。一個非常復(fù)雜的樹(帶有大量分支)其錯誤較少,但在不可見數(shù)據(jù)上的表現(xiàn)可能并不比有多個錯誤多的簡單樹差。因?yàn)樵诿總€節(jié)點(diǎn)上,分離是通過選擇一個變量和該變量的適當(dāng)值來實(shí)現(xiàn)的。這種決策樹稱為二叉樹。提示:精減技術(shù)通常指的是最低描述長度精減,這是基于與Occams Razor相同的原則。該原則主要指應(yīng)盡可能簡單地表述事物,而不是較簡單地表述。當(dāng)您想利用樹對一個新客戶進(jìn)行分類時,可將目標(biāo)客戶的變量與樹頂端變量的值相比,并且根據(jù)對比結(jié)果,再比較分支。這樣

22、一直延續(xù)下去,直到到達(dá)葉節(jié)點(diǎn)。在此,根據(jù)葉節(jié)點(diǎn)的訓(xùn)練集記錄分配對客戶進(jìn)行分類。這樣便可計(jì)算分類的可信度了。通向決策樹的路徑可以通過規(guī)則形式表現(xiàn)出來。比如:If Baby Products 2.1 (relatively high spend)and Food 1.6 (relatively low spend)THENClass = Family Shopper with a confidence of 100%這顯示出該樹已經(jīng)正確鑒別了我們所定義的家庭購物者組之一, 并且使分類決策樹的創(chuàng)建過程相對容易理解。這種透明度是決策樹技術(shù)的主要優(yōu)勢之一。變量選擇與預(yù)處理要求在進(jìn)行每次分離時,一個特征變

23、量的每次明確選擇使決策樹容易解釋。因?yàn)檫B續(xù)的分離能通過上面闡述的規(guī)則類型予以描述。同時,該特征選擇的類型是實(shí)現(xiàn)最優(yōu)分類的主要限定因素。通過仔細(xì)考慮圖 5-4 所顯示的情形,您便可理解其中的原因。圖 5-4 顯示了針對兩個特征變量( V1 和 V2)而劃分的兩類假定客戶( A 和 B )的分布。圖 5-4決策樹如何執(zhí)行分類在該情況下,兩類客戶均展示出兩個變量V1 與 V2 間高度的相互關(guān)系,并且通過使用可將兩組對開的分割線(a)能夠“最好”地將這兩組分開。然而,如果限制我們每次僅使用一個變量來分割兩個類別,那么用單個分離是無法實(shí)現(xiàn)的,此時必須使用兩個變量的每一個進(jìn)行多次分離 (變量V1取值3.1

24、, 5.7 和 8.1;變量V2 取值5.4, 6.8, 8.6 和 9.0)。兩個區(qū)域間最終的邊界是現(xiàn)在所示的曲線(b),即為決策樹對于a 線段的近似值。可以通過圖 5-5 所示的相關(guān)決策樹來理解執(zhí)行分離的次序。圖 5-5與圖 5-4 相關(guān)的決策樹該決策樹可認(rèn)為是描述圖5-4 虛線所示區(qū)域,但應(yīng)用該樹的實(shí)際結(jié)果是決策邊界(b)。如果在預(yù)處理步驟中可能計(jì)算一些新的特征變量,這樣圖5-4的線條(a)會垂直于新的變量,因此僅需進(jìn)行一次分離,并且我們將會有一個簡單的決策樹。欲獲得該變量的等量,將圖 5-5 所示的圖表座標(biāo)旋轉(zhuǎn)即可。提示:數(shù)學(xué)上,這只是變量V1 與 V2 的加權(quán)結(jié)合,此處的加權(quán)與線條(

25、a)的傾斜度是呈比例的。雖然此時這會相對容易看出,但具有多個變量時,一般很難對其確定。第27頁的 3.3 節(jié)“數(shù)據(jù)挖掘技術(shù)”中所提及的主要組件分析和因素分析的統(tǒng)計(jì)技術(shù)能用于執(zhí)行該類型的變量轉(zhuǎn)化。在此情況下,如果已將座標(biāo)旋轉(zhuǎn),我們只需進(jìn)行更少的分離便可完成分類,并且決策樹在不可見數(shù)據(jù)上可能表現(xiàn)得更好。但可能遭受這樣的懲罰:用于進(jìn)行分離的變量可能會變得更復(fù)雜,從而使對決策樹本身的解釋更加困難。一般在進(jìn)行分類與您解釋分類決策理由的能力之間一直存在一種平衡需要達(dá)成。這恰恰證明了這句格言: “天下沒有免費(fèi)的午餐”。出錯加權(quán)構(gòu)建任何類型的分類器時,您都需要問自己如下問題:在業(yè)務(wù)決策進(jìn)程中所有的類別都同等重

26、要嗎?假如,您要構(gòu)建一個分類器,以對一般購物者和家庭購物者進(jìn)行分類。在此情況下,您可能知道雖然家庭購物者不會反對被標(biāo)志為一般購物者,反之則不然(主動向一般購物者出售尿布可能被認(rèn)為是冒犯行為, 然而向家庭購物者出售日常貨物是可接受的)。因此,您需要建立一個分類器,該分類器能夠充分考慮將客戶不正確地分類到錯誤類別中的風(fēng)險。我們用以執(zhí)行這個的過程稱為出錯加權(quán)。在該示例中,您想要對決策樹進(jìn)行加權(quán),這樣在分類決策中可能出現(xiàn)錯誤的地方將會發(fā)生偏差,錯誤地將家庭購物者歸類為一般購物者,而不是偏移到其它周圍路徑。通過在可支持使用風(fēng)險或出錯加權(quán)的一般購物者的樹上每個葉節(jié)點(diǎn)處分離決策, 可以執(zhí)行上述目的。這種挑戰(zhàn)

27、將會發(fā)現(xiàn)一個正確的加權(quán), 可以最大限度地增加確定目標(biāo)客戶組的機(jī)會,同時將不正確或虛假分類的數(shù)量降低到最少。該類型的出錯加權(quán)還能用于一種重要類別,該類別代表一個相對較小的客戶組,其中的客戶很容易與另一類別發(fā)生混淆。 這能在整個一般購物者組中代表能獲高額利潤的小客戶組。在此情況下,通過為訓(xùn)練集使用適當(dāng)?shù)某鲥e加權(quán)將會使該組得以確定,但有一些一般購物者會被錯誤分類。也可以使用另一種方式替代出錯加權(quán),即用平衡取樣創(chuàng)建訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。在第 101 頁章節(jié)的“創(chuàng)建訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)集”中,我們探討了創(chuàng)建平衡樣本的問題。與出錯加權(quán)等同的做法是:通過從您認(rèn)為重要的分類中進(jìn)行過量采樣來創(chuàng)建平衡樣本。這僅僅

28、是在訓(xùn)練數(shù)據(jù)集中多次使用同樣客戶記錄的問題,但在測試數(shù)據(jù)集中只能使用一次。提示:為諸如決策樹分類器等多類別分類器創(chuàng)建這種樣本是極為復(fù)雜的,一般最好使用出錯加權(quán)以取得最后結(jié)果。在分類器執(zhí)行二元決策的情況下,相對容易執(zhí)行過量采樣。徑向基函數(shù)(RBF )RBF 是一種不同類型的挖掘技術(shù),我們可以用它來預(yù)測應(yīng)將客戶分配到哪一類別中。通常來說, RBF 技術(shù)一般用于預(yù)測連續(xù)變量(目標(biāo)變量),該變量通常是一個或多個其它變量的函數(shù)。如果我們需要用到RBF 技術(shù)進(jìn)行分類,我們將目標(biāo)變量限定為“1”或者“0”,然后在 RBF 中使用 0 到 1 范圍內(nèi)的值預(yù)測該類別。這種預(yù)測是客戶可能屬于哪一目標(biāo)類別的概率。為

29、預(yù)先準(zhǔn)備使用RBF 分類器所需數(shù)據(jù),我們首先將訓(xùn)練集中每個客戶標(biāo)記為是或否屬于目標(biāo)類別。 然后再指定一個新的二元變量。這些工作在準(zhǔn)備第100 頁 5.2 節(jié) “將要使用的數(shù)據(jù)”所描述的已修改過的 CLA 和 TLA 數(shù)據(jù)模型時就已完成。決策樹分類器能處理多重目標(biāo)類別,而 RBF 每次只處理一個類別,而且對于每個類別都必須構(gòu)建一個獨(dú)立的分類器。提示:我們本應(yīng)在決策樹分類器中使用同樣的方法。在某些情況下,當(dāng)我們想注重一個特定類別時,其可以提高分類性能。RBF 構(gòu)建模型的方法與決策樹分類器有些相似。RBF 通過使用特征變量定義區(qū)域間的邊界,可將兩個類別的客戶分割成幾個區(qū)域。 RBF 技術(shù)并不限于每次

30、只選取一個變量,因此區(qū)域間的邊界可能是線(當(dāng)有兩個變量時) ,平面(當(dāng)有三個變量時)或所謂的超平面(當(dāng)有多于三個變量時) 。該區(qū)域在目標(biāo)變量具有相似值(在此情況下, “1”代表家庭購物者, “0”代表其它所有購物者類型,在本數(shù)據(jù)集中,只有一般購物者這個類型)的地方將客戶分離開。在每個區(qū)域中,該技術(shù)可放置一個調(diào)整中心,在每個調(diào)整中心均有一個基本函數(shù)。該基本函數(shù)可測量一個客戶歸屬區(qū)域的置信度,它定義一個客戶記錄離調(diào)整中心越遠(yuǎn),其置信度就越低。因此,該類型分類器就稱為徑向基函數(shù)分類器。如果我們使用用以描述決策樹分類器如何構(gòu)建其模型相同的合成數(shù)據(jù)集來構(gòu)建類器模型的話,則 RBF 分類器將生成四個區(qū)域和

31、四個調(diào)整中心,如圖RBF56 所示:分圖 56 徑向基函數(shù)因?yàn)樵摲纸獠⒉幌抻诿看沃挥靡粋€變量, 所以這會產(chǎn)生由當(dāng)前不垂直于圖軸上變量的虛線所指示的區(qū)域邊界。圖 5 6 展示了 RBF 可將四個基本函數(shù)放置到哪些地方,范圍為覆蓋四個區(qū)域的中心 C1 到 C4 ??蛻魵w屬于某個特定區(qū)域的概率是到調(diào)整中心距離的函數(shù)。在基本函數(shù)重疊處,概率計(jì)算為不同區(qū)域函數(shù)的加權(quán)求和的結(jié)果。算入該加權(quán)是為了在分類所有客戶時將所有錯誤降低到最少。在決策樹分類器的示例中,通過觀察決策樹我們可以解釋如何執(zhí)行分類。解釋RBF 分類器的執(zhí)行過程也可運(yùn)用直觀顯示技術(shù)予以實(shí)現(xiàn)。在此示例中,我們使用一個類似于在第四章描述過的簇結(jié)果的

32、直觀顯示技術(shù),只是將其中的簇代之以RBF 的區(qū)域。在RBF中實(shí)行直觀顯示技術(shù)的效果圖示例如圖5 7 所示。圖 57 RBF 區(qū)域直觀顯示效果圖在此,每一線條表示一個不同的RBF 區(qū)域和分配到區(qū)域每個客戶記錄的變量分布。如二變量和簇的直觀效果示意圖所示,該分布就好比所有客戶的變量分布。區(qū)域的排序是根據(jù)區(qū)域里所有客戶目標(biāo)變量的中間值而定。該中間值顯示在每條線的左手邊。每一條線的第一個柱狀圖顯示區(qū)域中客戶目標(biāo)變量的分布。在圖5 7 所示的頂端區(qū)域中只有家庭購物者,因此目標(biāo)變量“購物類型N ”只具有值“ 1”。該區(qū)域的平均數(shù)相應(yīng)地為1.0。類似地,底端區(qū)域取值“0”,而其平均值為0.0。我們已經(jīng)討論過

33、, 區(qū)域中目標(biāo)變量已預(yù)測值取決于與區(qū)域中心和客戶被分配到的區(qū)域及其它區(qū)域相聯(lián)系的客戶的位置。 第二個柱狀圖展示了這些客戶的預(yù)測值與其實(shí)際值之間的錯誤分布。因?yàn)槲覀兪菍?RBF 當(dāng)作二元分類器使用,所以預(yù)測值實(shí)際上是對客戶屬于目標(biāo)類別的概率的一種估計(jì)。提示:每條線條的右手邊的值是該錯誤分布的RMS 錯誤。應(yīng)該注意的是這是在預(yù)測中間值附近的錯誤, 而不是線條右手邊所示的區(qū)域內(nèi)客戶的實(shí)際中間值錯誤。當(dāng)正如所愿,RBF 被當(dāng)作一個二元分類器時,事實(shí)上存在一個相對來說比較大的RMS 錯誤。如果每個明顯的客戶組中只有一個基本函數(shù)(如這個示例中出現(xiàn)的一樣)域的概率將依據(jù)其與調(diào)整中心距離而變化。,則客戶歸屬于

34、該區(qū)因?yàn)槟繕?biāo)變量的實(shí)際值只能為“ 1”或“ 0”,所以每個預(yù)測總是存在一個錯誤。在此情況下,基本函數(shù)之間很少有重疊的現(xiàn)象,展示在每個區(qū)域錯誤分布將反映調(diào)整中心附近的客戶分布(每行的第二個柱狀圖) 。當(dāng)目標(biāo)類別和具有類似客戶數(shù)目的非目標(biāo)類別之間的分布存在一個重疊, 預(yù)測的概率可以預(yù)期為 0.5。在此,因?yàn)槟繕?biāo)變量是 “ 1”或“0”,我們可能一般預(yù)期 RMS 錯誤概率在 0.5 左右。我們可以使用第 126 頁節(jié)“RBF 結(jié)果( TLA 模型)”中的客戶數(shù)據(jù)示例來看這是如何得出的。其它柱狀圖展示在區(qū)域里的客戶變量分布,我們可以使用這些來描述家庭購物者(頂端兩個區(qū)域)與非家庭購物者,在本例中是一般

35、購物者(底端兩個區(qū)域) ,之間的不同特征。該類型效果直觀圖因而將幫助您理解不同區(qū)域客戶的特征。如果該組客戶也被分割開,則相對來說理解如何作出分類決定會容易一些, 因?yàn)榭蛻魵w屬于該區(qū)域的概率取決于該客戶與區(qū)域中調(diào)整中心的距離。然而,正如我們上面討論過的一樣,如果不同的客戶組相互之間很接近或者相互重疊,則客戶處在類別“ 1”或類別“ 0”的概率是不同區(qū)域的加權(quán)之和。區(qū)域顯現(xiàn)出的圖象則會變得更難解釋。另一個可供選擇的表示法是如圖58 所示的分位點(diǎn)圖。在該圖示中,客戶根據(jù)對客戶歸屬于類別“ 1”概率估計(jì)基礎(chǔ)上的已預(yù)測值進(jìn)行排序。圖 58 RBF 分位點(diǎn)效果圖在此,首行展示了歸屬于類別“ 1”概率最高(

36、 98 100)的 2客戶特征,隨后一行展示的是概率在 90 98范圍的客戶特征, 以后依次類推。 該類型直觀圖展示了分類決定的質(zhì)量和每個分位點(diǎn)的客戶特征,但沒能解釋分類決定是如何作出的。因?yàn)?RBF 技術(shù)相對不拘泥于在哪個區(qū)域里構(gòu)建,所以一般來說,其將生成一個比決策樹分類器更好的結(jié)果,特別是在不同客戶類別之間特征非常相似的情況下。這種權(quán)衡再次介于精確性與您解釋分類決定理由的能力之間。使用分類模型制定決策分類模型可決定概率,該概率是客戶屬于可能被放置其中的每種可能類別。如何將客戶分配到哪個類別通常會成為這樣一個問題:用最高的概率選擇類別(通常用術(shù)語獲得類別),并聲明客戶屬于該類別。然而,可能會

37、存在某些情況,該類別的概率不夠高而無法作出決策,在此情況下您必須贊同一個“未知”類別。在獲得多重類別的地方,您可了解獲得類別的最低概率必須高于1 除以類別數(shù)目得到的值。同樣,在分類時存在錯誤分類的風(fēng)險,特別是在您使用錯誤加權(quán)對風(fēng)險進(jìn)行估計(jì)時,尤為重要的是定義一個最低閾值去與風(fēng)險概率相減。這個觀點(diǎn)在圖5 9 中得以闡明。圖 59 分類決策和未知類別使用決策樹分類器時,認(rèn)識到總是超過最低閾值是很重要的,但如果確定風(fēng)險閾值,則可能將在風(fēng)險閾值之下取得分類可信度。您還應(yīng)注意分類規(guī)則是自始至終的,因此當(dāng)執(zhí)行分類時很可能取得一個數(shù)據(jù)記錄很高的分類概率。該數(shù)據(jù)記錄的變量(正用于執(zhí)行該分類的變量)并不在訓(xùn)練組

38、的范圍之內(nèi)。因此您應(yīng)確定由分類器生成的數(shù)據(jù)在范圍之內(nèi)。這種情況不會發(fā)生在RBF 分類器上,此時數(shù)據(jù)記錄遠(yuǎn)離調(diào)整中心,分類概率趨向于零,而在這些情況下很可能獲得一個低于最低閾值的概率。因?yàn)楹茈y用RBF 分類器決定哪種特征用于執(zhí)行分類,但并不總是可能檢查所用數(shù)據(jù)是否處于范圍之內(nèi)。運(yùn)用最低閾值能在某種程度上減少一些對這些檢查的要求。5.6解釋結(jié)果使用 CLA 和 TLA 數(shù)據(jù)模型時,不同的分類技術(shù)可以被用于構(gòu)建示例數(shù)據(jù)集分類模型。這部分描述決策樹和RBF 分類模型的執(zhí)行及如何解釋其結(jié)果。本部分是通用數(shù)據(jù)挖掘方法的第六階段。決策樹分類器(使用CLA 數(shù)據(jù)模型)您可使用下列方法構(gòu)建基于CLA 數(shù)據(jù)模型的

39、分類模型:將在產(chǎn)品組層上聚集的客戶測量的 NRS 作為模型的輸入變量;將業(yè)務(wù)細(xì)分名作為模型的目標(biāo)變量。使用示例數(shù)據(jù)集最后產(chǎn)生的決策樹如圖510 所示:圖 510 CLA數(shù)據(jù)模型的決策樹該決策樹展示了通過使用CLA 數(shù)據(jù)模型的聚集NRS,可以幾乎不出錯誤的將客戶劃分為一般購物者,家庭購物者和業(yè)余購物者等正確的業(yè)務(wù)細(xì)分,只在業(yè)余酒類和富足的購物者類別之間出現(xiàn)一些錯誤。針對訓(xùn)練數(shù)據(jù)集和檢驗(yàn)數(shù)據(jù)集而產(chǎn)生的實(shí)際錯誤的統(tǒng)計(jì)概要請參見圖511 與圖 5 12。圖 511 CLA數(shù)據(jù)模型訓(xùn)練集的模糊矩陣圖 512 CLA數(shù)據(jù)模型測試集的模糊矩陣以上展示的兩個圖示用術(shù)語表達(dá)稱為“模糊矩陣”。其均展示了目標(biāo)類別分

40、類的錯誤數(shù)目。在訓(xùn)練集的例子中,總錯誤率是4.8,而在測試集中只有6.4的極小增長。這樣良好的結(jié)果并不令人吃驚,因?yàn)閺那耙徽轮形覀冎?,最初分配到群集中的客戶是基于NRS 的評估。使用決策樹分類器上的規(guī)則生成功能,我們可以檢查特定的分類決定是如何制定的。圖5 13 對該示例進(jìn)行了展示。圖 513分類規(guī)則示例用于執(zhí)行初始分類的業(yè)務(wù)規(guī)則比展示在圖513 的規(guī)則更具定性。 比如相關(guān)的業(yè)務(wù)規(guī)則是:一般購物者:其特點(diǎn)為主要支出花銷在食物和家用品上,而在酒類和嬰兒產(chǎn)品及業(yè)余愛好上的支出相對較少。決策樹規(guī)則可確認(rèn)該定義,但在此量化了術(shù)語“相對較少”的對于三個產(chǎn)品組中每一個的實(shí)際含義。 因此該技術(shù)已經(jīng)發(fā)現(xiàn)了一

41、種執(zhí)行分類的定量方法, 并提供了將新的 “忠誠”卡客戶準(zhǔn)確分類到業(yè)務(wù)細(xì)分的方法。決策樹分類器(使用TLA 模型)當(dāng)以上結(jié)果確認(rèn)了分類技術(shù)將聚集客戶數(shù)據(jù)很好地進(jìn)行了分類, 此時這些客戶必須是忠誠卡客戶,并且可能只代表全部客戶基礎(chǔ)的很小比例。這個例子的主要目的是解決能否使用來自單個事務(wù)的購買記錄數(shù)據(jù)將您的客戶分類到同樣業(yè)務(wù)細(xì)分中的問題。正如我們在前一章中已經(jīng)探討的,如果一個客戶在單個事務(wù)中購買大量物品,則聚集的 NRS 和單個事務(wù) NRS 可能相似,并且將會預(yù)期一個良好的分類。然而,當(dāng)只購買少量物品時,將會出現(xiàn)什么結(jié)果則不太明顯。為解決該問題,您可以使用在子生產(chǎn)小組層上聚集的TLA 模型中的NRS

42、 ,以支持單個事務(wù),并將該數(shù)據(jù)用于客戶的訓(xùn)練組,構(gòu)建決策樹模型。用示例數(shù)據(jù)集所得的決策樹展示于圖 5 14 中。圖 514 TLA數(shù)據(jù)模型決策樹雖然該決策樹此時非常復(fù)雜,反映了單個事務(wù)NRS 的更大可變性,但通過鑒定決策樹的質(zhì)量,您能注意到其可得到極好的平衡,易于理解,而且其分解顯得非常高明。該決策樹展示了針對一些客戶類別和這些客戶類別里的子集,可以很好地執(zhí)行分類(例如,一些家庭購物者和富裕購物者)。每個葉節(jié)點(diǎn)可以使用一項(xiàng)規(guī)則予以描述,該規(guī)則可鑒別節(jié)點(diǎn)處客戶的特征。因此,具有這些特征的客戶將以極高的概率進(jìn)行分類。在一些葉節(jié)點(diǎn)處仍然混雜著來自不同類別的客戶,對具有這些特征的客戶進(jìn)行分類是很困難的

43、,這將以較低的概率反映出來。圖 515 與圖 5 16 顯示了相關(guān)的測試與訓(xùn)練集的模糊矩陣。圖 515 TLA數(shù)據(jù)模型訓(xùn)練集的模糊矩陣圖 516 TLA數(shù)據(jù)模型測試集模糊矩陣在此,訓(xùn)練集中全部數(shù)據(jù)的錯誤率為 18.9,在測試集數(shù)據(jù)中為 21;雖然如決策樹本身顯示的那樣,在分類中有一些“葉子” ,此處執(zhí)行的分類比在其它葉子處要好的多。正如所料,該分類不如對 CLA 數(shù)據(jù)執(zhí)行的好,但正如我們將要看到的,對于某些類型的應(yīng)用,這種表現(xiàn)仍然是可以接受的標(biāo)準(zhǔn)。下一個問題是, 您如何評估對個體業(yè)務(wù)細(xì)分進(jìn)行的分類有多大好處?在此所用的一個重要的技術(shù)稱為利潤圖,這將在下一章節(jié)進(jìn)一步描述。測量分類執(zhí)行狀況(利潤圖

44、)利潤圖蘊(yùn)涵的概念是指測試或訓(xùn)練數(shù)據(jù)集中的客戶順序或客戶級別,這種數(shù)據(jù)集是基于他們所屬目標(biāo)類別的可信度。例如,假設(shè)我們希望針對一般購物者類別通過這種方式將我們的客戶進(jìn)行分級,一個可能的分級方法是:簡化順序猜測,并根據(jù)猜測將客戶排列到名單中。為了測量分類執(zhí)行的效果,我們可以從名單頂端開始,查看客戶所屬的實(shí)際類別。如果我們猜測的正確,則給自己計(jì)分為“1”,反之為 “0”。當(dāng)我們的等級下移時,應(yīng)將所有計(jì)分相加,直到達(dá)到名單的底端。如果我們將針對客戶等級的得分用圖形表示出來,則可得如圖517 所示的曲線。圖 517一般購物者類別利潤圖曲線 (a) 顯示了在平均意義上, 我們能夠正確鑒別出一般購物者與名

45、單上的客戶數(shù)量成正比。要正確鑒定所有一般購物者,我們必須將所有客戶分類成一般購物者,并接受該結(jié)果:我們將由于 50%的客戶進(jìn)行了錯誤分類而終止。通過使用實(shí)際客戶細(xì)分,然后先用一般購物者對其進(jìn)行分級,并在我們的名單次序下移時重復(fù)計(jì)分練習(xí),可以獲得另一種可選的分級方法。在此情況下,我們可以得到如圖517 所示的曲線 (b) 。這是我們能獲得的最好結(jié)果,因?yàn)檫@是基于完備的客戶知識基礎(chǔ)之上的。如果我們使用分類模型為客戶分級,則在決策樹葉節(jié)點(diǎn)上的購物者類型決定客戶歸屬于一般購物者的可信度,然后可以得到與圖5 17 中曲線 (c)相似的曲線。 如果我們所得的葉節(jié)點(diǎn)上只有一般購物者類型,則可信度為100,這

46、些客戶將被分級到名單中的最高級,這樣,最初的曲線(c)與最優(yōu)的曲線(b)相合。當(dāng)我們移動到包含混合一般購物者和其它類型購物者的葉節(jié)點(diǎn)處時,我們的可信度降低,并且開始在分類中介入錯誤;因而正如所示的那樣,我們位于最優(yōu)曲線的下面。如果分類器很完美,則曲線(c)與曲線 (b) 重合為一條線。 如果分類器生成隨機(jī)決策, 則其將與曲線 (a) 相匹配, 如果將分類器錯誤地偏置, 其將位于曲線 (b) 的下方。 從隨機(jī)猜測中測量我們分類器的執(zhí)行效果如何,可用術(shù)語稱之為“增益”或“利潤”,因此圖表的利潤或增益圖正如圖517 所示。通過使用 TLA 決策樹分類器得出的結(jié)果,五個購物者類型中的每個均可產(chǎn)生圖51

47、8所示的一系列利潤圖。圖 518使用 TLA 模型的五種購物者類型中每種類型的利潤圖因?yàn)槲覀円咽褂?TLA 數(shù)據(jù)模型來構(gòu)建該分類器,在此情況下,可通過將事務(wù)而非客戶進(jìn)行分級獲得利潤圖。該結(jié)果顯示出分類能以對所有類別的高度可信度進(jìn)行,并且在業(yè)余購物者與業(yè)余酒類購物者的示例中,如果接近最優(yōu),則分類器模型將進(jìn)行分類。我們使用利潤圖來比較不同分類模型性能的方法在第規(guī)則的計(jì)分” 有所描述, 而用于目標(biāo)客戶的方法則在第中有所描述。158 頁節(jié)的“生成包括組織167 頁 6.7 節(jié)的“應(yīng)用挖掘結(jié)果”結(jié)果( TLA 模型)使用RBF技術(shù),您也可以同構(gòu)建決策樹分類模型中所用到的一樣,運(yùn)用CLA和TLA兩個數(shù)據(jù)模

48、型來構(gòu)建其分類模型,但在此須包括每個購物者類型的額外二元變量。在此例中,我們已用到TLA模型和用以生成五個不同購物者類型RBF 分類者的示范數(shù)據(jù)集。由此而得出的模型在第111 頁節(jié)的“徑基函數(shù)(RBF)”中有所描述,圖519 顯示了一般購物者類型分類的結(jié)果。圖 519 一般購物者分類器 RBF 示意圖圖 5 19 展了 8 個不同 RBF 區(qū)域。區(qū)域的數(shù)量取決于指定用于定義區(qū)域的最小客戶事務(wù)數(shù)或指定所需的區(qū)域數(shù)。在該示例中,研究不同數(shù)量的區(qū)域預(yù)測的穩(wěn)定性后,我們選擇 8 個區(qū)域。 結(jié)果顯示, 由于使用了單個事務(wù)的 NRS,頂部三個區(qū)域仍主要是一般購物者,底部三個區(qū)域主要是非一般購物者。中間兩個

49、區(qū)域不確定。注意,在本例中最不確定的地方, RMS 的誤差是 0.46,如果我們的預(yù)測值為 5.0,則這一誤差正是我們希望看到的。在該例中,區(qū)域本身給出了很好的分類指示,這在圖5 20所顯示的結(jié)果“分位點(diǎn)”圖示中得以確認(rèn)。圖 520一般購物者 RBF 結(jié)果分位點(diǎn)圖示正如我們在第 111 頁 5.5.3 中的“徑向基函數(shù) (RBF) ”中所闡述的,分位點(diǎn)由每條線段右手邊百分點(diǎn)排列確定。每個分位點(diǎn)中的客戶取決于目標(biāo)變量的預(yù)測值,目標(biāo)變量實(shí)際值的平均值則顯示在右手邊上。 正如我們所期望的, 中間分位點(diǎn)的大RMS 誤差約為 0.5。此外,在這些分位點(diǎn)中的預(yù)測概率也約為0.5,并且在該分位點(diǎn)中存在著混雜

50、的購物者類型(在每行的第一個柱狀圖中可以看到)。類似的, 上部三個分位點(diǎn) (75% - 100%)的平均 RMS 誤差為 0.25,這幾乎完全是由于預(yù)測概率在0.75 左右,因?yàn)檫@些分位點(diǎn)中的大部分客戶都是一般購物者。相似的推論得出了下部三個分位點(diǎn)(0% - 25%) 的解釋,此處的預(yù)測概率約為 0.23,平均 RMS 誤差約為 0.27,并且這些區(qū)域主要由非一般購物者組成。因此,我們期望模型的預(yù)測性能良好,并可通過使用利潤圖加以確認(rèn)。對每個購物者類型執(zhí)行RBF 分類,并對其使用利潤圖比較RBF 結(jié)果。該過程顯示于圖5 21。圖 521使用 TLA 模型的 RBF 分類器利潤圖此外,該結(jié)果還顯

51、示了水平相當(dāng)高的分類性能,特別是對業(yè)余購物者和業(yè)余酒類購物者的分類。決策樹和 RBF 結(jié)果的比較決策樹和 RBF 結(jié)果通過使用利潤圖可以很容易對其進(jìn)行比較。不同類型購物者的一系列比較顯示在圖5 22 中。圖 522 TLA數(shù)據(jù)模型的決策樹與 RBF 分類器的比較在一般購物者類別的示例中, RBF 和決策樹的結(jié)果非常相似,但在富裕購物者類別中,決策樹的最初表現(xiàn)要比 RBF 好,但超過 800 事務(wù)點(diǎn)時, RBF 的結(jié)果更好。對于其它類別, RBF 總是優(yōu)于決策樹分類器。這種結(jié)果處于意料之中,因?yàn)?RBF 分類器在每次分離時,不必限制使用單個變量便可分割變量空間,總之,這種額外的靈活性產(chǎn)生了更好的

52、分類效果。可以使用多種方法將兩種分類結(jié)果結(jié)合起來,以生成一個整體結(jié)果。如果您正處于顯著上升態(tài)勢,您可通過最高的可信度獲取分類器結(jié)果對每個客戶進(jìn)行分類。如果您對目前的態(tài)勢不樂觀,則可反其道而行之??傊绻悄貏e謹(jǐn)慎的話,可以對兩個結(jié)果所預(yù)測地概率取簡單的平均值。5.7應(yīng)用挖掘結(jié)果將分類模型應(yīng)用到您的零售業(yè)務(wù)中有許多種可能的方法。本章敘述 通用挖掘方法第七階段,也是最后一個階段,如果要充分發(fā)揮執(zhí)行數(shù)據(jù)挖掘的全部價值,這也是關(guān)鍵步驟,需要仔細(xì)計(jì)劃和執(zhí)行。在這一節(jié)中,我們將探討兩種可能的方法,通過這兩種方法,可以使用從我們的示例數(shù)據(jù)中獲得的分類結(jié)果。這不僅是可能性,而且它們確實(shí)能指明可使用的不同方法以及您需要考慮的各種事情。在第一個示例中,我們分析了如何將分類結(jié)果用作有指導(dǎo)作用的營銷活動的一部分。在第二個例子中,我們探討了如何將分類結(jié)果用于銷售點(diǎn),或售貨亭,或者其它客戶常去的地方。直接郵件與針對性的營銷活動直接郵件或針對性的營銷活動可以假定您能夠與您的客戶通過某種方式直接聯(lián)系。您想將重點(diǎn)放在關(guān)于我們一直討論的市場細(xì)分類型的活動上,則您必須具備某種方法,將客戶與用于定義該細(xì)分的事務(wù)數(shù)據(jù)相鏈接。如果該鏈接允許您聚集事務(wù)記錄,您可以用 CLA 數(shù)據(jù)模型構(gòu)建

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論