企業(yè)CRM系統(tǒng)中決策樹算法的應(yīng)用.doc_第1頁
企業(yè)CRM系統(tǒng)中決策樹算法的應(yīng)用.doc_第2頁
企業(yè)CRM系統(tǒng)中決策樹算法的應(yīng)用.doc_第3頁
企業(yè)CRM系統(tǒng)中決策樹算法的應(yīng)用.doc_第4頁
企業(yè)CRM系統(tǒng)中決策樹算法的應(yīng)用.doc_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

企業(yè)CRM系統(tǒng)中決策樹算法的應(yīng)用河北金融學(xué)院 郭佳 許明保定市科技局基于數(shù)據(jù)挖掘的客戶關(guān)系管理系統(tǒng)應(yīng)用研究09ZG009摘要:客戶資源決定企業(yè)的核心競爭力,更多的關(guān)心自己的銷售群體,并與之建立良好的、長期的客戶關(guān)系,提升客戶價值,對全面提升企業(yè)競爭能力和盈利能力具有重要作用。本文以某企業(yè)銷售業(yè)績?yōu)閷ο?,利用決策樹分類算法,得到支持決策,從而挖掘出理想客戶。 關(guān)鍵字:客戶關(guān)系管理;數(shù)據(jù)挖掘;分類算法決策樹分類是一種從無規(guī)則、無序的訓(xùn)練樣本集合中推理出決策樹表示形式的分類規(guī)則的方法。該方法采用自頂向下的比較方式,在決策樹的內(nèi)部結(jié)點進(jìn)行屬性值的比較,然后根據(jù)不同的屬性值判斷從該結(jié)點向下的分支,在決策樹的葉結(jié)點得到結(jié)論。本文主要研究決策樹分類算法中ID3算法在企業(yè)CRM系統(tǒng)中的應(yīng)用情況。1.ID3算法原理ID3 算法是一種自頂向下的決策樹生成算法,是一種根據(jù)熵減理論選擇最優(yōu)的描述屬性的方法。該算法從樹的根節(jié)點處的訓(xùn)練樣本開始,選擇一個屬性來區(qū)分樣本。對屬性的每一個值產(chǎn)生一個分支。分支屬性的樣本子集被移到新生成的子節(jié)點上。這個算法遞歸地應(yīng)用于每個子節(jié)點,直到一個節(jié)點上的所有樣本都分區(qū)到某個類中。2.用于分類的訓(xùn)練數(shù)據(jù)源組數(shù)據(jù)挖掘的成功在很大程度上取決于數(shù)據(jù)的數(shù)量和質(zhì)量。我們應(yīng)從大量的企業(yè)客戶數(shù)據(jù)中找到與分析問題有關(guān)的,具有代表性的樣本數(shù)據(jù)子集。然后,進(jìn)行數(shù)據(jù)預(yù)處理、分析,按問題要求對數(shù)據(jù)進(jìn)行組合或增刪生成新的變量,從而對問題狀態(tài)進(jìn)行有效描述。在本文研究的企業(yè)數(shù)據(jù)中,是將客戶的年齡概化為“小于等于30”、“30到50之間”和“大于50”三個年齡段,分別代表青年、中年和老年客戶,將產(chǎn)品價格分為高、中、低三檔等,詳見表1,將企業(yè)CRM系統(tǒng)數(shù)據(jù)庫中銷售及客戶信息匯總為4個屬性2個類別。4個屬性是客戶年齡段、文化程度、銷售地區(qū)、產(chǎn)品檔次,類別是銷售業(yè)績,分為好和差兩類。表1訓(xùn)練樣本集合attributeageeducationarealevelclass1=30Hlowbad2=30Hhighgood3=30Hmediumbad4=30Hhighgood5=30Lhighgood6=30Llowgood7=30Llowgood8=30Mhighgood9=30Mmediumgood10=30Mmediumgood1150M highbad2550Mhighbad2650Mmediumgood表2 訓(xùn)練數(shù)據(jù)中各屬性的說明屬性說明age客戶的年齡段education文化程度area業(yè)務(wù)銷售地區(qū)(本地區(qū),外地)level產(chǎn)品檔次class銷售狀況3. ID3算法分類模型的建立由表1可知:類標(biāo)號屬性有兩個不同的值,因此有兩個不同的類(即m=2)設(shè)類C1對應(yīng)于good,類C2對應(yīng)于bad。類good有18個樣本,類bad有8個樣本。為了計算每個屬性的信息增益,先使用,所以初始信息熵為:I(s1,s2) = I(18,8)= 0.8905然后計算客戶年齡、文化程度、產(chǎn)品檔次和銷售區(qū)域4個屬性的熵。首先觀察age屬性的每個樣本值的good、bad分布,分別計算每個分布的信息熵:當(dāng)age=50:s13=1 s23=2時,I(s13,s23)= -若按age劃分樣本,所需的信息熵為:E(age)=0.8192 類似的,可以得到:E(education)= =0.7669E(production)= =0.853E(area)= 通過以上屬性,對當(dāng)前分支節(jié)點進(jìn)行相應(yīng)樣本集合劃分,從而獲得的信息增益分別為:Gain(age) = I(s1,s2)- E(age) =0.8905-0.8192=0.0713Gain(education) = I(s1,s2)- E(education) =0.8905-0.7769=0.1236Gain(production) = I(s1,s2)- E(production) =0.8905-0.853=0.0375Gain(area) = I(s1,s2)- E(area) =0.8905-0.783=0.1075Gain(equipment) =1.576 - 0.873 = 0.703educationHML從計算結(jié)果得到education屬性具有最高信息增益,因此education屬性成為決策樹根節(jié)點的測試屬性。如下圖所示:1I =30 lowbad2I =30 highgood3=30 mediumbad4 =30 highgood15I 31-50 highgood16I 31-50 medium good17I 31-50 lowgood1831-50 highbad1931-50 lowbad8I =30 highgood9I =30 medium good10=30 mediumgood11I =50 highbad25 =50 highbad26I =50 mediumgood5I =30 highgood6I =30 lowgood7=30 lowgood20 =30 highgood21I 31-50 lowgood圖1決策樹根節(jié)點的測試屬性在樣本集合中對education屬性的3個取值進(jìn)行分支,3個分支對應(yīng)3個子集,分別為:P11,2,3,4,15,16,17,18,19;P28,9,10,11,12,13,14,22,23,24,25,26;P3=5,6,7,20,21其中P3的樣本都為good類,因此對應(yīng)分支標(biāo)記為good,P1、P2樣本類別未定,所以需要對P1、P2子集分別遞歸調(diào)用ID3算法。在P1中可以求出剩下的age、production、area三個屬性的信息增益。因為area屬性的信息增益最大,所以把屬性area作為該分支的節(jié)點,再向下分支, P2處理類似,最后得到的決策樹如下圖所示:productionhighlowgoodbad=3031-50goodageareaI31-50=30badageproductionmediumhighbadgoodeducationHMLgood50badagegood31-50areaIgoodbadgoodproductionmediumhighlow=3031-50badagegood圖2 經(jīng)數(shù)據(jù)分類生成的決策樹因此,對于樣本X=(age= “31-50”,education= “l(fā)ow”,level= “medium”, area= “I”),ID3算法分類預(yù)測其class為good。4.決策樹的生成決策樹的建立是決策樹分類的基礎(chǔ),以ID3算法為例說明建立決策樹的過程。在決策樹的遞歸構(gòu)造過程中,在樹的節(jié)點上利用特征的信息增益大小作為分支屬性選擇的依據(jù),選擇信息增益最大的特征作為分支屬性。ID3算法描述簡單,分類速度快,適合于大規(guī)模數(shù)據(jù)的處理,具體算法描述如下所示。輸入:訓(xùn)練樣本samples,候選屬性集合attribute_list輸出:一棵決策樹首先創(chuàng)建節(jié)點N,if samples都在同一個類C then 返回N作為葉節(jié)點,以類C標(biāo)記;if attribute_list為空then返回N作為葉節(jié)點,標(biāo)記為samples中最普遍的類,選擇attribute_list中具有最高信息增益的屬性branch_attribute,標(biāo)記節(jié)點N為branch_attribute;遍歷for each branch_attribute中已知的值ai,由節(jié)點N長出一個條件為branch_attribute=ai 的分支,設(shè)si是samples中branch_attribute=ai的樣本集合,若si為空 then加上一個樹葉,標(biāo)記為samples中最普遍的類,否則else 加上一個由 generate_decision(si,attribute_list-branch_attribute)返回的節(jié)點該算法中屬性的度量標(biāo)準(zhǔn)是在樹的每個節(jié)點上使用信息增益度量選擇分支屬性。這種度量選擇具有最高信息增益的屬性作為當(dāng)前節(jié)點的分支屬性。該屬性使得對結(jié)果劃分的樣本分類所需的信息量最小。算法的偽代碼描述如下所示。Generate_Decision_Tree(Samples, usable-attribute-list,C) create a new node N;if (all Samples in N are in the class C) return N as a leaf Node labled with 1 as the probability of class C; select test-attribute,the attribute among attribute-list with the highest information gain;label node N with test-attribute and probability of samples in class C;for each known value ai of test-attribute let si be the set of samples in samples for which test-attribute=ai;if (!(si is empty) grow a branch from node N for the condition test-attribute = ai; attach the node N-new returned byGenerate_Decision_Tree(Si ,attribute-list-test-attribute,C);5.決策樹的剪枝在決策樹構(gòu)造時,許多分支可能反映的是訓(xùn)練數(shù)據(jù)中的噪聲或孤立點。為了保證決策樹分類的質(zhì)量和精確度,必須要修剪所構(gòu)造的決策樹。通常使用統(tǒng)計度量,剪去最不可靠的分支,這將導(dǎo)致較快的分類,提高樹獨立于測試數(shù)據(jù)正確分類的能力,目前常采用的剪枝方法主要有減小錯誤修剪法、悲觀錯誤修剪法、基于代價復(fù)雜度的修剪法、代價敏感的決策樹修剪方法等。6.由決策樹提取分類規(guī)則決策樹可以以 IFTHEN 形式表示分類規(guī)則。對從根到樹葉的每條路徑創(chuàng)建一個規(guī)則。IFTHEN 規(guī)則易于理解,特別是當(dāng)給定的樹比較大的時候。利用IF-THEN形式的分類規(guī)則我們從圖2中提取決策樹中表示的知識,從而便于企業(yè)從中發(fā)現(xiàn)銷售規(guī)律,制定科學(xué)有效的營銷策略。(1)IF education= “H” AND area= “I” OR(area= “”) AND age= “=30” AND production= “high” THEN achievement= “good”(2)IF education= “H” AND area= “I” AND age= “31-50” AND THEN achievement= “good”(3)IF education= “H” AND area= “I” AND age= “=30” AND production= “l(fā)ow” THEN achievement= “bad”(4)IF education= “M” AND production= “high” AND age= “=50” OR(age= “31-50” AND area= “”) THEN achievement= “bad”(1)至(3)條分類規(guī)則說明該企業(yè)的高檔產(chǎn)品對于受過高等教育的本地區(qū)的年輕客戶吸引力較大,低檔產(chǎn)品對該類客戶的吸引力較?。辉撈髽I(yè)的各檔次產(chǎn)品對于本地受過高等教育的中年客戶吸引力均較大。(4)(5)條規(guī)則說明企業(yè)的高檔產(chǎn)品對于受過中等教育的年輕客戶或本地的中年客戶吸引力較大;高檔產(chǎn)品在受過中等教育的老年客戶或外地區(qū)的中年客戶中不太受歡迎。因此該企業(yè)的營銷策略可以加大高檔產(chǎn)品在年輕客戶中的推廣力度,同時加大在本地受過高等教育的中年客戶群體中各檔次產(chǎn)品的宣傳,因為他們是該企業(yè)的重點客戶群。在外地區(qū)針對受過高等中等教育的中老年客戶的銷售業(yè)績還有待提高。該企業(yè)的產(chǎn)品對于教育程度較低的客戶群銷售業(yè)績比較平穩(wěn)。7.企業(yè)CRM系統(tǒng)中挖掘結(jié)果的顯示針對企業(yè)CRM系統(tǒng)不同的分析功能,分析結(jié)果可以選擇以報表形式或者以圖表形式進(jìn)行顯示。報表顯示主要是將從數(shù)據(jù)庫中讀取的數(shù)據(jù)按照一定的格式顯示出來,主要通過vbscript函數(shù)實現(xiàn)。圖表顯示主要是利用VML(Vector Markup Language,矢量標(biāo)記語言)來實現(xiàn)。在VML中單個元素被定義為形狀(shape),大多數(shù)形狀是由矢量路徑描述的。形狀有很多屬性,例如:名稱(title)、樣式(style)、填充(fill)、填充顏色(fillcolor)等。本文中分析模塊利用的就是VML的基本元素,通過畫線、填充和樣式的控制來實現(xiàn)柱狀圖的顯示。本文以決策樹的核心算法ID3算法為工具,在構(gòu)造好的用于分類的數(shù)據(jù)源組的基礎(chǔ)上,針對決策樹分類算法特點,建立了企業(yè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論