基于數(shù)據(jù)挖掘的國際貿(mào)易客戶流失的預(yù)測分析畢業(yè)論文_第1頁
基于數(shù)據(jù)挖掘的國際貿(mào)易客戶流失的預(yù)測分析畢業(yè)論文_第2頁
基于數(shù)據(jù)挖掘的國際貿(mào)易客戶流失的預(yù)測分析畢業(yè)論文_第3頁
基于數(shù)據(jù)挖掘的國際貿(mào)易客戶流失的預(yù)測分析畢業(yè)論文_第4頁
基于數(shù)據(jù)挖掘的國際貿(mào)易客戶流失的預(yù)測分析畢業(yè)論文_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于數(shù)據(jù)挖掘的國際貿(mào)易客戶流失的預(yù)測分析PAGE2目錄TOC\o"1-2"\h\z\u1前言………………2

1.1設(shè)計背景………………………2

1.2數(shù)據(jù)挖掘簡介…………………2

1.3決策樹ID3和C4.5算法簡介………………32客戶數(shù)據(jù)訓練集的預(yù)處理………3

2.1選擇訓練集……………………4

2.2去除訓練集的冗余數(shù)據(jù)………42.3訓練集中連續(xù)值的離散化……………………43結(jié)合信息增益和信息增益率進行決策樹歸納…………………6

3.1計算對D中元組分類所需的期望信息………6

3.2計算每個屬性的期望信息需求(即信息熵)………………73.3計算每個屬性的信息增益率………………144構(gòu)建決策樹……………………16

4.1構(gòu)建根節(jié)點決策樹…………16

4.2構(gòu)建最終決策樹……………17

5客戶群流失的預(yù)測和分析……………………176總結(jié)……………18結(jié)束語……………18致謝………………18參考文獻…………18附錄………………19基于數(shù)據(jù)挖掘的國際貿(mào)易客戶流失的預(yù)測分析摘要:企業(yè)客戶流失是一個企業(yè)最大的損失,但大部分企業(yè)并未找到一個切實有效的方法來解決這個問題,文章從數(shù)據(jù)挖掘角度,利用關(guān)聯(lián)規(guī)則對國際貿(mào)易客戶流失的預(yù)測進行一些分析,找出流失率比較高的并有價值的客戶群體的特點,為企業(yè)提供一些具體策略來減少客戶流失,最終獲得較大的經(jīng)濟效益!關(guān)鍵詞:數(shù)據(jù)挖掘客戶流失決策樹ID3算法c4.5算法離散化Abstract:Lossofbusinesscustomersarethebiggestlossofanenterprise,butmostenterpriseshaveNtfoundaneffectivewaytosolvethisproblem,dataminingarticlefromthepointofview,theuseofassociationrulesoninternationaltradethelossofcustomerstoconductsomeanalysisofthepredictiontoidentifythelossofrelativelyhighrateandvaluablecharacteristicsofclientgroups,providinganumberofspecificstrategiestoreducethelossofcustomers,andultimatelytheecoNmicbenefitsofalarger.Keywords:DataMining,Thelossofcustomers,DecisionTree,ID3algorithm,c4.5algorithm,DiscretizationPAGE191前言1.1設(shè)計背景隨著中國加入世貿(mào)組織,互聯(lián)網(wǎng)信息化高速發(fā)展帶來的機遇,有著越來越多的企業(yè)或者個人)參加到國際貿(mào)易當中并從中獲利,在營銷和推廣的手段的多元化的同時,客戶群成了一個非常不穩(wěn)定的群體,商人無非重視的是個利字,那么這些客戶群很有可能會流向競爭對手那里,那么如何提升公司客戶群的忠誠度就成為了首要解決的問題,為了滿足外貿(mào)企業(yè)和外貿(mào)soho對客戶流的需求以及掌控,由于數(shù)據(jù)量的復(fù)雜,也就非常有必要開發(fā)一個基于數(shù)據(jù)挖掘的國際貿(mào)易客戶流失數(shù)據(jù)預(yù)測處理系統(tǒng)來來管理客戶數(shù)據(jù)和預(yù)防客戶的流失,這樣不僅可以及時檢測到客戶的流失動向和原因,而且也為外貿(mào)企業(yè)外貿(mào)soho提供了更加快捷的方式來盡量減少客戶端流失。1.2數(shù)據(jù)挖掘簡介數(shù)據(jù)挖掘(datamining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長,動輒以tb計,如何從海量的數(shù)據(jù)中提取有用的知識成為當務(wù)之急。數(shù)據(jù)挖掘就是為順應(yīng)這種需要應(yīng)運而生發(fā)展起來的數(shù)據(jù)處理技術(shù),是知識發(fā)現(xiàn)(kNwledgediscoveryindatabase)的關(guān)鍵步驟.1.3決策樹ID3與C4.5算法簡介ID3算法是J.RossQuinlan開發(fā)的一種數(shù)據(jù)挖掘[1]決策樹算法[2]【3】,后來C4.5(ID3的后繼),成為新的監(jiān)督學習算法,兩者都采用貪心非回溯的方法,其中決策樹以自頂向下遞歸的分治方法,從訓練元祖集和它們的相關(guān)聯(lián)的類標號開始構(gòu)造決策樹,隨著樹的構(gòu)建,訓練集遞歸地劃分成較小的子集,并分別引進信息增益和信息增益率來進行構(gòu)造決策樹。

2客戶數(shù)據(jù)訓練集的預(yù)處理

由于數(shù)據(jù)挖掘的對象是大量的數(shù)據(jù),非常的龐亂繁雜,所以非常有必要將這些數(shù)據(jù)進行預(yù)處理[4][5],以適用于挖掘,這需要三個步驟

2.1選擇訓練集

將不相關(guān)的數(shù)據(jù)剔除掉,只保留一些與挖掘有關(guān)的,比如姓名電話號碼,地址,取值太多,如果進行概化,將大于概化閥值,所以予以刪除,還有對以前輸入的數(shù)據(jù)不完整的,不規(guī)范的,也不予以選取,將予以剔除,還有一些屬性關(guān)聯(lián)比較密切的[6],可以刪除個別,只留下代表屬性。2.2去除訓練集的冗余數(shù)據(jù)從邏輯上判斷一些屬性對訓練集類屬性結(jié)果不相關(guān)的,還有一些屬性關(guān)聯(lián)比較密切的,可以刪除掉一個,從而極大的提高計算的效率和準確度,因為一些不相關(guān)的屬性可能導(dǎo)致數(shù)據(jù)挖掘的準確度下降,以表一為例,成功率基本上都大于90%,但是跟數(shù)據(jù)挖掘的結(jié)果沒有必然聯(lián)系,將可能導(dǎo)致數(shù)據(jù)挖掘的準確度下降比如交易次數(shù),交易總額,所以予以刪除,另外支付寶擔保交易付款和銀行轉(zhuǎn)帳付款關(guān)聯(lián)性大于90%,將支付寶擔保交易屬性也予以刪除。

2.3訓練集中連續(xù)值的離散化

將連續(xù)的數(shù)值進行離散化處理,如年齡分為三類:

A1:<20A2:20—30A3:>30可以將訂購款式分為四類,B1:板鞋B2:帆布鞋B3:跑鞋B4綜合各種款式屬性年齡簡稱A訂購款式簡稱B批發(fā)簡稱C學生簡稱D銀行匯款簡稱E

結(jié)合上面歸納,給出轉(zhuǎn)化后的訓練集表一,并給出相關(guān)的數(shù)據(jù)庫圖表,見圖一,二編號年齡A訂購款式B批發(fā)C學生D銀行轉(zhuǎn)帳E流失1A2B1YNYN2A2B3NYYY3A3B1NNYN4A1B2NYYN5A3B2NYNN6A1B2NYNN7A3B4YNYN8A3B3YNYN9A1B2NYNY10A3B4YNYN11A2B2NYYN12A1B4YNYY13A2B2NYYY14A1B1NYNN15A2B1YYYN16A3B3NNNY17A2B3YNYY18A1B4NNYY19A2B4YNYY20A3B1NNNY表一經(jīng)過預(yù)處理對客戶數(shù)據(jù)訓練集圖一創(chuàng)建的數(shù)據(jù)庫tradedb圖二數(shù)據(jù)庫中的trade表數(shù)據(jù)3結(jié)合信息增益和信息增益率進行決策樹歸納

3.1計算對D中元組分類所需的期望信息表一給出了一個類標記的元組的訓練集D,每個屬性都是離散值(連續(xù)值屬性已經(jīng)被離散化),類標號屬性“是否流失”有兩類,(即m=2),設(shè)類c1對應(yīng)Y類c2對應(yīng)N,類C1有11個元組,類C2有9個元組,由D中的元組創(chuàng)建(根)節(jié)點N,為了找出這些元組的分裂準則,必須計算每個屬性的信息增益,計算對D中元組分類所需的期望信息(即信息熵):Info(D)=-log2(Pi)其中Pi是D中的任意元組屬于Ci的概率,并用|Ci,D|/|D|估計,使用vb.Net構(gòu)造的函數(shù)代碼如下:PublicFunctiontradefuc(ByVala,ByValb)AsStringDimkAsStringk=a+btradefuc=-a/k*Log(a/k)/Log(2)-b/k*Log(b/k)/Log(2)Ifa=0Thentradefuc=-b/k*Log(b/k)/Log(2)EndIfIfb=0Thentradefuc=-a/k*Log(a/k)/Log(2)EndIfEndFunction計算對D中元組分類所需的期望信息:Info(D)=-log2(Pi)=0.992774453987808源代碼如下'客戶流失Dimt1AsDoubleDimsCon1AsString="SelectCount(*)Fromtradewhere流失='Y'"sCom.Connection=sConsCon.Open()sCom.CommandText=sCon1t1=sCom.ExecuteScalarDimt2AsDoubleDimsCon2AsString="SelectCount(*)Fromtradewhere流失='N'"sCom.Connection=sConsCom.CommandText=sCon2t2=sCom.ExecuteScalar'計算訓練集D中元組分類的期望信息DimIAsDoubleI=tradefuc(t1,t2)計算如圖三圖三計算Info(D)的值3.2計算每個屬性的期望信息需求(即信息熵):從屬性age開始,查詢age各個屬性對應(yīng)的流失是否個數(shù),并計算它的信息增益Info年齡(D)=0.00196975696587331'年齡Dimage1AsDoubleDimageCon1AsStringageCon1="SelectCount(*)fromtradewhere年齡='A1'"sCom.Connection=sConsCom.CommandText=ageCon1age1=sCom.ExecuteScalarDimage11AsDoubleDimageCon11AsStringageCon11="SelectCount(*)fromtradewhere年齡='A1'and流失='Y'"sCom.Connection=sConsCom.CommandText=ageCon11age11=sCom.ExecuteScalarDimage12AsDoubleDimageCon12AsStringageCon12="SelectCount(*)fromtradewhere年齡='A1'and流失='N'"sCom.Connection=sConsCom.CommandText=ageCon12age12=sCom.ExecuteScalarDimage2AsDoubleDimageCon2AsStringageCon2="SelectCount(*)fromtradewhere年齡='A2'"sCom.Connection=sConsCom.CommandText=ageCon2age2=sCom.ExecuteScalarDimage21AsDoubleDimageCon21AsStringageCon21="SelectCount(*)fromtradewhere年齡='A2'and流失='Y'"sCom.Connection=sConsCom.CommandText=ageCon21age21=sCom.ExecuteScalarDimage22AsDoubleDimageCon22AsStringageCon22="SelectCount(*)fromtradewhere年齡='A2'and流失='N'"sCom.Connection=sConsCom.CommandText=ageCon22age22=sCom.ExecuteScalarDimage3AsDoubleDimageCon3AsStringageCon3="SelectCount(*)fromtradewhere年齡='A3'"sCom.Connection=sConsCom.CommandText=ageCon3age3=sCom.ExecuteScalarDimage31AsDoubleDimageCon31AsStringageCon31="SelectCount(*)fromtradewhere年齡='A3'and流失='Y'"sCom.Connection=sConsCom.CommandText=ageCon31age31=sCom.ExecuteScalarDimage32AsDoubleDimageCon32AsStringageCon32="SelectCount(*)fromtradewhere年齡='A3'and流失='N'"sCom.Connection=sConsCom.CommandText=ageCon32age32=sCom.ExecuteScalar'計算年齡的信息增益DimIage1AsDoubleIage1=tradefuc(age11,age12)DimIage2AsDoubleIage2=tradefuc(age21,age22)DimIage3AsDoubleIage3=tradefuc(age31,age32)DimIageAsDoubleIage=age1/t*Iage1+age2/t*Iage2+age3/t*Iage3DimGainageAsDoubleGainage=I-Iage類似的,Gain(訂購款式)的代碼如下'訂購款式Dimdg1AsDoubleDimdgCon1AsStringdgCon1="SelectCount(*)fromtradewhere訂購款式='B1'"sCom.Connection=sConsCom.CommandText=dgCon1dg1=sCom.ExecuteScalarDimdg11AsDoubleDimdgCon11AsStringdgCon11="SelectCount(*)fromtradewhere訂購款式='B1'and流失='Y'"sCom.Connection=sConsCom.CommandText=dgCon11dg11=sCom.ExecuteScalarDimdg12AsDoubleDimdgCon12AsStringdgCon12="SelectCount(*)fromtradewhere訂購款式='B1'and流失='N'"sCom.Connection=sConsCom.CommandText=dgCon12dg12=sCom.ExecuteScalarDimdg2AsDoubleDimdgCon2AsStringdgCon2="SelectCount(*)fromtradewhere訂購款式='B2'"sCom.Connection=sConsCom.CommandText=dgCon2age2=sCom.ExecuteScalarDimdg21AsDoubleDimdgCon21AsStringdgCon21="SelectCount(*)fromtradewhere訂購款式='B2'and流失='Y'"sCom.Connection=sConsCom.CommandText=dgCon21dg21=sCom.ExecuteScalarDimdg22AsDoubleDimdgCon22AsStringdgCon22="SelectCount(*)fromtradewhere訂購款式='B2'and流失='N'"sCom.Connection=sConsCom.CommandText=dgCon22dg22=sCom.ExecuteScalarDimdg3AsDoubleDimdgCon3AsStringdgCon3="SelectCount(*)fromtradewhere訂購款式='B3'"sCom.Connection=sConsCom.CommandText=dgCon3dg3=sCom.ExecuteScalarDimdg31AsDoubleDimdgCon31AsStringdgCon31="SelectCount(*)fromtradewhere訂購款式='B3'and流失='Y'"sCom.Connection=sConsCom.CommandText=dgCon31dg31=sCom.ExecuteScalarDimdg32AsDoubleDimdgCon32AsStringdgCon32="SelectCount(*)fromtradewhere訂購款式='B3'and流失='N'"sCom.Connection=sConsCom.CommandText=dgCon32dg32=sCom.ExecuteScalarDimdg4AsDoubleDimdgCon4AsStringdgCon4="SelectCount(*)fromtradewhere訂購款式='B4'"sCom.Connection=sConsCom.CommandText=dgCon4dg4=sCom.ExecuteScalarDimdg41AsDoubleDimdgCon41AsStringdgCon41="SelectCount(*)fromtradewhere訂購款式='B4'and流失='Y'"sCom.Connection=sConsCom.CommandText=dgCon41dg41=sCom.ExecuteScalarDimdg42AsDoubleDimdgCon42AsStringdgCon42="SelectCount(*)fromtradewhere訂購款式='B4'and流失='N'"sCom.Connection=sConsCom.CommandText=dgCon42dg42=sCom.ExecuteScalar'計算訂購款式的信息增益DimIdg1AsDoubleIdg1=tradefuc(dg11,dg12)DimIdg2AsDoubleIdg2=tradefuc(dg21,dg22)DimIdg3AsDoubleIdg3=tradefuc(dg31,dg32)DimIdg4AsDoubleIdg4=tradefuc(dg41,dg42)DimIdgAsDoubleIdg=age1/t*Idg1+dg2/t*Idg2+dg3/t*Idg3+dg4/t*Idg4DimGaindgAsDoubleGaindg=I-IdgGain(批發(fā))的源代碼如下'批發(fā)Dimpifa1AsDoubleDimpifaCon1AsStringpifaCon1="SelectCount(*)fromtradewhere批發(fā)='Y'"sCom.Connection=sConsCom.CommandText=pifaCon1pifa1=sCom.ExecuteScalarDimpifa11AsDoubleDimpifaCon11AsStringpifaCon11="SelectCount(*)fromtradewhere批發(fā)='Y'and流失='Y'"sCom.Connection=sConsCom.CommandText=pifaCon11pifa11=sCom.ExecuteScalarDimpifa12AsDoubleDimpifaCon12AsStringpifaCon12="SelectCount(*)fromtradewhere批發(fā)='Y'and流失='N'"sCom.Connection=sConsCom.CommandText=pifaCon12pifa12=sCom.ExecuteScalarDimpifa2AsDoubleDimpifaCon2AsStringpifaCon2="SelectCount(*)fromtradewhere批發(fā)='N'"sCom.Connection=sConsCom.CommandText=pifaCon2pifa2=sCom.ExecuteScalarDimpifa21AsDoubleDimpifaCon21AsStringpifaCon21="SelectCount(*)fromtradewhere批發(fā)='N'and流失='Y'"sCom.Connection=sConsCom.CommandText=pifaCon21pifa21=sCom.ExecuteScalarDimpifa22AsDoubleDimpifaCon22AsStringpifaCon22="SelectCount(*)fromtradewhere批發(fā)='N'and流失='N'"sCom.Connection=sConsCom.CommandText=pifaCon22pifa22=sCom.ExecuteScalar'計算批發(fā)的信息增益DimIpifa1AsDoubleIpifa1=tradefuc(pifa11,pifa12)DimIpifa2AsDoubleIpifa2=tradefuc(pifa21,pifa22)DimIpifaAsDoubleIpifa=pifa1/t*Ipifa1+pifa2/t*Ipifa2DimGainpifaAsDoubleGainpifa=I-IpifaGain(學生)的源代碼如下'學生Dimstudent1AsDoubleDimstudentCon1AsStringstudentCon1="SelectCount(*)fromtradewhere學生='Y'"sCom.Connection=sConsCom.CommandText=studentCon1student1=sCom.ExecuteScalarDimstudent11AsDoubleDimstudentCon11AsStringstudentCon11="SelectCount(*)fromtradewhere學生='Y'and流失='Y'"sCom.Connection=sConsCom.CommandText=studentCon11student11=sCom.ExecuteScalarDimstudent12AsDoubleDimstudentCon12AsStringstudentCon12="SelectCount(*)fromtradewhere學生='Y'and流失='N'"sCom.Connection=sConsCom.CommandText=studentCon12student12=sCom.ExecuteScalarDimstudent2AsDoubleDimstudentCon2AsStringstudentCon2="SelectCount(*)fromtradewhere學生='N'"sCom.Connection=sConsCom.CommandText=studentCon2student2=sCom.ExecuteScalarDimstudent21AsDoubleDimstudentCon21AsStringstudentCon21="SelectCount(*)fromtradewhere學生='N'and流失='Y'"sCom.Connection=sConsCom.CommandText=studentCon21student21=sCom.ExecuteScalarDimstudent22AsDoubleDimstudentCon22AsStringstudentCon22="SelectCount(*)fromtradewhere學生='N'and流失='N'"sCom.Connection=sConsCom.CommandText=studentCon22student22=sCom.ExecuteScalar'計算學生的信息增益DimIstudent1AsDoubleIstudent1=tradefuc(student11,student12)DimIstudent2AsDoubleIstudent2=tradefuc(student21,student22)DimIstudentAsDoubleIstudent=student1/t*Istudent1+student2/t*Istudent2DimGainstudentAsDoubleGainstudent=I-IstudentGain(銀行轉(zhuǎn)帳)的源代碼實現(xiàn)'支付方式--銀行轉(zhuǎn)帳Dimbank1AsDoubleDimbankCon1AsStringbankCon1="SelectCount(*)fromtradewhere銀行='Y'"sCom.Connection=sConsCom.CommandText=bankCon1bank1=sCom.ExecuteScalarDimbank11AsDoubleDimbankCon11AsStringbankCon11="SelectCount(*)fromtradewhere銀行='Y'and流失='Y'"sCom.Connection=sConsCom.CommandText=bankCon11bank11=sCom.ExecuteScalarDimbank12AsDoubleDimbankCon12AsStringbankCon12="SelectCount(*)fromtradewhere銀行='Y'and流失='N'"sCom.Connection=sConsCom.CommandText=bankCon12bank12=sCom.ExecuteScalarDimbank2AsDoubleDimbankCon2AsStringbankCon2="SelectCount(*)fromtradewhere銀行='N'"sCom.Connection=sConsCom.CommandText=bankCon2bank2=sCom.ExecuteScalarDimbank21AsDoubleDimbankCon21AsStringbankCon21="SelectCount(*)fromtradewhere銀行='N'and流失='Y'"sCom.Connection=sConsCom.CommandText=bankCon21bank21=sCom.ExecuteScalarDimbank22AsDoubleDimbankCon22AsStringbankCon22="SelectCount(*)fromtradewhere銀行='N'and流失='N'"sCom.Connection=sConsCom.CommandText=bankCon22bank22=sCom.ExecuteScalar'計算支付方式--銀行轉(zhuǎn)帳的信息增益DimIbank1AsDoubleIbank1=tradefuc(bank11,bank12)DimIbank2AsDoubleIbank2=tradefuc(bank21,bank22)DimIbankAsDoubleIbank=bank1/t*Ibank1+bank2/t*Ibank2DimGainbankAsDoubleGainbank=I-Ibank3.3計算每個屬性的信息增益率信息增益度量偏向具有許多輸出的測試,信息增益率可以克服這種偏倚,使用分裂信息值將信息增益規(guī)范化,分裂信息類似于Info(D),定義如下SplitInfoA(D)=-log2()該值代表通過將訓練數(shù)據(jù)集D劃分成對應(yīng)于屬性A測試的V個輸出的V個劃分產(chǎn)生的信息,每個輸出,關(guān)于D中元祖總數(shù)考慮具有該輸出的元組數(shù),他不同于信息增益,信息增益關(guān)于分類度量基于相同劃分所需要的信息。增益率定義為:GainRatio(A)=選擇具有最大增益率的屬性作為分裂屬性,隨著分裂信息趨向于0,該比例變的不穩(wěn)定,為了避免這種情況,增加一個約束,選取測試的信息增益必須較大,至少與所考察的所有測試的平均增益一樣大。計算每個屬性的信息增益率,“年齡”計算如下:SplitInfoA(D)的源代碼實現(xiàn)'計算年齡的分裂信息DimSplitageAsDoubleSplitage=tradefuc2(age1,age2,age3)GainRatio(A)的源代碼實現(xiàn)'計算年齡的信息增益率DimGainradioageAsDoubleGainradioage=Gainage/Splitage類似的訂購款式的分裂信息和信息增益率為'計算訂購款式的分裂信息DimSplitdgAsDoubleSplitdg=tradefuc(dg1,dg2)+tradefuc(dg3,dg4)'計算訂購款式的信息增益率DimGainradiodgAsDoubleGainradiodg=Gaindg/Splitdg批發(fā)的分裂信息和信息增益率為'計算批發(fā)的分裂信息DimSplitpifaAsDoubleSplitpifa=tradefuc(pifa1,pifa2)'計算批發(fā)的信息增益率DimGainradiopifaAsDoubleGainradiopifa=Gainpifa/Splitpifa批發(fā)的分裂信息和信息增益率為'計算學生的分裂信息DimSplitstudentAsDoubleSplitstudent=tradefuc(student1,student2)'計算學生的信息增益率DimGainradiostudentAsDoubleGainradiostudent=Gainstudent/Splitstudent銀行轉(zhuǎn)帳的分裂信息和信息增益率為'計算支付方式--銀行轉(zhuǎn)帳的分裂信息DimSplitbankAsDoubleSplitbank=tradefuc(bank1,bank2)'計算支付方式--銀行轉(zhuǎn)帳的信息增益率DimGainradiobankAsDoubleGainradiobank=Gainbank/Splitbank輸出計算結(jié)果,如圖四圖四第一次各屬性的信息增益率計算結(jié)果選取信息增益率最大但是同時獲取的信息增益又不低于所有屬性平均值的屬性作為測試屬性,以該屬性作為節(jié)點,屬性的每一個分布引出一個分支,據(jù)此劃分樣本,要是節(jié)點中所有樣本都在同一個類,則該節(jié)點成為樹葉,以該客戶類別標記樹葉,如此類推,遞歸的形成初始決策樹,另外,在節(jié)點處記下符合條件的統(tǒng)計數(shù)據(jù)。4構(gòu)建決策樹4.1構(gòu)建根節(jié)點決策樹比較5個屬性的信息增益率,選擇信息增益率最大的屬性作為分裂屬性,將訓練集分成若干個子集,程序結(jié)果如下,見圖五圖五比較5個屬性的信息增益率,并輸出源代碼如下DimGainradio1AsDoubleGainradio1=max(TextBox8.Text,TextBox9.Text)DimGainradio2AsDoubleGainradio2=max(TextBox11.Text,TextBox1.Text)DimGainradio3AsDoubleGainradio3=max(TextBox10.Text,Gainradio1)DimGainradio4AsDoubleGainradio4=max(Gainradio2,Gainradio3)TextBox20.Text=Gainradio4里面的max函數(shù)在附錄代碼里有注釋根據(jù)計算結(jié)果得出,第一次的根節(jié)點決策樹,如圖六所示,圖六根節(jié)點決策樹4.2構(gòu)建最終決策樹下面接著對四個結(jié)點繼續(xù)類似分類,生成最終數(shù)據(jù)流失決策樹,如下圖2圖七最終決策樹5客戶群流失的預(yù)測和分析我們來對決策樹結(jié)果做一些總結(jié),從圖2中可以看出,決策樹的第一選擇屬性是“訂購款式”說明訂購款式是客戶流失的最重要因素,這個跟經(jīng)驗比較接近,下來的就是批發(fā),學生,銀行匯款,年齡等屬性,根據(jù)最終決策樹模型,可以得到以下一些特征,當客戶訂購款式時,不管客戶是批發(fā),零售,還是學生,客戶都不容易流失;當客戶身份是學生時,建議選購B2(帆布鞋),則客戶不容易流失;當客戶只訂購B3(跑鞋)時,建議客戶選購其他款式,B3的客戶非常容易流失,也可以確定B3款式質(zhì)量不過硬,應(yīng)該加強質(zhì)量;當客人選擇B1(板鞋),建議客人選擇銀行匯款方式付款,而不建議客人選用支付寶交易,這樣客人不容易流失;當客戶是批發(fā)的話,查看客戶的年齡,如果客戶年齡屬于A3,此類客戶不容易流失,如果不屬于A3,則這類客戶很容易流失。根據(jù)上面分析的結(jié)果,應(yīng)該采取一些措施來盡量減少客戶的流失,并切實的提出一些具體的方案來改進,盡可能的增大客戶的忠誠度,為企業(yè)創(chuàng)造更大的經(jīng)濟效益。6總結(jié)本文引用數(shù)據(jù)挖掘來預(yù)測和分析貿(mào)易公司客戶的流失,挖掘出了一定數(shù)量相當寶貴的關(guān)聯(lián)規(guī)則,以及解決方法,選取了實際的客戶數(shù)據(jù)訓練集進行挖掘分析,引用決策樹ID3算法,c4.5算法,信息增益,信息增益率等技術(shù),最后生成了最終決策樹,挖掘出了這些數(shù)據(jù)的一些關(guān)聯(lián)特征,公司可以借鑒這些規(guī)則來進行2000年-2008等其他數(shù)據(jù)來預(yù)測和分析客戶數(shù)據(jù)的流失。結(jié)束語經(jīng)過三個月的學習和研究,基于數(shù)據(jù)挖掘的國際貿(mào)易客戶流失的預(yù)測分析基本完成,在完成過程中遇到的問題,迫使我去認真的查詢資料、搜索引擎網(wǎng)上搜索求助他人。經(jīng)過這三個月,對數(shù)據(jù)挖掘這門新興的課程有了更深的理解,對里面的決策樹ID3算法,c4.5算法等有了更為透徹的領(lǐng)悟。在這里我對一句話深有感悟,那就是“實踐是檢驗學習的最好方法!”。但是,由于時間和我個人的經(jīng)驗等原因,還有一些不完善的地方。這些將在下一步的工作中繼續(xù)完成。致謝經(jīng)過半年的認真學習和工作,我的畢業(yè)設(shè)計已經(jīng)接近尾聲,但是作為一個本科畢業(yè)生來做一個研究生的課題的畢業(yè)設(shè)計,由于經(jīng)驗的匱乏,閱讀資料的難度,難免有許多考慮不周全的地方,如果沒有導(dǎo)師的督促指導(dǎo),以及一起工作的同學們的支持,想要完成這個設(shè)計是難以想象的。在本次畢業(yè)設(shè)計中,無論在理論上還是在實踐中以及精神鼓勵,指導(dǎo)老師黃海老師都給予我很大的幫助,在設(shè)計中,遇到的問題都能很認真的講解,有什么不足的地方都能及時指出并提出個人相關(guān)的建議,促使論文設(shè)計能夠順利的完成,真誠的感謝他細心而又耐心的指導(dǎo)。最后再次感謝黃海老師的認真指導(dǎo)!參考文獻HanJiawei.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2007。3-6184-195Quinlan,J.R..C4.5:ProgramsforMachineLearning.MorganKaufmann.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論