![基于cox模型的客戶(hù)流失預(yù)測(cè)研究_第1頁(yè)](http://file4.renrendoc.com/view/69188cd1f490ae857216a6c3852922ae/69188cd1f490ae857216a6c3852922ae1.gif)
![基于cox模型的客戶(hù)流失預(yù)測(cè)研究_第2頁(yè)](http://file4.renrendoc.com/view/69188cd1f490ae857216a6c3852922ae/69188cd1f490ae857216a6c3852922ae2.gif)
![基于cox模型的客戶(hù)流失預(yù)測(cè)研究_第3頁(yè)](http://file4.renrendoc.com/view/69188cd1f490ae857216a6c3852922ae/69188cd1f490ae857216a6c3852922ae3.gif)
![基于cox模型的客戶(hù)流失預(yù)測(cè)研究_第4頁(yè)](http://file4.renrendoc.com/view/69188cd1f490ae857216a6c3852922ae/69188cd1f490ae857216a6c3852922ae4.gif)
![基于cox模型的客戶(hù)流失預(yù)測(cè)研究_第5頁(yè)](http://file4.renrendoc.com/view/69188cd1f490ae857216a6c3852922ae/69188cd1f490ae857216a6c3852922ae5.gif)
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于cox模型的客戶(hù)流失預(yù)測(cè)研究
近年來(lái),客戶(hù)損失已成為全球通信公司面臨的一個(gè)普遍問(wèn)題。目前對(duì)電信業(yè)客戶(hù)流失預(yù)測(cè)問(wèn)題的研究十分廣泛,運(yùn)用最廣泛的是決策樹(shù)算法。決策樹(shù)算法建模簡(jiǎn)單、分類(lèi)準(zhǔn)確率高,而且能導(dǎo)出簡(jiǎn)明易懂的諸如If-Then形式的分類(lèi)規(guī)則,但也有一定的缺點(diǎn),此外,很多專(zhuān)家對(duì)Logistic回歸、人工神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)等方法也進(jìn)行了研究,但是整個(gè)神經(jīng)網(wǎng)絡(luò)的分析過(guò)程是一個(gè)不透明的“黑盒子”,無(wú)法展現(xiàn)可讀的模型,每階段的加權(quán)與轉(zhuǎn)換亦不明確顯示,所以神經(jīng)網(wǎng)絡(luò)大多數(shù)都用于處理高度非線性且變量有相當(dāng)程度交互效應(yīng)的數(shù)據(jù)。利用Cox生存分析建模算法預(yù)測(cè)客戶(hù)流失問(wèn)題有以下優(yōu)點(diǎn):①既考慮危險(xiǎn)(流失)事件“發(fā)生”或“不發(fā)生”的結(jié)局,也充分利用生存時(shí)間的信息;②能夠處理刪失數(shù)據(jù)。在生存分析中,觀測(cè)期截止時(shí)尚未流失的客戶(hù)可以作為刪失樣本進(jìn)入模型,從而提高了模型的實(shí)效性,且有利于模型的實(shí)時(shí)更新。鑒于此,本文利用Cox生存分析建模算法,把已有數(shù)據(jù)分為訓(xùn)練樣本和測(cè)試樣本。通過(guò)訓(xùn)練樣本,利用偏最大似然參數(shù)估計(jì)方法計(jì)算出模型中每個(gè)屬性的系數(shù)的估計(jì)值,建立模型,然后計(jì)算測(cè)試樣本中每個(gè)客戶(hù)的生存概率,按生存概率從小到大進(jìn)行排序,等分為10組,計(jì)算第1組包含流失的客戶(hù)百分比,這個(gè)比值越高,模型的效果就越好。這樣建立的基于電信行業(yè)客戶(hù)流失的預(yù)測(cè)模型,可以大大提高預(yù)測(cè)準(zhǔn)確率,為電信企業(yè)的客戶(hù)保持和客戶(hù)挽留提供有力的決策支持。1cox模型參數(shù)1.1個(gè)體生存時(shí)間分布函數(shù)生存時(shí)間測(cè)量某事件出現(xiàn)的時(shí)間,通常用生存函數(shù)、概率密度函數(shù)和危險(xiǎn)率函數(shù)來(lái)描述。三者在數(shù)學(xué)上是等價(jià)的,得出其中1個(gè),就可以推導(dǎo)出另2個(gè)。生存函數(shù)(survivalfunction),又稱(chēng)累計(jì)生存率,是指?jìng)€(gè)體生存時(shí)間大于t的概率,即S(t)=P(T≥t)=1?F(t)(1)S(t)=Ρ(Τ≥t)=1-F(t)(1)其中,F(t)指?jìng)€(gè)體的生存時(shí)間T的分布函數(shù)。概率密度函數(shù)(probabilitydensityfunction),又稱(chēng)作密度函數(shù),該函數(shù)的圖形為密度曲線,在任何時(shí)間區(qū)間內(nèi)死亡的比例和死亡出現(xiàn)的機(jī)會(huì)峰值均可從密度曲線找出,函數(shù)表達(dá)式為:f(t)=limΔt→0P(個(gè)體在區(qū)間(t,t+Δt)中死亡)Δt(2)f(t)=limΔt→0Ρ(個(gè)體在區(qū)間(t,t+Δt)中死亡)Δt(2)危險(xiǎn)率函數(shù)(hazardfunction),又稱(chēng)為風(fēng)險(xiǎn)函數(shù)、瞬間死亡率、死亡強(qiáng)度、條件死亡率、危險(xiǎn)率等,危險(xiǎn)率函數(shù)是生存分析最基本的函數(shù),即h(t)=limΔt→0(P(年齡是t的個(gè)體在(t,t+Δt)中死亡))/Δt(3)h(t)=limΔt→0(Ρ(年齡是t的個(gè)體在(t,t+Δt)中死亡))/Δt(3)對(duì)于危險(xiǎn)率函數(shù),有:h(t)=f(t)S(t)=f(t)1?F(t)=?dlnS(t)dt(4)即S(t)=exp[?∫t0h(u)du](5)h(t)=f(t)S(t)=f(t)1-F(t)=-dlnS(t)dt(4)即S(t)=exp[-∫0th(u)du](5)1.2基準(zhǔn)生存函數(shù)Cox模型在表達(dá)形式上與參數(shù)模型相似,但對(duì)各參數(shù)進(jìn)行估計(jì)時(shí)又不依賴(lài)特定分布的假設(shè),所以又稱(chēng)為半?yún)?shù)回歸模型。當(dāng)生存時(shí)間是連續(xù)分布且預(yù)后變量間相互作用可被忽視時(shí),危險(xiǎn)率函數(shù)h(t)為:h(t)=h0(t)exp(β1x1+β2x2+…+βkxk)(6)其中,h0為基準(zhǔn)的生存分布的危險(xiǎn)率函數(shù);β為回歸系數(shù);x為預(yù)后變量,即為協(xié)變量。由于Cox模型的假設(shè),每個(gè)預(yù)后變量的危險(xiǎn)率在時(shí)間上正比于基準(zhǔn)危險(xiǎn)率h0,從而無(wú)需計(jì)算h0,使用起來(lái)非常方便。這時(shí),相應(yīng)的生存函數(shù)為:S(t;X)=S0(t)exp(βX)(7)S(t;X)=S0(t)exp(βX)(7)其中,S0(t)為t時(shí)刻的基準(zhǔn)生存函數(shù)。在時(shí)間t和協(xié)變量X的作用下,個(gè)體風(fēng)險(xiǎn)函數(shù)相對(duì)于基準(zhǔn)風(fēng)險(xiǎn)函數(shù)之比與時(shí)間無(wú)關(guān),不隨時(shí)間t的變化而變化;而基準(zhǔn)風(fēng)險(xiǎn)函數(shù)h0(t)只與時(shí)間t有關(guān),不受X的影響。Cox模型不僅可以分析各協(xié)變量對(duì)生存時(shí)間的影響,而且對(duì)基準(zhǔn)風(fēng)險(xiǎn)分布不作任何要求,就可以處理時(shí)變協(xié)變量。2基于cox模型建立預(yù)測(cè)模型2.1基于業(yè)務(wù)分析的客戶(hù)消費(fèi)判斷本文利用中國(guó)移動(dòng)通信行業(yè)某分公司的客戶(hù)進(jìn)行實(shí)證研究。為了避免學(xué)生畢業(yè)和民工返鄉(xiāng)造成的無(wú)法挽留的客戶(hù)流失,本文采集了2007年1月到2007年6月的數(shù)據(jù),其中1~4月為數(shù)據(jù)觀測(cè)期,該期間的客戶(hù)基本資料、通話記錄、賬單等轉(zhuǎn)化為屬性后作為模型的輸入變量,6月份的流失數(shù)據(jù)作為模型的輸出。為了更好地刻畫(huà)客戶(hù)的消費(fèi)行為,本文引入月均話費(fèi)、月均短信費(fèi)用等一些衍生的屬性。根據(jù)本文算法,生存分析中變量主要分為3類(lèi):生存時(shí)間T、刪失變量C及表示相關(guān)因素的協(xié)變量X。其中生存時(shí)間T定義為客戶(hù)從開(kāi)戶(hù)到流失或者刪失的時(shí)間,以月為單位。由于電信行業(yè)客戶(hù)不像其它行業(yè)的產(chǎn)品有固定的截止日期,只要到觀測(cè)期結(jié)束還沒(méi)有流失的樣本都是刪失樣本。因此,如果客戶(hù)到2007年6月份還沒(méi)有流失,則定義為刪失樣本,C=0,否則,對(duì)于已經(jīng)觀測(cè)到流失的客戶(hù),C=1;影響流失行為的協(xié)變量總共為12個(gè),定義為x1~x12。經(jīng)過(guò)數(shù)據(jù)清洗與處理,從數(shù)據(jù)庫(kù)中得到159177個(gè)資料完整的客戶(hù)樣本,其中流失客戶(hù)數(shù)為14776個(gè),流失客戶(hù)占比為9.28%。然后按照1∶1左右的比例劃分訓(xùn)練樣本集和驗(yàn)證樣本集,其中,訓(xùn)練樣本集包含72843個(gè)客戶(hù)樣本,流失客戶(hù)數(shù)為7482個(gè);驗(yàn)證樣本集包含86334個(gè)客戶(hù)樣本,流失客戶(hù)數(shù)為7294個(gè)。2.2變量與客戶(hù)流失的關(guān)系數(shù)據(jù)集中的屬性較多,其中有些屬性可能與客戶(hù)流失的相關(guān)性較大,而有些可能與客戶(hù)流失無(wú)關(guān),而且有些屬性之間存在強(qiáng)相關(guān)關(guān)系,即冗余屬性,因此要對(duì)屬性進(jìn)行約簡(jiǎn)。本文使用Pearson相關(guān)系數(shù)檢驗(yàn)、Kendall′stau-b及Spearman秩次相關(guān)系數(shù)來(lái)檢驗(yàn)2個(gè)變量之間的相關(guān)性,以此來(lái)消除冗余。Pearson檢驗(yàn)2個(gè)變量之間是否存在線性相關(guān)關(guān)系,如果變量X與變量Y呈完全正線性相關(guān)關(guān)系,則該系數(shù)等于1;如果變量X與變量Y呈完全負(fù)線性相關(guān)關(guān)系,則該系數(shù)等于-1;如果變量X與變量Y沒(méi)有任何線性相關(guān)關(guān)系,則該系數(shù)等于0,用公式表示為:ρxy=Cov(x,y)Var(x)Var(y)√=E((x?E(x)(y?E(y))E(x?E(x))2E(y?E(y))2√(8)ρxy=Cov(x,y)Var(x)Var(y)=E((x-E(x)(y-E(y))E(x-E(x))2E(y-E(y))2(8)與Pearson不同,Spearman只檢驗(yàn)變量間的單調(diào)關(guān)系,而不強(qiáng)調(diào)線性相關(guān),如果該系數(shù)等于1,說(shuō)明變量Y是變量X的完全增函數(shù),但并不表示變量X和變量Y之間有任何線性相關(guān)關(guān)系,用公式表示為:τ=2(nx?ny)/[n(n?1)](9)τ=2(nx-ny)/[n(n-1)](9)其中,對(duì)于(x1,y1)和(x2,y2),定義sgnx=??????1?x<0;0?x=0;1?x>0(10)sgnx={-1?x<0;0?x=0;1?x>0(10)則nx=sgn(x2-x1)=sgn(y2-y1);ny=sgn(x2-x1)=-sgn(y2-y1)。Kendall′stau-b是一種對(duì)2個(gè)有序變量或2個(gè)秩變量間的關(guān)系程度的測(cè)度,因此也屬于一種非參測(cè)度,其表達(dá)式為:θ=∑i((Ri?Rˉˉˉ)(Si?Sˉˉ))∑i(Ri?Rˉˉˉ)2∑i(Si?Sˉˉ)2√(11)θ=∑i((Ri-Rˉ)(Si-Sˉ))∑i(Ri-Rˉ)2∑i(Si-Sˉ)2(11)根據(jù)以上3種檢驗(yàn)方法,計(jì)算各協(xié)變量與客戶(hù)流失相關(guān)性的檢驗(yàn)結(jié)果見(jiàn)表1所列。表1中x1~x12對(duì)應(yīng)的屬性分別為:x1,年齡;x2,性別;x3,區(qū)域;x4是否有聯(lián)系方式;x5,是否本地身份證;x6,總欠費(fèi)次數(shù);x7,呼叫次數(shù);x8,月均短信費(fèi)用;x9,月均總費(fèi)用;x10,平均開(kāi)通業(yè)務(wù)數(shù);x11,是否漫游;x12,信用度。從表1可知,3種檢驗(yàn)方法的結(jié)果基本一致。在0.05的顯著性水平下,年齡、是否有聯(lián)系方式、是否本地身份證、呼叫次數(shù)、月均短信費(fèi)用、月均總費(fèi)用、平均開(kāi)通業(yè)務(wù)數(shù)等7個(gè)屬性與客戶(hù)流失有顯著的負(fù)相關(guān)關(guān)系;總欠費(fèi)次數(shù)與客戶(hù)流失有顯著的正相關(guān)關(guān)系;性格、是否漫游、信用度和區(qū)域等4個(gè)屬性與客戶(hù)流失的關(guān)系不顯著。取線性關(guān)系最強(qiáng)的8個(gè)變量作為模型的最終協(xié)變量。通過(guò)基于累計(jì)風(fēng)險(xiǎn)函數(shù)圖示法來(lái)檢驗(yàn),以上篩選出來(lái)的8個(gè)協(xié)變量都滿(mǎn)足PH假定。2.3預(yù)測(cè)協(xié)變量的篩選根據(jù)(7)式,利用偏最大似然參數(shù)估計(jì)方法(PartialMaximumLikelihood)估計(jì)系數(shù)β。本文使用SPSS統(tǒng)計(jì)軟件,利用上述篩選出來(lái)的8個(gè)變量對(duì)訓(xùn)練樣本進(jìn)行擬合。參數(shù)估計(jì)結(jié)果見(jiàn)表2所列。從表2可以看出,8個(gè)預(yù)測(cè)協(xié)變量都在0.01置信水平上顯著;自由度為1;回歸系數(shù)標(biāo)準(zhǔn)誤差都很小,說(shuō)明用這些屬性來(lái)預(yù)測(cè)客戶(hù)流失的可靠性是比較大的。年齡、是否有聯(lián)系方式、是否本地身份證、月均短信費(fèi)用、月均開(kāi)通業(yè)務(wù)數(shù)的系數(shù)均為負(fù)值,表明與客戶(hù)流失負(fù)相關(guān);欠費(fèi)次數(shù)、月均呼叫次數(shù)、月均總費(fèi)用的系數(shù)均為正值,表明與客戶(hù)流失正相關(guān)。2.4生存概率預(yù)測(cè)模型預(yù)測(cè)結(jié)果在建立模型后,將測(cè)試樣本的預(yù)測(cè)變量值帶入模型,根據(jù)生存概率公式計(jì)算可以得到每個(gè)客戶(hù)在2007年6月份的生存概率,然后按客戶(hù)生存函數(shù)排序,將樣本客戶(hù)按照其在特定時(shí)點(diǎn)的預(yù)測(cè)生存概率從小到大排序,等分為若干組,比較各組中在預(yù)測(cè)的時(shí)間點(diǎn)之前流失的客戶(hù)數(shù)量,如果模型預(yù)測(cè)能力足夠強(qiáng),該時(shí)間點(diǎn)越靠前,即預(yù)測(cè)生存概率值越小的組中實(shí)際流失客戶(hù)數(shù)應(yīng)該越多。本文按預(yù)測(cè)的客戶(hù)流失率大小等分為10組,然后計(jì)算每組中客戶(hù)流失數(shù),如果模型的預(yù)測(cè)效果很好,則每組的客戶(hù)流失數(shù)應(yīng)該遞減,且區(qū)別較大。而前面幾組中包含的實(shí)際流失的客戶(hù)占流失客戶(hù)總數(shù)的百分比越高,說(shuō)明模型預(yù)測(cè)能力越好,也越實(shí)用。按照上述方法進(jìn)行分類(lèi),結(jié)果見(jiàn)表3所列。從表3可以看出,改變預(yù)測(cè)模型確實(shí)能夠?qū)⒖蛻?hù)流失率按大小有效地區(qū)別開(kāi),在選取的2007年6月份這個(gè)時(shí)間點(diǎn)上,生存函數(shù)預(yù)測(cè)值最小的一組包含89.35%的流失客戶(hù),前2組基本上能涵蓋94.61%以上的流失客戶(hù),并且第1組總共有8633個(gè)客戶(hù),流失客戶(hù)數(shù)占75.49%。因此,利用Cox模型,用預(yù)測(cè)生存概率最小的前10%的客戶(hù)就能包含89%以上的實(shí)際流失客戶(hù),這樣,只要集中資源對(duì)這10%的客戶(hù)采取有效的針對(duì)性維護(hù)措施,就有可能挽留住絕大部分可能流失的客戶(hù),從而提高資源利用率,最大程度降低客戶(hù)流失率。實(shí)證結(jié)果表明,本文所使用的客戶(hù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年公司知識(shí)產(chǎn)權(quán)交易與許可合同
- 2025年度教室租賃及教學(xué)設(shè)備供應(yīng)合同
- 2025年度基坑支護(hù)勞務(wù)分包合同售后服務(wù)保障協(xié)議
- 2025年度城市景觀照明工程施工中標(biāo)合同范本
- 2025年度廣告圍擋廣告位租賃合同解除與終止合同
- 2025年度盡職調(diào)查與財(cái)務(wù)盡職調(diào)查服務(wù)合同
- 2025年度建筑地勘施工與智慧城市建設(shè)合同
- 2025年度家庭地暖節(jié)能保溫材料供應(yīng)合同范本
- 2025年度智能建筑安裝施工勞務(wù)合同管轄范圍明確協(xié)議
- 2025年度國(guó)際貿(mào)易貸款保證擔(dān)保合同范本
- 主題二任務(wù)二 《探究身邊信息技術(shù)的奧秘》 教學(xué)設(shè)計(jì) 2023-2024學(xué)年桂科版初中信息技術(shù)七年級(jí)上冊(cè)
- 人教八年級(jí)上冊(cè)英語(yǔ)第一單元《Section A (1a-2d)》教學(xué)課件
- 2023年版《安寧療護(hù)實(shí)踐指南(試行)》解讀課件
- 10kV環(huán)網(wǎng)柜改造工程施工方案設(shè)計(jì)
- 電工班三級(jí)安全教育內(nèi)容范本
- 中國(guó)血管通路專(zhuān)家共識(shí)解讀
- 新生兒疾病篩查可疑陽(yáng)性、陽(yáng)性?xún)簭?fù)查隨訪登記表
- 開(kāi)學(xué)前幼兒園安全培訓(xùn)
- 2023年湛江市麻章區(qū)教育局招聘事業(yè)編制教師考試真題
- 《裝配式蒸壓加氣混凝土外墻板保溫系統(tǒng)構(gòu)造》中
- 電梯維保方案完整版
評(píng)論
0/150
提交評(píng)論