




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、Data mining for decision support on customer insolvency in telecom business1第一部分應(yīng)用背景及客戶需求分析2為什么要建立這樣一個決策支持來區(qū)分無力償還客戶?情況描述:電信公司與其他服務(wù)提供公司一樣,經(jīng)常會遭受無力償還客戶(使用了所提供的服務(wù)卻沒有付費)。盡管針對這些客戶采取了一定的預(yù)防措施,然而在大多數(shù)情況下,這些措施顯得太晚了,并且沒有顯著的作用。因此,一些客戶逃脫付費的行為導(dǎo)致了公司財政遭受相當大的損失。3解決方法在電信行業(yè)壟斷局面被打破的今天,各方面競爭日益激烈,偵測和預(yù)防此類行為對該行業(yè)來講是個重要的目標。建立
2、一個可以事先預(yù)測客戶無力償還行為的可用的模型,對服務(wù)供應(yīng)商來說就意味著一個有用的決策支持工具。4決定使用數(shù)據(jù)挖掘技術(shù)的原因注意到電信公司收集到了大量的數(shù)據(jù),這些數(shù)據(jù)涉及到公司與客戶間交流的多個不同方面,這些數(shù)據(jù)可能包含了關(guān)于無力償還預(yù)測的有價值的信息。比如:a)客戶簡介b)所使用的服務(wù)c)公司與客戶間的經(jīng)濟聯(lián)系5最終目標與其他欺詐檢測問題中的欺詐者相似,普遍認為無力償還客戶一般與其它客戶表現(xiàn)不同,尤其是在該要付費的關(guān)鍵時期。目標:揭示這些行為模式,可以把無力償還客戶同其他的客戶區(qū)別開來。6一些固有難題一些固有的限制使得該研究是一個特殊的難題。a)無力償還客戶的行為可歸結(jié)為欺詐性結(jié)果或一些不從屬
3、客戶意愿的因素(如不可抗力、社會因素)。很明顯我們要研究的是前者,因為預(yù)測后者是相當困難的,實際上,后者的存在使得對前者的確認變得相當困難。7b)可獲得的數(shù)據(jù)集,常常以一種有限而失真的方式表現(xiàn)各個客戶。這是因為信息的來源只限于電信公司以及該公司所維護的關(guān)于客戶的信息。由于各種道德和法律因素,這些信息不能和其他來源的信息相互聯(lián)系,客戶只是被表示為某些服務(wù)的使用者,而沒有揭示其它可能影響客戶行為模式或無力償還行為的社會或財政方面的因素。8c)在大量可用的數(shù)據(jù)中,可以定義許多參數(shù),常常由主要的交易數(shù)據(jù)演繹而來,可以描述客戶行為。絕大多數(shù)相關(guān)參數(shù)的選擇對我們的問題來講是個冗長乏味的過程,部分基于統(tǒng)計分
4、析工具技術(shù),部分基于相關(guān)研究人員對所給問題的參數(shù)重要性的理解。因此,確定這些參數(shù)的子集,并隨后使用適當?shù)墓ぞ邅磉x出大部分相關(guān)參數(shù)是個關(guān)鍵的階段。9第二部分類似應(yīng)用問題的回顧10電信公司對無力償還客戶的預(yù)測和以下幾個領(lǐng)域的欺詐檢測問題相似。a)移動通訊b)常規(guī)通訊c)信用卡或名片操作11幾個問題的共同點:a)提供服務(wù)的公司收入損失顯著,超出了允許的毛差額。b)無法預(yù)測的人類行為給欺詐檢測帶來了相當大的困難。c)只有在處理了海量數(shù)據(jù)后才能獲取信息。d)欺詐案例很少與合法的作比。12第三部分 無力償還檢測 KDD過程的結(jié)果13KDD的9個步驟1)問題定義和應(yīng)用領(lǐng)域2)創(chuàng)建目標數(shù)據(jù)集3)數(shù)據(jù)清洗和預(yù)處
5、理4)數(shù)據(jù)縮減和投影5)選擇數(shù)據(jù)挖掘函數(shù)?6)選擇數(shù)據(jù)挖掘算法7)實施數(shù)據(jù)挖掘8)解釋結(jié)果9)利用發(fā)現(xiàn)的知識141)問題定義和應(yīng)用領(lǐng)域無力償還預(yù)測的功能:可預(yù)測拒絕在接下來的支付日拒絕支付電話帳單的無力償還客戶,以便于電信公司仍有時間采取預(yù)防措施。15三個目標為該公司設(shè)定的3個主要目標:1)檢測到盡可能多的無力償還客戶2)最小化虛假警報,比如:有償還力的客戶被錯判為無力償還的客戶3)及時對SP發(fā)出警告以便對可能的無力償還者采取措施。16帳單過程(BP)的時間序列圖17研究項目的任務(wù)調(diào)查研究如下的假設(shè):無力償還客戶在BP結(jié)束及之前的一個關(guān)鍵時期內(nèi),他們的呼叫習(xí)慣和電話使用通常會發(fā)生變化。此外,呼
6、叫習(xí)慣的改變和支護習(xí)慣的模式都被檢驗是否可以對未來的無力償還行為進行安全的預(yù)測。182)建立一個目標數(shù)據(jù)集客戶行為可能由許多特征來描述,大部分不能簡單的從信息系統(tǒng)和電信設(shè)備操作中獲得。對本研究來講,可得的兩種數(shù)據(jù):1.統(tǒng)計客戶信息(客戶資料)2.可提供帳單信息,支付行為和電話服務(wù)使用情況(CDR)的時間依賴數(shù)據(jù)。19涉及的未加工數(shù)據(jù)前提:數(shù)據(jù)被整合并保存在一個為此研究目標而構(gòu)建的數(shù)據(jù)倉庫中。在本研究中所涉及的未加工數(shù)據(jù): 來自客戶資料的客戶信息 來自交換中心的電話連接信息 來自帳單信息系統(tǒng)的帳單數(shù)據(jù) 來自帳單信息系統(tǒng)的客戶支付報告 由于支付失敗而引起的電話連接斷開報告 支付后電話重新連接的報告
7、 永久廢棄合同的報告20數(shù)據(jù)來源情況地域跨度: 數(shù)據(jù)來自三個不同的地域,農(nóng)村、半農(nóng)村、工業(yè)區(qū)/城鎮(zhèn)。數(shù)據(jù)量:三個數(shù)據(jù)的共100,000客戶。時間跨度:17個月,即 帳單數(shù)據(jù)從 10/19992/2001; 呼叫記錄數(shù)據(jù)從 8/199912/2000??傆嬘?0GB的未加工數(shù)據(jù)!213) 數(shù)據(jù)清洗和預(yù)處理任務(wù): 評估所收集數(shù)據(jù)的質(zhì)量,過慮掉對該研究無用的信息,找出數(shù)據(jù)倉庫中各種數(shù)據(jù)項的內(nèi)在聯(lián)系。方法: 1.去除低費用的電話呼叫。 2.數(shù)據(jù)同步。224) 數(shù)據(jù)縮減與投影在統(tǒng)計推理的協(xié)助下,對一些特征進行和最終目標之間的相關(guān)測試,來揭示有區(qū)分力的特征,對此兩類客戶分類。而那些無區(qū)分力的特征就被去除了
8、。23在此階段所做的統(tǒng)計測試1.每個電話帳戶都從屬于23種中的某一種。使用chi-square假設(shè)檢驗來核對不同類別的電話帳戶對于兩類客戶的分布獨立性。Reject2.計算兩類客戶的雙月帳單的欠費平均數(shù),且發(fā)現(xiàn)無力償還客戶的尤其高。該發(fā)現(xiàn)在所有的電話連接種類中是一致的。為證實此點實施了一項假設(shè)檢驗:兩類客戶和不同種類的帳戶的平均欠費數(shù)是同質(zhì)的。 Reject243. 對特征“雙月帳單的額外收費”在兩類客戶和不同種類帳戶中的同質(zhì)性實施假設(shè)檢驗。證明了兩類用戶間在此特征上差異顯著。Reject4.對特征“分期付款”研究一個客戶要求分期付款的次數(shù)。假設(shè)“兩類客戶中要求分期付款的客戶的比例相同”被拒絕
9、。證明在兩類客戶在此特征上有明顯不同。Reject255) 定義數(shù)據(jù)挖掘功能及特征選擇預(yù)測客戶是否是無力償還客戶可以視為一個分類問題,該問題具有以下特征:1.在原始數(shù)據(jù)集中,已知的帳戶組中每個BP期間兩類客戶的分布非常不平均,大約有99.3%的有力償還客戶,0.7%的無力償還客戶。2. 在數(shù)據(jù)集中無力償還客戶的絕對數(shù)目很小,因為在每個已知的BP期間只有幾個無力償還客戶的case。3.如前所述,兩類的錯分引起的代價不同。26解決方案創(chuàng)建一個新的數(shù)據(jù)集,專用于數(shù)據(jù)挖掘功能。新數(shù)據(jù)集特性目標:創(chuàng)建一個有力償還客戶的代表性的樣本,使得算法可以有效的訓(xùn)練。組成結(jié)構(gòu):兩類用戶的比例發(fā)生了變化,90%的有力
10、償還客戶,10%的無力償還客戶。27實現(xiàn)方法:保留原始數(shù)據(jù)集中所有無力償還客戶的例子,對有力償還的客戶進行層層抽樣。依據(jù)一組3個特征(地理區(qū)域,電話連接類型,電話帳戶組)用于層次化抽樣。這3個特征在抽樣中應(yīng)該與在原始數(shù)據(jù)集中比例相同,使得 a)保持3種不同的地域區(qū)別 b)代表不同的電話連接 c)減少電話帳戶組的季節(jié)性影響28處理結(jié)果29兩類客戶在關(guān)鍵時期的平均付費單元數(shù)306) 選擇分類算法本研究使用的算法及結(jié)果如下: 1.回歸分析,給出了一個線性分類器。 2.神經(jīng)網(wǎng)絡(luò),給出了一個非線性分類器。 3.決策樹,給出了一個基于規(guī)則的分類器。我們實驗中的依賴變量為描述顧客的SOLVENT(置為0)或
11、INSOLVENT(置為1)。317) 數(shù)據(jù)挖掘?qū)嶒灥慕Y(jié)果為了測試和比較不同分類算法的性能,做了一些實驗。實驗所用數(shù)據(jù)集創(chuàng)建的數(shù)據(jù)集被分為了兩部分: 第一部分,含有2/3的例子,作為訓(xùn)練集; 第二部分,含有1/3的例子,作為測試集。 所做實驗都采用該劃分好的數(shù)據(jù)集。328) 逐步回歸分析回歸分析 使用工具:SPSS Version 10.033決策樹在回歸分析階段選出的17個變量作為決策樹的輸入。如前所述,2/3的數(shù)據(jù)用于訓(xùn)練以建立一個基于規(guī)則的分類器,余下的1/3用于測試生成的決策樹。決策樹的結(jié)點表示特征的測試,葉子表示可能的有力償還和無力償還客戶。34神經(jīng)網(wǎng)絡(luò)利用后向傳播算法,仍然使用回歸
12、分析中選出的17個變量作為訓(xùn)練網(wǎng)絡(luò)的輸入。35對三種分類器結(jié)果的解釋說明從上表可以看出,對于第一個目標,最大化無力償還客戶的分類正確率,決策樹的效果最好;對于第二個目標,最小化有力償還客戶的錯分率,仍是決策樹的效果最好。369)使用發(fā)現(xiàn)的知識在case-by-case的比較中,每個case(一個客戶)被分別檢驗。做法:如果三個分類器意見一致,則該case就被分類,否則,該case被認為無法分類。結(jié)果:雖然無力償還客戶的分類準確率下降了不少,但是有力償還客戶的錯判警報改進了很多。從下表中可以看出,1866個有力償還客戶中,只有1個被錯判的。37在結(jié)果評估的最后一步,對被正確預(yù)測為無力償還的客戶所
13、實際占有的帳目作了評估。38第四部分總結(jié)及未來研究方向39本文主旨該長期研究項目目的是研究數(shù)據(jù)挖掘技術(shù)對于客戶無力償還問題在電信領(lǐng)域的特殊應(yīng)用。然而,項目的發(fā)現(xiàn)遠不止在該案例的研究領(lǐng)域的應(yīng)用。出于一些原因考慮,該研究的成果是有重大意義的。1. 該研究所用的數(shù)據(jù),需求和目標的設(shè)置,以及實驗的規(guī)模,都是來自真實世界的問題。2.實驗規(guī)模相當?shù)拇螅琈B級的數(shù)據(jù)量。3.構(gòu)建了一個“知識發(fā)現(xiàn)數(shù)據(jù)項目” 并從始至終完整的執(zhí)行。4.在初始階段,需要多種工具和專家的直覺來定義數(shù)據(jù)集特征,選擇合適的變量描述需求模型特征。40數(shù)據(jù)挖掘過程總結(jié)數(shù)據(jù)挖掘是個多步的過程。使用多種算法,最后選擇最好最合適該數(shù)據(jù)集的算法。 1. 實施特征選擇(用回歸分析中的逐步前向選擇)。在這個階段,46個變量被減至17個。 2. 選出的特征被用于構(gòu)造基于決策樹和后向傳播的神經(jīng)網(wǎng)絡(luò)算法的分類器(大致上三種算法性能相差不大)。 3.該
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年全自動變焦照相機項目資金申請報告代可行性研究報告
- 2024年變頻器柜體系統(tǒng)項目資金籌措計劃書
- 2025年河南省三門峽市單招職業(yè)適應(yīng)性測試題庫匯編
- 2025年湖北省荊門市單招職業(yè)傾向性測試題庫匯編
- 2025年黑龍江商業(yè)職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫一套
- 兒童樂園裝修合同
- 2025年度安全培訓(xùn)與操作規(guī)范服務(wù)協(xié)議
- 2025年度員工勞動合同終止及生活困難補助協(xié)議
- 2025陜西省安全員C證考試(專職安全員)題庫附答案
- 2025年度房屋贈與及物業(yè)管理權(quán)轉(zhuǎn)移合同
- 2024年2型糖尿病中醫(yī)防治指南解讀課件
- 2024-2030年中國螺旋藻行業(yè)市場發(fā)展分析及發(fā)展趨勢與投資研究報告
- MOOC 中外鐵路文化之旅-華東交通大學(xué) 中國大學(xué)慕課答案
- CJJ 82-2012 園林綠化工程施工及驗收規(guī)范
- 數(shù)據(jù)庫原理及應(yīng)用(第3版)
- 預(yù)防流感健康知識講座總結(jié)
- 國際標準《風險管理指南》(ISO31000)的中文版
- 2023年4月自考00808商法試題及答案含解析
- 幼兒園中班語言《猜燈謎》
- 中醫(yī)外科瘡瘍病
- (高清版)DZT 0004-2015 重力調(diào)查技術(shù)規(guī)范(150 000)
評論
0/150
提交評論