對(duì)信用卡客戶分類和數(shù)據(jù)挖掘_第1頁
對(duì)信用卡客戶分類和數(shù)據(jù)挖掘_第2頁
對(duì)信用卡客戶分類和數(shù)據(jù)挖掘_第3頁
對(duì)信用卡客戶分類和數(shù)據(jù)挖掘_第4頁
對(duì)信用卡客戶分類和數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、對(duì)信用卡客戶分類和數(shù)據(jù)挖掘選題背景:隨著經(jīng)濟(jì)的發(fā)展,我國信用卡市場逐步壯大并日益繁榮。近幾 年信用卡逐漸成為我國居民個(gè)人消費(fèi)使用最為頻繁的支付工具之一。信用卡屬于 一種貸款, 這也構(gòu)成了客戶對(duì)于開證銀行的債務(wù)關(guān)系, 所以信用卡開證行對(duì)于用 戶的基本信息以及對(duì)于其信用價(jià)值評(píng)估也成為了重要的一環(huán), 評(píng)估的結(jié)果可以用 來分析客戶的最大信用額度幾何、 客戶是否能夠成功開通信用卡業(yè)務(wù), 以及還款 的時(shí)間比例等等是否合理。 因此商業(yè)銀行利用先進(jìn)的數(shù)據(jù)挖掘技術(shù)對(duì)客戶基本信 息分析進(jìn)行客戶分類, 區(qū)別不同的客戶群體, 然后針對(duì)不同客戶群體, 采取不同 的發(fā)卡方式,、營銷策略、風(fēng)險(xiǎn)控制舉措這些舉動(dòng)都是十分有必要

2、的,也是對(duì)信 用卡產(chǎn)品獲得市場份額有巨大幫助作用的。選題意義:利用數(shù)據(jù)挖掘技術(shù)對(duì)信用卡客戶進(jìn)行分析的主要意義。從小的 方面來說,利用數(shù)據(jù)挖掘技術(shù)對(duì)信用卡客戶進(jìn)行分類 ,不僅有利于信用卡客戶關(guān) 系得到系統(tǒng)、有序、差異性管理,還有利于銀行進(jìn)行有效的風(fēng)險(xiǎn)控制和風(fēng)險(xiǎn)管理。 一是通過對(duì)信用卡客戶的分類 ,銀行可以針對(duì)不同客戶群體 ,全面深入地了解客 戶的不同需求,并推出有針對(duì)性的特色產(chǎn)品,從而提高發(fā)卡率、 市場占有率、 客戶 使用率等,為銀行創(chuàng)造更多的收益。二是通過對(duì)信用卡客戶的分類,可以分析發(fā)現(xiàn) 風(fēng)險(xiǎn)較高客戶群,特別地對(duì)這類客戶群的消費(fèi)行為、信用狀況進(jìn)行監(jiān)測和控制 , 以便可以及早發(fā)現(xiàn)并消除潛在的信用

3、風(fēng)險(xiǎn)和欺詐風(fēng)險(xiǎn)。從大的方面來說,商業(yè)銀 行在建立有效的信用卡分類管理智能系統(tǒng)的基礎(chǔ)上,充分利用數(shù)據(jù)挖掘技術(shù)強(qiáng)大 的數(shù)據(jù)分析和挖掘能力 ,幫助信用卡業(yè)務(wù)管理者做出正確的判斷和決策 ,不斷創(chuàng) 新信用卡個(gè)性化服務(wù)內(nèi)容,增強(qiáng)信用卡產(chǎn)品在國內(nèi)或者國際市場上的競爭力。文獻(xiàn)綜述信用卡作為特殊的金融商品、現(xiàn)代化的金融工具,是國際流行的先進(jìn)結(jié)算 手段、 支付工具和新穎的消費(fèi)信貸方式,日益受到人們的青睞。 由于使用信用卡, 改現(xiàn)金交易為轉(zhuǎn)賬結(jié)算,取代了一定數(shù)量的市場流通貨幣,減少了貨幣的發(fā)行量, 減少了國家每年用于貨幣印刷、調(diào)撥、運(yùn)輸、倉儲(chǔ)和投放所耗費(fèi)的資金,也加快 了社會(huì)流動(dòng)資金周轉(zhuǎn)速度,促進(jìn)經(jīng)濟(jì)發(fā)展。信用卡還

4、能促進(jìn)商品銷售,刺激社會(huì)需求。對(duì)于持卡人而言,信用卡的發(fā)行和使用 ,使持卡人通過使用信用卡獲得商 品和勞務(wù)服務(wù),免除了攜帶大量現(xiàn)金的不便和風(fēng)險(xiǎn) ,同時(shí)還可通過透支簡便地獲 得銀行貸款。 同時(shí)貸記卡持卡人非現(xiàn)金交易還可以享受如下優(yōu)惠條件:(1)免中國 人民銀行 1999 年 3 月 1 日頒布執(zhí)行的 銀行卡業(yè)務(wù)管理辦法 第 9 頁共 75 頁浙 江大學(xué)碩士學(xué)位論文數(shù)據(jù)挖掘技術(shù)在銀行信用卡業(yè)務(wù)中的應(yīng)用研究息還款期待 遇。銀行記賬日至發(fā)卡銀行規(guī)定的到期還款日之間為免息還款期。 免息還款期最 長為 60 天。持卡人在到期還款日前償還所使用全部銀行款項(xiàng)即可享受免息還款 期待遇,無須支付非現(xiàn)金交易的利息。

5、 (2)最低還款額待遇。 持卡人在到期還款日 前償還所使用全部銀行款項(xiàng)有困難的,可按照發(fā)卡銀行規(guī)定的最低還款額還款。 對(duì)于特約商戶來說 ,由于有信用卡發(fā)卡銀行的信用保證 ,特約商戶可以放心地為 持卡人提供商品和服務(wù),從而擴(kuò)大商品的銷售量,并減輕收款點(diǎn)款工作量,簡化了 支付、記賬和結(jié)賬的過程。信用卡的發(fā)行,使銀行有了一種新的爭取特約商戶和信用卡客戶存款的手 段,有利于擴(kuò)大銀行轉(zhuǎn)賬結(jié)算業(yè)務(wù),同時(shí)增加銀行信貸資金的來源,從而獲得更多 的利差收入,已經(jīng)成為銀行的重要盈利手段。據(jù)統(tǒng)計(jì),國外信用卡業(yè)務(wù)銀行帶來的 利潤一般占到銀行利潤的 30%左右,花旗銀行甚至還要高, 占 50%以上。美國運(yùn)通 公司更是憑

6、借運(yùn)通卡成為全球服務(wù)、旅游、娛樂業(yè)界的巨無霸。對(duì)于銀行而言, 信用卡業(yè)務(wù)的收入主要包括存款利差收入、年費(fèi)、結(jié)算手續(xù)費(fèi)、透支利息等。在 這幾項(xiàng)收人中,年費(fèi)收入是固定不變的,普通信用卡大約 20 一 40 元一年,只要發(fā) 卡就會(huì)有年費(fèi)收入 ,其他幾項(xiàng)收入隨業(yè)務(wù)量的大小而變化 ,結(jié)算手續(xù)費(fèi)收入隨卡 均消費(fèi)額的變化而變化,利息收入隨透支額的變化而變化。所采用的方法:決策樹算法中的 CHAID 算法、 ID3 算法、神經(jīng)網(wǎng)絡(luò)算法、以及聚 類算法中的兩步算法等。數(shù)據(jù)來源:國外某家銀行對(duì)于信用卡用戶申請(qǐng)的批準(zhǔn)。其中包括客戶的年 齡、工作、婚姻狀況、教育程度、是否有違約、收支是否平衡、是否有房屋、是 否有貸款

7、、聯(lián)系方式、還款期限、之前的透支次數(shù)、預(yù)期收入水平、銀行是否批 準(zhǔn)予以其下一季信用卡的使用權(quán)等等。數(shù)據(jù)預(yù)處理:對(duì)于年齡我們只取其十位數(shù)、工作按其行業(yè)類型分別劃分為0-10、單身已婚和離婚分別為 0、1、2,教育水平按小學(xué)中學(xué)大學(xué)分為 1、2、3。 對(duì)于房屋、是否有貸款、銀行是否批準(zhǔn)、是否違約等中“是”用 1、“否”用 0 代替、通訊方式無、座機(jī)、手機(jī)分別為 0、1、2.收大于支取 1.收小于支取 0. 分析過程: 對(duì)于我們處理過的數(shù)據(jù)我首先做的是特征選擇。 特征選擇也叫特征子 集選擇 ( FSS ) 。是指從已有的 M 個(gè)特征中選擇 N 個(gè)特征使得系統(tǒng)的特定指標(biāo) 最優(yōu)化,是從原始特征中選擇出一

8、些最有效特征以降低數(shù)據(jù)集維度的過程,是提 高學(xué)習(xí)算法性能的一個(gè)重要手段,也是模式識(shí)別中關(guān)鍵的數(shù)據(jù)預(yù)處理步驟。對(duì)于 一個(gè)學(xué)習(xí)算法來說,好的學(xué)習(xí)樣本是訓(xùn)練模型的關(guān)鍵。從特征選擇的結(jié)果我們可 以看到 campaign 這一項(xiàng)并不重要,所以我們?cè)谀P秃筇蕹撟兞?,第二?default (違約行為)因?yàn)閱蝹€(gè)類別過大的原因我們也將其剔除,對(duì)于剩余的數(shù) 據(jù)我們以 conclusion (銀行決定是否給予客戶下一季的信用卡使用權(quán))作為輸 出進(jìn)行決策樹分析。我分別采用了 CHAID、神經(jīng)網(wǎng)絡(luò)、以及 C.50 算法結(jié)果顯示 他們分析結(jié)果中的正確率基本一致都在 89.32%。但是相比較而言神經(jīng)網(wǎng)絡(luò)模型 所給出的結(jié)

9、論會(huì)更加可靠:因?yàn)樯窠?jīng)網(wǎng)絡(luò)算法對(duì)于本文所采用的數(shù)值相對(duì)準(zhǔn)確。 邏輯性的思維是指根據(jù)邏輯規(guī)則進(jìn)行推理的過程;它先將信息化成概念,并用符 號(hào)表示, 然后, 根據(jù)符號(hào)運(yùn)算按串行模式進(jìn)行邏輯推理; 這一過程可以寫成串行 的指令,讓計(jì)算機(jī)執(zhí)行。然而,直觀性的思維是將分布式存儲(chǔ)的信息綜合起來, 結(jié)果是忽然間產(chǎn)生想法或解決問題的辦法。這種思維方式的根本之點(diǎn)在于以下兩 點(diǎn): 1.信息是通過神經(jīng)元上的興奮模式分布儲(chǔ)在網(wǎng)絡(luò)上; 2.信息處理是通過神經(jīng) 元之間同時(shí)相互作用的動(dòng)態(tài)過程來完成的。所以說神經(jīng)網(wǎng)絡(luò)算法可以接受的數(shù)據(jù)類型來說離散型的數(shù)據(jù)最為適合。CHAID正確錯(cuò)誤總計(jì)神經(jīng)網(wǎng)絡(luò)正確錯(cuò)誤總計(jì)4,0374844,5

10、214,0424794,52189.29%10.71%89.40%10.60%從訓(xùn)練結(jié)果來看,對(duì)于我們的銀行決策影響最大的是預(yù)期的收入水平,然后通訊方式、工作、婚姻狀況、教育水平、是否有貸款和房屋等對(duì)銀行決策都起重要作用但是影響率都非常小。而收支平衡、和之前還款次數(shù)在本模型中影響力微乎其微,在我們之后的客戶聚類分析中我們不在考慮收支平衡和還款次數(shù)的作用。在我們對(duì)于客戶特點(diǎn)進(jìn)行聚類分析后得出以下結(jié)果從圖中我們可以看到兩步算法將我們的客戶聚為四類,而 kmeans 算法中將客戶分為五類。其中兩步算法中的 poutcom 的區(qū)分度比kmeans 要好的多,而且我們?cè)谏鲜龅臎Q策樹分析中我們可以得出 p

11、outcome 是影響銀行決策的主要因素, 因此其他的因素可以不明顯區(qū)分但是 poutcome 必須要保證其無偏。后文將著重描述兩步算法分析所得到的結(jié)果。有圖是四類的具體數(shù)值,結(jié)合上圖的比例分析??蛻糁蟹诸惖臄?shù)量按 1、3、4、 2 逐漸的比例增加。兩步算法的具體評(píng)判標(biāo)準(zhǔn)在附件中,這里不再贅述。聚類四 中我們可以通過聯(lián)系方式加以區(qū)分只有這個(gè)群體中才有大多數(shù)人使用座機(jī), 聚 類一可以通過是否現(xiàn)在就有貸款行為進(jìn)行區(qū)分。聚類三可以通過是否只存在婚姻 關(guān)系加以區(qū)分。聚類二通過 poutcome 區(qū)分。上圖是對(duì)于各個(gè)聚類中對(duì)預(yù)計(jì)收入-聚類類別的統(tǒng)計(jì)。從中我們可以分析出 在預(yù)計(jì)收入不變的情況下聚類 3、4

12、 最多、 1、2 其次。在預(yù)計(jì)收入增長 10%的水 平下人數(shù)劇減,而且集中分布于聚類 2,在預(yù)計(jì)收入增長 20%的人數(shù)也集中與聚 類 2。預(yù)計(jì)收入增長 30%的水平下主要集中在聚類 2. 通過以上分析我們其實(shí)已 經(jīng)可以看到對(duì)于預(yù)計(jì)收入來說聚類 2 中的人群相對(duì)于其他聚類人群來說屬于未 來預(yù)計(jì)潛力大的人群, 可以給他們按照收入增長水平分別提供多于普通水平的透 支限額。最后,通過合并銀行作出結(jié)論和聚類結(jié)果,對(duì)他們?cè)龠M(jìn)行分析可得:聚類-3993990.04642.95355126128.9536-2.95355聚類-412531185.57867.4215987154.4216-67.4216聚類-

13、1647610.484436.515594379.51559-36.5156聚類-211071213.891-106.891265158.1093106.8907conclusion01計(jì)數(shù)預(yù)期殘差計(jì)數(shù)預(yù)期殘差由此,我們可以將我們的客戶分為四類優(yōu)質(zhì)客戶:聚類 4 他們有著最大的人口基數(shù)以及最高的通過率。一般客戶:聚類 1,聚類 3 他們有著第二高的通過率,預(yù)測情況較好、限制客戶:聚類 2,他們有著最低的通過率,但也接近了 80%,不管是從模 型的綜合錯(cuò)判率來看還是從個(gè)別預(yù)測的準(zhǔn)確率來看, 模型的錯(cuò)判率還是比較低的, 這說明信用卡客戶登記分類標(biāo)準(zhǔn)比較嚴(yán)格, 存在較少的風(fēng)險(xiǎn), 還需要進(jìn)行改進(jìn)和 加

14、強(qiáng)。5 總結(jié)經(jīng)過對(duì)整個(gè)數(shù)據(jù)挖掘過程的分析和理解,從中得出了一些有意義的結(jié)論:1.對(duì)于國內(nèi)銀行業(yè)來說,飛速增長的信用卡業(yè)務(wù)將成為銀行利潤的重要來源 , 信用卡客戶的營銷工作也受到了越來越多的重視。 由于銀行營銷工作面對(duì)的客戶 眾多,競爭日益激烈等方面原因 ,數(shù)據(jù)挖掘技術(shù)越來越多地被應(yīng)用到信用卡營銷 領(lǐng)域,并將成為支持銀行信用卡市場分析和提高營銷效率的重要工具。2.客戶細(xì)分的目的在于識(shí)別出具有相同屬性的客戶,以便針對(duì)不同屬性的客 戶群提供不同的營銷模式或是不同的管理機(jī)制。對(duì)信用卡客戶的價(jià)值衡量使用以 最近刷卡間隔時(shí)間、 刷卡消費(fèi)次數(shù)、 平均每月刷卡消費(fèi)金額相結(jié)合的 RFM 模型方 法,該方法能較好

15、地根據(jù)客戶刷卡活躍度的高低對(duì)客戶進(jìn)行細(xì)分。3.在進(jìn)行數(shù)據(jù)挖掘分析之前,進(jìn)行數(shù)據(jù)的預(yù)處理是十分必要的。因本文釆用 的是實(shí)際商業(yè)銀行的信用卡數(shù)據(jù) ,它儲(chǔ)存的數(shù)據(jù)不僅量大 ,而且存在較多的缺失 值、噪聲和孤立點(diǎn)值。附件:對(duì)于 kmeans 和兩步算法的結(jié)果解釋K-Means聚類-11680 記錄* housing* 0.0* 0.0 1.0(68.99%)68.99%31.01%* contact* 1.0 (78.57%)* 0.0 14.29%1.0 78.57%2.0 7.14%* job* 2.0 (22.62%)* 0.0 4.58%1.0 6.85%2.0 22.62%3.0 18.45

16、%4.0 4.88%5.0 15.65%6.0 4.58%7.0 8.93%8.0 0.6%9.0 3.87%10.0 8.99%* loan* 0.0* 0.01.0* marital* 1.0* 0.01.02.0(90.48%)90.48%9.52%(100%)0%100%0%* poutcome* 0.0 (90%)* 0.0 90%1.0 3.69%2.0 4.52%3.0 1.79%聚類-2498 記錄* housing* 1.0* 0.01.0* contact* 1.0* 0.01.02.0* job* 2.0* 0.0(53.82%)46.18%53.82%(63.65%)2

17、9.52%63.65%6.83%(23.69%)4.62%1.0 12.45%2.0 23.69%3.0 10.64%4.0 3.01%5.0 17.47%6.0 3.21%7.0 13.65%8.0 0%9.0 2.61%10.0 8.63%* loan* 0.0 (83.13%)* 0.0 83.13%1.0 16.87%* marital* 2.0* 0.01.02.0* poutcome* 0.0* 0.01.02.03.0(100%)0%0%100%(83.73%)83.73%2.01%10.04%4.22%聚類-3949 記錄* housing* 0.0 (59.01%)* 0.0

18、 59.01%1.0 40.99%* contact* 1.0 (86.83%)* 0.0 6.95%1.0 86.83%2.0 6.22%* job* 2.0 (26.13%)* 0.0 3.58%1.0 9.59%2.0 26.13%3.0 11.7%4.0 3.58%5.0 22.34%6.0 1.9%7.0 11.7%8.0 7.17%9.0 1.37%10.0 0.95%* loan* 0.0 (89.25%)* 0.0 89.25%1.0 10.75%* marital* 0.0 (100%)* 0.0 100%1.0 0%2.0 0%* poutcome* 0.0 (76.92%

19、)* 0.0 76.92%1.0 3.9%2.0 13.38%3.0 5.8%聚類-4470 記錄* housing* 1.0 (97.23%)* 0.0 2.77%1.0 97.23%* contact* 1.0* 0.01.02.0* job* 3.0* 0.01.02.03.04.05.06.07.0(92.55%)0.43%92.55%7.02%(28.51%)2.34%7.66%18.72%28.51%3.83%16.17%5.32%13.4%8.09.010.0* loan* 0.0* 0.01.0* marital* 1.0* 0.01.02.0* poutcome* 2.0*

20、0.01.02.03.0聚類-5924 記錄* housing* 1.0* 0.01.0* contact* 0.0* 0.01.00%1.7%2.34%(54.26%)54.26%45.74%(95.32%)3.83%95.32%0.85%(50.21%)27.02%3.83%50.21%18.94%(100%)0%100%(94.05%)94.05%0%2.0* job* 3.0* 0.01.02.03.04.05.06.07.08.09.010.0* loan* 0.0* 0.01.0* marital* 1.0* 0.01.02.0* poutcome* 0.0* 0.01.02.03

21、.05.95%(36.58%)2.27%12.23%14.61%36.58%3.68%14.07%3.46%9.31%0.65%1.41%1.73%(85.93%)85.93%14.07%(72.4%)24.78%72.4%2.81%(99.46%)99.46%0.22%0.11%0.22%兩步聚類-1690 記錄* housing* 1.0* 0.0 1.0(58.84%)41.16%58.84%* contact* 1.0 (64.93%)* 0.0 28.7%1.0 64.93%2.0 6.38%* job* 3.0 (22.61%)* 0.0 2.03%1.0 10.72%2.0 17

22、.39%3.0 22.61%4.0 4.35%5.0 17.25%6.0 5.94%7.0 13.19%8.0 0%9.0 1.88%10.0 4.64%* loan* 1.0* 0.01.0* marital* 1.0* 0.01.02.0* poutcome(100%)0%100%(65.65%)21.3%65.65%13.04%* 0.0* 0.0 1.0 2.0 3.0聚類-21372 記錄* housing* 1.0* 0.01.0* contact(85.65%)85.65%0.87%10%3.48%(50.29%)49.71%50.29%* 1.0* 0.01.02.0* job* 2.0(96.87%)0.07%96.87%3.06%(26.02%)聚類-31119 記錄* 0.01.02.03.04.05.06.07.08.09.010.0* loan* 0.0* 0.01.0* marital* 0.0* 0.01.02.0* poutcome* 0.0* 0.01.02.03.03.94%8.89%26.02%13.63%3.64%20.92%1.46%11.95%4.66%1.75%3.13%(99.93%)99.93%0.07%(54.8

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論