已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
信用卡風險分析指導(dǎo)老師: 黃三益老師組員:e123502191 張智欽 n954020003 于亨宗 m965040023 鍾友華信用卡風險分析預(yù)測1. introduction 1.1 motivation and background自1970年代以來,各國相繼採用各項金融改革措施,而臺灣也於民國79年開放新銀行的設(shè)立,使得金融業(yè)長期寡占市場的局面,有了重大的變革。在金融革新的部份,政府逐漸解除各項管制,使得保險、其他非銀行業(yè)者,相繼投資或跨足經(jīng)營金融事業(yè),引進無人銀行、電子銀行,整合開發(fā)金融的衍生性商品、消費金融商品,其中在消費金融商品為最活絡(luò)的業(yè)務(wù),當中又以信用卡的推廣最為成功。在蓬勃發(fā)展且競爭激烈的信用卡市場中,各家銀行為了達到其經(jīng)濟規(guī)模,使用各種行銷策略,以擴大市場佔有率,如此的惡性競爭下,容易形成一人多卡,個人信用過度膨脹,有鑑於銀行發(fā)卡浮濫,金管會銀行局因此訂出相關(guān)監(jiān)理條例,以嚴格控制資產(chǎn)品質(zhì),若逾放比、呆帳過高,銀行局甚至會命令銀行停止發(fā)卡業(yè)務(wù),而發(fā)卡銀行隨著辦卡人持續(xù)增加,總難以避免呆帳也節(jié)節(jié)上升的問題,發(fā)卡銀行獲利空間逐漸變小,跟雙卡風暴,以及呆帳比越來越高,這些因素的多重影響的情況下,相繼訂出緊縮的發(fā)卡政策,而在金管會持續(xù)督促各發(fā)卡銀行注意其資產(chǎn)品質(zhì),並加強申報資料之正確性及時效性,以保障消費者權(quán)益及健全市場之發(fā)展,種種的因素之下,導(dǎo)致民國九十三年之後的發(fā)卡數(shù)量極遽的下降,相關(guān)統(tǒng)計如下頁圖1。圖1:臺灣歷年發(fā)卡數(shù)與流動卡數(shù)在歷經(jīng)亞洲金融風暴後,國內(nèi)銀行逾放比與呆帳率逐年升高,而近幾年,政府即將要把銀行的逾放比定義與國際接軌,屆時銀行勢必面臨更嚴重的考驗。整體的經(jīng)營環(huán)境不佳,日愈嚴重的逾放比,發(fā)卡業(yè)者亦意識到信用卡業(yè)務(wù)的成敗,關(guān)鍵乃在於一開始便做有效的風險控管,防違約於未然,如能預(yù)先界定出會造成違約的因子,預(yù)先排除信用不佳的申請人,大幅來改善信用卡的管理風險,一方面降低違約率,一方面留住好客戶;再者,加強核卡後的信用風險控管,對於交易異常的客戶或持卡人給予暫停??ā娭仆?ǖ确绞健:丝ㄡ岬娘L險控管,充其量也只能降低已發(fā)生的損害,卻無法避免持卡人違約對發(fā)卡機構(gòu)所造成的損害,因此,在事先的預(yù)防重於事後的補救的前提下,發(fā)卡機構(gòu)在發(fā)卡前的審核及對新申請者的信用評比,將是值得研究探討的課題。1.2.determination of data set透過先前的一些文獻回顧發(fā)現(xiàn)到信用卡風險評估中,所需的客戶資料屬性多為個人財務(wù)狀況資料(如:有無貸款、信用卡持有數(shù)、月收入等)、以及基本資料(如:婚姻、年齡、有無子女等),另外我們還關(guān)心客戶所屬風險的狀況,因此我們?nèi)缫獜哪承庞每ü舅〉玫目蛻糍Y料裡,就必須含有以上三類的資料。2. data mining procedure在the data mining techniques中,berry和linoff建議資料採礦的技術(shù)應(yīng)符合10項步驟,我們在報告中將依循這時個步驟,並敘述每個步驟內(nèi)完整的內(nèi)容,以下是我們10個步驟的過程。step one: translate the business problem into a data mining problem發(fā)卡銀行中總是累績龐大的客戶歷史資料,而發(fā)卡銀行無法用一般統(tǒng)計模式從某些屬性欄位來評判甚至預(yù)測一個客戶的行為,例如會不會使用循環(huán)利息、該客戶的風險高不高、會不會違約等等,因此透過資料採礦技術(shù)(例如:決策樹、類神經(jīng)網(wǎng)路、貝氏機率分類)和統(tǒng)計方法(例如:羅吉斯回歸),建構(gòu)出一套完全符合自身銀行評判客戶特性與其信用卡風險模型之流程。本研究要透過現(xiàn)有資料來建立評判客戶風險的的模型,利用不同的採礦技術(shù),求得一個最佳的評判模型。step two: select appropriate data本研究以國內(nèi)某信用卡發(fā)卡銀行為研究對象,資料來源取自銀行信用卡部門的資料庫,資料檔包括有4117筆信用評等以及個人財務(wù)狀況資料,也包含基本資料資訊,但由於必須顧及保密性,故這些原始資料皆已先做過相關(guān)的整理。step three: get to know the data本研究將原始資料變數(shù)名稱及類型整理成以下的表格:表1. 原始資料變數(shù)名稱與類型類型變數(shù)名稱資料類型基本資料id連續(xù)型年齡連續(xù)型收入連續(xù)型性別類別型(m/f)婚姻狀況類別型(single/married/divsepwid)小孩數(shù)連續(xù)型財務(wù)狀況卡數(shù)連續(xù)型付款方式類別型(weekly/monthly)有無抵押類別型(y/n)店家的卡連續(xù)型抵押方式連續(xù)型結(jié)果風險good risk(信用好風險低的客戶)bad risk(風險高且會造成公司損失的客戶)bad profit(風險高但有利可圖的客戶)step four: create a model set我們將所收集而來的4117筆原始資料,將資料以隨機的方式抽成約6:4的筆數(shù),把前者當做訓練資料集來建立模型(有2455筆),而後者當做測試資料集(有1662筆),用此來選擇模型以及測量模型在預(yù)測未知資料的能力,此依數(shù)據(jù)是為了避免產(chǎn)生過度學習(overfitting)的狀況,因為用訓練資料集製作模型時,模型往往會記憶一些不是可以放諸四海皆準的規(guī)則,而只是一些發(fā)生在訓練資料內(nèi)部的巧合而被當成規(guī)則,因此模型預(yù)測的準確性會被假性高估。step five: fix problems with the data在真實世界的資料中,雖然多數(shù)的資料被詳實的記錄下來,但仍有可能有許多偶發(fā)事件造成紀錄的不完整,進而產(chǎn)生了所謂的遺漏值(missing value),遺漏值最直接的影響,就是會造成分析上的不確定性,本研究在處理遺漏值,初步採用的方式是透過統(tǒng)計的方式,將4117筆原始資料透過敘述統(tǒng)計來計算每個欄位是否有遺漏、極端值、以及超過某一欄位屬性定義範圍的值,若有缺漏則再採取更進一步的處理方式,下表為各筆資料品質(zhì)圖2. 各屬性資料品質(zhì)step six: transform data to bring information to the surface這個步驟中,是否有哪些欄位可以合併、刪除、甚至衍生出新的欄位選項來做分析之用,例如可以利用信用卡額度、房貸與自己的月收入相除而得到新的欄位”個人負債比”,如此便可提供另一項新的資訊來分析,這次所使用的資料中,並沒有適當?shù)臋谖豢梢杂枰院蟻?,因此本研究採取尋找資料中與風險有所關(guān)聯(lián),以及用矩陣的方式表示出每個欄位兩兩間的相關(guān),若欄位間相關(guān)過高,就要考慮是否會有共線性的問題,若太低,則還須觀察該欄位與風險的關(guān)聯(lián)多寡來決定是否要捨棄某一欄位。圖3. 各變數(shù)間的相關(guān)性step7. build models本研究採用分析方法為決策樹、類神經(jīng)網(wǎng)路、及羅吉斯回歸,另外加入另一筆全無重複值的測試資料集作為驗證模型好壞,並檢視這三類分析法的正確率如何。決策樹是功能強大且相當受歡迎的分和預(yù)測工具。這項以樹圖為基礎(chǔ)的方法,其吸引人的地方在於決策樹具有規(guī)則,此外,規(guī)則可以文字表達,讓人瞭解,經(jīng)網(wǎng)(neural network),在1980 代初期時就已經(jīng)被應(yīng)用在商業(yè)方面的問題上,是指模仿生物經(jīng)網(wǎng)的資訊處系統(tǒng),為一平分散式處計算模式,其定義為:經(jīng)網(wǎng)是一種計算系統(tǒng),包含軟體和硬體,它使用大簡單的相人工經(jīng)元(neuron)模仿生物經(jīng)網(wǎng)的能,羅吉斯迴歸,也稱定性變數(shù)迴歸,是根據(jù)輸入欄位值對記錄進行分類的統(tǒng)計方法。它類似於線性迴歸,目標欄位使用字元型欄位而不是數(shù)值型欄位。羅吉斯迴歸建立一組方程,把輸入欄位值與輸出欄位每一類的機率聯(lián)繫起來。一旦生成模型,便可用於估計新的資料的機率。對每一紀錄,計算其從屬於每種可能輸出類的機率。機率最大的目標類被指定為該紀錄的預(yù)測輸出值。圖4. 使用決策樹c5.0圖5. 使用neural network圖6. 使用logisticstep eight. assess models評估模型部份,我們將1662筆的測試資料集放入原先所建立的決策樹模型中,如下圖,圖7. c5.0評估模型此外,我們將現(xiàn)有風險與決策樹模型所預(yù)測的風險加以比較表2. 訓練資料集模型的風險預(yù)測風險預(yù)測值bad lossbad profitgood risk實際值bad losscount31117474row %55.64 31.13 13.24 total %12.67 7.09 3.01 bad profitcount84131774row %5.69 89.29 5.02 total %3.42 53.65 3.01 good riskcount43129249row %10.21 30.64 59.14 total %1.75 5.25 10.14 表3. 測試資料集代入原先模型的風險預(yù)測風險預(yù)測值bad lossbad profitgood risk實際值bad losscount18113135row %52.1637.7510.09total %10.897.882.11bad profitcount7582631row %8.0588.633.33total %4.5149.71.87good riskcount40146197row %10.4438.1251.44total %2.418.7811.85表4. 比較原有風險與預(yù)測風險之模型的正確率為訓練資料集模型correct1,87776.46%wrong57823.54% total2,455測試資料集模型correct1,20472.44%wrong45827.56%total1,662由上述所列表我們可知,雖然模型預(yù)測風險的正確率由76.46%下降到72.44%,但我們較為關(guān)心的部份,原先是bad loss而被模型預(yù)測成good risk的比率,由3.01降成2.11,這表示本研究所建的決策樹模型有一定程度的預(yù)測能力。接著我們繼續(xù)以相同模式來看由類神經(jīng)網(wǎng)路所建出來的模型,然後以測試資料集挫為模型測試資料,如下圖圖8. 類神經(jīng)網(wǎng)路評估模型我們將現(xiàn)有風險與類神經(jīng)網(wǎng)路模型所預(yù)測的風險加以比較:表5. 用訓練資料集所建類神經(jīng)網(wǎng)路模型的風險預(yù)測風險預(yù)測值bad lossbad profitgood risk實際值bad losscount19127692row %34.17 49.37 16.46 total %7.78 11.24 3.75 bad profitcount251334116row %1.69 90.44 7.86 total %1.02 54.34 4.73 good riskcount6153262row %1.43 36.34 62.23 total %0.24 6.23 10.67 表6. 用測試資料集代入類神經(jīng)網(wǎng)路模型的風險預(yù)測風險預(yù)測值bad lossbad profitgood risk實際值bad losscount14717426row %42.36 50.14 7.49 total %8.84 10.47 1.56 bad profitcount1490315row %1.50 96.89 1.61 total %0.84 54.33 0.90 good riskcount10109264row %2.61 28.46 68.93 total %0.60 6.56 15.88 表7. 比較原有風險與類神經(jīng)網(wǎng)路預(yù)測風險之模型的正確率訓練資料集模型correct1,78772.79%wrong66827.21%total2,455測試資料集模型correct1,31479.06%wrong34820.94%total1,662由上述所列表我們可知,雖然模型預(yù)測風險的正確率由72.79%上升到79.06%,我們較為關(guān)心的部份,原先是bad loss而被模型預(yù)測成good risk的比率,由3.75降成1.56,這表示本研究所建的類神經(jīng)網(wǎng)路模型有一定程度的預(yù)測能力,而且整體模型表現(xiàn)比決策樹模型還來的佳。最後,我們用羅吉斯回歸來建立模型,再以測試資料集代入所建好的模型之中,如下圖所示圖9. logistic評估模型我們將現(xiàn)有風險與類神經(jīng)網(wǎng)路模型所預(yù)測的風險加以比較:表8. 用訓練資料集所建羅吉斯回歸模型的風險預(yù)測風險預(yù)測值bad lossbad profitgood risk實際值bad losscount23325472row %41.68 45.44 12.88 total %9.49 10.35 2.93 bad profitcount91130579row %6.17 88.47 5.36 total %3.71 53.16 3.22 good riskcount37182202row %8.79 43.23 47.98 total %1.51 7.41 8.23 表9. 用測試資料集代入羅吉斯回歸模型的風險預(yù)測風險預(yù)測值bad lossbad profitgood risk實際值bad losscount17715020row %51.01 43.23 5.76 total %10.65 9.03 1.20 bad profitcount578678row %6.12 93.03 0.86 total %3.43 52.17 0.48 good riskcount32166185row %8.36 43.34 48.30 total %1.93 9.99 11.13 表10. 比較原有風險與羅吉斯回歸預(yù)測風險之模型的正確率為訓練資料集模型correct1,74070.88%wrong71529.12%total2,455測試資料集模型correct1,22973.95%wrong43326.05%total1,662由上述所列表我們可知,雖然模型預(yù)測風險的正確率由70.88%上升到73.95%,我們較為關(guān)心的部份,原先是bad loss而被模型預(yù)測成good risk的比率,由2.93降成1.2,這表示本研究所建的羅吉斯回歸模型有一定程度的預(yù)測能力,較類神經(jīng)模型為差,但比決策樹模型略好。step nine. deploy models9.1決策樹模型利用套裝軟體建模所得的結(jié)果,由下圖可得知具有顯著性影響的欄位為店家的卡、婚姻狀況、收入、卡數(shù),代入測試資料集後,預(yù)測風險正確的值有1204筆,正確率有72.44。圖10. 決策樹模型9.2類神經(jīng)模型表11. 顯著性表抵押方式0.333收入0.209婚姻狀況0.207年齡0.187卡數(shù)0.158店家的卡0.156有無抵押0.05付款方式0.048小孩數(shù)0.046由上表可得知輸入的9個神經(jīng)元中,以抵押方式、收入、婚姻狀況這三個輸入變數(shù),對於準確度有比較高的顯著性,代入測試集所得預(yù)測正確的共有1314筆,正確率達79.06。9.3羅吉斯回歸模型 equation for good risk0.01426 * 年齡 + 0.00001368 * 收入 0.324 * 小孩數(shù) 0.4787 * 卡數(shù) 0.3575 * 店家的卡 0.1567 * 性別=f + 5.251 * 婚姻狀況=divsepwid 0.0184 * 婚姻狀況=married + 0.8561 * 付款方式=monthly 0.3472 * 有無抵押=n + 1.572 * 抵押方式=0 + 1.314 * 抵押方式=1 0.01788 * 抵押方式=2 0.1962 equation for bad profit0.06256 * 年齡 0.00002478 * 收入 0.1728 * 小孩數(shù) 0.416 * 卡數(shù) 0.4008 * 店家的卡 + 0.1433 * 性別=f + 2.158 * 婚姻狀況=divsepwid 0.348 * 婚姻狀況=married 0.01668 * 付款方式=monthly + 0.0883 * 有無抵押=n 1.382 * 抵押方式=0 + 0.4091 * 抵押方式=1 + 0.2016 * 抵押方式=2 + 5.602以上的敘述為羅吉斯回歸的回歸方程式,由該方程式所得的模型預(yù)測力,精油1662筆測試資料所得共有1229筆預(yù)測正確,正確率達73.95。step ten. assess results本研究所建的三個模型中,各有優(yōu)缺點,在決策樹的部份,有明確的節(jié)點,可以清楚明白的分類過程,但是在代入測試資料後,模型預(yù)測力有降下來的現(xiàn)象;在類神經(jīng)模型的部份,預(yù)測力為三個模型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)學-山東省淄博市2024-2025學年第一學期高三期末摸底質(zhì)量檢測試題和答案
- 《文學概論》課程期末試題B卷及答案
- 小學一年級20以內(nèi)數(shù)學口算練習題
- 合伙經(jīng)營協(xié)議書(3篇)
- 小學數(shù)學六年級上冊《分數(shù)四則混合運算》教學設(shè)計
- 秋季腹瀉防治彩
- 《心內(nèi)科常見疾病》課件
- 企業(yè)社會責任與品牌價值計劃
- 游戲產(chǎn)業(yè)行業(yè)設(shè)計師培訓總結(jié)
- 教學策略調(diào)整與靈活應(yīng)對計劃
- 辦公室改造裝修項目投標方案(技術(shù)方案)
- 國家安全教育學習通超星期末考試答案章節(jié)答案2024年
- 精益生產(chǎn)篇(培訓資料)
- 七年級上冊數(shù)學《有理數(shù)》計算題綜合訓練帶答案
- 大學英語精讀原文1-6冊完整版
- 2022-2023學年高教版中職語文基礎(chǔ)模塊上冊月考卷四
- 交通刮蹭私了協(xié)議書范本
- 《冷戰(zhàn)史專題》筆記
- 2024-2030年中國輪轂電機行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
- 小學中高年段語文學科基于課程標準評價指南
- (完整版)獸醫(yī)臨床診斷學
評論
0/150
提交評論