信用評分模型的理解和學(xué)習(xí)_第1頁
信用評分模型的理解和學(xué)習(xí)_第2頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、信用評分模型的理解和學(xué)習(xí)本文將圍繞以下幾點進行介紹:信用風(fēng)險信用評分信用評分模型建立的基本流程信用風(fēng)險我們先說一下,風(fēng)險管理的發(fā)展歷程,風(fēng)險管理最早起源于美國。1931年由美國管理協(xié)會保險部最先倡導(dǎo)風(fēng)險管理,后面在全球流行開來,隨著互聯(lián)網(wǎng)的迅猛發(fā)展,大數(shù)據(jù)、數(shù)據(jù)挖掘和機器學(xué)習(xí)等新興技術(shù)開始出現(xiàn),讓風(fēng)險管理更為精準。他們通過收集銀行系統(tǒng)本身的征信數(shù)據(jù)以及用戶在互聯(lián)網(wǎng)上的的各種數(shù)據(jù),包括人際關(guān)系、歷史消費行為、身份特征等,通過大數(shù)據(jù)“畫像”技術(shù),對用戶進行全面的定位,由此來預(yù)測用戶的履約能力、降低信貸風(fēng)險。什么是信用風(fēng)險?說簡單點就是違約風(fēng)險,是指借款人或交易的對方因種種原因,不愿或無力履行合同條

2、件而構(gòu)成違約,致使銀行、投資者或交易對方遭受損失的可能性。近年來消費金融一直在迅速增長,比如汽車貸款,住房貸款,信用卡貸款,小額貸款等,增長趨勢迅猛,對于可自動化對風(fēng)險評估非常有必要的,通過對申請人信用評分來降低風(fēng)險信用評分信用評分基本原理是什么呢?基于對大數(shù)據(jù)的統(tǒng)計分析,根據(jù)客戶的資料信息,對客戶信用進行評估(打分)信用的風(fēng)險評級:申請者評級:個人客戶申請融資類業(yè)務(wù)時提交的數(shù)據(jù)進行評級,(A卡)行為評級:個人客戶的歷史行為數(shù)據(jù)進行評級,對客戶可能出現(xiàn)的逾期、延期等行為進行預(yù)測(B卡)催收評級:對業(yè)務(wù)中存量客戶是否需要催收的預(yù)測(C卡)欺詐評級:業(yè)務(wù)中新客戶可能存在的欺詐行為的預(yù)測(F卡)信用

3、評分卡以一種分數(shù)的手段來衡量風(fēng)險概率的方式,分數(shù)高代表信用越好根據(jù)信用評級的,分為四種評分卡:申請評分卡,行為評分卡,催收評分卡,欺詐評分卡本文以申請評分卡模型為例申請人信用評分條件說明在申請人信用評分中,貸方需要對申請人是否會在未來一段時間12個月內(nèi)出現(xiàn)90天以上的逾期支付進行評估。信用評分模型建立的基本流程明確問題在開發(fā)信用風(fēng)險模型之前,首先要明確我們需要解決的問題,確定是哪類問題,是申請人評分卡模型,還是行為評分卡模型,本文主要以申請評分卡模型,主要目的是區(qū)分好壞客戶。數(shù)據(jù)獲取銀行自有的數(shù)據(jù)和第三個機構(gòu)數(shù)據(jù)(芝麻信用等)數(shù)據(jù)清洗缺失值處理:缺失比較少可以用均值,眾數(shù),中位數(shù)等填充;也可以

4、用機器學(xué)習(xí)模型來填充缺失值(常見算法有隨機森林,決策樹,kNN等),通過算法來擬合數(shù)據(jù)。異常值處理:首先要對異常值進行檢測:可以用四分位數(shù)(結(jié)合可視化,箱線圖,散點圖等觀測數(shù)據(jù)),基于統(tǒng)計學(xué)的方法:例如基于正態(tài)分布的一元離群點檢測方法;距離算法:LOF檢測,通過對每個點p和其領(lǐng)域點的密度來判斷點是否為異常點。然后處理異常值:刪除異常值;視為缺失值,用缺失值的處理方法處理;平均值來修正;不處理。異常值和缺失值處理,一定要結(jié)合實際情況。數(shù)據(jù)探索獲得變量數(shù)據(jù)的分布狀況等特征選擇變量選擇,對變量離散化,篩選出對目標變量影響最顯著的指標特征選擇,在數(shù)據(jù)中是非常中重要,目的在于幫助我們挑選出最有意義的特征

5、。具體特征選取方法可參考這兩篇文章:機器學(xué)習(xí)特征選擇簡明指南,結(jié)合Scikit-learn介紹幾種常用的特征選擇方法-羅兵-博客園信用評分模型的變量選擇中,一般采用特征分箱的方法對特征進行離散化,讓模型更加穩(wěn)定,再通過woe編碼,用通過基尼系數(shù)或信息價值IV找到顯著特征項,具體woe和IV學(xué)習(xí)參考這兩篇文章數(shù)據(jù)挖掘模型中的IV和WOE詳解-CSDN博客,InformationValue(IV)&WeightofEvidenee(WOE)-BankingCaseStudy。模型建立WOE轉(zhuǎn)化證據(jù)權(quán)重WOE轉(zhuǎn)化,將篩選后的變量轉(zhuǎn)為為WOE值,便于信用評分邏輯回歸模型建立在信用評分卡建模中,

6、用到最常用的方法就是邏輯回歸,通過Logistc回歸分析,預(yù)測好壞客戶的概率。Logistic回歸在信用評分卡開發(fā)中起到核心作用。由于其特點,以及對自變量進行了證據(jù)權(quán)重轉(zhuǎn)換(WOE),Logistic回歸的結(jié)果可以直接轉(zhuǎn)換為一個匯總表,即所謂的標準評分卡格式.邏輯回歸的本質(zhì)就是將線性回歸預(yù)測的值轉(zhuǎn)換為0-1的概率值,簡單說明下,考慮具有N個獨立變量的向量x=(,.),設(shè)條件概率P(y=1|x)=p為根據(jù)某件事x發(fā)生概率,通過下面回歸模型表示為:其中某件事x不發(fā)生概率為:事件發(fā)生比:,客戶的違約概率P=經(jīng)過對數(shù)轉(zhuǎn)化,模型評估K-S指標,ROC和AUC,評估模型的區(qū)分能力、預(yù)測能力、穩(wěn)定性,具體參

7、考ROC、K-S,教你巧妙使用模型評價指標如何評估一個機器學(xué)習(xí)模型ROC值一般在0.5-1.0之間。值越大表示模型判斷準確性越高,即越接近1越好。ROC=0.5表示模型的預(yù)測能力與隨機結(jié)果沒有差別,AUC系數(shù)越高,模型的風(fēng)險區(qū)分能力越強。KS值表示了模型正負區(qū)分開來的能力。值越大,模型的預(yù)測準確性越好。一般,KS>0.2即可認為模型有比較好的預(yù)測準確性,KS值只能反映出哪個分段是區(qū)分最大的,而不能總體反映出所有分段的效果,因果AUC值更能勝任。信用評分將Logistic模型轉(zhuǎn)換為標準評分的形式評分標準:變量的值決定了該變量所分配的分值,總分就是各變量分值的和評分卡設(shè)定的分值刻度可以通過將

8、分值表示為違約和正常概率比對數(shù)的線性表達式為:為模型參數(shù),式中的常數(shù)A、B的值可以通過將兩個已知或假設(shè)的分值帶入計算得到。通常情況下,需要設(shè)定兩個假設(shè):(1)給某個特定的比率設(shè)定特定的預(yù)期分值;(2)確定比率翻番的分數(shù)(PDO)根據(jù)以上的分析,我們首先假設(shè)比率為x的特定點的分值為P。貝此匕率為2x的點的分值應(yīng)該為P+PDO。代入式中,可以得到如下兩個等式:假設(shè)設(shè)定評分卡刻度使得比率為1:20(違約正常比)時的分值為50分,PDO為10分,代入式中求得:B=14.43,A=6.78(閥值的設(shè)定需根據(jù)行業(yè)經(jīng)驗不斷跟蹤調(diào)整則分值的計算公式可表示為:評分卡刻度參數(shù)A和B確定以后,就可以計算比率和違約概率,以及對應(yīng)的分值了。通常將常數(shù)A稱為補償,常數(shù)B稱為刻度。式中:變量x1.xn是出現(xiàn)在最終模型中的自變量,即為入模指標。由于此時所有變量都用WOE轉(zhuǎn)換進行了轉(zhuǎn)換,將自變量進行轉(zhuǎn)化式中為第i行第j個變量的WOE,為已知變量;為邏輯回歸方程中的系數(shù),為已知變量;為二元變量,表示變量i是否取第j個值。Score表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論