數(shù)據(jù)建模:個人信用分是如何計算出來的?_第1頁
數(shù)據(jù)建模:個人信用分是如何計算出來的?_第2頁
數(shù)據(jù)建模:個人信用分是如何計算出來的?_第3頁
數(shù)據(jù)建模:個人信用分是如何計算出來的?_第4頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、.數(shù)據(jù)建模:個人信用分是如何計算出來的? 無論是金融、互聯(lián)網(wǎng)企業(yè)亦或運營商,都在基于多年積累的大數(shù)據(jù)搭建個人征信評分體系,不僅用于自身,也在提供給其他征信機構(gòu)做為個人信用評估標準。那么,個人的信用分到底是如何計算出來的呢?筆者相信不同的信用分有不同的計算方法,無論是FICO評分、芝麻信用亦或其它信用分,這些評分既可以很簡單,也可以很復(fù)雜,使用的建模方法各不同,但也總是會遵循一些基本的原則,這里筆者就信用分計算的一些關(guān)鍵技術(shù)作簡要介紹,希望于你有益。一、業(yè)務(wù)分析我們在構(gòu)建信用評分的時候,首先當然要定義何謂信用高,何謂信用低的用戶,這是建模的起點,銀行會基于用戶的還貸歷史來確定高低信用用戶,但如果

2、是第三方企業(yè),則需要基于自身的業(yè)務(wù)特點定義出類似的高低信用用戶,即正負樣本,比如運營商可能會基于通信欠費來確定高低信用用戶的樣本,當然這也是遠遠不夠的,需要從更多的途徑獲取,比如可以免費獲取法院公示的老賴名單等。二、變量初選身份特征、消費能力、信用歷史、行為偏好及人脈關(guān)系是當前業(yè)界評估信用的五個方面,很多信用評分體系都基于此而來,當然,不同行業(yè)由于數(shù)據(jù)不同,因此形成的具體明細指標肯定也有明顯的差異,比如針對身份特征,可能選擇的具體指標包括婚姻、年齡、職業(yè)、性別等等,諸如運營商可以有幾十個指標來表征身份特征,五個方面的涉及的具體指標更是多達上百個,因此,關(guān)鍵的下一步就是如何刪選合適的變量。三、特

3、征刪選很多新手喜歡用越多的變量來建模,以為多多益善,其實不然,變量篩選的目在于去除對于模型預(yù)測準確提升無效甚至影響模型預(yù)測效果的無用變量, 比如兩個相關(guān)變量的同時存在往往會導(dǎo)致準確性下降。特征的選擇有很多方式,比如IV值的判斷,這里以隨機森林來示例,隨機森林算法能夠輸出每個變量對模型預(yù)測的重要性大小,重要性越大代表該變量對于提升模型預(yù)測準確度所做貢獻就越大,反之如果重要度值為負,就代表該變量加入會降低模型預(yù)測準確度,所以在該步驟直接選擇基于模型輸出結(jié)果來完成變量篩選,以下是示例:經(jīng)過隨機森林初步篩選,和變量預(yù)測探索分析,最終五個維度共輸入XX個變量分別進入模型訓練。四、算法選擇一般會采用log

4、istic分類算法,在輸入數(shù)據(jù)形式的標準與線性回歸基本一致。在選擇邏輯回歸時,注意要進行數(shù)據(jù)預(yù)處理,最主要是兩點:1、 離散變量啞變量處理。離散變量不適用于線性分類模型中,建議轉(zhuǎn)化為0,1類變量,例如用戶行業(yè)字段,存在8個類別(學生、工人、公務(wù)員),經(jīng)過啞變量轉(zhuǎn)化處理的話,該字段轉(zhuǎn)化為8個變量:是否學生,是否工人,是否公務(wù)員)。2、 變量線性化處理。對于線性分類算法,指標與目標變量之間呈現(xiàn)線性關(guān)系,對于變量的預(yù)測效果會更好,但實際數(shù)據(jù)往往都是非線性表示,因此為提升模型預(yù)測效果,需要針對連續(xù)型且非單調(diào)性變量進行WOE處理,用WOE值替換指標值,以實現(xiàn)數(shù)據(jù)之間的線性關(guān)系。WOE計算公式為 WOE=

5、ln(%good/%bad),其中%good表示違約用戶構(gòu)成。%bad表示好樣本用戶構(gòu)成。以資金字段為例:接下來就是用邏輯回歸進行模型訓練,從而獲得概率值。五、評分卡轉(zhuǎn)換1、評分卡刻度那么如何將概率值轉(zhuǎn)化為評分呢,其實怎么算都可以,這里采用評分卡轉(zhuǎn)換的方式,具體網(wǎng)上都有詳細解釋,這里簡要講下,違約與正常比率被定義為一個記錄被劃分為違約的估計概率與被劃分為正常的估計概率之間的比率,將估計違約概率用p表示,估計正常概率為1-p。因此可定義發(fā)生比:Odds=p/(1-p)評分卡設(shè)定的分值刻度是可以將分值表示為比率(Odds)的線性表達式來定義。如下所示:Score=A-B*log(Odds)其中:A

6、,B都為常數(shù)。其中A成為補償分數(shù),B稱為刻度,它們可以通過兩個已知或者假設(shè)的分值代入計算得到,一是在某個特定比率設(shè)定特定的預(yù)期分值,二是指定比率翻番的分數(shù)(PDO)。首先,設(shè)定比率y的特定點的分值為P0,然后,比率為2y的點的分值為P0 PDO,代入上式可以得到如下兩個等式:P0=A-B*log(y)P0 PDO=A-B*log(2y)解上述兩方程中的常數(shù)A和B,可以得到:B=PDO/log(2)A=P0 B*log(y)在這里可以借鑒標準FICO信用分與違約率的定義,比如B=58,A=437,計算分數(shù)公式則為:Score=437-58*log(Odds)最終可以得到該模型的評分卡刻度情況最終

7、結(jié)果,如下表所示:2、分值分配對于logistic回歸算法,odds也可以表示為:log(Odds)=B0 B1*X1 B2*X2 BnXn由此可得:Score=437-58*(B0 B1*X1 B2*X2 BnXn)由于建模過程所有變量都有使用WOE轉(zhuǎn)換,因此可以將分值分配到每個變量取值上去,以下是示例:這樣,我們就得到了用戶的信用各個變量取值的信用分值。六、確定五個維度的權(quán)重用戶的信用分總分是基于五個大維度綜合權(quán)重計算獲得的,當前每個大維度信用分(該維度涉及很多變量)已經(jīng)可以通過前面計算得到,總信用分表達式如下:Total_score=a1*score1 a2*score2 a3*scor

8、e3 a4*score4 a5*score5。網(wǎng)上公開的芝麻信用的五個大維度的最終權(quán)值是信用歷史(35%)、行為偏好(20%)、履約能力(25%)、身份特質(zhì)(15%)及人脈關(guān)系(5%),各類信用評分體系權(quán)重肯定是不同的,因為有不同的約束條件,需要計算得到a1,a2,a3,a4,a5。七、模型效果評估信用評分模型主要從準確性,區(qū)分度等方面來進行評估。1、準確性:感受性曲線下面積(ROC_AUC)是一個從整體上評價模型準確性的指標,是感受性曲線(ROC)與橫軸之間的面積。相比于其他評價指標,感受性曲線(ROC)具有一定的穩(wěn)定性,它不會因為正負樣本分布的變化而產(chǎn)生不同的曲線。感受性曲線(ROC)通過

9、真陽率(True Positive Rate, TPR)和假陽率(False Positive Rate, FPR)兩個指標進行繪制,感受性曲線(ROC)示意如圖1所示,感受性曲線下面積(ROC_AUC)取值范圍為0,1,取值越大,代表模型整體準確性越好。2、區(qū)分度:區(qū)分度指標(KS)是度量具體模型下正常樣本和違約樣本分布的最大差距,金融領(lǐng)域評估信用模型的一個核心方法,首先按照樣本的信用分數(shù)或預(yù)測違約率從小到大進行排序,然后計算每一個分數(shù)或違約率下好壞樣本的累計占比,正常和違約樣本的累計占比差值的最大值即為區(qū)分度指標(KS),區(qū)分度指標(KS)的示意如圖所示,區(qū)分度指標(KS)小于0.2代表模型準確性差,超過0.75則代表模型準確性高。可以看到,信用分的計算過程借助了一般的建模方法,也有其自身的特點,信用分要建的好,還有很多的工作要做:一是為了讓信用分具備可解釋性,需要量化每個變量每個區(qū)間的信用分值分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論