第三講:信用評級模型_第1頁
第三講:信用評級模型_第2頁
第三講:信用評級模型_第3頁
第三講:信用評級模型_第4頁
第三講:信用評級模型_第5頁
已閱讀5頁,還剩47頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第三講:信用評級模型主講:梁滿發(fā)工作目標(biāo)信用評級就是對貸款申請者進(jìn)行信用評估,目的是減少貸方(銀行、投資公司、信用卡公司)的金融風(fēng)險(xiǎn)。信用評級模型還可用于人才甄聘、績效考核、投資風(fēng)險(xiǎn)評估、犯罪識別等工作中?,F(xiàn)在我們以某金融機(jī)構(gòu)對客戶信用卡申請審批工作為背景,運(yùn)用數(shù)據(jù)挖掘方法建立信用評分的模型,對申請者給以信用評分,產(chǎn)生一個(gè)自動決策系統(tǒng)幫助決定接受或拒絕信用申請。我們把信用合格者視為響應(yīng),不合格者視為非響應(yīng)。我們要作信用評級就是尋找信用合格者與不合格者之間的行為模式或社會背景的差別,以此來判別某種特定的申請者信用。因此,我們必須要有足夠的高質(zhì)量的客戶信用觀察數(shù)據(jù),既要包括足夠的響應(yīng)和非響應(yīng),以及

2、相應(yīng)的客戶金融行為信息和社會背景信息,這些信息可是區(qū)別不同信用者因素。在此,我們有某德國銀行的客戶信用的歷史數(shù)據(jù),數(shù)據(jù)文件名為SAMPSIO.DMAGECR。數(shù)據(jù)含有1000個(gè)申請者觀察,其中有21個(gè)變量, good_bad是表示信用的二值響應(yīng)變量。它是從銀行內(nèi)部一個(gè)更大的數(shù)據(jù)庫中抽樣出來的,原數(shù)據(jù)庫中僅有10的響應(yīng)(信用不合格者),為了有足夠的響應(yīng)數(shù)據(jù)供分析,才取了重抽樣方式,抽取的樣本中響應(yīng)占樣本數(shù)的30。除good_bad變量外的其它20變量意義如下:社會人口變量Marital:性別與婚姻狀況Age:年齡Resident:在現(xiàn)住所的居住年數(shù)Telephon:電話號碼個(gè)人和金融變量Chec

3、king:銀行帳戶情況Savings:存款數(shù)量History:使用信用卡情況Property:財(cái)富、保險(xiǎn)情況Coapp:擔(dān)保情況Job:職業(yè)類型Employed:工作年限Foreign:是否是外國職員債權(quán)人財(cái)產(chǎn)變量Housing:房產(chǎn)情況Depends:動產(chǎn)數(shù)Existcr:在本銀行是否有信用卡具體貸款變量Amount:信用卡保證金Purpose:貸款目的Duration:貸款期Installp:可支配收入情況Other:其它資產(chǎn)VariableModel RoleMeasurementDescriptionageinputintervalage in yearsamountinputinte

4、rvalcredit amountchecking inputnominal or ordinalstatus of existing checking account 1: . 0 DM2: 0 = . = 200 DM4: no checking accountcoapp inputnominalother debtors/guarantors 1: none2: co-applicant3: guarantordependsinputintervalnumber of dependentsdurationsinputintervalduration in monthsemployed i

5、nputordinalpresent employment since 1: unemployed2: . 1 year3: 1 = . 4 years4: 4 = . = 7 yearsexistcrinputintervalnumber of existing credits at this bankforeign inputbinaryforeign worker 1: yes2: nogood_badtargetbinarycredit ratinghistory inputordinalcredit history 0: no credits taken / all credits

6、paid back duly1: all credits at this bank paid back duly2: existing credits paid back duly till now3: delay in paying off in the past4: critical account / other credits existing (not at this bank)housing inputnominalhousing 1: rent2: own3: for freeinstallpinputintervalinstallment rate in percentage

7、of disposable incomejob inputordinaljob 1: unemployed / unskilled non-resident2: unskilled resident3: skilled employee / official4: management / self-employed / highly qualified employee / officermartial inputnominallpersonal status and sex 1: male - divorced / separated2: female - divorced / separa

8、ted / married3: male - single4: male - married / windowed5: female - singleother inputnominalother installment plans 1: bank2: stores3: noneproperty inputnominal or ordinalproperty 1: real estate2: if not 1, building society savings agreement / life insurance3: if not 1 or 2, car or others4: unknown

9、 / no propertypurpose inputnominalpurpose 0: new car1: used car2: furniture / equipment3: radio / television4: domestic appliances5: repairs6: education7: vacation8: retraining9: businessx: othersresidentinputintervalpresent residence sincesavings inputnominal or ordinalstatus of existing saving acc

10、ount or bonds 1: . 100 DM2: 100 = . 500 DM3: 500 = . = 1,000 DM5: unknown / no saving accounttelephon inputbinarytelephone 1: none2: yes, registered under the customers name具體工作目標(biāo):具體工作目標(biāo):()找出影響信用重要因素,決定信用評級考查的重要內(nèi)容;()建立信用評分模型,找出信用高或信用低的人群特征;()編寫信用評分模型程序代碼;()計(jì)算申請者的信用得分,并完成準(zhǔn)批還是拒絕工作。數(shù)據(jù)抽樣插入input data sou

11、rce節(jié)點(diǎn),選取SAMPSIO庫中的DMAGECR 數(shù)據(jù)文件;因全部的數(shù)據(jù)文件僅為1000個(gè)觀察樣本,所以選擇全部的數(shù)據(jù)建模;數(shù)據(jù)集設(shè)為角色;在數(shù)據(jù)中,good_bad變量反映了客戶信用的響應(yīng)變量,因此,預(yù)備選擇good_bad為建模模型的目標(biāo)變量,修改good_bad變量為Target角色。Interval變量有三個(gè)(durations、 amount和age),其它均為分類變量。觀察good_bad變量直方圖:從圖中看出,不可信任的客戶有“bad”表示,即響應(yīng)。而我們習(xí)慣把響應(yīng)值定為“1”,因此,需要把doog_bad變量重編碼,即“bad”對應(yīng)”“,“good”對應(yīng)“0”。新變量命名為g

12、ood_badn。另外,從圖中知目標(biāo)變量響應(yīng)比例為30,這個(gè)比例不符合一般申請人群響應(yīng)的比例。這是由于為了得到足夠的響應(yīng)來分析響應(yīng)行為,以重抽樣方式得到的樣本。雖然不影響建模,但建模時(shí)應(yīng)加以注意。經(jīng)調(diào)查,申請者總體中約為10人為有信用風(fēng)險(xiǎn),90為沒有信用風(fēng)險(xiǎn)。數(shù)據(jù)變換插入Create Variable節(jié)點(diǎn)作數(shù)據(jù)變換;定義反映信用響應(yīng)的新響應(yīng)變量good_badn,作為建模的目標(biāo)變量。我們觀察Duration變量的分布:從直方圖中知, Duration變量值從472,值太多,不利于信用模型的解釋。因此,為了簡化分析,即使丟失一點(diǎn)信息,我們還是應(yīng)該將Duration變量化為二值變量。一方面,因Du

13、ration變量的平均值為20左右,分布偏左態(tài);另一方面,金融行業(yè)習(xí)慣將貸款分為”長期貸款“和”短期貸款“的概念。因此,決定將“貸款期”超過18月的稱為“長期貸款”,變量值對應(yīng)為“1”;將“貸款期”低于18月的稱為“短期貸款”,變量值對應(yīng)為“0”。新變量命名為“deadline”。因?yàn)镃hecking變量有四個(gè)值,信息冗余,不利解釋響應(yīng)變量,因此,我們將Checking拆分為兩個(gè)變量,即good_Checking表示”好帳戶“,即“余額大于200馬克”為1,其它為0; bad_Checking表示”壞帳戶“,即“負(fù)余額”為1,其它為0。因marital變量含有性別和婚姻的信息,這兩個(gè)信息都是個(gè)

14、人基本信息,如果將它們提出為獨(dú)立變量,可能對響應(yīng)預(yù)測有利,因此,我們將marital分為兩個(gè)變量,即sex表示客戶性別maritals表示客戶婚姻狀況設(shè)置變量角色信用評級就是要用申請者個(gè)人信息預(yù)測響應(yīng),這里good_badN就是樣本的響應(yīng)變量,即設(shè)置為target角色,其它設(shè)為input角色。但創(chuàng)建的新變量的信息代替了舊變量信息,所以在后面建模中要去掉舊變量,即把good_bad、checking、duration、marital設(shè)置為rejected角色。 good_badN、good_checking、bad_checking、sex、martials五變量New Measurement設(shè)

15、為binary。數(shù)據(jù)探測首先,我們要初步了解目標(biāo)變量和其它變量的分布,目的是:u數(shù)據(jù)是否存在大量的缺失值;u數(shù)據(jù)是否可能存在嚴(yán)重影響建模穩(wěn)定性的奇異數(shù)據(jù);u變量服從的分布是否適合模型條件。其次,我們要作一般變量與目標(biāo)變量的交叉分析,以了解其它變量與目標(biāo)變量的相關(guān)性和優(yōu)勢率。目的是:u選擇建模重要變量,減少參與建模的變量,提高計(jì)算效力;u檢查變量間的共線性性,提高模型精度;u為模型解釋作好準(zhǔn)備。因數(shù)據(jù)文件僅有三個(gè)區(qū)間變量,沒有缺失值,DURATION和AGE沒有明顯奇異值,僅需觀察AMOUNT變量的分布。偏態(tài)數(shù)據(jù)作對數(shù)變換后(即LOG(AMOUNT)),數(shù)據(jù)表現(xiàn)出正態(tài)分布,奇異值也僅為最小值。變

16、量變換將AMOUNT變量作對數(shù)變換,變換后的變量命名為LAMOUNT,并把它角色設(shè)置為input,而AMOUNT變量角色設(shè)置為rejected。下面我們探索其它變量與目標(biāo)變量的關(guān)聯(lián)強(qiáng)度,這是尋找變量在識別響應(yīng)中的效果的工作。雖然,一元分析不能完全提示變量間的關(guān)系,但它是建立多元分析模型的重要基本步驟。為了了解調(diào)查響應(yīng)變量和22個(gè)探索性變量中每個(gè)變量的關(guān)聯(lián),我們插入variableselection節(jié)點(diǎn),選擇TargetAssociations欄作優(yōu)勢率分析。選擇卡方Pearson統(tǒng)計(jì)量作為判別量,其它參數(shù)默認(rèn)。變量篩選運(yùn)行結(jié)果:變量篩選樹狀結(jié)構(gòu)圖從圖中可看出:前面部分變量是與目標(biāo)變量有顯著相關(guān)

17、性,后面沒有。設(shè)置目標(biāo)函數(shù)信息在實(shí)際中,如果我們正確地識別出不可信顧客,減少的損失將遠(yuǎn)遠(yuǎn)大于正確識別出可信顧客帶來的收益,因此,我們要定義一個(gè)適合實(shí)際需要的決策損失矩陣,以損失最小化為決策目標(biāo),決定顧客信用級別等級的判別閥值。本例分析假設(shè):n接受一個(gè)有信譽(yù)的申請者將獲得1美元贏利,但拒絕他將平均損失1美元;n接受一個(gè)沒有信譽(yù)的申請者將平均損失5美元,拒絕就沒有損失;n目標(biāo)函數(shù)選擇以損失最小化;n申請者的總體中響應(yīng)比例是10,即響應(yīng)的先念概率為0.1。操作參數(shù)選擇如下:目標(biāo)選擇:最小損失;“接受”一個(gè)“不可信者”則損失5元;“接受”一個(gè)“可信者”則損失-1元。響應(yīng)先驗(yàn)概率為0.1,非響應(yīng)先驗(yàn)概率

18、為0.9。數(shù)據(jù)過濾操作參數(shù)如下(默認(rèn)選擇)數(shù)據(jù)過濾是發(fā)現(xiàn)和處理數(shù)據(jù)中的奇異值,以免奇異值影響建模。插入Filter Outliers節(jié)點(diǎn)來完成這項(xiàng)工作。建模數(shù)據(jù)集劃分由于樣本數(shù)據(jù)較少,我們將以隨機(jī)抽樣的方式,把原數(shù)據(jù)的60樣本劃分為訓(xùn)練集,40分為效驗(yàn)集。大多數(shù)定性變量響應(yīng)模型的基本元素是logistic回歸模型。設(shè)niYPii, 2 , 11一個(gè)logistic回歸模型說明事件擬合概率的一個(gè)合適函數(shù)是現(xiàn)有解釋變量觀測值的線性函數(shù):ikkiiiixbxbxba22111log左邊定義擬合概率的logit函數(shù),即 iiiit1loglog回歸預(yù)測模型1 , 0exp1exp22112211ikk

19、iiikkiiixbxbxbaxbxbxbau選擇Logstic回歸模型u選擇逐步回歸法u不選擇交互項(xiàng)u其它用默認(rèn)選項(xiàng)影響因子得分(Effect T-scores )是參數(shù)的估計(jì)值除以估計(jì)量的標(biāo)準(zhǔn)差。參數(shù)估計(jì)值從結(jié)果中可看出:history=1( 這家銀行的所有信用卡都超時(shí)還貸), history=0( 沒有信用卡或所有的信用卡都超時(shí)還貸), savings=1(存款小于100馬克)是響應(yīng)最大正相關(guān)的前三個(gè)因素。savings=4(存款大于1000馬克),BAD_CHECKING=0(支票帳戶余額大于0), history=2( 到現(xiàn)在為止,這家銀行的所有信用卡都未超時(shí)還貸)是響應(yīng)最大負(fù)相關(guān)的

20、前三個(gè)因素。神經(jīng)網(wǎng)絡(luò)預(yù)測模型神經(jīng)網(wǎng)絡(luò)模型適合處理描述性和預(yù)測性數(shù)據(jù)挖掘。盡管還在爭議神經(jīng)網(wǎng)絡(luò)的真實(shí)智能,但是現(xiàn)在它已毫無疑問地成為了有用的統(tǒng)計(jì)模型,而且神經(jīng)網(wǎng)絡(luò)顯示了顯著的擬合觀察數(shù)據(jù)的能力,尤其是對于帶有不完整信息,錯(cuò)誤和不準(zhǔn)確信息的高維數(shù)據(jù)庫和數(shù)據(jù)集。1x2x神經(jīng)元模型:nx12w1jw2jwnj1電位2激活的函數(shù)神經(jīng)元j的電位:nijijijwxP1第j人神經(jīng)元的輸出: jjPfy 階梯激活函數(shù)(還有線性和Sigmoid激活函數(shù)): jjjjjPPPf神經(jīng)網(wǎng)絡(luò)以層次方式組織,它有三種類型的層:輸入、輸出或隱層。神經(jīng)網(wǎng)絡(luò)有多層加權(quán)神經(jīng)元,稱為多層感知器。一個(gè)兩層的網(wǎng)絡(luò)有一個(gè)隱層,輸入層有n

21、個(gè)神經(jīng)元,隱層有h個(gè)神經(jīng)元,輸出層有p個(gè)神經(jīng)元。權(quán)重wik(i=1,n;k=1,h)連接輸入層節(jié)點(diǎn)和隱層節(jié)點(diǎn);權(quán)重zkj(k=1,h;j=1,p)連接隱層節(jié)點(diǎn)和輸出節(jié)點(diǎn)。kiikikjkkjkjwxfzgzhgy有監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò):有監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò):假定每一個(gè)觀測數(shù)據(jù)(xi,ti)描述,神經(jīng)網(wǎng)絡(luò)輸出yi=f(xi),使距離d(yi,ti)的各最小。無監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò):無監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò):假定每一個(gè)觀測數(shù)據(jù)xi描述,將數(shù)據(jù)集分成子集,使得屬于同一子集的xi比較接近,它是一個(gè)分類問題。模型迭代停止,使模型過度似合可能性最小。決策樹預(yù)測模型mnllmmiyny11樹模型是先將觀測數(shù)據(jù)分到不同組中,再獲得每

22、組的得分。樹模型分成回歸樹和分類樹,回歸樹的響應(yīng)變量是連續(xù)的;分類樹的響應(yīng)變量是離散型定量變量或定性變量。回歸樹生成的擬合值:分類樹生成的擬合概率:mnllmmiyn11劃分規(guī)則:選擇劃分規(guī)則意味著從現(xiàn)有的方法中選擇了一個(gè)分類器,選擇最好的劃分。錯(cuò)分不純性kmnlklmmMnyyIIm1,1)(Gini不純性 mkiimGI12)(1熵不純性 mkiiimEI1)(log剪枝:當(dāng)沒有停機(jī)準(zhǔn)則時(shí),根據(jù)因變量的數(shù)值和級別值、樹模型可以一直增長直到每一個(gè)節(jié)點(diǎn)都包含相同的觀測數(shù)據(jù),這顯然不是一個(gè)簡約的劃分。因此,當(dāng)樹達(dá)到一定規(guī)模時(shí),很有必要停止樹的增長,最終得到的理想樹模型應(yīng)既簡約又準(zhǔn)確。CART剪枝方法:首先樹構(gòu)成最大尺寸,這可能使樹的葉子

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論