




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、2017年9月,評分卡相關(guān)流程介紹,人工審批難題,人工審批作業(yè)形式,審批依據(jù)是審批政策、客戶提供的資料及審批人員的個人經(jīng)驗進行審批判斷,存在以下問題: 信審人員對申請人所提交申請資料真實性的認定基本依賴于受理申請資料的信貸業(yè)務員的職業(yè)操守和業(yè)務素質(zhì),審批人員對申請人資料的核實手段基本依賴于電話核查,對申請核準與否基本依賴于自己的信審業(yè)務經(jīng)驗,授信審查成本高、效率低而又面臨很大的欺詐風險,這種狀況很難應對業(yè)務需要。 審批決策容易受主觀因素影響、審批結(jié)果不一致,審批政策調(diào)控能力相對薄弱。 不利于量化風險級別,無法進行風險分級管理,影響風險控制的能力及靈活度,難以在風險與市場之間尋求合適的平衡點。
2、審批效率還有較大提升空間。,風險管理部,2 / 59,評分卡簡介,原理:利用歷史貸款客戶數(shù)據(jù)預測未來申請貸款客戶違約概率 信用評分是指根據(jù)客戶的各種歷史資料,利用一定的信用評分模型,得到不同等級的信用分數(shù),根據(jù)客戶的信用分數(shù),授信者可以通過分析客戶按時還款的可能性,據(jù)此決定是否給予授信以及授信的額度和利率。 雖然授信者通過人工分析客戶的歷史信用資料,同樣可以得到這樣的分析結(jié)果,但利用信用評分卻更加快速、更加客觀、更具有一致性。,01,風險管理部,3 / 59,評分卡優(yōu)勢,信用評分卡具有客觀性 它是根據(jù)從大量數(shù)據(jù)中提煉出來的預測信息和行為模式制定的,反映了借款人信用表現(xiàn)的普遍性規(guī)律,在實施過程中
3、不會因?qū)徟藛T的主觀感受、個人偏見、個人好惡和情緒等改變,減少了審批員過去單憑人工經(jīng)驗進行審批的隨意性和不合理性。 信用評分卡具有一致性 在實施過程中前后一致,無論是哪個審批員,只要用同一個評分卡,其評估和決策的標準都是一樣的。 信用評分卡具有準確性 它是依據(jù)大數(shù)原理、運用統(tǒng)計技術(shù)科學地發(fā)展出來的,預測了客戶各方面表現(xiàn)的概率,使銀行能比較準確地衡量風險、收益等各方面的交換關(guān)系,找出適合自己的風險和收益的最佳平衡點。 信用評分卡可以極大地提高審批效率 由于信用評分卡是在申請?zhí)幚硐到y(tǒng)中自動實施,只要輸入相關(guān)信息,就可以在幾秒中內(nèi)自動評估新客戶的信用風險程度,給出推薦意見,幫助審批部門更好地管理申請
4、表的批核工作。,風險管理部,4 / 59,項目范圍,風險管理部,5 / 59,數(shù)據(jù)處理和分析,業(yè)務調(diào)研和數(shù)據(jù)采集 數(shù)據(jù)質(zhì)量分析 數(shù)據(jù)清洗 衍生變量設(shè)計 數(shù)據(jù)進一步分析,風險管理部,6 / 59,數(shù)據(jù)處理和分析業(yè)務調(diào)研和數(shù)據(jù)采集,通過設(shè)計問卷調(diào)查、訪談、統(tǒng)計分析等專業(yè)數(shù)據(jù)分析方式,對公司進行業(yè)務調(diào)研,了解公司的前端業(yè)務流、后臺數(shù)據(jù)采集點、數(shù)據(jù)庫設(shè)計及存儲情況,深刻理解公司當前的數(shù)據(jù)現(xiàn)狀、業(yè)務實際及系統(tǒng)運行環(huán)境和產(chǎn)品結(jié)構(gòu),分析公司自有數(shù)據(jù)存在的缺失敞口,包括申請表數(shù)據(jù)、央行征信數(shù)據(jù)、業(yè)務表現(xiàn)數(shù)據(jù)和其他三方數(shù)據(jù)等。該部分工作包括: 對公司產(chǎn)品和數(shù)據(jù)現(xiàn)狀的理解 提取數(shù)據(jù),風險管理部,7 / 59,數(shù)據(jù)
5、處理和分析業(yè)務調(diào)研和數(shù)據(jù)采集,對公司產(chǎn)品和數(shù)據(jù)現(xiàn)狀的理解 理解公司產(chǎn)品特點 理解產(chǎn)品風險暴露的特點,包括產(chǎn)品的定義,審批過程,審批政策和策略,管理策略,歷史上的重大變遷,及未來發(fā)展趨勢等。 理解公司和本項目相關(guān)產(chǎn)品數(shù)據(jù)存儲結(jié)構(gòu)及數(shù)據(jù)內(nèi)容 理解數(shù)據(jù)的存儲系統(tǒng)及彼此關(guān)系,知曉其歷史變更情況及其對數(shù)據(jù)獲取及質(zhì)量的可能產(chǎn)生的影響。,風險管理部,8 / 59,數(shù)據(jù)處理和分析業(yè)務調(diào)研和數(shù)據(jù)采集,提取數(shù)據(jù):根據(jù)項目需求結(jié)合不同的產(chǎn)品特點和業(yè)務應用需求,提供具體的數(shù)據(jù)提取模板。 開發(fā)樣本:開發(fā)樣本包括開發(fā)開發(fā)風險模型,制定業(yè)務策略和跟蹤報表所需要的數(shù)據(jù)。 開發(fā)風險評分模型可用的理想數(shù)據(jù)應最佳地反映未來要評分和
6、使用估算的群體。因而,樣本要足夠新,從而能夠代表目前和將來申請人的狀況,這一點是至關(guān)重要的。然而,為了開發(fā)一個穩(wěn)定而強大的解決方案,賬戶必須有足夠的歷史來體現(xiàn)他們的行為表現(xiàn),同時也須有一定的信息量來描述其表現(xiàn)。開發(fā)不同的風險評分模型需要不同的數(shù)據(jù),主要會包括申請信息、人口信息、內(nèi)部關(guān)系數(shù)據(jù)、交易信息、還款信息、利息收入信息、催收信息、成本信息等。信息的使用會在模型建立過程中詳述。 驗證樣本 模型開發(fā)結(jié)果必須經(jīng)過驗證,不論何種風險模型。在模型的開發(fā)過程中需要進行預留樣本的驗證和跨時間樣本的驗證。 預留樣本驗證是通過隨機抽樣的方式,選取一定比例的樣本進行評分模型的開發(fā),并用余下的樣本進行評分模型的
7、檢驗。其目的在于使用未在任何建模過程使用的獨立樣本來判斷評分模型的辨別力及其穩(wěn)定性。 跨時間驗證是一個在模型開發(fā)之后進行的驗證工作。該驗證的目是檢驗基于開發(fā)樣本建立的模型在不同時點的樣本上,是否有相似的預測和排序能力及其跨時間穩(wěn)定性。,風險管理部,9 / 59,數(shù)據(jù)處理和分析數(shù)據(jù)質(zhì)量分析,根據(jù)數(shù)據(jù)提取需求模塊進行數(shù)據(jù)提取后,為了保證后續(xù)的分析工作建立在高質(zhì)量數(shù)據(jù)的基礎(chǔ)上,需從以下6個維度建立一系列測量指標,對數(shù)據(jù)進行評估,確保數(shù)據(jù)可用狀態(tài),識別數(shù)據(jù)中可能存在的各種問題,探究數(shù)據(jù)缺陷的成因,制定數(shù)據(jù)清洗規(guī)則和實施框架,完成對原始數(shù)據(jù)的整理,并對未能達到建模要求的數(shù)據(jù)提出補救方案,找到適合建模的數(shù)
8、據(jù)維度。 數(shù)據(jù)的完備性 數(shù)據(jù)的有效性 數(shù)據(jù)的一致性 數(shù)據(jù)的完整性 數(shù)據(jù)的及時性 業(yè)務要求,風險管理部,10 / 59,數(shù)據(jù)處理和分析數(shù)據(jù)質(zhì)量分析,為了滿足建模要求,需要對經(jīng)過質(zhì)量控制的數(shù)據(jù)進行數(shù)據(jù)質(zhì)量分析,得出多種統(tǒng)計指標。通過對每個字段的統(tǒng)計指標的觀察,初步判斷該字段是否可以建模的過程中使用。數(shù)據(jù)質(zhì)量分析主要有以下兩項: 單變量分析 生成雙向或多維交叉表報告 賬戶狀態(tài)的賬齡分析(Vintage Analysis),風險管理部,11 / 59,數(shù)據(jù)處理和分析數(shù)據(jù)質(zhì)量分析,單變量分析 對字符型變量和某些連續(xù)性變量進行頻數(shù)分析,進而了解數(shù)據(jù)中該字段的分布情況,判斷是否符合邏輯和業(yè)務實際,同時了解各
9、個產(chǎn)品的特點。 對于連續(xù)性變量,不能直接由頻數(shù)分析得到其分布,而需要通過均值類統(tǒng)計方法檢測均值、中位數(shù)、極大值、極小值和一些區(qū)間值,從而進一步地檢查數(shù)據(jù)的準確性以及判斷該字段的分布是否符合邏輯和業(yè)務實際。 一般來說,單變量分析主要檢驗主鍵唯一性(數(shù)據(jù)集)、缺失率(數(shù)據(jù)集)、邏輯性檢查和其他檢查(業(yè)務范圍場景)。 另剔除業(yè)務場景解釋不會影響建模的變量后,可把變量類型分為:日期型、數(shù)值型和字符型變量,該部分單獨進行檢查。,風險管理部,12 / 59,數(shù)據(jù)處理和分析數(shù)據(jù)質(zhì)量分析,風險管理部,13 / 59,數(shù)據(jù)處理和分析數(shù)據(jù)質(zhì)量分析,風險管理部,14 / 59,數(shù)據(jù)處理和分析數(shù)據(jù)質(zhì)量分析,生成雙向或
10、多維交叉表報告 雙變量分析報告可幫助檢測變量之間關(guān)系的正確性。多維交叉表報告方便工作人員全面地理解公司數(shù)據(jù),并更有助于發(fā)現(xiàn)潛在的異常情況。,風險管理部,15 / 59,數(shù)據(jù)處理和分析數(shù)據(jù)質(zhì)量分析,賬戶狀態(tài)的賬齡分析(Vintage Analysis) 通過賬戶狀態(tài)的賬齡分析(Vintage Analysis),可以了解不同產(chǎn)品在不同時間點或不同時間段的賬戶的逾期比例的變化,從而了解資產(chǎn)質(zhì)量變化。,風險管理部,16 / 59,數(shù)據(jù)處理和分析數(shù)據(jù)清洗,數(shù)據(jù)清洗:高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),數(shù)據(jù)清洗可以改進數(shù)據(jù)的質(zhì)量,從而有助于提高其后的數(shù)據(jù)挖掘過程的精度和效率。本項目數(shù)據(jù)清洗所采用的方法主
11、要有以下三種: 缺失值處理 異常值處理 不一致數(shù)據(jù)處理,風險管理部,17 / 59,數(shù)據(jù)處理和分析數(shù)據(jù)清洗,缺失值處理:缺失值一般分為真缺失與假缺失,所謂真缺失是指該數(shù)據(jù)的的確確是沒有,并且不知道具體含義的情況;而假缺失往往是指雖然數(shù)據(jù)本身缺失,但缺失是一種特殊情況,具有確實的含義,比如客戶是否處于休眠狀態(tài)這一字段,如果沒有值意味著客戶依然活躍。針對上面真缺失與假缺失的不同情況,在處理缺失值的時候就要根據(jù)具體需求而定。假缺失可以通過討論并與業(yè)務情況給出具體的補足方案;而對于真缺失,可以采用如下幾種方法進行處理: 忽略樣本。若該條樣本有多個變量存在缺失值,一般采取直接刪除的方法。 使用一個全局量
12、填充。將遺漏的變量用同一個常數(shù)(如“unknown”)替換。這樣數(shù)據(jù)挖掘程序可能會認為此數(shù)據(jù)項形成了一個新的概念,即都有一個相同的值“unknown”。 均值/中位數(shù)補救法:對于數(shù)值型字段,可以使用樣本均值或中位數(shù)補救;對于分類型字段,可以使用中位數(shù)補救。 頻度最高值補救法:對于分類型字段,使用出現(xiàn)頻度最高的類別補救;對于數(shù)值型字段,可以通過先分箱,然后使用出現(xiàn)頻度最高的分箱的均值或者中位數(shù)進行補救。 使用推導的值填充值。使用聚類的均值補救或者基于分類的插值補救、回歸、貝葉斯形式化方法或者判定樹歸納等基于推導的工具預測缺失值。,風險管理部,18 / 59,數(shù)據(jù)處理和分析數(shù)據(jù)清洗,異常值處理:異
13、常值是測量變量的隨機錯誤或偏差。識別異常值數(shù)據(jù)一般有四種方法。第一種方法是可以為每個變量設(shè)定一個正常取值范圍,連續(xù)變量的范圍可以設(shè)定為其均值3 倍的標準差,分類變量的頻數(shù)高于總體的1%;第二種方法建立在生成數(shù)據(jù)的過程是具有特定函數(shù)形式的模型,如線性模型的假設(shè)基礎(chǔ)之上,可以用已知數(shù)據(jù)擬合該模型,嚴重偏離被擬合模型的觀測值被視為極端值;第三種方法聚類算法將數(shù)據(jù)分為較小的子集,只包含較小數(shù)量觀測值的子集,被認定為噪音數(shù)據(jù);第四種方法依靠決策樹發(fā)現(xiàn)包含少量觀測值的持續(xù)結(jié)點。將異常值識別出之后,可采取以下四種方法來處理: 分箱。分箱的方法通過考察臨近變量來平滑存儲數(shù)據(jù)的值,存儲的值被分布到一些箱中,擁箱
14、中的中值或者均值等替代箱中的變量,進行局部平滑。 聚類。將近似的值組織成“類”,然后用同一個值代表這一類。 計算機和人工檢驗結(jié)合。通過計算機和人工檢查的辦法來識別異常值。例如,制定一個規(guī)則找出可能有異常的數(shù)據(jù),然后人工篩選出真正的異常數(shù)據(jù)。 回歸。通過讓數(shù)據(jù)適合一個函數(shù)(如回歸函數(shù))來平滑數(shù)據(jù)。,風險管理部,19 / 59,數(shù)據(jù)處理和分析數(shù)據(jù)清洗,不一致數(shù)據(jù)處理:對于有些事務,所記錄的數(shù)據(jù)可能存在不一致。有些數(shù)據(jù)不一致可以使用其 它材料人工的加以改正。若知道變量間的邏輯依賴關(guān)系,也可以查找違反函數(shù)依 賴的值。,風險管理部,20 / 59,數(shù)據(jù)處理和分析衍生變量設(shè)計,衍生變量:衍生變量的原始信息
15、來源于模型開發(fā)的樣本和將來模型實施時均可以觀察到的信息。衍生變量的預測能力來源于它們與目標變量的相關(guān)性和邏輯因果關(guān)系。在大量的原始變量的基礎(chǔ)上,派生出幾百到上千個具有一定預測能力的衍生變量,然后經(jīng)過層層篩選,最終選定十幾個到幾十個預測能力最強的變量來建立信用評分模型。 基于對業(yè)務風險特征的分析及經(jīng)驗,生成衍生變量。 變量聚類 對于未能達到建模要求的數(shù)據(jù),使用變量聚類的方式進行補救。由于該類數(shù)據(jù)雖然不是模型建設(shè)的強變量,但是依然會對模型效果起到影響,不能單純的把該類數(shù)據(jù)舍去,因此可采用變量聚類的方式,利用相關(guān)性篩選變量,通過對變量進行聚類分析,對相同類型的變量進行分組,選擇其中效果最好的變量作為
16、備選,風險管理部,21 / 59,數(shù)據(jù)處理和分析衍生變量設(shè)計,風險管理部,22 / 59,數(shù)據(jù)處理和分析數(shù)據(jù)進一步分析,數(shù)據(jù)進一步分析 產(chǎn)品特征分析 客戶特征分析等,風險管理部,23 / 59,評分卡模型開發(fā)與驗證,對于評分模型的開發(fā)有如下三種方法: 專家模型適用于即將開展、或剛開展、或已開展但數(shù)據(jù)量較少的業(yè)務,不需要確保足夠數(shù)量的“壞客戶” 和表現(xiàn)期; 混和型模型若在一個合理的時間段內(nèi)能有一定數(shù)量的壞客戶 ,可結(jié)合專家經(jīng)驗與可用數(shù)據(jù)的統(tǒng)計分析,實施一種”混和”型的模型發(fā)展方案; 數(shù)據(jù)驅(qū)動的統(tǒng)計模型若有足夠壞賬戶數(shù),且各類信息,如申請人信息、債務或債項信息、還款信息、經(jīng)營實體信息等收集較為完備
17、,則可開發(fā)數(shù)據(jù)驅(qū)動的統(tǒng)計模型。,風險管理部,24 / 59,評分卡模型開發(fā)與驗證模型開發(fā),是,是,否,否,否,是,風險管理部,25 / 59,評分卡模型開發(fā)與驗證模型開發(fā),專家模型:專家評分模型主要開發(fā)過程包括以下五個步驟 與業(yè)務專家進行多次內(nèi)部訪談,設(shè)計變量調(diào)查問卷。 組織業(yè)務專家對問卷進行填寫,讓業(yè)務專家充分參與到模型開發(fā)過程中,增加模型開發(fā)的透明度,便于后期模型應用的推廣工作。 回收調(diào)查問卷,對填寫的變量重要性進行匯總排序,并組織會議進行討論。 利用層次分析法確定備選變量權(quán)重,并進一步確定這些變量的使用方式。 基于層次分析法確定的權(quán)重,以及可獲取數(shù)據(jù)的變量特征分析結(jié)果,形成評分卡初版,與
18、專家團隊進行討論,最終確定入模變量。,風險管理部,26 / 59,評分卡模型開發(fā)與驗證模型開發(fā),混合模型:混合模型主要開發(fā)過程包括以下三個方面 專家問卷調(diào)研。主要為評審專家訪談、調(diào)查問卷設(shè)計、問卷的填寫、調(diào)查結(jié)果分析 數(shù)據(jù)分析。主要為數(shù)據(jù)提取、樣本數(shù)據(jù)分析、模型變量生成、模型變量篩選 評分卡確認。主要為模型指標確認、指標權(quán)重確認、模型驗證、最終模型確認,風險管理部,27 / 59,評分卡模型開發(fā)與驗證模型開發(fā),數(shù)據(jù)驅(qū)動的統(tǒng)計模型:該模型(一般采用Logistic)主要包括以下步驟,風險管理部,28 / 59,評分卡模型開發(fā)與驗證模型設(shè)計,模型設(shè)計:以會議的形式討論和確定評分模型項目所要達到的目
19、標,并定義開發(fā)所需參數(shù),其中最主要的內(nèi)容為排除規(guī)則、目標變量和樣本窗口的定義。 產(chǎn)品范圍 業(yè)務重點、影響成本和盈利的因素、產(chǎn)品特征、目標客戶群特性等 決定最適用的關(guān)鍵開發(fā)參數(shù)(例如:排除法則、觀測窗口、表現(xiàn)窗口、取樣方案等) 原始數(shù)據(jù)的來源及可獲取性 數(shù)據(jù)、系統(tǒng)及運作程序方面的限制 在開發(fā)數(shù)據(jù)使用的時間段上,業(yè)務組合的改變是否顯著影響到評分卡的開發(fā),風險管理部,29 / 59,評分卡模型開發(fā)與驗證模型設(shè)計,排除規(guī)則:主要內(nèi)容是確定未來不可評分以及不適用于建模的人群。,風險管理部,30 / 59,評分卡模型開發(fā)與驗證模型設(shè)計,目標變量:主要內(nèi)容是確定樣本好、壞以及不確定的定義。好壞樣本的定義需要
20、依賴于滾動率分析,即分析各逾期狀態(tài)下進一步變壞的可能性,從而確定壞定義的建議。,風險管理部,31 / 59,評分卡模型開發(fā)與驗證模型設(shè)計,樣本窗口:主要內(nèi)容是確定用于建模數(shù)據(jù)所覆蓋的時間窗口,主要是通過壞賬率分析中壞客戶的捕獲率來定義。,風險管理部,32 / 59,評分卡模型開發(fā)與驗證數(shù)據(jù)準備,數(shù)據(jù)準備:主要包含以下內(nèi)容 特征分析報告 變量分箱 變量篩選 變量轉(zhuǎn)換,風險管理部,33 / 59,評分卡模型開發(fā)與驗證數(shù)據(jù)準備,特征分析報告:自變量與應變量間的雙變量分析報告,又稱之為特征分析報告,還可用以檢查每個變量趨勢是否符合業(yè)務邏輯,評估其預測能力。同時,如果需開發(fā)補充變量和啞變量(Dummy
21、Variables),雙變量分析報告也是主要依據(jù)和基礎(chǔ)。,風險管理部,34 / 59,評分卡模型開發(fā)與驗證數(shù)據(jù)準備,變量分箱:主要為分類變量的分欄和連續(xù)變量的分箱,主要參考WOE(Weight of Evidence,證據(jù)權(quán)重)值。 分類變量:例如婚姻關(guān)系,包含多個變量屬性,如“已婚”、“未婚”、“其他”等,可直接將每個屬性作為一個分箱 連續(xù)變量:首先按照頻數(shù)盡量平均分成多組,保證每個分箱的賬戶數(shù)占總體的比例不低于2%,形成變量的初步分組,隨后在初步分組的基礎(chǔ)上合并相似的組別形成最終分箱 其中 為該組內(nèi)壞樣本的個數(shù), 為總壞樣本個數(shù), 為該組內(nèi)好樣本的個數(shù), 為總好樣本的個數(shù)。,風險管理部,3
22、5 / 59,評分卡模型開發(fā)與驗證數(shù)據(jù)準備,變量分箱:變量分組合并時,需考慮以下因素 不同的分箱間好壞比率。 每個分箱中的好/壞賬戶數(shù)量。 每個分箱中的賬戶百分比。 每個分箱的好壞比率的排序需要和業(yè)務常識保持一致。 分箱的取值要符合業(yè)務常識。,風險管理部,36 / 59,評分卡模型開發(fā)與驗證數(shù)據(jù)準備,變量篩選:主要通過信息值IV,衡量類別變量與結(jié)果變量之間關(guān)聯(lián)性 IV的取值范圍對應預測力 0.3 強,風險管理部,37 / 59,評分卡模型開發(fā)與驗證數(shù)據(jù)準備,變量篩選:篩選過程中會有以下考量 顯著性和穩(wěn)定性 穩(wěn)定性的考量將會保證模型在相對較長時間內(nèi)具有穩(wěn)健的區(qū)分能力。變量穩(wěn)定性以群體穩(wěn)定指數(shù)(P
23、opulation Stability Index,PSI)衡量,通常通過計算變量在開發(fā)樣本和跨時間樣本上的群體穩(wěn)定性指標(如:PSI0.1)對變量的穩(wěn)定性進行評估。結(jié)合信息值和群體穩(wěn)定指數(shù),篩選出有效的變量用于模型參數(shù)擬合。在進行變量篩選時通常考慮變量的穩(wěn)定性和信息值(IV),根據(jù)PSI和IV篩選出有效的變量進行模型開發(fā)。 單調(diào)性和合理性 由于大多數(shù)的建模方法要求單個變量在模型中的作用是單調(diào)的,因此變量好壞分布的單調(diào)性越強,最終模型的可解釋性和性能會越好。但很少出現(xiàn)完全單調(diào)的變量,更多的情況是在總體趨勢之中存在一定波動。對波動調(diào)整不會對模型的性能造成重大影響,反而會減少變量自身的噪音,保證模
24、型的穩(wěn)定性。為了幫助業(yè)務人員理解變量的預測趨勢,通常會對此類波動通過取值合并作平滑處理。 評分模型需要注重預測變量的業(yè)務合理性和可解釋性。然而,統(tǒng)計上顯著的變量,在模型中的作用不一定與常識和業(yè)務經(jīng)驗一致。為了避免由此可能導致的錯誤判斷,在變量篩選時需要通過單變量分析,檢查連續(xù)型和離散型自變量在不同取值下,好壞分布的總體趨勢與業(yè)務經(jīng)驗是否一致。 變量間的多重共線性 多重共線性是指線性回歸模型中的解釋變量之間由于存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系而使模型估計失真或難以估計準確,通過計算該變量的方差膨脹因子(VIF)來判別,該步驟可通過逐步回歸方法來剔除存在嚴重共線性的變量。,風險管理部,38 / 59
25、,評分卡模型開發(fā)與驗證數(shù)據(jù)準備,變量轉(zhuǎn)換:對自變量中所有順序變量和類別變量進行WOE(證據(jù)權(quán)重)轉(zhuǎn)換。WOE(證據(jù)權(quán)重)轉(zhuǎn)換便于將回歸模型轉(zhuǎn)化為標準評分卡的格式,WOE轉(zhuǎn)化的優(yōu)勢:提升模型的預測效果,提高模型的可理解性。 WOE與違約概率具有某種線性關(guān)系 通過WOE編碼可以發(fā)現(xiàn)自變量與目標變量之間的非線性關(guān)系(例如U型或者倒U型關(guān)系)。提升預測效果。 標準化的功能 WOE編碼之后,自變量其實具備了某種標準化的性質(zhì),也就是說,自變量內(nèi)部的各個取值之間都可以直接進行比較(WOE之間的比較),而不同自變量之間的各種取值也可以通過WOE進行直接的比較。 WOE能反映自變量的貢獻情況 自變量內(nèi)部WOE值
26、的變異(波動)情況,結(jié)合模型擬合出的系數(shù),構(gòu)造出各個自變量的貢獻率及相對重要性。一般地,系數(shù)越大,woe的方差越大,則自變量的貢獻率越大(類似于某種方差貢獻率),這也能夠很直觀地理解。 異常值處理 很多極值變量通過WOE可以變?yōu)榉钱惓V怠?風險管理部,39 / 59,評分卡模型開發(fā)與驗證模型細分,模型細分:不同的業(yè)務中,人群的行為模式往往存在差別,不區(qū)分業(yè)務的模型的預測能力較差。因此需要針對樣本,辨別最佳群體細分,使整個模型的預測能力最大化。建立初始的細分方案后,需要不斷進行調(diào)整。主要通過以下標準來評估模型細分的效果。 樣本的數(shù)量是否足夠用以構(gòu)建以細分為基礎(chǔ)的穩(wěn)健的評分模型 每個評分卡是否會對
27、某一資產(chǎn)中足夠數(shù)量的賬戶產(chǎn)生影響 細分方案是否合乎邏輯 細分后的模型有無提高預測能力 每個細分模型是否滿足穩(wěn)定性的要求 細分方案是否符合業(yè)務要求,風險管理部,40 / 59,評分卡模型開發(fā)與驗證拒絕推斷,拒絕推斷:拒絕推斷是指將先前拒絕的賬戶推斷為好賬戶的概率的過程。拒絕推斷可以創(chuàng)建“總體正常申請群體(Through The Door)”,從而減少在模型開發(fā)時由于樣本差異出現(xiàn)的統(tǒng)計偏差。 接受部分壞客戶 隨機抽取未被授信的客戶,對其進行授信、觀察未來表現(xiàn)。對于這部分客戶加以一定的權(quán)重與授信客戶合起來作為模型開發(fā)的樣本。但該方法在現(xiàn)實中較難接受,因被拒絕的客戶風險往往較高,易帶來損失 核函數(shù)推斷
28、法 用最相似、加權(quán)平均和Q1加權(quán)平均這三種核函數(shù)推斷法對拒絕樣本進行拒絕推斷,并把推斷出因變量取值的拒絕樣本和接受樣本匯總后,再創(chuàng)建信用評分模型,然后利用驗證樣本做模型效果的驗證。 打包方法 打包方法首先利用接受樣本創(chuàng)建初步的信用評分模型,并把預測概率排序分組,然后給拒絕樣本中的申請人打分,并對打分得到的預測概率按照接受樣本中的預測概率分組規(guī)則進行分組。該方法假設(shè)在同一概率組中,拒絕樣本中的壞客戶比例是相對應的接受樣本中壞客戶比例的若干倍,這個倍數(shù)就叫做事件增長率。事件增長率需要業(yè)務人員根據(jù)經(jīng)驗給出估計,是一種先驗信息。 硬截至法 硬截止方法首先利用接受樣本創(chuàng)建信用評分模型(KGB),并據(jù)此給
29、拒絕樣本中的申請人打分。該方法假設(shè)得分高于某個臨界值的為好客戶,低于臨界值的為壞客戶,這里的臨界值也需要業(yè)務人員給出壞客戶率的先驗估計。,風險管理部,41 / 59,評分卡模型開發(fā)與驗證拒絕推斷,Odds of Rejects=4000/3000=1.33; Odds of Uncash=460/40=11.5; Odds of Book=2200/300=7.33; Odds of Total =6660/3340=1.99,風險管理部,42 / 59,評分卡模型開發(fā)與驗證模型確立,模型確立:邏輯回歸是申請信用評分模型常用的統(tǒng)計方法,技術(shù)成熟且廣為評分技術(shù)人員熟悉,容易使用及實施。 邏輯回歸
30、分析主要適用于二元(或多元)性目標變量,比如說,賬戶未來表現(xiàn)的“好”和“壞”。邏輯回歸模型預測的結(jié)果是介于0 和1 之間的概率,同時邏輯回歸模型的預測結(jié)果與自變量之間是非線性的關(guān)系。邏輯回歸模型自變量Xn 可以是連續(xù)性變量,也可以是類別性變量。邏輯回歸模型的預測結(jié)果是目標變量Y=0 的概率。以數(shù)學公式來表示如下:,P = 1 = exp( 0 + 1 1 + + ) 1+exp( 0 + 1 1 + + ),P = 1是客戶違約的概率,常數(shù) 0 , 1 , , 為函數(shù)參數(shù), 1 , , 是函數(shù)自變量 經(jīng)過分值刻度的設(shè)定得到標準評分卡,風險管理部,43 / 59,評分卡模型開發(fā)與驗證模型驗證,模
31、型驗證:采用統(tǒng)計手段就模型的區(qū)分能力、排序能力和穩(wěn)定性等在內(nèi)的多方位驗證,并在驗證基礎(chǔ)上完成模型優(yōu)化調(diào)整和校準,生成最終的評分卡。 模型評分分布和群體穩(wěn)定性(PSI檢驗) 模型排序能力(Gains Chart) 模型分辨能力(Gini 系數(shù)和 KS值)等,風險管理部,44 / 59,評分卡模型開發(fā)與驗證模型驗證,KS 值,Divergency,Gini(ROC)系數(shù),KS值:好壞群體累計分布的最大差異;KS越高,排序能力越強。 Gini(ROC)系數(shù):壞賬戶數(shù)的累積分布與隨機分布的差值;高值意味著好/壞之間的差異較大。 Divergence分離度:衡量“好”和“壞”群體的信息值差異;分離度越高
32、,排序能力越強。,風險管理部,45 / 59,評分卡模型開發(fā)與驗證模型驗證,風險管理部,46 / 59,評分卡模型開發(fā)與驗證評分卡計算,風險管理部,47 / 59,評分卡應用策略開發(fā),評分截取點(Cut-off)的設(shè)定,風險管理部,48 / 59,評分卡應用策略開發(fā)評分截取點(Cut-off)的設(shè)定,評分截取點(Cut-off)的設(shè)定:評分cut-off劃分包括“截取點分數(shù)線”和“風險等級區(qū)間”。前者是依賴評分進行業(yè)務決策的理想情況,低于某一分數(shù)以下的直接拒絕,高于該分數(shù)以上則批準。但實際業(yè)務上的情景不會如此簡單,需要通過設(shè)置評分區(qū)間將人群分成不同風險類別,不同類別采取差異化對策。費埃哲一般建
33、議風險等級區(qū)間分為五類:極高風險E類,較高風險D類,中等風險C類,較低風險B類,很低風險A類。 Cut -off 截取點分數(shù)線 風險等級區(qū)間,風險管理部,49 / 59,評分卡應用策略開發(fā)評分截取點(Cut-off)的設(shè)定,Cut -off 截取點分數(shù)線:截取點分數(shù)線的劃分根據(jù)業(yè)務方向的不同而有不同的原則,一般主要包括以下三種考慮。 保持目前的審批通過率 較謹慎的設(shè)定Cut-Off截取點分數(shù)線的方法是保持和目前一樣的通過率。在保持當前通過率的同時,壞賬率和壞賬戶數(shù)量也相應減少,這是由于新開發(fā)的評分卡與之前相比能夠更好的區(qū)分好壞賬戶 保持目前的壞賬率 另一種設(shè)定 另一種設(shè)定 Cut -Off 截取點分數(shù)線的方法是,希望增加通過率同時維持當前壞賬不變。這種方法是具有一定風險的,因為需要通過段時間才能確參與評分申請人實際壞賬率(因拒絕推斷的影響,實際
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 IEC 62007-2:2025 FR Semiconductor optoelectronic devices for fibre optic system applications - Part 2: Measuring methods
- 【正版授權(quán)】 ISO/IEC 42006:2025 EN Information technology - Artificial intelligence - Requirements for bodies providing audit and certification of artificial intelligence management syst
- 協(xié)助家長辦年貨課件
- 健康素養(yǎng)促進課件
- 合肥科學實驗班數(shù)學試卷
- 河南省初三數(shù)學試卷
- 健康管理電教課件
- 2025-2030年中國手帕袋項目投資可行性研究分析報告
- 烏魯木齊市第七十七小學-企業(yè)報告(業(yè)主版)
- 2025年中國電路保護元器件行業(yè)發(fā)展監(jiān)測及投資戰(zhàn)略規(guī)劃研究報告
- HJ 651-2013 礦山生態(tài)環(huán)境保護與恢復治理技術(shù)規(guī)范(試行)
- SY-T 5333-2023 鉆井工程設(shè)計規(guī)范
- 冠脈介入進修匯報
- 敘事護理學智慧樹知到期末考試答案章節(jié)答案2024年中國人民解放軍海軍軍醫(yī)大學
- 2024四川省南部縣事業(yè)單位招聘45人歷年公開引進高層次人才和急需緊缺人才筆試參考題庫(共500題)答案詳解版
- PDCA提高臥床患者踝泵運動的執(zhí)行率
- NBT《風電場工程施工質(zhì)量檢驗與評定規(guī)程》
- 兒科護理安全不良事件
- 中國硒化汞行業(yè)市場現(xiàn)狀分析及競爭格局與投資發(fā)展研究報告2024-2029版
- 票務購票合同
- INSAR技術(shù)在城市地面沉降監(jiān)測中的應用
評論
0/150
提交評論