《Python經濟大數(shù)據(jù)分析》Python應用貸款違約預測

上傳人：熊*** IP屬地：山東上傳時間：2023-09-29 格式：PPTX 頁數(shù)：31 大?。?22.51KB 積分：30 舉報 版權申訴

《Python經濟大數(shù)據(jù)分析》Python應用貸款違約預測_第2頁

《Python經濟大數(shù)據(jù)分析》Python應用貸款違約預測_第3頁

《Python經濟大數(shù)據(jù)分析》Python應用貸款違約預測_第4頁

《Python經濟大數(shù)據(jù)分析》Python應用貸款違約預測_第5頁

已閱讀5頁，還剩26頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

Python應用:貸款違約預測核心知識包括：單變量Logistic回歸、多變量Logistic回歸；變量篩選、逐步Logistic回歸；決策樹建樹、剪樹、Quinlan系列決策樹和CART決策樹；ID3算法及C4.5算法；決策樹可視化；貸款違約預測Logistic模型、違約概率；貸款違約預測決策樹模型。CONTENTS目錄5.1 Logistic回歸5.1.1 Logistic函數(shù)5.1.2 Logistic回歸模型5.1.3 應用Logistic模型預測銀行貸款違約5.2 決策樹5.2.1 信息增益5.2.2 信息增益率5.2.3 基尼指數(shù)5.2.4 決策樹的剪枝5.2.5 應用決策樹建模預測銀行貸款違約貸款違約預測是風險管理領域常見的問題之一，因變量取違約或者不違約，適合用Logistic回歸或者決策樹方法處理。logistic回歸是一種廣義的線性回歸分析模型，常用于數(shù)據(jù)挖掘，疾病自動診斷，經濟預測等領域。決策樹是一種機器學習的方法，是一種樹形結構，其中每個內部節(jié)點表示一個屬性上的判斷，每個分支代表一個判斷結果的輸出，最后每個葉節(jié)點代表一種分類結果，生成算法有ID3,C4.5和C5.0等。01PARTONE5.1 Logistic回歸Logistic回歸屬于概率型非線性回歸，分為二分類和多分類的回歸模型。對于二分類的Logistic回歸，因變量只有“是、否”兩個取值，記為1和0。假設當自變量為

，

取“是”的概率為

，則取“否”的概率為

。0102035.1 Logistic回歸5.1.1 Logistic函數(shù)5.1.2 Logistic回歸模型5.1.3 應用Logistic模型預測銀行貸款違約5.1.1 Logistic函數(shù)Logistic回歸中因變量取值只有1-0（是或否、發(fā)生或不發(fā)生）。假設自變量

作用下，記

取1的概率是

，取0概率是

。取1和0的概率之比為

，稱為事件的優(yōu)勢比（odds），對odds取自然對數(shù)即得Logistic變換:令

，則

即為Logistic函數(shù)。當

在(0,1)之間變化時，odds的取值范圍是

，則

的取值范圍是

。5.1.2 Logistic回歸模型模型為：因為

的取值范圍是

，因此自變量

可在任意范圍內取值。記

，得到：其中

：在沒有自變量，即

全部取0，

與

發(fā)生概率之比的自然對數(shù)；

：某自變量

變化時，即

與

相比，

優(yōu)勢比的對數(shù)值。5.1.3

案例分析以下是一份銀行貸款違約數(shù)據(jù)（截取部分），擬使用Logistic模型預測銀行貸款違約情況；其中因變量y代表是否違約，是個二分變量，取值為1表示違約，0表示不違約。自變量分別為：x1表示貸款人年齡；x2表示教育水平；x3表示工齡；x4表示貸款人地址；x5表示收入；x6表示負債率；x7表示信用卡負債；x8表示其他負債。5.1.3 案例分析1.準備工作首先引入所需要的包：導入數(shù)據(jù)：將數(shù)據(jù)集隨機劃分為訓練集合測試集，其中訓練集用于模型的訓練，測試集用于檢驗模型：結果分析：

訓練集樣本量：560測試集樣本量：140隨機抽樣設置的訓練集與測試集樣本大致比例為8：2。importnumpyasnpimportpandasaspdimportstatsmodels.apiassmimportstatsmodels.formula.apiassmffilename=r'C:\Users\LENOVO\Desktop\example\Linear22.xlsx'data=pd.read_excel(filename)print(data.head())train=data.sample(frac=0.8,random_state=12345).copy()test=data[~data.index.isin(train.index)].copy()print('訓練集樣本量：%i\n測試集樣本量：%i'%(len(train),len(test)))5.1.3 案例分析2.

單變量Logistic回歸我們首先使用單自變量建立一元Logistic模型，代碼如下：結果分析：可以看到，當僅使用x6進行Logistic回歸時，使用summary可以查看模型的基本信息、參數(shù)估計及檢驗?？梢钥吹絰6的系數(shù)為0.1310，P值顯著。回歸方程為：其中x6代表負債率，代表違約概率。（2）式除以（1）式，

即，負債率越高，每增加一個單位后的違約發(fā)生比是原違約發(fā)生比的1.14倍。其他的單變量也可以類似分析。GeneralizedLinearModelRegressionResults==================================================Dep.Variable:yNo.Observations:560Model:GLMDfResiduals:558ModelFamily:BinomialDfModel:1LinkFunction:logitScale:1.0000Method:IRLSLog-Likelihood:-282.51Date:Wed,30Jun2021Deviance:565.03Time:21:57:20Pearsonchi2:555.No.Iterations:4CovarianceType:nonrobust==================================================coefstderrzP>|z|[0.0250.975]------------------------------------------------------------------------------Intercept-2.50850.216-11.6030.000-2.932-2.085x60.13100.0168.3450.0000.1000.162==================================================formula='''y~x6'''lg=smf.glm(formula=formula,data=train,family=sm.families.Binomial(sm.families.links.logit)).fit()print(lg.summary())5.1.3 案例分析3.

多變量Logistic回歸接下來考慮引入全部自變量的多元Logistic回歸：結果分析：可以看到，x3,x4,x6,x7比較顯著，而其他變量不顯著?？梢詣h除不顯著的變量。也可以使用變量篩選方法：向前法、向后法或逐步法。篩選的原則一般選擇AIC、BIC或者P值。GeneralizedLinearModelRegressionResults==================================================Dep.Variable:yNo.Observations:560Model:GLMDfResiduals:551ModelFamily:BinomialDfModel:8LinkFunction:logitScale:1.0000Method:IRLSLog-Likelihood:-227.13Date:Thu,01Jul2021Deviance:454.27Time:15:25:37Pearsonchi2:559.No.Iterations:6CovarianceType:nonrobust==================================================coefstderrzP>|z|[0.0250.975]------------------------------------------------------------------------------Intercept-1.25290.686-1.8260.068-2.5970.092x10.01380.0200.7010.483-0.0250.053x20.14420.1341.0740.283-0.1190.407x3-0.22870.035-6.4530.000-0.298-0.159x4-0.08780.025-3.4530.001-0.138-0.038x5-0.00650.008-0.8070.420-0.0220.009x60.07260.0322.2480.0250.0090.136x70.55070.1174.7110.0000.3220.780x80.05340.0790.6790.497-0.1010.207==================================================formula='''y~x1+x2+x3+x4+x5+x6+x7+x8'''lg_m=smf.glm(formula=formula,data=train,family=sm.families.Binomial(sm.families.links.logit)).fit()print(lg_m.summary())5.1.3 案例分析4.

逐步回歸下面使用向前法進行逐步回歸，代碼如右：defforward_select(data,response):remaining=set(data.columns)remaining.remove(response)selected=[]current_score,best_new_score=float('inf'),float('inf')whileremaining:aic_with_candidates=[]forcandidateinremaining:formula="{}~{}".format(response,'+'.join(selected+[candidate]))aic=smf.glm(formula=formula,data=data,family=sm.families.Binomial(sm.families.links.logit)).fit().aicaic_with_candidates.append((aic,candidate))aic_with_candidates.sort(reverse=True)best_new_score,best_candidate=aic_with_candidates.pop()ifcurrent_score>best_new_score:remaining.remove(best_candidate)selected.append(best_candidate)current_score=best_new_scoreprint('aicis{},continuing!'.format(current_score))else:print('forwardselectionover!')breakformula="{}~{}".format(response,'+'.join(selected))print('finalformulais{}'.format(formula))model=smf.glm(formula=formula,data=data,family=sm.families.Binomial(sm.families.links.logit)).fit()return(model)candidates=['y',"x1",'x2','x3','x4','x5','x6','x7','x8']data_for_select=train[candidates]lg_m1=forward_select(data=data_for_select,response='y')print(lg_m1.summary())5.1.3 案例分析4.

逐步回歸結果分析：aicis569.0270696141556,continuing!aicis520.5990422729102,continuing!aicis478.56644475676023,continuing!aicis466.5141907846284,continuing!forwardselectionover!finalformulaisy~x6+x3+x7+x4可以看到，不顯著的變量已經被自動刪除了。變量篩選有時候還需要結合對業(yè)務的理解。對于回歸方程及系數(shù)的解釋，類似于一元Logistic回歸。GeneralizedLinearModelRegressionResults===========================================Dep.Variable:yNo.Observations:560Model:GLMDfResiduals:555ModelFamily:BinomialDfModel:4LinkFunction:logitScale:1.0000Method:IRLSLog-Likelihood:228.26Date:Thu,01Jul2021Deviance:456.51Time:15:22:15Pearsonchi2:536.No.Iterations:6CovarianceType:nonrobust===========================================coefstderrzP>|z|[0.0250.975]-------------------------------------------------------------------------Intercept-0.84710.275-3.0820.002-1.386-0.308x60.08840.0204.3330.0000.0480.128x3-0.22700.031-7.3820.000-0.287-0.167x70.52500.0915.7520.0000.3460.704x4-0.07690.021-3.5790.000-0.119-0.035-------------------------------------------------------------------------5.1.3 案例分析5.

模型判斷接下來，可以預測，輸出違約概率：結果分析：50.221121230.114302290.496134320.282920340.079916Name:proba,dtype:float64。train['proba']=lg_m1.predict(train)test['proba']=lg_m1.predict(test)print(test['proba'].head())計算模型的準確性如下：test['prediction']=(test['proba']>0.5).astype('int')acc=sum(test['prediction']==test['y'])/np.float(len(test))print('Theaccurancyis%.2f'%acc)結果如下：Theaccurancyis0.83。02PARTTWO5.2 決策樹決策樹屬于經典的十大數(shù)據(jù)挖掘算法之一，利用像樹一樣的圖形或決策模型來輔助決策，可以用于數(shù)值型因變量的預測和離散型因變量的分類，在分類、預測、規(guī)則提取等領域有廣泛應用。決策樹是一樹狀結構，它的每一個葉節(jié)點對應著一個分類，非葉節(jié)點對應著在某個屬性上的劃分，根據(jù)樣本在該屬性上的不同取值將其劃分成若干個子集。對于非純的葉節(jié)點，多數(shù)類的標號給出到達這個節(jié)點的樣本所屬的類。常用的有兩類決策樹：Quinlan系列決策樹和CART決策樹。前者涉及ID3算法及C4.5算法。步驟總體概括為建樹和剪樹。建樹的關鍵是選擇最有解釋力度的變量，對每個變量選擇最優(yōu)的分割點?？梢允褂眯畔⒃鲆?、信息增益率和基尼指數(shù)來挑選。剪樹用于控制樹的生成規(guī)模。020304055.2 決策樹5.2.2 信息增益率5.2.3 基尼指數(shù)5.2.4 決策樹的剪枝5.2.5 案例分析015.2.1 信息增益5.2.1 信息增益熵的概念：熵用來表示信息量的大小。信息量越大（分類越不“純凈”），對應的熵值就越大。信息熵的計算公式如下：

，

表示隨機變量

中的水平個數(shù)，

表示隨機變量

的水平

的概率。信息熵反映的是某個事件所有可能值的熵和，可以衡量其純凈程度。

的水平較少、混亂程度較低時，信息熵較小；反之則較大。在實際應用中，會將概率

的值用經驗概率替換，所以經驗信息熵可以表示為：其中，

表示事件中的所有樣本點，

表示事件的第k個可能值出現(xiàn)的次數(shù)，所以商值

表示第k個可能值出現(xiàn)的頻率。5.2.1 信息增益如果需要基于其他事件計算某個事件的熵，就稱為條件熵。

J表示變量A的某個水平，m表示A的水平個數(shù)，

表示D被A的j水平所分割的觀測數(shù)；D表示隨機變量D的觀測總數(shù)。

表示隨機變量D在A的j水平分割下的信息熵。則信息增益定義為：對于已知的事件A來說，事件D的信息增益就是D的信息熵與A事件下D的條件熵之差，事件A對事件D的影響越大，條件熵H(D|A)就會越?。ㄔ谑录嗀的影響下，事件D被劃分得越“純凈”），在根節(jié)點或中間節(jié)點的變量選擇過程中，就是挑選出各自變量下因變量的信息增益最大的。5.2.2 信息增益率決策樹中的ID3算法使用信息增益指標實現(xiàn)根節(jié)點或中間節(jié)點的字段選擇，但是該指標存在一個非常明顯的缺點，即信息增益會偏向于取值較多的字段，且輸入變量必須是分類變量（連續(xù)變量必須離散化）。C4.5算法對這兩個缺點進行了改進，將信息增益改為信息增益率，且對連續(xù)變量進行自動離散化。信息增益率在信息增益的基礎上進行相應的懲罰。公式為：其中

為事件A的信息熵。事件A的取值越多，

可能越大，但同時

也會越大，這樣以商的形式就實現(xiàn)了

的懲罰。如果用于分類的數(shù)據(jù)集中各離散型自變量的取值個數(shù)沒有太大差異，那么信息增益指標與信息增益率指標在選擇變量過程中并沒有太大的差異。5.2.3基尼指數(shù)ID3算法與C4.5算法都只能針對離散型因變量進行分類，對于連續(xù)型的因變量就顯得束手無策了。為了能夠讓決策樹預測連續(xù)型的因變量，Breiman等人在1984年提出了CART算法，該算法也稱為分類回歸樹，它所使用的字段選擇指標是基尼指數(shù)。公式為：其中，

表示某事件第k個可能值的發(fā)生概率，該概率可以使用經驗概率表示，即：

表示頻率。5.2.3基尼指數(shù)在引入某個用于分割的待選自變量后（假設分割后的樣本量分別為S1和S2），則分割后的基尼系數(shù)為：S1和S2表示劃分成兩類的樣本量，

和

表示劃分成兩類各自的基尼系數(shù)值。CART算法采用基尼系數(shù)的減少測度異質性下降的程度，在所有分割中基尼系數(shù)減少最多的用于構建當前分割。ID3和C4.5都屬于多分支的決策樹，CART則是二分支的決策樹，在樹生長完成后，最終根據(jù)葉節(jié)點中的樣本數(shù)據(jù)決定預測結果。對于離散型的分類問題而言，葉節(jié)點中哪一類樣本量最多，則該葉節(jié)點就代表了哪一類；對于數(shù)值型的預測問題，則將葉節(jié)點中的樣本均值作為該節(jié)點的預測值。CART運行效率優(yōu)于C4.5算法。Python中的sklearn模塊選擇了一個較優(yōu)的決策樹算法，即CART算法，它既可以處理離散型的分類問題（分類決策樹），也可解決連續(xù)型的預測問題（回歸決策樹）。這兩種樹分別對應DecisionTreeClassifier類和DecisionTreeRegressor類。5.2.4決策樹的剪枝決策樹的剪枝通常有兩類方法，一類是預剪枝，另一類是后剪枝。預剪枝很好理解，就是在樹的生長過程中就對其進行必要的剪枝，例如控制決策樹生長的最大深度，即決策樹的層數(shù)；控制決策樹中父節(jié)點和子節(jié)點的最少樣本量或比例；后剪枝相對來說要復雜很多，它是指決策樹在得到充分生長的前提下再對其返工修剪。常用的方法有計算結點中目標變量預測精度或誤差；綜合考慮誤差與復雜度進行剪樹。5.2.5 案例分析同樣使用上一節(jié)的銀行貸款違約數(shù)據(jù)，解釋同上。我們擬采用決策樹建模，首先引入所需要的包：讀取數(shù)據(jù)并輸出：輸出結果如下（部分數(shù)據(jù)）：

yx1x2x3x4x5x6x7x80141317121769.311.365.01102711063117.31.364.00204011514555.50.862.173041115141202.92.660.8241242202817.31.793.06importnumpyasnpimportpandasaspdimportstatsmodels.apiassmimportmatplotlib.pyplotaspltfilename=r'C:\Users\LENOVO\Desktop\example\Linear22.xlsx'data1=pd.read_excel(filename)print(data1.head())其中因變量y代表是否違約，是個二分變量，取值為1表示違約，0表示不違約。自變量分別為：x1表示貸款人年齡；x2表示教育水平；x3表示工齡；x4表示貸款人地址；x5表示收入；x6表示負債率；x7表示信用卡負債；x8表示其他負債。5.2.5 案例分析從數(shù)據(jù)集提取自變量和因變量：使用scikit-learn將數(shù)據(jù)集劃分為訓練集和測試集：接下來，我們建立一個決策樹，使用訓練集進行訓練：data1.columns=['y','x1','x2','x3','x4','x5','x6','x7','x8']target=data1['y']#生成因變量data=sm.add_constant(data1.iloc[:,1:])#生成自變量fromsklearn.model_selectionimporttrain_test_splittrain_data,test_data,train_target,test_target=train_test_split(data,target,test_size=0.2,train_size=0.8,random_state=1234)fromsklearn.treeimportDecisionTreeClassifierclf=DecisionTreeClassifier(criterion='gini',max_depth=3,class_weight=None,random_state=1234)clf.fit(train_data,train_target)其中criterion=’gini’表示采用基尼系數(shù)作為樹生長的判斷依據(jù)；max_depth表示樹的最大深度為3；class_weight=None表示每一類標簽的權重是相等的；random_state表示隨機數(shù)種子，可以設置為任意正整數(shù)。設定后，隨機數(shù)也確定了，可以重現(xiàn)每次結果，避免因為隨機數(shù)不同而產生不同的模型結果。5.2.5 案例分析用測試集進行評估，輸出評估報告：結果如下：

precisionrecallf1-scoresupport0

0.83

0.930.881071

0.65

0.390.4933accuracy

0.81

140macroavg0.74

0.660.69140weightedavg0.79

0.810.79140可以看到模型的f1-score當因變量為1（違約）時為0.49,，為0（不違約）時為0.88，平均為0.69。靈敏度recall分別為0.39、0.93、0.66，模型識別能力還可以。importsklearn.metricsasmetricsprint(metrics.classification_report(test_target,clf.predict(test_data)))clf.set_params(**{'class_weight':{0:1,1:3}})clf.fit(train_data,train_target)print(metrics.classification_report(test_target,clf.predict(test_data)))如果對因變量標簽設置不同的權重，結果會有所改變。權重相等時違約的預測準確率較低，考慮到違約用戶帶來的

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《Python經濟大數(shù)據(jù)分析》Python應用貸款違約預測

文檔簡介

溫馨提示

最新文檔

評論

《Python經濟大數(shù)據(jù)分析》Python應用貸款違約預測

文檔簡介

溫馨提示

最新文檔

評論

相關文檔