




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
信用違約預測通過本章學習可以,你將能夠:了解信用違約預測分析的基本流程;了解邏輯回歸和隨機森林算法在實際業(yè)務應用中的方法;能夠提升采用隨機森林算法解決實際問題的能力。學習目標案例背景介紹數(shù)據預處理模型訓練信用風險已經成為了今年金融市場的重要主題之一,銀行作為貸方,隨時都面臨著借貸者違約的風險。傳統(tǒng)的專家規(guī)則在金融科技時代逐漸過時,機器學習和金融業(yè)務的交叉也延伸到信貸領域。違約預測就是其中一重要應用。本案例基于信貸業(yè)務場景中一個月內的抽樣數(shù)據,數(shù)據集有34個維度,Target表示客戶在接下來一個月是否有違約。模型生成后可使用當前月的數(shù)據預測接下來一個月客戶是否會違約。案例背景數(shù)據集來源于開源數(shù)據集,主要包含用戶的基礎信息、資產信息和信用征信息等,共計34個維度。最終的目標是對用戶是否違約進行預測。數(shù)據集介紹違約預測只有違約和沒有預約兩種結果,是個二分類問題。針對二分類問題,可使用的算法有邏輯斯諦回歸、樸素貝葉斯、支持向量機、樹模型等??紤]到實驗的完整性和實用性,本案例選用業(yè)界常用的邏輯斯諦回歸(廣義線性模型)和隨機森林(集成樹模型)來做對比。考慮到樣本極度不均衡,模型評價選用綜合指標f1_score。方案介紹本實驗在python3-jupyter環(huán)境下完成,同時需要安裝seaborn和imblearn:seaborn:基于matplotlib的高級APIimblearn:處理樣本不均衡問題的第三方庫使用pip安裝命令如下:pipinstallseabornpipinstallimblearn實驗環(huán)境準備數(shù)據挖掘流程整體數(shù)據挖掘流程分為如下幾步:案例背景介紹數(shù)據預處理模型訓練數(shù)據預處理
–讀取數(shù)據##讀取數(shù)據importpandasaspdimportnumpyasnpImport
warningswarnings.filterwarnings("ignore")df=pd.read_csv('D:/credit_default/dataset.csv',encoding='utf-8')df.head()數(shù)據預處理–
相關性分析#統(tǒng)計各特征的缺失率df_missing_stat=pd.DataFrame(df.isnull().sum()/df.shape[0],
columns=['missing_rate']).reset_index()df_missing_stat.sort_values(by='missing_rate',
ascending=False)[:15]數(shù)據預處理–
缺失值處理配偶年收入箱圖數(shù)據預處理–
數(shù)據洞察(1)配偶月均收入箱圖數(shù)據預處理–數(shù)據洞察(2)中位數(shù)填補缺失值中位數(shù)填補異常值數(shù)據預處理–異常值處理將數(shù)據集作9:1的切分(傳統(tǒng)的使用二八分或者三七分,但此處樣本量有5959條,測試集保留500多條就可以評價模型),訓練集共5259條負樣本,104條正樣本;測試集共584條負樣本,12條正樣本。數(shù)據預處理–數(shù)據集拆分引入相關庫并對輸入作標準化#引入StandardScaler標準化工具庫fromsklearn.preprocessingimportStandardScalerfromsklearn.model_selectionimportStratifiedKFold,StratifiedShuffleSplit#分層分割fromsklearn.metricsimportmake_scorer,fbeta_score,recall_score,f1_score#對訓練集和測試集做標準化std_scaler=StandardScaler().fit(df_after_dummy[x_cols])X_train_std=std_scaler.transform(X_train)X_test_std=std_scaler.transform(X_test)數(shù)據預處理–標準化案例背景介紹數(shù)據預處理模型訓練及優(yōu)化使用sklearn.linear_model.LogisticRegression分類器,優(yōu)化算法選用雙線性訓練數(shù)據,并設置最大迭代次數(shù)為500。使用LogisticRegression建模對正樣本過采樣LogisticRegression優(yōu)化(1)LogisticRegression中可調的參數(shù)有正則化系數(shù)(C)、正則化系數(shù)(penalty)、優(yōu)化算法(solver)、類型權重參數(shù)(class_weight)、樣本權重參數(shù)(sample_weight)等。這里調節(jié)常用的C和solver兩個參數(shù),使用網格搜索法。LogisticRegression優(yōu)化(2)在測試集上的效果輸出如下結果從模型在訓練集和測試集上的表現(xiàn)看,測試集的f1得分為0.19,比訓練集上低了,模型出現(xiàn)過擬合,初步推斷,一部分是特征比較少、數(shù)據量不足導致的,特別是過抽樣會加大過擬合風險。如果需要提升模型性能需要進一步增加樣本、嘗試其他算法來擬合數(shù)據。下面嘗試使用隨機森林。LogisticRegression評估使用RandomForest建模先初始化幾個參數(shù)擬合嘗試下RandomForest優(yōu)化對n_estimators進行搜索輸出如下結果:模型持久化對最優(yōu)模型進行保存輸出如下結果:本實驗主要學習了使用Python進行數(shù)據預處理、數(shù)據分析,使用seaborn做可視化分析,使用SM
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年細胞治療產品臨床試驗法規(guī)解讀與審批流程報告
- 海上風能資源評估報告2025年深遠海風電發(fā)展規(guī)劃海上風電場經濟效益分析
- 茶與咖啡的跨界融合:2025年市場發(fā)展趨勢與品牌競爭力研究報告
- 城市自來水廠升級改造2025年環(huán)境友好型技術應用報告
- 2025年智能倉儲貨架制造項目智能控制系統(tǒng)研發(fā)報告
- 物聯(lián)網設備安全漏洞防護策略深度剖析:2025年技術標準解讀報告001
- 2025年醫(yī)院信息化建設電子病歷系統(tǒng)優(yōu)化策略研究報告
- 2025年醫(yī)院電子病歷系統(tǒng)優(yōu)化在醫(yī)院信息化建設中的數(shù)據安全防護機制研究報告
- 2025年城市地下綜合管廊建設專項債券資金申請財務分析報告
- 2025年醫(yī)藥行業(yè)CRO研發(fā)外包模式下的研發(fā)項目管理培訓與咨詢報告
- 內江市市中區(qū)2025屆小升初必考題數(shù)學檢測卷含解析
- CNAS-CI01:2012 檢查機構能力認可準則
- 《國有企業(yè)改革與發(fā)展》課件
- 本地生活服務培訓
- 心理咨詢師考試實務能力考核試題及答案
- 高中音樂課程綱要
- 輸血相關法律法規(guī)及流程
- “五育”融合背景下小學數(shù)學教學策略探究
- 2025部編版二年級(下)期末測試語文試卷(附答案)
- 低空具身智能頻譜管控的研究
- 2025年天津市專業(yè)人員繼續(xù)教育試題及答案3
評論
0/150
提交評論