PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 7.2 數(shù)據(jù)探索_第1頁
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 7.2 數(shù)據(jù)探索_第2頁
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 7.2 數(shù)據(jù)探索_第3頁
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 7.2 數(shù)據(jù)探索_第4頁
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 7.2 數(shù)據(jù)探索_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)探索數(shù)據(jù)探索分析,了解數(shù)據(jù)的整體情況并檢測異常值,通過作圖、制表和計算特征量等手段探索用戶數(shù)據(jù)中的結(jié)構(gòu)和規(guī)律。探索性數(shù)據(jù)分析能夠理解數(shù)據(jù)的含義、理解數(shù)據(jù)結(jié)構(gòu),發(fā)現(xiàn)異常值、篩查數(shù)據(jù),便于后續(xù)的數(shù)據(jù)合并、清洗和整理,有助于將業(yè)務(wù)問題轉(zhuǎn)化為可行的數(shù)據(jù)分析問題,有利于結(jié)合行業(yè)背景選擇合適的數(shù)據(jù)分析方法。數(shù)據(jù)探索1建立數(shù)據(jù)倉庫并導(dǎo)入數(shù)據(jù)目錄數(shù)據(jù)說明2用戶信息完善情況與逾期率關(guān)系探索3分析用戶信息修改情況與逾期率的關(guān)系4分析用戶借款月份與逾期率的關(guān)系5銀行提供的信息(csv文件)用戶登錄信息:訓(xùn)練數(shù)據(jù)文件(Training_LogInfo.csv)和測試數(shù)據(jù)文件(Test_LogInfo.csv)用戶基本信息:訓(xùn)練數(shù)據(jù)文件(Training_Master.csv)和測試數(shù)據(jù)文件(Test_Master.csv)用戶更新信息:訓(xùn)練數(shù)據(jù)文件(Training_UserUpdate.csv)和測試數(shù)據(jù)文件(Test_UserUpdate.csv)數(shù)據(jù)說明用戶登錄信息數(shù)據(jù),記錄了用戶登錄平臺時的信息訓(xùn)練數(shù)據(jù)文件(Training_LogInfo.csv)測試數(shù)據(jù)文件(Test_LogInfo.csv)。用戶登錄信息文件共包含5個字段用戶登錄信息名稱說明是否含有缺失值Idx用戶唯一標(biāo)識否ListingInfo借款成交時間否LogInfo1用戶登錄操作代碼否LogInfo2用戶登錄操作類別否LogInfo3用戶登錄時間否用戶基本信息數(shù)據(jù),記錄了用戶的基本信息訓(xùn)練數(shù)據(jù)文件(Training_Master.csv)測試數(shù)據(jù)文件(Test_Master.csv和Test_Master_result.csv)其中兩份測試數(shù)據(jù)文件字段的交集等于訓(xùn)練數(shù)據(jù)文件的字段用戶基本信息用戶基本信息文件共109個字段,用戶唯一標(biāo)識、用戶信息(包含用戶基本信息、學(xué)歷信息、網(wǎng)頁登錄信息、社交網(wǎng)絡(luò)信息和第三方平臺信息共5組信息)、是否逾期標(biāo)識、借款成交時間用戶基本信息名稱說明是否含有缺失值Idx用戶唯一標(biāo)識否UserInfo_i用戶基本信息是Education_Info_i用戶學(xué)歷信息是WeblogInfo_i用戶網(wǎng)頁登錄信息是SocalNetwork_i用戶社交網(wǎng)絡(luò)信息是target用戶是否逾期否ListingInfo借款成交時間否用戶更新信息數(shù)據(jù)文件記錄了用戶的更新信息訓(xùn)練數(shù)據(jù)文件(Training_UserUpdate.csv)測試數(shù)據(jù)文件(Test_UserUpdate.csv)用戶更新信息數(shù)據(jù)文件共4個字段,包含用戶標(biāo)識、借款成交時間、用戶更新信息內(nèi)容和更新信息時間用戶更新信息名稱說明是否含有缺失值Idx用戶唯一標(biāo)識否ListingInfo借款成交時間否UserUpdateInfo_1用戶更新信息內(nèi)容否UserUpdateInfo_2用戶更新信息時間否1建立數(shù)據(jù)倉庫并導(dǎo)入數(shù)據(jù)目錄數(shù)據(jù)說明2用戶信息完善情況與逾期率關(guān)系探索3分析用戶信息修改情況與逾期率的關(guān)系4分析用戶借款月份與逾期率的關(guān)系5為了方便后續(xù)使用PySpark讀取數(shù)據(jù),需將CSV文件中的數(shù)據(jù)進(jìn)行預(yù)處理將CSV數(shù)據(jù)導(dǎo)入Hive表中合并訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)對字段名稱進(jìn)行小寫處理啟動Jupyter并新建JupyterNotebook文件,將文件命名為bcl_initialize建立數(shù)據(jù)倉庫并導(dǎo)入數(shù)據(jù)將數(shù)據(jù)導(dǎo)入Hive數(shù)據(jù)表中在Hive中新建數(shù)據(jù)庫,按照CSV文件的數(shù)據(jù)字段內(nèi)容定義Hive表將數(shù)據(jù)導(dǎo)入Hive表中。在Hive中新建數(shù)據(jù)庫bclcredit,以Training_LogInfo.csv數(shù)據(jù)為例,根據(jù)Training_LogInfo.csv的數(shù)據(jù)結(jié)構(gòu),在credit數(shù)據(jù)庫中創(chuàng)建對應(yīng)的表loginfo_train(代碼7-1)新建Hive表并導(dǎo)入數(shù)據(jù)(方法一)在Hive中創(chuàng)建表再導(dǎo)入數(shù)據(jù),過程比較繁瑣且容易出錯,尤其是當(dāng)CSV文件中包含的字段較多時(如Training_Master.csv文件包含了109個字段),在建表和導(dǎo)入數(shù)據(jù)的過程中更容易出錯。選擇采用PySpark中的DataFrame編程模型保存CSV文件的數(shù)據(jù),再通過write()方法直接保存至Hive表中,效率高且不易出錯。(代碼7-2)在Hive命令行窗口中創(chuàng)建數(shù)據(jù)庫bclcredits;導(dǎo)入SparkSession包,創(chuàng)建SparkSession對象,創(chuàng)建對象時需要啟用對Hive的支持(enableHiveSupport)建立字典變量設(shè)置CSV文件與Hive中表名的對應(yīng)關(guān)系,其中key為CSV文件名,value為Hive中的表名對文件中的各個字段名稱進(jìn)行小寫處理(便于后續(xù)程序通過字段名稱引用Hive中各個字段的數(shù)據(jù))新建Hive表并導(dǎo)入數(shù)據(jù)(方法二)后續(xù)數(shù)據(jù)分析過程需要先對數(shù)據(jù)進(jìn)行清理、標(biāo)準(zhǔn)化等預(yù)處理需要將用戶基本信息的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進(jìn)行合并,以便統(tǒng)一進(jìn)行數(shù)據(jù)清理和標(biāo)準(zhǔn)化處理用戶基本信息數(shù)據(jù)對應(yīng)的3張表,將用戶基本信息相關(guān)的3張表進(jìn)行合并(代碼7-3)合并訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)表名備注masterinfo_train用于訓(xùn)練的用戶基本信息數(shù)據(jù),包含108個特征字段,1個用戶標(biāo)簽字段labelmasterinfo_test用于測試的用戶基本信息數(shù)據(jù),包含108個特征字段test_master_result測試用戶信息數(shù)據(jù)中用戶的標(biāo)簽字段target,該表需要和表masterinfo_test合并1建立數(shù)據(jù)倉庫并導(dǎo)入數(shù)據(jù)目錄數(shù)據(jù)說明2用戶信息完善情況與逾期率關(guān)系探索3分析用戶信息修改情況與逾期率的關(guān)系4分析用戶借款月份與逾期率的關(guān)系5在征信領(lǐng)域中,用戶信息的完善程度可能會影響該用戶的信用評級。一個信息完善程度為100%的用戶比完善程度為50%的用戶,具有更強(qiáng)的還款意愿。對用戶信息表中的用戶信息的完整程度進(jìn)行統(tǒng)計,分析用戶信息完善程度與用戶信用評級之間的關(guān)系。通過對用戶基本信息數(shù)據(jù)進(jìn)行探索,尋找影響用戶逾期還款的重要因素。目標(biāo)數(shù)據(jù):masterInfo表中數(shù)據(jù)用戶信息完善情況與逾期率的關(guān)系探索從Hive中加載數(shù)據(jù)(代碼7-4)統(tǒng)計分析遍歷所有用戶記錄,統(tǒng)計每位用戶信息的缺失情況(代碼7-5)繪制用戶缺失信息柱形圖(代碼7-6)用戶信息完善情況與逾期率的關(guān)系探索數(shù)據(jù)探索分析用戶信息缺失程度大致分為3類,根據(jù)用戶信息缺失信息圖,發(fā)現(xiàn)用戶缺失信息的數(shù)量集中在2~10之間,可將用戶信息缺失程度大致分為3類,即缺失信息數(shù)量分別在[2,4]、[5,7]、[8,10]之間的3類用戶群體,探索這3類群體的逾期還款的比例繪制用戶分類統(tǒng)計柱形圖用戶信息完善情況與逾期率的關(guān)系探索1建立數(shù)據(jù)倉庫并導(dǎo)入數(shù)據(jù)目錄數(shù)據(jù)說明2用戶信息完善情況與逾期率關(guān)系探索3分析用戶信息修改情況與逾期率的關(guān)系4分析用戶借款月份與逾期率的關(guān)系5在征信領(lǐng)域中,信息修改操作頻率同樣會影響用戶信用評級。本小節(jié)將對所有借款用戶的更新信息日期和借款成交日期的分布情況進(jìn)行分析,探索用戶信息修改情況與逾期率的關(guān)系目標(biāo)數(shù)據(jù):表userupdate_test和表userupdate_train中數(shù)據(jù)從Hive中加載數(shù)據(jù)統(tǒng)計分析數(shù)據(jù)探索分析用戶信息修改情況與逾期率的關(guān)系探索從Hive中加載數(shù)據(jù)(代碼7-9)統(tǒng)計分析(代碼7-10)用戶信息更新次數(shù)統(tǒng)計,對用戶在同一天對信息的修改可以視為一次修改userupdate_test和表userupdate_train數(shù)據(jù)去重統(tǒng)計結(jié)果與用戶信息數(shù)據(jù)進(jìn)行合并用戶信息修改情況與逾期率的關(guān)系探索數(shù)據(jù)探索分析信息修改次數(shù)與逾期率之間的關(guān)系(代碼7-11)用戶信息修改情況與逾期率的關(guān)系探索數(shù)據(jù)探索分析繪制用戶修改信息次數(shù)與逾期率柱形圖(代碼7-12)用戶信息修改情況與逾期率的關(guān)系探索1建立數(shù)據(jù)倉庫并導(dǎo)入數(shù)據(jù)目錄數(shù)據(jù)說明2用戶信息完善情況與逾期率關(guān)系探索3分析用戶信息修改情況與逾期率的關(guān)系4分析用戶借款月份與逾期率的關(guān)系5考慮到不同時期,用戶的資金狀況(如過年資金緊張等)可能會影響用戶的貸款行為,某些用戶為了應(yīng)對資金壓力而轉(zhuǎn)向網(wǎng)絡(luò)貸款。因此,需要根據(jù)用戶基本信息中的借款月份進(jìn)行探索性分析。目標(biāo)數(shù)據(jù):masterInfo表中數(shù)據(jù)提取日期字段中的月份信息統(tǒng)計不同月份中借款逾期率用戶借款月份與逾期率的關(guān)系探索從Hive中加載數(shù)據(jù)從masterInfo表的linstinginfo字段提取用戶借款成交時間的日、周和月,并按月份統(tǒng)計數(shù)據(jù)(代碼7-14)統(tǒng)計分析統(tǒng)計不同月份中借款逾期率(代碼7-15)用戶借款月份與逾期率的關(guān)系探索數(shù)據(jù)探索分析繪制借款月份和逾期率柱形圖(代碼7-16)分析結(jié)果3、4、5、11、12月份用戶逾期還款的概率明顯高于其他月份。結(jié)合中國傳統(tǒng)節(jié)日,發(fā)現(xiàn)用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論