第13章 實(shí)戰(zhàn)案例-鉆石數(shù)據(jù)分析與預(yù)測_第1頁
第13章 實(shí)戰(zhàn)案例-鉆石數(shù)據(jù)分析與預(yù)測_第2頁
第13章 實(shí)戰(zhàn)案例-鉆石數(shù)據(jù)分析與預(yù)測_第3頁
第13章 實(shí)戰(zhàn)案例-鉆石數(shù)據(jù)分析與預(yù)測_第4頁
第13章 實(shí)戰(zhàn)案例-鉆石數(shù)據(jù)分析與預(yù)測_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

主講人:***第13章鉆石數(shù)據(jù)分析與預(yù)測13-10月-23Python數(shù)據(jù)分析與數(shù)據(jù)挖掘目錄contents案例背景0102數(shù)據(jù)加載和預(yù)處理03探索性數(shù)據(jù)分析04回歸模型預(yù)測05小結(jié)案例背景0113.1案例背景

鉆石是由透明無色的純碳晶體構(gòu)成的寶石,是人類已知的最堅(jiān)硬的寶石,只能被其他鉆石刮擦。由于鉆石儲量稀少、加工過程復(fù)雜,導(dǎo)致鉆石價(jià)格昂貴。Diamonds數(shù)據(jù)集是一個(gè)經(jīng)典的回歸分析數(shù)據(jù)集,我們可以從kaggle的官網(wǎng)下載,網(wǎng)址為:/shivam2503/diamonds。diamonds.csv數(shù)據(jù)集包含了近54000顆鉆石的價(jià)格和其他屬性。數(shù)據(jù)集的目標(biāo)列為鉆石的價(jià)格price,另外包括9個(gè)屬性,包括克拉carat、切割cut、顏色color、透明度clarity、鉆石的深度比例depth、鉆石的桌面比例table、以毫米為單位的鉆石的長x、寬y、高z。13.1案例背景

數(shù)據(jù)集中的屬性特征:(1)price(目標(biāo)列,以美元為單位的鉆石價(jià)格,取值范圍:$326--$18,823);(2)carat(鉆石重量,取值范圍:0.2--5.01);(3)cut(鉆石切割質(zhì)量,取值范圍:Fair,Good,VeryGood,Premium,Ideal);(4)color(鉆石的顏色,從J到D,分別代表從最差到最佳);(5)clarity(鉆石的透明度的指標(biāo),取值為I1,SI2,SI1,VS2,VS1,VVS2,VVS1,IF,分別代表最差到最佳);(6)x(鉆石的長度,取值范圍為0--10.74毫米);(7)y(鉆石的寬度,取值范圍為0--58.9毫米);(8)z(鉆石的深度,取值范圍為0--31.8毫米);(9)depth(總深度百分比,定義為:depth=z/mean(x,y)=2*z/(x+y)(43--79));(10)table(相對于最寬點(diǎn)的菱形頂部寬度,取值范圍:43--95)。本案例的目的是要用鉆石的重量、切割質(zhì)量、顏色等屬性預(yù)測鉆石價(jià)格。數(shù)據(jù)加載和預(yù)處理0213.2數(shù)據(jù)加載和預(yù)處理1、加載需要的庫及讀入數(shù)據(jù)13.2數(shù)據(jù)加載和預(yù)處理2、數(shù)據(jù)信息初步分析結(jié)果:通過以上對數(shù)據(jù)的初步分析可知,數(shù)據(jù)集中共有53940行,11列。索引列Unnamed:0為int64類型,carat、depth、table、x、y、z列和目標(biāo)列price為float64類型,cut、color和clarity列為object類型,數(shù)據(jù)集中各列均沒有空值。13.2.3數(shù)據(jù)預(yù)處理

通過對數(shù)據(jù)的初步分析可知,鉆石數(shù)據(jù)集首列Unnamed:0是為數(shù)據(jù)加的索引列,對鉆石的價(jià)格預(yù)測不起作用,因此將該列從數(shù)據(jù)中刪除,語句如下:1、去掉不需要的列13.2.3數(shù)據(jù)預(yù)處理

檢查數(shù)據(jù)集中是否有缺失值,并進(jìn)行相應(yīng)處理:2、缺失值處理13.2.3數(shù)據(jù)預(yù)處理

離群點(diǎn)(outlier)是指數(shù)據(jù)中和其他觀測點(diǎn)偏離非常大的數(shù)據(jù)點(diǎn)。離群點(diǎn)是異常的數(shù)據(jù)點(diǎn),但不一定是錯(cuò)誤的數(shù)據(jù)點(diǎn)。離群點(diǎn)可能會對數(shù)據(jù)分析、數(shù)據(jù)建模等工作帶來不利的影響,例如,增大錯(cuò)誤方差、影響預(yù)測和影響數(shù)據(jù)正態(tài)性等,GBDT等模型對異常值很敏感。因此,離群點(diǎn)(outlier)是數(shù)據(jù)預(yù)處理的重要環(huán)節(jié)。可以采用對數(shù)據(jù)繪制散點(diǎn)圖、箱線圖等方式檢測離群點(diǎn)。3、離群點(diǎn)檢測及處理13.2.3數(shù)據(jù)預(yù)處理

通過箱線圖、散點(diǎn)圖和回歸關(guān)系圖的分析,發(fā)現(xiàn)數(shù)值型列depth、table、y和z中存在比較明顯的離群點(diǎn),可以用下面的語句刪去數(shù)據(jù)集中的離群點(diǎn)。3、離群點(diǎn)檢測及處理刪除離群點(diǎn)后,數(shù)據(jù)集的維度由(53920,10)變?yōu)?53907,10),說明有13條數(shù)據(jù)被刪除。13.2.3數(shù)據(jù)預(yù)處理

本例將采用多種回歸模型對鉆石價(jià)格price進(jìn)行預(yù)測,因此,需要將類別特征進(jìn)行編碼處理,轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。類別特征(categorical)是包含標(biāo)簽值而非數(shù)值的列,列的取值通常為一個(gè)固定的集合。類別特征也可稱為分類變量或名義變量。許多機(jī)器學(xué)習(xí)算法不能直接對類別特征進(jìn)行處理,它們要求所有輸入變量和輸出變量都是數(shù)值型變量,此時(shí)需要對類別特征進(jìn)行處理,將其轉(zhuǎn)換為數(shù)值類型。如果類別特征是輸出變量,可能還需要將模型的數(shù)值型預(yù)測結(jié)果轉(zhuǎn)換為類別形式,以便在某些應(yīng)用中顯示或使用結(jié)果。

4、類別特征的處理本例中,我們首先將數(shù)據(jù)df復(fù)制到label_df中,避免更改原始數(shù)據(jù),然后采用標(biāo)簽編碼方式對類別變量進(jìn)行編碼,轉(zhuǎn)換為數(shù)值型,轉(zhuǎn)換后label_df中所有列均為數(shù)值型。探索性數(shù)據(jù)分析03首先查看各個(gè)類別特征中數(shù)據(jù)的分布情況。13.3.1類別特征分析將使用seaborn的displot函數(shù),對鉆石數(shù)據(jù)集中的數(shù)值型特征carat、depth、table、x、y、z列和目標(biāo)列price進(jìn)行分析,以便了解數(shù)據(jù)的趨勢和分布。

結(jié)果可知,特征carat,price和x的數(shù)據(jù)分布向右傾斜,特征y和z的分布呈鋸齒狀。特征depth的數(shù)據(jù)分布相當(dāng)對稱,接近正態(tài)分布。同時(shí),本數(shù)據(jù)集中的各個(gè)數(shù)值型特征在每一側(cè)都有長尾,這表明可能存在極值。13.3.2數(shù)值特征分析13.3.3相關(guān)性分析在查看單個(gè)變量分布的基礎(chǔ)上,有時(shí)也需要查看變量之間的聯(lián)系,可以使用pairplot繪制成對變量的關(guān)系圖,分析變量間是否存在線性關(guān)系,有無較為明顯的相關(guān)關(guān)系。1、pairplot圖分析從輸出結(jié)果可知,x、y、z、carat和price之間存在較明顯的線性關(guān)系,"depth"、"table"與price的線性關(guān)系較弱。13.3.3相關(guān)性分析seaborn中的jointplot是聯(lián)合分布圖,可以深入地分析兩個(gè)特征的相關(guān)性。jointplot函數(shù)用于將成對特征的相關(guān)情況、聯(lián)合分布以及各自的分布在一張圖上集中呈現(xiàn),是相關(guān)性分析最常用的工具,jointplot圖上還能展示回歸曲線及相關(guān)系數(shù)。在下例中,使用jointplot分別顯示特征'carat'與'price'、特征'depth'與'price'之間的相關(guān)性。2、jointplot圖分析從輸出可知,鉆石的carat特征與鉆石的價(jià)格price有較強(qiáng)的正相關(guān)關(guān)系,depth與price之間存在較弱的負(fù)相關(guān)關(guān)系。13.3.3相關(guān)性分析可計(jì)算鉆石價(jià)格price與其他特征的相關(guān)度,并排序顯示。3、價(jià)格與其他特征的相關(guān)度13.3.3相關(guān)性分析可以用熱度圖heatmap來觀察所有特征之間的相關(guān)性。生成熱度圖的語句如下:4、生成相關(guān)性熱度圖由相關(guān)性分析可知,鉆石的重量特征carat和維度特征x、y、z是鉆石價(jià)格的決定因素,而特征table和depth與價(jià)格Price的相關(guān)度較低,對鉆石價(jià)格的影響較小,可以考慮在進(jìn)行回歸分析前,將其刪除,我們在13.4中的分析中暫時(shí)先保留這兩個(gè)特征?;貧w模型預(yù)測0413.4回歸模型預(yù)測

本節(jié)將構(gòu)建線性回歸、嶺回歸、Lasso回歸、隨機(jī)森林回歸及XGB回歸等多個(gè)模型,對鉆石價(jià)格進(jìn)行預(yù)測。我們首先將數(shù)據(jù)集分割成訓(xùn)練集和測試集,用訓(xùn)練集來訓(xùn)練模型,獲取所有模型在訓(xùn)練集上交叉驗(yàn)證的均方根誤差RMSE,選擇在訓(xùn)練數(shù)據(jù)集上交叉驗(yàn)證RMSE平均值最小的模型,即在訓(xùn)練集上性能最佳的模型,用它對測試集數(shù)據(jù)進(jìn)行預(yù)測,并使用測試集對模型進(jìn)行評估。13.4回歸模型預(yù)測

使用負(fù)均方根誤差(neg_root_mean_squared_error)作為打分指標(biāo),對各個(gè)模型進(jìn)行交叉檢驗(yàn),將所有模型交叉檢驗(yàn)結(jié)果均值的絕對值保存到列表cv_results_RMSE中。Out:LinearRegression:1345.667893Ridge:1345.574389Lasso:1347.886019RFRegressor:553.466329XGBRegressor:552.122205輸出各個(gè)模型在訓(xùn)練集上的RMSE結(jié)果,結(jié)果如下:13.4回歸模型預(yù)測13.4回歸模型預(yù)測對各個(gè)模型在訓(xùn)練集上的RMSE平均值進(jìn)行排序,結(jié)果保存在RMSE_on_train_sorted中,并作圖顯示顯示各個(gè)模型在訓(xùn)練集上的RMSE。13.4回歸模型預(yù)測13.4回歸模型預(yù)測XGBRegressor的RMSE最小,說明其在訓(xùn)練集上預(yù)測性能最佳。選擇XGBRegressor對測試數(shù)據(jù)進(jìn)行價(jià)格預(yù)測,并輸出均方誤差MSE、平均絕對誤差MAE、均方根誤差RMSE、決定系數(shù)R2、校正決定系數(shù)(AdjustedR2)等各項(xiàng)評價(jià)指標(biāo)。XGBRegressor回歸模型在測試集上的決定系數(shù)R2及校正決定系數(shù)(AdjustedR2)均接近1,說明該模型在測試集上預(yù)測性能較好。小結(jié)0513.5本章小結(jié)本章利用Python中的sklearn等常用數(shù)據(jù)分析與挖掘相關(guān)庫,對經(jīng)典的回歸數(shù)據(jù)集鉆石數(shù)據(jù)集進(jìn)行分析和預(yù)測。在本案例的目標(biāo)是根據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論