版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第5章數(shù)據(jù)清理案例實戰(zhàn)Python數(shù)據(jù)分析與可視化學(xué)習(xí)目標(biāo)熟悉常見數(shù)據(jù)問題的處理方式;掌握缺失值、重復(fù)值和異常值的檢測與處理;掌握多種數(shù)據(jù)源合并的方法;學(xué)會使用數(shù)據(jù)透視方式觀測數(shù)據(jù);學(xué)會對二手房數(shù)據(jù)案例進行清洗;學(xué)會對“數(shù)據(jù)分析”崗位需求案例進行數(shù)據(jù)分析;學(xué)會對年度銷售數(shù)據(jù)案例進行數(shù)據(jù)分析。任務(wù)五:數(shù)據(jù)清理案例實戰(zhàn)5.1數(shù)據(jù)清理概述5.2案例實戰(zhàn)之成都錦江區(qū)二手房數(shù)據(jù)清理5.3案例實戰(zhàn)之?dāng)?shù)據(jù)分析崗位需求分析5.4案例實戰(zhàn)之年度銷售數(shù)據(jù)分析目錄CONTENTS
數(shù)據(jù)清理是數(shù)據(jù)預(yù)處理的一個關(guān)鍵環(huán)節(jié),在這一環(huán)節(jié)中,我們主要通過一定的檢測與處理方法,將“臟”數(shù)據(jù)清理成質(zhì)量較高的“干凈”數(shù)據(jù)。Pandas為數(shù)據(jù)清理提供了一系列方法,本章將圍繞這些數(shù)據(jù)清理方法進行詳細地講解。5.1數(shù)據(jù)清理概述
數(shù)據(jù)清理是數(shù)據(jù)預(yù)處理中關(guān)鍵的一步,其目的在于剔除原有數(shù)據(jù)中的“臟”數(shù)據(jù),提高數(shù)據(jù)的質(zhì)量,使數(shù)據(jù)具有完整性、唯一性、權(quán)威性、合法性和一致性等特點。數(shù)據(jù)清理的結(jié)果直接影響著數(shù)據(jù)分析或數(shù)據(jù)挖掘的結(jié)果。
數(shù)據(jù)清理主要解決前面介紹過的數(shù)據(jù)問題,常遇到的數(shù)據(jù)問題有3種:數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)、數(shù)據(jù)異常,它們分別是由數(shù)據(jù)中存在缺失值、重復(fù)值、異常值而引起的。1.缺失值的處理方式
缺失值是指樣本數(shù)據(jù)中某個或某些屬性的值是不全的,主要是由于機械故障、人為原因?qū)е虏糠謹(jǐn)?shù)據(jù)未能收集。若直接使用有缺失值的數(shù)據(jù)進行分析,會降低分析結(jié)果的準(zhǔn)確性,為此需通過合適的方式予以處理。缺失值主要有三種處理方式:刪除、填充和插補。
(1)刪除缺失值是最簡單的處理方式,這種方式通過直接刪除包含缺失值的行或列來達到目的,適用于刪除缺失值后產(chǎn)生較小偏差的樣本數(shù)據(jù),但并不是十分有效。
(2)填充缺失值是比較流行的處理方式,這種方式一般會將諸如平均數(shù)、中位數(shù)、眾數(shù)、缺失值前后的數(shù)填充至空缺位置。
(3)插補缺失值是一種相對復(fù)雜且靈活的處理方式,這種方式主要基于一定的插補算法來填充缺失值。常見的插補算法有線性插值和最鄰近插值。1.缺失值的處理方式
在Pandas中使用NaN或None代表缺失值,檢測缺失值的常用方法包括isnull()、notnull()、isna()和notna()。這四種方法均會返回一個由布爾值組成、與原對象形狀相同的新對象。isnull()和isna()方法的用法相同,它們會在檢測到缺失值的位置標(biāo)記Truenotnull()和notna()方法的用法相同,它們會在檢測到缺失值的位置標(biāo)記False2.重復(fù)值的處理方式
重復(fù)值是指樣本數(shù)據(jù)中某個或某些數(shù)據(jù)記錄完全相同,主要是由于人工錄入、機械故障導(dǎo)致部分?jǐn)?shù)據(jù)重復(fù)錄入。重復(fù)值主要有兩種處理方式:刪除和保留,其中刪除重復(fù)值是比較常見的方式,其目的在于保留唯一的數(shù)據(jù)記錄。
在Pandas中使用duplicated()方法來檢測數(shù)據(jù)中的重復(fù)值。duplicated()方法檢測完數(shù)據(jù)后會返回一個由布爾值組成的Series類對象,該對象中若包含True,說明True對應(yīng)的一行數(shù)據(jù)為重復(fù)項。
需要說明的是,在分析演變規(guī)律、樣本不均衡處理、業(yè)務(wù)規(guī)則等場景中,重復(fù)值具有一定的使用價值,需做保留。3.異常值的處理方式
異常值是指樣本數(shù)據(jù)中處于特定范圍之外的個別值,這些值明顯偏離它們所屬樣本的其余觀測值,其產(chǎn)生的原因有很多,包括人為疏忽、失誤或儀器異常等。處理異常值之前,需要先辨別哪些值是“真異常”和“偽異?!保俑鶕?jù)實際情況正確地處理異常值。
異常值的處理方式主要有保留、刪除和替換。保留異常值也就是對異常值不做任何處理,這種方式通常適用于“偽異?!保礈?zhǔn)確的數(shù)據(jù);刪除異常值和替換異常值是比較常用的方式,其中替換異常值是使用指定的值或根據(jù)算法計算的值替代檢測出的異常值。
若需要對數(shù)據(jù)進行異常值檢測,則可以使用3σ原則(又稱為拉依達原則)和箱形圖這兩種方法來檢測異常值。小結(jié)
總而言之,缺失值、重復(fù)值、異常值都有多種處理方式,具體選用哪種方式進行處理要依據(jù)具體的處理需求和樣本數(shù)據(jù)特點決定。5.2案例實戰(zhàn)之成都錦江區(qū)二手房數(shù)據(jù)清理
為了更好地理解數(shù)據(jù)清理的操作,能夠在實際運用中清洗數(shù)據(jù),本案例將結(jié)合一組關(guān)于成都錦江區(qū)二手房情況的數(shù)據(jù)(handroom.xlsx),介紹如何使用Pandas模塊對這組數(shù)據(jù)進行預(yù)處理。需完成如下操作:
(1)檢查缺失值,一旦發(fā)現(xiàn)有缺失值就將其刪除。
(2)檢查重復(fù)值,一旦發(fā)現(xiàn)有重復(fù)值就將其刪除。
(3)檢測二手房數(shù)據(jù)單價列的異常值,一旦確定是真異常值就將其刪除。5.3案例實戰(zhàn)之?dāng)?shù)據(jù)分析崗位需求分析
隨著大數(shù)據(jù)領(lǐng)域的不斷拓展,海量數(shù)據(jù)已經(jīng)全面地融入人們的社會生活,基于海量數(shù)據(jù)的分析人才逐漸成為各企業(yè)追逐的寵兒。大數(shù)據(jù)這一熱門行業(yè)衍生了眾多與數(shù)據(jù)相關(guān)的崗位,在這些崗位中數(shù)據(jù)分析崗位脫穎而出,受到業(yè)界人士的廣泛關(guān)注。為了從多個角度了解數(shù)據(jù)分析崗位的實際情況,本案例從數(shù)據(jù)分析的角度出發(fā),結(jié)合從招聘網(wǎng)站上收集的有關(guān)數(shù)據(jù)分析崗位的數(shù)據(jù),利用Pandas和Matplotlib庫處理與展現(xiàn)數(shù)據(jù)。5.3案例實戰(zhàn)之?dāng)?shù)據(jù)分析崗位需求分析需完成如下操作:(1)數(shù)據(jù)拼接,將多個文件合并成一個文件后再進行處理。(2)數(shù)據(jù)預(yù)處理相關(guān)工作,如數(shù)據(jù)選取、數(shù)據(jù)篩選和字符處理等。(3)分析不同城市“數(shù)據(jù)分析”崗位需求情況。(4)分析“數(shù)據(jù)分析”崗位的學(xué)歷要求。(5)分析不同城市“數(shù)據(jù)分析”崗位的薪資水平。5.4案例實戰(zhàn)之年度銷售數(shù)據(jù)分析
無論是企業(yè)或公司還是銷售員都應(yīng)該對產(chǎn)品銷售情況有個全面、客觀、真實的了解,通過分析以往的銷售數(shù)據(jù),總結(jié)出銷售規(guī)律,有針對性地調(diào)整銷售策略,幫助企業(yè)決策者快速精準(zhǔn)地對銷售情況進行分析,做出實現(xiàn)銷售業(yè)績快速增長的決策。本案例將結(jié)合來自不同銷售渠道銷售的不同品牌數(shù)據(jù)(2020年銷售數(shù)據(jù).xlsx)進行分析,介紹如何使用分組聚合的方法來處理與展現(xiàn)數(shù)據(jù)。5.4案例實戰(zhàn)之年度銷售數(shù)據(jù)分析需完成如下操作:(1)統(tǒng)計月度銷售額;(2)統(tǒng)計品牌銷售額的占比;(3)統(tǒng)計各地區(qū)的月度銷售額;(4)統(tǒng)計各渠道的品牌銷量;(5)統(tǒng)計不同價格區(qū)間商品的月度銷量。本章小結(jié)
數(shù)據(jù)清理是數(shù)據(jù)分析過程中非常重要的一個環(huán)節(jié),只有擁有質(zhì)量較高的“干凈”數(shù)據(jù)才能較好的對數(shù)據(jù)進行分析及可視化。本章介紹了常見數(shù)據(jù)問題的處理方式,缺失值、重復(fù)值和異常值的檢測與處理,通過二手房數(shù)據(jù)清理案例可以學(xué)習(xí)到數(shù)據(jù)清洗的基本方法及清洗流
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度節(jié)能環(huán)保固定資產(chǎn)借款合同模板3篇
- 二零二五年度碼頭配套設(shè)施建設(shè)與維護合同3篇
- 二零二五年度高端綠植租賃與擺放服務(wù)合同書3篇
- 二零二五年度太陽能光伏發(fā)電系統(tǒng)智能化改造合同
- 二零二五年度小產(chǎn)權(quán)房產(chǎn)買賣合同樣本15篇
- 2025-2030全球醫(yī)用氣泡探測器行業(yè)調(diào)研及趨勢分析報告
- 廣告行業(yè)推廣居間合同
- 音樂廳裝修改造合同范本
- 心理咨詢師服務(wù)合同及免責(zé)條款
- 實木家具保養(yǎng)與修復(fù)考核試卷
- 2025年春季學(xué)期學(xué)校德育工作計劃安排表(完整版)
- 2025年有機肥行業(yè)發(fā)展趨勢分析報告
- 2023-2024年員工三級安全培訓(xùn)考試題及參考答案(綜合題)
- 2024年人教版初中英語九年級全冊單元測評與答案
- 【渞法】學(xué)會自我保護教學(xué)設(shè)計 七年級道德與法治下冊(統(tǒng)編版2024)
- 五年級口算題卡每天100題帶答案
- 2024年全國初中數(shù)學(xué)聯(lián)合競賽試題參考答案及評分標(biāo)準(zhǔn)
- 面向機器人柔順操作的力位精準(zhǔn)控制方法研究共3篇
- 《地下工程測試技術(shù)》課程教學(xué)大綱
- 2023-2024學(xué)年天津市小學(xué)數(shù)學(xué)二年級上冊期末高分試卷
- 工程造價績效考核KPI指標(biāo)庫
評論
0/150
提交評論