《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第5章數(shù)據(jù)預(yù)處理

上傳人：鴻*** IP屬地：河北上傳時(shí)間：2024-07-22 格式：PPTX 頁數(shù)：39 大?。?11.38KB 積分：60 舉報(bào) 版權(quán)申訴

《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第5章數(shù)據(jù)預(yù)處理_第2頁

《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第5章數(shù)據(jù)預(yù)處理_第3頁

《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第5章數(shù)據(jù)預(yù)處理_第4頁

《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第5章數(shù)據(jù)預(yù)處理_第5頁

已閱讀5頁，還剩34頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第4章數(shù)據(jù)預(yù)處理22-7月-241數(shù)據(jù)集成目錄數(shù)據(jù)清洗2數(shù)據(jù)變換3數(shù)據(jù)規(guī)約4Python主要數(shù)據(jù)預(yù)處理函數(shù)5在數(shù)據(jù)挖掘的過程中，數(shù)據(jù)預(yù)處理占到了整個(gè)過程的60%。數(shù)據(jù)預(yù)處理的主要任務(wù)包括數(shù)據(jù)清洗，數(shù)據(jù)集成，數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。處理過程如圖所示：數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù)，平滑噪聲數(shù)據(jù)，處理缺失值、異常值等。缺失值處理處理缺失值的方法可分為三類：刪除記錄、數(shù)據(jù)插補(bǔ)和不處理。其中常用的數(shù)據(jù)插補(bǔ)方法見下表。缺失值處理插值方法有Hermite插值、分段插值、樣條插值法，而最主要的有拉格朗日插值法和牛頓插值法。以下便對(duì)這兩種進(jìn)行介紹。拉格朗日插值法

第一步：

求已知的n個(gè)點(diǎn)的

次多項(xiàng)式：

將個(gè)點(diǎn)的坐標(biāo)代入多項(xiàng)式函數(shù)

第二步：

將缺失的函數(shù)值對(duì)應(yīng)的點(diǎn)

代入插值多項(xiàng)式得到缺失值的近似值

解出拉格朗日插值多項(xiàng)式缺失值處理牛頓插值法

在區(qū)間

上，函數(shù)

關(guān)于一個(gè)節(jié)點(diǎn)

的零階差商

兩個(gè)節(jié)點(diǎn)和的一階差商一般地，

階差商就是

階差商的差商

缺失值處理牛頓插值法

根據(jù)差商的定義，牛頓插值多項(xiàng)式可以表示

牛頓插值多項(xiàng)式的余項(xiàng)公式可以表示

其中，，。對(duì)于區(qū)間

中的任意一點(diǎn)，則有。缺失值處理——實(shí)例餐飲系統(tǒng)中的銷量數(shù)據(jù)可能出現(xiàn)缺失值，下表為某餐廳一段時(shí)間的銷量表，其中有一天的數(shù)據(jù)缺失，用拉格朗日插值與牛頓插值法對(duì)缺失值補(bǔ)缺。異常值處理在數(shù)據(jù)預(yù)處理時(shí)，異常值是否剔除，需視具體情況而定，因?yàn)橛行┊惓Ｖ悼赡芴N(yùn)含著有用的信息。異常值處理常用方法見下表：1數(shù)據(jù)集成目錄數(shù)據(jù)清洗2數(shù)據(jù)變換3數(shù)據(jù)規(guī)約4Python主要數(shù)據(jù)預(yù)處理函數(shù)5數(shù)據(jù)集成數(shù)據(jù)挖掘需要的數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中，數(shù)據(jù)集成就是將多個(gè)數(shù)據(jù)源合并存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)（如數(shù)據(jù)倉庫）中的過程。在數(shù)據(jù)集成時(shí)，來自多個(gè)數(shù)據(jù)源的現(xiàn)實(shí)世界實(shí)體的表達(dá)形式是不一樣的，不一定是匹配的，要考慮實(shí)體識(shí)別問題和屬性冗余問題，從而把源數(shù)據(jù)在最低層上加以轉(zhuǎn)換、提煉和集成。數(shù)據(jù)集成——實(shí)體識(shí)別實(shí)體識(shí)別的任務(wù)是檢測和解決同名異義、異名同義、單位不統(tǒng)一的沖突。如：同名異義：數(shù)據(jù)源A中的屬性ID和數(shù)據(jù)源B中的屬性ID分別描述的是菜品編號(hào)和訂單編號(hào)，即描述的是不同的實(shí)體。異名同義：數(shù)據(jù)源A中的sales_dt和數(shù)據(jù)源B中的sales_date都是是描述銷售日期的，即A.sales_dt=B.sales_date。單位不統(tǒng)一：描述同一個(gè)實(shí)體分別用的是國際單位和中國傳統(tǒng)的計(jì)量單位。數(shù)據(jù)集成——冗余屬性識(shí)別數(shù)據(jù)集成往往導(dǎo)致數(shù)據(jù)冗余，如：同一屬性多次出現(xiàn)同一屬性命名不一致導(dǎo)致重復(fù)不同源數(shù)據(jù)的仔細(xì)整合能減少甚至避免數(shù)據(jù)冗余與不一致，以提高數(shù)據(jù)挖掘的速度和質(zhì)量。對(duì)于冗余屬性要先分析檢測到后再將其刪除。有些冗余屬性可以用相關(guān)分析檢測到。給定兩個(gè)數(shù)值型的屬性A和B，根據(jù)其屬性值，可以用相關(guān)系數(shù)度量一個(gè)屬性在多大程度上蘊(yùn)含另一個(gè)屬性。1數(shù)據(jù)集成目錄數(shù)據(jù)清洗2數(shù)據(jù)變換3數(shù)據(jù)規(guī)約4Python主要數(shù)據(jù)預(yù)處理函數(shù)5數(shù)據(jù)變換主要是對(duì)數(shù)據(jù)進(jìn)行規(guī)范化的操作，將數(shù)據(jù)轉(zhuǎn)換成“適當(dāng)?shù)摹备袷剑赃m用于挖掘任務(wù)及算法的需要。數(shù)據(jù)變換——簡單函數(shù)變換簡單函數(shù)變換就是對(duì)原始數(shù)據(jù)進(jìn)行某些數(shù)學(xué)函數(shù)變換，常用的函數(shù)變換包括平方、開方、對(duì)數(shù)、差分運(yùn)算等，即:數(shù)據(jù)變換——規(guī)范化數(shù)據(jù)標(biāo)準(zhǔn)化（歸一化）處理是數(shù)據(jù)挖掘的一項(xiàng)基礎(chǔ)工作，不同評(píng)價(jià)指標(biāo)往往具有不同的量綱和量綱單位，數(shù)值間的差別可能很大，不進(jìn)行處理可能會(huì)影響到數(shù)據(jù)分析的結(jié)果，為了消除指標(biāo)之間的量綱和大小不一的影響，需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理，將數(shù)據(jù)按照比例進(jìn)行縮放，使之落入一個(gè)特定的區(qū)域，從而進(jìn)行綜合分析。如將工資收入屬性值映射到[-1，1]或者[0，1]之間。下面介紹三種規(guī)范化方法：最小-最大規(guī)范化、零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化數(shù)據(jù)變換——規(guī)范化最小-最大規(guī)范化：也稱為離差標(biāo)準(zhǔn)化，是對(duì)原始數(shù)據(jù)的線性變換，使結(jié)果值映射到[0,1]之間。

轉(zhuǎn)換函數(shù)如：

其中

為樣本數(shù)據(jù)的最大值，

為樣本數(shù)據(jù)的最小值。

為極差。零-均值規(guī)范化:也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化，經(jīng)過處理的數(shù)據(jù)的平均數(shù)為0，標(biāo)準(zhǔn)差為1。轉(zhuǎn)化函數(shù)為：

其中

為原始數(shù)據(jù)的均值，

為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。小數(shù)定標(biāo)規(guī)范化:通過移動(dòng)屬性值的小數(shù)位數(shù)，將屬性值映射到[-1，1]之間，移動(dòng)的小數(shù)位數(shù)取決于屬性值絕對(duì)值的最大值。轉(zhuǎn)化函數(shù)為：數(shù)據(jù)變換——連續(xù)屬性離散化一些數(shù)據(jù)挖掘算法，特別是某些分類算法，要求數(shù)據(jù)是分類屬性形式，如ID3算法、Apriori算法等。這樣，常常需要將連續(xù)屬性變換成分類屬性，即連續(xù)屬性離散化。離散化的過程

連續(xù)屬性變換成分類屬性涉及兩個(gè)子任務(wù)：決定需要多少個(gè)分類變量，以及確定如何將連續(xù)屬性值映射到這些分類值。常用的離散化方法

常用的無監(jiān)督離散化方法有：等寬法、等頻法、基于聚類分析的方法數(shù)據(jù)變換——屬性構(gòu)造在數(shù)據(jù)挖掘的過程中，為了幫助提取更有用的信息、挖掘更深層次的模式，提高挖掘結(jié)果的精度，需要利用已有的屬性集構(gòu)造出新的屬性，并加入到現(xiàn)有的屬性集合中。比如進(jìn)行防竊漏電診斷建模時(shí)，已有的屬性包括進(jìn)入線路供入電量、該條線路上各大用戶用電量之和，記為供出電量。理論上供入電量和供出電量應(yīng)該是相等的，但是由于在傳輸過程中的電能損耗，會(huì)使得供入電量略大于供出電量，如果該條線路上的一個(gè)或多個(gè)大用戶存在竊漏電行為，會(huì)使供入電量遠(yuǎn)大于供出電量。反過來，為了判斷是否存在有竊漏電行為的大用戶，需要構(gòu)造一個(gè)新的關(guān)鍵指標(biāo)--線損率，該過程就是構(gòu)造屬性，由線戶關(guān)系圖（見圖6-1）。新構(gòu)造的屬性線損率計(jì)算公式如下：

線損率＝（供入電量-供出電量）/供入電量線損率的范圍一般在3%~15%，如果遠(yuǎn)遠(yuǎn)超過該范圍，就可以認(rèn)為該條線路的大用戶很大可能存在竊漏電等用電異常行為。數(shù)據(jù)變換——小波變換基于小波變換的特征提取方法及其方法描述如下表所示：數(shù)據(jù)變換——小波變換小波基函數(shù)是一種具有局部支集的函數(shù)，平均值為0，小波基函數(shù)滿足：

。Haar小波基函數(shù)是常用的小波基函數(shù)，如下圖所示：數(shù)據(jù)變換——小波變換小波基函數(shù)伸縮和平移變換模型為：

其中，

為伸縮因子，

為平移因子。任意函數(shù)

的連續(xù)小波變換（CWT）為：上式的逆變換為：數(shù)據(jù)變換——小波變換基于小波變換的多尺度空間能量分布特征提取方法：第一步：對(duì)進(jìn)行二進(jìn)小波分解：

其中

是近似信號(hào)，為低頻部分；

是細(xì)節(jié)信號(hào)，為高頻部分，此時(shí)信號(hào)的頻帶分布圖如左下圖所示：第二步：計(jì)算出信號(hào)能量為：第三步：選擇第

層的近似信號(hào)和各層的細(xì)節(jié)信號(hào)的能量作為特征，構(gòu)造特征向量：1數(shù)據(jù)集成目錄數(shù)據(jù)清洗2數(shù)據(jù)變換3數(shù)據(jù)規(guī)約4Python主要數(shù)據(jù)預(yù)處理函數(shù)5數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約是將海量數(shù)據(jù)進(jìn)行規(guī)約，規(guī)約之后的數(shù)據(jù)仍接近于保持原數(shù)據(jù)的完整性，但數(shù)據(jù)量小得多。通過數(shù)據(jù)規(guī)約，可以達(dá)到：降低無效、錯(cuò)誤數(shù)據(jù)對(duì)建模的影響，提高建模的準(zhǔn)確性少量且具代表性的數(shù)據(jù)將大幅縮減數(shù)據(jù)挖掘所需的時(shí)間降低儲(chǔ)存數(shù)據(jù)的成本數(shù)據(jù)規(guī)約——屬性規(guī)約屬性規(guī)約常用方法有：合并屬性、逐步向前選擇、逐步向后刪除、決策樹歸納、主成分分析合并屬性初始屬性集：

規(guī)約后屬性集：逐步向前選擇

初始屬性集：

規(guī)約后屬性集：

數(shù)據(jù)規(guī)約——屬性規(guī)約逐步向后刪除

初始屬性集：

規(guī)約后屬性集：決策樹規(guī)約

初始屬性集：

規(guī)約后屬性集：

數(shù)據(jù)規(guī)約——屬性規(guī)約下面詳細(xì)介紹主成分分析計(jì)算步驟：1）設(shè)原始變量

的觀測n次數(shù)據(jù)矩陣為：2）將數(shù)據(jù)矩陣中心標(biāo)準(zhǔn)化。為了方便，將標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣仍然記為

。3）求相關(guān)系數(shù)矩陣

的定義為：

其中

4）求

的特征方程

的特征根

。5）確定主成分個(gè)數(shù)m：

，根據(jù)實(shí)際問題確定，一般取80%。

數(shù)據(jù)規(guī)約——屬性規(guī)約6）計(jì)算m個(gè)相應(yīng)的單位特征向量：7）計(jì)算主成分：數(shù)據(jù)規(guī)約——數(shù)值規(guī)約數(shù)值規(guī)約通過選擇替代的、較小的數(shù)據(jù)來減少數(shù)據(jù)量。數(shù)值規(guī)約可以是有參的，也可以是無參的。有參方法是使用一個(gè)模型來評(píng)估數(shù)據(jù)，只需存放參數(shù)，而不需要存放實(shí)際數(shù)據(jù)。有參的數(shù)值規(guī)約技術(shù)主要有兩種：回歸（線性回歸和多元回歸）和對(duì)數(shù)線性模型（近似離散屬性集中的多維概率分布）。數(shù)值規(guī)約常用方法有直方圖、用聚類數(shù)據(jù)表示實(shí)際數(shù)據(jù)、抽樣（采樣）、參數(shù)回歸法。1數(shù)據(jù)集成目錄數(shù)據(jù)清洗2數(shù)據(jù)變換3數(shù)據(jù)規(guī)約4Python主要數(shù)據(jù)預(yù)處理函數(shù)5Python主要數(shù)據(jù)處理函數(shù)Python中的插值、數(shù)據(jù)歸一化、主成分分析等與數(shù)據(jù)預(yù)處理相關(guān)的函數(shù)。Python主要數(shù)據(jù)處理函數(shù)interpolate功能：interpolate是scipy的一個(gè)子庫，下面包含了大量的插值函數(shù)，如拉格朗日插值、樣條插值、高維插值等。使用之前需要用fromerpolateimport*引入相應(yīng)的插值函數(shù)，讀者應(yīng)該根據(jù)需要到官網(wǎng)查找對(duì)應(yīng)的函數(shù)名。使用格式：f=erpolate.lagrange(x,y)這里僅僅展示了一維數(shù)據(jù)的拉格朗日插值的命令，其中x,y為對(duì)應(yīng)的自變量和因變量數(shù)據(jù)。插值完成后，可以通過f(a)計(jì)算新的插值結(jié)果。類似的還有樣條插值、多維數(shù)據(jù)插值等。unique功能：去除數(shù)據(jù)中的重復(fù)元素，得到單值元素列表。它既是numpy庫的一個(gè)函數(shù)（np.unique()），也是Series對(duì)象的一個(gè)方法。使用格式：np.unique(D)D是一維數(shù)據(jù)，可以是list、array、Series；D.unique()D是Pandas的Series對(duì)象。Python主要數(shù)據(jù)處理函數(shù)——實(shí)例實(shí)例：求向量A中的單值元素，并返回相關(guān)索引。Python主要數(shù)據(jù)處理函數(shù)isnull/notnull()功能：判斷每個(gè)元素是否空值/非空值。使用格式：D.isnull()/D.notnull()這里的D要求是Series對(duì)象，返回一個(gè)布爾Series?？梢酝ㄟ^D[D.isnull()]或D[D.notnul

人人文庫> 全部分類> 應(yīng)用文書 > 工作計(jì)劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第5章數(shù)據(jù)預(yù)處理

文檔簡介

溫馨提示

最新文檔

評(píng)論

《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第5章 數(shù)據(jù)預(yù)處理

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第5章數(shù)據(jù)預(yù)處理