《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第5章 數(shù)據(jù)預(yù)處理_第1頁
《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第5章 數(shù)據(jù)預(yù)處理_第2頁
《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第5章 數(shù)據(jù)預(yù)處理_第3頁
《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第5章 數(shù)據(jù)預(yù)處理_第4頁
《Python數(shù)據(jù)分析基礎(chǔ)與案例實(shí)戰(zhàn)》第5章 數(shù)據(jù)預(yù)處理_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第4章數(shù)據(jù)預(yù)處理22-7月-241數(shù)據(jù)集成目錄數(shù)據(jù)清洗2數(shù)據(jù)變換3數(shù)據(jù)規(guī)約4Python主要數(shù)據(jù)預(yù)處理函數(shù)5在數(shù)據(jù)挖掘的過程中,數(shù)據(jù)預(yù)處理占到了整個(gè)過程的60%。數(shù)據(jù)預(yù)處理的主要任務(wù)包括數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。處理過程如圖所示:數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù),處理缺失值、異常值等。缺失值處理處理缺失值的方法可分為三類:刪除記錄、數(shù)據(jù)插補(bǔ)和不處理。其中常用的數(shù)據(jù)插補(bǔ)方法見下表。缺失值處理插值方法有Hermite插值、分段插值、樣條插值法,而最主要的有拉格朗日插值法和牛頓插值法。以下便對(duì)這兩種進(jìn)行介紹。拉格朗日插值法

第一步:

求已知的n個(gè)點(diǎn)的

次多項(xiàng)式:

將個(gè)點(diǎn)的坐標(biāo)代入多項(xiàng)式函數(shù)

第二步:

將缺失的函數(shù)值對(duì)應(yīng)的點(diǎn)

代入插值多項(xiàng)式得到缺失值的近似值

解出拉格朗日插值多項(xiàng)式缺失值處理牛頓插值法

在區(qū)間

上,函數(shù)

關(guān)于一個(gè)節(jié)點(diǎn)

的零階差商

兩個(gè)節(jié)點(diǎn)和的一階差商一般地,

階差商就是

階差商的差商

缺失值處理牛頓插值法

根據(jù)差商的定義,牛頓插值多項(xiàng)式可以表示

牛頓插值多項(xiàng)式的余項(xiàng)公式可以表示

其中,,。對(duì)于區(qū)間

中的任意一點(diǎn),則有。缺失值處理——實(shí)例餐飲系統(tǒng)中的銷量數(shù)據(jù)可能出現(xiàn)缺失值,下表為某餐廳一段時(shí)間的銷量表,其中有一天的數(shù)據(jù)缺失,用拉格朗日插值與牛頓插值法對(duì)缺失值補(bǔ)缺。異常值處理在數(shù)據(jù)預(yù)處理時(shí),異常值是否剔除,需視具體情況而定,因?yàn)橛行┊惓V悼赡芴N(yùn)含著有用的信息。異常值處理常用方法見下表:1數(shù)據(jù)集成目錄數(shù)據(jù)清洗2數(shù)據(jù)變換3數(shù)據(jù)規(guī)約4Python主要數(shù)據(jù)預(yù)處理函數(shù)5數(shù)據(jù)集成數(shù)據(jù)挖掘需要的數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中,數(shù)據(jù)集成就是將多個(gè)數(shù)據(jù)源合并存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉庫)中的過程。在數(shù)據(jù)集成時(shí),來自多個(gè)數(shù)據(jù)源的現(xiàn)實(shí)世界實(shí)體的表達(dá)形式是不一樣的,不一定是匹配的,要考慮實(shí)體識(shí)別問題和屬性冗余問題,從而把源數(shù)據(jù)在最低層上加以轉(zhuǎn)換、提煉和集成。數(shù)據(jù)集成——實(shí)體識(shí)別實(shí)體識(shí)別的任務(wù)是檢測和解決同名異義、異名同義、單位不統(tǒng)一的沖突。如:同名異義:數(shù)據(jù)源A中的屬性ID和數(shù)據(jù)源B中的屬性ID分別描述的是菜品編號(hào)和訂單編號(hào),即描述的是不同的實(shí)體。異名同義:數(shù)據(jù)源A中的sales_dt和數(shù)據(jù)源B中的sales_date都是是描述銷售日期的,即A.sales_dt=B.sales_date。單位不統(tǒng)一:描述同一個(gè)實(shí)體分別用的是國際單位和中國傳統(tǒng)的計(jì)量單位。數(shù)據(jù)集成——冗余屬性識(shí)別數(shù)據(jù)集成往往導(dǎo)致數(shù)據(jù)冗余,如:同一屬性多次出現(xiàn)同一屬性命名不一致導(dǎo)致重復(fù)不同源數(shù)據(jù)的仔細(xì)整合能減少甚至避免數(shù)據(jù)冗余與不一致,以提高數(shù)據(jù)挖掘的速度和質(zhì)量。對(duì)于冗余屬性要先分析檢測到后再將其刪除。有些冗余屬性可以用相關(guān)分析檢測到。給定兩個(gè)數(shù)值型的屬性A和B,根據(jù)其屬性值,可以用相關(guān)系數(shù)度量一個(gè)屬性在多大程度上蘊(yùn)含另一個(gè)屬性。1數(shù)據(jù)集成目錄數(shù)據(jù)清洗2數(shù)據(jù)變換3數(shù)據(jù)規(guī)約4Python主要數(shù)據(jù)預(yù)處理函數(shù)5數(shù)據(jù)變換主要是對(duì)數(shù)據(jù)進(jìn)行規(guī)范化的操作,將數(shù)據(jù)轉(zhuǎn)換成“適當(dāng)?shù)摹备袷剑赃m用于挖掘任務(wù)及算法的需要。數(shù)據(jù)變換——簡單函數(shù)變換簡單函數(shù)變換就是對(duì)原始數(shù)據(jù)進(jìn)行某些數(shù)學(xué)函數(shù)變換,常用的函數(shù)變換包括平方、開方、對(duì)數(shù)、差分運(yùn)算等,即:數(shù)據(jù)變換——規(guī)范化數(shù)據(jù)標(biāo)準(zhǔn)化(歸一化)處理是數(shù)據(jù)挖掘的一項(xiàng)基礎(chǔ)工作,不同評(píng)價(jià)指標(biāo)往往具有不同的量綱和量綱單位,數(shù)值間的差別可能很大,不進(jìn)行處理可能會(huì)影響到數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱和大小不一的影響,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個(gè)特定的區(qū)域,從而進(jìn)行綜合分析。如將工資收入屬性值映射到[-1,1]或者[0,1]之間。下面介紹三種規(guī)范化方法:最小-最大規(guī)范化、零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化數(shù)據(jù)變換——規(guī)范化最小-最大規(guī)范化:也稱為離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0,1]之間。

轉(zhuǎn)換函數(shù)如:

其中

為樣本數(shù)據(jù)的最大值,

為樣本數(shù)據(jù)的最小值。

為極差。零-均值規(guī)范化:也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,經(jīng)過處理的數(shù)據(jù)的平均數(shù)為0,標(biāo)準(zhǔn)差為1。轉(zhuǎn)化函數(shù)為:

其中

為原始數(shù)據(jù)的均值,

為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。小數(shù)定標(biāo)規(guī)范化:通過移動(dòng)屬性值的小數(shù)位數(shù),將屬性值映射到[-1,1]之間,移動(dòng)的小數(shù)位數(shù)取決于屬性值絕對(duì)值的最大值。轉(zhuǎn)化函數(shù)為:數(shù)據(jù)變換——連續(xù)屬性離散化一些數(shù)據(jù)挖掘算法,特別是某些分類算法,要求數(shù)據(jù)是分類屬性形式,如ID3算法、Apriori算法等。這樣,常常需要將連續(xù)屬性變換成分類屬性,即連續(xù)屬性離散化。離散化的過程

連續(xù)屬性變換成分類屬性涉及兩個(gè)子任務(wù):決定需要多少個(gè)分類變量,以及確定如何將連續(xù)屬性值映射到這些分類值。常用的離散化方法

常用的無監(jiān)督離散化方法有:等寬法、等頻法、基于聚類分析的方法數(shù)據(jù)變換——屬性構(gòu)造在數(shù)據(jù)挖掘的過程中,為了幫助提取更有用的信息、挖掘更深層次的模式,提高挖掘結(jié)果的精度,需要利用已有的屬性集構(gòu)造出新的屬性,并加入到現(xiàn)有的屬性集合中。比如進(jìn)行防竊漏電診斷建模時(shí),已有的屬性包括進(jìn)入線路供入電量、該條線路上各大用戶用電量之和,記為供出電量。理論上供入電量和供出電量應(yīng)該是相等的,但是由于在傳輸過程中的電能損耗,會(huì)使得供入電量略大于供出電量,如果該條線路上的一個(gè)或多個(gè)大用戶存在竊漏電行為,會(huì)使供入電量遠(yuǎn)大于供出電量。反過來,為了判斷是否存在有竊漏電行為的大用戶,需要構(gòu)造一個(gè)新的關(guān)鍵指標(biāo)--線損率,該過程就是構(gòu)造屬性,由線戶關(guān)系圖(見圖6-1)。新構(gòu)造的屬性線損率計(jì)算公式如下:

線損率=(供入電量-供出電量)/供入電量線損率的范圍一般在3%~15%,如果遠(yuǎn)遠(yuǎn)超過該范圍,就可以認(rèn)為該條線路的大用戶很大可能存在竊漏電等用電異常行為。數(shù)據(jù)變換——小波變換基于小波變換的特征提取方法及其方法描述如下表所示:數(shù)據(jù)變換——小波變換小波基函數(shù)是一種具有局部支集的函數(shù),平均值為0,小波基函數(shù)滿足:

。Haar小波基函數(shù)是常用的小波基函數(shù),如下圖所示:數(shù)據(jù)變換——小波變換小波基函數(shù)伸縮和平移變換模型為:

其中,

為伸縮因子,

為平移因子。任意函數(shù)

的連續(xù)小波變換(CWT)為:上式的逆變換為:數(shù)據(jù)變換——小波變換基于小波變換的多尺度空間能量分布特征提取方法:第一步:對(duì)進(jìn)行二進(jìn)小波分解:

其中

是近似信號(hào),為低頻部分;

是細(xì)節(jié)信號(hào),為高頻部分,此時(shí)信號(hào)的頻帶分布圖如左下圖所示:第二步:計(jì)算出信號(hào)能量為:第三步:選擇第

層的近似信號(hào)和各層的細(xì)節(jié)信號(hào)的能量作為特征,構(gòu)造特征向量:1數(shù)據(jù)集成目錄數(shù)據(jù)清洗2數(shù)據(jù)變換3數(shù)據(jù)規(guī)約4Python主要數(shù)據(jù)預(yù)處理函數(shù)5數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約是將海量數(shù)據(jù)進(jìn)行規(guī)約,規(guī)約之后的數(shù)據(jù)仍接近于保持原數(shù)據(jù)的完整性,但數(shù)據(jù)量小得多。通過數(shù)據(jù)規(guī)約,可以達(dá)到:降低無效、錯(cuò)誤數(shù)據(jù)對(duì)建模的影響,提高建模的準(zhǔn)確性少量且具代表性的數(shù)據(jù)將大幅縮減數(shù)據(jù)挖掘所需的時(shí)間降低儲(chǔ)存數(shù)據(jù)的成本數(shù)據(jù)規(guī)約——屬性規(guī)約屬性規(guī)約常用方法有:合并屬性、逐步向前選擇、逐步向后刪除、決策樹歸納、主成分分析合并屬性初始屬性集:

規(guī)約后屬性集:逐步向前選擇

初始屬性集:

規(guī)約后屬性集:

數(shù)據(jù)規(guī)約——屬性規(guī)約逐步向后刪除

初始屬性集:

規(guī)約后屬性集:決策樹規(guī)約

初始屬性集:

規(guī)約后屬性集:

數(shù)據(jù)規(guī)約——屬性規(guī)約下面詳細(xì)介紹主成分分析計(jì)算步驟:1)設(shè)原始變量

的觀測n次數(shù)據(jù)矩陣為:2)將數(shù)據(jù)矩陣中心標(biāo)準(zhǔn)化。為了方便,將標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣仍然記為

。3)求相關(guān)系數(shù)矩陣

的定義為:

其中

4)求

的特征方程

的特征根

。5)確定主成分個(gè)數(shù)m:

,根據(jù)實(shí)際問題確定,一般取80%。

數(shù)據(jù)規(guī)約——屬性規(guī)約6)計(jì)算m個(gè)相應(yīng)的單位特征向量:7)計(jì)算主成分:數(shù)據(jù)規(guī)約——數(shù)值規(guī)約數(shù)值規(guī)約通過選擇替代的、較小的數(shù)據(jù)來減少數(shù)據(jù)量。數(shù)值規(guī)約可以是有參的,也可以是無參的。有參方法是使用一個(gè)模型來評(píng)估數(shù)據(jù),只需存放參數(shù),而不需要存放實(shí)際數(shù)據(jù)。有參的數(shù)值規(guī)約技術(shù)主要有兩種:回歸(線性回歸和多元回歸)和對(duì)數(shù)線性模型(近似離散屬性集中的多維概率分布)。數(shù)值規(guī)約常用方法有直方圖、用聚類數(shù)據(jù)表示實(shí)際數(shù)據(jù)、抽樣(采樣)、參數(shù)回歸法。1數(shù)據(jù)集成目錄數(shù)據(jù)清洗2數(shù)據(jù)變換3數(shù)據(jù)規(guī)約4Python主要數(shù)據(jù)預(yù)處理函數(shù)5Python主要數(shù)據(jù)處理函數(shù)Python中的插值、數(shù)據(jù)歸一化、主成分分析等與數(shù)據(jù)預(yù)處理相關(guān)的函數(shù)。Python主要數(shù)據(jù)處理函數(shù)interpolate功能:interpolate是scipy的一個(gè)子庫,下面包含了大量的插值函數(shù),如拉格朗日插值、樣條插值、高維插值等。使用之前需要用fromerpolateimport*引入相應(yīng)的插值函數(shù),讀者應(yīng)該根據(jù)需要到官網(wǎng)查找對(duì)應(yīng)的函數(shù)名。使用格式:f=erpolate.lagrange(x,y)這里僅僅展示了一維數(shù)據(jù)的拉格朗日插值的命令,其中x,y為對(duì)應(yīng)的自變量和因變量數(shù)據(jù)。插值完成后,可以通過f(a)計(jì)算新的插值結(jié)果。類似的還有樣條插值、多維數(shù)據(jù)插值等。unique功能:去除數(shù)據(jù)中的重復(fù)元素,得到單值元素列表。它既是numpy庫的一個(gè)函數(shù)(np.unique()),也是Series對(duì)象的一個(gè)方法。使用格式:np.unique(D)D是一維數(shù)據(jù),可以是list、array、Series;D.unique()D是Pandas的Series對(duì)象。Python主要數(shù)據(jù)處理函數(shù)——實(shí)例實(shí)例:求向量A中的單值元素,并返回相關(guān)索引。Python主要數(shù)據(jù)處理函數(shù)isnull/notnull()功能:判斷每個(gè)元素是否空值/非空值。使用格式:D.isnull()/D.notnull()這里的D要求是Series對(duì)象,返回一個(gè)布爾Series??梢酝ㄟ^D[D.isnull()]或D[D.notnul

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論