




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第4章數(shù)據(jù)預(yù)處理22-7月-241數(shù)據(jù)集成目錄數(shù)據(jù)清洗2數(shù)據(jù)變換3數(shù)據(jù)規(guī)約4Python主要數(shù)據(jù)預(yù)處理函數(shù)5在數(shù)據(jù)挖掘的過程中,數(shù)據(jù)預(yù)處理占到了整個(gè)過程的60%。數(shù)據(jù)預(yù)處理的主要任務(wù)包括數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。處理過程如圖所示:數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù),處理缺失值、異常值等。缺失值處理處理缺失值的方法可分為三類:刪除記錄、數(shù)據(jù)插補(bǔ)和不處理。其中常用的數(shù)據(jù)插補(bǔ)方法見下表。缺失值處理插值方法有Hermite插值、分段插值、樣條插值法,而最主要的有拉格朗日插值法和牛頓插值法。以下便對(duì)這兩種進(jìn)行介紹。拉格朗日插值法
第一步:
求已知的n個(gè)點(diǎn)的
次多項(xiàng)式:
將個(gè)點(diǎn)的坐標(biāo)代入多項(xiàng)式函數(shù)
第二步:
將缺失的函數(shù)值對(duì)應(yīng)的點(diǎn)
代入插值多項(xiàng)式得到缺失值的近似值
解出拉格朗日插值多項(xiàng)式缺失值處理牛頓插值法
在區(qū)間
上,函數(shù)
關(guān)于一個(gè)節(jié)點(diǎn)
的零階差商
兩個(gè)節(jié)點(diǎn)和的一階差商一般地,
階差商就是
階差商的差商
缺失值處理牛頓插值法
根據(jù)差商的定義,牛頓插值多項(xiàng)式可以表示
牛頓插值多項(xiàng)式的余項(xiàng)公式可以表示
其中,,。對(duì)于區(qū)間
中的任意一點(diǎn),則有。缺失值處理——實(shí)例餐飲系統(tǒng)中的銷量數(shù)據(jù)可能出現(xiàn)缺失值,下表為某餐廳一段時(shí)間的銷量表,其中有一天的數(shù)據(jù)缺失,用拉格朗日插值與牛頓插值法對(duì)缺失值補(bǔ)缺。異常值處理在數(shù)據(jù)預(yù)處理時(shí),異常值是否剔除,需視具體情況而定,因?yàn)橛行┊惓V悼赡芴N(yùn)含著有用的信息。異常值處理常用方法見下表:1數(shù)據(jù)集成目錄數(shù)據(jù)清洗2數(shù)據(jù)變換3數(shù)據(jù)規(guī)約4Python主要數(shù)據(jù)預(yù)處理函數(shù)5數(shù)據(jù)集成數(shù)據(jù)挖掘需要的數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中,數(shù)據(jù)集成就是將多個(gè)數(shù)據(jù)源合并存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉庫)中的過程。在數(shù)據(jù)集成時(shí),來自多個(gè)數(shù)據(jù)源的現(xiàn)實(shí)世界實(shí)體的表達(dá)形式是不一樣的,不一定是匹配的,要考慮實(shí)體識(shí)別問題和屬性冗余問題,從而把源數(shù)據(jù)在最低層上加以轉(zhuǎn)換、提煉和集成。數(shù)據(jù)集成——實(shí)體識(shí)別實(shí)體識(shí)別的任務(wù)是檢測和解決同名異義、異名同義、單位不統(tǒng)一的沖突。如:同名異義:數(shù)據(jù)源A中的屬性ID和數(shù)據(jù)源B中的屬性ID分別描述的是菜品編號(hào)和訂單編號(hào),即描述的是不同的實(shí)體。異名同義:數(shù)據(jù)源A中的sales_dt和數(shù)據(jù)源B中的sales_date都是是描述銷售日期的,即A.sales_dt=B.sales_date。單位不統(tǒng)一:描述同一個(gè)實(shí)體分別用的是國際單位和中國傳統(tǒng)的計(jì)量單位。數(shù)據(jù)集成——冗余屬性識(shí)別數(shù)據(jù)集成往往導(dǎo)致數(shù)據(jù)冗余,如:同一屬性多次出現(xiàn)同一屬性命名不一致導(dǎo)致重復(fù)不同源數(shù)據(jù)的仔細(xì)整合能減少甚至避免數(shù)據(jù)冗余與不一致,以提高數(shù)據(jù)挖掘的速度和質(zhì)量。對(duì)于冗余屬性要先分析檢測到后再將其刪除。有些冗余屬性可以用相關(guān)分析檢測到。給定兩個(gè)數(shù)值型的屬性A和B,根據(jù)其屬性值,可以用相關(guān)系數(shù)度量一個(gè)屬性在多大程度上蘊(yùn)含另一個(gè)屬性。1數(shù)據(jù)集成目錄數(shù)據(jù)清洗2數(shù)據(jù)變換3數(shù)據(jù)規(guī)約4Python主要數(shù)據(jù)預(yù)處理函數(shù)5數(shù)據(jù)變換主要是對(duì)數(shù)據(jù)進(jìn)行規(guī)范化的操作,將數(shù)據(jù)轉(zhuǎn)換成“適當(dāng)?shù)摹备袷剑赃m用于挖掘任務(wù)及算法的需要。數(shù)據(jù)變換——簡單函數(shù)變換簡單函數(shù)變換就是對(duì)原始數(shù)據(jù)進(jìn)行某些數(shù)學(xué)函數(shù)變換,常用的函數(shù)變換包括平方、開方、對(duì)數(shù)、差分運(yùn)算等,即:數(shù)據(jù)變換——規(guī)范化數(shù)據(jù)標(biāo)準(zhǔn)化(歸一化)處理是數(shù)據(jù)挖掘的一項(xiàng)基礎(chǔ)工作,不同評(píng)價(jià)指標(biāo)往往具有不同的量綱和量綱單位,數(shù)值間的差別可能很大,不進(jìn)行處理可能會(huì)影響到數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱和大小不一的影響,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個(gè)特定的區(qū)域,從而進(jìn)行綜合分析。如將工資收入屬性值映射到[-1,1]或者[0,1]之間。下面介紹三種規(guī)范化方法:最小-最大規(guī)范化、零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化數(shù)據(jù)變換——規(guī)范化最小-最大規(guī)范化:也稱為離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0,1]之間。
轉(zhuǎn)換函數(shù)如:
其中
為樣本數(shù)據(jù)的最大值,
為樣本數(shù)據(jù)的最小值。
為極差。零-均值規(guī)范化:也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,經(jīng)過處理的數(shù)據(jù)的平均數(shù)為0,標(biāo)準(zhǔn)差為1。轉(zhuǎn)化函數(shù)為:
其中
為原始數(shù)據(jù)的均值,
為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。小數(shù)定標(biāo)規(guī)范化:通過移動(dòng)屬性值的小數(shù)位數(shù),將屬性值映射到[-1,1]之間,移動(dòng)的小數(shù)位數(shù)取決于屬性值絕對(duì)值的最大值。轉(zhuǎn)化函數(shù)為:數(shù)據(jù)變換——連續(xù)屬性離散化一些數(shù)據(jù)挖掘算法,特別是某些分類算法,要求數(shù)據(jù)是分類屬性形式,如ID3算法、Apriori算法等。這樣,常常需要將連續(xù)屬性變換成分類屬性,即連續(xù)屬性離散化。離散化的過程
連續(xù)屬性變換成分類屬性涉及兩個(gè)子任務(wù):決定需要多少個(gè)分類變量,以及確定如何將連續(xù)屬性值映射到這些分類值。常用的離散化方法
常用的無監(jiān)督離散化方法有:等寬法、等頻法、基于聚類分析的方法數(shù)據(jù)變換——屬性構(gòu)造在數(shù)據(jù)挖掘的過程中,為了幫助提取更有用的信息、挖掘更深層次的模式,提高挖掘結(jié)果的精度,需要利用已有的屬性集構(gòu)造出新的屬性,并加入到現(xiàn)有的屬性集合中。比如進(jìn)行防竊漏電診斷建模時(shí),已有的屬性包括進(jìn)入線路供入電量、該條線路上各大用戶用電量之和,記為供出電量。理論上供入電量和供出電量應(yīng)該是相等的,但是由于在傳輸過程中的電能損耗,會(huì)使得供入電量略大于供出電量,如果該條線路上的一個(gè)或多個(gè)大用戶存在竊漏電行為,會(huì)使供入電量遠(yuǎn)大于供出電量。反過來,為了判斷是否存在有竊漏電行為的大用戶,需要構(gòu)造一個(gè)新的關(guān)鍵指標(biāo)--線損率,該過程就是構(gòu)造屬性,由線戶關(guān)系圖(見圖6-1)。新構(gòu)造的屬性線損率計(jì)算公式如下:
線損率=(供入電量-供出電量)/供入電量線損率的范圍一般在3%~15%,如果遠(yuǎn)遠(yuǎn)超過該范圍,就可以認(rèn)為該條線路的大用戶很大可能存在竊漏電等用電異常行為。數(shù)據(jù)變換——小波變換基于小波變換的特征提取方法及其方法描述如下表所示:數(shù)據(jù)變換——小波變換小波基函數(shù)是一種具有局部支集的函數(shù),平均值為0,小波基函數(shù)滿足:
。Haar小波基函數(shù)是常用的小波基函數(shù),如下圖所示:數(shù)據(jù)變換——小波變換小波基函數(shù)伸縮和平移變換模型為:
其中,
為伸縮因子,
為平移因子。任意函數(shù)
的連續(xù)小波變換(CWT)為:上式的逆變換為:數(shù)據(jù)變換——小波變換基于小波變換的多尺度空間能量分布特征提取方法:第一步:對(duì)進(jìn)行二進(jìn)小波分解:
其中
是近似信號(hào),為低頻部分;
是細(xì)節(jié)信號(hào),為高頻部分,此時(shí)信號(hào)的頻帶分布圖如左下圖所示:第二步:計(jì)算出信號(hào)能量為:第三步:選擇第
層的近似信號(hào)和各層的細(xì)節(jié)信號(hào)的能量作為特征,構(gòu)造特征向量:1數(shù)據(jù)集成目錄數(shù)據(jù)清洗2數(shù)據(jù)變換3數(shù)據(jù)規(guī)約4Python主要數(shù)據(jù)預(yù)處理函數(shù)5數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約是將海量數(shù)據(jù)進(jìn)行規(guī)約,規(guī)約之后的數(shù)據(jù)仍接近于保持原數(shù)據(jù)的完整性,但數(shù)據(jù)量小得多。通過數(shù)據(jù)規(guī)約,可以達(dá)到:降低無效、錯(cuò)誤數(shù)據(jù)對(duì)建模的影響,提高建模的準(zhǔn)確性少量且具代表性的數(shù)據(jù)將大幅縮減數(shù)據(jù)挖掘所需的時(shí)間降低儲(chǔ)存數(shù)據(jù)的成本數(shù)據(jù)規(guī)約——屬性規(guī)約屬性規(guī)約常用方法有:合并屬性、逐步向前選擇、逐步向后刪除、決策樹歸納、主成分分析合并屬性初始屬性集:
規(guī)約后屬性集:逐步向前選擇
初始屬性集:
規(guī)約后屬性集:
數(shù)據(jù)規(guī)約——屬性規(guī)約逐步向后刪除
初始屬性集:
規(guī)約后屬性集:決策樹規(guī)約
初始屬性集:
規(guī)約后屬性集:
數(shù)據(jù)規(guī)約——屬性規(guī)約下面詳細(xì)介紹主成分分析計(jì)算步驟:1)設(shè)原始變量
的觀測n次數(shù)據(jù)矩陣為:2)將數(shù)據(jù)矩陣中心標(biāo)準(zhǔn)化。為了方便,將標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣仍然記為
。3)求相關(guān)系數(shù)矩陣
的定義為:
其中
4)求
的特征方程
的特征根
。5)確定主成分個(gè)數(shù)m:
,根據(jù)實(shí)際問題確定,一般取80%。
數(shù)據(jù)規(guī)約——屬性規(guī)約6)計(jì)算m個(gè)相應(yīng)的單位特征向量:7)計(jì)算主成分:數(shù)據(jù)規(guī)約——數(shù)值規(guī)約數(shù)值規(guī)約通過選擇替代的、較小的數(shù)據(jù)來減少數(shù)據(jù)量。數(shù)值規(guī)約可以是有參的,也可以是無參的。有參方法是使用一個(gè)模型來評(píng)估數(shù)據(jù),只需存放參數(shù),而不需要存放實(shí)際數(shù)據(jù)。有參的數(shù)值規(guī)約技術(shù)主要有兩種:回歸(線性回歸和多元回歸)和對(duì)數(shù)線性模型(近似離散屬性集中的多維概率分布)。數(shù)值規(guī)約常用方法有直方圖、用聚類數(shù)據(jù)表示實(shí)際數(shù)據(jù)、抽樣(采樣)、參數(shù)回歸法。1數(shù)據(jù)集成目錄數(shù)據(jù)清洗2數(shù)據(jù)變換3數(shù)據(jù)規(guī)約4Python主要數(shù)據(jù)預(yù)處理函數(shù)5Python主要數(shù)據(jù)處理函數(shù)Python中的插值、數(shù)據(jù)歸一化、主成分分析等與數(shù)據(jù)預(yù)處理相關(guān)的函數(shù)。Python主要數(shù)據(jù)處理函數(shù)interpolate功能:interpolate是scipy的一個(gè)子庫,下面包含了大量的插值函數(shù),如拉格朗日插值、樣條插值、高維插值等。使用之前需要用fromerpolateimport*引入相應(yīng)的插值函數(shù),讀者應(yīng)該根據(jù)需要到官網(wǎng)查找對(duì)應(yīng)的函數(shù)名。使用格式:f=erpolate.lagrange(x,y)這里僅僅展示了一維數(shù)據(jù)的拉格朗日插值的命令,其中x,y為對(duì)應(yīng)的自變量和因變量數(shù)據(jù)。插值完成后,可以通過f(a)計(jì)算新的插值結(jié)果。類似的還有樣條插值、多維數(shù)據(jù)插值等。unique功能:去除數(shù)據(jù)中的重復(fù)元素,得到單值元素列表。它既是numpy庫的一個(gè)函數(shù)(np.unique()),也是Series對(duì)象的一個(gè)方法。使用格式:np.unique(D)D是一維數(shù)據(jù),可以是list、array、Series;D.unique()D是Pandas的Series對(duì)象。Python主要數(shù)據(jù)處理函數(shù)——實(shí)例實(shí)例:求向量A中的單值元素,并返回相關(guān)索引。Python主要數(shù)據(jù)處理函數(shù)isnull/notnull()功能:判斷每個(gè)元素是否空值/非空值。使用格式:D.isnull()/D.notnull()這里的D要求是Series對(duì)象,返回一個(gè)布爾Series??梢酝ㄟ^D[D.isnull()]或D[D.notnul
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 拆除定額合同范本
- 生態(tài)修復(fù)土方工程施工方案
- 湖北淺圓倉滑模施工方案
- 食品股權(quán)收購方案
- 科技中心如何影響全球經(jīng)濟(jì)發(fā)展格局
- 臥式設(shè)備水套更換施工方案
- 營口職業(yè)技術(shù)學(xué)院《建筑模型制作與工藝》2023-2024學(xué)年第二學(xué)期期末試卷
- 中北大學(xué)《普通生物化學(xué)綜合》2023-2024學(xué)年第二學(xué)期期末試卷
- 四川郵電職業(yè)技術(shù)學(xué)院《分析化學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 華中農(nóng)業(yè)大學(xué)《冶金工程與環(huán)境概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 定量包裝商品培訓(xùn)
- 毛戈平-+毛戈平深度報(bào)告:再論毛戈平商業(yè)模式與核心壁壘:個(gè)人IP+化妝學(xué)校+線下服務(wù)
- 第二章美容手術(shù)的特點(diǎn)及其實(shí)施中的基本原則美容外科學(xué)概論講解
- 山東省濰坊市2024-2025學(xué)年高三上學(xué)期1月期末考試生物試卷含答案
- 2025年“春訓(xùn)”學(xué)習(xí)心得體會(huì)例文(3篇)
- 中央2025年公安部部分直屬事業(yè)單位招聘84人筆試歷年參考題庫附帶答案詳解
- 人教版(2025新版)七年級(jí)下冊數(shù)學(xué)第七章 相交線與平行線 單元測試卷(含答案)
- 樂理知識(shí)考試題庫130題(含答案)
- 前言 馬克思主義中國化時(shí)代化的歷史進(jìn)程與理論成果
- 《消防安全評(píng)估檢查記錄》
- XXX廣播電視網(wǎng)絡(luò)公司關(guān)于推進(jìn)網(wǎng)格承包經(jīng)營方案
評(píng)論
0/150
提交評(píng)論