版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Python與財(cái)經(jīng)大數(shù)據(jù)分析基礎(chǔ)第3章——數(shù)據(jù)清洗
CONTENTS目錄3.1數(shù)據(jù)標(biāo)簽重命名3.2缺失值處理3.3異常值處理3.4數(shù)據(jù)去重3.5數(shù)據(jù)替換3.6數(shù)據(jù)標(biāo)準(zhǔn)化3.7實(shí)操練習(xí)題
數(shù)據(jù)處理過(guò)程中,原始數(shù)據(jù)可能存在著各種不利于分析及后續(xù)處理的因素,如數(shù)據(jù)缺失、異常值等。這些因素不僅會(huì)影響數(shù)據(jù)建模,更會(huì)影響數(shù)據(jù)分析的結(jié)果,故數(shù)據(jù)清洗尤為重要。
數(shù)據(jù)清洗的目的包括兩點(diǎn):第一,通過(guò)清洗使數(shù)據(jù)可用;第二,讓數(shù)據(jù)變得更適合后續(xù)的分析過(guò)程。換句話說(shuō),“臟”的數(shù)據(jù)要洗,干凈的數(shù)據(jù)也要洗。3.1數(shù)據(jù)標(biāo)簽重命名3.1數(shù)據(jù)標(biāo)簽重命名批處理。DateFrame數(shù)據(jù)結(jié)構(gòu)支持批量地重命名行列標(biāo)簽,幫助我們將數(shù)據(jù)行列標(biāo)簽修改為符合自己習(xí)慣的或依照慣例使用的標(biāo)簽名稱,方便后續(xù)調(diào)用、代碼閱讀和理解。3.1缺失值處理3.2缺失值處理3.2
缺失值處理
(1)缺失值查看在pandas包中,可以使用isnull()與notnull()函數(shù)找到數(shù)據(jù)中的缺失值。其通過(guò)返回布爾值的方式幫助我們識(shí)別數(shù)據(jù)中的缺失值:若isnull()返回值為T(mén)rue,或notnull()返回值為False,則數(shù)據(jù)中存在缺失值。數(shù)據(jù)集大小不同時(shí)可使用不同的方法查看缺失值:對(duì)于容量較小的數(shù)據(jù)集,可以使用isnull()語(yǔ)句;對(duì)于容量較大的數(shù)據(jù)集,一般采取以下兩種方式:一是可以使用info函數(shù)查看,通過(guò)info函數(shù)可以查看字段的數(shù)據(jù)類型以及各字段下非空值的數(shù)量;二是使用對(duì)insull()輸出的布爾值求和來(lái)查看。3.2
缺失值處理
(2)缺失值刪除當(dāng)數(shù)據(jù)量較大或數(shù)據(jù)冗余時(shí),需要對(duì)存在缺失值的數(shù)據(jù)進(jìn)行過(guò)濾,可以使用dropna()函數(shù)刪除缺失值數(shù)據(jù),也可以選擇刪除整行或整列。該函數(shù)的具體語(yǔ)法如下所示:3.2
缺失值處理
(3)缺失值填充在處理缺失值的過(guò)程中,直接刪除缺失值是一種簡(jiǎn)單直接的辦法,但也有可能因此使得原數(shù)據(jù)中的重要信息丟失,本部分將介紹另一種處理缺失值的方法——缺失值填充,使用fillna()函數(shù)可以填充數(shù)據(jù)集中的空值。該函數(shù)的具體語(yǔ)法如下所示:3.2
缺失值處理3.3異常值處理3.3異常值處理異常值,是遠(yuǎn)離絕大多數(shù)樣本點(diǎn)的特殊群體,也稱為離群點(diǎn),這些異常值,在某些建模場(chǎng)景下會(huì)導(dǎo)致結(jié)論的錯(cuò)誤。其中一種典型的異常值即為極端值。極端值是指樣本中其數(shù)值明顯偏離其余值的個(gè)別樣本。在數(shù)據(jù)分析過(guò)程中,對(duì)數(shù)據(jù)集進(jìn)行異常值的識(shí)別與修正,是必不可少的一環(huán)。異常值檢測(cè)的方法包括常用法與建模法兩種。其中常用法包括:3σ方法、IQR方法與縮尾法;建模法包括:KNN算法(基于近鄰度異常點(diǎn)檢測(cè))、K-means(基于聚類方法的異常點(diǎn)檢測(cè))等。極端值的處理方式與異常值類似,進(jìn)行極端值檢測(cè)時(shí)常用到上述方法中的3σ方法、IQR方法與縮尾法。3.3異常值處理
3σ方法3σ方法是處理數(shù)據(jù)極端值最常用的方法。它是指按一定概率確定一個(gè)置信區(qū)間,將超過(guò)該置信區(qū)間的數(shù)據(jù)進(jìn)行剔除。3σ方法也存在一定局限性,在對(duì)正態(tài)或近似正態(tài)分布的數(shù)據(jù)進(jìn)行處理時(shí),它是一種以數(shù)據(jù)量充分大為前提(n>10)的方法,數(shù)據(jù)量過(guò)小時(shí)使用該方法剔除異常值是不夠可靠的。3σ方法的原則如下:μ為平均值,σ為標(biāo)準(zhǔn)差,數(shù)值分布在(μ-σ,μ+σ)的概率為0.6827;數(shù)值分布在(μ-2σ,μ+2σ)的概率為0.9545;數(shù)值分布在(μ-3σ,μ+3σ)的概率為0.9973。當(dāng)數(shù)據(jù)值集中在(μ-2σ,μ+2σ)區(qū)間時(shí),超過(guò)此范圍的概率不足5%,屬于小概率事件,可以認(rèn)為處于該區(qū)間外的數(shù)據(jù)為異常值;當(dāng)數(shù)據(jù)值集中在(μ-3σ,μ+3σ)區(qū)間時(shí),超過(guò)此范圍的概率不足0.3%,即超出該范圍的數(shù)據(jù)可以認(rèn)為是極端異常值。3.3異常值處理IQR方法四分位距(interquartilerange),是衡量一組數(shù)據(jù)離散程度的統(tǒng)計(jì)量,用IQR表示。其值等于第一四分位數(shù)(25%)和第三四分位數(shù)(75%)的差距,計(jì)算公式為:IQR=Q_3-Q_1定義異常值與極端異常值,表達(dá)式如下所示:3.3異常值處理縮尾法縮尾法(Winsorize)是一種處理極端值的方法。通常,縮尾處理將超出變量特定百分位范圍的數(shù)值替換為其特定百分位數(shù)值。進(jìn)行縮尾法處理異常值或極端值時(shí),將用到winsorize()函數(shù),在處理大樣本數(shù)據(jù)時(shí),縮尾處理比3σ方法高效。winsorize函數(shù)的具體語(yǔ)法如下所示:3.3異常值處理3.3異常值處理KNN算法(基于近鄰度的異常點(diǎn)檢測(cè))在進(jìn)行異常值判斷與處理時(shí),確定數(shù)據(jù)鄰近性度量比確定其統(tǒng)計(jì)分布更有意義,此時(shí),數(shù)據(jù)集的異常點(diǎn)是由其K-最近鄰(KNN)測(cè)定的。異常點(diǎn)測(cè)定對(duì)K值高度敏感。K值過(guò)小時(shí),少量的鄰近異常點(diǎn)可能導(dǎo)致較低的異常點(diǎn)得分;K值過(guò)大時(shí),點(diǎn)數(shù)少于K的簇中所有的對(duì)象都可能成為異常點(diǎn)。因此,為使K值的選取更具穩(wěn)健性,可以使用K個(gè)最近鄰的平均距離。該方法的優(yōu)勢(shì)在于簡(jiǎn)單、易操作,缺點(diǎn)在于對(duì)于參數(shù)的選取具有敏感性。在第十四章機(jī)器學(xué)習(xí)中,詳細(xì)講解KNN算法的原理與實(shí)戰(zhàn)。3.3異常值處理K-means算法(基于聚類方法的異常點(diǎn)檢測(cè))當(dāng)一個(gè)對(duì)象是基于聚類的離群點(diǎn)時(shí),如果該對(duì)象不強(qiáng)屬于任何簇,那么該對(duì)象屬于離群點(diǎn)。K-means算法是基于聚類的異常點(diǎn)檢測(cè)方法,其對(duì)異常點(diǎn)非常敏感,通過(guò)聚類檢測(cè)異常點(diǎn)時(shí),常會(huì)因?yàn)楫惓|c(diǎn)而影響聚類,從而導(dǎo)致結(jié)構(gòu)缺失有效性。因此,可以使用如下方法解決該問(wèn)題:對(duì)象聚類、刪除異常點(diǎn)、對(duì)象再次聚類?;诰€性與接近線性復(fù)雜度的聚類技術(shù)檢測(cè)異常點(diǎn)可能是高度有效的,但聚類算法產(chǎn)生的簇的質(zhì)量對(duì)該算法產(chǎn)生的異常點(diǎn)的質(zhì)量影響非常大。在十四章機(jī)器學(xué)習(xí)中,詳細(xì)講解K-means算法的原理與實(shí)戰(zhàn)。3.4數(shù)據(jù)去重3.4
數(shù)據(jù)去重?cái)?shù)據(jù)去重是指在數(shù)據(jù)集中,找出重復(fù)的數(shù)據(jù)并將其刪除,只保存唯一的數(shù)據(jù)單元的過(guò)程。在數(shù)據(jù)預(yù)處理過(guò)程中,這是一項(xiàng)經(jīng)常性操作,數(shù)據(jù)去重會(huì)帶來(lái)很多好處,如節(jié)省存儲(chǔ)空間、提升寫(xiě)入性能和提高模型精度等。數(shù)據(jù)去重一般可以通過(guò)duplicated()和drop_duplicates()兩個(gè)函數(shù)實(shí)現(xiàn),下面進(jìn)行詳細(xì)介紹。3.4
數(shù)據(jù)去重(1)duplicated()函數(shù)使用duplicated()函數(shù)可以判斷數(shù)據(jù)中是否存在重復(fù)值,函數(shù)輸出結(jié)果將返回一個(gè)布爾序列來(lái)顯示各行是否有重復(fù)行,沒(méi)有重復(fù)行顯示為False,有重復(fù)行顯示為T(mén)rue。具體語(yǔ)法如下所示:3.4
數(shù)據(jù)去重(2)drop_duplicates()函數(shù)使用drop_duplicates()函數(shù)可以在找出重復(fù)值的同時(shí)將其刪除,只保存唯一的數(shù)據(jù)單元。具體語(yǔ)法如下所示:3.5數(shù)據(jù)替換3.5數(shù)據(jù)替換在進(jìn)行數(shù)據(jù)清洗時(shí),時(shí)常需要批量地替換或插入數(shù)據(jù),但單個(gè)修改一方面效率過(guò)低,另一方面也增加了出錯(cuò)的概率。Pandas提供了replace()函數(shù)和insert()函數(shù),能幫助我們高效地完成批量的數(shù)據(jù)替換和插入。(1)replace()函數(shù)replace()函數(shù)常用于數(shù)據(jù)的批量替換,如把字符串中的old(舊字符串)替換為new(新字符串)。具體語(yǔ)法如下所示:3.5數(shù)據(jù)替換3.5數(shù)據(jù)替換(2)insert()函數(shù)insert()函數(shù)用于將指定對(duì)象插入列表的指定位置。具體語(yǔ)法如下所示:3.6數(shù)據(jù)標(biāo)準(zhǔn)化3.6
數(shù)據(jù)標(biāo)準(zhǔn)化在數(shù)據(jù)分析之前,有時(shí)需要將各類數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理,便于利用標(biāo)準(zhǔn)值進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)標(biāo)準(zhǔn)化在統(tǒng)計(jì)中表現(xiàn)為統(tǒng)計(jì)數(shù)據(jù)的指數(shù)化,數(shù)據(jù)標(biāo)準(zhǔn)化處理主要包括數(shù)據(jù)同趨化處理和無(wú)量綱化處理兩個(gè)方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問(wèn)題,使所有指標(biāo)對(duì)測(cè)評(píng)方案的作用趨同;數(shù)據(jù)無(wú)量綱化處理主要解決數(shù)據(jù)的可比性。3.6
數(shù)據(jù)標(biāo)準(zhǔn)化(1)Z-Score方法Z-Score方法基于原始數(shù)據(jù)的均值和標(biāo)準(zhǔn)差實(shí)現(xiàn)標(biāo)準(zhǔn)化,公式為:Z-Score適合大多數(shù)類型數(shù)據(jù),也是很多工具的默認(rèn)標(biāo)準(zhǔn)化方法。然而,這是一種中心化方法,會(huì)改變?cè)袛?shù)據(jù)的分布結(jié)構(gòu),不適合用于對(duì)稀疏數(shù)據(jù)處理。3.6
數(shù)據(jù)標(biāo)準(zhǔn)化(2)min-max標(biāo)準(zhǔn)化Min-Max標(biāo)準(zhǔn)化是指對(duì)原始數(shù)據(jù)進(jìn)行線性變換,將值映射到[0,1]之間,公式為:min-max標(biāo)準(zhǔn)化方法保留了原始數(shù)據(jù)之間的相互關(guān)系,但是如果標(biāo)準(zhǔn)化后,新輸入的數(shù)據(jù)超過(guò)了原始數(shù)據(jù)的取值范圍,即不在原始區(qū)間中,則會(huì)產(chǎn)生越界錯(cuò)誤。因此這種方法適用于原始數(shù)據(jù)的取值范圍已經(jīng)確定的情況。3.7實(shí)操練習(xí)題3.6
數(shù)據(jù)標(biāo)準(zhǔn)化對(duì)已經(jīng)讀取的資產(chǎn)負(fù)債表數(shù)據(jù),進(jìn)行以下操作:1.對(duì)列標(biāo)簽進(jìn)行重命名,標(biāo)簽名為CSMAR數(shù)據(jù)庫(kù)中給定的中文名稱;2.查看數(shù)據(jù)缺失的情況,并刪除資產(chǎn)合計(jì)為缺失的行;3.對(duì)資產(chǎn)合計(jì)的極端值按照上下1%進(jìn)行縮尾處理;4.對(duì)其他應(yīng)收款的缺失值用0替換;5.對(duì)資產(chǎn)合計(jì)進(jìn)行Z-Score和Min-Max標(biāo)準(zhǔn)化。Python與財(cái)經(jīng)大數(shù)據(jù)分析基礎(chǔ)第4章
股權(quán)性質(zhì)信息整理——應(yīng)用數(shù)據(jù)轉(zhuǎn)置
CONTENTS目錄4.1T轉(zhuǎn)置4.2行列互換4.3數(shù)據(jù)透視4.4數(shù)組轉(zhuǎn)置4.5應(yīng)用實(shí)踐“轉(zhuǎn)置”是一個(gè)數(shù)學(xué)名詞,常用于矩陣的計(jì)算過(guò)程中。設(shè)A為m×n階矩陣(即m行n列),第i行j列的元素為Aij,把A的行列互相交換從而得到一個(gè)新的矩陣AT,這一過(guò)程稱為矩陣的轉(zhuǎn)置。在Python中,數(shù)據(jù)轉(zhuǎn)置是將原數(shù)據(jù)的行列互換,以更符合研究邏輯,更方便地進(jìn)行計(jì)算和分析,在數(shù)據(jù)預(yù)處理時(shí)經(jīng)常使用,為之后的數(shù)據(jù)篩選、合并、統(tǒng)計(jì)操作提供方便。本章將介紹以下五個(gè)Pandas模塊與數(shù)據(jù)轉(zhuǎn)置有關(guān)的函數(shù)。4.1T轉(zhuǎn)置4.1T轉(zhuǎn)置最簡(jiǎn)單直接的轉(zhuǎn)置操作是將數(shù)據(jù)沿對(duì)角線翻轉(zhuǎn),在這個(gè)過(guò)程中數(shù)據(jù)的形狀發(fā)生了變化,數(shù)據(jù)邏輯也發(fā)生了變化,但是數(shù)據(jù)的對(duì)應(yīng)關(guān)系保持不變。為了更方便地進(jìn)行數(shù)據(jù)處理和分析,充分利用行列的關(guān)系表達(dá),我們時(shí)常使用transpose()函數(shù)對(duì)原數(shù)據(jù)進(jìn)行轉(zhuǎn)置操作,轉(zhuǎn)置效果如下圖所示:4.1T轉(zhuǎn)置transpose()函數(shù)的具體語(yǔ)法如下所示:DateFrame.T是DateFrame.transpose()的別名和簡(jiǎn)寫(xiě)方法。為方便起見(jiàn),可以直接使用DateFrame.T進(jìn)行轉(zhuǎn)置操作。transpose()函數(shù)只能進(jìn)行最簡(jiǎn)單的整體翻轉(zhuǎn)操作,想要對(duì)數(shù)據(jù)進(jìn)行更復(fù)雜的行列變換處理,需要其他的轉(zhuǎn)置方式。4.2行列互換4.2行列互換如果數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜,索引層數(shù)較多,則需要使用stack()函數(shù)與unstack()函數(shù)進(jìn)行操作。stack()是將數(shù)據(jù)的列索引轉(zhuǎn)換為行索引,unstack()是將數(shù)據(jù)的行索引轉(zhuǎn)換為列索引,從而改變數(shù)據(jù)樣式,以更符合研究習(xí)慣和后續(xù)調(diào)用。4.2行列互換stack()函數(shù)與unstack()函數(shù)的基本語(yǔ)法類似,stack()函數(shù)將列中指定levels的列,堆疊到行索引中;unstack()函數(shù)將行中指定levels的行,堆疊到列索引中。具體語(yǔ)法如下所示:4.2行列互換4.3數(shù)據(jù)透視4.3數(shù)據(jù)透視4.3.1melt()函數(shù)與stack()函數(shù)和unstack()函數(shù)進(jìn)行行列索引的互換不同,melt()函數(shù)是將列索引轉(zhuǎn)化成數(shù)據(jù),從而將DataFrame從寬格式轉(zhuǎn)換為長(zhǎng)格式。melt()函數(shù)的使用效果如下圖所示,類似于Excel中的數(shù)據(jù)逆透視。4.3數(shù)據(jù)透視melt()函數(shù)的主要任務(wù)是將DataFrame壓縮為一種格式,其中一列或多列是標(biāo)識(shí)符變量,而其余列被認(rèn)為是測(cè)量變量,且不會(huì)旋轉(zhuǎn)到行軸,只剩下兩個(gè)非標(biāo)識(shí)符列,分別為變量variable和值value。具體語(yǔ)法如下所示:4.3數(shù)據(jù)透視4.3.2
pivot()函數(shù)與melt()函數(shù)相反,pivot()函數(shù)是將數(shù)據(jù)轉(zhuǎn)化成行列索引,使用來(lái)自指定索引的唯一值來(lái)形成DataFrame的軸,進(jìn)行數(shù)據(jù)重塑,從而將DataFrame從長(zhǎng)格式轉(zhuǎn)換為寬格式。pivot()函數(shù)的使用效果如下圖所示,類似于Excel中的數(shù)據(jù)透視。具體語(yǔ)法如下所示:4.3數(shù)據(jù)透視4.4數(shù)據(jù)轉(zhuǎn)置4.1數(shù)據(jù)轉(zhuǎn)置本節(jié)主要針對(duì)Numpy模塊的多維數(shù)組進(jìn)行轉(zhuǎn)置操作介紹。下圖分別是二維數(shù)組和三維數(shù)組的轉(zhuǎn)置效果圖。Numpy模塊中有三種方式能夠?qū)?shù)組進(jìn)行轉(zhuǎn)置操作,分別是T屬性、transpose()函數(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年05月北京2024屆中國(guó)民生銀行資產(chǎn)管理部畢業(yè)生“未來(lái)銀行家”暑期管培生校園招考筆試歷年參考題庫(kù)附帶答案詳解
- 2025年度房地產(chǎn)開(kāi)發(fā)項(xiàng)目承包商資金保障擔(dān)保合同3篇
- 2025年度拆遷安置補(bǔ)償合同模板(含房屋買賣)4篇
- 2025年度廠房用電安全改造安裝合同范本4篇
- 2025年度城市地下綜合管廊建設(shè)場(chǎng)地平整與施工合同4篇
- 2025年度茶園場(chǎng)地承包合同范本-茶樹(shù)種植基地合作經(jīng)營(yíng)4篇
- 2024年04月江蘇交通銀行信用卡中心蘇州分中心校園招考筆試歷年參考題庫(kù)附帶答案詳解
- 臨時(shí)暑期工勞動(dòng)協(xié)議格式2024年版B版
- 2025年度茶園采摘加工一體化項(xiàng)目合作協(xié)議4篇
- 2025年度建筑材料運(yùn)輸安全管理與培訓(xùn)合同3篇
- 2024人教新版七年級(jí)上冊(cè)英語(yǔ)單詞英譯漢默寫(xiě)表
- 《向心力》參考課件4
- 2024至2030年中國(guó)膨潤(rùn)土行業(yè)投資戰(zhàn)略分析及發(fā)展前景研究報(bào)告
- 【地理】地圖的選擇和應(yīng)用(分層練) 2024-2025學(xué)年七年級(jí)地理上冊(cè)同步備課系列(人教版)
- 2024年深圳中考數(shù)學(xué)真題及答案
- 土方轉(zhuǎn)運(yùn)合同協(xié)議書(shū)
- Module 3 Unit 1 Point to the door(教學(xué)設(shè)計(jì))-2024-2025學(xué)年外研版(三起)英語(yǔ)三年級(jí)上冊(cè)
- 智能交通信號(hào)燈安裝合同樣本
- 安全生產(chǎn)法律法規(guī)清單(2024年5月版)
- 江蘇省連云港市2023-2024學(xué)年八年級(jí)下學(xué)期期末道德與法治試卷(含答案解析)
- 2024年大學(xué)試題(宗教學(xué))-佛教文化筆試考試歷年高頻考點(diǎn)試題摘選含答案
評(píng)論
0/150
提交評(píng)論