




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
新媒體數(shù)據(jù)分析與應(yīng)用第4章:新媒體數(shù)據(jù)的處理本章提綱CONTENTS數(shù)據(jù)清洗01數(shù)據(jù)加工024.1數(shù)據(jù)清洗第4章:新媒體數(shù)據(jù)的處理4.1數(shù)據(jù)清洗數(shù)據(jù)清洗指的是對數(shù)據(jù)進(jìn)行重新檢查,發(fā)現(xiàn)其中常見的錯誤,其目的主要在于刪除重復(fù)信息、糾正存在的錯誤,提高數(shù)據(jù)分析的準(zhǔn)確性。數(shù)據(jù)清洗的基本流程是先檢查數(shù)據(jù)中可能存在的錯誤,包括檢查數(shù)據(jù)與元數(shù)據(jù)的一致性,處理重復(fù)值和缺失值等。因為從數(shù)據(jù)庫中收集來的數(shù)據(jù)是從多個業(yè)務(wù)系統(tǒng)中抽取而來的,其中包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)之間有沖突,這些錯誤的或有沖突的數(shù)據(jù)顯然是人們不想要的。數(shù)據(jù)清洗就是把這類數(shù)據(jù)清洗掉,過濾不符合要求的數(shù)據(jù),具體而言就是將多余的重復(fù)的數(shù)據(jù)篩選清除,將確實的數(shù)據(jù)補充完整,將錯誤的數(shù)據(jù)糾正或刪除。對清洗后的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,能夠得到較為準(zhǔn)確的結(jié)論,從而能夠為管理決策提供支持。第4章:新媒體數(shù)據(jù)的處理
4.1.1重復(fù)數(shù)據(jù)的處理——自定義需要處理的數(shù)據(jù)表
首先,在Excel中自定義一個帶有重復(fù)數(shù)據(jù)和缺失數(shù)據(jù)的數(shù)據(jù)表,如下圖所示。圖中數(shù)據(jù)表的第二列含有缺失數(shù)據(jù),第三列含有重復(fù)數(shù)據(jù)。圖4-1第4章:新媒體數(shù)據(jù)的處理
4.1.1重復(fù)數(shù)據(jù)的處理——識別重復(fù)數(shù)據(jù)在處理重復(fù)數(shù)據(jù)之前,需要先對數(shù)據(jù)表中的重復(fù)數(shù)據(jù)進(jìn)行識別,尤其是當(dāng)數(shù)據(jù)量特別大的時候,這一步尤為重要。在Excel中共有四種識別重復(fù)數(shù)據(jù)的方法。countif函數(shù)的作用是對區(qū)域中滿足單個指定條件的單元格進(jìn)行計數(shù),其基本格式為countif(range,criteria),range表示想要計算的單元格范圍,criteria表示計算條件,其形式可以為數(shù)字、表達(dá)式或文本。如圖4-1中所示,在D2單元格中輸入函數(shù)表達(dá)式:=COUNTIF(C1:C4,C1),然后拖動單元格右下角的“+”號至D5單元格,顯示結(jié)果如圖4-2所示。1.函數(shù)法(使用countif函數(shù))圖4-2第4章:新媒體數(shù)據(jù)的處理
4.1.1重復(fù)數(shù)據(jù)的處理——識別重復(fù)數(shù)據(jù)在Excel中也可以直接使用功能導(dǎo)航區(qū)域的篩選功能直接篩選出非重復(fù)值,首先選擇數(shù)據(jù)單元格區(qū)域,然后選擇“數(shù)據(jù)”選項卡,找到“高級”對話框。在彈出的對話框中選擇“將篩選結(jié)果復(fù)制到其他位置”選項,復(fù)制到單元格,同時勾選“選擇不重復(fù)的記錄”復(fù)選框,單擊“確定”按鈕。2.高級篩選法結(jié)果:第4章:新媒體數(shù)據(jù)的處理
4.1.1重復(fù)數(shù)據(jù)的處理——識別重復(fù)數(shù)據(jù)使用條件格式法的突出顯示重復(fù)值的功能也可將重復(fù)值顯示出來?!伴_始”選項卡下依選擇“條件格式”→“突出顯示單元格規(guī)則”→“重復(fù)值”,在彈出的對話框中單擊“確定”按鈕。3.條件格式法重復(fù)值將顯示為淺紅填充色的深紅色文本利用條件格式法處理重復(fù)值的步驟第4章:新媒體數(shù)據(jù)的處理
4.1.1重復(fù)數(shù)據(jù)的處理——識別重復(fù)數(shù)據(jù)數(shù)據(jù)透視表法的原理類似于函數(shù)法,通過計算數(shù)據(jù)重復(fù)的頻次,出現(xiàn)2次及以上就說明該數(shù)據(jù)屬于重復(fù)項。其操作過程具體如下,在E1單元格單擊“插入”選項卡,選擇“數(shù)據(jù)透視表”選項,如下圖:4.?dāng)?shù)據(jù)透視表法利用數(shù)據(jù)透視表法處理重復(fù)值的步驟一第4章:新媒體數(shù)據(jù)的處理
4.1.1重復(fù)數(shù)據(jù)的處理——識別重復(fù)數(shù)據(jù)在彈出的對話框中,選擇要分析的區(qū)域為C1:C5,選擇放置數(shù)據(jù)透視表的位置為E1,單擊“確定”按鈕,如下圖。單擊生成的數(shù)據(jù)透視表,在右方“數(shù)據(jù)透視表字段”中勾選“收益(萬元)”選項,再將“收益(萬元)”選項拖動到“數(shù)值”區(qū)域,最后單擊“數(shù)值”下拉按鈕,在彈出的下拉列表中選擇“值字段設(shè)置”為“計數(shù)”,其結(jié)果如下圖所示。4.?dāng)?shù)據(jù)透視表法彈出“創(chuàng)建數(shù)據(jù)透視表”對話框利用數(shù)據(jù)透視表法處理重復(fù)值的結(jié)果圖第4章:新媒體數(shù)據(jù)的處理
4.1.1重復(fù)數(shù)據(jù)的處理——刪除重復(fù)數(shù)據(jù)利用上述四種方法中的任意一種即可查看數(shù)據(jù)中的重復(fù)數(shù)據(jù),之后便可采取刪除重復(fù)數(shù)據(jù)的操作。在Excel中刪除重復(fù)數(shù)據(jù)的具體操作如下:首先選擇所要處理的單元區(qū)域,在上方導(dǎo)航窗口選擇“數(shù)據(jù)”選項卡,在“數(shù)據(jù)工具”組中選擇“刪除重復(fù)項”選項。
刪除重復(fù)數(shù)據(jù)的步驟一第4章:新媒體數(shù)據(jù)的處理
4.1.1重復(fù)數(shù)據(jù)的處理——刪除重復(fù)數(shù)據(jù)在彈出的對話框中選擇“擴展選定區(qū)域”→“刪除重復(fù)項”→只勾選“列”→“確定”,最后Excel將彈出提示對話框,提示有多少重復(fù)值被刪除,有多少唯一值被保留。刪除重復(fù)數(shù)據(jù)的結(jié)果圖第4章:新媒體數(shù)據(jù)的處理
4.1.2缺失數(shù)據(jù)的處理缺失數(shù)據(jù)是指數(shù)據(jù)中某個或某些屬性的值存在缺失或不完整。缺失值產(chǎn)生的原因多種多樣,例如,由于數(shù)據(jù)收集或保存時造成的數(shù)據(jù)缺失,人的主觀失誤、歷史局限或有意隱瞞造成的數(shù)據(jù)缺失等。1.概念識別缺失數(shù)據(jù)的具體操作如下:選定需要處理的區(qū)域,單擊“開始”選項卡,單擊“編輯”組中的“查找和選擇”下拉按鈕在彈出的下拉菜單中單擊“定位條件”命令,在彈出的對話框中選擇“空值”單選按鈕。2.識別單擊“定位條件”命令
第4章:新媒體數(shù)據(jù)的處理
4.1.2缺失數(shù)據(jù)的處理在彈出的對話框中選擇“空值”單選按鈕,如圖所示。最終結(jié)果如右圖所示,所有含有空值的單元格均被顯示出來。選擇“空值”單選按鈕識別缺失數(shù)據(jù)的結(jié)果圖第4章:新媒體數(shù)據(jù)的處理
4.1.2缺失數(shù)據(jù)的處理(1)填充法保持單元格數(shù)據(jù)區(qū)域中所有空值的選中狀態(tài),按“=”鍵,再按“↑”鍵,最后按“Ctrl+Enter”快捷鍵,即可將所有空值都填充為所在組對應(yīng)的第一個單元中的值。3.處理利用填充法處理缺失數(shù)據(jù)的結(jié)果圖第4章:新媒體數(shù)據(jù)的處理
4.1.2缺失數(shù)據(jù)的處理(2)查找替換法當(dāng)缺失值以某種特殊標(biāo)識出現(xiàn)時,可以采用查找替換的方式進(jìn)行處理,除了單擊“查找和替換”選項卡,還可以使用快捷鍵進(jìn)行查找和替換??旖萱I“Ctrl+H”可實現(xiàn)替換功能,快捷鍵“Ctrl+F”可實現(xiàn)查找功能。首先對原始的數(shù)據(jù)進(jìn)行修改,在一列的缺失值位置全部輸入“#NA”,表示缺失值。按下“Ctrl+F”快捷鍵進(jìn)行查找,在彈出的對話框中輸入“#NA”進(jìn)行查找,單擊“查找全部”按鈕,其結(jié)果如圖所示。3.處理利用查找法查看缺失數(shù)據(jù)的結(jié)果圖第4章:新媒體數(shù)據(jù)的處理
4.1.2缺失數(shù)據(jù)的處理查看完缺失數(shù)據(jù)后,按下“Ctrl+H”快捷鍵進(jìn)行替換,在對應(yīng)的文本框內(nèi)輸入內(nèi)容,將缺失值“#NA”替換為“50”,單擊“全部替換”按鈕,如圖所示。3.處理利用替換法替換缺失數(shù)據(jù)的結(jié)果圖第4章:新媒體數(shù)據(jù)的處理4.1.3檢查數(shù)據(jù)的錯誤在實際的數(shù)據(jù)分析中,數(shù)據(jù)還可能存在其他類型的錯誤,并不是只有重復(fù)數(shù)據(jù)和缺失數(shù)據(jù)。在Excel中可以使用“數(shù)據(jù)有效性”來進(jìn)行錯誤數(shù)據(jù)的檢查,數(shù)據(jù)有效性中存在多種檢查的規(guī)則。下面以一個簡單的例子來說明。利用4.1.2節(jié)中查找替換法的原始數(shù)據(jù),檢查是否存在缺失值及大于4的整數(shù)。選定A和B兩列作為需要檢查的區(qū)域,單擊上方導(dǎo)航欄中的“數(shù)據(jù)”選項卡,單擊“數(shù)據(jù)有效性”命令,在彈出的下拉菜單中選擇“數(shù)據(jù)有效性”選項,如下圖所示。選擇“數(shù)據(jù)有效性”選項第4章:新媒體數(shù)據(jù)的處理4.1.3檢查數(shù)據(jù)的錯誤彈出“數(shù)據(jù)有效性”對話框中,在“允許”下拉列表中選擇“整數(shù)”,在“數(shù)值”下拉列表中選擇“小于或等于”,在“最大值”文本框中輸入40,同時取消勾選“忽略空值”,單擊確定,如下圖所示?!皵?shù)據(jù)有效性”對話框第4章:新媒體數(shù)據(jù)的處理4.1.3檢查數(shù)據(jù)的錯誤設(shè)定完數(shù)據(jù)有效性檢查的規(guī)則后,再單擊“圈釋無效數(shù)據(jù)”命令,即可篩選出不在有效性規(guī)則內(nèi)的數(shù)據(jù),其結(jié)果如下圖所示。利用數(shù)據(jù)有效性檢查數(shù)據(jù)的結(jié)果圖4.2數(shù)據(jù)加工在一般情況下,數(shù)據(jù)經(jīng)過清洗后,依然無法滿足數(shù)據(jù)分析需求,還要經(jīng)過進(jìn)一步的加工處理,最終形成簡潔、規(guī)范、清晰的樣本數(shù)據(jù),這個過程通常包括數(shù)據(jù)抽取、數(shù)據(jù)計算、數(shù)據(jù)分組和數(shù)據(jù)轉(zhuǎn)換。第4章:新媒體數(shù)據(jù)的處理
4.2.1數(shù)據(jù)抽取字段拆分是指為了截取某一字段中的部分信息,將該字段拆分成兩個或多個字段。例如,身份證號碼中包含地區(qū)編碼和出生年月日信息。首先隨機輸入5個身份證號碼,如下圖所示。(注意:在輸入此部分?jǐn)?shù)據(jù)前,要先清除數(shù)據(jù)有效性規(guī)則,否則可能會報錯)1.字段拆分對數(shù)據(jù)庫中現(xiàn)有的字段進(jìn)行整合加工,以形成分析所需要的新的字段,即為數(shù)據(jù)抽取。它包括字段拆分和隨機抽樣。隨機輸入5個虛擬身份證號碼數(shù)據(jù)表第4章:新媒體數(shù)據(jù)的處理
4.2.1數(shù)據(jù)抽取使用MID函數(shù)分別提取前6位地區(qū)編碼,第7位到第10位是出生年份,第11到14位為出生日期。MID函數(shù)的格式是MID(text,start_num,num_chars),text是指需要抽取的文本字符串,start_num是指定字符串的開始位置,num_chars是指定提取的字符數(shù)量。因此,在B2單元格輸入函數(shù)公式:=MID(A2,1,6)表示對A2單元格中的文本字符串,從第1個位置開始,抽取6個數(shù)字,即為地區(qū)編碼。同樣在C2單元格輸入函數(shù)公式:=MID(A2,7,4)表示出生年份,在D2單元格輸入函數(shù)公式:=MID(A2,11,4)表示出生日期。最后在各列拖動右下角的“+”號,套用函數(shù)格式,將各列分別命名為“地區(qū)編碼”、“出生年份”和“出生日期”,結(jié)果如下圖所示。利用MID函數(shù)進(jìn)行字段拆分的結(jié)果圖第4章:新媒體數(shù)據(jù)的處理
4.2.1數(shù)據(jù)抽取隨機抽樣是按照隨機的原則,也就是保證總體中每個樣本都有同等的機會被抽中。在對海量級數(shù)據(jù)進(jìn)行計算時,如果要對所有數(shù)據(jù)進(jìn)行計算,往往難度較大,因此對數(shù)據(jù)進(jìn)行隨機抽樣就很有必要。首先新建一個空白表,在A1單元格輸入公式:=RAND(),即生成一個范圍[0,1]的服從均勻分布的隨機數(shù),套用格式至A25單元格,即生成25個隨機數(shù),如右圖所示。2.隨機抽樣利用RAND函數(shù)生成25個隨機數(shù)第4章:新媒體數(shù)據(jù)的處理
4.2.1數(shù)據(jù)抽取首先加載“數(shù)據(jù)分析工具”,依次單擊上方導(dǎo)航欄的“文件”→“選項”→“加載項”,選擇“分析工具庫”選項,單擊對話框下方“轉(zhuǎn)到”按鈕,如右圖所示。2.隨機抽樣加載“數(shù)據(jù)分析工具”第4章:新媒體數(shù)據(jù)的處理
4.2.1數(shù)據(jù)抽取然后勾選“分析工具庫”復(fù)選框,單擊“確定”按鈕,在導(dǎo)航欄“數(shù)據(jù)”選項卡下就會出現(xiàn)“數(shù)據(jù)分析”選項,如右圖所示。2.隨機抽樣利用數(shù)據(jù)分析工具進(jìn)行隨機抽樣的步驟一第4章:新媒體數(shù)據(jù)的處理
4.2.1數(shù)據(jù)抽取單擊“數(shù)據(jù)分析”選項,在彈出的對話框中選擇“抽樣”分析工具,“輸入?yún)^(qū)域”選擇A1:A25,“隨機樣本數(shù)”選擇10,“輸出區(qū)域”選擇B1:B10,單擊“確定”按鈕,如右圖所示。2.隨機抽樣“抽樣”對話框第4章:新媒體數(shù)據(jù)的處理
4.2.1數(shù)據(jù)抽取結(jié)果如圖所示,成功隨機抽取10個樣本。需要注意的是,由于使用的是隨機數(shù),每次單擊時隨機數(shù)都會發(fā)生變化,故圖中數(shù)據(jù)會不一致,但這不影響常規(guī)數(shù)據(jù)的隨機抽樣。2.隨機抽樣利用數(shù)據(jù)分析工具進(jìn)行隨機抽樣的結(jié)果圖第4章:新媒體數(shù)據(jù)的處理
4.2.2數(shù)據(jù)計算有時候源數(shù)據(jù)并不能滿足需求,因此需要對獲取的數(shù)據(jù)源進(jìn)行簡單計算,得到想要的數(shù)據(jù),以便更好地進(jìn)行數(shù)據(jù)分析。例如有一組銷售數(shù)據(jù),需要分別計算各產(chǎn)品的銷售額和總計的銷售額,利用簡單的函數(shù)計算即可完成。原始的銷售數(shù)據(jù)表第4章:新媒體數(shù)據(jù)的處理
4.2.2數(shù)據(jù)計算首先,在D2單元格輸入公式:=B2*C2,套用格式至D4,獲得各個產(chǎn)品對應(yīng)的銷售額。然后在B5單元格輸入公式:=SUM(B2:B4),套用格式至D5,得到總銷量和總銷售額,結(jié)果如下圖所示。利用函數(shù)進(jìn)行簡單計算的結(jié)果圖第4章:新媒體數(shù)據(jù)的處理
4.2.2數(shù)據(jù)計算當(dāng)然,也可以利用導(dǎo)航欄“開始”選項卡下面的“編輯”選項,選擇“自動求和”等函數(shù)進(jìn)行計算,如下圖所示。利用“編輯”選項進(jìn)行簡單計算第4章:新媒體數(shù)據(jù)的處理
4.2.3數(shù)據(jù)分組數(shù)據(jù)分組是按照數(shù)據(jù)分析的目的,將原始的數(shù)據(jù)源按照一定的規(guī)則劃分成不同的組別,分組后的數(shù)據(jù)包含某個范圍的數(shù)據(jù),便于實現(xiàn)數(shù)據(jù)分析的目的。在Excel中可以使用IF函數(shù)進(jìn)行數(shù)據(jù)分組的操作。IF函數(shù)是一個邏輯判斷函數(shù),IF函數(shù)可對數(shù)值大小進(jìn)行判斷,并賦予相應(yīng)的分組標(biāo)簽。IF函數(shù)可表示為IF(logical_test,[value_if_true],[value_if_false]),其中l(wèi)ogical_test是條件表達(dá)式,即邏輯判斷條件,當(dāng)條件滿足時返回value_if_true,當(dāng)條件不滿足時返回value_if_false。首先,生成20個年齡數(shù)據(jù),然后在輸出單元格中輸入公式:=IF(A2<50,“(0,50)”,“[50,+∞”)),最后在輸出區(qū)域套用格式,輸出結(jié)果如右圖所示。利用IF函數(shù)進(jìn)行簡單分組的結(jié)果圖第4章:新媒體數(shù)據(jù)的處理
4.2.3數(shù)據(jù)分組當(dāng)想要分成多個組時,只需要在IF函數(shù)中嵌套IF函數(shù),例如,在圖4-31中的C2單元格中輸入公式:=IF(A
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三農(nóng)旅游項目策劃方案集錦
- 室內(nèi)裝飾設(shè)計合同
- 濟南2025年山東濟南市鋼城區(qū)所屬事業(yè)單位招聘初級綜合類崗位26人筆試歷年參考題庫附帶答案詳解
- 浙江國企招聘2024杭州億晟產(chǎn)業(yè)運營有限公司招聘2人筆試參考題庫附帶答案詳解
- 金華2025年浙江金華東陽市教育系統(tǒng)招聘事業(yè)編制教師60人筆試歷年參考題庫附帶答案詳解
- 茂名2025年第二次廣東茂名市公安局濱海新區(qū)分局招聘警務(wù)輔助人員22人筆試歷年參考題庫附帶答案詳解
- 蘇州2025年江蘇蘇州市中醫(yī)醫(yī)院西苑醫(yī)院蘇州醫(yī)院招聘編外護(hù)理人員75人筆試歷年參考題庫附帶答案詳解
- 蕪湖2025年安徽蕪湖南陵縣事業(yè)單位招聘16人筆試歷年參考題庫附帶答案詳解
- 珠海2025年廣東珠海市委政策研究室招聘合同制職員筆試歷年參考題庫附帶答案詳解
- 2022年一級建造師考試《建設(shè)工程法規(guī)及相關(guān)知識》真題及答案
- 畢業(yè)論文-樓道節(jié)能燈的設(shè)計與實現(xiàn)
- 工藝安全管理培訓(xùn)-設(shè)備變更管理課件
- 閱讀興趣小組活動記錄范文
- C型鋼檢驗報告
- 江西省房屋建筑與裝飾工程消耗量定額及統(tǒng)一基價表
- 高速公路攝影測量技術(shù)設(shè)計書
- 衛(wèi)生保潔管理方案及措施
- 湖北省鶴峰縣城市總體規(guī)劃(2016-2030)
- GB4789.2-2022食品安全國家標(biāo)準(zhǔn) 食品微生物學(xué)檢驗 菌落總數(shù)測定
- 萬畝現(xiàn)代蘋果產(chǎn)業(yè)示范園區(qū)項目實施計劃方案
- 2BEA水環(huán)真空泵使用說明書
評論
0/150
提交評論