數(shù)據(jù)可視化分析(Excel 2016+Tableau)(第2版)【課件】 第3章 數(shù)據(jù)處理_第1頁
數(shù)據(jù)可視化分析(Excel 2016+Tableau)(第2版)【課件】 第3章 數(shù)據(jù)處理_第2頁
數(shù)據(jù)可視化分析(Excel 2016+Tableau)(第2版)【課件】 第3章 數(shù)據(jù)處理_第3頁
數(shù)據(jù)可視化分析(Excel 2016+Tableau)(第2版)【課件】 第3章 數(shù)據(jù)處理_第4頁
數(shù)據(jù)可視化分析(Excel 2016+Tableau)(第2版)【課件】 第3章 數(shù)據(jù)處理_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)可視化分析12內(nèi)容第一節(jié)數(shù)據(jù)基本概念第二節(jié)數(shù)據(jù)來源第三節(jié)數(shù)據(jù)導(dǎo)入(P18)第四節(jié)數(shù)據(jù)清洗第五節(jié)數(shù)據(jù)加工(P47)第六節(jié)數(shù)據(jù)抽樣第三章數(shù)據(jù)處理3.1數(shù)據(jù)的基本概念3數(shù)據(jù)處理概述數(shù)據(jù)是對(duì)事實(shí)、概念或指令的一種表達(dá)形式,可由人工或自動(dòng)化裝置進(jìn)行處理。數(shù)據(jù)經(jīng)過解釋并賦予一定的意義之后,便成為信息。數(shù)據(jù)處理是指對(duì)數(shù)據(jù)的采集、存儲(chǔ)、檢索、加工、變換和傳輸?shù)取?shù)據(jù)處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對(duì)于某些特定的人們來說是有價(jià)值、有意義的數(shù)據(jù)。數(shù)據(jù)處理主要包括數(shù)據(jù)清洗,數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)提取、數(shù)據(jù)計(jì)算等,數(shù)據(jù)處理是數(shù)據(jù)分析的前提,對(duì)有效數(shù)據(jù)的分析才有意義。3.1數(shù)據(jù)的基本概念4字段與記錄字段:事物或現(xiàn)象的某種屬性,可以簡單理解為一個(gè)表中列的屬性。記錄:事物或現(xiàn)象的某種屬性的具體表現(xiàn),也成為數(shù)據(jù)或?qū)傩灾怠?shù)據(jù)需要由字段與記錄共同組合才有意義。工號(hào)姓名性別部門職務(wù)婚姻狀況出生日期年齡進(jìn)公司時(shí)間本公司工齡學(xué)歷0001AAA1男管理層總經(jīng)理已婚1963/12/12552013/01/087博士0002AAA2男管理層副總經(jīng)理已婚1965/06/18542013/01/087碩士0003AAA3女管理層副總經(jīng)理已婚1979/10/22392013/01/087本科0004AAA4男管理層職員已婚1986/11/01322014/09/245本科0005AAA5女管理層職員已婚1982/08/26372013/08/086本科0006AAA6女人事部職員離異1983/05/15362015/11/284本科0007AAA7男人事部經(jīng)理已婚1982/09/16362015/03/094本科0008AAA8男人事部副經(jīng)理未婚1972/03/19472013/04/106本科0009AAA9男人事部職員已婚1978/05/04412013/05/266本科0010AAA10男人事部職員已婚1981/06/24382016/11/113大專3.1數(shù)據(jù)的基本概念5數(shù)據(jù)類型Excel中最常用的數(shù)據(jù)類型:數(shù)值、文本、日期。選擇Excel中的任意一列或任意一個(gè)單元格,單擊鼠標(biāo)右鍵,在彈出的菜單中選擇“設(shè)置單元格格式”,會(huì)彈出“設(shè)置單元格格式”對(duì)話框。3.1數(shù)據(jù)的基本概念6數(shù)據(jù)表數(shù)據(jù)表由字段、記錄和數(shù)據(jù)類型構(gòu)成。工號(hào)姓名性別部門職務(wù)婚姻狀況出生日期年齡進(jìn)公司時(shí)間本公司工齡學(xué)歷0001AAA1男管理層總經(jīng)理已婚1963/12/12552013/01/087博士0002AAA2男管理層副總經(jīng)理已婚1965/06/18542013/01/087碩士0003AAA3女管理層副總經(jīng)理已婚1979/10/22392013/01/087本科0004AAA4男管理層職員已婚1986/11/01322014/09/245本科0005AAA5女管理層職員已婚1982/08/26372013/08/086本科0006AAA6女人事部職員離異1983/05/15362015/11/284本科0007AAA7男人事部經(jīng)理已婚1982/09/16362015/03/094本科0008AAA8男人事部副經(jīng)理未婚1972/03/19472013/04/106本科0009AAA9男人事部職員已婚1978/05/04412013/05/266本科0010AAA10男人事部職員已婚1981/06/24382016/11/113大專數(shù)據(jù)類型轉(zhuǎn)換日期型轉(zhuǎn)換成文本型73.1數(shù)據(jù)的基本概念8數(shù)據(jù)表設(shè)計(jì)的基本要求序號(hào)設(shè)計(jì)要求1數(shù)據(jù)表由標(biāo)題行(字段)與數(shù)據(jù)部分(記錄)組成;2第一行是列標(biāo)題,字段名不能重復(fù);3從第二行開始都是數(shù)據(jù)部分,數(shù)據(jù)部分的每一行數(shù)據(jù)成為一個(gè)記錄;4數(shù)據(jù)部分不允許出現(xiàn)空行或空列;5數(shù)據(jù)表中沒有合并單元格存在;6數(shù)據(jù)表與其他數(shù)據(jù)之間應(yīng)該留出至少一個(gè)空白行和一個(gè)空白列;7數(shù)據(jù)表需要以一維表的形式存儲(chǔ),遇到二維表應(yīng)進(jìn)行維度轉(zhuǎn)換。3.1數(shù)據(jù)的基本概念9一維表和二維表的理解Excel中常用數(shù)據(jù)表分為一維表和二維表,此處的二維表不同于關(guān)系模型中的二維表和關(guān)系表。一維表適合存儲(chǔ)數(shù)據(jù)、記錄數(shù)據(jù),一般作為數(shù)據(jù)源使用。二維表更符合視覺習(xí)慣,常用于展示數(shù)據(jù)。一維表具有兩個(gè)典型特征:(1)單元格中的數(shù)據(jù)屬性等于對(duì)應(yīng)的列標(biāo)題;(2)所有列標(biāo)題之間的關(guān)系不是排除性的選填關(guān)系。判斷依據(jù):每一列是否是一個(gè)獨(dú)立的參數(shù)。如果有兩列或多列是同類參數(shù)那就是二維表。參考資源:/graphic/fddd2d80ecf10133bed309aa491216b3.html103.1數(shù)據(jù)的基本概念11二維表與一維表的轉(zhuǎn)換依次按下Alt、D、P,進(jìn)入數(shù)據(jù)表透視向?qū)А_x擇【多重合并計(jì)算數(shù)據(jù)區(qū)域】、創(chuàng)建【數(shù)據(jù)透視表】3.1數(shù)據(jù)的基本概念12二維表與一維表的轉(zhuǎn)換選擇【創(chuàng)建單頁字段】,點(diǎn)擊【下一步】,進(jìn)入工作表區(qū)域選擇界面。3.1數(shù)據(jù)的基本概念13二維表與一維表的轉(zhuǎn)換直接用鼠標(biāo)選擇需要轉(zhuǎn)換的數(shù)據(jù)區(qū)域并點(diǎn)擊【添加】,隨后選擇【下一步】。3.1數(shù)據(jù)的基本概念14二維表與一維表的轉(zhuǎn)換直接用鼠標(biāo)選定數(shù)據(jù)透視表要放置起始位置,點(diǎn)擊“完成”。3.1數(shù)據(jù)的基本概念15二維表與一維表的轉(zhuǎn)換生成的數(shù)據(jù)透視表如下所示,注意【求和項(xiàng):值】,左鍵雙擊【總計(jì)】項(xiàng)數(shù)據(jù),即可生成相應(yīng)的一維表。3.1數(shù)據(jù)的基本概念16二維表與一維表的轉(zhuǎn)換雙擊【155】生成的一維表雙擊【77】生成的一維表3.1數(shù)據(jù)的基本概念17二維表與一維表的轉(zhuǎn)換修飾后的一維表。3.2數(shù)據(jù)來源18數(shù)據(jù)庫

公司或單位的業(yè)務(wù)數(shù)據(jù)庫存有第一手也是最真實(shí)的數(shù)據(jù),如原始Excel數(shù)據(jù),Access、SQLServer、Oracle數(shù)據(jù)庫等。公開出版物

通過公開出版物獲取需要的數(shù)據(jù),如查找《中國統(tǒng)計(jì)年鑒》、《中國社會(huì)統(tǒng)計(jì)年鑒》,《世界經(jīng)濟(jì)年鑒等統(tǒng)計(jì)年鑒》或報(bào)告等。互聯(lián)網(wǎng)

從互聯(lián)網(wǎng)上,特別是各種搜索引擎可以幫我們快速找到所需的數(shù)據(jù)。市場調(diào)查

為滿足特定的需求,針對(duì)目標(biāo)客戶設(shè)置調(diào)查問卷等,從互聯(lián)網(wǎng)、微信、線下等相關(guān)渠道經(jīng)整理后獲取相關(guān)數(shù)據(jù)。練習(xí)與實(shí)踐191、練習(xí):教材P53,習(xí)題12、實(shí)踐:利用網(wǎng)絡(luò)資料,找到2016-2020年國民總收入、國內(nèi)生產(chǎn)總值、第一產(chǎn)業(yè)增加值、第二產(chǎn)業(yè)增加值、第三產(chǎn)業(yè)增加值、

人均國內(nèi)生產(chǎn)總值

203.3數(shù)據(jù)導(dǎo)入文本文件數(shù)據(jù)導(dǎo)入1、新建一個(gè)Excel文件,單擊【數(shù)據(jù)】選項(xiàng)卡,選擇【獲取外部數(shù)據(jù)】中的【自文本】。213.3數(shù)據(jù)導(dǎo)入文本文件數(shù)據(jù)導(dǎo)入2、在彈出的對(duì)話框中選擇待導(dǎo)入的文本文件,單擊【導(dǎo)入】。223.3數(shù)據(jù)導(dǎo)入文本文件數(shù)據(jù)導(dǎo)入3、在彈出的文本向?qū)У?步對(duì)話框進(jìn)行原始數(shù)據(jù)相關(guān)設(shè)置,見紅色框標(biāo)記處,隨后點(diǎn)擊【下一步】。233.3數(shù)據(jù)導(dǎo)入文本文件數(shù)據(jù)導(dǎo)入4、在彈出的文本向?qū)У?步對(duì)話框進(jìn)行分隔符號(hào)設(shè)置,見紅色框標(biāo)記處,隨后點(diǎn)擊【下一步】。243.3數(shù)據(jù)導(dǎo)入文本文件數(shù)據(jù)導(dǎo)入5、在彈出的文本向?qū)У?步對(duì)話框中可設(shè)置每列的屬性,也可設(shè)置某些列不導(dǎo)入,見紅色框標(biāo)記處,隨后點(diǎn)擊【完成】。253.3數(shù)據(jù)導(dǎo)入文本文件數(shù)據(jù)導(dǎo)入6、用鼠標(biāo)選擇導(dǎo)入數(shù)據(jù)放置的起始位置,上一步【完成】后彈出的對(duì)話框中會(huì)自動(dòng)錄入【數(shù)據(jù)的放置位置】,見紅色框標(biāo)記處,隨后點(diǎn)擊【確定】。263.3數(shù)據(jù)導(dǎo)入文本文件數(shù)據(jù)導(dǎo)入7、上一步中點(diǎn)擊【確定】按鈕后,即完成文本數(shù)據(jù)導(dǎo)入Excel文件中。

備注:生成的Excel文件可能存在需要微調(diào)整的情況。273.3數(shù)據(jù)導(dǎo)入網(wǎng)絡(luò)數(shù)據(jù)源導(dǎo)入1、新建一個(gè)Excel文件,單擊【數(shù)據(jù)】選項(xiàng)卡,選擇【獲取外部數(shù)據(jù)】中的【自網(wǎng)站】。283.3數(shù)據(jù)導(dǎo)入網(wǎng)絡(luò)數(shù)據(jù)源導(dǎo)入2、在彈出的“新建Web查詢”界面的【地址】欄輸入數(shù)據(jù)源所在網(wǎng)址,點(diǎn)擊【轉(zhuǎn)到】進(jìn)入所在頁面。293.3數(shù)據(jù)導(dǎo)入網(wǎng)絡(luò)數(shù)據(jù)源導(dǎo)入3、找到需要的數(shù)據(jù)表,單擊數(shù)據(jù)表左側(cè)黃色箭頭按鈕,黃色箭頭將變成藍(lán)色?,隨后點(diǎn)擊【導(dǎo)入】。303.3數(shù)據(jù)導(dǎo)入網(wǎng)絡(luò)數(shù)據(jù)源導(dǎo)入4、選擇導(dǎo)入數(shù)據(jù)放置的位置,點(diǎn)擊【確定】。313.3數(shù)據(jù)導(dǎo)入網(wǎng)絡(luò)數(shù)據(jù)源導(dǎo)入5、至此,網(wǎng)頁中選擇的數(shù)據(jù)表中內(nèi)容就導(dǎo)入到Excel表中,根據(jù)情況進(jìn)行格式微調(diào)整。323.3數(shù)據(jù)導(dǎo)入網(wǎng)絡(luò)數(shù)據(jù)源更新即時(shí)刷新:單擊“數(shù)據(jù)”選項(xiàng)卡,選擇“全部刷新”或“刷新”即可。333.3數(shù)據(jù)導(dǎo)入網(wǎng)絡(luò)數(shù)據(jù)源更新即時(shí)刷新:也可通過選中數(shù)據(jù)表中任意單元格,單擊鼠標(biāo)右鍵,在彈出的快捷菜單中選擇【刷新】命令。343.3數(shù)據(jù)導(dǎo)入網(wǎng)絡(luò)數(shù)據(jù)源更新定時(shí)刷新與打開文件時(shí)自動(dòng)刷新:選中數(shù)據(jù)表中任意單元格,單擊鼠標(biāo)右鍵,在彈出的快捷菜單中選擇【數(shù)據(jù)范圍屬性】命令。353.3數(shù)據(jù)導(dǎo)入網(wǎng)絡(luò)數(shù)據(jù)源更新定時(shí)刷新與打開文件時(shí)自動(dòng)刷新:在彈出的對(duì)話框中進(jìn)行“刷新控件”的設(shè)置,如下如所示:練習(xí)與實(shí)踐36練習(xí):教材P53,習(xí)題2。373.4數(shù)據(jù)清洗

數(shù)據(jù)清洗的主要事項(xiàng)為后面的數(shù)據(jù)加工提供完整、簡潔、正確的數(shù)據(jù)。清除掉不必要的重復(fù)數(shù)據(jù)填充缺失的數(shù)據(jù)檢測邏輯錯(cuò)誤的數(shù)據(jù)

數(shù)據(jù)清洗的主要目的383.4數(shù)據(jù)清洗重復(fù)數(shù)據(jù)的處理數(shù)據(jù)工具法

第1步:選定篩選區(qū)域,單擊【數(shù)據(jù)】選項(xiàng)卡,選擇“數(shù)據(jù)工具”中的【刪除重復(fù)值】按鈕,如下圖所示:393.4數(shù)據(jù)清洗重復(fù)數(shù)據(jù)的處理數(shù)據(jù)工具法

第2步:在彈出的“刪除重復(fù)值”對(duì)話框中,勾選一個(gè)或多個(gè)包含重復(fù)值的列,然后單擊“確定”按鈕,如下圖所示:403.4數(shù)據(jù)清洗重復(fù)數(shù)據(jù)的處理數(shù)據(jù)工具法

第3步:此時(shí)可以看到數(shù)據(jù)區(qū)域的重復(fù)值已經(jīng)被刪除,并彈出刪除重復(fù)值的提示框,點(diǎn)擊【確定】按鈕即可。如下圖所示:413.4數(shù)據(jù)清洗重復(fù)數(shù)據(jù)的處理高級(jí)篩選法

第1步:選中需要篩選的數(shù)據(jù)區(qū)域,單擊“數(shù)據(jù)”選項(xiàng)卡,在“排序和篩選”中選擇“高級(jí)”按鈕。如右圖所示:423.4數(shù)據(jù)清洗重復(fù)數(shù)據(jù)的處理高級(jí)篩選法

第2步:在彈出的“高級(jí)篩選”對(duì)話框中進(jìn)行篩選設(shè)置,并在設(shè)置好后點(diǎn)擊“確定”。如右圖所示:433.4數(shù)據(jù)清洗重復(fù)數(shù)據(jù)的處理高級(jí)篩選法

第3步:篩選結(jié)果如右圖中A13起始部分?jǐn)?shù)據(jù)區(qū)域所示。

溫馨提示:如果第2步中選擇“在原有區(qū)域顯示篩選結(jié)果”,顯示結(jié)果將以隱藏方式處理重復(fù)記錄。443.4數(shù)據(jù)清洗重復(fù)數(shù)據(jù)的處理函數(shù)法——P35

原理:利用主鍵唯一性,通過COUNTIF(范圍,條件)函數(shù)實(shí)現(xiàn)重復(fù)數(shù)據(jù)的識(shí)別。

第1步:主鍵列后面插入空白列,并在該列第一個(gè)單元格輸入公式COUNTIF(A:A,A1),回車,在該列其他單元格進(jìn)行公式復(fù)制。

第2步:刪除公式列中統(tǒng)計(jì)數(shù)值大于1的記錄,使所有行的統(tǒng)計(jì)數(shù)值都變成1即可。公式含義:在A列所有數(shù)據(jù)中,與A1中數(shù)據(jù)相同的數(shù)據(jù)計(jì)數(shù)。453.4數(shù)據(jù)清洗重復(fù)數(shù)據(jù)的處理?xiàng)l件格式法——P35

原理:利用Excel條件格式功能對(duì)“重復(fù)值”進(jìn)行特殊格式顯示,進(jìn)而根據(jù)顯示結(jié)果和應(yīng)用需求,對(duì)重復(fù)項(xiàng)進(jìn)行合理刪除。練習(xí)P53練習(xí)3Countif練習(xí)

計(jì)算各年份出生的人數(shù)46473.4數(shù)據(jù)清洗缺失數(shù)據(jù)的處理數(shù)據(jù)缺失可以接受的標(biāo)準(zhǔn)是缺失值在10%以下。數(shù)據(jù)缺失產(chǎn)生的原因分析。數(shù)據(jù)缺失常用的處理方法:方法一:用一個(gè)樣本統(tǒng)計(jì)量的值代替缺失值,最典型的做法是使用該變量的樣本平均值代替缺失值。方法二:用一個(gè)統(tǒng)計(jì)模型計(jì)算出來的值去代替缺失值。方法三:將有缺失值的記錄刪除,這樣將導(dǎo)致樣本量的減少。方法四:將有缺失的記錄保留,只在相應(yīng)的分析中做必要的排除。483.4數(shù)據(jù)清洗缺失數(shù)據(jù)的處理數(shù)據(jù)缺失的定位和替換493.4數(shù)據(jù)清洗邏輯錯(cuò)誤數(shù)據(jù)的處理使用if(),輔以and或or找出錯(cuò)誤并加以修改。if函數(shù)形式:IF(Logical_test,Value_If_True,Value_If_False)。根據(jù)結(jié)果找出異常并修改。IF的語句單層IF語句IF語句的嵌套50練習(xí)51序號(hào)階段1<=20歲220--22歲3>=23歲統(tǒng)計(jì)各年齡段的學(xué)生人數(shù)523.5數(shù)據(jù)加工數(shù)據(jù)抽取菜單法第1步:為目標(biāo)數(shù)據(jù)添加空白列,并將設(shè)置該區(qū)域的目標(biāo)數(shù)據(jù)格式。533.5數(shù)據(jù)加工數(shù)據(jù)抽取菜單法第2步:選中需要分段的數(shù)據(jù),點(diǎn)擊“數(shù)據(jù)”選項(xiàng)卡中的“分列”,進(jìn)入“文本分列向?qū)?第1步”對(duì)話框,按照下圖設(shè)置后點(diǎn)擊“下一步”。543.5數(shù)據(jù)加工數(shù)據(jù)抽取菜單法第3步:在“文本分列向?qū)?第2步”對(duì)話框中,按照下圖設(shè)置后點(diǎn)擊“下一步”。553.5數(shù)據(jù)加工數(shù)據(jù)抽取菜單法第4步:在“文本分列向?qū)?第3步”對(duì)話框中,設(shè)置分段數(shù)據(jù)放置起始位置后,點(diǎn)擊“完成”。563.5數(shù)據(jù)加工數(shù)據(jù)抽取菜單法第5步:為分段生成的新數(shù)據(jù)列添加合適的字段名稱。573.5數(shù)據(jù)加工數(shù)據(jù)抽取函數(shù)法(1)借助Excel的LEFT()或RIGHT()等函數(shù)功能來實(shí)現(xiàn)沒有特定分隔符的字符提取。(2)LEFT(text,num_chars):表示從text的左邊開始,取nu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論