![如何整理原始數(shù)據(jù)_第1頁(yè)](http://file4.renrendoc.com/view/e2bed416eaa74f93bcf79d8730b37a55/e2bed416eaa74f93bcf79d8730b37a551.gif)
![如何整理原始數(shù)據(jù)_第2頁(yè)](http://file4.renrendoc.com/view/e2bed416eaa74f93bcf79d8730b37a55/e2bed416eaa74f93bcf79d8730b37a552.gif)
![如何整理原始數(shù)據(jù)_第3頁(yè)](http://file4.renrendoc.com/view/e2bed416eaa74f93bcf79d8730b37a55/e2bed416eaa74f93bcf79d8730b37a553.gif)
![如何整理原始數(shù)據(jù)_第4頁(yè)](http://file4.renrendoc.com/view/e2bed416eaa74f93bcf79d8730b37a55/e2bed416eaa74f93bcf79d8730b37a554.gif)
![如何整理原始數(shù)據(jù)_第5頁(yè)](http://file4.renrendoc.com/view/e2bed416eaa74f93bcf79d8730b37a55/e2bed416eaa74f93bcf79d8730b37a555.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
主講教師:劉巧曼江蘇經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院商務(wù)數(shù)據(jù)分析基礎(chǔ)如何整理原始數(shù)據(jù)數(shù)據(jù)預(yù)處理的定義數(shù)據(jù)預(yù)處理的方法數(shù)據(jù)預(yù)處理的工具010203數(shù)據(jù)問(wèn)題數(shù)據(jù)缺失數(shù)據(jù)噪聲數(shù)據(jù)冗余數(shù)據(jù)不一致離群點(diǎn)/異常值數(shù)據(jù)集不均衡數(shù)據(jù)顆粒過(guò)細(xì)數(shù)據(jù)重復(fù)數(shù)據(jù)預(yù)定義就是接近數(shù)據(jù)采集中,產(chǎn)生問(wèn)題的加工修復(fù)過(guò)程數(shù)據(jù)預(yù)處理的定義數(shù)據(jù)預(yù)處理的定義數(shù)據(jù)預(yù)定義就是接近數(shù)據(jù)采集中,產(chǎn)生問(wèn)題的加工修復(fù)過(guò)程(1)數(shù)據(jù)缺失(Incomplete)是屬性值為空的情況。如職業(yè)=“”(2)數(shù)據(jù)噪聲(Noisy)是數(shù)據(jù)值不合常理的情況。如薪水=“-100”(3)數(shù)據(jù)不一致(Inconsistent)是數(shù)據(jù)前后存在矛盾的情況。如年齡=“42”vs.生日=“01/09/1985”(4)數(shù)據(jù)冗余(Redundant)是數(shù)據(jù)量或者屬性數(shù)目超出數(shù)據(jù)分析需要的情況。(5)數(shù)據(jù)集不均衡(Imbalance)是各個(gè)類別的數(shù)據(jù)量相差懸殊的情況。(6)離群點(diǎn)/異常值(Outliers)是遠(yuǎn)離數(shù)據(jù)集中其余部分的數(shù)據(jù)。比如其他人的體重都是70公斤左右,小王的體重確實(shí)120公斤(7)數(shù)據(jù)重復(fù)(Duplicate)是在數(shù)據(jù)集中出現(xiàn)多次的數(shù)據(jù),比如小王的同樣一個(gè)訂單在系統(tǒng)里出現(xiàn)了多次。(8)數(shù)據(jù)顆粒過(guò)細(xì),比如小王,小李,小劉的體重分布是160.1,160.2,160.4公斤,那么過(guò)細(xì)的數(shù)據(jù)不利于得到一個(gè)代表性的結(jié)果數(shù)據(jù)預(yù)處理的定義數(shù)據(jù)隔裂,需要能夠連接關(guān)聯(lián)小王是不是挑剔客戶?平臺(tái)想知道小王下單數(shù)量小王下單金額小王退款金額小王評(píng)論情況其他等等數(shù)據(jù)清理缺失值處理離群和噪聲值處理異常范圍值處理特征轉(zhuǎn)換與創(chuàng)建函數(shù)變換數(shù)據(jù)集成數(shù)據(jù)規(guī)約數(shù)據(jù)變換數(shù)據(jù)清理根據(jù)異常情況的不同,常有以下幾種:1.缺失值處理(1)丟棄(2)用估計(jì)值填充,比如平均值2.離群和噪聲值處理用數(shù)據(jù)挖掘的方法判斷是否需要丟棄,比如距離是否合理,是否和其他點(diǎn)有關(guān)聯(lián)等3.異常范圍值處理異常范圍類型是指記錄數(shù)據(jù)超過(guò)了當(dāng)前場(chǎng)景下屬性可取值的范圍,比如記錄一個(gè)人的身高為300cm,這顯然也是不合理的。對(duì)于這種情況,如果數(shù)據(jù)記錄異常是有規(guī)律的,比如身高記錄下的數(shù)據(jù)依次為“312,365,373...”那么可能原紀(jì)錄是“112,165,173...”(都多記了200)。如果異常值是隨機(jī)的,那么可以將這些異常值當(dāng)做缺失值處理數(shù)據(jù)預(yù)處理的方法數(shù)據(jù)預(yù)處理的方法數(shù)據(jù)清理數(shù)據(jù)集成連接關(guān)聯(lián)數(shù)據(jù)規(guī)約數(shù)據(jù)變換小王的手機(jī)號(hào)碼和身份證號(hào)碼在各個(gè)數(shù)據(jù)集都有,那么基于這個(gè)屬性,從訂單系統(tǒng)可以獲得商品金額,從客服系統(tǒng)獲取投訴歷史等數(shù)據(jù)預(yù)處理的方法數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)規(guī)約數(shù)據(jù)變換離散化或者區(qū)間化二元化規(guī)范化或者標(biāo)準(zhǔn)化特征轉(zhuǎn)換與創(chuàng)建函數(shù)變換主要方法為如下:1.離散化或者區(qū)間化實(shí)現(xiàn)離散化脫離不開一些標(biāo)準(zhǔn),比如按照2作為一個(gè)臺(tái)階,將[0,10]離散為[0,2),[2,4),[4,6),[6,8),[8,10]等。另外一種離散化的方法是盡量保證每個(gè)區(qū)間包含相同的數(shù)據(jù)量。比如,我現(xiàn)在有100個(gè)用戶,按照身高從最低1.50米到2.10米排列?,F(xiàn)在我需要離散化為三個(gè)區(qū)間,那么我對(duì)身高的離散化為[1.50,1.68),[1.68,1.76),[1.76,2.10],同時(shí)確保每個(gè)區(qū)間的人數(shù)分布為33,33,34個(gè)。2.二元化有些算法要求兩個(gè)值,比如0,1.那么比如我們要判斷小王或者小李是否是挑剔的客戶,我們把數(shù)據(jù)變成:(小王)-(是否挑剔:1);(小李)-(是否挑剔:0)。3.規(guī)范化或者標(biāo)準(zhǔn)化我們需要把小王的身高轉(zhuǎn)換到0和1直接的一個(gè)值,便于后面的模型分析。在10個(gè)人里面,身高最高200CM,最低170CM,通過(guò)標(biāo)準(zhǔn)化公式(身高-最小身高)/(最大身高-最小身高),我們把小王180CM的身高轉(zhuǎn)換為:(180-170)/(200-170)=10/30=0.333.4.特征轉(zhuǎn)換與創(chuàng)建假如屬性集中包含“質(zhì)量”和"體積”這兩種屬性,那么可以利用“密度=質(zhì)量/體積“的方法得到密度屬性,這樣就創(chuàng)建了一個(gè)新的屬性。當(dāng)然,需不需要這么做完全取決于目的了。5.函數(shù)變換等。有的時(shí)候數(shù)據(jù)的屬性值比較大,計(jì)算比較麻煩,那么通過(guò)Log這樣的函數(shù),可以把數(shù)值拉到比較小的范圍。數(shù)據(jù)預(yù)處理的方法數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)規(guī)約數(shù)據(jù)聚集抽樣人為規(guī)約數(shù)據(jù)變換數(shù)據(jù)聚集:多個(gè)數(shù)據(jù)對(duì)象合并成一個(gè)數(shù)據(jù)對(duì)象,比如把小王,小李,小劉歸到一個(gè)“小鎮(zhèn)青年”的組,那么這個(gè)組的年齡或者身高屬性,可能會(huì)通過(guò)這三個(gè)人的屬性平均計(jì)算抽樣:如果數(shù)據(jù)量非常大,也許只要計(jì)算其中的10%就能得到一個(gè)可用的結(jié)果,那么重新按照10%的數(shù)量抽樣即可。人為規(guī)約:人為給定一些規(guī)則,比如小王,小李,小劉的“小鎮(zhèn)青年”組的專業(yè)屬性不能用均值,可以按照下面規(guī)則來(lái)定:機(jī)械學(xué)科、自動(dòng)化學(xué)科、材料學(xué)科”同一歸為“工程學(xué)”。除此之外,有一些降維的方式,可以做自動(dòng)化降維(一)SqoopSqoop是一個(gè)在Hadoop和關(guān)系數(shù)據(jù)庫(kù)服務(wù)器之間傳送數(shù)據(jù)的工具,方便大量數(shù)據(jù)的導(dǎo)入導(dǎo)出工作導(dǎo)入數(shù)據(jù)庫(kù)實(shí)例:bin/sqoopimport\--connectjdbc:mysql://172.16.71.27:3306/babasport\--usernameroot\--passwordroot\--tabletest_tb(二)MapReduceMapReduce是Hadoop體系結(jié)構(gòu)中極為重要的核心構(gòu)件之一。作為一個(gè)分布式的并行計(jì)算模型,MapReduce包含的兩個(gè)單詞分別具有特定的含義:“Map”表示“映射”;“Reduce”表示“歸約”。數(shù)據(jù)預(yù)處理的工具數(shù)據(jù)預(yù)處理的工具(三)PigPig是一個(gè)面向過(guò)程的高級(jí)程序設(shè)計(jì)語(yǔ)言,能夠分析大型數(shù)據(jù)集,并將結(jié)果表示為數(shù)據(jù)流(四)SparkSpark是一個(gè)針對(duì)大數(shù)據(jù)的分布式計(jì)算框架。Spark可以用來(lái)構(gòu)建大規(guī)模、低延遲的數(shù)據(jù)處理應(yīng)用程序求和示例:rdd.filter(_.trim().length()>0).map(line=>(line.trim(),"")).groupByKey().sortByKey(true).keys.foreach(println)
數(shù)據(jù)預(yù)處理的工具(五)SparkStreaming作為Spark的組成部分,SparkStreaming主要針對(duì)流計(jì)算任務(wù),其能夠與S
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國(guó)協(xié)同辦公行業(yè)市場(chǎng)調(diào)研及投資戰(zhàn)略規(guī)劃建議報(bào)告
- 企業(yè)員工退休合同范本
- 冷庫(kù)儲(chǔ)存生姜合同范本
- 農(nóng)村買墓地合同范本
- 會(huì)場(chǎng)責(zé)任合同范本
- 保價(jià)合同范本
- 2025年無(wú)機(jī)陶瓷膜超濾設(shè)備行業(yè)深度研究分析報(bào)告
- 安徽省壽縣眾興鎮(zhèn)方言淺談
- 會(huì)場(chǎng)綠植租賃合同范例
- 公司組建合同范例
- 食品感官評(píng)價(jià)員培訓(xùn)方案
- 蘇教版一年級(jí)上、下冊(cè)勞動(dòng)與技術(shù)教案
- 柔性生產(chǎn)線技術(shù)及其影響
- 智研咨詢發(fā)布:2023年中國(guó)醫(yī)院后勤服務(wù)行業(yè)市場(chǎng)現(xiàn)狀、發(fā)展概況、未來(lái)前景分析報(bào)告
- 七上-動(dòng)點(diǎn)、動(dòng)角問(wèn)題12道好題-解析
- 《企業(yè)所得稅法稅法》課件
- 山東曲阜的孔廟之旅
- 一到六年級(jí)語(yǔ)文詞語(yǔ)表人教版
- 市場(chǎng)營(yíng)銷中的社交媒體策略與實(shí)踐培訓(xùn)課件精
- 泌尿外科教學(xué)查房課件
- 中煤集團(tuán)綜合管理信息系統(tǒng)運(yùn)維服務(wù)解決方案-V3.0
評(píng)論
0/150
提交評(píng)論