數(shù)據(jù)處理與數(shù)據(jù)清洗_第1頁(yè)
數(shù)據(jù)處理與數(shù)據(jù)清洗_第2頁(yè)
數(shù)據(jù)處理與數(shù)據(jù)清洗_第3頁(yè)
數(shù)據(jù)處理與數(shù)據(jù)清洗_第4頁(yè)
數(shù)據(jù)處理與數(shù)據(jù)清洗_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、什么是數(shù)據(jù)處理?數(shù)據(jù)處理有廣義和狹義兩種理解,廣義的理解,所有的數(shù)據(jù)采集、存儲(chǔ)、加工、分析、挖掘和展示等工作都可以叫做數(shù)據(jù)處理;而狹義的數(shù)據(jù)處理僅僅包括從存儲(chǔ)的數(shù)據(jù)中通過提取,篩選出有用數(shù)據(jù),對(duì)有用數(shù)據(jù)進(jìn)行加工的過程,是為數(shù)據(jù)分析和挖掘的模型所做的數(shù)據(jù)準(zhǔn)備工作。一般意義上講的數(shù)據(jù)處理是狹義的定義,即對(duì)數(shù)據(jù)進(jìn)行增、刪、改、查的操作。在目前大數(shù)據(jù)的背景下,我們數(shù)據(jù)處理工作往往是通過技術(shù)手段來(lái)實(shí)現(xiàn),比如說利用數(shù)據(jù)庫(kù)的處理能力,對(duì)數(shù)據(jù)進(jìn)行增加、刪除、改動(dòng)、查詢等處理。在實(shí)踐中,數(shù)據(jù)處理工作中最大的是對(duì)數(shù)據(jù)進(jìn)行清洗,即對(duì)不清潔的數(shù)據(jù)進(jìn)行清潔化的工作,讓數(shù)據(jù)更加規(guī)范,讓數(shù)據(jù)的結(jié)構(gòu)更加合理,讓數(shù)據(jù)的含義更加

2、明確,并讓數(shù)據(jù)處在數(shù)學(xué)模型的可用狀態(tài)。數(shù)據(jù)之“臟”數(shù)據(jù)的“臟”是一個(gè)比喻的說法。我們把數(shù)據(jù)記錄不規(guī)范、格式錯(cuò)誤、含義不明確等叫做數(shù)據(jù)的“臟”,包括幾種典型的形式。(1)數(shù)據(jù)不規(guī)范的情況。比如姓名,同樣是張三,有的地方記錄為“張三”,有的地方記錄為“張 三”,為了讓兩個(gè)字的姓名和三個(gè)字的姓名都有相同的長(zhǎng)度,中間添加了空格。這種情況同樣發(fā)生在地址字段里,比如說“北京”、“北京市”、“北 京”,雖然都是指北京,于我們?nèi)藖?lái)講很容易識(shí)別,但對(duì)計(jì)算機(jī)來(lái)講,這三個(gè)寫法代表著三個(gè)不同的值,我們需要通過建立映射關(guān)系的方式,將數(shù)據(jù)記錄進(jìn)行統(tǒng)一。常見的數(shù)據(jù)不規(guī)范的情況還包括日期格式的問題。日期格式常見的幾種記錄方法

3、如下:2015/10/202015-10-202015年10月20日10/20/2015Oct. 20, 2015October 20, 20152015.10.20每個(gè)人都有不同的喜好和記錄方法,這給計(jì)算機(jī)識(shí)別造成了很大的困難,一個(gè)公司的所有數(shù)據(jù)都應(yīng)該有一個(gè)明確的規(guī)定,統(tǒng)一數(shù)據(jù)的錄入格式。(2)數(shù)據(jù)不一致的情況數(shù)據(jù)不一致的情況往往是沒有遵循我們單維數(shù)據(jù)表的原則導(dǎo)致的。因?yàn)橥粭l信息記錄在不同的數(shù)據(jù)表甚至數(shù)據(jù)庫(kù)中,當(dāng)我們對(duì)數(shù)據(jù)信息進(jìn)行更改之后,因?yàn)闆]有同時(shí)對(duì)所有的記錄點(diǎn)都做相同的更改而導(dǎo)致的數(shù)據(jù)不一致的情況。為了避免這種情況,我們引入了“單維數(shù)據(jù)表”的概念,強(qiáng)調(diào)了公司內(nèi)部同樣一條信息,只能記錄

4、在一個(gè)地方,當(dāng)其他地方需要的時(shí)候,通過索引查詢的方式來(lái)保證數(shù)據(jù)的一致性,在任何數(shù)據(jù)表中存在其他表中數(shù)據(jù)來(lái)源的時(shí)候,都要在查詢輸出時(shí)進(jìn)行“同步”更新。數(shù)據(jù)的一致性雖然技術(shù)上比較容易實(shí)現(xiàn),但在企業(yè)實(shí)踐中卻有著巨大的難度。采購(gòu)部門會(huì)錄入供應(yīng)商的信息,而財(cái)務(wù)部需要向供應(yīng)商付款,所以也會(huì)保留供應(yīng)商相關(guān)的信息數(shù)據(jù),而采購(gòu)部門和財(cái)務(wù)部分分屬不同的職能部門,財(cái)務(wù)部門也會(huì)采集一部分供應(yīng)商財(cái)務(wù)相關(guān)信息,包括銀行信息、賬號(hào)信息、稅務(wù)信息、工商信息等,如果發(fā)生變化,比如說法人變更、業(yè)務(wù)變更、企業(yè)性質(zhì)變更等,財(cái)務(wù)會(huì)對(duì)其數(shù)據(jù)進(jìn)行更新;采購(gòu)部也會(huì)對(duì)供應(yīng)商的信息進(jìn)行采集并登錄相關(guān)的信息管理系統(tǒng)。如果采購(gòu)的管理信息系統(tǒng)能夠同財(cái)

5、務(wù)所使用的管理信息系統(tǒng)對(duì)接且能夠把同條信息能夠關(guān)聯(lián)或者建立索引關(guān)系,則該公司的數(shù)據(jù)一致性比較容易保障。但如果兩個(gè)都采用了不同的系統(tǒng),就容易導(dǎo)致數(shù)據(jù)不一致的情況。而這種情況在大多數(shù)公司種都存在,且很嚴(yán)重。(3)標(biāo)準(zhǔn)不統(tǒng)一的問題我們對(duì)一些事物的描述方法需要建立統(tǒng)一的標(biāo)準(zhǔn),從而讓計(jì)算機(jī)可以有效地對(duì)文本數(shù)據(jù)進(jìn)行處理。舉一個(gè)具體的例子。比如說導(dǎo)致產(chǎn)品出現(xiàn)質(zhì)量問題的原因,多數(shù)情況下是手工錄入的,同樣的原因,不同的數(shù)據(jù)錄入的描述會(huì)有不同。同樣是因?yàn)殡妷翰环€(wěn)導(dǎo)致的產(chǎn)品質(zhì)量問題,有人會(huì)錄入為“電壓不穩(wěn)”,有人會(huì)錄入為“電流不穩(wěn)定”,有人錄入為“供電問題”,有人錄入為“缺少穩(wěn)壓設(shè)備”,有人錄入為“供電負(fù)載異?!?。

6、如果沒有統(tǒng)一的規(guī)范,我們?cè)诮y(tǒng)計(jì)匯總時(shí)會(huì)產(chǎn)生上千個(gè)導(dǎo)致產(chǎn)品品質(zhì)問題的原因。這給數(shù)據(jù)解讀和分析,以及尋找改善措施帶來(lái)很大的麻煩。這就需要數(shù)據(jù)庫(kù)管理員根據(jù)公司的實(shí)際情況,將該類原因進(jìn)行歸類,然后設(shè)定幾個(gè)類別,由員工在系統(tǒng)中進(jìn)行選擇,而不是讓他們手工錄入。一般情況下,出現(xiàn)最多的前10名原因能夠覆蓋90%以上的情況,在錄入中,先讓員工選擇,然后留出一個(gè)“其它”,當(dāng)員工選擇其它的時(shí)候再進(jìn)行錄入,這樣就能夠有效規(guī)范這種數(shù)據(jù)的錄入標(biāo)準(zhǔn)化問題。根據(jù)大多數(shù)人的記憶習(xí)慣,在經(jīng)常使用的范圍內(nèi),一般能夠輕松記住7個(gè)左右的信息,因此,我們盡可能把這些導(dǎo)致質(zhì)量的原因找出最常見的7個(gè),對(duì)錄入數(shù)據(jù)的人進(jìn)行培訓(xùn),他們基本能夠記住

7、這7個(gè),特別是在面對(duì)教育水平不高的一線工人的時(shí)候。(4)格式不標(biāo)準(zhǔn)的問題所謂的格式不標(biāo)準(zhǔn)的問題是在數(shù)據(jù)錄入時(shí),使用了錯(cuò)誤的格式。比如說,錄入日期時(shí),因?yàn)楦袷讲灰?guī)范,計(jì)算機(jī)不能自動(dòng)識(shí)別為日期格式,出現(xiàn)了各種個(gè)樣的文本;比如說錄入數(shù)值時(shí)采用的中文字符格式,用了全角字符等,A和是不同的,1和是不同的,0和O是不同的等;有些數(shù)據(jù)格式要求英文逗號(hào)分隔而錯(cuò)誤地使用了中文的逗號(hào);有些要求使用減號(hào)作為連接符,有的使用了下劃線或者全角字符的連接符;有些要求使用英文引號(hào),但錄入時(shí)采用了中文的引號(hào)等等。這種問題比較容易處理,需要信息系統(tǒng)設(shè)定相關(guān)的數(shù)據(jù)校驗(yàn),如果錄入不準(zhǔn)確,數(shù)值錄入為全角字符后會(huì)被識(shí)別為字符,系統(tǒng)彈出

8、數(shù)據(jù)錄入格式錯(cuò)誤的警告基本可以解決大部分這樣的問題。(5)附加字段的問題我們?cè)跀?shù)據(jù)清洗的時(shí)候,往往需要添加新的字段以便我們數(shù)學(xué)模型可以直接處理數(shù)據(jù)。比如說司齡、年齡等,我們數(shù)據(jù)庫(kù)中可能沒有直接的字段來(lái)記錄員工的司齡,我們需要通過入職日期到目前數(shù)據(jù)采集日期間的差來(lái)計(jì)算司齡,這就需要添加司齡字段之后,通過入職日期來(lái)計(jì)算,年齡則通過出生日期來(lái)計(jì)算。數(shù)據(jù)雜質(zhì)和噪音在外部大數(shù)據(jù)中因?yàn)閿?shù)據(jù)價(jià)值密度較低,數(shù)據(jù)的雜質(zhì)和噪音很多,需要大量的數(shù)據(jù)處理工作才能將有價(jià)值的數(shù)據(jù)和信息提煉出來(lái),而企業(yè)大數(shù)據(jù),特別是內(nèi)部采集的數(shù)據(jù),其價(jià)值密度高,幾乎所有的數(shù)據(jù)和信息都是有價(jià)值的,其雜質(zhì)和噪音也會(huì)少。什么是數(shù)據(jù)雜質(zhì)呢?所謂的

9、數(shù)據(jù)雜質(zhì)就是在數(shù)據(jù)集中出現(xiàn)了與數(shù)據(jù)記錄本身無(wú)關(guān)的數(shù)據(jù),就如大米中出現(xiàn)了沙子一樣,需要在處理數(shù)據(jù)的過程中,將這部分?jǐn)?shù)據(jù)剔除。比如說錄音或者錄像數(shù)據(jù),本質(zhì)上上為了記錄經(jīng)營(yíng)或者管理活動(dòng),但在過程中可能因?yàn)闆]有活動(dòng)發(fā)生,但錄音和錄像還在繼續(xù),這部分?jǐn)?shù)據(jù)就會(huì)成為雜質(zhì)。企業(yè)生產(chǎn)線上的監(jiān)控錄像,當(dāng)沒有生產(chǎn)時(shí)仍然在錄像,拿這一部分時(shí)段的錄像就可以從整體數(shù)據(jù)中剔除。就如行車記錄儀,當(dāng)停車時(shí),記錄儀檢測(cè)到汽車已經(jīng)不動(dòng)超過10秒鐘,錄像就暫停,當(dāng)圖像中的畫面有動(dòng)時(shí),則及時(shí)啟動(dòng)錄像過程,這是一種比較智能的方式在遴選數(shù)據(jù)的采集和記錄。另外一種數(shù)據(jù)的來(lái)源是數(shù)據(jù)采集或者記錄過程的雜質(zhì)。比如說問卷調(diào)查,在問卷正式進(jìn)行之前,編

10、制問卷的人首先要做幾遍測(cè)試,還會(huì)找其他人做個(gè)測(cè)試,以保證正式發(fā)布調(diào)研之后能夠無(wú)差錯(cuò),這部分的數(shù)據(jù)也會(huì)被調(diào)研系統(tǒng)后臺(tái)記錄,這些數(shù)據(jù)可以稱作雜質(zhì),在處理調(diào)研數(shù)據(jù)集的時(shí)候,需要剔除。而調(diào)研的過程中,有人打開了調(diào)研鏈接,但做到一半就因?yàn)槠渌虑榈R了,稍后又重新從頭開始做該調(diào)研,則前面這部分未完成的問卷可以從數(shù)據(jù)集中作為雜質(zhì)去除。數(shù)據(jù)的雜質(zhì)其實(shí)有很多種,具體數(shù)據(jù)采集的方式和方法不同,都會(huì)有不同類型的數(shù)據(jù)雜質(zhì)進(jìn)入到數(shù)據(jù)集,數(shù)據(jù)分析人員需要根據(jù)實(shí)際情況進(jìn)行甄別。什么是數(shù)據(jù)噪音呢?所謂的數(shù)據(jù)噪音就是貌似與有用數(shù)據(jù)集,但仔細(xì)查看后并非該數(shù)據(jù)集該有的數(shù)據(jù),或者仔細(xì)分析后沒有價(jià)值的數(shù)據(jù),當(dāng)然也有一部分是我們無(wú)法解

11、釋其與其他數(shù)據(jù)差異的數(shù)據(jù)。與雜質(zhì)不同,噪音是貌似相關(guān)的數(shù)據(jù),但其實(shí)價(jià)值不大或者根本沒有價(jià)值。現(xiàn)在的電商是靠流量和銷量說話的時(shí)代,特別是天貓和淘寶數(shù)據(jù),購(gòu)買者更加關(guān)心賣家的信用。賣家為了獲得消費(fèi)者更高的關(guān)注和購(gòu)買量,往往采取“刷”信用的方式在提高自己的星級(jí)。對(duì)于電商來(lái)說,這些“刷”的交易數(shù)據(jù),都可以看作是噪音數(shù)據(jù),雖然這部分?jǐn)?shù)據(jù)對(duì)于其它的分析可能非常有價(jià)值。比如說一個(gè)訂單數(shù)據(jù)集,在這個(gè)數(shù)據(jù)集中有一部分是內(nèi)部測(cè)試形成的,也有是競(jìng)爭(zhēng)對(duì)手測(cè)試形成的,還有可能是消費(fèi)者測(cè)試網(wǎng)站形成的,有的甚至是數(shù)據(jù)采集機(jī)器人后臺(tái)下單并取消,但是在這個(gè)過程中采集相關(guān)數(shù)據(jù)的,這一部分?jǐn)?shù)據(jù)就可以看作數(shù)據(jù)的噪聲,并非真正的交易數(shù)

12、據(jù)。公司在網(wǎng)上做了一次推廣,短期內(nèi)訪問量大幅度上升,其中有部分訪問量是競(jìng)爭(zhēng)對(duì)手、品類愛好者、研究人員等進(jìn)行的測(cè)試性或者信息獲取性的訪問,這部分訪問就是我們研究客戶訪問及轉(zhuǎn)化率的噪音。什么是數(shù)據(jù)清洗? 所謂的數(shù)據(jù)清洗就是對(duì)原始數(shù)據(jù)進(jìn)行規(guī)范化的處理,減少數(shù)據(jù)噪音,消除數(shù)據(jù)的不一致性,并對(duì)某些數(shù)據(jù)進(jìn)行加工,以便數(shù)據(jù)處理軟件和數(shù)據(jù)模型能夠直接使用。數(shù)據(jù)清洗是數(shù)據(jù)處理工序之一,目的是提高數(shù)據(jù)的質(zhì)量,為數(shù)據(jù)分析準(zhǔn)備有效數(shù)據(jù)集。數(shù)據(jù)清洗的方法有很多,主要與我們所使用的數(shù)據(jù)處理工具有關(guān)系。比如我們使用MS Excel,我們可以對(duì)數(shù)據(jù)進(jìn)行查找替換、填充、分列、映射(vlookup)、透視等,如果規(guī)律性很強(qiáng)數(shù)據(jù)量

13、很大的時(shí)候,我們還可以采用VBA編程的方式來(lái)實(shí)現(xiàn)。其它軟件工具的數(shù)據(jù)清洗方法不一而足,需要熟練掌握對(duì)應(yīng)軟件的操作方法。實(shí)踐中,數(shù)據(jù)清洗工作是占用數(shù)據(jù)分析師時(shí)間最長(zhǎng)的工作,雖然工作的價(jià)值產(chǎn)出很低,耗費(fèi)大量時(shí)間,但這個(gè)工作必不可少,主要的原因是數(shù)據(jù)建表和數(shù)據(jù)采集過程中質(zhì)量不高導(dǎo)致的。如果我們?cè)跀?shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)傳輸過程中,提高數(shù)據(jù)的質(zhì)量,保證數(shù)據(jù)的有效性,我們數(shù)據(jù)清洗工作可以大幅度縮減。而這個(gè)過程中,數(shù)據(jù)采集的方式、方法,以及自動(dòng)化智能設(shè)備的使用是大幅度提高數(shù)據(jù)質(zhì)量的關(guān)鍵手段。要想在數(shù)據(jù)清洗上節(jié)省人工,需要數(shù)據(jù)系統(tǒng)中加入數(shù)據(jù)的校驗(yàn),并制定相關(guān)的數(shù)據(jù)規(guī)范,讓數(shù)據(jù)質(zhì)量在源頭錄入的時(shí)候就是規(guī)范的,

14、高質(zhì)量的,即使是一些用戶端口的數(shù)據(jù),在錄入的時(shí)候也要加入校驗(yàn)工作,通過示例的方式提醒用戶按照一定的規(guī)則來(lái)錄入。我們經(jīng)常見到一些網(wǎng)站在讓用戶錄入姓名時(shí)要求用戶錄入姓和名,但是如果不進(jìn)行校驗(yàn),或者提示用戶,用戶很可能將姓氏錄入到名字中,將名字錄入到姓氏中,導(dǎo)致未來(lái)數(shù)據(jù)分析的時(shí)候存在問題。比如歐陽(yáng)峰,如果峰字被錄入到姓氏中,系統(tǒng)需要通過后臺(tái)字典,提示用戶“您確信您姓峰?”,這種提示雖然消弱了用戶體驗(yàn),但對(duì)于數(shù)據(jù)的準(zhǔn)確性還是非常有益的,語(yǔ)言上誠(chéng)懇些,對(duì)待客戶禮貌些,或者可以獲得用戶的理解。如何提高數(shù)據(jù)清洗速度?根據(jù)我們的實(shí)踐經(jīng)驗(yàn),數(shù)據(jù)清洗工作占我們數(shù)據(jù)分析師工作量的70%,甚至以上,而且數(shù)據(jù)質(zhì)量越差,

15、這個(gè)比例越高。其實(shí)提高數(shù)據(jù)清洗速度最有效的方法就是對(duì)數(shù)據(jù)采集和數(shù)據(jù)記錄的規(guī)范性進(jìn)行有效治理,從源頭把控?cái)?shù)據(jù)質(zhì)量。如果數(shù)據(jù)源頭的數(shù)據(jù)質(zhì)量不高,數(shù)據(jù)清洗工作不僅會(huì)洗掉臟的數(shù)據(jù),甚至還洗掉了某些有價(jià)值的數(shù)據(jù),導(dǎo)致數(shù)據(jù)信息量的損失。程序化方法是提高數(shù)據(jù)清洗工作效率的有效手段。我們往往面對(duì)的數(shù)據(jù)集比較大,如果手工一個(gè)個(gè)檢查并清洗,可能需要耗費(fèi)大量的人工時(shí)間。如果我們能夠?qū)?shù)據(jù)不規(guī)范、不完整或者不相關(guān)的數(shù)據(jù)有較好的分析,總結(jié)他們中可能存在的規(guī)律性,然后用軟件程序自動(dòng)化完成數(shù)據(jù)的清洗工作,能夠大幅度提升我們數(shù)據(jù)清洗的效率。尋找數(shù)據(jù)的規(guī)律性是用程序代替人工清洗的基礎(chǔ)。即使是使用Excel對(duì)數(shù)據(jù)進(jìn)行清洗,如果能

16、夠用透視表+映射表的方式,會(huì)比手工查找+替換的方式要快很多。有的公司已經(jīng)將一些常見的數(shù)據(jù)清洗方法編制成軟件,但清洗的效果還是非常不理想,雖然這樣的數(shù)據(jù)清洗軟件能夠大幅度節(jié)省人工的投入,解放數(shù)據(jù)分析師大量的工作。但這些軟件一般都非常昂貴,一套軟件在百萬(wàn)以上,能夠快速處理數(shù)據(jù),但仍然需要大量的人工干預(yù)。數(shù)據(jù)清洗工作另外一個(gè)非常重要的原則就是:永遠(yuǎn)給自己留下反悔空間。首先,盡量不要破壞原始數(shù)據(jù)。不能在原始數(shù)據(jù)集上直接改,如果修改丟掉了某些有價(jià)值信息,可能很難再找回來(lái);如果發(fā)生了錯(cuò)誤,將可能是災(zāi)難性的。所以:先備份后清洗。如果我們想規(guī)范日期格式,我們要在Excel中添加一列,讓之前的日期列數(shù)據(jù)保留著,

17、如果看著不舒服,可采取隱藏的方式,但直接刪除或者替換都是不可以的。其次,每次改變數(shù)據(jù)之前做好備份。我特別強(qiáng)調(diào)在對(duì)數(shù)據(jù)進(jìn)行清洗時(shí),禁止使用“查找+替換”的方式,因?yàn)檫@種方式改變了原始數(shù)據(jù),如果發(fā)生錯(cuò)誤,而Excel的Undo功能不能啟用則麻煩就大了,即使保留了原始數(shù)據(jù)副本,可能之前的清洗工作會(huì)白費(fèi)了。當(dāng)數(shù)據(jù)量非常大的時(shí)候,任何有可能對(duì)數(shù)據(jù)集發(fā)生改變的操作之前都要做好備份工作。映射表是一個(gè)非常好的操作方法,在利用Excel對(duì)數(shù)據(jù)進(jìn)行清洗的時(shí)候,可以將同一字段的數(shù)據(jù)制作一個(gè)映射表,然后讓Excel根據(jù)映射表對(duì)數(shù)據(jù)進(jìn)行查找替換,我們常使用的功能是vlookup()函數(shù)。比如說地址中城市的名稱,如果用戶

18、在填寫的時(shí)候不是通過下拉表選擇的,肯定會(huì)被填寫的五花八門,人工能夠識(shí)別,但機(jī)器不可以識(shí)別,所以可以通過透視表功能將所有的地址城市做個(gè)統(tǒng)計(jì)匯總,然后根據(jù)人工識(shí)別來(lái)建立映射表,然后再把原始的地址映射回去,從而將地址中城市名稱標(biāo)準(zhǔn)化為一個(gè)唯一值,再對(duì)數(shù)據(jù)以城市為單位進(jìn)行統(tǒng)計(jì)匯總時(shí),數(shù)據(jù)才會(huì)準(zhǔn)確。利用第三方程序來(lái)進(jìn)行數(shù)據(jù)的清洗也是一種方法,多數(shù)第三方數(shù)據(jù)清洗工具軟件都是構(gòu)建一個(gè)映射表,根據(jù)數(shù)據(jù)的特點(diǎn)進(jìn)行猜測(cè)、精準(zhǔn)匹配,并用后臺(tái)“字典”來(lái)映射數(shù)據(jù),然后將規(guī)范化的數(shù)據(jù)輸出出來(lái)。第三方軟件在適用性上往往都存在一定的缺陷或者說每個(gè)第三方程序都比較適合一類數(shù)據(jù)集,有的比較適合客戶數(shù)據(jù)的清洗,有的比較適合產(chǎn)品訂單數(shù)據(jù)的清洗,有的比較適合清洗社交媒體網(wǎng)站的數(shù)據(jù)。在選擇第三方數(shù)據(jù)清洗軟件的時(shí)候,要進(jìn)行評(píng)比,用一個(gè)比較小的數(shù)據(jù)集進(jìn)行測(cè)試之后再購(gòu)買。這類第三方軟件一般都比較昂貴

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論