數(shù)據(jù)采集與處理 課件 任務(wù)1 數(shù)據(jù)整_第1頁
數(shù)據(jù)采集與處理 課件 任務(wù)1 數(shù)據(jù)整_第2頁
數(shù)據(jù)采集與處理 課件 任務(wù)1 數(shù)據(jù)整_第3頁
數(shù)據(jù)采集與處理 課件 任務(wù)1 數(shù)據(jù)整_第4頁
數(shù)據(jù)采集與處理 課件 任務(wù)1 數(shù)據(jù)整_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

項目三數(shù)據(jù)預(yù)處理認知任務(wù)1認知數(shù)據(jù)整理任務(wù)導(dǎo)入請對上述數(shù)據(jù)進行整理,并說出某電商平臺60個店鋪銷售方面有哪些數(shù)據(jù)特征。—、數(shù)據(jù)整理的概念和意義(一)數(shù)據(jù)整理的概念數(shù)據(jù)整理:是指根據(jù)數(shù)據(jù)采集與處理的目的和任務(wù),對數(shù)據(jù)采集、觀察、實驗等研究活動中所采集到的資料進行檢驗、歸類編碼和數(shù)字編碼,使之條理化、系統(tǒng)化,從而以集中、簡明的方式反映所研究數(shù)據(jù)采集對象特征的工作過程?!?shù)據(jù)整理的概念和意義為什么要進行數(shù)據(jù)整理?數(shù)據(jù)采集所取得的原始資料或二手資料是反映數(shù)據(jù)采集對象各個單位的資料,這些資料往往是不系統(tǒng)的、分散的,可能有一定的局限性,因此,必須進行相應(yīng)的整理。

例如,從某網(wǎng)店平臺上采集到的購買者資料,只能說明每一個人的個別情況,諸如每個人的姓名、性別、文化程度、職業(yè)、愛好等,難以構(gòu)建職業(yè)、性別等與購買商品之間的關(guān)系。因此,必須通過對大量購買者的資料進行整理、分組、匯總等加工處理,才能得到數(shù)據(jù)采集對象的綜合特征資料,從而了解數(shù)據(jù)采集對象的職業(yè)、性別、年齡等對購買行為的影響,實現(xiàn)對購買者全面系統(tǒng)的認識?!?shù)據(jù)整理的概念和意義(二)數(shù)據(jù)整理的意義1.能夠挖掘數(shù)據(jù)的特征,提高數(shù)據(jù)信息的質(zhì)量,實現(xiàn)數(shù)據(jù)系統(tǒng)化、有序化。2.數(shù)據(jù)整理是檢驗數(shù)據(jù)質(zhì)量的關(guān)鍵環(huán)節(jié),也為后續(xù)的數(shù)據(jù)分析提供必要的數(shù)據(jù)形式。二、數(shù)據(jù)整理的步驟(一)設(shè)計數(shù)據(jù)整理方案數(shù)據(jù)整理方案的主要內(nèi)容一般包括:確定匯總的核心指標與綜合數(shù)據(jù)處理表,確定數(shù)據(jù)分組方案,選擇資料匯總形式,確定資料審查的內(nèi)容與方法,以及對整理各工作環(huán)節(jié)做出時間安排和先后順序安排等。(二)對原始資料或次級資料進行審核資料的審核是數(shù)據(jù)處理工作的第一步,為了保證數(shù)據(jù)資料的質(zhì)量,在對原始資料或次級資料進行匯總之前,必須對其進行審核,以便發(fā)現(xiàn)向題及時糾正,只有經(jīng)過認真審核后的資料才能進行匯總。二、數(shù)據(jù)整理的步驟(三)對原始資料進行分組和匯總根據(jù)數(shù)據(jù)整理的要求,采用科學的方法對原始資料進行數(shù)據(jù)分組,在此基礎(chǔ)上進行匯總,計算出各組的數(shù)據(jù)采集對象單位數(shù)和合計數(shù),匯總出各組的指標數(shù)值和綜合指標數(shù)值。(四)編制數(shù)據(jù)分組表或繪制數(shù)據(jù)透視圖數(shù)據(jù)整理的結(jié)果,必須用一定的方式呈現(xiàn)出來。數(shù)據(jù)分組表和數(shù)據(jù)透視圖是表現(xiàn)數(shù)據(jù)的兩種主要方式。通過數(shù)據(jù)分組表或透視圖表現(xiàn)數(shù)據(jù),能夠簡潔、清晰的反映數(shù)據(jù)特征,便于數(shù)據(jù)運用。三、數(shù)據(jù)的審核(一)數(shù)據(jù)審核的內(nèi)容1.數(shù)據(jù)的真實性審核資料的真實性審核主要是審核資料來源的客觀性問題,數(shù)據(jù)資料來源必須是客觀的。數(shù)據(jù)準確性審核的方法主要是邏輯審核和計算審核,把那些違背常理的、前后矛盾的資料舍去,對于不準確或有疑問的數(shù)據(jù),要仔細核對,并加以糾正。三、數(shù)據(jù)的審核(一)數(shù)據(jù)審核的內(nèi)容2.資料的準確性審核準確的審核要著重檢查那些含糊不清的、籠籠統(tǒng)統(tǒng)的以及互相矛盾的資料。3.數(shù)據(jù)的及時性審核對數(shù)據(jù)及時性的審核就是檢查數(shù)據(jù)是否符合時效性的要求。4.數(shù)據(jù)的完整性審核對數(shù)據(jù)完整性的審核,主要是看被采集單位有無遺漏,各項數(shù)值的填寫是否齊全,項目是否完備等。對于有漏報的項目應(yīng)補齊,否則影響整個數(shù)據(jù)整理工作的進行,進而影響整個數(shù)據(jù)處理工作。三、數(shù)據(jù)的審核(二)審核應(yīng)注意的問題在審核中,如發(fā)現(xiàn)問題可以分不同的情況予以處理:1.對于在數(shù)據(jù)采集中已發(fā)現(xiàn)并經(jīng)過認真核實后確認的錯誤,可以由采集者代為更正。2.對于資料中可疑之處或有錯誤與出入的地方,應(yīng)進行補充調(diào)查。3.無法進行補充采集的應(yīng)堅決剔除那些有錯誤的資料,以保證資料的真實準確。三、數(shù)據(jù)的審核(三)初級數(shù)據(jù)存在的問題通過各種渠道采集來的數(shù)據(jù),常常出現(xiàn)缺失、異常、冗余、不一致的現(xiàn)象,并不能直接為數(shù)據(jù)分析所用。此外,一些成熟的數(shù)據(jù)分析模型對處理的數(shù)據(jù)有要求,比如一定的數(shù)據(jù)類型、統(tǒng)一的數(shù)據(jù)量綱以及數(shù)據(jù)冗余性要求、屬性的相關(guān)性要求等。因此,必須對原始數(shù)據(jù)進行處理才能進行分析。具體來說,原始數(shù)據(jù)主要存在以下幾個問題:三、數(shù)據(jù)的審核(三)初級數(shù)據(jù)存在的問題1.重復(fù)數(shù)據(jù)。重復(fù)數(shù)據(jù)是指在數(shù)據(jù)表中唯一標識記錄的字段出現(xiàn)多次的數(shù)據(jù)。2.缺失數(shù)據(jù)。缺失數(shù)據(jù)是指在實踐過程中因沒有能夠獲取觀測對象的相關(guān)信息而不完整的數(shù)據(jù)。例如,在抽樣數(shù)據(jù)采集中,被數(shù)據(jù)采集對象拒絕提供相關(guān)信息;又如某些實驗中,因各種原因沒能獲取實驗數(shù)據(jù),或者數(shù)據(jù)錄入、存儲過程中的人為失誤和系統(tǒng)軟硬件問題,都有可能造成數(shù)據(jù)缺失。缺失數(shù)據(jù)會影響分析結(jié)果的可信度,甚至使分析結(jié)果出現(xiàn)嚴重偏差。三、數(shù)據(jù)的審核(三)初級數(shù)據(jù)存在的問題3.異常值。異常值是指所獲得的數(shù)據(jù)中與平均值的偏差超過兩倍標準差的數(shù)據(jù),也稱為離群點。例如,錄入數(shù)據(jù)時誤將90錄入為900,那么當數(shù)據(jù)均為100左右的數(shù)據(jù)時,900就會被識別為異常值。異常值的存在會嚴重影響數(shù)據(jù)分析的結(jié)果,例如使平均值偏高或偏低,使方差增大,影響數(shù)據(jù)模型的擬合優(yōu)度等。此外,若異常值不是錯誤數(shù)據(jù),就應(yīng)是數(shù)據(jù)分析人員關(guān)注的焦點。三、數(shù)據(jù)的審核(三)初級數(shù)據(jù)存在的問題5.不一致數(shù)。不一致數(shù)據(jù)一般表現(xiàn)為以下三個方面:一是人工或機械原因?qū)е碌匿浫脲e誤或數(shù)據(jù)規(guī)范不同。例如將數(shù)據(jù)集中的“客單價”錄入為“-150”;又如變量名“用戶編碼”下,某數(shù)據(jù)的規(guī)范是“3位/數(shù)字”,在另一數(shù)據(jù)集中則要求“5位/字母+數(shù)字”。二是變量單位或者量綱不匹配。例如,某數(shù)據(jù)集中的商品價格以“元”為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論