2023學年完整公開課版數(shù)據(jù)處理_第1頁
2023學年完整公開課版數(shù)據(jù)處理_第2頁
2023學年完整公開課版數(shù)據(jù)處理_第3頁
2023學年完整公開課版數(shù)據(jù)處理_第4頁
2023學年完整公開課版數(shù)據(jù)處理_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

主講教師:顧錦江江蘇經(jīng)貿職業(yè)技術學院商務數(shù)據(jù)分析基礎數(shù)據(jù)處理商務數(shù)據(jù)分析報告的作用01何為數(shù)據(jù)處理01數(shù)據(jù)清洗02數(shù)據(jù)加工03數(shù)據(jù)抽樣04何為數(shù)據(jù)處理何為數(shù)據(jù)處理數(shù)據(jù)處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導出對于某些特定的人們來說是有價值、有意義的數(shù)據(jù)。數(shù)據(jù)處理貫穿于社會生產和社會生活的各個領域。數(shù)據(jù)處理技術的發(fā)展及其應用的廣度和深度,極大地影響著人類社會發(fā)展的進程。。處理數(shù)據(jù)數(shù)據(jù)處理的內容何為數(shù)據(jù)處理“三心二意”處理數(shù)據(jù)1.信心2.細心3.平常心4.誠意5.合意數(shù)據(jù)處理的步驟:第一步,數(shù)據(jù)清洗。顧名思義,數(shù)據(jù)清洗就是將多余的重復的數(shù)據(jù)篩選清除,將缺失的數(shù)據(jù)補充完整,將錯誤的數(shù)據(jù)糾正和刪除。第二步,數(shù)據(jù)加工。經(jīng)過清洗后的數(shù)據(jù),并不一定是我們想要的數(shù)據(jù),所以,還要對數(shù)據(jù)字段進行信息提取、計算、分組、轉換等加工,讓它們變成我們想要的數(shù)據(jù)。數(shù)據(jù)清洗數(shù)據(jù)清洗數(shù)據(jù)清洗就是將格式錯誤的數(shù)據(jù)進行處理糾正,將錯誤的數(shù)據(jù)糾正或刪除,將缺失的數(shù)據(jù)補充完整,將重復多余的數(shù)據(jù)刪除缺失數(shù)據(jù)的處理檢查數(shù)據(jù)邏輯錯誤重復數(shù)據(jù)的處理數(shù)據(jù)一致性處理數(shù)據(jù)清洗——數(shù)據(jù)一致性處理通過統(tǒng)計調查收集上來的數(shù)據(jù),經(jīng)常會出現(xiàn)同一字段的數(shù)據(jù)格式不一致的問題,如下圖所示。這會直接影響后續(xù)的數(shù)據(jù)分析,所以必須對數(shù)據(jù)的格式做出一致性處理。數(shù)據(jù)清洗——重復數(shù)據(jù)的處理函數(shù)法1高級篩選法2條件格式法3數(shù)據(jù)透視表法4刪除重復數(shù)據(jù)5有幾種找出重復值的方法?數(shù)據(jù)清洗——缺失數(shù)據(jù)處理缺失值:缺失值是指數(shù)據(jù)集中某個或某些屬性的值是不完全的,這在數(shù)據(jù)分析中非常常見。表現(xiàn)形式:在數(shù)據(jù)表里,缺失值最常見的表現(xiàn)形式就是空值或者錯誤標識符。原因缺失值的產生原因多種多樣,主要分為機械原因和人為原因。機械原因是由于數(shù)據(jù)收集或保存失敗造成的數(shù)據(jù)缺失,人為原因是由于人的主觀失誤、歷史局限或有意隱瞞造成的數(shù)據(jù)缺失。查找缺失值的兩種方法:1.定位輸入2.查找替換數(shù)據(jù)清洗——缺失數(shù)據(jù)處理用一個統(tǒng)計模型計算出來的值去替代缺失值。常用的模型有回歸模型、判別模型等。2將所有缺失值的記錄刪除,不過可能會導致樣本量的減少。3將所有缺失值的記錄保留,僅在相應的分析中作必要的排除。當調查的樣本量較大,缺失值的數(shù)量又不是很多,而且變量之間也不存在高度相關的情況下,采用這種方法比較可行。4用一個樣本統(tǒng)計量的值替代缺失值。最典型的方法就是使用該變量的樣本平均值替代缺失值1處理缺失值的四種方法:當樣本量較大時,我們可以采用定位查找一次,選取樣本里所有的空值,再利用“Ctrl+Enter”快捷鍵在所有選中的單元格中一次性輸入樣本平均值。數(shù)據(jù)清洗——檢查數(shù)據(jù)邏輯錯誤數(shù)據(jù)錯誤的兩種形式:1.被調查者輸入的選項不符合要求。2.錄入錯誤公式密鑰:OR(logical,[logical2],…):至少一個參數(shù)為真,就返回TRUE。AND(logical,[logical2],…):所有參數(shù)全部為真,才返回TRUE。公式密鑰:IF(logical_test,value_if_true,val

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論