版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據預處理架構和方法簡介數據預處理主要包括數據清洗(DataCleaning)數據集成(DataIntegration)數據轉換(DataTransformation)和數據消減(DataReduction)本節(jié)在介紹大數據預處理基本概念的基礎上對數據預處理的方法進行講解。大數據預處理整體架構大數據預處理將數據劃分為結構化數據和半結構化/非結構化數據,分別采用傳統(tǒng)ETL工具和分布式并行處理框架來實現??傮w架構如圖1所示。結構化數據可以存儲在傳統(tǒng)的關系型數據庫中。關系型數據庫在處理事務、及時響應、保證數據的一致性方面有天然的優(yōu)勢。非結構化數據可以存儲在新型的分布式存儲中,如Hadoop的HDFSo半結構化數據可以存儲在新型的分布式NoSQL數據庫中,如HBase分布式存儲在系統(tǒng)的橫向擴展性、存儲成本、文件讀取速度方面有著顯著的優(yōu)勢。結構化數據和非結構化數據之間的數據可以按照數據處理的需求進行遷移。例如,為了進行快速并行處理,需要將傳統(tǒng)關系型數據庫中的結構化數據導入到分布式存儲中??梢岳肧qoop等工具,先將關系型數據庫的表結構導入分布式數據庫,然后再向分布式數據庫的表中導入結構化數據。數據質量問題分類數據清洗在匯聚多個維度、多個來源、多種結構的數據之后,對數據進行抽取、轉換和集成加載。在以上過程中除了更正、修復系統(tǒng)中的一些錯誤數據之外更多的是對數據進行歸并整理,并儲存到新的存儲介質中。其中,數據的質量至關重要。如圖2所示,常見的數據質量問題可以根據數據源的多少和所屬層次(定義層和實例層)分為4類。1)單數據源定義層違背字段約束條件(例如,日期出現9月31日),字段屬性依賴沖突(例如,兩條記錄描述同一個人的某一個屬性,但數值不一致),違反唯一性(同一個主鍵ID出現了多次)2) 單數據源實例層單個屬性值含有過多信息,并寫錯誤,存在空白值,存在噪音數據,數據重復,數據過時等;3) 多數據源定義層同一個實體的不同稱呼(如custom_id、custom_num),同一種屬性的不同定義(例如,字段長度定義不一致,字段類型不一致等);4) 多數據源實例層數據的維度、粒度不一致(例如,有的按GB記錄存儲量,有的按TB記錄存儲量;有的除此之外,在數據處理過程中產生的"二次數據",也會有噪聲、重復或錯誤的情況。數據的調整和清洗,也會涉及格式、測量單位和數據標準化與歸一化的相關事情,以致對實驗結果產生比較大的影響。通常這類問題可以歸結為不確定性。不確定性有兩方面內涵包括各數據點自身存在的不確定性以及數據點屬性值的不確定性。前者可用概率描述,后者有多重描述方式,如描述屬性值的概率密度函數,以方差為代表的統(tǒng)計值等。大數據預處理方法噪聲數據是指數據中存在著錯誤或異常(偏離期望值)的數據,不完整數據是指感興趣的屬性沒有值,而不一致數據則是指數據內涵出現不一致情況(例如,作為關鍵字的同一部門編碼出現不同值)數據清洗是指消除數據中存在的噪聲及糾正其不一致的錯誤。數據集成是指將來自多個數據源的數據合并到一起構成一個完整的數據集。數據轉換是指將一種格式的數據轉換為另一種格式的數據。數據消減是指通過刪除冗余特征或聚類消除多余數據。不完整、有噪聲和不一致對大數據來講是非常普遍的情況。不完整數據的產生有多種原因。?有些屬性的內容有時沒有,例如,參與銷售事務數據中的顧客信息不完整。?有些數據產生交易的時候被認為是不必要的而沒有被記錄下來。?由于誤解或檢測設備失靈導致相關數據沒有被記錄下來。?與其他記錄內容不一致而被刪除。?歷史記錄或對數據的修改被忽略了。遺失數據,尤其是一些關鍵屬性的遺失數據或許需要被推導出來。噪聲數據的產生原因如下。?數據采集設備有問題。?在數據錄入過程發(fā)生了人為或計算機錯誤。?數據傳輸過程中發(fā)生錯誤。?由于命名規(guī)則或數據代碼不同而引起的不一致。數據清洗的處理過程通常包括填補遺漏的數據值,平滑有噪聲數據,識別或除去異常值,以及解決不一致問題。有問題的數據將會誤導數據挖掘的搜索過程。詳細內容可參考《數據清洗》教程。盡管大多數數據挖掘過程均包含對不完全或噪聲數據的處理但它們并不完全可靠且常常將處理的重點放在如何避免所挖掘出的模式對數據過分準確的描述上。因此進行一定的數據清洗對數據處理是十分必要的。數據集成就是將來自多個數據源的數據合并到一起。由于描述同一個概念的屬性在不同數據庫中有時會取不同的名字,所以在進行數據集成時就常常會引起數據的不一致或冗余。例如,在一個數據庫中,一個顧客的身份編碼為"custom_number",而在另一個數據庫中則為"custom_id"。命名的不一致常常也會導致同一屬性值的內容不同。例如,在一個數據庫中一個人的姓取“John”,而在另一個數據庫中則取“J"。大量的數據冗余不僅會降低挖掘速度,而且也會誤導挖掘進程。因此,除了進行數據清洗之外,在數據集成中還需要注意消除數據的冗余。詳細內容可參考《數據集成》教程。數據轉換主要是對數據進行規(guī)格化操作。在正式進行數據挖掘之前,尤其是使用基于對象距離的挖掘算法時,如神經網絡、最近鄰分類等,必須進行數據規(guī)格化,也就是將其縮至特定的范圍之內,如[0,1]。例如,對于一個顧客信息數據庫中的年齡屬性或工資屬性,由于工資屬性的取值比年齡屬性的取值要大許多,如果不進行規(guī)格化處理,基于工資屬性的距離計算值顯然將遠遠超過基于年齡屬性的距離計算值這就意味著工資屬性的作用在整個數據對象的距離計算中被錯誤地放大了。詳細內容可參考《數據轉換》教程。數據消減的目的就是縮小所挖掘數據的規(guī)模,旦卻不會影響(或基本不影響)最終的挖掘結果?,F有的數據消減方法如下。1)數據聚合(DataAggregation),如構造數據立方。)消減維數(DimensionReduction),如通過相關分析消除多余屬性。)數據壓縮(DataCompression),如利用編碼方法(如最小編碼長度或小波)4)數據塊消減1(NmnerosityReducti
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版新型節(jié)能門窗安裝與綠色建筑合同2篇
- 2025年度牛奶飲品國際市場拓展與海外銷售代理合同4篇
- 2025年專業(yè)培訓班股權投資與管理合同4篇
- 2025年度鋼構加工企業(yè)信用風險防范合同
- 2025年度面包烘焙行業(yè)質量標準認證合同3篇
- 基于2025年度計劃的研發(fā)與技術升級合同2篇
- 2025年度個人二樓商鋪租賃合同書(包含違約責任及糾紛解決機制)
- 2025年度長春寫字樓租賃管理服務合同4篇
- 二零二五年度知識產權綜合保護與品牌建設合同
- 二零二五年度鋼構建筑抗震性能評估與加固施工合同
- 小兒甲型流感護理查房
- 霧化吸入療法合理用藥專家共識(2024版)解讀
- 2021年全國高考物理真題試卷及解析(全國已卷)
- 拆遷評估機構選定方案
- 趣味知識問答100道
- 鋼管豎向承載力表
- 2024年新北師大版八年級上冊物理全冊教學課件(新版教材)
- 人教版數學四年級下冊核心素養(yǎng)目標全冊教學設計
- JJG 692-2010無創(chuàng)自動測量血壓計
- 三年級下冊口算天天100題(A4打印版)
- CSSD職業(yè)暴露與防護
評論
0/150
提交評論