




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)預(yù)處理概述新工科建設(shè)之路·數(shù)據(jù)科學(xué)與大數(shù)據(jù)系列樣本數(shù)據(jù)處理第一章01數(shù)據(jù)預(yù)處理的背景與目的數(shù)據(jù)如果能滿足其應(yīng)用要求,它就是高質(zhì)量的。數(shù)據(jù)質(zhì)量涉及許多因素,包括準確性、完整性、一致性、時效性、相關(guān)性、可信性和可解釋性。數(shù)據(jù)預(yù)處理的背景:數(shù)據(jù)質(zhì)量當今現(xiàn)實世界大型數(shù)據(jù)庫和數(shù)據(jù)倉庫的共同缺點是不正確、不完整和不一致。數(shù)據(jù)質(zhì)量問題也可以從應(yīng)用角度考慮,表達為“采集的數(shù)據(jù)如果滿足預(yù)期的應(yīng)用,就是高質(zhì)量的”,這就涉及數(shù)據(jù)的相關(guān)性和時效性。影響數(shù)據(jù)質(zhì)量的另外兩個因素是可信性和可解釋性。可信性反映有多少數(shù)據(jù)是用戶信賴的,而可解釋性反映數(shù)據(jù)是否容易理解。數(shù)據(jù)預(yù)處理的背景:數(shù)據(jù)質(zhì)量相關(guān)性特別是對工商業(yè)界,數(shù)據(jù)質(zhì)量的相關(guān)性要求是非常有價值的。時效性有些數(shù)據(jù)收集后就開始老化,使用老化后的數(shù)據(jù)進行數(shù)據(jù)分析、數(shù)據(jù)挖掘,將會產(chǎn)生不同的分析結(jié)果。數(shù)據(jù)預(yù)處理的背景:數(shù)據(jù)質(zhì)量數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘前的準備工作,也是進行數(shù)據(jù)挖掘中的關(guān)鍵一步。它一方面保證數(shù)據(jù)挖掘的正確性和有效性,另一方面通過對數(shù)據(jù)格式和內(nèi)容的調(diào)整,使數(shù)據(jù)更符合挖掘的需要。因此,在數(shù)據(jù)挖掘執(zhí)行之前,必須對收集的原始數(shù)據(jù)進行預(yù)處理,達到改進數(shù)據(jù)的質(zhì)量、提高數(shù)據(jù)挖掘過程的準確率和效率的目的。數(shù)據(jù)預(yù)處理的目的02數(shù)據(jù)預(yù)處理的流程數(shù)據(jù)預(yù)處理的流程本節(jié)將介紹數(shù)據(jù)預(yù)處理的主要流程,即數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換與數(shù)據(jù)歸約。當類標號缺少時通常這樣做(假定挖掘任務(wù)涉及分類)。忽略元組一般來說,該方法很費時,并且當數(shù)據(jù)集很大、缺失很多值時,該方法可能行不通。人工填寫缺失值將缺失的屬性值用同一個常量(如“Unknown”)替換。使用一個全局常量填充缺失值數(shù)據(jù)清洗對于正常的數(shù)據(jù)分布而言,可以使用均值,而傾斜數(shù)據(jù)分布應(yīng)該使用中位數(shù)。使用屬性的中心度量(如均值或中位數(shù))填充缺失值例如,若將顧客按信用風(fēng)險來分類,則用具有相同信用風(fēng)險的顧客的平均收入替換字段“收入”中的缺失值。若給定類的數(shù)據(jù)分布是傾斜的,則中位數(shù)是更好的選擇。使用與給定元組屬同一類的所有樣本的屬性均值或中位數(shù)可以用回歸、貝葉斯形式化方法的基于推理的工具或決策樹歸納確定最可能的值。使用最可能的值填充缺失值數(shù)據(jù)清洗分箱:分箱方法通過考察數(shù)據(jù)的“近鄰”(周圍的值)來光滑有序數(shù)據(jù)值?;貧w:也可以用一個函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)。使用回歸,找出適合數(shù)據(jù)的數(shù)學(xué)方程式,能夠幫助消除噪聲。離群點分析:可以通過聚類來檢測離群點。聚類將類似的值組織成群或“簇”。直觀地落在簇集合之外的值被視為離群點。數(shù)據(jù)清洗不一致數(shù)據(jù)對于有些事務(wù),系統(tǒng)所記錄的數(shù)據(jù)可能存在不一致。有些數(shù)據(jù)不一致可以通過人工更正。例如,數(shù)據(jù)輸入時錯誤可以通過人工核對來更正。知識工程工具也可以用來檢測違反限制的數(shù)據(jù)。例如,知道屬性間的函數(shù)依賴,可以查找違反函數(shù)依賴的值。數(shù)據(jù)清洗實體識別問題模式集成和對象匹配可能需要技巧。來自多個信息源的現(xiàn)實世界的等價實體如何才能“匹配”?這涉及實體識別問題。冗余和相關(guān)分析冗余是數(shù)據(jù)集成的另一個重要問題。一個屬性(如年收入)如果能由另一個或另一組屬性“導(dǎo)出”,那么這個屬性可能是冗余的。屬性或維命名的不一致也可能導(dǎo)致數(shù)據(jù)集中的冗余。數(shù)據(jù)集成元組重復(fù)除了檢測屬性間的冗余,還應(yīng)當在元組級檢測重復(fù)(如給定的唯一數(shù)據(jù)實體存在兩個或多個相同的元組)。數(shù)據(jù)值沖突的檢測與處理數(shù)據(jù)集成還涉及數(shù)據(jù)值沖突的檢測與處理。數(shù)據(jù)集成去掉數(shù)據(jù)中的噪聲。這種技術(shù)包括分箱、聚類和回歸。光滑可以由給定的屬性構(gòu)造新的屬性并添加到屬性集中,以幫助挖掘過程。屬性構(gòu)造對數(shù)據(jù)進行匯總和聚集。聚集數(shù)據(jù)變換將屬性數(shù)據(jù)按比例縮放,使之落入一個特定的小區(qū)間中。規(guī)范化數(shù)值屬性的原始值用區(qū)間標簽或概念標簽替換。離散化屬性可以泛化到較高的概念層。由標稱數(shù)據(jù)產(chǎn)生概念分層數(shù)據(jù)變換最小最大規(guī)范化:對原始數(shù)據(jù)進行線性變換。z-score規(guī)范化(或零均值規(guī)范化):基于屬性A的均值和標準差進行規(guī)范化。小數(shù)定標規(guī)范化:通過移動屬性A的值的小數(shù)點位置進行規(guī)范化。數(shù)據(jù)變換通過分箱離散化分箱是一種基于指定的箱個數(shù)的自頂向下的分裂技術(shù)。分箱并不使用類信息,因此它是一種非監(jiān)督的離散化技術(shù)。它對用戶指定的箱個數(shù)很敏感,也容易受離群點的影響。通過直方圖分析離散化像分箱一樣,直方圖分析也是一種非監(jiān)督的離散化技術(shù),因為它也不使用類信息。直方圖把屬性A的值劃分成不相交的區(qū)間,被稱為桶或箱。數(shù)據(jù)變換通過聚類、決策樹和相關(guān)分析離散化聚類分析是一種流行的離散化方法。通過將屬性A的值劃分成簇或組,聚類算法可以用來離散化屬性A。聚類考慮屬性A的分布及數(shù)據(jù)點的鄰近性,因此可以產(chǎn)生高質(zhì)量的離散化結(jié)果。數(shù)據(jù)變換由用戶或?qū)<以谀J郊夛@式地說明屬性的部分序。通過顯式數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分。說明屬性集,但不說明它們的偏序。只說明部分屬性集。數(shù)據(jù)變換數(shù)據(jù)歸約數(shù)據(jù)歸約策略簡介(1)維歸約減少所考慮的隨機變量或?qū)傩缘膫€數(shù)。(2)數(shù)量歸約用替代的、較小的數(shù)據(jù)表示形式替換原數(shù)據(jù)。(3)數(shù)據(jù)壓縮使用變換,以便得到原數(shù)據(jù)的歸約或“壓縮”表示。PCA的基本過程如下。(1)對輸入數(shù)據(jù)規(guī)范化,使每個屬性都落入相同的區(qū)間。(2)PCA計算個標準正交向量,作為規(guī)范化輸入數(shù)據(jù)的基。(3)對主成分按“重要性”或強度降序排列。(4)因為主成分根據(jù)“重要性”降序排列,所以可以通過去掉較弱的成分(方差較小的那些成分)來歸約數(shù)據(jù)。數(shù)據(jù)歸約向后刪除屬性子集選擇的貪心算法決策樹歸納向前選擇向前選擇和向后刪除子集評估數(shù)據(jù)歸約回歸和對數(shù)線性模型:參數(shù)化數(shù)據(jù)歸約回歸和對數(shù)線性模型可以用來近似給定的數(shù)據(jù)。在線性回歸中,對數(shù)據(jù)建模,使之擬合到一條直線。直方圖直方圖使用分箱近似數(shù)據(jù)分布,是一種流行的數(shù)據(jù)歸約形式。屬性A的直方圖將屬性A的數(shù)據(jù)分布劃分為不相交的子集或桶。桶安放在水平軸上,而桶的高度(和面積)是該桶所代表的值的平均頻率。若每個桶只代表單個屬性值/頻率對,則該桶被稱為單值桶。數(shù)據(jù)歸約聚類:在數(shù)據(jù)歸約時,用數(shù)據(jù)的簇代表替換的實際數(shù)據(jù)。該技術(shù)的有效性依賴于數(shù)據(jù)的性質(zhì)對被污染的數(shù)據(jù)及能夠組織成不同的簇的數(shù)據(jù),該技術(shù)有效得多。抽樣:抽樣可以作為一種數(shù)據(jù)歸約技術(shù)使用,因為它允許用比數(shù)據(jù)小得多的隨機樣本(子集)表示大型數(shù)據(jù)集。數(shù)據(jù)立方體聚集。數(shù)據(jù)歸約數(shù)據(jù)預(yù)處理的注意事項在數(shù)據(jù)預(yù)處理的實際應(yīng)用過程中,上述步驟有時并不是完全分開的,在某種場景下是可以一起使用的。另外,應(yīng)該針對具體所要研究的問題通過詳細分析后再進行預(yù)處理方案的選擇,整個預(yù)處理過程要盡量人機結(jié)合,尤其要注重和客戶、專家多交流。預(yù)處理后,若挖掘結(jié)果顯示和實際差異較大,則在排除源數(shù)據(jù)的問題后,有必要考慮數(shù)據(jù)的二次預(yù)處理,以修正初次數(shù)據(jù)預(yù)處理中引入的誤差或不當?shù)姆椒?若二次挖掘結(jié)果仍然異常,則需要另行斟酌以實現(xiàn)較好的挖掘效果。03數(shù)據(jù)預(yù)處理的工具數(shù)據(jù)挖掘過程一般包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘,以及知識評價和呈現(xiàn)。在一個完整的數(shù)據(jù)挖掘過程中,數(shù)據(jù)預(yù)處理要花費60%左右的時間,之后的挖掘工作僅僅占工作量的10%左右。工欲善其事,必先利其器。在實際的數(shù)據(jù)預(yù)處理工作中,我們有一個得心應(yīng)手的工具,就會大大提升效率。然而,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年34-二氯苯酚項目可行性研究報告
- 2025至2030年中國拔盤開關(guān)數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年液壓車轍試驗成型機項目投資價值分析報告
- 2025至2030年塑編復(fù)合包裝板項目投資價值分析報告
- 2025至2030年爆炸物銷毀器項目投資價值分析報告
- 2025年中國低壓電柜電表箱行業(yè)市場發(fā)展現(xiàn)狀及投資戰(zhàn)略咨詢報告
- 購車合同和貸款合同范本
- 中國陶瓷托棍項目投資可行性研究報告
- 2025年智能家居裝修設(shè)計施工一體化合同
- 2025年中國蠶養(yǎng)殖行業(yè)投資研究分析及發(fā)展前景預(yù)測報告
- 定量包裝商品培訓(xùn)
- 毛戈平-+毛戈平深度報告:再論毛戈平商業(yè)模式與核心壁壘:個人IP+化妝學(xué)校+線下服務(wù)
- 第二章美容手術(shù)的特點及其實施中的基本原則美容外科學(xué)概論講解
- 山東省濰坊市2024-2025學(xué)年高三上學(xué)期1月期末考試生物試卷含答案
- 2025年“春訓(xùn)”學(xué)習(xí)心得體會例文(3篇)
- 中央2025年公安部部分直屬事業(yè)單位招聘84人筆試歷年參考題庫附帶答案詳解
- 2025年春新外研版(三起)英語三年級下冊課件 Unit4第1課時Startup
- 2025年職業(yè)教案編寫指南:教師技巧
- 人教版(2025新版)七年級下冊數(shù)學(xué)第七章 相交線與平行線 單元測試卷(含答案)
- 2024年股權(quán)轉(zhuǎn)讓合同書(含管理層收購條款)
- 2025-2025學(xué)年度第二學(xué)期高二物理教學(xué)計劃
評論
0/150
提交評論