版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、2022/7/261數(shù)據(jù)挖掘入門 2022/7/262引言KDD與數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢數(shù)據(jù)預(yù)處理可視化數(shù)據(jù)挖掘加工表達(dá)信息融入信息社會2022/7/265知識發(fā)現(xiàn)(KDD)的過程數(shù)據(jù)清理篩選數(shù)據(jù)目標(biāo)數(shù)據(jù)Knowledge預(yù)處理及變換變換后的數(shù)據(jù)數(shù)據(jù)挖掘解釋/評估2022/7/266數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清理 數(shù)據(jù)集成過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)挖掘引擎模式評估圖形用戶界面 知識庫2022/7/267數(shù)據(jù)挖掘技術(shù)分類數(shù)據(jù)挖掘驗證驅(qū)動挖掘發(fā)現(xiàn)驅(qū)動挖掘SQLSQL生成器查詢工具OLAP描述預(yù)測可視化聚類關(guān)聯(lián)規(guī)則順序關(guān)聯(lián)匯總描述分類統(tǒng)計回歸時間序列決策樹神經(jīng)網(wǎng)路2
2、022/7/268五,數(shù)據(jù)預(yù)處理為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗 數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)2022/7/269為什么需要數(shù)據(jù)預(yù)處理 ?在現(xiàn)實社會中,存在著大量的“臟”數(shù)據(jù)不完整性(數(shù)據(jù)結(jié)構(gòu)的設(shè)計人員、數(shù)據(jù)采集設(shè)備和數(shù)據(jù)錄入人員) 缺少感興趣的屬性感興趣的屬性缺少部分屬性值僅僅包含聚合數(shù)據(jù),沒有詳細(xì)數(shù)據(jù)噪音數(shù)據(jù)(采集數(shù)據(jù)的設(shè)備、數(shù)據(jù)錄入人員、數(shù)據(jù)傳輸)數(shù)據(jù)中包含錯誤的信息存在著部分偏離期望值的孤立點不一致性(數(shù)據(jù)結(jié)構(gòu)的設(shè)計人員、數(shù)據(jù)錄入人員)數(shù)據(jù)結(jié)構(gòu)的不一致性Label的不一致性數(shù)據(jù)值的不一致性2022/7/2610為什么需要數(shù)據(jù)預(yù)處理 ?數(shù)據(jù)挖掘的數(shù)據(jù)源可能是多個
3、互相獨立的數(shù)據(jù)源關(guān)系數(shù)據(jù)庫多維數(shù)據(jù)庫(Data Cube)文件、文檔數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換為了數(shù)據(jù)挖掘的方便海量數(shù)據(jù)的處理數(shù)據(jù)歸約(在獲得相同或者相似結(jié)果的前提下)2022/7/2611為什么需要數(shù)據(jù)預(yù)處理?沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果高質(zhì)量的決策必須基于高質(zhì)量的數(shù)據(jù)基礎(chǔ)上數(shù)據(jù)倉庫是在高質(zhì)量數(shù)據(jù)上的集成2022/7/2612數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理填入缺失數(shù)據(jù)平滑噪音數(shù)據(jù)確認(rèn)和去除孤立點解決不一致性數(shù)據(jù)集成多個數(shù)據(jù)庫、Data Cube和文件系統(tǒng)的集成數(shù)據(jù)轉(zhuǎn)換規(guī)范化、聚集等數(shù)據(jù)歸約在可能獲得相同或相似結(jié)果的前提下,對數(shù)據(jù)的容量進(jìn)行有效的縮減數(shù)據(jù)離散化對于一個特定的連續(xù)屬性,尤其是連續(xù)的
4、數(shù)字屬性,可以把屬性值劃分成若干區(qū)間,以區(qū)間值來代替實際數(shù)據(jù)值,以減少屬性值的個數(shù).2022/7/2613數(shù)據(jù)預(yù)處理的形式數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)歸約2022/7/2614主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗 數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)2022/7/2615使用屬性的平均值填充空缺數(shù)值簡單方便、挖掘結(jié)果容易產(chǎn)生不精確的結(jié)果使用與給定元組同一個類別的所有樣本的平均值分類非常重要,尤其是分類指標(biāo)的選擇使用最有可能的值予以填充利用回歸、基于推導(dǎo)的使用貝葉斯形式化的方法的工具或者判定樹歸納確定利用屬性之間的關(guān)系進(jìn)行推斷,保持了屬性之間的聯(lián)系缺失數(shù)據(jù)的處理方法(續(xù))2
5、022/7/2616噪音數(shù)據(jù)噪音數(shù)據(jù):一個度量(指標(biāo))變量中的隨機錯誤或者偏差主要原因數(shù)據(jù)采集設(shè)備的錯誤數(shù)據(jù)錄入問題數(shù)據(jù)傳輸問題部分技術(shù)的限制數(shù)據(jù)轉(zhuǎn)換中的不一致 數(shù)據(jù)清理中所需要處理的其它問題重復(fù)的記錄不完整的數(shù)據(jù)不一致的數(shù)據(jù)2022/7/2617噪音數(shù)據(jù)的處理分箱(Binning)的方法聚類方法檢測并消除異常點線性回歸對不符合回歸的數(shù)據(jù)進(jìn)行平滑處理人機結(jié)合共同檢測由計算機檢測可疑的點,然后由用戶確認(rèn)2022/7/2618處理噪音數(shù)據(jù):分箱方法分箱(Binning)方法:基本思想:通過考察相鄰數(shù)據(jù)的值,來平滑存儲數(shù)據(jù)的值基本步驟:首先,對數(shù)據(jù)進(jìn)行排序,并分配到具有相同寬度/深度的不同的“箱子”
6、中其次,通過箱子的平均值(Means)、中值(Median)、或者邊界值等來進(jìn)行平滑處理2022/7/2619分箱(Binning) 方法舉例對數(shù)據(jù)進(jìn)行排序: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34對數(shù)據(jù)進(jìn)行分割(相同深度) :- Bin 1: 4, 8, 9, 15- Bin 2: 21, 21, 24, 25- Bin 3: 26, 28, 29, 34根據(jù)bin中的平均值進(jìn)行離散化:- Bin 1: 9, 9, 9, 9- Bin 2: 23, 23, 23, 23- Bin 3: 29, 29, 29, 292022/7/2620基于聚類
7、分析的平滑處理2022/7/2621通過線性回歸的平滑處理xyy = x + 1X1Y1Y12022/7/2622主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗 數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)2022/7/2623數(shù)據(jù)集成數(shù)據(jù)集成的概念將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中數(shù)據(jù)源包括:多個數(shù)據(jù)庫、多維數(shù)據(jù)庫和一般的文件數(shù)據(jù)集成也是數(shù)據(jù)倉庫建設(shè)中的一個重要問題數(shù)據(jù)集成的內(nèi)容模式集成利用數(shù)據(jù)庫和數(shù)據(jù)倉庫的元數(shù)據(jù)信息主要工作是識別現(xiàn)實世界中的實體定義冗余數(shù)據(jù)的處理檢測和解決數(shù)值沖突對于現(xiàn)實世界中的同一實體,來自于不同數(shù)據(jù)源的屬性值可能不同主要原因:不同的數(shù)據(jù)表示、度量
8、單位、編碼方式以及語義的不同2022/7/2624模式集成數(shù)據(jù)類型沖突性別:string(Male、Female)、Char(M、F)、Interger(0、1)日期:Date、DateTime、String數(shù)據(jù)標(biāo)簽沖突:解決同名異義、異名同義學(xué)生成績、分?jǐn)?shù)度量單位沖突學(xué)生成績百分制:100 0五分制: A 、B、C、D、E字符表示:優(yōu)、良、及格、不及格概念不清最近交易額:前一個小時、昨天、本周、本月?聚集沖突:根源在于表結(jié)構(gòu)的設(shè)計 2022/7/2625冗余數(shù)據(jù)的處理從多個數(shù)據(jù)源中抽取不同的數(shù)據(jù),容易導(dǎo)致數(shù)據(jù)的冗余不同的屬性在不同的數(shù)據(jù)源中是不同的命名方式有些屬性可以從其它屬性中導(dǎo)出, 例如
9、:銷售額單價銷售量有些冗余可以通過相關(guān)分析檢測到 其中:n是元組的個數(shù), 和 分別是A和B的平均值, 和 分別是A和B的標(biāo)準(zhǔn)差 元組級的“重復(fù)”,也是數(shù)據(jù)冗余的一個重要方面減少冗余數(shù)據(jù),可以大大提高數(shù)據(jù)挖掘的性能2022/7/2626數(shù)據(jù)轉(zhuǎn)換平滑處理: 從數(shù)據(jù)中消除噪音數(shù)據(jù)聚集操作: 對數(shù)據(jù)進(jìn)行綜合,類似于Data Cube的構(gòu)建數(shù)據(jù)概化:構(gòu)建概念層次數(shù)據(jù)規(guī)范化: 將數(shù)據(jù)集中到一個較小的范圍之中最大-最小規(guī)范化z-score(零均值)規(guī)范化小數(shù)范圍規(guī)范化(01規(guī)范化)屬性構(gòu)造構(gòu)造新的屬性并添加到屬性集中,以幫助數(shù)據(jù)挖掘2022/7/2627數(shù)據(jù)轉(zhuǎn)換:規(guī)范化最大-最小規(guī)范化對原始數(shù)據(jù)進(jìn)行線性變換
10、保持了原始數(shù)據(jù)值之間的關(guān)系當(dāng)有新的輸入,落在原數(shù)據(jù)區(qū)之外,該方法將面臨“越界”錯誤受到孤立點的影響可能會比較大2022/7/2628數(shù)據(jù)轉(zhuǎn)換:規(guī)范化(續(xù))z-score(零均值)規(guī)范化屬性基于平均值和標(biāo)準(zhǔn)差規(guī)范化當(dāng)屬性的最大值和最小值未知,或者孤立點左右了最大最小規(guī)范化時,該方法有效0-1規(guī)范化(小數(shù)定標(biāo)規(guī)范化)通過移動屬性的小數(shù)點位置進(jìn)行規(guī)范化例如A的值為125,那么|A|=125,則j=3,有v=0.125。 Where j is the smallest integer such that Max(| |)Reduced attribute set: A1, A4, A6YYYNNN20
11、22/7/2636數(shù)據(jù)壓縮數(shù)據(jù)壓縮:應(yīng)用數(shù)據(jù)編碼或變換,以便得到數(shù)據(jù)的歸約或壓縮表示無損壓縮:原數(shù)據(jù)可以由壓縮數(shù)據(jù)重新構(gòu)造而不丟失任何信息字符串壓縮是典型的無損壓縮現(xiàn)在已經(jīng)有許多很好的方法但是它們只允許有限的數(shù)據(jù)操作有損壓縮:只能重新構(gòu)造原數(shù)據(jù)的近似表示 影像文件的壓縮是典型的有損壓縮典型的方法:小波變換、主要成分分析2022/7/2637數(shù)值歸約數(shù)值歸約:通過選擇替代的、“較小”的數(shù)據(jù)表示形式來減少數(shù)據(jù)量有參的方法假設(shè)數(shù)據(jù)符合某些模型,通過評估模型參數(shù),僅需要存儲參數(shù),不需要存儲實際數(shù)據(jù)(孤立點也可能被存放)典型方法:對數(shù)線性模型,它估計離散的多維概率分布無參的方法不存在假想的模型典型方法:
12、直方圖、聚類和抽樣2022/7/2638直方圖類似于分箱技術(shù),是一種流行的數(shù)據(jù)歸約方式將屬性值劃分為不相交的子集,或“桶”桶安放在水平軸上,而桶的高度(和面積)是該桶所代表的值的平均頻率。每個桶只表示單個屬性值,則稱其為“單桶”。通常,“桶”表示給定屬性的一個連續(xù)空間可以通過編程,動態(tài)修改部分參數(shù),進(jìn)行合理構(gòu)造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount2022/7/2639主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗 數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)2022/7/2640數(shù)據(jù)
13、離散化和概念層次屬性值分類枚舉型有序的無序的連續(xù)型:如 Real類型數(shù)據(jù)離散化對于一個特定的連續(xù)屬性,可以把屬性值劃分成若干區(qū)間,以區(qū)間值來代替實際數(shù)據(jù)值,以減少屬性值的個數(shù)。概念層次利用高層的概念(如兒童、青年、中年、老年等)來代替低層的實際數(shù)據(jù)值(實際年齡),以減少屬性值的個數(shù)。2022/7/2641數(shù)值數(shù)據(jù)的離散化和概念分層建立的方法分箱(Binning)直方圖分析聚類分析的方法根據(jù)自然分類進(jìn)行分割2022/7/2642分箱方法:一種簡單的離散化技術(shù)相同寬度 (距離)數(shù)據(jù)分割將數(shù)據(jù)分成N等份,各個等份數(shù)據(jù)之間具有相同的距離如果 A 和 B 分別為屬性值中的最大值和最小值,那么各個數(shù)據(jù)等份
14、之間的距離為:W = (B-A)/N.異常點將會扮演很重要的角色傾斜的數(shù)據(jù)不能很好的解決相同深度 (頻率)數(shù)據(jù)分割將數(shù)據(jù)分成N等份,各個等份具有相同的數(shù)據(jù)個數(shù)。具有較好的可伸縮性適合于數(shù)據(jù)分類的情況2022/7/2643離散化:直方圖方法將數(shù)據(jù)分割到若干個桶之中,用桶中的平均值(或求和等)來表示各個桶??梢酝ㄟ^編程,動態(tài)修改部分參數(shù),進(jìn)行合理構(gòu)造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount2022/7/2644離散化:聚類分析方法將數(shù)據(jù)按照“類內(nèi)最大相似度,類間最小相似度的原則”對數(shù)據(jù)進(jìn)行有效聚
15、類利用聚類的中心點來表示該類所包含的對象數(shù)據(jù)聚類將非常有效,但是必須保證數(shù)據(jù)中沒有噪音數(shù)據(jù)2022/7/2645按照自然分類進(jìn)行數(shù)據(jù)分割利用3-4-5 法則對數(shù)字型數(shù)據(jù)分類,將數(shù)據(jù)分成若干個“自然”的區(qū)間:如果在所有數(shù)字的最高位覆蓋 3, 6, 7或9個不同的值,則將數(shù)據(jù)分成3段。3(1,1,1) 6(2,2,2) 7(2,3,2) 9(3,3,3)如果在所有數(shù)字的最高位覆蓋 2, 4, 8個不同的值,則將數(shù)據(jù)分成4 段。如果在所有數(shù)字的最高位覆蓋 1, 5, 10個不同的值,則將數(shù)據(jù)分成 5 段。2022/7/26463-4-5 法則舉例例1:包含數(shù)據(jù):101、110、203、222、305
16、、315方法:最高位包含3個值(1、2、3)分成100,200),200,300),300,400)三段例2:包含數(shù)據(jù):101、110、103、422、405、415,400方法:最高位包含2個值(1、4)分成100,150),150,200) ,400,450) ,450,500)四段例3:包含數(shù)據(jù):101、210、203、322、305、415,500方法:最高位包含5個值(1、2、3、4、5)分成100,200),200,300) ,300,400) ,400,500),500,600)五段2022/7/2647分類數(shù)據(jù)的概念分層概念分層是由用戶或?qū)<覍哂衅蜿P(guān)系的屬性的一種層次關(guān)系的
17、顯式表示。也是一種數(shù)據(jù)分類的顯式表示。概念層次的獲得隱式存儲于數(shù)據(jù)庫中。如:地址。由專家顯式給出。借助數(shù)據(jù)分析自動生成。概念層次的表示基于實例。如:freshman, ., seniorundergraduate.;基于數(shù)據(jù)庫表模式。如:address(city, province, country)?;谝?guī)則。如: good(x) undergraduate(x) gpa(x) 3.5。2022/7/2648概念層次樹舉例概念層次樹將大大減少挖掘數(shù)據(jù)的數(shù)據(jù)量。countryprovince_or_ statecitystreet15 distinct values65 distinct va
18、lues3567 distinct values674,339 distinct values2022/7/2649主要內(nèi)容為什么需要數(shù)據(jù)預(yù)處理?數(shù)據(jù)清洗 數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化與概念層次的構(gòu)建本章小結(jié)2022/7/2650本章小結(jié)數(shù)據(jù)的預(yù)處理無論對于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘都是非常重要的一個環(huán)節(jié)數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)歸約和特征選取數(shù)據(jù)的離散化數(shù)據(jù)預(yù)處理涉及面廣,現(xiàn)已建立了一系列的方法,但是目前仍然是一個非?;钴S的研究領(lǐng)域2022/7/2651六,可視化數(shù)據(jù)挖掘可視化: 使用計算機圖形學(xué)創(chuàng)建可視化圖像,幫助用戶理解復(fù)雜,大規(guī)模數(shù)據(jù)可視化數(shù)據(jù)挖掘: 使用可視化技術(shù),從大規(guī)模數(shù)據(jù)集
19、中發(fā)現(xiàn)隱含,有用知識的過程信息可視化數(shù)據(jù)挖掘可視化 數(shù)據(jù)挖掘2022/7/2652信息可視化信息可視化:結(jié)合了科學(xué)可視化、人機交互、數(shù)據(jù)挖掘、圖像技術(shù)、圖形學(xué)、認(rèn)知科學(xué)等諸多學(xué)科的理論和方法,而逐步發(fā)展起來的。信息可視化參考模型2022/7/2653可視化數(shù)據(jù)挖掘可視化的目的提供對大規(guī)模數(shù)據(jù)集定性的理解查看數(shù)據(jù)中的模式,趨勢,結(jié)構(gòu),不規(guī)則性,關(guān)系等幫助尋找感興趣的區(qū)域,為進(jìn)一步定量分析提供合適的參數(shù)為計算機得出的結(jié)果提供可視化的證明2022/7/2654可視化數(shù)據(jù)挖掘可視化與數(shù)據(jù)挖掘的結(jié)合數(shù)據(jù)可視化數(shù)據(jù)挖掘結(jié)果可視化數(shù)據(jù)挖掘過程可視化交互式可視化數(shù)據(jù)挖掘2022/7/2655數(shù)據(jù)可視化數(shù)據(jù)可視化以下面兩種方式觀察數(shù)據(jù)庫或數(shù)據(jù)倉庫的數(shù)據(jù): 在不同的粒度或抽象層面觀察屬性或維度的不同結(jié)合數(shù)據(jù)可以被表示成不同的格式,柱狀圖、餅狀圖、散點圖、三維立方體、曲線、數(shù)據(jù)分布圖表等
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度南京市房地產(chǎn)經(jīng)紀(jì)行業(yè)勞務(wù)派遣及銷售服務(wù)合同
- 2025年度豬場生物安全防護與防疫物資供應(yīng)合同4篇
- 二手房地產(chǎn)交易安全保障與監(jiān)管合同
- 2025年水果采摘與農(nóng)家樂特色農(nóng)產(chǎn)品銷售合同3篇
- 二零二五年度企業(yè)股權(quán)激勵計劃轉(zhuǎn)讓合同
- 2025年大數(shù)據(jù)處理與分析軟件服務(wù)采購協(xié)議3篇
- 二零二五年建筑資質(zhì)掛靠與工程進(jìn)度調(diào)整服務(wù)協(xié)議3篇
- 2025年度二手房買賣合同附加物業(yè)管理費結(jié)算協(xié)議3篇
- 二零二五年度大型商業(yè)綜合體工程分包管理協(xié)議2篇
- 2025年教育培訓(xùn)行業(yè)技術(shù)培訓(xùn)與教育資源共享協(xié)議3篇
- 四川省高職單招電氣技術(shù)類《電子基礎(chǔ)》歷年考試真題試題庫(含答案)
- 中級半導(dǎo)體分立器件和集成電路裝調(diào)工技能鑒定考試題庫(含答案)
- 2024年江西生物科技職業(yè)學(xué)院單招職業(yè)技能測試題庫帶解析答案
- 橋本甲狀腺炎-90天治療方案
- (2024年)安全注射培訓(xùn)課件
- 2024版《建設(shè)工程開工、停工、復(fù)工安全管理臺賬表格(流程圖、申請表、報審表、考核表、通知單等)》模版
- 部編版《道德與法治》六年級下冊教材分析萬永霞
- 酒店人防管理制度
- 油田酸化工藝技術(shù)
- 上海高考英語詞匯手冊列表
- 移動商務(wù)內(nèi)容運營(吳洪貴)任務(wù)五 其他內(nèi)容類型的生產(chǎn)
評論
0/150
提交評論