版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
主要內(nèi)容ECUST--JingZhang1為什么要對(duì)數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)為什么要數(shù)據(jù)預(yù)處理?ECUST--JingZhang2真實(shí)世界的數(shù)據(jù)是“臟的”不完整:有些感興趣的屬性缺少屬性值,或者僅僅具備聚集數(shù)據(jù),而非具體數(shù)據(jù)噪聲:包含錯(cuò)誤或者存在偏離期望值的離群值不一致性:在代碼或者名稱上存在差異沒有高質(zhì)量的數(shù)據(jù),也就沒有高質(zhì)量的挖掘結(jié)果!高質(zhì)量的決策必須依賴于高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉庫也需要高質(zhì)量的數(shù)據(jù)如何衡量數(shù)據(jù)的質(zhì)量?ECUST--JingZhang3如何衡量數(shù)據(jù)的質(zhì)量?準(zhǔn)確性(Accuracy)完整性(Completeness)一致性(Consistency)時(shí)效性(Timeliness)可信性(Believability)可解釋性(Interpretability)數(shù)據(jù)預(yù)處理中的主要任務(wù)4數(shù)據(jù)清理(Datacleaning)填充缺失值,平滑噪聲數(shù)據(jù),鑒別或者移除離群點(diǎn),糾正不一致性問題數(shù)據(jù)集成(Dataintegration)從多個(gè)數(shù)據(jù)庫,數(shù)據(jù)立方體(cube)或者文件中集成數(shù)據(jù)變換(Datatransformation)規(guī)范化和聚集數(shù)據(jù)歸約(Datareduction)減少數(shù)據(jù)的字段數(shù)目,但是仍然產(chǎn)生相同或者近似的分析結(jié)果數(shù)據(jù)離散化(Datadiscretization)數(shù)據(jù)歸約的一部分,對(duì)于從數(shù)值數(shù)據(jù)自動(dòng)產(chǎn)生概念分層非常有用數(shù)據(jù)預(yù)處理的形式ECUST--JingZhang5數(shù)據(jù)預(yù)處理ECUST--JingZhang6為什么要對(duì)數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)描述性數(shù)據(jù)匯總描述性數(shù)據(jù)匯總獲得數(shù)據(jù)的總體印象識(shí)別數(shù)據(jù)的典型性質(zhì),凸顯噪聲或離群點(diǎn)度量中心趨勢(shì)度量均值(mean)中位數(shù)(median)眾數(shù)(mode)中列數(shù)(midrange)離中心趨勢(shì)度量四分位數(shù)(quartiles)四分位數(shù)極差(interquartilerange,IQR)方差(variance)7度量數(shù)據(jù)的中心趨勢(shì)均值(Mean)
:代數(shù)度量加權(quán)算術(shù)平均(Weightedarithmeticmean):截?cái)嗑担═rimmedmean):去除極端值注:分布式度量:是一種通過如下方法計(jì)算度量:將數(shù)據(jù)集劃分成較小的子集,計(jì)算每個(gè)子集的度量,然后合并計(jì)算結(jié)果,得到原(整個(gè))數(shù)據(jù)集的度量值。如sum(),count()代數(shù)數(shù)量:可以通過應(yīng)用一個(gè)代數(shù)函數(shù)于一個(gè)或多個(gè)分布度量計(jì)算的度量。如mean()度量數(shù)據(jù)的中心趨勢(shì)中位數(shù)(Median):整體度量如果總數(shù)為奇數(shù),則為中間那個(gè)數(shù);如果為偶數(shù),則為中間兩個(gè)值的平均值對(duì)于已經(jīng)按照某值劃分的組數(shù)據(jù),可以利用插值計(jì)算中位數(shù)的近似值:L1是中位數(shù)區(qū)間的下界,N是整個(gè)數(shù)據(jù)集的值的個(gè)數(shù),是低于中位數(shù)區(qū)間的所有區(qū)間的頻率和,是中位數(shù)區(qū)間的頻率,width是中位數(shù)區(qū)間的寬度。(34)9度量數(shù)據(jù)的中心趨勢(shì)眾數(shù)(Mode):整體度量數(shù)據(jù)集中出現(xiàn)頻率最高的值單峰Unimodal,雙峰bimodal,三峰trimodal對(duì)于適度傾斜(非對(duì)稱)的單峰頻率曲線,有如下經(jīng)驗(yàn)關(guān)系:中列數(shù)(Midrange):代數(shù)度量數(shù)據(jù)集的最大和最小值的平均值ECUST--JingZhang1004February2023DataMining:ConceptsandTechniques11
對(duì)稱數(shù)據(jù)vs.傾斜數(shù)據(jù)對(duì)稱與正傾斜和負(fù)傾斜數(shù)據(jù)的中位數(shù)、均值和眾數(shù)positivelyskewednegativelyskewedsymmetric12度量數(shù)據(jù)的離散程度極差(range),四分位數(shù)(Quartiles),離群點(diǎn)(outliers)和盒圖(boxplots)Range(極差):max()-min()Quartiles(四分位數(shù)):Q1(25thpercentile),Q3(75thpercentile)Inter-quartilerange(中間四分位數(shù)極差):IQR=Q3–
Q1Fivenumbersummary(五數(shù)概括):min,Q1,median,
Q3,maxBoxplot(盒圖):盒的端點(diǎn)是四分位數(shù);中位數(shù)用盒內(nèi)的線標(biāo)記;僅當(dāng)最小最大觀測(cè)值超過四分位數(shù)不到1.5xIQR時(shí),盒外的兩條線延伸到最小和最大觀測(cè)值,否則,胡須出現(xiàn)在四分位數(shù)的1.5xIQR之內(nèi)的最極端的觀測(cè)值處終止;離群點(diǎn)單獨(dú)表示。Outlier(離群值):通常為高于/低于1.5xIQR的值。13
盒圖分析Five-numbersummaryofadistributionMinimum,Q1,Median,Q3,MaximumBoxplotDataisrepresentedwithaboxTheendsoftheboxareatthefirstandthirdquartiles,i.e.,theheightoftheboxisIQRThemedianismarkedbyalinewithintheboxWhiskers:twolinesoutsidetheboxextendedtoMinimumandMaximumOutliers:pointsbeyondaspecifiedoutlierthreshold,plottedindividually度量數(shù)據(jù)的離散程度方差(Variance)和標(biāo)準(zhǔn)差(standarddeviation)Variance:(algebraic,scalablecomputation)Standarddeviation
σ
isthesquarerootofvarianceσ2作為發(fā)散性度量,標(biāo)準(zhǔn)差的基本性質(zhì)如下σ是關(guān)于均值的發(fā)散,僅當(dāng)選擇均值作為中心度量時(shí)使用。僅當(dāng)不存在發(fā)散時(shí),即當(dāng)所有的觀測(cè)值具有相同值時(shí),σ=0,否則σ>0。ECUST--JingZhang14數(shù)據(jù)預(yù)處理ECUST--JingZhang15為什么要對(duì)數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)數(shù)據(jù)清理ECUST--JingZhang16數(shù)據(jù)清理任務(wù)填充空缺值平滑噪聲數(shù)據(jù)糾正不一致的數(shù)據(jù)空缺值17數(shù)據(jù)不總是可用的很多記錄的許多屬性難以獲取,比如:在銷售數(shù)據(jù)中客戶的收入情況很難掌握。數(shù)據(jù)缺省的原因裝備的故障由于和其他數(shù)據(jù)不一致而被刪除了由于理解錯(cuò)誤而未被錄入某些數(shù)據(jù)在錄入的時(shí)候并不認(rèn)為是重要的,因此沒錄入沒有注冊(cè)歷史或者數(shù)據(jù)改變了…….空缺的數(shù)據(jù)可能需要被推斷出來空缺值18忽略該記錄:當(dāng)類標(biāo)號(hào)缺少時(shí)通常這樣做(假定挖掘任務(wù)涉及分類或者描述)。除非元組有多個(gè)屬性缺少值,否則該方法不是很有效。當(dāng)每個(gè)屬性缺少值的百分比變化很大時(shí),它的性能非常差。人工填寫空缺值:一般地說,該方法很費(fèi)時(shí),并且當(dāng)數(shù)據(jù)集很大、缺少很多值時(shí),該方法可能行不通。使用一個(gè)全局的常量填寫空缺值,例如“unknown”,但是這可能會(huì)引入一個(gè)新類型?!使用屬性的中心度量(如均值、中位數(shù))填充空缺值使用與給定元組屬同一類的所有樣本的屬性均值或中位數(shù):例如,若將顧客按credit_risk分類,使用具有相同信用度的顧客的平均收入替換income中的空缺值使用最可能的值去填充空缺值:基于推導(dǎo)的使用貝葉斯公式或者決策樹噪聲數(shù)據(jù)ECUST--JingZhang19噪聲(noise):
是一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差不正確的屬性值可能導(dǎo)致數(shù)據(jù)轉(zhuǎn)換問題技術(shù)限制命名轉(zhuǎn)換過程的不一致性其他需要數(shù)據(jù)清理的數(shù)據(jù)問題重復(fù)記錄不完整數(shù)據(jù)不一致數(shù)據(jù)如何處理噪聲數(shù)據(jù)?ECUST--JingZhang20分箱(binning)首先,把數(shù)據(jù)排序,把排序后數(shù)據(jù)分到等深的箱中接著,用按箱平均值、中心值、邊界值等平滑技術(shù)平滑化數(shù)據(jù)聚類檢測(cè)和移除離群點(diǎn)回歸利用回歸函數(shù)填充數(shù)據(jù),從而平滑化數(shù)據(jù)簡(jiǎn)單離散化方法:分箱ECUST--JingZhang21等寬劃分將整個(gè)區(qū)域劃分成N個(gè)相同大小的間隔若A和B是這個(gè)屬性的最小值和最大值,則各個(gè)間隔的寬度為:W=(B-A)/N.等寬分箱法是最直接的分箱方法但是離群點(diǎn)可能會(huì)影響表示傾斜的數(shù)據(jù)并不能夠很好地被處理等深劃分將整個(gè)區(qū)域劃分為N個(gè)間隔,各個(gè)間隔中所包含的樣本數(shù)目大致相同具有較好的數(shù)據(jù)擴(kuò)展性數(shù)據(jù)平滑的分箱方法22
price的排序后數(shù)據(jù)(美元):4,8,15,21,21,24,25,28,34劃分為(等深的)箱:-箱1:4,8,15-箱2:21,21,24-箱3:25,28,34用箱平均值平滑:-箱1:9,9,9-箱2:22,22,22-箱3:29,29,29用箱邊界值平滑:-箱1:4,4,15-箱2:21,21,24-箱3:25,25,34聚類分析ECUST--JingZhang23回歸ECUST--JingZhang24數(shù)據(jù)預(yù)處理ECUST--JingZhang25為什么要對(duì)數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)數(shù)據(jù)集成26數(shù)據(jù)集成將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉庫)中模式集成從不同的數(shù)據(jù)源集成元數(shù)據(jù)實(shí)體識(shí)別問題:來自多個(gè)信息源的現(xiàn)實(shí)世界的實(shí)體如何才能“匹配”?例如,A.cust-idB.cust-number數(shù)據(jù)沖突的檢測(cè)與處理對(duì)于現(xiàn)實(shí)世界的同一實(shí)體,來自不同數(shù)據(jù)源的屬性值可能不同可能原因:不同的表示方式,不同的度量標(biāo)準(zhǔn),例如公制單位和英制單位處理數(shù)據(jù)集成中的冗余數(shù)據(jù)當(dāng)多個(gè)數(shù)據(jù)庫的數(shù)據(jù)集成時(shí),會(huì)產(chǎn)生冗余數(shù)據(jù)在不同數(shù)據(jù)庫中,相同的屬性可能具備不同的名稱一個(gè)屬性可能由另外一張表的多個(gè)字段推導(dǎo)出,例如:年收入有些冗余可以被相關(guān)分析檢測(cè)到對(duì)多數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行仔細(xì)的數(shù)據(jù)集成,可以減少/避免冗余和矛盾,并且能提高挖掘的速度和質(zhì)量ECUST--JingZhang2728相關(guān)分析(數(shù)值數(shù)據(jù))相關(guān)系數(shù)(Correlationcoefficient)(alsocalledPearson’sproductmomentcoefficient)其中n是元組個(gè)數(shù),
和
分別是p和q的平均值,σp是
σq分別是p和q的標(biāo)準(zhǔn)差,Σ(pq)是pq叉積的和(即,對(duì)于每個(gè)元組,A的值乘以該元組B的值)。如果rp,q>0,p與q正相關(guān),值越大,相關(guān)性越強(qiáng).rp,q=0:相互獨(dú)立;rp,q<0:負(fù)相關(guān)。29相關(guān)分析(離散數(shù)據(jù))Χ2(chi-square)testΧ2
值越大,兩個(gè)變量越相關(guān)實(shí)際值與期望值差別越大,則其對(duì)Χ2
值貢獻(xiàn)越大。相關(guān)性不包含因果性例如:醫(yī)院是的數(shù)量與偷車賊的數(shù)量是相關(guān)的,實(shí)際上它們都與另一個(gè)變量相關(guān):人口數(shù)量數(shù)據(jù)變換ECUST--JingZhang30平滑:去掉數(shù)據(jù)中的噪聲聚集:對(duì)數(shù)據(jù)進(jìn)行匯總和聚集離散化:數(shù)值屬性的原始值用區(qū)間標(biāo)簽或概念標(biāo)簽替換規(guī)范化:將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間屬性構(gòu)造:由給定的屬性構(gòu)造新的屬性,并添加到屬性集中由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層:用高層次概念替換低層次“原始”數(shù)據(jù)。數(shù)據(jù)變換:規(guī)范化31最小-最大規(guī)范化將A的值v映射到區(qū)間[new_minA,new_maxA]中的v’z-score規(guī)范化屬性A的值基于A的平均值和標(biāo)準(zhǔn)差規(guī)范化,A的值v被規(guī)范化為v’。小數(shù)定標(biāo)規(guī)范化通過移動(dòng)屬性A的小數(shù)點(diǎn)的位置進(jìn)行規(guī)范化。小數(shù)點(diǎn)的移動(dòng)位數(shù)依賴于A的最大絕對(duì)值。A的值v被規(guī)范化為v’。其中,j
是使得Max(||)<1的最小整數(shù)。數(shù)據(jù)預(yù)處理ECUST--JingZhang32為什么要對(duì)數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)數(shù)據(jù)歸約策略
ECUST--JingZhang33數(shù)據(jù)倉庫可以存儲(chǔ)數(shù)千兆字節(jié)的數(shù)據(jù):在海量數(shù)據(jù)上進(jìn)行復(fù)雜數(shù)據(jù)分析和數(shù)據(jù)挖掘需要很長(zhǎng)時(shí)間數(shù)據(jù)歸約數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的規(guī)約表示,它在規(guī)模上要小得多,但能產(chǎn)生同樣(或幾乎同樣的)的分析結(jié)果數(shù)據(jù)歸約策略維規(guī)約:減少所考慮的隨機(jī)變量或?qū)傩缘膫€(gè)數(shù)數(shù)量規(guī)約:用替代的、較小的數(shù)據(jù)表示形式替換原數(shù)據(jù)數(shù)據(jù)壓縮:使用變換以得到元數(shù)據(jù)的規(guī)約或壓縮表示。數(shù)據(jù)立方體聚集ECUST--JingZhang34數(shù)據(jù)立方體的最低層為基本方體,最高層為頂點(diǎn)方體,中間層為方體。對(duì)應(yīng)于感興趣實(shí)體的聚集數(shù)據(jù)數(shù)據(jù)立方體中聚集的多層次進(jìn)一步減少了要處理數(shù)據(jù)的大小有關(guān)聚集信息的查詢,如果可能的話,應(yīng)當(dāng)使用數(shù)據(jù)立方體回答屬性子集選擇定義:通過刪除不相關(guān)或者冗余的屬性(或維)減少數(shù)據(jù)集目標(biāo):找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能接近原數(shù)據(jù)集的概率分布優(yōu)點(diǎn):減少了出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解啟發(fā)式方法:逐步向前選擇(空集開始,每次添一最優(yōu)屬性)逐步向后刪除(滿集開始,每次刪一最差屬性)向前選擇和向后刪除的結(jié)合決策樹歸納ECUST--JingZhang35ECUST--JingZhang36決策樹歸納初始屬性集合:{A1,A2,A3,A4,A5,A6}A4?A1?A6?Class1Class2Class1Class2>歸約后的屬性集合:{A1,A4,A6}如何判斷屬性的重要性?ECUST--JingZhang37很多方法,例如:informationgain(ID3)gainratio(C4.5)giniindex2contingencytablestatisticsuncertaintycoefficient維歸約(數(shù)據(jù)壓縮)ECUST--JingZhang38數(shù)據(jù)壓縮分類無損壓縮有損壓縮串壓縮典型的無損壓縮已有廣泛的理論和協(xié)調(diào)的算法但是只允許有限的數(shù)據(jù)操作音頻/圖像壓縮典型的有損壓縮,逐步加細(xì)有時(shí)可以只重構(gòu)信號(hào)的小片斷,而無需重構(gòu)整個(gè)信號(hào)數(shù)據(jù)壓縮39OriginalDataCompressedDatalosslessOriginalDataApproximatedlossy小波變換40離散小波變換(DWT):一種線性信號(hào)處理技術(shù)近似壓縮技術(shù):僅僅保存一小部分最強(qiáng)的小波系數(shù)類似于離散傅立葉變換(DFT),但是DWT是更好的有損壓縮,空間局部性相當(dāng)好方法:輸入數(shù)據(jù)向量的長(zhǎng)度L必須是2的整數(shù)冪(必要時(shí)可在數(shù)據(jù)向量后加0)每個(gè)變換涉及兩個(gè)應(yīng)用函數(shù)。第一個(gè)使用數(shù)據(jù)平滑,第二個(gè)進(jìn)行加權(quán)差分,產(chǎn)生數(shù)據(jù)的細(xì)節(jié)特征兩個(gè)函數(shù)作用于輸入數(shù)據(jù)對(duì),產(chǎn)生兩個(gè)長(zhǎng)度為L(zhǎng)/2的數(shù)據(jù)集。一般地,他們分別代表輸入數(shù)據(jù)平滑后的低頻和高頻內(nèi)容兩個(gè)函數(shù)遞歸地作用于前面循環(huán)得到的數(shù)據(jù)集,直到結(jié)果集的長(zhǎng)度為2由以上迭代得到的數(shù)據(jù)集中選擇值,指定其為數(shù)據(jù)變換的小波系數(shù)。小波變換的優(yōu)點(diǎn)小波空間局部性好,有利于保留局部細(xì)節(jié)
對(duì)噪音和數(shù)據(jù)的輸入順序不敏感計(jì)算復(fù)雜度為O(N),具有較高的計(jì)算效率小波變換可以用于高維數(shù)據(jù)小波變換的有損壓縮比當(dāng)前的商業(yè)標(biāo)準(zhǔn)JPEG壓縮好小波變換有許多實(shí)際應(yīng)用,包括:指紋圖像壓縮,計(jì)算機(jī)視覺,時(shí)間序列數(shù)據(jù)分析和數(shù)據(jù)清理。ECUST--JingZhang41主成分分析ECUST--JingZhang42假定待壓縮的數(shù)據(jù)由N個(gè)元組或者數(shù)據(jù)向量組成,取自k個(gè)維。主成分分析(PCA)搜索c(且c<=k)個(gè)最能夠代表數(shù)據(jù)的k-維正交向量。元數(shù)據(jù)集被歸約到一個(gè)由c個(gè)主要成分上的N個(gè)數(shù)據(jù)向量構(gòu)成的空間上(維歸約)每一個(gè)數(shù)據(jù)矢量都是c個(gè)主要成分矢量的線性組合僅僅針對(duì)數(shù)值型數(shù)據(jù)對(duì)高維數(shù)據(jù)較為有效與小波變換比,PCA能較好地處理稀疏數(shù)據(jù),而小波變換更適合高維數(shù)據(jù)。主成份分析ECUST--JingZhang43基本過程對(duì)輸入數(shù)據(jù)規(guī)范化,使得每個(gè)屬性都落入相同的區(qū)間。PCA計(jì)算c個(gè)規(guī)范正交向量,作為規(guī)范化輸入數(shù)據(jù)的基。這些向量被稱為主成份,輸入數(shù)據(jù)是主成份的線性組合。對(duì)主成分按“重要性”或強(qiáng)度降序排列。通過去掉較弱的成分來壓縮數(shù)據(jù)。ECUST--JingZhang44X1X2Y1Y2主成分分析數(shù)值規(guī)約ECUST--JingZhang45數(shù)值規(guī)約技術(shù)通過選擇替代的、’較小的‘?dāng)?shù)據(jù)表示形式來減少數(shù)據(jù)量。參數(shù)方法和非參數(shù)方法參數(shù)方法假設(shè)數(shù)據(jù)適合一些模型,評(píng)估模型參數(shù),使得只需存放模型參數(shù),而不是實(shí)際數(shù)據(jù)(離群點(diǎn)也可能被存放)如對(duì)數(shù)線性模型:估計(jì)離散的多維概率分布。非參數(shù)方法不必假設(shè)模型主要包括:直方圖,聚類和選樣?;貧w和對(duì)數(shù)線性模型線性回歸:對(duì)數(shù)據(jù)建模,使之適合一條直線兩個(gè)參數(shù),α和β確定這條直線,能夠利用手頭的數(shù)據(jù)進(jìn)行估計(jì)通常使用最小平方法來確定直線方程的系數(shù)多元回歸是線性回歸的擴(kuò)充,相應(yīng)變量是多維特征向量的線性函數(shù)。Y=b0+b1X1+b2X2.對(duì)數(shù)線性模型:近似離散的多維概率分布回歸和對(duì)數(shù)線性模型都可用于稀疏數(shù)據(jù)。對(duì)于高維數(shù)據(jù),回歸可能是計(jì)算密集的,而對(duì)數(shù)線性模型則可以表現(xiàn)出很好的可伸縮性。ECUST--JingZhang46直方圖一種流行的數(shù)據(jù)歸約技術(shù)把數(shù)據(jù)分成不同的桶,存儲(chǔ)每個(gè)桶的平均值劃分規(guī)則等寬等頻(等深)V最優(yōu):具有最小方差的直方圖。直方圖的方差是每個(gè)桶代表的原來值的加權(quán)和,其中權(quán)等于桶中值的個(gè)數(shù)。MaxDiff:桶的邊界是具有β-1個(gè)最大差的對(duì),其中β是用戶指定的桶數(shù)ECUST--JingZhang47聚類ECUST--JingZhang48把數(shù)據(jù)集劃分成聚類,使得類內(nèi)數(shù)據(jù)相似,類間數(shù)據(jù)不相似,從而只存儲(chǔ)聚類的表示如果數(shù)據(jù)是聚集的,聚類技術(shù)將十分有效,而當(dāng)數(shù)據(jù)有噪聲時(shí)將失去它的有效性可以層次聚類且被存儲(chǔ)在多維索引樹結(jié)構(gòu)中抽樣ECUST--JingZhang49用數(shù)據(jù)的較小隨機(jī)樣本(子集)表示大的數(shù)據(jù)集。選擇數(shù)據(jù)的代表子集簡(jiǎn)單隨機(jī)取樣在有傾斜數(shù)據(jù)時(shí)可能會(huì)執(zhí)行得比較差抽樣方法簡(jiǎn)單選擇n個(gè)樣本,不回放(SRSWOR)簡(jiǎn)單選擇n個(gè)樣本,回放(SRSWR)聚類抽樣分層抽樣把數(shù)據(jù)庫D劃分為互不相交的部分,稱作“層”,則通過對(duì)每一層的簡(jiǎn)單隨機(jī)取樣就可以得到D的分層選樣當(dāng)數(shù)據(jù)傾斜時(shí),可以幫助確保樣本的代表性抽樣的復(fù)雜性子線性于數(shù)據(jù)的大小。ECUST--JingZhang50抽樣(Sampling)SRSWORSRSWR原始數(shù)據(jù)SRSWOR:簡(jiǎn)單選取n個(gè)樣本,不回放SRSWR:簡(jiǎn)單選取n個(gè)樣本,回放聚類抽樣ECUST--JingZhang51原始數(shù)據(jù)聚類抽樣數(shù)據(jù)預(yù)處理ECUST--JingZhang52為什么要對(duì)數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)離散化ECUST--JingZhang53屬性的三種類型:標(biāo)稱屬性—來自無序集中的值序數(shù)屬性—來自有序集的值連續(xù)屬性—實(shí)數(shù)離散化:把連續(xù)的屬性值區(qū)間劃分成多個(gè)區(qū)間一些分類算法只接受分類屬性通過離散化壓縮數(shù)據(jù)大小為進(jìn)一步分析作準(zhǔn)備離散化和概念分層ECUST--JingZhang54離散化
通過將一個(gè)連續(xù)型的屬性劃分成少數(shù)幾個(gè)間隔范圍,從而降低取值的數(shù)目。間隔的標(biāo)簽被用于表示該字段的真實(shí)值。概念分層將低級(jí)的概念(例如以數(shù)值形式表示年齡字段)轉(zhuǎn)化為更高級(jí)別的概念(例如,以青年,中年,老年表示年齡字段)。針對(duì)數(shù)值型數(shù)據(jù)的離散化和概念層次化ECUST--JingZhang55分箱(前面已講過)直方圖分析基于熵的離散化基于Χ2(chi-square)分析的區(qū)間合并聚類分析根據(jù)直觀劃分離散化直方圖ECUST--JingZhang56一個(gè)常用的非監(jiān)督數(shù)據(jù)規(guī)約技術(shù)將數(shù)據(jù)劃分成多個(gè)桶(buckets),并且以平均值(總和)表示每個(gè)桶能夠通過動(dòng)態(tài)規(guī)劃的方法優(yōu)化生成基于熵的離散化利用熵的值遞歸地劃分?jǐn)?shù)值屬性A的值,產(chǎn)生分層的離散化。給定一個(gè)樣本集S,基于熵對(duì)A離散化的方法如下:A的每個(gè)值可以認(rèn)為是一個(gè)潛在的區(qū)間邊界或閾值T。給定S,所選擇的閾值時(shí)這樣的值,它使其后劃分得到的信息增益最大。信息增益是:其中,s1和s2分別對(duì)應(yīng)于s中滿足條件A<T和A》T的樣本。對(duì)于給定集合,它的熵函數(shù)Ent根據(jù)集合中樣本的類分布來計(jì)算。例如,給定m個(gè)類,Si的熵為:(pi是類i在Si中的概率)確定閾值的過程遞歸的用于所得到的每個(gè)劃分,直到滿足某個(gè)終止條件,如:實(shí)驗(yàn)證明基于熵的離散化可以壓縮數(shù)據(jù)量,提高分類的準(zhǔn)確性57基于Χ2(chi-square)分析的區(qū)間合并基本思想對(duì)于精確的離散化,相對(duì)類頻率在一個(gè)區(qū)間內(nèi)應(yīng)當(dāng)相當(dāng)一致。如果兩個(gè)鄰近的區(qū)間具有非常類似的類分布,則這兩個(gè)區(qū)間可以合并。否則,它們應(yīng)該保持分開過程把數(shù)值屬性A的每個(gè)不同值看做一個(gè)區(qū)間對(duì)每對(duì)相鄰區(qū)間進(jìn)行Χ2檢驗(yàn)把具有最小Χ2值的相鄰區(qū)間合并在一起以上各步遞歸進(jìn)行,直到滿足預(yù)先定義的終止標(biāo)準(zhǔn)ECUST--JingZhang58聚類ECUST--JingZhang59將數(shù)據(jù)集合劃分為多個(gè)簇,然后僅僅以簇代表數(shù)據(jù)如果數(shù)據(jù)本身可以分為多個(gè)簇,則較為有效每一個(gè)簇可以進(jìn)一步分成若干子簇,形成較低的概念層。簇可以聚集在一起,以形成分層結(jié)構(gòu)中較高的概念層標(biāo)稱數(shù)據(jù)的概念分層生成ECUST--JingZhang60由用戶或?qū)<以谀J郊?jí)顯示地說明屬性的部分序通過顯式數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分說明屬性集,但不說明他們的偏序只說明部分屬性集屬性集的說明ECUST--JingZhang61概念分層可以根據(jù)給定屬性集中每一個(gè)屬性的不同屬性值的個(gè)數(shù)自動(dòng)生成。具有最多不同屬性值的屬性放在分層中的最低層數(shù)據(jù)預(yù)處理ECUST--JingZhang62為什么要對(duì)數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)小結(jié)ECUST--JingZhang63數(shù)據(jù)預(yù)處理對(duì)于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘都是一個(gè)重要的問題數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理和數(shù)據(jù)集成數(shù)據(jù)歸約和特征選擇離散化和概念分層盡管已經(jīng)提出了一些數(shù)據(jù)預(yù)處理的方法,數(shù)據(jù)預(yù)處理仍然是一個(gè)活躍研究領(lǐng)域推薦參考文獻(xiàn)ECUST--JingZhang64R.Agrawal,J.Han,andH.Mannila,ReadingsinDataMining:ADatabasePerspective,MorganKaufmann(inpreparation)U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy.AdvancesinKnowledgeDiscoveryandDataMining.AAAI/MITPress,1996U.Fayyad,G.Grinstein,andA.Wierse,InformationVisualizationinDataMiningandKnowledgeDiscovery,MorganKaufmann,2001J.HanandM.Kamber.DataMining:ConceptsandTechniques.MorganKaufmann,2001D.J.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 寧夏銀川一中2025屆高三3月份模擬考試數(shù)學(xué)試題含解析
- 《數(shù)學(xué)活動(dòng)》課件
- 12.《拿來主義》課件 2024-2025學(xué)年統(tǒng)編版高中語文必修上冊(cè)
- 安徽省安慶市潛山市第二中學(xué)2025屆高三下學(xué)期第六次檢測(cè)數(shù)學(xué)試卷含解析
- 2025屆福建省三明市高三最后一模語文試題含解析
- 河北衡水市安平中學(xué)2025屆高三第二次聯(lián)考語文試卷含解析
- 江蘇省南通巿啟東中學(xué)2025屆高考臨考沖刺英語試卷含解析
- 8.1 《荷花淀》課件 2024-2025學(xué)年統(tǒng)編版高中語文選擇性必修中冊(cè)
- 江蘇省鎮(zhèn)江市第一中學(xué)2025屆高三第二次診斷性檢測(cè)英語試卷含解析
- 四川省資陽市安岳縣石羊中學(xué)2025屆高三3月份第一次模擬考試語文試卷含解析
- 東北育才中學(xué)2024年高二上數(shù)學(xué)期末經(jīng)典試題含解析
- 2023年公需科目考試試題及答案
- 年產(chǎn)1w噸生物柴油工廠設(shè)計(jì)-畢業(yè)(論文)設(shè)計(jì)
- 談?wù)勄嗄甏髮W(xué)生在中國式現(xiàn)代化征程上的使命與擔(dān)當(dāng)范文(6篇)
- DB13-T 5660-2023 水文水井分層抽水技術(shù)規(guī)范
- 二年級(jí)上冊(cè)綜合實(shí)踐測(cè)試卷
- 互聯(lián)網(wǎng)金融外文文獻(xiàn)翻譯
- 產(chǎn)前篩查、診斷及新生兒疾病篩查
- 小學(xué)《科學(xué)》期末測(cè)評(píng)方案
- 友邦保險(xiǎn)“愈從容”重疾專案管理服務(wù)手冊(cè)(完整版)
- 會(huì)計(jì)師事務(wù)所筆試題目整理
評(píng)論
0/150
提交評(píng)論