數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理_第1頁
數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理_第2頁
數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理_第3頁
數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

本文格式為Word版,下載可任意編輯——數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理

XI`ANTECHNOLOGICALUNIVERSITY

試驗(yàn)報(bào)告

試驗(yàn)課程名稱數(shù)據(jù)集成、變換、歸約和離散化

專業(yè):數(shù)學(xué)與應(yīng)用數(shù)學(xué)班級:姓名:學(xué)號:試驗(yàn)學(xué)時:指導(dǎo)教師:劉建偉成績:

2023年5月5日XX工業(yè)大學(xué)試驗(yàn)報(bào)告

專業(yè)試驗(yàn)課程試驗(yàn)項(xiàng)目試驗(yàn)設(shè)備及器材

數(shù)學(xué)與應(yīng)用數(shù)學(xué)數(shù)據(jù)挖掘班級指導(dǎo)教師131003劉建偉姓名學(xué)號試驗(yàn)日期2023-5-5同試驗(yàn)者數(shù)據(jù)集成、變換、歸約和離散化計(jì)算機(jī)一臺一試驗(yàn)?zāi)康?/p>

把握數(shù)據(jù)集成、變換、歸約和離散化二試驗(yàn)分析

從初始數(shù)據(jù)源出發(fā),總結(jié)了目前數(shù)據(jù)預(yù)處理的常規(guī)流程方法,提出應(yīng)把源數(shù)據(jù)的獲取作為數(shù)據(jù)預(yù)處理的一個步驟,并且創(chuàng)新性地把數(shù)據(jù)融合的方法引入到數(shù)據(jù)預(yù)處理的過程中,提出了數(shù)據(jù)的循環(huán)預(yù)處理模式,為提高數(shù)據(jù)質(zhì)量提供了更好的分析方法,保證了預(yù)計(jì)結(jié)果的質(zhì)量,為進(jìn)一步研究挖掘提供了較好的參考模式。三試驗(yàn)步驟

1數(shù)據(jù)分析任務(wù)多半涉及數(shù)據(jù)集成。數(shù)據(jù)集成是指將多個數(shù)據(jù)源中的數(shù)據(jù)合并并存放到一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫)中。這些數(shù)據(jù)源可能包括多個數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件。在數(shù)據(jù)集成時,有大量問題需要考慮。模式集成和對象匹配可能需要技巧。

2數(shù)據(jù)變換是指將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式。

(1)數(shù)據(jù)泛化:使用概念分層,用高層概念替換低層或“原始〞數(shù)據(jù)。例如,分類的屬性,如街道,可以泛化為較高層的概念,如城市或國家。類似地,數(shù)值屬性如年齡,可以映射到較高層概念如青年、中年和老年。

(2)規(guī)范化:將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。大致可分三種:最小最大規(guī)范化、z-score規(guī)范化和按小數(shù)定標(biāo)規(guī)范化。

(3)屬性構(gòu)造:可以構(gòu)造新的屬性并添加到屬性集中,以幫助挖掘過程。例如,可能希望根據(jù)屬性height和width添加屬性area。通過屬性構(gòu)造可以發(fā)現(xiàn)關(guān)于數(shù)據(jù)屬性間聯(lián)系的丟失信息,這對知識發(fā)現(xiàn)是有用的。

3數(shù)據(jù)經(jīng)過去噪處理后,需根據(jù)相關(guān)要求對數(shù)據(jù)的屬性進(jìn)行相應(yīng)處理.數(shù)據(jù)規(guī)約就是在減少數(shù)據(jù)存儲空間的同時盡可能保證數(shù)據(jù)的完整性,獲得比原始數(shù)據(jù)小得

多的數(shù)據(jù)。

4數(shù)據(jù)離散化就是一種數(shù)據(jù)變換形式。主要有①光滑②屬性構(gòu)造③聚集④規(guī)范化⑤離散化⑥有標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層。一、卡方檢驗(yàn)

對于標(biāo)稱數(shù)據(jù),兩個屬性A和B之間的相關(guān)聯(lián)系可以通過χ2(卡方)檢驗(yàn)發(fā)現(xiàn)。假設(shè)A有c個不同值a1,a2,…,ac,B有r個不同值b1,b2,…,br。用A和B描述的數(shù)據(jù)元組可以用一個相依表顯示,其中A的c個值構(gòu)成列,B的r個值構(gòu)成行。令(Ai,Bj)表示屬性A取值ai、屬性B取值bj的聯(lián)合事件,即(A=ai,B=bj)。每個可能的(Ai,Bj)聯(lián)合事件都在表中有自己的單元。χ2值(又稱Pearsonχ2統(tǒng)計(jì)量)可以用下式計(jì)算:

x???2i?1j?1cr(oij?eij)2eij

其中,oij是聯(lián)合事件(Ai,Bj)的觀測頻度(即實(shí)際計(jì)數(shù)),而eij是(Ai,Bj)的期望頻度,可以用下式計(jì)算:

eij?count(A?ai)?count(B?bj)n

其中,n是數(shù)據(jù)元組的個數(shù),count(A=ai)是A上具有值ai的元組個數(shù),而count(B=bj)是B上具有值bj的元組個數(shù)。式中的和在所有r×c個單元上計(jì)算。注意,對χ2值貢獻(xiàn)最大的單元是其實(shí)際計(jì)數(shù)與期望計(jì)數(shù)很不一致的單元。χ2統(tǒng)計(jì)檢驗(yàn)假設(shè)A和B是獨(dú)立的。檢驗(yàn)基于顯著水平,具有自由度(r-1)×(c-1)。我假使可以拒絕該假設(shè),則我們說A和B是統(tǒng)計(jì)相關(guān)的。

二、最小-最大規(guī)范化。假設(shè)屬性income的最小值和最大值分別為12000美元和98000美元。把income映射到區(qū)間[0.0,0.1].根據(jù)最小最大規(guī)范化,income值73600美元將轉(zhuǎn)變?yōu)?/p>

三、Z分?jǐn)?shù)規(guī)范化。假設(shè)屬性income的均值和標(biāo)準(zhǔn)差分別為54000美元和16000美元.使用Z分?jǐn)?shù)規(guī)范化,值73600美元被轉(zhuǎn)換為

73600-54000?1.225

1600073600-12000(1.0-0)?0?0.716。

98000-12000四、小波變換

離散小波變換是一種線信號處理技術(shù),用于數(shù)據(jù)向量X時,將它變換成不同的數(shù)值小波系數(shù)向量x'。兩個向量具有一致的長度。當(dāng)這種技術(shù)用于數(shù)據(jù)規(guī)約時,每個元組看做一個n維數(shù)據(jù)向量,即X=(x1,x2,?xn),描述n個數(shù)據(jù)庫屬性在元組上的n個測量值。五、直方圖等寬度直方圖

對數(shù)據(jù)進(jìn)行分箱。假設(shè)按等寬度的方法進(jìn)行分箱(寬度w=1),則對于N個數(shù)據(jù),按其值vi分別放入到相應(yīng)的箱中,箱子的數(shù)目k=NMAX。設(shè)每個箱中的統(tǒng)計(jì)數(shù)據(jù)為ci(i=1,2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論