![數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理_第1頁](http://file4.renrendoc.com/view/d7e83f6213171c1206370f94b0de3096/d7e83f6213171c1206370f94b0de30961.gif)
![數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理_第2頁](http://file4.renrendoc.com/view/d7e83f6213171c1206370f94b0de3096/d7e83f6213171c1206370f94b0de30962.gif)
![數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理_第3頁](http://file4.renrendoc.com/view/d7e83f6213171c1206370f94b0de3096/d7e83f6213171c1206370f94b0de30963.gif)
![數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理_第4頁](http://file4.renrendoc.com/view/d7e83f6213171c1206370f94b0de3096/d7e83f6213171c1206370f94b0de30964.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
本文格式為Word版,下載可任意編輯——數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理
XI`ANTECHNOLOGICALUNIVERSITY
試驗(yàn)報(bào)告
試驗(yàn)課程名稱數(shù)據(jù)集成、變換、歸約和離散化
專業(yè):數(shù)學(xué)與應(yīng)用數(shù)學(xué)班級:姓名:學(xué)號:試驗(yàn)學(xué)時:指導(dǎo)教師:劉建偉成績:
2023年5月5日XX工業(yè)大學(xué)試驗(yàn)報(bào)告
專業(yè)試驗(yàn)課程試驗(yàn)項(xiàng)目試驗(yàn)設(shè)備及器材
數(shù)學(xué)與應(yīng)用數(shù)學(xué)數(shù)據(jù)挖掘班級指導(dǎo)教師131003劉建偉姓名學(xué)號試驗(yàn)日期2023-5-5同試驗(yàn)者數(shù)據(jù)集成、變換、歸約和離散化計(jì)算機(jī)一臺一試驗(yàn)?zāi)康?/p>
把握數(shù)據(jù)集成、變換、歸約和離散化二試驗(yàn)分析
從初始數(shù)據(jù)源出發(fā),總結(jié)了目前數(shù)據(jù)預(yù)處理的常規(guī)流程方法,提出應(yīng)把源數(shù)據(jù)的獲取作為數(shù)據(jù)預(yù)處理的一個步驟,并且創(chuàng)新性地把數(shù)據(jù)融合的方法引入到數(shù)據(jù)預(yù)處理的過程中,提出了數(shù)據(jù)的循環(huán)預(yù)處理模式,為提高數(shù)據(jù)質(zhì)量提供了更好的分析方法,保證了預(yù)計(jì)結(jié)果的質(zhì)量,為進(jìn)一步研究挖掘提供了較好的參考模式。三試驗(yàn)步驟
1數(shù)據(jù)分析任務(wù)多半涉及數(shù)據(jù)集成。數(shù)據(jù)集成是指將多個數(shù)據(jù)源中的數(shù)據(jù)合并并存放到一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫)中。這些數(shù)據(jù)源可能包括多個數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件。在數(shù)據(jù)集成時,有大量問題需要考慮。模式集成和對象匹配可能需要技巧。
2數(shù)據(jù)變換是指將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式。
(1)數(shù)據(jù)泛化:使用概念分層,用高層概念替換低層或“原始〞數(shù)據(jù)。例如,分類的屬性,如街道,可以泛化為較高層的概念,如城市或國家。類似地,數(shù)值屬性如年齡,可以映射到較高層概念如青年、中年和老年。
(2)規(guī)范化:將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。大致可分三種:最小最大規(guī)范化、z-score規(guī)范化和按小數(shù)定標(biāo)規(guī)范化。
(3)屬性構(gòu)造:可以構(gòu)造新的屬性并添加到屬性集中,以幫助挖掘過程。例如,可能希望根據(jù)屬性height和width添加屬性area。通過屬性構(gòu)造可以發(fā)現(xiàn)關(guān)于數(shù)據(jù)屬性間聯(lián)系的丟失信息,這對知識發(fā)現(xiàn)是有用的。
3數(shù)據(jù)經(jīng)過去噪處理后,需根據(jù)相關(guān)要求對數(shù)據(jù)的屬性進(jìn)行相應(yīng)處理.數(shù)據(jù)規(guī)約就是在減少數(shù)據(jù)存儲空間的同時盡可能保證數(shù)據(jù)的完整性,獲得比原始數(shù)據(jù)小得
多的數(shù)據(jù)。
4數(shù)據(jù)離散化就是一種數(shù)據(jù)變換形式。主要有①光滑②屬性構(gòu)造③聚集④規(guī)范化⑤離散化⑥有標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層。一、卡方檢驗(yàn)
對于標(biāo)稱數(shù)據(jù),兩個屬性A和B之間的相關(guān)聯(lián)系可以通過χ2(卡方)檢驗(yàn)發(fā)現(xiàn)。假設(shè)A有c個不同值a1,a2,…,ac,B有r個不同值b1,b2,…,br。用A和B描述的數(shù)據(jù)元組可以用一個相依表顯示,其中A的c個值構(gòu)成列,B的r個值構(gòu)成行。令(Ai,Bj)表示屬性A取值ai、屬性B取值bj的聯(lián)合事件,即(A=ai,B=bj)。每個可能的(Ai,Bj)聯(lián)合事件都在表中有自己的單元。χ2值(又稱Pearsonχ2統(tǒng)計(jì)量)可以用下式計(jì)算:
x???2i?1j?1cr(oij?eij)2eij
其中,oij是聯(lián)合事件(Ai,Bj)的觀測頻度(即實(shí)際計(jì)數(shù)),而eij是(Ai,Bj)的期望頻度,可以用下式計(jì)算:
eij?count(A?ai)?count(B?bj)n
其中,n是數(shù)據(jù)元組的個數(shù),count(A=ai)是A上具有值ai的元組個數(shù),而count(B=bj)是B上具有值bj的元組個數(shù)。式中的和在所有r×c個單元上計(jì)算。注意,對χ2值貢獻(xiàn)最大的單元是其實(shí)際計(jì)數(shù)與期望計(jì)數(shù)很不一致的單元。χ2統(tǒng)計(jì)檢驗(yàn)假設(shè)A和B是獨(dú)立的。檢驗(yàn)基于顯著水平,具有自由度(r-1)×(c-1)。我假使可以拒絕該假設(shè),則我們說A和B是統(tǒng)計(jì)相關(guān)的。
二、最小-最大規(guī)范化。假設(shè)屬性income的最小值和最大值分別為12000美元和98000美元。把income映射到區(qū)間[0.0,0.1].根據(jù)最小最大規(guī)范化,income值73600美元將轉(zhuǎn)變?yōu)?/p>
三、Z分?jǐn)?shù)規(guī)范化。假設(shè)屬性income的均值和標(biāo)準(zhǔn)差分別為54000美元和16000美元.使用Z分?jǐn)?shù)規(guī)范化,值73600美元被轉(zhuǎn)換為
73600-54000?1.225
1600073600-12000(1.0-0)?0?0.716。
98000-12000四、小波變換
離散小波變換是一種線信號處理技術(shù),用于數(shù)據(jù)向量X時,將它變換成不同的數(shù)值小波系數(shù)向量x'。兩個向量具有一致的長度。當(dāng)這種技術(shù)用于數(shù)據(jù)規(guī)約時,每個元組看做一個n維數(shù)據(jù)向量,即X=(x1,x2,?xn),描述n個數(shù)據(jù)庫屬性在元組上的n個測量值。五、直方圖等寬度直方圖
對數(shù)據(jù)進(jìn)行分箱。假設(shè)按等寬度的方法進(jìn)行分箱(寬度w=1),則對于N個數(shù)據(jù),按其值vi分別放入到相應(yīng)的箱中,箱子的數(shù)目k=NMAX。設(shè)每個箱中的統(tǒng)計(jì)數(shù)據(jù)為ci(i=1,2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個人小額無息貸款業(yè)務(wù)合同
- 2025年度住宅小區(qū)空調(diào)設(shè)備租賃與維護(hù)服務(wù)合同
- 2025年度網(wǎng)絡(luò)安全服務(wù)合同匯編指南
- 2025年度酒吧應(yīng)急物資儲備與供應(yīng)合同
- 2025年度裝配式建筑構(gòu)件生產(chǎn)與施工一體化合同范本
- 2025年度大型體育賽事運(yùn)營與管理合同
- 2025年度建筑材料租賃及工程質(zhì)量監(jiān)督合同范本
- 2025年度房地產(chǎn)廣告設(shè)計(jì)委托合同樣本
- 2025年度化妝造型行業(yè)人才培養(yǎng)與實(shí)習(xí)合同
- 2025年公司內(nèi)部員工信用貸款合同范本
- 引水隧洞施工支洞專項(xiàng)施工方案
- 高標(biāo)準(zhǔn)農(nóng)田建設(shè)項(xiàng)目檔案資料驗(yàn)收清單
- 《教育心理學(xué)(第3版)》全套教學(xué)課件
- JT-T-496-2018公路地下通信管道高密度聚乙烯硅芯塑料管
- 貴州省銅仁市2024年中考英語模擬試卷(含答案)
- DB43-T 2939-2024 醬腌菜咸胚中亞硝酸鹽的測定頂空-氣相色譜法
- 藥品不良反應(yīng)監(jiān)測工作制度及流程
- 食材配送投標(biāo)方案技術(shù)標(biāo)
- 《電力系統(tǒng)自動化運(yùn)維綜合實(shí)》課件-通信設(shè)備接地線接頭制作
- 國際標(biāo)準(zhǔn)《風(fēng)險(xiǎn)管理指南》(ISO31000)的中文版
- 再見深海合唱簡譜【珠海童年樹合唱團(tuán)】
評論
0/150
提交評論