




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、工業(yè)控制技術(shù)研究所,自動化前沿,第4講:數(shù)據(jù)挖掘技術(shù)及其應(yīng)用宋志環(huán),浙江大學(xué)工業(yè)控制研究所控制科學(xué)與工程系研究生課程,主要內(nèi)容,數(shù)據(jù)挖掘概述,數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘算法分類和預(yù)測,數(shù)據(jù)挖掘算法聚類,數(shù)據(jù)挖掘算法關(guān)聯(lián)分析,序列模式挖掘軟件,數(shù)據(jù)挖掘應(yīng)用,工業(yè)控制技術(shù)研究所,1。數(shù)據(jù)挖掘概述、數(shù)據(jù)挖掘概念、數(shù)據(jù)挖掘從大量數(shù)據(jù)中發(fā)現(xiàn)其規(guī)則的技術(shù),是統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動提取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu)。數(shù)據(jù)挖掘的大部分價值在于利用數(shù)據(jù)挖掘技術(shù)改進預(yù)測模型。數(shù)據(jù)挖掘和KDD,工業(yè)控制技術(shù)研究所,數(shù)據(jù)挖掘和KDD,知識發(fā)現(xiàn)(KD)輸出常規(guī)數(shù)據(jù)挖掘(DM),后
2、者輸出模型共性。兩種方法都輸入學(xué)習(xí)集。目的是盡可能地自動化數(shù)據(jù)挖掘過程。數(shù)據(jù)挖掘過程不能完全自動化,只能是半自動的。數(shù)據(jù)挖掘的社會需求,國民經(jīng)濟和社會的信息化,社會運行是社會信息化后的軟件運行,社會歷史是數(shù)據(jù)歷史,工業(yè)控制技術(shù)研究所,數(shù)據(jù)挖掘的社會需求,有價值的知識,可怕的數(shù)據(jù),工業(yè)控制技術(shù)研究所,數(shù)據(jù)挖掘的社會需求,數(shù)據(jù)爆炸,知識的缺乏,工業(yè)控制技術(shù)研究所,數(shù)據(jù)挖掘的發(fā)展,1989年IJCAI會議:數(shù)據(jù)庫中的知識發(fā)現(xiàn)(皮亞特斯基-夏皮羅和弗勞利, 1991) 1991-1994 KDD討論了知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的進展(美國法耶茲,皮亞特斯基-夏皮羅,斯邁思和烏圖薩米,1996) 1995-19
3、98 KDD國際會議(KDD 95-98)數(shù)據(jù)挖掘和知識發(fā)現(xiàn)雜志(1997)1998 ACM SIGGKDD,SIGGKDD 1999-2002會議,以及更多關(guān)于SIGGKDD探索和數(shù)據(jù)挖掘的國際會議, 工業(yè)控制技術(shù)研究院,數(shù)據(jù)挖掘技術(shù),技術(shù)分類預(yù)測:用歷史來預(yù)測未來描述:了解數(shù)據(jù)挖掘技術(shù)中潛在的規(guī)律關(guān)聯(lián)分析序列模式分類(預(yù)測)聚集異常檢測,工業(yè)控制技術(shù)研究院,異常檢測,異常檢測是數(shù)據(jù)挖掘中的一個重要方面,它用于發(fā)現(xiàn)“小模式”(與聚類相比),即數(shù)據(jù)集中的對象與其他數(shù)據(jù)有顯著的不同。異常檢測應(yīng)用電信和信用卡欺詐貸款批準藥物研究天氣預(yù)報金融客戶分類網(wǎng)絡(luò)入侵檢測故障檢測和診斷工業(yè)控制技術(shù)研究所什么是
4、異常?霍金斯(1980)給出了異常的本質(zhì)定義:異常是數(shù)據(jù)集中的異常數(shù)據(jù),這使人們懷疑這些數(shù)據(jù)不是隨機偏差,而是由完全不同的機制產(chǎn)生的。聚類算法中異常的定義:異常是聚類中嵌入的背景噪聲。異常檢測算法定義異常:異常是既不屬于聚類也不屬于背景噪聲的點。他們的行為與正常行為大不相同。工業(yè)控制技術(shù)研究院,異常檢測方法分類,基于統(tǒng)計的方法,基于距離的方法,基于偏差的方法,基于密度的方法,高維數(shù)據(jù)的異常檢測,數(shù)據(jù)挖掘系統(tǒng)的特征,數(shù)據(jù)特征知識和特征算法的特征,礦山(數(shù)據(jù)),挖掘工具(算法),黃金(知識),工業(yè)控制技術(shù)研究院,數(shù)據(jù)特征, 大容量POS數(shù)據(jù)(一家超市每天處理多達2000萬筆交易)衛(wèi)星圖像(美國宇航
5、局的地球觀測衛(wèi)星以每小時50GB的速度發(fā)回數(shù)據(jù))互聯(lián)網(wǎng)數(shù)據(jù)包含嘈雜(不完整和不正確)的異構(gòu)數(shù)據(jù)(數(shù)據(jù)源具有多種數(shù)據(jù)類型,來自互聯(lián)網(wǎng)的數(shù)據(jù)是一個典型的例子),工業(yè)控制技術(shù)研究所,系統(tǒng)特征,知識發(fā)現(xiàn)系統(tǒng)需要預(yù)處理過程,數(shù)據(jù)提取,數(shù)據(jù)清理,數(shù)據(jù)選擇和數(shù)據(jù)轉(zhuǎn)換。 知識發(fā)現(xiàn)系統(tǒng)是一個自動/半自動的過程知識發(fā)現(xiàn)系統(tǒng),具有良好的性能。工業(yè)控制技術(shù)研究所,知識的特征(模式),知識發(fā)現(xiàn)系統(tǒng)能發(fā)現(xiàn)什么知識?以發(fā)現(xiàn)關(guān)系為目的的歸納邏輯程序設(shè)計目前的知識發(fā)現(xiàn)系統(tǒng)只能發(fā)現(xiàn)特定模式下知識規(guī)則的分類和關(guān)聯(lián)。工業(yè)控制技術(shù)研究所,知識表示:規(guī)則,如果條件那么結(jié)論條件和結(jié)論粒度(抽象度)可以有多種單值區(qū)間模糊值規(guī)則,其中可以有確
6、定度,精確規(guī)則和概率規(guī)則,工業(yè)控制技術(shù)研究所,知識表示:分類樹,分類條件1,分類條件2,分類條件3,類1,類2,類3,類4,工業(yè)控制技術(shù)研究所,數(shù)據(jù)挖掘算法三元素模式描述語言,它構(gòu)成了數(shù)據(jù)挖掘算法,反映了算法可以找到什么樣的知識模式。評估反映了什么樣的模式可以被稱為知識模式探索,包括探索參數(shù)空間和特定模式的模式空間,工業(yè)控制技術(shù)研究所,數(shù)據(jù)挖掘的主要方法,分類,聚類,關(guān)聯(lián)規(guī)則,回歸等,工業(yè)控制技術(shù)研究所,數(shù)據(jù)挖掘系統(tǒng),工業(yè)控制技術(shù)研究所,數(shù)據(jù)挖掘系統(tǒng),第一代數(shù)據(jù)挖掘系統(tǒng)支持一個或幾個數(shù)據(jù)挖掘算法,這些算法是為了挖掘向量值數(shù)據(jù)而設(shè)計的,這些數(shù)據(jù)模型通常在挖掘時一次性轉(zhuǎn)移到內(nèi)存中。許多這樣的系統(tǒng)已
7、經(jīng)商業(yè)化。第二代數(shù)據(jù)挖掘系統(tǒng)目前的研究方向是改進第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,具有高性能接口和高擴展性。例如,第二代系統(tǒng)可以挖掘大型數(shù)據(jù)集、更復(fù)雜的數(shù)據(jù)集和高維數(shù)據(jù)。這一代系統(tǒng)通過支持數(shù)據(jù)挖掘模式和數(shù)據(jù)挖掘查詢語言(DMQL)增加了系統(tǒng)的靈活性。工業(yè)控制技術(shù)研究所,數(shù)據(jù)挖掘系統(tǒng),第三代數(shù)據(jù)挖掘系統(tǒng)第三代的特點是能夠挖掘互聯(lián)網(wǎng)/外聯(lián)網(wǎng)的分布式和高度異構(gòu)的數(shù)據(jù),并有效地與操作系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)的關(guān)鍵技術(shù)之一是為構(gòu)建在異構(gòu)系統(tǒng)上的多個預(yù)測模型提供一流的支持,并為管理這些預(yù)測模型提供元數(shù)據(jù)。第四代數(shù)據(jù)挖掘系統(tǒng)第四代數(shù)據(jù)挖掘系統(tǒng)可以挖掘由嵌
8、入式系統(tǒng)、移動系統(tǒng)和普適計算設(shè)備生成的各種類型的數(shù)據(jù)。工業(yè)控制技術(shù)研究所,工業(yè)控制技術(shù)研究所,2。數(shù)據(jù)預(yù)處理,為什么需要預(yù)處理,不完整的數(shù)據(jù)與觀測噪聲不一致等不良成分?通過填充空位值、平滑噪聲數(shù)據(jù)、識別和刪除孤立點以及解決不一致來進行數(shù)據(jù)清理。工業(yè)控制技術(shù)研究所,污染數(shù)據(jù)形成的原因,縮寫詞的濫用,數(shù)據(jù)輸入錯誤,數(shù)據(jù)中嵌入的控制信息,不同的習(xí)慣用法,重復(fù)記錄,丟失的值,拼寫變化,不同的測量單位,包含各種噪聲的過時代碼,工業(yè)控制技術(shù)研究所,數(shù)據(jù)清理的重要性,以及污染數(shù)據(jù)的普遍性,使得在大型數(shù)據(jù)庫中維護數(shù)據(jù)的正確性和一致性成為一項極其困難的任務(wù)。垃圾入、垃圾出、工控技術(shù)研究院、數(shù)據(jù)清理處理內(nèi)容、格式
9、標準化、異常數(shù)據(jù)清理、糾錯、重復(fù)數(shù)據(jù)清理、工控技術(shù)研究院、數(shù)據(jù)協(xié)議、數(shù)據(jù)集壓縮表示,但可以實現(xiàn)與原始數(shù)據(jù)集相同或基本相同的分析結(jié)果。主要策略:數(shù)據(jù)聚合維度協(xié)議、數(shù)據(jù)壓縮數(shù)值協(xié)議、工業(yè)控制技術(shù)研究院、空位值、忽略元組和手動填充空位值、使用固定值和使用屬性平均值來使用最可能值。工業(yè)控制技術(shù)研究所,噪聲數(shù)據(jù),如何平滑數(shù)據(jù),數(shù)據(jù)平滑技術(shù),消除噪聲,盒子聚類,計算機回歸與人工檢查相結(jié)合,工業(yè)控制技術(shù)研究所,盒子,盒子深度:這意味著不同的盒子有相同數(shù)量的數(shù)據(jù)。箱寬:每個箱值的值間隔是一個常數(shù)。平滑方法:按箱平均值平滑按箱中值平滑按箱邊界值平滑,工業(yè)控制技術(shù)研究所,聚類,每個聚類中的數(shù)據(jù)使用其中心值而不是忽
10、略孤立點,然后通過聚類等方法找出孤立點。這些孤立的點可能包含有用的信息。手動重新檢查這些孤立點,工業(yè)控制技術(shù)研究所,回歸,并構(gòu)建函數(shù),以滿足數(shù)據(jù)變化的趨勢,使一個變量可以用來預(yù)測另一個變量。線性回歸多元線性回歸,工業(yè)控制技術(shù)研究所,數(shù)據(jù)集成,它結(jié)合了來自多個數(shù)據(jù)源的數(shù)據(jù),并將它們存儲在一個數(shù)據(jù)存儲中。實體識別實體和模式匹配冗余:一個屬性可以從其他屬性中推導(dǎo)出來。相關(guān)分析表明ra、b ra、b0呈正相關(guān)。a隨b的增加而增加,而rA、B0呈正相關(guān)。AB獨立rA,B0,正相關(guān)。隨著B值的增加,A減少了對同一數(shù)據(jù)存儲器中多次數(shù)據(jù)值沖突的檢測和處理。工業(yè)控制技術(shù)研究所,數(shù)據(jù)轉(zhuǎn)換,平滑聚集數(shù)據(jù)的廣義歸一化
11、屬性構(gòu)造(特征構(gòu)造),工業(yè)控制技術(shù)研究所,最小和最大歸一化十進制標度歸一化屬性構(gòu)造,從給定屬性構(gòu)造和添加新屬性,以幫助提高精度,理解和標準化高維數(shù)據(jù)結(jié)構(gòu)。工業(yè)控制技術(shù)研究所,數(shù)據(jù)立方體聚合,尋找感興趣的維度進行重新聚合,工業(yè)控制技術(shù)研究所,降維,刪除不相關(guān)的屬性(維度)以減少數(shù)據(jù)量。選擇屬性子集,找出最小的屬性集,使數(shù)據(jù)類的概率分布盡可能接近所有屬性的原始分布。貪婪算法逐步向前選擇逐步向后刪除逐步向前選擇和向后刪除結(jié)合決策樹歸納、工業(yè)控制技術(shù)研究所、數(shù)據(jù)壓縮、有損和無損小波變換將數(shù)據(jù)向量D轉(zhuǎn)換成具有不同小波系數(shù)值的向量D。切割并保留小波系數(shù)的最強部分。主成分分析,工業(yè)控制技術(shù)研究所,數(shù)值約簡,
12、回歸和對數(shù)線性模型線性回歸對數(shù)模型直方圖等寬等深V-最優(yōu)maxDiff,工業(yè)控制技術(shù)研究所,數(shù)值約簡,聚類多維索引樹:對于給定的數(shù)據(jù)集,索引樹動態(tài)劃分多維空間。選擇樣本只是選擇n個樣本,而不是簡單地選擇n個樣本,而是通過聚類和分層來選擇樣本。工業(yè)控制技術(shù)研究所,離散化和概念分層,離散化技術(shù)通常是遞歸的,以減少給定的連續(xù)屬性的數(shù)量。很多時間花在分類上。對于給定的數(shù)字屬性,概念層次定義了離散的t值根據(jù)2-3-3,7個不同的值被分成3個區(qū)間。最高位包含2、4和8個不同的值,最高位包含1、5和10個不同的值。它分為5個等寬間隔。最高分層通常從第5百分位到第95百分位進行。工業(yè)控制技術(shù)研究所,分類數(shù)據(jù)的
13、概念是分層生成的,分類數(shù)據(jù)是離散數(shù)據(jù)。分類屬性可以有有限數(shù)量的不同值。方法用戶和專家在模式層明確解釋屬性的偏序,并通過顯式數(shù)據(jù)分組解釋屬性集來解釋部分層次結(jié)構(gòu),但不解釋他們的偏序只解釋屬性集的一部分。工業(yè)控制技術(shù)研究所,工業(yè)控制技術(shù)研究所,3。數(shù)據(jù)挖掘算法的分類和預(yù)測,分類與預(yù)測,分類:根據(jù)訓(xùn)練數(shù)據(jù)集和分類標簽屬性,預(yù)測分類標簽(或離散值),建立模型對現(xiàn)有數(shù)據(jù)進行分類,并使用它對新數(shù)據(jù)進行分類預(yù)測:建立連續(xù)函數(shù)值模型,例如預(yù)測空缺值,驗證典型應(yīng)用程序的信譽,以及預(yù)測目標市場中醫(yī)療診斷的性能。工業(yè)控制技術(shù)研究所,數(shù)據(jù)分類:一個兩步的過程,第一步,建立一個模型,描述預(yù)定的數(shù)據(jù)類集和概念集,假設(shè)每個
14、元組屬于一個預(yù)定義的類,基本的概念訓(xùn)練數(shù)據(jù)集是由一個類標簽屬性確定的:訓(xùn)練樣本是由數(shù)據(jù)元組形成的,為建立模型而分析:訓(xùn)練數(shù)據(jù)集中的單樣本(元組)學(xué)習(xí)模型可以以分類規(guī)則,決策樹或數(shù)學(xué)公式的形式提供。第二步是使用該模型對未來或未知的物體進行分類。首先,對模型的預(yù)測精度進行評估。對于每個測試樣本,將已知的類別標簽與該樣本的學(xué)習(xí)模型類別預(yù)測進行比較。給定測試集上模型的準確性是正確的。由模型分類的測試樣本的百分比應(yīng)該獨立于訓(xùn)練樣本集。否則,將會出現(xiàn)“過度適應(yīng)數(shù)據(jù)”的情況。工業(yè)控制技術(shù)研究所,第1步:建立模型,訓(xùn)練數(shù)據(jù)集、分類算法、如果等級=教授或6年,則拉伸=是,分類規(guī)則、工業(yè)控制技術(shù)研究所,第2步:用
15、模型、分類規(guī)則、測試集、未知數(shù)據(jù)、(,教授,4)、拉伸?工業(yè)控制技術(shù)研究所準備分類和預(yù)測數(shù)據(jù)。通過對數(shù)據(jù)進行預(yù)處理,可以提高分類和預(yù)測過程的準確性、有效性和可擴展性。數(shù)據(jù)清理消除或減少噪音,并處理空缺值,從而減少學(xué)習(xí)過程中的混亂。相關(guān)性分析數(shù)據(jù)中的某些屬性可能與當前任務(wù)無關(guān);有些屬性可能是多余的;刪除這些屬性可以加快學(xué)習(xí)步驟,使學(xué)習(xí)結(jié)果更加準確。數(shù)據(jù)轉(zhuǎn)換可以將數(shù)據(jù)歸納為更高層次的概念,或者將數(shù)據(jù)標準化。工業(yè)控制技術(shù)研究所比較了分類方法,并將分類和預(yù)測方法的預(yù)測精度與以下標準進行了比較:模型正確預(yù)測新數(shù)據(jù)類別數(shù)的能力和速度:生成和使用模型的計算成本穩(wěn)健性:給定噪聲數(shù)據(jù)或具有空位值的數(shù)據(jù),模型正確預(yù)測能力的可伸縮性:對于大量數(shù)據(jù), 有效建立模型的能力可以解釋為:學(xué)習(xí)模型提供的理解和洞察力的水平,工業(yè)控制技術(shù)研究所,使用決策樹來總結(jié)和分類,什么是決策樹? 類似于流程圖,樹結(jié)構(gòu)的每個內(nèi)部節(jié)點代表一個屬性測試,每個分支代表一個測試輸出。每個葉節(jié)點代表一個類或類分布。決策樹的生成包括兩個階段。當決策樹建立時,所有訓(xùn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 游客體驗優(yōu)化實踐分析
- 英語外研版二年級上冊知識點
- 企業(yè)培訓(xùn)與課件應(yīng)用
- 安全責任明確廠房租賃協(xié)議書
- 城市改造配套采石場產(chǎn)權(quán)移交合同
- 財務(wù)顧問公司財務(wù)托管與專業(yè)服務(wù)協(xié)議
- 互聯(lián)網(wǎng)教育平臺策劃與開發(fā)合同
- 企業(yè)全面預(yù)算管理財務(wù)制度合同范本
- 集團廣告投放方案模板
- 餐飲加盟店預(yù)付款項及掛賬合作合同范本
- 國家開放大學(xué)2023年7月期末統(tǒng)一試《11376機械制造裝備及設(shè)計》試題及答案-開放本科
- 礦山救護培訓(xùn)課件
- 2023年《中藥商品學(xué)》期末考試復(fù)習(xí)題庫(含答案)
- 質(zhì)量管理體系品質(zhì)保證體系圖
- 山東省各地市地圖課件
- 啦啦操訓(xùn)練計劃
- 中醫(yī)內(nèi)科常見病癥及方藥
- DB41T2437-2023養(yǎng)老機構(gòu)院內(nèi)感染預(yù)防與控制規(guī)范
- 設(shè)備交接班管理制度
- 浙江省級高新技術(shù)企業(yè)研發(fā)中心申請材料樣例
- 酒泉事業(yè)單位筆試真題
評論
0/150
提交評論