第3章數據泛化_第1頁
第3章數據泛化_第2頁
第3章數據泛化_第3頁
第3章數據泛化_第4頁
第3章數據泛化_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第3章 數據泛化數據挖掘的分類描述性挖掘:以簡潔概要的方式描述數據,并提供數據的有意義的一般性質。預測性數據挖掘:通過分析數據建立一個或一組模型,并試圖預測新數據集的行為。概念描述(泛化):為數據的特征化和比較產生描述(當所描述的概念所指的是一類對象時,也稱為類描述)特征化:提供給定數據集的簡潔匯總。例如按專業(yè)的成績分布表區(qū)分:提供兩個或多個數據集的比較描述。如男生與女生的對比。面向屬性的歸納 :是一種數據泛化方法,可以從大量數據中找出其中的一般性規(guī)律什么是數據泛化?數據庫中的數據和對象通常包含原始概念層的細節(jié)信息,數據泛化就是將數據庫中數據集從較低的概念層抽象到較高的概念層的過程。用較高層次

2、的概念來代替較低層次的概念。例如:用老、中、青分別代替(20-35,36-50,51-70)的年齡區(qū)間值。 用省代替地市級的概念等面向屬性的歸納的基本步驟1、數據聚焦,獲得初始數據關系2、 進行面向屬性的歸納 基本操作是數據概化,對有大量不同值的屬性,進行以下操作:屬性刪除、屬性概化屬性概化控制:控制概化過程,確定有多少不同的值才算是有大量不同值的屬性屬性概化臨界值控制:如果一個屬性的不同值個數大于屬性概化臨界值,則應當進一步刪除或者概化該屬性。概化(廣義)關系臨界值控制:如果概化關系中不同元組的個數超過概化(廣義)關系臨界值,則應當進一步概化。屬性刪除的適用規(guī)則:對初始工作關系中具有大量不同

3、值的屬性,符合以下情況,應使用屬性刪除:在此屬性上沒有概化操作符(比如該屬性沒有定義相關的概念分層)、該屬性的較高層概念用其他屬性表示如:name: 要被刪除的屬性 phone#:要被刪除的屬性屬性概化控制的兩種常用方法:屬性概化臨界值控制:對所有屬性設置一個概化臨界值或者是對每個屬性都分別設置一個臨界值(一般為2到8)概化關系臨界值控制: 為概化關系設置一個臨界值,確定概化后的關系中,不同元組個數的最大值。(通常為10到30,應該允許在實際應用中進行調整)第4章 關聯(lián)規(guī)則關聯(lián)規(guī)則挖掘:從事務數據庫、關系數據庫和其他信息存儲中的大量數據的項集之間發(fā)現有趣的、頻繁出現的模式、項與項之間的關聯(lián)應用

4、:購物籃分析、分類設計、捆綁銷售和虧本銷售分析、病理分析、文本挖掘、網絡故障分析等經典的關聯(lián)規(guī)則挖掘算法:Apriori算法和FP-growth算法 設=i1,i2,im是m個不同項目的集合,每個ik(k=1,2,m)稱為一個項目(item)。項目的集合稱為項目集合(itemset),簡稱為項集。其元素個數稱為項集的長度,長度為k的項集稱為k-項集(k-itemset)。=bread, cream, milk, tea, cake, beer 該超市出售6種商品,項集包含6個項目,的長度為6. 對于項集cake, beer 包含2個項目,成為2-項集。每筆交易T(Transaction)是項集

5、上的一個子集,即TÍ,但通常TÌ。對應每一個交易有一個唯一的標識交易號,記作TID交易的全體構成了交易數據庫D,或稱交易記錄集D,簡稱交易集D。交易集D中包含交易的個數記為|D|。表4.1所示的交易記錄集D中包含10筆交易T1T10,則|D|=10。每筆交易中,顧客購買的商品集合(即項集),是所有商品的項集的一個子集。對于項集X,XÌ,設定count(XÍT)為交易集D中包含X的交易的數量,則項集X的支持度support(X)就是項集X出現的概率,從而描述了X的重要性。項集X的支持度為: 項集的最小支持度與頻繁項集要發(fā)現有意義的關聯(lián)規(guī)則,要求項集必須滿足

6、的用戶給定的最小支持閾值,稱為項集的最小支持度(Minimum Support),記為supmin。 從統(tǒng)計意義上講,它表示用戶關心的關聯(lián)規(guī)則必須滿足的最低重要性。只有滿足最小支持度的項集才能產生關聯(lián)規(guī)則。大于或等于supmin的項集稱為頻繁項集,反之則稱為非頻繁項集。通常k-項集如果滿足supmin,稱為k-頻繁項集,記作Lk。 關聯(lián)規(guī)則關聯(lián)規(guī)則(Association Rule)可以表示為一個蘊含式: R:XÞY(讀作:X與Y關聯(lián),或者Y關聯(lián)于X) 其中:XÌ,YÌ,并且XY=Ø如果R:XÞY 是一個關聯(lián)規(guī)則,那么X,Y是一個項集。反之,如

7、果X,Y是一個項集,則XÞY可以構成一個關聯(lián)規(guī)則。 例如bread ,milk是一個項集,則R1:bread Þ milk是一個關聯(lián)規(guī)則 。關聯(lián)規(guī)則不一定有意義。 關聯(lián)規(guī)則的支持度對于關聯(lián)規(guī)則R:XÞY,其中XÌ,YÌ,并且XÇY=F,規(guī)則R的的支持度(Support)是交易集中同時包含X和Y的交易數與所有交易數之比。 關聯(lián)規(guī)則的可信度對于關聯(lián)規(guī)則R:XÞY,其中XÌ,YÌ,并且XÇY=F,規(guī)則R的可信度(Confidence)是指包含X和Y的交易數與包含X的交易數之比 關聯(lián)規(guī)則的最小支持度和最

8、小可信度關聯(lián)規(guī)則的最小支持度也就是衡量頻繁集的最小支持度(Minimum Support),記為supmin,它用于衡量規(guī)則需要滿足的最低重要性。規(guī)則的最小可信度(Minimum Confidence)記為confmin,它表示關聯(lián)規(guī)則需要滿足的最低可靠性。強關聯(lián)規(guī)則如果規(guī)則XÞY滿足:support(XÞY)³supmin且confidence(XÞY)³confmin,稱關聯(lián)規(guī)則XÞY為強關聯(lián)規(guī)則,否則稱關聯(lián)規(guī)則XÞY為弱關聯(lián)規(guī)則。 在挖掘關聯(lián)規(guī)則時,產生的關聯(lián)規(guī)則要經過supmin和confmin的衡量,篩選出來的強關

9、聯(lián)規(guī)則才能用于指導商家的決策。Apriori性質:頻繁項集的所有非空子集也必須是頻繁的。(即如果某個K-項集A是頻繁的,則A的所有非空子集也是頻繁的) Apriori算法是反單調的,即一個集合如果不能通過測試,則該集合的所有超集也不能通過相同的測試。例如: 假設B, C, E是頻繁的,則它的所有非空子集B,C,B,E,C,E,B,C,E肯定是頻繁的。 假設A,C是非頻繁的,則A,B,C也一定是非頻繁的。 因此對于一個項集,如果其中有一個子集是非頻繁的,則該項集也一定是非頻繁的。由頻繁項集生成強關聯(lián)規(guī)則同時滿足最小支持度和最小置信度的才是強關聯(lián)規(guī)則,從頻繁項集產生的規(guī)則都滿足支持度要求,而其置信

10、度則可由一下公式計算:第5章 數據分類分類的定義:按照事務特征將給定的事務個體分配到指定的類別中去。把無規(guī)律的事務分為有規(guī)律的過程。分類與預測的區(qū)別分類:預測分類標號(離散值),根據訓練數據集和類標號屬性構建分類模型,對新數據進行分類. 例如:信任度等級劃分問題預測:預測函數值(連續(xù)值),根據訓練數據集,建立連續(xù)函數值模型,然后利用該模型計算新數據的函數值分類與聚類的區(qū)別1)分類:有指導的學習2)聚類:無指導的學習描述屬性可以是連續(xù)型屬性,也可以是離散型屬性;而類別屬性必須是離散型屬性。 1、試敘述數據挖掘的步驟。(給出步驟標題,并予以簡要說明)數據挖掘的步驟為:1) 數據歸集;2) 數據預處

11、理;3) 數據挖掘;4) 評估與表示。2、ODS是什么意思?它的作用是什么?1)ODS全稱為Operational Data Store,即操作型數據存儲。2)作用:操作數據存儲在通常的數據倉庫架構中都是一個可選的部件,它和數據倉庫起到互相補充的作用。3、什么是特征化?在面向屬性的歸納的特征化過程中,有兩個參數分別是屬性概化臨界值和概化(廣義)關系臨界值,試敘述這兩個參數的意義。1)特征化:即對一個關系模式的給定數據集進行簡潔匯總的過程。(4分)2)屬性概化臨界值控制:對所有屬性設置一個概化臨界值或者是對每個屬性都分別設置一個臨界值(一般為2到8)(2分)3)概化關系臨界值控制:為概化關系設置

12、一個臨界值,確定概化后的關系中,不同元組個數的最大值。(通常為10到30,應該允許在實際應用中進行調整)(2分)4、敘述使用遺傳算法的基本步驟(給出步驟標題,并予以簡要說明)。1)編碼:把所需要選擇的特征進行編號,每一個特征就是一個基因,一個解就是一串基因的組合;2)初始群體的生成:隨機產生N個初始串結構數據;3)交換:交換操作是遺傳算法中最主要的遺傳操作;4)適度值評價檢測:計算交換產生的新個體的適應度;5)選擇:從交換后的群體中尋找優(yōu)良的個體;6)變異;7)中止。1、 敘述ETL的基本概念,以及主要方法。ETL是數據挖掘的預處理過程,該過程將分布的異構數據源中的數據如關系數據、平面數據文件

13、等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯(lián)機分析處理、數據挖掘的基礎。(4分)主要方法有:1)異種數據源中的數據提取方法 2)數據的清洗與轉換方法,如:空值處理,格式格式,數據壓縮等方法 3)數據裝載后的索引方法(4分)3、多維數據模型是由維表和事實表構成,請敘述維表與事實表之間的聯(lián)系。 多維數據集由維表和事實表構成,其中事實表是數據集合的主體,它由相關屬性的主鍵與數據度量兩個部分組成,其中相關屬性的主鍵是維表的外鍵(2分),事實表中這些相關屬性的外鍵復合成為事實表的主鍵(2分);而事實表中的相關屬性的外鍵是對應維表的主鍵。(其它綜合4分)4、給出在SQL server 2005中進行聚類分析的基本步驟。1)創(chuàng)建數據分析項目2)創(chuàng)建數據源3)創(chuàng)建數據源視圖4)創(chuàng)建聚類分析挖掘結構5)部署項目并處理挖掘模型6)模型解釋四、計算與應用(20分)請利用Apriori算法求項目集I= I1,I2,I3,I4,I5中,根據下列事務表:TID 項ID的列表T100T200T300T400T500T600T700T800T900I1,I2,I4I1,I3I2,I4I1,I4,I5I1,I3I2,I3I1,I4I1,I2,I4,I5I1,I2,I3完成:(1) 假定最小支持度設定為2,請找出所有的頻繁項集;(2)假定最小置信度設定為65,請求出最

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論