數(shù)據(jù)挖掘原語和語言_第1頁
數(shù)據(jù)挖掘原語和語言_第2頁
數(shù)據(jù)挖掘原語和語言_第3頁
數(shù)據(jù)挖掘原語和語言_第4頁
數(shù)據(jù)挖掘原語和語言_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘原語、語言和系統(tǒng)結(jié)構(gòu)為什么要數(shù)據(jù)挖掘原語和語言?沒有精確的指令和規(guī)則,數(shù)據(jù)挖掘系統(tǒng)就沒法使用。一個完全自動(不需要人為干預或指導)的數(shù)據(jù)挖掘機器:會產(chǎn)生大量模式(重新把知識淹沒)會涵蓋所有數(shù)據(jù),使得挖掘效率低下大部分有價值的模式集可能被忽略挖掘出的模式可能難以理解,缺乏有效性、新穎性和實用性——令人不感興趣。用數(shù)據(jù)挖掘原語和語言來指導數(shù)據(jù)挖掘。數(shù)據(jù)挖掘原語的組成部分數(shù)據(jù)挖掘原語應(yīng)該包括以下部分:說明數(shù)據(jù)庫的部分或用戶感興趣的數(shù)據(jù)集要挖掘的知識類型用于指導挖掘的背景知識模式評估、興趣度量如何顯示發(fā)現(xiàn)的知識數(shù)據(jù)挖掘原語用于用戶和數(shù)據(jù)挖掘系統(tǒng)通信,讓用戶能從不同的角度和深度審查和發(fā)現(xiàn)結(jié)果,并指導挖掘過程。說明數(shù)據(jù)挖掘任務(wù)的原語任務(wù)相關(guān)的數(shù)據(jù)數(shù)據(jù)庫(倉庫)名、數(shù)據(jù)立方體、選擇條件、相關(guān)屬性、分組條件挖掘的知識類型特征化、區(qū)分、關(guān)聯(lián)、分類/預測、聚類背景知識概念分層,關(guān)聯(lián)的確信度模式興趣度度量簡單性、確定性、實用性、新穎性發(fā)現(xiàn)模式的可視化規(guī)則、表、圖表、圖、判定樹…任務(wù)相關(guān)的數(shù)據(jù)用戶感興趣的只是數(shù)據(jù)庫或數(shù)據(jù)倉庫的一個子集。相關(guān)的操作:DB-選擇、投影、連接、聚集等;DW-切片、切塊初始數(shù)據(jù)關(guān)系數(shù)據(jù)子集選擇過程產(chǎn)生的新的數(shù)據(jù)關(guān)系可挖掘的視圖用于數(shù)據(jù)挖掘相關(guān)任務(wù)的數(shù)據(jù)集任務(wù)相關(guān)的數(shù)據(jù)——例子挖掘加拿大顧客和他們常在AllElectronics購買的商品間的關(guān)聯(lián)規(guī)則數(shù)據(jù)庫(倉庫)名(e.g.AllElectronics_db)包含相關(guān)數(shù)據(jù)的表或數(shù)據(jù)立方體名(e.g.item,customer,purchases,item_sold)選擇相關(guān)數(shù)據(jù)的條件(今年、加拿大)相關(guān)的屬性或維(item表的name和price,customer表的income和age)要挖掘的知識類型要挖掘的知識類型將決定使用什么數(shù)據(jù)挖掘功能。概念描述(特征化和區(qū)分),關(guān)聯(lián)規(guī)則,分類/預測,聚類和演化分析等模式模板又稱元模式或元規(guī)則,用來指定所發(fā)現(xiàn)模式所必須匹配的條件,用于指導挖掘過程。關(guān)聯(lián)規(guī)則元模式——例子研究AllElectronics的顧客購買習慣,使用如下關(guān)聯(lián)規(guī)則:P(X:customer,W)∧Q(X,Y)=>buys(X,Z)X---customer表的關(guān)鍵字P,Q---謂詞變量W,Y,Z---對象變量模板具體化age(X,“30…39”)∧income(X,“40k…49k”)=>buys(X,“VCR”) [2.2%,60%]occupation(x,“student”)∧age(X,“20…29”)=>buys(X,“computer”) [1.4%,70%]背景知識:概念分層背景知識是關(guān)于挖掘領(lǐng)域的知識,概念分層是背景知識的一種,它允許在多個抽象層上發(fā)現(xiàn)知識。概念分層以樹形結(jié)構(gòu)的節(jié)點集來表示,其中每個節(jié)點本身代表一個概念,根節(jié)點稱為all,而葉節(jié)點則對應(yīng)于維的原始數(shù)據(jù)值。概念分層——上卷和下鉆在概念分層中應(yīng)用上卷操作(概化),使得用戶可以使用較高層次概念替代較低層次概念,從而可以在更有意義,跟抽象的層次觀察數(shù)據(jù),從而跟容易發(fā)現(xiàn)知識。同時上卷操作帶來的數(shù)據(jù)歸約還能有效的節(jié)省I/O支出。概念分層的下鉆操作使用較低層概念代替較高層概念,從而使用戶能夠?qū)^于一般化的數(shù)據(jù)做更詳細分析。上卷和下鉆操作讓用戶以不同視圖觀察數(shù)據(jù),洞察隱藏的數(shù)據(jù)聯(lián)系。概念分層的自動生成。概念分層的類型模式分層E.g.,street<city<province<country集合分組分層E.g.,{20-39}=young,{40-59}=middle_aged操作導出的分層Email:abc@基于規(guī)則的分層low_profit_margin(X)<=price(X,P1)andcost(X,P2)and(P1-P2)<$50high_profit_margin(X)<=price(X,P1)andcost(X,P2)and(P1-P2)>$250興趣度度量沒有興趣度度量,挖掘出來的有用模式,很可能會給淹沒在用戶不感興趣的模式中。簡單性確定性實用性新穎性興趣度的客觀度量方法:根據(jù)模式的結(jié)構(gòu)和統(tǒng)計,用一個臨界值來判斷某個模式是不是用戶感興趣的。簡單性和確定性簡單性(simplicity)模式是否容易被人所理解模式結(jié)構(gòu)的函數(shù)(模式的長度、屬性的個數(shù)、操作符個數(shù))。e.g.規(guī)則長度或者判定樹的節(jié)點個數(shù)。確定性(certainty)表示一個模式在多少概率下是有效的。置信度(A=>B)=(包含A和B的元組值)/(包含A的元組值),e.g.buys(X,“computer)=>buys(X,“software”) [30%,80%]100%置信度:準確的。實用性和新穎性實用性可以用支持度來進行度量:支持度(A=>b)=(包含A和B的元組數(shù))/(元組總數(shù))e.g.buys(X,“computer)=>buys(X,“software”) [30%,80%]同時滿足最小置信度臨界值和最小支持度臨界值的關(guān)聯(lián)規(guī)則稱為強關(guān)聯(lián)規(guī)則。新穎性提供新信息或提高給定模式集性能的模式通過刪除冗余模式來檢測新穎性(一個模式已經(jīng)為另外一個模式所蘊涵)Location(X,“Canada”)=>buys(X,“Sony_TV”)[8%,70%]Location(X,“Vancouver”)=>buys(X,“Sony_TV”)[2%,70%]發(fā)現(xiàn)模式的表示和可視化以多種形式顯示挖掘出來的模式:表、圖、判定樹、數(shù)據(jù)立方體等等,以適合不同背景的用戶的需要。使用概念分層,用更有意義,更容易理解的高層概念來替代低層概念;并通過上卷、下鉆等操作從不同的抽象級審視所發(fā)現(xiàn)的模式。特定知識類型的表示。一種數(shù)據(jù)挖掘查詢語言DMQLDMQL的設(shè)計目的支持特別的和交互的數(shù)據(jù)查詢,以便利于靈活和有效的知識發(fā)現(xiàn)提供一種類似于SQL的標準化查詢語言希望達到SQL在關(guān)系數(shù)據(jù)庫中的地位系統(tǒng)開發(fā)和演化的基礎(chǔ)方便的信息交互,廣泛的技術(shù)支持,商業(yè)化,廣為認可設(shè)計挑戰(zhàn)數(shù)據(jù)挖掘任務(wù)涉及面寬數(shù)據(jù)特征、關(guān)聯(lián)規(guī)則、分類、演變分析…每種任務(wù)都有不同的需求DMQL的語法采用與SQL相類似的語法,便于與SQL的集成。允許在多個抽象層上,由關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫進行多類型知識的特殊挖掘DMQL的設(shè)計基于數(shù)據(jù)挖掘原語,語法中應(yīng)該包括對以下任務(wù)的指定:說明數(shù)據(jù)庫的部分或用戶感興趣的數(shù)據(jù)集要挖掘的知識類型用于指導挖掘的背景知識模式評估、興趣度量如何顯示發(fā)現(xiàn)的知識任務(wù)相關(guān)數(shù)據(jù)說明的語法任務(wù)相關(guān)數(shù)據(jù)說明應(yīng)包括的內(nèi)容:包含相關(guān)數(shù)據(jù)的數(shù)據(jù)庫或數(shù)據(jù)倉庫相關(guān)的表名或數(shù)據(jù)立方體的名字選擇相關(guān)數(shù)據(jù)的條件探察的相關(guān)屬性或維關(guān)于檢索數(shù)據(jù)的排序和分組指令任務(wù)相關(guān)數(shù)據(jù)說明子句說明相關(guān)的數(shù)據(jù)庫或數(shù)據(jù)倉庫usedatabase<db_name>或usedatawarehouse<dw_name>指定涉及的表或數(shù)據(jù)立方體,定義檢索條件From<relation(s)/cube(s)>[where<condition>]列出要探察的屬性或維Inrelevanceto<attributeordimension_list>相關(guān)數(shù)據(jù)的排序orderby<order_list>相關(guān)數(shù)據(jù)的分組groupby<grouping_list>相關(guān)數(shù)據(jù)的分組條件:having<condition>任務(wù)相關(guān)數(shù)據(jù)說明——示例挖掘加拿大顧客與在AllElectronics經(jīng)常購買的商品之間的關(guān)聯(lián)規(guī)則usedatabaseAllElectronics_dbinrelevancetoI.name,I.price,C.income,C.agefromcustomerC,itemI,purchasesP,items_soldSwhereI.item_ID=S.item_IDandS.trans_ID=P.trans_IDandP.cust_ID=C.cust_IDandC.country=“Canada”groupbyP.date指定挖掘知識類型要挖掘的知識類型將決定所使用的數(shù)據(jù)挖掘功能。幾種主要的數(shù)據(jù)挖掘功能特征化目標數(shù)據(jù)的一般特征或特性匯總數(shù)據(jù)區(qū)分將目標對象的一般特性與一個或多個對比類對象的特性相比較關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性-值頻繁的在給定數(shù)據(jù)中集中一起出現(xiàn)的條件分類找出區(qū)分數(shù)據(jù)類或概念的模型(或函數(shù)),以便用之標志未知的對象類。聚類分析、孤立點分析、演變分析…指定挖掘知識類型——特征化目標數(shù)據(jù)的一般特征或特性匯總語法

Mine_Knowledge_Specification

::=

minecharacteristics[as

pattern_name]

analyze

measure(s)analyze子句指定聚集度量(count,sum,count%),通過這些度量對每個找到的數(shù)據(jù)特征進行計算示例:顧客購買習慣的特征描述,對于每一特征,顯示滿足特征的任務(wù)相關(guān)元組的百分比

minecharacteristics

as

custPurchasing

analyzecount%指定挖掘知識類型——數(shù)據(jù)區(qū)分將目標對象的一般特性與一個或多個對比類對象的特性相比較語法Mine_Knowledge_Specification

::=

minecomparison[as

pattern_name]

for

target_class

where

target_condition

{versuscontrast_class_i

where

contrast_condition_i}

analyze

measure(s)analyze子句指定聚集度量(count,sum,count%),將對每個描述進行計算或顯示示例:用戶將客戶區(qū)分為大顧客與小顧客,并顯示滿足每個區(qū)分的元組數(shù)Mine_Knowledge_Specification

::=

minecomparison

as

purchaseGroups

for

bigSpenders

where

avg(I.price)≧$100

versusbudgetSpenders

where

avg(I.price)≦$100

analyzecount指定挖掘知識類型——關(guān)聯(lián)發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性-值頻繁的在給定數(shù)據(jù)中集中一起出現(xiàn)的條件語法Mine_Knowledge_Specification

::=

mineassociations[as

pattern_name]matching子句后面往往可以跟元模式,用來指定用戶有興趣探察的數(shù)據(jù)束或假定示例:使用元模式指導的挖掘來指定用于描述顧客購買習慣的關(guān)聯(lián)規(guī)則挖掘Mine_Knowledge_Specification

::=

mineassociations

as

buyingHabbits

matching

P(X:customer,W)∧Q(X,Y)=>buys(X,Z)指定挖掘知識類型——分類找出區(qū)分數(shù)據(jù)類或概念的模型(或函數(shù)),以便用之標志未知的對象類語法Mine_Knowledge_Specification

::=

mineclassification[as

pattern_name]

analyze

classifying_attribute_or_dimensionanalyze子句說明根據(jù)某個屬性或維進行分類,通常每個分類屬性的或維的值就代表一個分類示例:挖掘客戶的信用等級模式

mineclassification

asclassifyCustCreditRating

analyze

credit_rating概念分層說明的語法每個屬性或維可能有多個概念分層,已適應(yīng)用戶從不同角度看待問題的需要;用戶可以使用如下語句指定使用哪個概念分層:usehierarchy<hierarchy>

for<attribute_or_dimension>示例1:定義模式分層location,location中包含一個概念分層的全序(street<city<province<country),相應(yīng)的DMQL語法定義如下所示:Definehierarchylocation_hierarchy

onlocationas[street,city,province,country]概念分層說明的語法——集合分組分層Level0Level1Level2definehierarchy

age_hierarchy

forageoncustomeras

level1:{young,middle_aged,senior}<level0:alllevel2:{20…39}<level1:younglevel2:{40…59}<level1:middle_agedlevel2:{60…89}<level1:senior興趣度度量說明的語法興趣度的度量包括置信度、支持度、噪聲和新穎度等度量,可以通過將模式的興趣度度量與相應(yīng)的臨界值相比較決定一個模式是否為感興趣的模式。with<interest_measure_name>

threshold=threshold_value示例:挖掘關(guān)聯(lián)規(guī)則時限定找到的感興趣模式必須滿足最小支持度為5%,最小置信度為70%withsupportthreshold=5%withconfidencethreshold=70%模式表示和可視化說明的語法對挖掘出來的模式,可以使用多種形式進行表示,包括:規(guī)則、表、餅圖、立方體、曲線等displayas<resultform>為了方便用戶在不同的角度或者不同的概念層觀察發(fā)現(xiàn)的模式,用戶可以使用上卷、下鉆、添加或丟棄屬性或維等操作Multilevel_Manipulation

::=rollupon

attribute_or_dimension

|drilldownon

attribute_or_dimension

|add

attribute_or_dimension |drop

attribute_or_dimension

例:假定描述是基于維location,age和income的挖掘。用戶可以”rolluponlocation”,“dropage”,概化發(fā)現(xiàn)的模式。一個DMQL查詢的完整示例查詢AllElectronics購買商品的價格不小于$100的,用AmEx信用卡結(jié)帳的加拿大顧客的購買習慣特征(年齡,商品類型和產(chǎn)地),以表的形式表示挖掘的模式use

database

AllElectronics_db

use

hierarchy

location_hierarchyforB.addressminecharacteristicsas

customerPurchasing

analyzecount%inrelevanceto

C.age,I.type,I.place_made

fromcustomerC,itemI,purchasesP,items_soldS,works_atW,branchwhere

I.item_ID=S.item_IDandS.trans_ID=P.trans_ID

andP.cust_ID=C.cust_IDandP.method_paid=``AmEx'' andP.empl_ID=W.empl_IDandW.branch_ID=B.branch_IDandB.address=``Canada"andI.price>=100withnoisethreshold=0.05display

astable其他數(shù)據(jù)挖掘語言和數(shù)據(jù)挖掘原語的標準化關(guān)聯(lián)規(guī)則語言規(guī)范MSQL(Imielinski&Virmani’99)MineRule(Meo

PsailaandCeri’96)QueryflocksbasedonDatalogsyntax(Tsuretal’98)數(shù)據(jù)挖掘的OLEDB基于OLEDB和OLEDBforOLAP技術(shù)整合數(shù)據(jù)庫,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘CRISP-DM(CRoss-IndustryStandardProcessforDataMining)提供了一個有效的數(shù)據(jù)挖掘平臺和處理結(jié)構(gòu)強調(diào)使用數(shù)據(jù)挖掘技術(shù)解決商務(wù)問題的需要基于數(shù)據(jù)挖掘語言的圖形用戶界面(GUI)設(shè)計就像SQL是關(guān)系數(shù)據(jù)庫應(yīng)用的GUI設(shè)計的“核心”一樣,DMQL是數(shù)據(jù)挖掘應(yīng)用GUI設(shè)計的核心。數(shù)據(jù)挖掘的GUI可能包含以下部分:數(shù)據(jù)收集和數(shù)據(jù)查詢編輯發(fā)現(xiàn)模式的表示分層結(jié)構(gòu)說明和操縱數(shù)據(jù)挖掘原語的操作交互的多層挖掘其他各種信息數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)一個系統(tǒng)的體系結(jié)構(gòu)是指一個系統(tǒng)的各種結(jié)構(gòu),包括系統(tǒng)的各種部分,這些部分所顯示出來的特性,以及它們之間的相互關(guān)系。系統(tǒng)功能與系統(tǒng)體系結(jié)構(gòu)的無關(guān)性。系統(tǒng)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論