概念描述:特征化和比較.ppt_第1頁
概念描述:特征化和比較.ppt_第2頁
概念描述:特征化和比較.ppt_第3頁
概念描述:特征化和比較.ppt_第4頁
概念描述:特征化和比較.ppt_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第七章 概念描述:特征化和比較,數(shù)據(jù)挖掘可以分成兩類 描述性數(shù)據(jù)挖掘:以簡潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有趣的一般性質(zhì)。 預(yù)測性數(shù)據(jù)挖掘:分析數(shù)據(jù),建立一個或一組模型,并試圖預(yù)測新數(shù)據(jù)集的行為。,概念描述,對于大量的細節(jié)數(shù)據(jù),希望以簡潔的描述形式(不同的粒度、不同的角度等)觀察匯總的數(shù)據(jù)集。需要給出這種數(shù)據(jù)一個描述以概括出固有的特性,這種描述性數(shù)據(jù)挖掘稱為概念描述。 概念描述: 特征化:對所選擇的數(shù)據(jù)給出一個簡單明了的描述 比較:提供對于兩個或以上數(shù)據(jù)進行比較的結(jié)果,數(shù)據(jù)概化和基于匯總的特征化,數(shù)據(jù)概化 數(shù)據(jù)庫中的數(shù)據(jù)和對象通常包含原始概念層的細節(jié)信息,數(shù)據(jù)概化就是將數(shù)據(jù)庫中的跟任務(wù)相關(guān)的數(shù)據(jù)集從較低的概念層抽象到較高的概念層的過程。 主要方法: 數(shù)據(jù)立方體(OLAP使用的方法) 面向?qū)傩缘臍w納方法,1,2,3,4,5,概念層,數(shù)據(jù)概化:數(shù)據(jù)立方體方法(不使用面向?qū)傩缘臍w納),執(zhí)行計算并將結(jié)果存儲在數(shù)據(jù)立方體中 優(yōu)點: 數(shù)據(jù)概化的一種有效實現(xiàn) 可以計算各種不同的度量值 比如:count(), sum(), average(), max() 概化和特征分析通過一系列的數(shù)據(jù)立方體操作完成,比如上卷、下鉆等 缺點 只能處理非數(shù)據(jù)類型的維和簡單聚集數(shù)值類型的度量值 缺乏智能分析,不能自動確定分析中該使用哪些維,應(yīng)該概化到哪個層次,概念描述 VS. OLAP,概念描述和數(shù)據(jù)倉庫的聯(lián)機分析處理(OLAP)都跟數(shù)據(jù)概化密切相關(guān),即以簡潔的形式在更一般的抽象層描述數(shù)據(jù),允許數(shù)據(jù)在抽象層概化,便于考察數(shù)據(jù)的一般行為。 兩者的主要區(qū)別: 概念描述 可以處理復(fù)雜數(shù)據(jù)類型的屬性及其聚集 一個更加自動化的過程 OLAP 實際使用的OLAP系統(tǒng)中,維和度量的數(shù)據(jù)類型都非常有限(非數(shù)值型的維和數(shù)值型的數(shù)據(jù)),表現(xiàn)為一種簡單的數(shù)據(jù)分析模型 一個由用戶控制的過程,面向?qū)傩缘臍w納,Attribute-oriented induction, AOI (KDD 89 Workshop) 受數(shù)據(jù)類型和度量類型的約束比較少 面向?qū)傩詺w納的基本思想: 使用關(guān)系數(shù)據(jù)庫查詢收集任務(wù)相關(guān)的數(shù)據(jù) 通過考察任務(wù)相關(guān)數(shù)據(jù)中每個屬性的不同值的個數(shù)進行概化,方法是屬性刪除或者是屬性概化 通過合并相等的,概化的廣義元組,并累計他們對應(yīng)的計數(shù)值進行聚集操作 通過與用戶交互,將廣義關(guān)系以圖表或規(guī)則等形式,提交給用戶,面向?qū)傩缘臍w納,步驟: 數(shù)據(jù)聚焦:選擇和當前分析相關(guān)的數(shù)據(jù),包括維。 屬性移除: 如果某個屬性包含大量不同值,但是 1)在該屬性上沒有概化操作,或者 2)它的較高層概念用其它屬性表示。 屬性概化:如果某個屬性包含大量不同值,同時在該屬性上有概化操作符(比如求和等),則運用該操作符進行概化。 屬性概化閾值控制: 可以設(shè)一個缺省的或可以指定的閾值,在不同的屬性值個數(shù)少于該值后則停止進一步概化。 例子:比如地區(qū)維度分為省、市、區(qū)、街道閾值為40,則大約在地區(qū)維度要概化到省一級,2、例,在下面的初始工作表上做面向?qū)傩詺w納,對于每個屬性,概化討論如下: 1)姓名、電話:該屬性的值有許多,并且無概化操作,屬性刪除 2)性別:屬性可取的值2個,屬性保留不概化 3)專業(yè):假定我們事先已定義了一個概念分層,可以將專業(yè)概化到藝術(shù)、 化學、機械、通信、信息、,所以可被概化 4)籍貫:此表以城市為單位,已無法概化,值不算太多,保留 5)出生日期:假定存在概念分層,首先概化到年齡,再到年齡段 6)信用:假定有優(yōu)、良、中、一般、差的分層,可以概化 7)學歷:可以按博士生、碩士生、本科生概化,概化過程將產(chǎn)生相等的元組,相等的元組歸為一類并給出計數(shù),性別,專業(yè),籍貫,年齡段,信用情況,計數(shù),男,信息,南京,19-22,良,10,女,信息,南京,19-22,優(yōu),9,男,化學,鹽城,19-22,中,4,.,.,.,.,男,通信,鎮(zhèn)江,22-25,一般,1,學歷,本,研,本,本,此處,計數(shù)看成度量,其它看成維,概化結(jié)果的表示,表格,概化結(jié)果的表示,二維交叉表,地區(qū),電視,電腦,產(chǎn)品類累計,江蘇,浙江,廣東,地區(qū)合計,概化結(jié)果的表示,可視化方法,電視銷售 餅圖,概化結(jié)果的表示,量化特征規(guī)則 概化關(guān)系可以用邏輯規(guī)則的形式表示,典型的是概化的元組代表一個規(guī)則的析取。 若單個概化元組不能代表工作關(guān)系中的所有元組,則規(guī)則應(yīng)當帶上量化信息,用滿足規(guī)則的左部和滿足規(guī)則右部的元組所占的百分比表示。帶有量化信息的邏輯規(guī)則稱為量化規(guī)則。 t_權(quán)興趣度度量:描述規(guī)則中每個析取或?qū)?yīng)概化關(guān)系的每個元組的典型性。,t-權(quán),定義:設(shè)待特化的(或由規(guī)則描述的)對象類為目標類, qa是一個描述目標類的概化元組。 qa的t_權(quán)是來自初始工作關(guān)系集合中被qa涵蓋的目標類元組的百分比。形式上為: 其中:n是概化關(guān)系中目標類元組的個數(shù),q1,qn是概化關(guān)系中目標類的元組, qa在q1,qn中。顯然,t_權(quán)的取值區(qū)間為0.0,1.0或0%,100%。,例子,假設(shè)初始工作集合,地區(qū)是南京、鎮(zhèn)江、,產(chǎn)品類別是電腦的元組全部概化在第一個概化元組中,共有1000個元組。該概化元組的t_權(quán)是:,規(guī)則描述形式,例:有部分學生在圖書館借閱了大趨勢這本書,想通過數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)這部分學生具有什么樣的特征。其基本關(guān)系表是:,概化層次:系別 文科 商學院 - 經(jīng)濟,金融,企管,會計,國貿(mào) 文科 文學院 - 中文,新聞,信管,歷史,哲學 理科 醫(yī)學院 理科 理學院 - 數(shù)學,天文,物理,(文,商學院),(文,商學院),(理,醫(yī)學院),(文,商學院),(文,文學院),(文,商學院),(文,文學院),依據(jù)借閱次數(shù)的多少來決定是否為噪聲數(shù)據(jù),概化關(guān)系表一(按學院),(文,文學院),概化關(guān)系表二(按學科),概化關(guān)系表一(按學院),如果定義噪聲數(shù)據(jù)的閥值是1(記錄數(shù)為1),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢一書的是經(jīng)濟系的學生,如果定義噪聲數(shù)據(jù)的閥值是1(記錄數(shù)為1),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢一書的是經(jīng)濟系的學生 根據(jù)概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢一書的是商學院的學生 借閱大趨勢一書的是文學院的學生,如果定義噪聲數(shù)據(jù)的閥值是1(記錄數(shù)為1),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢一書的是經(jīng)濟系的學生 根據(jù)概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢一書的是商學院的學生 借閱大趨勢一書的是文學院的學生 根據(jù)概括關(guān)系表二發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢一書的是文科的學生,如果定義噪聲數(shù)據(jù)的閥值是2(記錄數(shù)為2),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則,如果定義噪聲數(shù)據(jù)的閥值是2(記錄數(shù)為2),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則 根據(jù)概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢一書的是商學院的學生,如果定義噪聲數(shù)據(jù)的閥值是2(記錄數(shù)為2),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則 根據(jù)概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢一書的是商學院的學生 根據(jù)概括關(guān)系表二發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢一書的是文科的學生,如果定義噪聲數(shù)據(jù)的閥值是5(記錄數(shù)為5),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則,如果定義噪聲數(shù)據(jù)的閥值是5(記錄數(shù)為5),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則 根據(jù)概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則,如果定義噪聲數(shù)據(jù)的閥值是5(記錄數(shù)為5),則: 根據(jù)基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則 根據(jù)概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是: 發(fā)現(xiàn)不到特征規(guī)則 根據(jù)概括關(guān)系表二發(fā)現(xiàn)的特征規(guī)則是: 借閱大趨勢一書的是文科的學生,應(yīng)該說,此時的規(guī)則是有意義的,該書基本上是文科學生借閱, t_權(quán)=6/7,三、挖掘類比較:區(qū)分不同的類,要解決的目標 在實際應(yīng)用中,對單個類(概念)的描述或特征化并不一定感興趣,而希望挖掘一種描述,它將一個類(概念)與其它可比較的類(概念)相區(qū)分。類區(qū)分(比較)挖掘?qū)⒔o出目標類與對比類相區(qū)別的描述。 類比較方法和實現(xiàn) 1)數(shù)據(jù)收集:通過查詢處理數(shù)據(jù)庫中相關(guān)數(shù)據(jù)集,將它劃分為一個目標類和一個(多個)對比類。 2)維相關(guān)分析:選擇所需要的維,去掉與概化不相關(guān)的維 3)同步概化:目標類和所有對比類概化到同一層次 4)導(dǎo)出比較的表示:結(jié)果可以是表、圖或規(guī)則,表示中一般包括對比的度量(如count%),例:,初始目標類關(guān)系:研究生,初始對比類關(guān)系:本科生,目標類主概化關(guān)系(研究生),對比類主概化關(guān)系(本科生),比較表示:年齡在26到30之間、選擇科學類專業(yè)且信用良的研究生占整個研究生人數(shù)的5.02%,而同樣的情況,本科生只有2.32%,3、量化區(qū)分規(guī)則 量化區(qū)分規(guī)則對描述中每個概化元組附上一個統(tǒng)計興趣度度量d_權(quán)。,設(shè)qa是一個概化元組,而Cj是目標類。其中qa覆蓋目標類的某些元組。(也可能覆蓋對比類的某些元組)。qa的d_權(quán)是初始目標類工作關(guān)系中被qa覆蓋的元組數(shù)與初始目標類和對比類工作關(guān)系中被qa覆蓋的總元組的比。形式定義為:,其中,m是目標類和對比類的總數(shù),Cj在C1,Cm中,而count(qa Ci)是類Ci中被qa覆蓋的元組數(shù)。d_權(quán)的取值范圍為0.0,1.0(或0%,100%)。,例:,目標類 對比類,目標類d_權(quán): d_權(quán)=90/(90+210)=30% 比較類d_權(quán): d_權(quán)=210/(90+210)=70%,高d_權(quán)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論