版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2022/12/15高級人工智能史忠植1高級人工智能第十四章
知識發(fā)現(xiàn)
(一)
史忠植
中國科學(xué)院計(jì)算技術(shù)研究所2022/12/12高級人工智能史忠植1高級人工2022/12/15高級人工智能史忠植2知識發(fā)現(xiàn)概述知識發(fā)現(xiàn)的任務(wù)數(shù)據(jù)倉庫知識發(fā)現(xiàn)工具2022/12/12高級人工智能史忠植2知識發(fā)現(xiàn)2022/12/15高級人工智能史忠植3
知識發(fā)現(xiàn)知識發(fā)現(xiàn)是指從數(shù)據(jù)集中抽取和精煉新的模式。范圍非常廣泛:經(jīng)濟(jì)、工業(yè)、農(nóng)業(yè)、軍事、社會數(shù)據(jù)的形態(tài)多樣化:數(shù)字、符號、圖形、圖像、聲音數(shù)據(jù)組織各不相同:結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)發(fā)現(xiàn)的知識可以表示成各種形式 規(guī)則、科學(xué)規(guī)律、方程或概念網(wǎng)。2022/12/12高級人工智能史忠植3知識發(fā)2022/12/15高級人工智能史忠植4
數(shù)據(jù)庫知識發(fā)現(xiàn)
目前,關(guān)系型數(shù)據(jù)庫技術(shù)成熟、應(yīng)用廣泛。因此,數(shù)據(jù)庫知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabasesKDD)的研究非?;钴S。
該術(shù)語于1989年出現(xiàn),F(xiàn)ayyad定義為“KDD是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程”
2022/12/12高級人工智能史忠植4數(shù)據(jù)庫2022/12/15高級人工智能史忠植5
不同的術(shù)語名稱
知識發(fā)現(xiàn)是一門來自不同領(lǐng)域的研究者關(guān)注的交叉性學(xué)科,因此導(dǎo)致了很多不同的術(shù)語名稱。
知識發(fā)現(xiàn):人工智能和機(jī)器學(xué)習(xí)界。數(shù)據(jù)挖掘(datamining): 統(tǒng)計(jì)界、數(shù)據(jù)分析、數(shù)據(jù)庫和管理信息系統(tǒng)界知識抽取(informationextraction)、信息發(fā)現(xiàn)(informationdiscovery)、智能數(shù)據(jù)分析(intelligentdataanalysis)、探索式數(shù)據(jù)分析(exploratorydataanalysis)信息收獲(informationharvesting)
數(shù)據(jù)考古(dataarcheology)2022/12/12高級人工智能史忠植5不同的2022/12/15高級人工智能史忠植62022/12/12高級人工智能史忠植62022/12/15高級人工智能史忠植7知識發(fā)現(xiàn)的任務(wù)數(shù)據(jù)總結(jié):對數(shù)據(jù)進(jìn)行總結(jié)與概括。傳統(tǒng)的最簡單的數(shù)據(jù)總結(jié)方法是計(jì)算出數(shù)據(jù)庫的各個(gè)字段上的求和值、平均值、方差值等統(tǒng)計(jì)值,或者用直方圖、餅狀圖等圖形方式表示。分類: 根據(jù)分類模型對數(shù)據(jù)集合分類。分類屬于有導(dǎo)師學(xué)習(xí),一般需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。聚類:
根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的類。無導(dǎo)師學(xué)習(xí)2022/12/12高級人工智能史忠植7知識發(fā)現(xiàn)2022/12/15高級人工智能史忠植8知識發(fā)現(xiàn)的任務(wù)相關(guān)性分析:發(fā)現(xiàn)特征之間或數(shù)據(jù)之間的相互依賴關(guān)系 關(guān)聯(lián)規(guī)則偏差分析:
基本思想是尋找觀察結(jié)果與參照量之間的有意義的差別。通過發(fā)現(xiàn)異常,可以引起人們對特殊情況的加倍注意。建模: 構(gòu)造描述一種活動或狀態(tài)的數(shù)學(xué)模型2022/12/12高級人工智能史忠植8知識發(fā)現(xiàn)2022/12/15高級人工智能史忠植9知識發(fā)現(xiàn)的方法統(tǒng)計(jì)方法:
傳統(tǒng)方法: 回歸分析、判別分析、聚類分析、探索性分析模糊集(fuzzyset)Zadeh1965支持向量機(jī)(SupportVectorMachine)Vapnik90年代初粗糙集(RoughSet)Pawlak80年代初2022/12/12高級人工智能史忠植9知識發(fā)現(xiàn)2022/12/15高級人工智能史忠植10知識發(fā)現(xiàn)的方法機(jī)器學(xué)習(xí):
規(guī)則歸納:AQ算法決策樹:ID3、C4.5范例推理:CBR遺傳算法:GA貝葉斯信念網(wǎng)絡(luò)2022/12/12高級人工智能史忠植10知識發(fā)2022/12/15高級人工智能史忠植11知識發(fā)現(xiàn)的方法神經(jīng)計(jì)算:
神經(jīng)網(wǎng)絡(luò)是指一類新的計(jì)算模型,它是模仿人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和某些工作機(jī)制而建立的一種計(jì)算模型。常用的模型:Hopfield網(wǎng)多層感知機(jī)自組織特征映射反傳網(wǎng)絡(luò)可視化: 2022/12/12高級人工智能史忠植11知識發(fā)2022/12/15高級人工智能史忠植12KDD的技術(shù)難點(diǎn)動態(tài)變化的數(shù)據(jù)噪聲數(shù)據(jù)不完整冗余信息數(shù)據(jù)稀疏超大數(shù)據(jù)量2022/12/12高級人工智能史忠植12KDD2022/12/15高級人工智能史忠植13數(shù)據(jù)倉庫在過去幾十年,數(shù)據(jù)庫技術(shù),特別是OLTP(聯(lián)機(jī)事務(wù)處理),主要是為自動化生產(chǎn)、精簡工作任務(wù)和高速采集數(shù)據(jù)服務(wù)。它是事務(wù)驅(qū)動的、面向應(yīng)用的。20世紀(jì)80年代,人們要利用現(xiàn)有的數(shù)據(jù),進(jìn)行分析和推理,從而為決策提供依據(jù)。這種需求既要求聯(lián)機(jī)服務(wù),又涉及大量用于決策的數(shù)據(jù)。而傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)已無法滿足這種需求:所需歷史數(shù)據(jù)量很大,而傳統(tǒng)數(shù)據(jù)庫一般只存儲短期數(shù)據(jù)。涉及許多部門的數(shù)據(jù),而不同系統(tǒng)的數(shù)據(jù)難以集成。對大量數(shù)據(jù)的訪問性能明顯下降
2022/12/12高級人工智能史忠植13數(shù)據(jù)倉2022/12/15高級人工智能史忠植14數(shù)據(jù)倉庫的定義信息處理技術(shù)的發(fā)展趨勢是:從大量的事務(wù)型數(shù)據(jù)庫中抽取數(shù)據(jù),并將其清理、轉(zhuǎn)換為新的存儲格。隨著此過程的發(fā)展和完善,這種九十年代初出現(xiàn)的支持決策的、特殊的數(shù)據(jù)存儲即被稱為數(shù)據(jù)倉庫(DataWarehouse)。Inmon將數(shù)據(jù)倉庫明確定義為:數(shù)據(jù)倉庫(DataWarehouse)是面向主題的,集成的,內(nèi)容相對穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。
2022/12/12高級人工智能史忠植14數(shù)據(jù)倉2022/12/15高級人工智能史忠植15數(shù)據(jù)倉庫的特征
數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的
與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用相對應(yīng)的。主題是一個(gè)在較高層次將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主題基本對應(yīng)一個(gè)宏觀的分析領(lǐng)域
數(shù)據(jù)倉庫中的數(shù)據(jù)是集成的
在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,必然要經(jīng)過加工與集成。要統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,還要進(jìn)行數(shù)據(jù)綜合和計(jì)算2022/12/12高級人工智能史忠植15數(shù)據(jù)倉2022/12/15高級人工智能史忠植16數(shù)據(jù)倉庫的特征
數(shù)據(jù)倉庫中的數(shù)據(jù)是穩(wěn)定的數(shù)據(jù)倉庫的數(shù)據(jù)主要供決策分析之用,所涉及的操作主要是數(shù)據(jù)查詢,一般不進(jìn)行修改操作
數(shù)據(jù)倉庫中的數(shù)據(jù)又是隨時(shí)間不斷變化的數(shù)據(jù)倉庫的數(shù)據(jù)不是實(shí)時(shí)更新的,但并不是永遠(yuǎn)不變的,也要隨著時(shí)間的變化不斷地更新、增刪和重新綜合。更新周期 2022/12/12高級人工智能史忠植16數(shù)據(jù)倉2022/12/15高級人工智能史忠植17元數(shù)據(jù)元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù),它描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、編碼、索引等內(nèi)容。傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)字典是一種元數(shù)據(jù),但在數(shù)據(jù)倉庫中,元數(shù)據(jù)的內(nèi)容比數(shù)據(jù)庫中的數(shù)據(jù)字典更加豐富和復(fù)雜。設(shè)計(jì)一個(gè)描述能力強(qiáng)、內(nèi)容完善的元數(shù)據(jù),是有效管理數(shù)據(jù)倉庫的具有決定意義的重要前提2022/12/12高級人工智能史忠植17元數(shù)據(jù)2022/12/15高級人工智能史忠植18元數(shù)據(jù)的重要性數(shù)據(jù)倉庫使用者往往將使用元數(shù)據(jù)作為分析的第一步。元數(shù)據(jù)如同數(shù)據(jù)指示圖,指出了數(shù)據(jù)倉庫內(nèi)各種信息的位置和含義從操作型數(shù)據(jù)環(huán)境到數(shù)據(jù)倉庫的數(shù)據(jù)轉(zhuǎn)換是復(fù)雜的、多方面的,是數(shù)據(jù)倉庫建設(shè)的關(guān)鍵性步驟,元數(shù)據(jù)要包含對這種轉(zhuǎn)換的清晰描述,保證這種轉(zhuǎn)換是正確、適當(dāng)和合理的,并且是靈活可變的元數(shù)據(jù)還管理粒度的劃分、索引的建立以及抽取更新的周期等,以便管理好數(shù)據(jù)倉庫中的大規(guī)模數(shù)據(jù)2022/12/12高級人工智能史忠植18元數(shù)據(jù)2022/12/15高級人工智能史忠植19數(shù)據(jù)倉庫的相關(guān)概念事實(shí)表(Fact):存儲用戶需要查詢分析的數(shù)據(jù),事實(shí)表中一般包含多個(gè)維(Dimension)和度量(Measurement)。維:代表了用戶觀察數(shù)據(jù)的特定視角,如:時(shí)間維、地區(qū)維、產(chǎn)品維等。每一個(gè)維可劃分為不同的層次來取值,如時(shí)間維的值可按年份、季度、月份來劃分,描述了不同的查詢層次。度量:是數(shù)據(jù)的實(shí)際意義,描述數(shù)據(jù)“是什么”,即一個(gè)數(shù)值的測量指標(biāo),如:人數(shù)、單價(jià)、銷售量等。
2022/12/12高級人工智能史忠植19數(shù)據(jù)倉2022/12/15高級人工智能史忠植20數(shù)據(jù)倉庫的建模模型度量的實(shí)際數(shù)據(jù)存放在事實(shí)表中。維的詳細(xì)信息,如不同的層次劃分和相應(yīng)數(shù)據(jù)等在維表中存儲,事實(shí)表中存放各個(gè)維的標(biāo)識碼鍵。事實(shí)表和維表將通過這些鍵關(guān)聯(lián)起來,構(gòu)成一種星型模型對于層次復(fù)雜的維,為避免冗余數(shù)據(jù)占用過大的存儲空間,可以使用多個(gè)表來描述,這種星型模式的擴(kuò)展稱為雪花模型2022/12/12高級人工智能史忠植20數(shù)據(jù)倉2022/12/15高級人工智能史忠植21OLAP數(shù)據(jù)倉庫技術(shù)中,多維數(shù)據(jù)分析(MultidimensionalDataAnalysis)方法是一種重要的技術(shù),也稱作聯(lián)機(jī)分析處理(On-LineAnalyticalProcessing,簡稱OLAP)或數(shù)據(jù)立方體(DataCube)方法,主要是指通過各種即席復(fù)雜查詢,對數(shù)據(jù)倉庫中存儲的數(shù)據(jù)進(jìn)行各種統(tǒng)計(jì)分析的應(yīng)用
數(shù)據(jù)倉庫是面向決策支持的,決策的前提是數(shù)據(jù)分析。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計(jì)、平均、最大、最小等匯集操作,這類操作的計(jì)算量特別大。2022/12/12高級人工智能史忠植21OLA2022/12/15高級人工智能史忠植22OLAP的類型ROLAP:數(shù)據(jù)保留在原有的關(guān)系型結(jié)構(gòu)中,并且將聚合表也存儲在關(guān)系數(shù)據(jù)庫,在技術(shù)成熟及各方面的適應(yīng)性上較之MOLAP占有一定的優(yōu)勢,性能較差MOLAP:數(shù)據(jù)和聚合都存儲在多維結(jié)構(gòu)中,效率較高,便于進(jìn)行優(yōu)化操作。維數(shù)多數(shù)據(jù)量大時(shí),存儲是難點(diǎn)。HOALP:數(shù)據(jù)保留在原有的關(guān)系型結(jié)構(gòu)中,聚合存儲在多維結(jié)構(gòu)。結(jié)合ROLAP和MOLAP兩者的優(yōu)點(diǎn)2022/12/12高級人工智能史忠植22OLA2022/12/15高級人工智能史忠植23OLAP的分析操作OLAP的基本多維分析操作有鉆取(rollup和drilldown)、切片(slice)和切塊(dice)、以及旋轉(zhuǎn)(pivot)等。鉆取是改變維的層次,變換分析的粒度。它包括向上鉆取和向下鉆取。rollup是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù);而drilldown則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察切片和切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個(gè),則是切片,否則是切塊旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換2022/12/12高級人工智能史忠植23OLA2022/12/15高級人工智能史忠植24數(shù)據(jù)倉庫和知識發(fā)現(xiàn)技術(shù)的結(jié)合(1)
知識發(fā)現(xiàn)成為數(shù)據(jù)倉庫中進(jìn)行數(shù)據(jù)深層分析的一種必不可少的手段數(shù)據(jù)倉庫是面向決策分析的,數(shù)據(jù)倉庫從事務(wù)型數(shù)據(jù)抽取并集成得到的分析型數(shù)據(jù)后,需要各種決策分析工具對這些數(shù)據(jù)進(jìn)行分析和挖掘,得到有用的決策信息。而知識發(fā)現(xiàn)技術(shù)具備從大量數(shù)據(jù)中發(fā)現(xiàn)有用信息的能力。2022/12/12高級人工智能史忠植24數(shù)據(jù)倉2022/12/15高級人工智能史忠植25數(shù)據(jù)倉庫和知識發(fā)現(xiàn)技術(shù)的結(jié)合(2)
數(shù)據(jù)倉庫為知識發(fā)現(xiàn)提供經(jīng)過良好預(yù)處理的數(shù)據(jù)源
知識發(fā)現(xiàn)往往依賴于經(jīng)過良好組織和預(yù)處理的數(shù)據(jù)源,數(shù)據(jù)的好壞直接影響知識發(fā)現(xiàn)的效果。數(shù)據(jù)倉庫具有從各種數(shù)據(jù)源中抽取數(shù)據(jù),并對數(shù)據(jù)進(jìn)行清洗、聚集和轉(zhuǎn)換等各種處理的能力2022/12/12高級人工智能史忠植25數(shù)據(jù)倉2022/12/15高級人工智能史忠植26數(shù)據(jù)挖掘概念----發(fā)展1989IJCAI會議:數(shù)據(jù)庫中的知識發(fā)現(xiàn)討論專題KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD討論專題AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD國際會議(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002會議,以及SIGKDDExplorations數(shù)據(jù)挖掘方面更多的國際會議PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.2022/12/12高級人工智能史忠植26數(shù)據(jù)挖2022/12/15高級人工智能史忠植27數(shù)據(jù)挖掘軟件的發(fā)展代特征數(shù)據(jù)挖掘算法集成分布計(jì)算模型數(shù)據(jù)模型第一代作為一個(gè)獨(dú)立的應(yīng)用支持一個(gè)或者多個(gè)算法獨(dú)立的系統(tǒng)單個(gè)機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)、局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成
多個(gè)算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合
多個(gè)算法數(shù)據(jù)管理、預(yù)言模型、移動系統(tǒng)移動和各種計(jì)算設(shè)備普遍存在的計(jì)算模型RobertGrossman,NationalCenterforDataMiningUniversityofIllinoisatChicago的觀點(diǎn)2022/12/12高級人工智能史忠植27數(shù)據(jù)挖2022/12/15高級人工智能史忠植28數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件特點(diǎn)支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法
挖掘向量數(shù)據(jù)(vector-valueddata)
數(shù)據(jù)一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理
典型的系統(tǒng)如SalfordSystems公司早期的CART系統(tǒng)()
缺陷如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進(jìn)行管理,第一代系統(tǒng)顯然不能滿足需求。2022/12/12高級人工智能史忠植28數(shù)據(jù)挖2022/12/15高級人工智能史忠植29數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件CBA新加坡國立大學(xué)?;陉P(guān)聯(lián)規(guī)則的分類算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進(jìn)行分類和預(yù)測2022/12/12高級人工智能史忠植29數(shù)據(jù)挖2022/12/15高級人工智能史忠植30數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點(diǎn)與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成
支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴(kuò)展性
能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集
通過支持?jǐn)?shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性
典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進(jìn)行挖掘操作缺陷只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)2022/12/12高級人工智能史忠植30數(shù)據(jù)挖2022/12/15高級人工智能史忠植31數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件DBMiner2022/12/12高級人工智能史忠植31數(shù)據(jù)挖2022/12/15高級人工智能史忠植32數(shù)據(jù)挖掘軟件的發(fā)展第二代軟件SASEnterpriseMiner2022/12/12高級人工智能史忠植32數(shù)據(jù)挖2022/12/15高級人工智能史忠植33數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點(diǎn)和預(yù)言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時(shí)反映到預(yù)言模型系統(tǒng)中
由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能
能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成
缺陷不能支持移動環(huán)境2022/12/12高級人工智能史忠植33數(shù)據(jù)挖2022/12/15高級人工智能史忠植34數(shù)據(jù)挖掘軟件的發(fā)展第三代軟件SPSSClementine以PMML的格式提供與預(yù)言模型系統(tǒng)的接口2022/12/12高級人工智能史忠植34數(shù)據(jù)挖2022/12/15高級人工智能史忠植35數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點(diǎn)目前移動計(jì)算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動計(jì)算相結(jié)合是當(dāng)前的一個(gè)研究領(lǐng)域。
第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普適計(jì)算(ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù)第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo),PKDD2001上Kargupta發(fā)表了一篇在移動環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(xué)(UniversityofMarylandBaltimoreCounty)正在研制的CAREER數(shù)據(jù)挖掘項(xiàng)目的負(fù)責(zé)人,該項(xiàng)目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和普適計(jì)算(Ubiquitous)設(shè)備的第四代數(shù)據(jù)挖掘系統(tǒng)。2022/12/12高級人工智能史忠植35數(shù)據(jù)挖2022/12/15高級人工智能史忠植36/shizz/Questions?!2022/12/12高級人工智能史忠植36www2022/12/15高級人工智能史忠植37高級人工智能第十四章
知識發(fā)現(xiàn)
(一)
史忠植
中國科學(xué)院計(jì)算技術(shù)研究所2022/12/12高級人工智能史忠植1高級人工2022/12/15高級人工智能史忠植38知識發(fā)現(xiàn)概述知識發(fā)現(xiàn)的任務(wù)數(shù)據(jù)倉庫知識發(fā)現(xiàn)工具2022/12/12高級人工智能史忠植2知識發(fā)現(xiàn)2022/12/15高級人工智能史忠植39
知識發(fā)現(xiàn)知識發(fā)現(xiàn)是指從數(shù)據(jù)集中抽取和精煉新的模式。范圍非常廣泛:經(jīng)濟(jì)、工業(yè)、農(nóng)業(yè)、軍事、社會數(shù)據(jù)的形態(tài)多樣化:數(shù)字、符號、圖形、圖像、聲音數(shù)據(jù)組織各不相同:結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)發(fā)現(xiàn)的知識可以表示成各種形式 規(guī)則、科學(xué)規(guī)律、方程或概念網(wǎng)。2022/12/12高級人工智能史忠植3知識發(fā)2022/12/15高級人工智能史忠植40
數(shù)據(jù)庫知識發(fā)現(xiàn)
目前,關(guān)系型數(shù)據(jù)庫技術(shù)成熟、應(yīng)用廣泛。因此,數(shù)據(jù)庫知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabasesKDD)的研究非?;钴S。
該術(shù)語于1989年出現(xiàn),F(xiàn)ayyad定義為“KDD是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程”
2022/12/12高級人工智能史忠植4數(shù)據(jù)庫2022/12/15高級人工智能史忠植41
不同的術(shù)語名稱
知識發(fā)現(xiàn)是一門來自不同領(lǐng)域的研究者關(guān)注的交叉性學(xué)科,因此導(dǎo)致了很多不同的術(shù)語名稱。
知識發(fā)現(xiàn):人工智能和機(jī)器學(xué)習(xí)界。數(shù)據(jù)挖掘(datamining): 統(tǒng)計(jì)界、數(shù)據(jù)分析、數(shù)據(jù)庫和管理信息系統(tǒng)界知識抽取(informationextraction)、信息發(fā)現(xiàn)(informationdiscovery)、智能數(shù)據(jù)分析(intelligentdataanalysis)、探索式數(shù)據(jù)分析(exploratorydataanalysis)信息收獲(informationharvesting)
數(shù)據(jù)考古(dataarcheology)2022/12/12高級人工智能史忠植5不同的2022/12/15高級人工智能史忠植422022/12/12高級人工智能史忠植62022/12/15高級人工智能史忠植43知識發(fā)現(xiàn)的任務(wù)數(shù)據(jù)總結(jié):對數(shù)據(jù)進(jìn)行總結(jié)與概括。傳統(tǒng)的最簡單的數(shù)據(jù)總結(jié)方法是計(jì)算出數(shù)據(jù)庫的各個(gè)字段上的求和值、平均值、方差值等統(tǒng)計(jì)值,或者用直方圖、餅狀圖等圖形方式表示。分類: 根據(jù)分類模型對數(shù)據(jù)集合分類。分類屬于有導(dǎo)師學(xué)習(xí),一般需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。聚類:
根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的類。無導(dǎo)師學(xué)習(xí)2022/12/12高級人工智能史忠植7知識發(fā)現(xiàn)2022/12/15高級人工智能史忠植44知識發(fā)現(xiàn)的任務(wù)相關(guān)性分析:發(fā)現(xiàn)特征之間或數(shù)據(jù)之間的相互依賴關(guān)系 關(guān)聯(lián)規(guī)則偏差分析:
基本思想是尋找觀察結(jié)果與參照量之間的有意義的差別。通過發(fā)現(xiàn)異常,可以引起人們對特殊情況的加倍注意。建模: 構(gòu)造描述一種活動或狀態(tài)的數(shù)學(xué)模型2022/12/12高級人工智能史忠植8知識發(fā)現(xiàn)2022/12/15高級人工智能史忠植45知識發(fā)現(xiàn)的方法統(tǒng)計(jì)方法:
傳統(tǒng)方法: 回歸分析、判別分析、聚類分析、探索性分析模糊集(fuzzyset)Zadeh1965支持向量機(jī)(SupportVectorMachine)Vapnik90年代初粗糙集(RoughSet)Pawlak80年代初2022/12/12高級人工智能史忠植9知識發(fā)現(xiàn)2022/12/15高級人工智能史忠植46知識發(fā)現(xiàn)的方法機(jī)器學(xué)習(xí):
規(guī)則歸納:AQ算法決策樹:ID3、C4.5范例推理:CBR遺傳算法:GA貝葉斯信念網(wǎng)絡(luò)2022/12/12高級人工智能史忠植10知識發(fā)2022/12/15高級人工智能史忠植47知識發(fā)現(xiàn)的方法神經(jīng)計(jì)算:
神經(jīng)網(wǎng)絡(luò)是指一類新的計(jì)算模型,它是模仿人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和某些工作機(jī)制而建立的一種計(jì)算模型。常用的模型:Hopfield網(wǎng)多層感知機(jī)自組織特征映射反傳網(wǎng)絡(luò)可視化: 2022/12/12高級人工智能史忠植11知識發(fā)2022/12/15高級人工智能史忠植48KDD的技術(shù)難點(diǎn)動態(tài)變化的數(shù)據(jù)噪聲數(shù)據(jù)不完整冗余信息數(shù)據(jù)稀疏超大數(shù)據(jù)量2022/12/12高級人工智能史忠植12KDD2022/12/15高級人工智能史忠植49數(shù)據(jù)倉庫在過去幾十年,數(shù)據(jù)庫技術(shù),特別是OLTP(聯(lián)機(jī)事務(wù)處理),主要是為自動化生產(chǎn)、精簡工作任務(wù)和高速采集數(shù)據(jù)服務(wù)。它是事務(wù)驅(qū)動的、面向應(yīng)用的。20世紀(jì)80年代,人們要利用現(xiàn)有的數(shù)據(jù),進(jìn)行分析和推理,從而為決策提供依據(jù)。這種需求既要求聯(lián)機(jī)服務(wù),又涉及大量用于決策的數(shù)據(jù)。而傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)已無法滿足這種需求:所需歷史數(shù)據(jù)量很大,而傳統(tǒng)數(shù)據(jù)庫一般只存儲短期數(shù)據(jù)。涉及許多部門的數(shù)據(jù),而不同系統(tǒng)的數(shù)據(jù)難以集成。對大量數(shù)據(jù)的訪問性能明顯下降
2022/12/12高級人工智能史忠植13數(shù)據(jù)倉2022/12/15高級人工智能史忠植50數(shù)據(jù)倉庫的定義信息處理技術(shù)的發(fā)展趨勢是:從大量的事務(wù)型數(shù)據(jù)庫中抽取數(shù)據(jù),并將其清理、轉(zhuǎn)換為新的存儲格。隨著此過程的發(fā)展和完善,這種九十年代初出現(xiàn)的支持決策的、特殊的數(shù)據(jù)存儲即被稱為數(shù)據(jù)倉庫(DataWarehouse)。Inmon將數(shù)據(jù)倉庫明確定義為:數(shù)據(jù)倉庫(DataWarehouse)是面向主題的,集成的,內(nèi)容相對穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。
2022/12/12高級人工智能史忠植14數(shù)據(jù)倉2022/12/15高級人工智能史忠植51數(shù)據(jù)倉庫的特征
數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的
與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用相對應(yīng)的。主題是一個(gè)在較高層次將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主題基本對應(yīng)一個(gè)宏觀的分析領(lǐng)域
數(shù)據(jù)倉庫中的數(shù)據(jù)是集成的
在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,必然要經(jīng)過加工與集成。要統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,還要進(jìn)行數(shù)據(jù)綜合和計(jì)算2022/12/12高級人工智能史忠植15數(shù)據(jù)倉2022/12/15高級人工智能史忠植52數(shù)據(jù)倉庫的特征
數(shù)據(jù)倉庫中的數(shù)據(jù)是穩(wěn)定的數(shù)據(jù)倉庫的數(shù)據(jù)主要供決策分析之用,所涉及的操作主要是數(shù)據(jù)查詢,一般不進(jìn)行修改操作
數(shù)據(jù)倉庫中的數(shù)據(jù)又是隨時(shí)間不斷變化的數(shù)據(jù)倉庫的數(shù)據(jù)不是實(shí)時(shí)更新的,但并不是永遠(yuǎn)不變的,也要隨著時(shí)間的變化不斷地更新、增刪和重新綜合。更新周期 2022/12/12高級人工智能史忠植16數(shù)據(jù)倉2022/12/15高級人工智能史忠植53元數(shù)據(jù)元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù),它描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、編碼、索引等內(nèi)容。傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)字典是一種元數(shù)據(jù),但在數(shù)據(jù)倉庫中,元數(shù)據(jù)的內(nèi)容比數(shù)據(jù)庫中的數(shù)據(jù)字典更加豐富和復(fù)雜。設(shè)計(jì)一個(gè)描述能力強(qiáng)、內(nèi)容完善的元數(shù)據(jù),是有效管理數(shù)據(jù)倉庫的具有決定意義的重要前提2022/12/12高級人工智能史忠植17元數(shù)據(jù)2022/12/15高級人工智能史忠植54元數(shù)據(jù)的重要性數(shù)據(jù)倉庫使用者往往將使用元數(shù)據(jù)作為分析的第一步。元數(shù)據(jù)如同數(shù)據(jù)指示圖,指出了數(shù)據(jù)倉庫內(nèi)各種信息的位置和含義從操作型數(shù)據(jù)環(huán)境到數(shù)據(jù)倉庫的數(shù)據(jù)轉(zhuǎn)換是復(fù)雜的、多方面的,是數(shù)據(jù)倉庫建設(shè)的關(guān)鍵性步驟,元數(shù)據(jù)要包含對這種轉(zhuǎn)換的清晰描述,保證這種轉(zhuǎn)換是正確、適當(dāng)和合理的,并且是靈活可變的元數(shù)據(jù)還管理粒度的劃分、索引的建立以及抽取更新的周期等,以便管理好數(shù)據(jù)倉庫中的大規(guī)模數(shù)據(jù)2022/12/12高級人工智能史忠植18元數(shù)據(jù)2022/12/15高級人工智能史忠植55數(shù)據(jù)倉庫的相關(guān)概念事實(shí)表(Fact):存儲用戶需要查詢分析的數(shù)據(jù),事實(shí)表中一般包含多個(gè)維(Dimension)和度量(Measurement)。維:代表了用戶觀察數(shù)據(jù)的特定視角,如:時(shí)間維、地區(qū)維、產(chǎn)品維等。每一個(gè)維可劃分為不同的層次來取值,如時(shí)間維的值可按年份、季度、月份來劃分,描述了不同的查詢層次。度量:是數(shù)據(jù)的實(shí)際意義,描述數(shù)據(jù)“是什么”,即一個(gè)數(shù)值的測量指標(biāo),如:人數(shù)、單價(jià)、銷售量等。
2022/12/12高級人工智能史忠植19數(shù)據(jù)倉2022/12/15高級人工智能史忠植56數(shù)據(jù)倉庫的建模模型度量的實(shí)際數(shù)據(jù)存放在事實(shí)表中。維的詳細(xì)信息,如不同的層次劃分和相應(yīng)數(shù)據(jù)等在維表中存儲,事實(shí)表中存放各個(gè)維的標(biāo)識碼鍵。事實(shí)表和維表將通過這些鍵關(guān)聯(lián)起來,構(gòu)成一種星型模型對于層次復(fù)雜的維,為避免冗余數(shù)據(jù)占用過大的存儲空間,可以使用多個(gè)表來描述,這種星型模式的擴(kuò)展稱為雪花模型2022/12/12高級人工智能史忠植20數(shù)據(jù)倉2022/12/15高級人工智能史忠植57OLAP數(shù)據(jù)倉庫技術(shù)中,多維數(shù)據(jù)分析(MultidimensionalDataAnalysis)方法是一種重要的技術(shù),也稱作聯(lián)機(jī)分析處理(On-LineAnalyticalProcessing,簡稱OLAP)或數(shù)據(jù)立方體(DataCube)方法,主要是指通過各種即席復(fù)雜查詢,對數(shù)據(jù)倉庫中存儲的數(shù)據(jù)進(jìn)行各種統(tǒng)計(jì)分析的應(yīng)用
數(shù)據(jù)倉庫是面向決策支持的,決策的前提是數(shù)據(jù)分析。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計(jì)、平均、最大、最小等匯集操作,這類操作的計(jì)算量特別大。2022/12/12高級人工智能史忠植21OLA2022/12/15高級人工智能史忠植58OLAP的類型ROLAP:數(shù)據(jù)保留在原有的關(guān)系型結(jié)構(gòu)中,并且將聚合表也存儲在關(guān)系數(shù)據(jù)庫,在技術(shù)成熟及各方面的適應(yīng)性上較之MOLAP占有一定的優(yōu)勢,性能較差MOLAP:數(shù)據(jù)和聚合都存儲在多維結(jié)構(gòu)中,效率較高,便于進(jìn)行優(yōu)化操作。維數(shù)多數(shù)據(jù)量大時(shí),存儲是難點(diǎn)。HOALP:數(shù)據(jù)保留在原有的關(guān)系型結(jié)構(gòu)中,聚合存儲在多維結(jié)構(gòu)。結(jié)合ROLAP和MOLAP兩者的優(yōu)點(diǎn)2022/12/12高級人工智能史忠植22OLA2022/12/15高級人工智能史忠植59OLAP的分析操作OLAP的基本多維分析操作有鉆取(rollup和drilldown)、切片(slice)和切塊(dice)、以及旋轉(zhuǎn)(pivot)等。鉆取是改變維的層次,變換分析的粒度。它包括向上鉆取和向下鉆取。rollup是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù);而drilldown則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察切片和切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個(gè),則是切片,否則是切塊旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換2022/12/12高級人工智能史忠植23OLA2022/12/15高級人工智能史忠植60數(shù)據(jù)倉庫和知識發(fā)現(xiàn)技術(shù)的結(jié)合(1)
知識發(fā)現(xiàn)成為數(shù)據(jù)倉庫中進(jìn)行數(shù)據(jù)深層分析的一種必不可少的手段數(shù)據(jù)倉庫是面向決策分析的,數(shù)據(jù)倉庫從事務(wù)型數(shù)據(jù)抽取并集成得到的分析型數(shù)據(jù)后,需要各種決策分析工具對這些數(shù)據(jù)進(jìn)行分析和挖掘,得到有用的決策信息。而知識發(fā)現(xiàn)技術(shù)具備從大量數(shù)據(jù)中發(fā)現(xiàn)有用信息的能力。2022/12/12高級人工智能史忠植24數(shù)據(jù)倉2022/12/15高級人工智能史忠植61數(shù)據(jù)倉庫和知識發(fā)現(xiàn)技術(shù)的結(jié)合(2)
數(shù)據(jù)倉庫為知識發(fā)現(xiàn)提供經(jīng)過良好預(yù)處理的數(shù)據(jù)源
知識發(fā)現(xiàn)往往依賴于經(jīng)過良好組織和預(yù)處理的數(shù)據(jù)源,數(shù)據(jù)的好壞直接影響知識發(fā)現(xiàn)的效果。數(shù)據(jù)倉庫具有從各種數(shù)據(jù)源中抽取數(shù)據(jù),并對數(shù)據(jù)進(jìn)行清洗、聚集和轉(zhuǎn)換等各種處理的能力2022/12/12高級人工智能史忠植25數(shù)據(jù)倉2022/12/15高級人工智能史忠植62數(shù)據(jù)挖掘概念----發(fā)展1989IJCAI會議:數(shù)據(jù)庫中的知識發(fā)現(xiàn)討論專題KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD討論專題AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD國際會議(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002會議,以及SIGKDDExplorations數(shù)據(jù)挖掘方面更多的國際會議PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.2022/12/12高級人工智能史忠植26數(shù)據(jù)挖2022/12/15高級人工智能史忠植63數(shù)據(jù)挖掘軟件的發(fā)展代特征數(shù)據(jù)挖掘算法集成分布計(jì)算模型數(shù)據(jù)模型第一代作為一個(gè)獨(dú)立的應(yīng)用支持一個(gè)或者多個(gè)算法獨(dú)立的系統(tǒng)單個(gè)機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)、局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成
多個(gè)算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合
多個(gè)算法數(shù)據(jù)管理、預(yù)言模型、移動系統(tǒng)移動和各種計(jì)算設(shè)備普遍存在的計(jì)算模型RobertGrossman,NationalCenterforDataMiningUniversityofIllinoisatChicago的觀點(diǎn)2022/12/12高級人工智能史忠植27數(shù)據(jù)挖2022/12/15高級人工智能史忠植64數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件特點(diǎn)支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法
挖掘向量數(shù)據(jù)(vector-valueddata)
數(shù)據(jù)一般一次性調(diào)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)新課標(biāo)的美術(shù)課堂培養(yǎng)學(xué)生的創(chuàng)新思維與實(shí)踐能力
- 2025年度生物醫(yī)藥實(shí)驗(yàn)室檢測分包合作協(xié)議3篇
- 二零二五年度房地產(chǎn)投資與包銷一體化服務(wù)協(xié)議3篇
- 探究辦公室內(nèi)教學(xué)方法的拓展以小學(xué)數(shù)學(xué)競賽為例
- 2024版裝修工程終止簡單協(xié)議書
- 二零二五年度深圳文化藝術(shù)活動策劃合同
- 專題04 2024奧運(yùn)會人物素材積累與運(yùn)用之天才跳水少女全紅嬋高考語文議論文寫作秘籍
- 二零二五年度電子商務(wù)產(chǎn)業(yè)園數(shù)字營銷入駐協(xié)議書3篇
- 小學(xué)數(shù)學(xué)集體備課中的教師角色與職責(zé)
- 二零二五年度抵押反擔(dān)保合同簽訂與備案指南3篇
- 2025年度愛讀書學(xué)長主辦的讀書挑戰(zhàn)賽組織合同
- 2024年滄州經(jīng)濟(jì)開發(fā)區(qū)招聘社區(qū)工作者筆試真題
- 2025年安徽省銅陵市公安局交警支隊(duì)招聘交通輔警14人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 零碳智慧園區(qū)解決方案
- 2025年林權(quán)抵押合同范本
- 服務(wù)推廣合同協(xié)議(2025年)
- 麻風(fēng)病防治知識課件
- 中國保險(xiǎn)行業(yè)協(xié)會官方-2023年度商業(yè)健康保險(xiǎn)經(jīng)營數(shù)據(jù)分析報(bào)告-2024年3月
- 痛風(fēng)護(hù)理疑難病例討論
- 文印服務(wù)投標(biāo)方案(技術(shù)方案)
- GB/T 9113-2010整體鋼制管法蘭
評論
0/150
提交評論