aai知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘高級(jí)人工智能史忠植最新培訓(xùn)課件(共56張PPT)_第1頁(yè)
aai知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘高級(jí)人工智能史忠植最新培訓(xùn)課件(共56張PPT)_第2頁(yè)
aai知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘高級(jí)人工智能史忠植最新培訓(xùn)課件(共56張PPT)_第3頁(yè)
aai知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘高級(jí)人工智能史忠植最新培訓(xùn)課件(共56張PPT)_第4頁(yè)
aai知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘高級(jí)人工智能史忠植最新培訓(xùn)課件(共56張PPT)_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第九章知識(shí)(zhīshi)發(fā)現(xiàn)和數(shù)據(jù)挖掘數(shù)據(jù)挖掘工具M(jìn)SMiner

史忠植中科院計(jì)算所2022/11/131第一頁(yè),共五十六頁(yè)。主要(zhǔyào)內(nèi)容研究背景MSMiner體系結(jié)構(gòu)元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)數(shù)據(jù)采掘集成工具2022/11/132第二頁(yè),共五十六頁(yè)。典型的知識(shí)(zhīshi)發(fā)現(xiàn)系統(tǒng)(3)2022/11/133第三頁(yè),共五十六頁(yè)。知識(shí)(zhīshi)發(fā)現(xiàn)工具SAS(1)2022/11/134第四頁(yè),共五十六頁(yè)。知識(shí)(zhīshi)發(fā)現(xiàn)工具SAS(2)SASEnterpriseMiner提供"抽樣-探索-轉(zhuǎn)換-建模-評(píng)估"(SEMMA)的處理流程。數(shù)據(jù)挖掘算法有:·聚類(lèi)分析,SOM/KOHONEN神經(jīng)網(wǎng)絡(luò)分類(lèi)算法·關(guān)聯(lián)模式/序列模式分析·多元回歸模型·決策樹(shù)模型(C45,CHAID,CART)·神經(jīng)網(wǎng)絡(luò)模型(MLP,RBF)

·SAS/STAT,SAS/ETS等模塊提供的統(tǒng)計(jì)分析模型和時(shí)間序列分析模型也可嵌入其中。2022/11/135第五頁(yè),共五十六頁(yè)。知識(shí)發(fā)現(xiàn)(fāxiàn)工具IntelligentMiner2022/11/136第六頁(yè),共五十六頁(yè)。知識(shí)(zhīshi)發(fā)現(xiàn)工具Clementine2022/11/137第七頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘工具:公用(gōngyòng)系統(tǒng)

MLC++MatlabBrute2022/11/138第八頁(yè),共五十六頁(yè)。知識(shí)發(fā)現(xiàn)(fāxiàn)工具M(jìn)SMiner中科院計(jì)算技術(shù)研究所智能信息處理開(kāi)放實(shí)驗(yàn)室開(kāi)發(fā)的MSMiner是一種多策略知識(shí)發(fā)現(xiàn)平臺(tái),能夠提供快捷有效的數(shù)據(jù)挖掘解決方案,提供多種知識(shí)發(fā)現(xiàn)方法。MSMiner具有以下特點(diǎn):·提出了一種面向?qū)ο蟮脑獢?shù)據(jù)結(jié)構(gòu),·設(shè)計(jì)實(shí)現(xiàn)了一種簡(jiǎn)單但有效的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)·提出了一種面向?qū)ο蟮臄?shù)據(jù)挖掘任務(wù)模型·設(shè)計(jì)了一種可擴(kuò)展算法庫(kù)2022/11/139第九頁(yè),共五十六頁(yè)。數(shù)據(jù)倉(cāng)庫(kù):特征(tèzhēng)面向主題集成性穩(wěn)定性隨時(shí)間變化2022/11/1310第十頁(yè),共五十六頁(yè)。數(shù)據(jù)倉(cāng)庫(kù):OLAPMOLAPROLAP2022/11/1311第十一頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的結(jié)合(jiéhé)數(shù)據(jù)倉(cāng)庫(kù)為數(shù)據(jù)挖掘提供經(jīng)良好處理的數(shù)據(jù)源數(shù)據(jù)挖掘?yàn)閿?shù)據(jù)倉(cāng)庫(kù)提供深層數(shù)據(jù)分析手段2022/11/1312第十二頁(yè),共五十六頁(yè)。MSMiner體系結(jié)構(gòu)設(shè)計(jì)目標(biāo)(mùbiāo):

提供快捷有效的數(shù)據(jù)挖掘解決方案。設(shè)計(jì)要求:開(kāi)放性可擴(kuò)展性效率易用性2022/11/1313第十三頁(yè),共五十六頁(yè)。MSMiner體系結(jié)構(gòu)MSMiner體系結(jié)構(gòu)示意圖客戶端效勞(xiàoláo)器端元數(shù)據(jù)模塊執(zhí)行數(shù)據(jù)采掘任務(wù)編輯數(shù)據(jù)采掘任務(wù)數(shù)據(jù)采掘集成工具數(shù)據(jù)抽取和集成主題組織OLAP可視化數(shù)據(jù)倉(cāng)庫(kù)管理器數(shù)據(jù)倉(cāng)庫(kù)OLEDBforODBC2022/11/1314第十四頁(yè),共五十六頁(yè)。元數(shù)據(jù)(shùjù)的內(nèi)容關(guān)于外部數(shù)據(jù)源的關(guān)于內(nèi)部數(shù)據(jù)的〔包括數(shù)據(jù)庫(kù)、表、字段的信息〕關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的〔包括事實(shí)表、維表、立方以及其它的中間表〕關(guān)于用戶信息的數(shù)據(jù)采掘算法〔包括算法的參數(shù)信息〕關(guān)于采掘任務(wù)的〔包括采掘步驟、每個(gè)步驟的所用的參數(shù)〕2022/11/1315第十五頁(yè),共五十六頁(yè)。元數(shù)據(jù)(shùjù):元數(shù)據(jù)庫(kù)2022/11/1316第十六頁(yè),共五十六頁(yè)。元數(shù)據(jù):元數(shù)據(jù)對(duì)象(duìxiàng)模型設(shè)計(jì)思路一致性完備性易維護(hù)性2022/11/1317第十七頁(yè),共五十六頁(yè)。元數(shù)據(jù)(shùjù)是層次的嵌套的封裝的互相聯(lián)系的——采用面向?qū)ο蟮姆椒?0多個(gè)類(lèi)元數(shù)據(jù)的結(jié)構(gòu)2022/11/1318第十八頁(yè),共五十六頁(yè)。數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)(píngtái):結(jié)構(gòu)MSMiner數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)示意圖外部數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)數(shù)據(jù)抽取、清洗、聚集、轉(zhuǎn)換主題2主題1主題nOLAP及可視化工具數(shù)據(jù)采掘集成工具...2022/11/1319第十九頁(yè),共五十六頁(yè)。數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):數(shù)據(jù)(shùjù)抽取和集成數(shù)據(jù)的簡(jiǎn)單抽取和集成數(shù)據(jù)的復(fù)雜處理面向數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理2022/11/1320第二十頁(yè),共五十六頁(yè)。數(shù)據(jù)抽取(chōuqǔ)和集成:MSETL

MSETL系統(tǒng)作為本實(shí)驗(yàn)室數(shù)據(jù)處理軟件系列的一個(gè)重要組成局部,主要完成從業(yè)務(wù)數(shù)據(jù)源到分析數(shù)據(jù)源的轉(zhuǎn)換功能。具體包括從異質(zhì)業(yè)務(wù)數(shù)據(jù)源中抽取需要的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行多種預(yù)處理,把經(jīng)過(guò)處理后的數(shù)據(jù)裝載入指定數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)庫(kù)2022/11/1321第二十一頁(yè),共五十六頁(yè)。數(shù)據(jù)抽取(chōuqǔ)和集成:MSETL

用戶界面(ETL轉(zhuǎn)換函數(shù)和ETL任務(wù))邏輯處理元數(shù)據(jù)管理數(shù)據(jù)庫(kù)服務(wù)器2022/11/1322第二十二頁(yè),共五十六頁(yè)。數(shù)據(jù)(shùjù)抽取和集成:MSETL

支持多種數(shù)據(jù)源和目的數(shù)據(jù)庫(kù)良好的可擴(kuò)充性高效率的調(diào)度執(zhí)行功能增量更新功能2022/11/1323第二十三頁(yè),共五十六頁(yè)。數(shù)據(jù)抽取(chōuqǔ)和集成:MSETL2022/11/1324第二十四頁(yè),共五十六頁(yè)。數(shù)據(jù)抽取(chōuqǔ)和集成:MSETL2022/11/1325第二十五頁(yè),共五十六頁(yè)。數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)(píngtái):數(shù)據(jù)倉(cāng)庫(kù)建模產(chǎn)品號(hào)產(chǎn)品名稱產(chǎn)品目錄產(chǎn)品表訂貨表客戶號(hào)客戶名稱客戶地址客戶表產(chǎn)品號(hào)客戶號(hào)訂單號(hào)時(shí)間標(biāo)識(shí)地區(qū)名稱產(chǎn)品數(shù)量總價(jià)事實(shí)表時(shí)間標(biāo)識(shí)月季度年時(shí)間表地區(qū)名稱省別地區(qū)表星型模型2022/11/1326第二十六頁(yè),共五十六頁(yè)。OLAPMOLAP,ROLAP,HOLAPOLAP的操作SliceDiceRollupDrilldownPivot

OLAP方案

對(duì)小規(guī)模數(shù)據(jù):ActiveXOCX

對(duì)大規(guī)模數(shù)據(jù):前臺(tái)(qiántái)工具+MSOLAPServer2022/11/1327第二十七頁(yè),共五十六頁(yè)。數(shù)據(jù)(shùjù)立方2022/11/1328第二十八頁(yè),共五十六頁(yè)。OLAPMOLAP,ROLAP,HOLAPOLAP的操作SliceDiceRollupDrilldownPivot

OLAP方案(fāngàn)

對(duì)小規(guī)模數(shù)據(jù):ActiveXOCX

對(duì)大規(guī)模數(shù)據(jù):前臺(tái)工具+MSOLAPServer2022/11/1329第二十九頁(yè),共五十六頁(yè)。數(shù)據(jù)(shùjù)立方2022/11/1330第三十頁(yè),共五十六頁(yè)。數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)(píngtái):OLAP的實(shí)現(xiàn)2022/11/1331第三十一頁(yè),共五十六頁(yè)。元數(shù)據(jù)(shùjù)的內(nèi)容關(guān)于外部數(shù)據(jù)源的關(guān)于內(nèi)部數(shù)據(jù)的〔包括數(shù)據(jù)庫(kù)、表、字段的信息〕關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的〔包括事實(shí)表、維表、立方以及其它的中間表〕關(guān)于用戶信息的關(guān)于算法〔包括算法的參數(shù)信息〕關(guān)于采掘任務(wù)的〔包括采掘步驟、每個(gè)步驟的所用的參數(shù)〕2022/11/1332第三十二頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成工具(gōngjù):結(jié)構(gòu)數(shù)據(jù)挖掘集成工具結(jié)構(gòu)示意圖數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)任務(wù)編輯任務(wù)規(guī)劃和執(zhí)行算法庫(kù)算法管理元數(shù)據(jù)任務(wù)模型庫(kù)、算法描述2022/11/1333第三十三頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成(jíchénɡ)工具:數(shù)據(jù)挖掘任務(wù)模型Step1Step2Step4Step3Step5DMTask=(V,R)V={x|x∈StepObjects}R={<x,y>|P(x,y)∧x,y∈V}2022/11/1334第三十四頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成(jíchénɡ)工具:數(shù)據(jù)挖掘任務(wù)模型步驟對(duì)象BNF語(yǔ)法定義:<StepObject>::=<Attribute_List>;<Method_List><Attribute_List>::= [<Attribute>|<Attribute>;<Attribute_List>]<Attribute>::=<Name>,<Value><Method_List>::=[<Method>|<Method>;<Method_List>]<Method>::=<Name>,<Script><Name>::=[<char>|<string>]<Value>::=[<char>|<string>|<integer>|<float>]<Script>::=<DML_Sentence>*2022/11/1335第三十五頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成(jíchénɡ)工具:編輯任務(wù)模型任務(wù)向?qū)?022/11/1336第三十六頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成工具(gōngjù):編輯任務(wù)模型任務(wù)編輯圖板2022/11/1337第三十七頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成工具(gōngjù):處理任務(wù)模型人機(jī)界面主控模塊規(guī)劃器解釋器緩存函數(shù)庫(kù)黑板任務(wù)模型庫(kù)數(shù)據(jù)采掘任務(wù)處理引擎的結(jié)構(gòu)2022/11/1338第三十八頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成(jíchénɡ)工具:處理任務(wù)模型任務(wù)規(guī)劃和解釋執(zhí)行S1S3S2S4S5S1-S2-S3-S4-S52022/11/1339第三十九頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成工具(gōngjù):DML語(yǔ)言DML函數(shù)人機(jī)交互和控制臺(tái)輸入/輸出數(shù)值計(jì)算字符串處理圖形、圖表展示文件操作數(shù)據(jù)庫(kù)訪問(wèn)網(wǎng)絡(luò)通訊對(duì)象訪問(wèn)消息處理和流程控制黑板操作外部功能調(diào)用其它輔助功能2022/11/1340第四十頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成(jíchénɡ)工具:內(nèi)嵌決策樹(shù)SOM神經(jīng)網(wǎng)絡(luò)粗糙集關(guān)聯(lián)規(guī)那么

2022/11/1341第四十一頁(yè),共五十六頁(yè)。決策樹(shù)2022/11/1342第四十二頁(yè),共五十六頁(yè)。知識(shí)(zhīshi)約簡(jiǎn)知識(shí)約簡(jiǎn)——在保持知識(shí)庫(kù)的分類(lèi)或決策能力不變的條件下,刪除其中不相關(guān)或不重要知識(shí)冗余知識(shí)——

資源的浪費(fèi);干擾人們作出正確而簡(jiǎn)潔的決策RoughSet——把那些無(wú)法確認(rèn)的個(gè)體都?xì)w屬于邊界線區(qū)域,而這種邊界線區(qū)域被定義為上近似集和下近似集之差集〔Z.Pawlak〕知識(shí)約簡(jiǎn)是粗糙集的核心內(nèi)容之一2022/11/1343第四十三頁(yè),共五十六頁(yè)。RoughSet約簡(jiǎn)(yuējiǎn)2022/11/1344第四十四頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成(jíchénɡ)工具:外聯(lián)BP神經(jīng)網(wǎng)絡(luò)統(tǒng)計(jì)分析模糊聚類(lèi)超曲面分類(lèi)SVM貝葉斯網(wǎng)絡(luò)基于范例推理(CBR)隱馬爾科夫模型(HMM)2022/11/1345第四十五頁(yè),共五十六頁(yè)。BP用于預(yù)測(cè)(yùcè)2022/11/1346第四十六頁(yè),共五十六頁(yè)。統(tǒng)計(jì)(tǒngjì)工具線性回歸模型

——一元線性回歸、多元線性回歸、逐步回歸非線性回歸模型——二次曲線、三次曲線、指數(shù)曲線、冪指數(shù)曲線、生產(chǎn)函數(shù)等模型確定型時(shí)間序列模型——指數(shù)平滑法、趨勢(shì)移動(dòng)平均法〔水平趨勢(shì)、線性趨勢(shì)和二次曲線趨勢(shì)〕、成長(zhǎng)曲線模型〔Compertz曲線、Logistic曲線和修正指數(shù)曲線〕、季節(jié)指數(shù)法隨機(jī)型時(shí)間序列模型〔自回歸-移動(dòng)平均模型ARMA〕相關(guān)分析2022/11/1347第四十七頁(yè),共五十六頁(yè)。自回歸(huíguī)動(dòng)平均(ARMA)2022/11/1348第四十八頁(yè),共五十六頁(yè)。模糊(móhu)聚類(lèi)基于傳遞閉包的模糊聚類(lèi)

——計(jì)算模糊相似矩陣的傳遞閉包,

從而獲得傳遞閉包法的模糊聚類(lèi)基于攝動(dòng)的模糊聚類(lèi)

——參數(shù)系

相似矩陣的最優(yōu)模糊等價(jià)陣及其等價(jià)標(biāo)準(zhǔn)型獲得失真最小的模糊聚類(lèi)2022/11/1349第四十九頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成(jíchénɡ)工具:可擴(kuò)展算法庫(kù)算法注冊(cè)2022/11/13

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論