




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第九章知識(shí)(zhīshi)發(fā)現(xiàn)和數(shù)據(jù)挖掘數(shù)據(jù)挖掘工具M(jìn)SMiner
史忠植中科院計(jì)算所2022/11/131第一頁(yè),共五十六頁(yè)。主要(zhǔyào)內(nèi)容研究背景MSMiner體系結(jié)構(gòu)元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)數(shù)據(jù)采掘集成工具2022/11/132第二頁(yè),共五十六頁(yè)。典型的知識(shí)(zhīshi)發(fā)現(xiàn)系統(tǒng)(3)2022/11/133第三頁(yè),共五十六頁(yè)。知識(shí)(zhīshi)發(fā)現(xiàn)工具SAS(1)2022/11/134第四頁(yè),共五十六頁(yè)。知識(shí)(zhīshi)發(fā)現(xiàn)工具SAS(2)SASEnterpriseMiner提供"抽樣-探索-轉(zhuǎn)換-建模-評(píng)估"(SEMMA)的處理流程。數(shù)據(jù)挖掘算法有:·聚類(lèi)分析,SOM/KOHONEN神經(jīng)網(wǎng)絡(luò)分類(lèi)算法·關(guān)聯(lián)模式/序列模式分析·多元回歸模型·決策樹(shù)模型(C45,CHAID,CART)·神經(jīng)網(wǎng)絡(luò)模型(MLP,RBF)
·SAS/STAT,SAS/ETS等模塊提供的統(tǒng)計(jì)分析模型和時(shí)間序列分析模型也可嵌入其中。2022/11/135第五頁(yè),共五十六頁(yè)。知識(shí)發(fā)現(xiàn)(fāxiàn)工具IntelligentMiner2022/11/136第六頁(yè),共五十六頁(yè)。知識(shí)(zhīshi)發(fā)現(xiàn)工具Clementine2022/11/137第七頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘工具:公用(gōngyòng)系統(tǒng)
MLC++MatlabBrute2022/11/138第八頁(yè),共五十六頁(yè)。知識(shí)發(fā)現(xiàn)(fāxiàn)工具M(jìn)SMiner中科院計(jì)算技術(shù)研究所智能信息處理開(kāi)放實(shí)驗(yàn)室開(kāi)發(fā)的MSMiner是一種多策略知識(shí)發(fā)現(xiàn)平臺(tái),能夠提供快捷有效的數(shù)據(jù)挖掘解決方案,提供多種知識(shí)發(fā)現(xiàn)方法。MSMiner具有以下特點(diǎn):·提出了一種面向?qū)ο蟮脑獢?shù)據(jù)結(jié)構(gòu),·設(shè)計(jì)實(shí)現(xiàn)了一種簡(jiǎn)單但有效的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)·提出了一種面向?qū)ο蟮臄?shù)據(jù)挖掘任務(wù)模型·設(shè)計(jì)了一種可擴(kuò)展算法庫(kù)2022/11/139第九頁(yè),共五十六頁(yè)。數(shù)據(jù)倉(cāng)庫(kù):特征(tèzhēng)面向主題集成性穩(wěn)定性隨時(shí)間變化2022/11/1310第十頁(yè),共五十六頁(yè)。數(shù)據(jù)倉(cāng)庫(kù):OLAPMOLAPROLAP2022/11/1311第十一頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的結(jié)合(jiéhé)數(shù)據(jù)倉(cāng)庫(kù)為數(shù)據(jù)挖掘提供經(jīng)良好處理的數(shù)據(jù)源數(shù)據(jù)挖掘?yàn)閿?shù)據(jù)倉(cāng)庫(kù)提供深層數(shù)據(jù)分析手段2022/11/1312第十二頁(yè),共五十六頁(yè)。MSMiner體系結(jié)構(gòu)設(shè)計(jì)目標(biāo)(mùbiāo):
提供快捷有效的數(shù)據(jù)挖掘解決方案。設(shè)計(jì)要求:開(kāi)放性可擴(kuò)展性效率易用性2022/11/1313第十三頁(yè),共五十六頁(yè)。MSMiner體系結(jié)構(gòu)MSMiner體系結(jié)構(gòu)示意圖客戶端效勞(xiàoláo)器端元數(shù)據(jù)模塊執(zhí)行數(shù)據(jù)采掘任務(wù)編輯數(shù)據(jù)采掘任務(wù)數(shù)據(jù)采掘集成工具數(shù)據(jù)抽取和集成主題組織OLAP可視化數(shù)據(jù)倉(cāng)庫(kù)管理器數(shù)據(jù)倉(cāng)庫(kù)OLEDBforODBC2022/11/1314第十四頁(yè),共五十六頁(yè)。元數(shù)據(jù)(shùjù)的內(nèi)容關(guān)于外部數(shù)據(jù)源的關(guān)于內(nèi)部數(shù)據(jù)的〔包括數(shù)據(jù)庫(kù)、表、字段的信息〕關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的〔包括事實(shí)表、維表、立方以及其它的中間表〕關(guān)于用戶信息的數(shù)據(jù)采掘算法〔包括算法的參數(shù)信息〕關(guān)于采掘任務(wù)的〔包括采掘步驟、每個(gè)步驟的所用的參數(shù)〕2022/11/1315第十五頁(yè),共五十六頁(yè)。元數(shù)據(jù)(shùjù):元數(shù)據(jù)庫(kù)2022/11/1316第十六頁(yè),共五十六頁(yè)。元數(shù)據(jù):元數(shù)據(jù)對(duì)象(duìxiàng)模型設(shè)計(jì)思路一致性完備性易維護(hù)性2022/11/1317第十七頁(yè),共五十六頁(yè)。元數(shù)據(jù)(shùjù)是層次的嵌套的封裝的互相聯(lián)系的——采用面向?qū)ο蟮姆椒?0多個(gè)類(lèi)元數(shù)據(jù)的結(jié)構(gòu)2022/11/1318第十八頁(yè),共五十六頁(yè)。數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)(píngtái):結(jié)構(gòu)MSMiner數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)示意圖外部數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)數(shù)據(jù)抽取、清洗、聚集、轉(zhuǎn)換主題2主題1主題nOLAP及可視化工具數(shù)據(jù)采掘集成工具...2022/11/1319第十九頁(yè),共五十六頁(yè)。數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):數(shù)據(jù)(shùjù)抽取和集成數(shù)據(jù)的簡(jiǎn)單抽取和集成數(shù)據(jù)的復(fù)雜處理面向數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理2022/11/1320第二十頁(yè),共五十六頁(yè)。數(shù)據(jù)抽取(chōuqǔ)和集成:MSETL
MSETL系統(tǒng)作為本實(shí)驗(yàn)室數(shù)據(jù)處理軟件系列的一個(gè)重要組成局部,主要完成從業(yè)務(wù)數(shù)據(jù)源到分析數(shù)據(jù)源的轉(zhuǎn)換功能。具體包括從異質(zhì)業(yè)務(wù)數(shù)據(jù)源中抽取需要的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行多種預(yù)處理,把經(jīng)過(guò)處理后的數(shù)據(jù)裝載入指定數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)庫(kù)2022/11/1321第二十一頁(yè),共五十六頁(yè)。數(shù)據(jù)抽取(chōuqǔ)和集成:MSETL
用戶界面(ETL轉(zhuǎn)換函數(shù)和ETL任務(wù))邏輯處理元數(shù)據(jù)管理數(shù)據(jù)庫(kù)服務(wù)器2022/11/1322第二十二頁(yè),共五十六頁(yè)。數(shù)據(jù)(shùjù)抽取和集成:MSETL
支持多種數(shù)據(jù)源和目的數(shù)據(jù)庫(kù)良好的可擴(kuò)充性高效率的調(diào)度執(zhí)行功能增量更新功能2022/11/1323第二十三頁(yè),共五十六頁(yè)。數(shù)據(jù)抽取(chōuqǔ)和集成:MSETL2022/11/1324第二十四頁(yè),共五十六頁(yè)。數(shù)據(jù)抽取(chōuqǔ)和集成:MSETL2022/11/1325第二十五頁(yè),共五十六頁(yè)。數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)(píngtái):數(shù)據(jù)倉(cāng)庫(kù)建模產(chǎn)品號(hào)產(chǎn)品名稱產(chǎn)品目錄產(chǎn)品表訂貨表客戶號(hào)客戶名稱客戶地址客戶表產(chǎn)品號(hào)客戶號(hào)訂單號(hào)時(shí)間標(biāo)識(shí)地區(qū)名稱產(chǎn)品數(shù)量總價(jià)事實(shí)表時(shí)間標(biāo)識(shí)月季度年時(shí)間表地區(qū)名稱省別地區(qū)表星型模型2022/11/1326第二十六頁(yè),共五十六頁(yè)。OLAPMOLAP,ROLAP,HOLAPOLAP的操作SliceDiceRollupDrilldownPivot
OLAP方案
對(duì)小規(guī)模數(shù)據(jù):ActiveXOCX
對(duì)大規(guī)模數(shù)據(jù):前臺(tái)(qiántái)工具+MSOLAPServer2022/11/1327第二十七頁(yè),共五十六頁(yè)。數(shù)據(jù)(shùjù)立方2022/11/1328第二十八頁(yè),共五十六頁(yè)。OLAPMOLAP,ROLAP,HOLAPOLAP的操作SliceDiceRollupDrilldownPivot
OLAP方案(fāngàn)
對(duì)小規(guī)模數(shù)據(jù):ActiveXOCX
對(duì)大規(guī)模數(shù)據(jù):前臺(tái)工具+MSOLAPServer2022/11/1329第二十九頁(yè),共五十六頁(yè)。數(shù)據(jù)(shùjù)立方2022/11/1330第三十頁(yè),共五十六頁(yè)。數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)(píngtái):OLAP的實(shí)現(xiàn)2022/11/1331第三十一頁(yè),共五十六頁(yè)。元數(shù)據(jù)(shùjù)的內(nèi)容關(guān)于外部數(shù)據(jù)源的關(guān)于內(nèi)部數(shù)據(jù)的〔包括數(shù)據(jù)庫(kù)、表、字段的信息〕關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的〔包括事實(shí)表、維表、立方以及其它的中間表〕關(guān)于用戶信息的關(guān)于算法〔包括算法的參數(shù)信息〕關(guān)于采掘任務(wù)的〔包括采掘步驟、每個(gè)步驟的所用的參數(shù)〕2022/11/1332第三十二頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成工具(gōngjù):結(jié)構(gòu)數(shù)據(jù)挖掘集成工具結(jié)構(gòu)示意圖數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)任務(wù)編輯任務(wù)規(guī)劃和執(zhí)行算法庫(kù)算法管理元數(shù)據(jù)任務(wù)模型庫(kù)、算法描述2022/11/1333第三十三頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成(jíchénɡ)工具:數(shù)據(jù)挖掘任務(wù)模型Step1Step2Step4Step3Step5DMTask=(V,R)V={x|x∈StepObjects}R={<x,y>|P(x,y)∧x,y∈V}2022/11/1334第三十四頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成(jíchénɡ)工具:數(shù)據(jù)挖掘任務(wù)模型步驟對(duì)象BNF語(yǔ)法定義:<StepObject>::=<Attribute_List>;<Method_List><Attribute_List>::= [<Attribute>|<Attribute>;<Attribute_List>]<Attribute>::=<Name>,<Value><Method_List>::=[<Method>|<Method>;<Method_List>]<Method>::=<Name>,<Script><Name>::=[<char>|<string>]<Value>::=[<char>|<string>|<integer>|<float>]<Script>::=<DML_Sentence>*2022/11/1335第三十五頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成(jíchénɡ)工具:編輯任務(wù)模型任務(wù)向?qū)?022/11/1336第三十六頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成工具(gōngjù):編輯任務(wù)模型任務(wù)編輯圖板2022/11/1337第三十七頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成工具(gōngjù):處理任務(wù)模型人機(jī)界面主控模塊規(guī)劃器解釋器緩存函數(shù)庫(kù)黑板任務(wù)模型庫(kù)數(shù)據(jù)采掘任務(wù)處理引擎的結(jié)構(gòu)2022/11/1338第三十八頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成(jíchénɡ)工具:處理任務(wù)模型任務(wù)規(guī)劃和解釋執(zhí)行S1S3S2S4S5S1-S2-S3-S4-S52022/11/1339第三十九頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成工具(gōngjù):DML語(yǔ)言DML函數(shù)人機(jī)交互和控制臺(tái)輸入/輸出數(shù)值計(jì)算字符串處理圖形、圖表展示文件操作數(shù)據(jù)庫(kù)訪問(wèn)網(wǎng)絡(luò)通訊對(duì)象訪問(wèn)消息處理和流程控制黑板操作外部功能調(diào)用其它輔助功能2022/11/1340第四十頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成(jíchénɡ)工具:內(nèi)嵌決策樹(shù)SOM神經(jīng)網(wǎng)絡(luò)粗糙集關(guān)聯(lián)規(guī)那么
2022/11/1341第四十一頁(yè),共五十六頁(yè)。決策樹(shù)2022/11/1342第四十二頁(yè),共五十六頁(yè)。知識(shí)(zhīshi)約簡(jiǎn)知識(shí)約簡(jiǎn)——在保持知識(shí)庫(kù)的分類(lèi)或決策能力不變的條件下,刪除其中不相關(guān)或不重要知識(shí)冗余知識(shí)——
資源的浪費(fèi);干擾人們作出正確而簡(jiǎn)潔的決策RoughSet——把那些無(wú)法確認(rèn)的個(gè)體都?xì)w屬于邊界線區(qū)域,而這種邊界線區(qū)域被定義為上近似集和下近似集之差集〔Z.Pawlak〕知識(shí)約簡(jiǎn)是粗糙集的核心內(nèi)容之一2022/11/1343第四十三頁(yè),共五十六頁(yè)。RoughSet約簡(jiǎn)(yuējiǎn)2022/11/1344第四十四頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成(jíchénɡ)工具:外聯(lián)BP神經(jīng)網(wǎng)絡(luò)統(tǒng)計(jì)分析模糊聚類(lèi)超曲面分類(lèi)SVM貝葉斯網(wǎng)絡(luò)基于范例推理(CBR)隱馬爾科夫模型(HMM)2022/11/1345第四十五頁(yè),共五十六頁(yè)。BP用于預(yù)測(cè)(yùcè)2022/11/1346第四十六頁(yè),共五十六頁(yè)。統(tǒng)計(jì)(tǒngjì)工具線性回歸模型
——一元線性回歸、多元線性回歸、逐步回歸非線性回歸模型——二次曲線、三次曲線、指數(shù)曲線、冪指數(shù)曲線、生產(chǎn)函數(shù)等模型確定型時(shí)間序列模型——指數(shù)平滑法、趨勢(shì)移動(dòng)平均法〔水平趨勢(shì)、線性趨勢(shì)和二次曲線趨勢(shì)〕、成長(zhǎng)曲線模型〔Compertz曲線、Logistic曲線和修正指數(shù)曲線〕、季節(jié)指數(shù)法隨機(jī)型時(shí)間序列模型〔自回歸-移動(dòng)平均模型ARMA〕相關(guān)分析2022/11/1347第四十七頁(yè),共五十六頁(yè)。自回歸(huíguī)動(dòng)平均(ARMA)2022/11/1348第四十八頁(yè),共五十六頁(yè)。模糊(móhu)聚類(lèi)基于傳遞閉包的模糊聚類(lèi)
——計(jì)算模糊相似矩陣的傳遞閉包,
從而獲得傳遞閉包法的模糊聚類(lèi)基于攝動(dòng)的模糊聚類(lèi)
——參數(shù)系
相似矩陣的最優(yōu)模糊等價(jià)陣及其等價(jià)標(biāo)準(zhǔn)型獲得失真最小的模糊聚類(lèi)2022/11/1349第四十九頁(yè),共五十六頁(yè)。數(shù)據(jù)挖掘集成(jíchénɡ)工具:可擴(kuò)展算法庫(kù)算法注冊(cè)2022/11/13
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度車(chē)輛抵押給個(gè)人質(zhì)押貸款合同:豪華轎車(chē)使用權(quán)協(xié)議
- 2025年度特種車(chē)輛拖車(chē)與吊裝作業(yè)服務(wù)合同
- 二零二五年度旅游居間協(xié)議合同服務(wù)項(xiàng)目解析
- 二零二五年度泳池安全知識(shí)培訓(xùn)免責(zé)協(xié)議
- 二零二五年度空調(diào)銷(xiāo)售與節(jié)能改造升級(jí)合同
- 二零二五年度餐飲管理公司員工培訓(xùn)與用工合同
- 高速公路排水溝施工合同(2025年度)包含臨時(shí)道路修復(fù)服務(wù)
- 2025年度銷(xiāo)售人員商業(yè)秘密保護(hù)及保密補(bǔ)償協(xié)議
- 二零二五年度傳媒行業(yè)勞動(dòng)合同終止及競(jìng)業(yè)限制協(xié)議范本
- 2025年度道路養(yǎng)護(hù)承包合同解除書(shū)
- 群體傷應(yīng)急預(yù)案及搶救流程
- 2021年熔化焊與熱切割基礎(chǔ)知識(shí)課件
- 3.《東施效顰》課件PPT
- 秒的認(rèn)識(shí) 完整版PPT
- 創(chuàng)新藥產(chǎn)業(yè)鏈研究培訓(xùn)框架
- (完整PPT)半導(dǎo)體物理與器件物理課件
- 大音希聲話古韻——古琴曲《流水》課件
- 浮針療法之頸椎病的治療ppt課件
- 金蝶K3 Cloud 產(chǎn)品安裝指南
- VISIO圖標(biāo)大全(完整版)
- 醫(yī)療、預(yù)防、保健機(jī)構(gòu)醫(yī)師聘用證明表(共1頁(yè))
評(píng)論
0/150
提交評(píng)論