數(shù)據(jù)挖掘軟件和工具_(dá)第1頁
數(shù)據(jù)挖掘軟件和工具_(dá)第2頁
數(shù)據(jù)挖掘軟件和工具_(dá)第3頁
數(shù)據(jù)挖掘軟件和工具_(dá)第4頁
數(shù)據(jù)挖掘軟件和工具_(dá)第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘軟件和工具 數(shù)據(jù)挖掘是多學(xué)科知識(shí)的綜合,涵蓋了數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、可視化技術(shù)、信息科學(xué)、機(jī)器學(xué)習(xí)等多方面知識(shí)。 數(shù)據(jù)挖掘的重要作用已為人們了解,為了實(shí)現(xiàn)有效的數(shù)據(jù)挖掘,絕大多數(shù)用戶必須借助于合適的數(shù)據(jù)挖掘軟件,所以,數(shù)據(jù)挖掘軟件的研究是數(shù)據(jù)挖掘的一個(gè)重要研究方向。2022-4-13知識(shí)管理與數(shù)據(jù)分析實(shí)驗(yàn)室知識(shí)管理與數(shù)據(jù)分析實(shí)驗(yàn)室23代代次次特征特征DM算法支算法支持持集成性集成性分布計(jì)算分布計(jì)算數(shù)據(jù)模型數(shù)據(jù)模型可視化功能可視化功能1作為一個(gè)獨(dú)立的應(yīng)用和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合 獨(dú)立的系統(tǒng)單個(gè)機(jī)器 向量數(shù)據(jù)無2和數(shù)據(jù)庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管

2、理系統(tǒng),包括數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)同質(zhì)、局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對(duì)象,文本和連續(xù)的媒體數(shù)據(jù) 基本圖表3和預(yù)測(cè)模型系統(tǒng)集成 多個(gè)算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)較復(fù)雜多維圖形及動(dòng)畫4和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合多個(gè)算法數(shù)據(jù)管理、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)和各種計(jì)算設(shè)備普遍存在的計(jì)算模型 交互式可視化挖掘流程設(shè)計(jì)和結(jié)果展示功能數(shù)據(jù)挖掘功能數(shù)據(jù)挖掘估計(jì)Estimation分類Classification預(yù)測(cè)Prediction關(guān)聯(lián)規(guī)則Association Rules描述與可視化Description and Visualizati

3、on聚類Cluster數(shù)據(jù)挖掘模型的分類 數(shù)據(jù)描述和匯總(Data description and summarization) 細(xì)分(Segmentation) 概念描述(Concept descriptions) 分類(Classification) 預(yù)測(cè)(Prediction) 相關(guān)分析(Dependency analysis)5數(shù)據(jù)挖掘技術(shù)的分類6數(shù)據(jù)挖掘描述預(yù)測(cè)統(tǒng)計(jì)回歸關(guān)聯(lián)規(guī)則決策樹可視化聚類順序關(guān)聯(lián)匯總神經(jīng)網(wǎng)絡(luò)分類時(shí)間序列預(yù)測(cè)數(shù)據(jù)挖掘的典型結(jié)果金融 問題描述:預(yù)測(cè)信用水平是好還是差,銀行據(jù)此決定是否向客戶發(fā)放貸款,發(fā)放多少 結(jié)果描述:(決策樹)7收入大于5萬元/年是否有無儲(chǔ)蓄帳戶是

4、否房主否是是否批準(zhǔn)不批準(zhǔn)批準(zhǔn)數(shù)據(jù)挖掘的典型結(jié)果電信 問題描述:根據(jù)客戶信息,預(yù)測(cè)客戶流失可能性 結(jié)果描述:(神經(jīng)網(wǎng)絡(luò))8輸 入流失概率(0.87)輸 出男293000元/月套餐A130元/月數(shù)據(jù)挖掘的典型結(jié)果零售 問題描述:如何決定超市中商品的擺放來增加銷售額 結(jié)果描述:(Web圖)9數(shù)據(jù)挖掘的典型結(jié)果制造業(yè) 問題描述:如何對(duì)市場(chǎng)進(jìn)行細(xì)分,使產(chǎn)品滿足最有價(jià)值客戶 結(jié)果描述:(Koholen聚類)10數(shù)據(jù)挖掘的典型結(jié)果政府 問題描述:如何從眾多申請(qǐng)經(jīng)費(fèi)或者納稅中發(fā)現(xiàn)欺詐 結(jié)果描述:(回歸、神經(jīng)網(wǎng)絡(luò))11Business Understanding 商業(yè)理解過程商業(yè)理解過程 理解商業(yè)目標(biāo) 熟悉業(yè)務(wù)

5、流程 統(tǒng)一業(yè)務(wù)術(shù)語 成本/收益分析 當(dāng)前系統(tǒng)評(píng)估 主要用戶使用者 結(jié)果的輸出形式 挖掘任務(wù)的結(jié)果和現(xiàn)有系統(tǒng)的集成 任務(wù)分解 挖掘目標(biāo)分解為子任務(wù) 將商業(yè)目標(biāo)轉(zhuǎn)化為數(shù)據(jù)挖掘任務(wù) 約束條件確認(rèn) 資源 數(shù)據(jù)保護(hù)制度等 制定項(xiàng)目計(jì)劃1商業(yè)目標(biāo)的確認(rèn)數(shù)據(jù)挖掘目標(biāo)的確定數(shù)據(jù)挖掘成功的標(biāo)準(zhǔn)Data Understanding 數(shù)據(jù)理解過程數(shù)據(jù)理解過程 數(shù)據(jù)源情況 數(shù)據(jù)處理范圍 數(shù)據(jù)源訪問情況 數(shù)據(jù)描述 數(shù)據(jù)質(zhì)量描述 基本統(tǒng)計(jì)值/匯總值 數(shù)據(jù)探索 數(shù)據(jù)分布 相關(guān)性分析 缺失值處理 空值處理 奇異值處理2收集數(shù)據(jù)數(shù)據(jù)描述數(shù)據(jù)探索數(shù)據(jù)質(zhì)量檢查Data Preparation 數(shù)據(jù)準(zhǔn)備過程數(shù)據(jù)準(zhǔn)備過程 數(shù)據(jù)整合 多

6、個(gè)數(shù)據(jù)表的數(shù)據(jù)聯(lián)合 數(shù)據(jù)的匯總和聚合 數(shù)據(jù)選擇 記錄的選擇和排除 數(shù)據(jù)集合構(gòu)成:測(cè)試集,檢驗(yàn)集 數(shù)據(jù)轉(zhuǎn)換 函數(shù)轉(zhuǎn)換 標(biāo)準(zhǔn)化處理 離散化處理 數(shù)據(jù)清洗 數(shù)據(jù)缺失值處理 數(shù)據(jù)派生 新變量的生成3數(shù)據(jù)合并和清洗數(shù)據(jù)選擇數(shù)據(jù)轉(zhuǎn)換Modeling 數(shù)據(jù)建模過程數(shù)據(jù)建模過程 選擇合適的建模技術(shù) 數(shù)據(jù)預(yù)處理的情況 依賴于數(shù)據(jù)挖掘問題類型和輸出形式 構(gòu)建模型訓(xùn)練環(huán)境 訓(xùn)練樣本的構(gòu)建 模型建立 選擇初始化參數(shù)設(shè)置 模型估計(jì) 考慮過訓(xùn)練的情況 誤差分布的調(diào)查 模型參數(shù)修正及其原因4依據(jù)目標(biāo)選擇模型構(gòu)建模型訓(xùn)練環(huán)境模型建立和評(píng)估Evaluation 模型評(píng)估過程模型評(píng)估過程 模型評(píng)估 根據(jù)專家的知識(shí)和經(jīng)驗(yàn)進(jìn)行人工評(píng)

7、估 從商業(yè)角度來評(píng)價(jià)結(jié)果的有效性 定義參照對(duì)象 計(jì)算升益曲線(Lift Curve) 期望的投資回報(bào)率(ROI) 對(duì)整個(gè)數(shù)據(jù)挖掘過程進(jìn)行回顧 決定下一步驟 模型發(fā)布的時(shí)機(jī) 發(fā)布框架結(jié)構(gòu) 進(jìn)一步改進(jìn)模型5依據(jù)測(cè)試集模型評(píng)估不同模型的檢驗(yàn)標(biāo)準(zhǔn)技術(shù)標(biāo)準(zhǔn)和商業(yè)準(zhǔn)則Deployment 模型發(fā)布過程模型發(fā)布過程 數(shù)據(jù)挖掘結(jié)果的發(fā)布方式 模型的結(jié)果輸出到數(shù)據(jù)庫(kù) 形成簡(jiǎn)單的報(bào)表 結(jié)果轉(zhuǎn)化為可解釋的業(yè)務(wù)規(guī)則 在線實(shí)時(shí)地模型評(píng)分過程 數(shù)據(jù)的輸入輸出 與原有業(yè)務(wù)系統(tǒng)的集成 實(shí)時(shí)數(shù)據(jù)的來源和結(jié)果反饋 模型運(yùn)用的模式 實(shí)時(shí)處理 批處理 自動(dòng)化問題(周期)6結(jié)果的發(fā)布方式數(shù)據(jù)挖掘結(jié)果的運(yùn)用數(shù)字到業(yè)務(wù)知識(shí)轉(zhuǎn)化Clemen

8、tine的軟件構(gòu)成 Clementine Client; Clementine Server; Clementine Batch; SPSS Data Access Pack; Clementine Solution Publisher (Optional)。18Clementine的兩種運(yùn)行方式單機(jī)版運(yùn)行單機(jī)版運(yùn)行以下情況必須使用單機(jī)版運(yùn)行:以下情況必須使用單機(jī)版運(yùn)行: 數(shù)據(jù)存儲(chǔ)在本機(jī),且不能在網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)在本機(jī),且不能在網(wǎng)絡(luò)上共享;上共享; 機(jī)器不聯(lián)網(wǎng);機(jī)器不聯(lián)網(wǎng); 無無Clementine Server可供使用??晒┦褂?。以下情況可以使用單機(jī)版運(yùn)行:以下情況可以使用單機(jī)版運(yùn)行: 要處理的

9、數(shù)據(jù)量很小(比如:小要處理的數(shù)據(jù)量很?。ū热纾盒∮谟?M)并且數(shù)據(jù)存儲(chǔ)在單機(jī)或可)并且數(shù)據(jù)存儲(chǔ)在單機(jī)或可到達(dá)局域網(wǎng)處;到達(dá)局域網(wǎng)處; 單機(jī)內(nèi)存、硬盤相對(duì)要處理的數(shù)單機(jī)內(nèi)存、硬盤相對(duì)要處理的數(shù)據(jù)量來說足夠大,并且速度也滿據(jù)量來說足夠大,并且速度也滿足要求。足要求。19C/S結(jié)構(gòu)運(yùn)行以下情況必須使用C/S結(jié)構(gòu)運(yùn)行: 單機(jī)內(nèi)存或者硬盤不夠大,難以運(yùn)行大量數(shù)據(jù); 單機(jī)上沒有或者無法配置數(shù)據(jù)連結(jié),無法從數(shù)據(jù)庫(kù)中獲取數(shù)據(jù); 組織規(guī)則不允許下載大量數(shù)據(jù)到單機(jī)。以下情況可以使用C/S結(jié)構(gòu)運(yùn)行: 要處理的數(shù)據(jù)量很大,并且存儲(chǔ)在可以通過SPSS Data Access技術(shù)可到達(dá)的數(shù)據(jù)庫(kù)處; 單機(jī)速度慢,Cleme

10、ntine Server運(yùn)行的機(jī)器配置高。Clementine的系統(tǒng)結(jié)構(gòu)20Clementine的三層結(jié)構(gòu):1、數(shù)據(jù)庫(kù)層;通過Clementine Server進(jìn)行調(diào)度,把那些可以通過SQL語句執(zhí)行的數(shù)據(jù)操作過程以SQL語句的形式導(dǎo)入數(shù)據(jù)庫(kù)并在其中進(jìn)行;2、服務(wù)器端;進(jìn)行調(diào)度,不能在數(shù)據(jù)庫(kù)層面進(jìn)行的操作在服務(wù)器端進(jìn)行(比如數(shù)據(jù)挖掘模型計(jì)算過程)3、客戶端。在三層結(jié)構(gòu)下通過Clementine Server進(jìn)行調(diào)度,由客戶端向服務(wù)器端發(fā)送數(shù)據(jù)挖掘指令,并接受和展示數(shù)據(jù)挖掘結(jié)果。Clementine Client和Clementine Server通過SDL(Stream Description

11、Language )之間進(jìn)行信息交換,Clementine Server和Database通過SQL語句進(jìn)行信息交換。Clementine運(yùn)行的兩種方式 圖形界面方式圖形界面方式 適用操作系統(tǒng)適用操作系統(tǒng) Windows系列系列 特點(diǎn):特點(diǎn): 圖形化界面圖形化界面 與客戶直接交互與客戶直接交互 適合交互式分析過程適合交互式分析過程21命令行方式使用操作系統(tǒng)Windows系列Unix系列特點(diǎn):命令行操作不能生成圖形,所有結(jié)果保存在文件里或者數(shù)據(jù)庫(kù)中適合于以下情況使用:運(yùn)行耗時(shí)較長(zhǎng)的建模過程希望在后臺(tái)運(yùn)行一些耗時(shí)較長(zhǎng)的數(shù)據(jù)準(zhǔn)備過程希望按照一定的時(shí)間定期運(yùn)行(比如每周、每月等)1. 希望把Cleme

12、ntine(數(shù)據(jù)挖掘過程)運(yùn)行過程嵌入應(yīng)用系統(tǒng)中Clementine的界面和設(shè)計(jì)思路 可視化界面可視化界面 四個(gè)區(qū)域分別是建模區(qū)、結(jié)點(diǎn)區(qū)、模型描述區(qū)、項(xiàng)目管理四個(gè)區(qū)域分別是建模區(qū)、結(jié)點(diǎn)區(qū)、模型描述區(qū)、項(xiàng)目管理區(qū)區(qū) 通過連接結(jié)點(diǎn)構(gòu)成數(shù)據(jù)流建立模型通過連接結(jié)點(diǎn)構(gòu)成數(shù)據(jù)流建立模型 ClementineClementine通過通過7 7類結(jié)點(diǎn)的連接完成數(shù)據(jù)挖掘工作,它們類結(jié)點(diǎn)的連接完成數(shù)據(jù)挖掘工作,它們是:是: Source(源結(jié)點(diǎn)):Database、Var. Files等 Record Ops (記錄處理結(jié)點(diǎn)):Select、Sample等 Field Ops(字段處理結(jié)點(diǎn)):Type、Filter等 Graphs(圖形結(jié)點(diǎn)):Plot、Distribute等 Modeling(模型結(jié)點(diǎn)):Neural Net、C5.0等 Output(輸出結(jié)點(diǎn)):Table、Matrix等22七大類節(jié)點(diǎn) 按功能分為七大類節(jié)點(diǎn) 數(shù)據(jù)源節(jié)點(diǎn) 記錄處理節(jié)點(diǎn) 變量處理節(jié)點(diǎn) 圖形節(jié)點(diǎn) 模型節(jié)點(diǎn) 輸出節(jié)點(diǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論