數(shù)據(jù)挖掘(第二部分)SPSS_clementine11培訓2cindy_第1頁
數(shù)據(jù)挖掘(第二部分)SPSS_clementine11培訓2cindy_第2頁
數(shù)據(jù)挖掘(第二部分)SPSS_clementine11培訓2cindy_第3頁
數(shù)據(jù)挖掘(第二部分)SPSS_clementine11培訓2cindy_第4頁
數(shù)據(jù)挖掘(第二部分)SPSS_clementine11培訓2cindy_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、Clementine 基礎培訓基礎培訓第二部分第二部分學習機器學習的常用技術,比如神經(jīng)網(wǎng)絡,決策樹等等,并學習如何將它們應用到業(yè)務數(shù)據(jù) 2006 SPSS Inc.2培訓內(nèi)容培訓內(nèi)容第七章第七章 Clementine 的建模技術第八章第八章 神經(jīng)網(wǎng)絡第九章第九章 規(guī)則歸納第十章第十章 模型的比較和合并第十一章第十一章 Kohonen 網(wǎng)絡 第十二章第十二章 關聯(lián)規(guī)則第十三章第十三章 時序分析第十四章第十四章 其它模塊第七章第七章 Clementine的建模技術的建模技術 2006 SPSS Inc.4Clementine 建模建模建模主要途徑 :預測 預測一個數(shù)字值或符號值關聯(lián) 尋找可能一起發(fā)

2、生的事件聚類 尋找表現(xiàn)相似事物的群體 2006 SPSS Inc.5預測模型預測模型預測模型,有時提及為監(jiān)督學習,輸入用來為輸出預測值Clementine 中有八個預測模型節(jié)點:神經(jīng)網(wǎng)絡四個不同的規(guī)則歸納方法:C5.0,QUEST,CHAID和C&R Tree線性和 Logistic 回歸分析一個序列探測方法 2006 SPSS Inc.6聚類方法聚類方法聚類方法,有時提及為無監(jiān)督學習,沒有輸出字段的概念Clementine中有三個聚類方法:Kohonen網(wǎng)絡 K-means聚類兩步聚類 2006 SPSS Inc.7關聯(lián)技術關聯(lián)技術關聯(lián)技術可以看成是推廣的預測模型,在這里數(shù)據(jù)中的字段

3、被同時看成輸入和輸出Clementine中有三個關聯(lián)技術:AprioriGRI Carma 序列探測節(jié)點將會隨著時間(也就是序列)尋找關聯(lián)規(guī)則 2006 SPSS Inc.8什么是監(jiān)督學習?什么是監(jiān)督學習?當我們知道模型輸出時的一種建模技術我們將會 “監(jiān)督” 這些算法并且告訴它們什么是我們想要預測的 2006 SPSS Inc.9什么是精煉?什么是精煉?一個精煉的模型可以直接 放置回數(shù)據(jù)流區(qū)域一個生成的模型創(chuàng)建的新字段(或者數(shù)據(jù)列)可能為:分組預測和關聯(lián)值精煉模型精煉模型未精煉模未精煉模型型 2006 SPSS Inc.10什么是預測?什么是預測?決定一個數(shù)值或分類結(jié)果 2006 SPSS I

4、nc.11什么是神經(jīng)網(wǎng)絡?什么是神經(jīng)網(wǎng)絡?在輸入的基礎上預測結(jié)果的一種建模技術,這些輸入在隱藏層上被權重修改和大腦內(nèi)神經(jīng)元的行為相似輸出隱藏層輸入層 2006 SPSS Inc.12什么是規(guī)則歸納?什么是規(guī)則歸納?顯示預測的“原因”與神經(jīng)網(wǎng)絡對比構(gòu)造規(guī)則集消除不重要的因素Clementine 為規(guī)則歸納提供 C5.0 ,C&R Tree QUEST和CHAID算法Cat.%nBad52.01168Good47.99155Total (100.00) 323Credit ranking (1=default)Cat.%nBad86.67143Good13.3322Total (51.08

5、) 165Paid Weekly/MonthlyP-value=0.0000, Chi-square=179.6665, df=1Weekly payCat.%nBad15.8225Good84.18133Total (48.92) 158Monthly salaryCat.%nBad90.51143Good9.4915Total (48.92) 158Age CategoricalP-value=0.0000, Chi-square=30.1113, df=1Young ( 35)Cat.%nBad48.9824Good51.0225Total (15.17) 49Age Categoric

6、alP-value=0.0000, Chi-square=58.7255, df=1Young ( 35)Cat.%nBad0.000Good 100.008Total(2.48)8Social ClassP-value=0.0016, Chi-square=12.0388, df=1Management;ClericalCat.%nBad58.5424Good41.4617Total (12.69) 41Professional 2006 SPSS Inc.13什么是線性回歸?什么是線性回歸?一種統(tǒng)計技術假定數(shù)據(jù)能夠以線性的關系建立模型一般用來預測數(shù)字值 2006 SPSS Inc.14什么

7、是什么是 Logistic 回歸?回歸?一種與線性回歸相似的統(tǒng)計技術,預測輸入屬于一個特殊輸出分類的概率用來預測一個二元結(jié)果多項 logistic 回歸預測多重結(jié)果 2006 SPSS Inc.15什么是主成分和因子分析?什么是主成分和因子分析?通過把高度相關字段看成一樣來減少字段數(shù)目的數(shù)據(jù)降維技術主成分分析找出最能夠捕捉所有輸入字段差異的輸入字段的線性組合因子分析試圖識別一組解釋觀察字段組內(nèi)相關結(jié)構(gòu)的概念,或者說因子主成分分析和因子分析的目標都是找出幾個能夠有效概括原始字段所含信息的導出字段 2006 SPSS Inc.16什么是聚類?什么是聚類?一系列將具有相似特征的 情形分組在一起的技術

8、考慮將相似的事物分組到一起 2006 SPSS Inc.17什么是什么是 Kohonen 網(wǎng)絡?網(wǎng)絡?將具有相似特征的情形分組在一起的聚類技術沒有建立一個預測可以處理分類和連續(xù)字段有時候稱為一個自組織映射(SOM) ,因為結(jié)果將生成一個二維 “映射” 2006 SPSS Inc.18什么是什么是 K-means 聚類?聚類?更傳統(tǒng)的聚類技術和其它分類技術又非常緊密相關,但是對于分類數(shù)據(jù)處理的不是很好 2006 SPSS Inc.19什么是兩步聚類?什么是兩步聚類?K-means 聚類需要終端用戶去決定聚類數(shù), 兩步聚類在統(tǒng)計算法的基礎上決定聚類數(shù)并不像 Kohonen 那樣需要大量的系統(tǒng)資源步

9、驟:所有的記錄進入最大聚類分組初始聚類合并在一起 2006 SPSS Inc.20什么是關聯(lián)規(guī)則?什么是關聯(lián)規(guī)則?尋找一起發(fā)生的事件 在一家食品店的購買Clementine 為關聯(lián)規(guī)則提供 GRI,Apriori 和 Carma 算法和和 2006 SPSS Inc.21什么是序列關聯(lián)?什么是序列關聯(lián)?序列關聯(lián)可以使用序列算法 尋找序列或事件的順序 2006 SPSS Inc.22何時使用何種技術何時使用何種技術: 2006 SPSS Inc.23 第八章第八章 神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡 2006 SPSS Inc.24第八章第八章 神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡內(nèi)容介紹神經(jīng)網(wǎng)絡節(jié)點創(chuàng)建一個神經(jīng)網(wǎng)絡介紹生成的模型面

10、板瀏覽并解釋結(jié)果評估模型目的展示如何在 Clementine 中創(chuàng)建一個神經(jīng)網(wǎng)絡,瀏覽生成的模型并解釋輸出結(jié)果 2006 SPSS Inc.25神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡設置變量類型過度訓練模型敏感性分析生成的模型面板理解神經(jīng)網(wǎng)絡結(jié)果 2006 SPSS Inc.26表現(xiàn)評估表現(xiàn)評估過程:訓練模型測試模型評估模型不要單獨使用訓練數(shù)據(jù)評估模型的表現(xiàn)!不要單獨使用訓練數(shù)據(jù)評估模型的表現(xiàn)!為什么? 在測試數(shù)據(jù)上模型的表現(xiàn)有可能惡化,因為模型沒有一般性 訓練過度即使 Clementine 有 “避免過度訓練” 這個選項用來確保模型的有效性模型有可能在有偏的樣本上建立 (提高,減少) 2006 SPSS Inc.

11、27使用神經(jīng)網(wǎng)絡使用神經(jīng)網(wǎng)絡建立一個神經(jīng)網(wǎng)絡用來預測字段 Risk類型節(jié)點設置字段:ID 類型設為無類型字段 RISK 方向設為輸出實例化類型節(jié)點神經(jīng)網(wǎng)絡節(jié)點:設定隨機種子233顯示反饋圖 2006 SPSS Inc.28生成的模型面板瀏覽模型生成的模型面板瀏覽模型瀏覽輸入字段的權重 2006 SPSS Inc.29測試模型測試模型改變數(shù)據(jù)源為Riskvalidate.txt生成的模型節(jié)點直接連接類型節(jié)點使用分析節(jié)點 2006 SPSS Inc.30理解神經(jīng)網(wǎng)絡理解神經(jīng)網(wǎng)絡生成的模型節(jié)點直接連接類型節(jié)點使用制表節(jié)點創(chuàng)建包含預測值的數(shù)據(jù)表格使用矩陣節(jié)點比較預測值和真值行 RISK,列 $N-RI

12、SK行百分比使用評估圖節(jié)點生成收益圖和功效圖選擇包含最優(yōu)線和基準線 2006 SPSS Inc.31輸出結(jié)果輸出結(jié)果 2006 SPSS Inc.32分析預測結(jié)果分析預測結(jié)果 兩個符號字段使用網(wǎng)絡圖節(jié)點:字段 MARITAL 和 $N-RISK 使用分布節(jié)點:字段 MARITAL顏色層疊字段 $N-RISK 2006 SPSS Inc.33分析預測結(jié)果分析預測結(jié)果一個數(shù)值字段一個符號字段使用直方圖節(jié)點:字段 INCOME,顏色層疊字段 $N-RISK字段 INCOME,顏色層疊字段 RISK比較生成的兩個直方圖 2006 SPSS Inc.34練習:預測練習:預測Response to cam

13、paign類型節(jié)點連接數(shù)據(jù)源節(jié)點(數(shù)據(jù)文件Charity)字段 Response to campaign 方向為輸出以下五個字段 Pre-campaign expenditure,Pre-campaign visits,Gender,Age, Mosaic Bands(該字段需要把類型設置成集合)方向為輸入神經(jīng)網(wǎng)絡節(jié)點連接類型節(jié)點使用默認設置生成并瀏覽神經(jīng)網(wǎng)絡模型查看其預測精度如何?哪些字段是最重要的?生成的神經(jīng)網(wǎng)絡模型連接類型節(jié)點,同時連接到矩陣節(jié)點建立一個預測 Response 和實際 Response 的矩陣哪一種在模型中預測的最好?利用網(wǎng)絡圖,條形圖節(jié)點或數(shù)據(jù)稽查節(jié)點(選取一個顏色交疊

14、字段)來分析預測結(jié)果定義流名稱如 Network.str,并保存該流 2006 SPSS Inc.35第九章第九章規(guī)則歸納規(guī)則歸納 2006 SPSS Inc.36第九章第九章 規(guī)則歸納規(guī)則歸納內(nèi)容介紹四個規(guī)則歸納節(jié)點: C5.0,CHAID,QUEST和 C&R Tree創(chuàng)建一個 C5.0規(guī)則模型瀏覽并解釋結(jié)果創(chuàng)建一個規(guī)則集目的介紹如何在 Clementine 中建立一個規(guī)則歸納模型,瀏覽產(chǎn)生的模型并解釋輸出結(jié)果,以及如何通過決策樹生成規(guī)則集 2006 SPSS Inc.37C5.0 與與 C&RTC5.0 僅僅處理符號數(shù)據(jù)輸出建立決策樹和規(guī)則集使用信息增益比率來拆分樣本輸入

15、字段較多時,比較穩(wěn)健C&RT 建立決策樹,可以轉(zhuǎn)換成規(guī)則集只建立二元拆分使用離差度量來拆分樣本 2006 SPSS Inc.38使用使用 C5.0 規(guī)則歸納技術規(guī)則歸納技術使用 C5.0 來預測 RiskC5.0 節(jié)點設置:生成決策樹瀏覽模型:完全展開樹顯示實例和置信度 2006 SPSS Inc.39從決策樹生成并瀏覽規(guī)則集從決策樹生成并瀏覽規(guī)則集 2006 SPSS Inc.40理解結(jié)果理解結(jié)果生成的模型節(jié)點直接連接類型節(jié)點使用制表節(jié)點創(chuàng)建含預測值的數(shù)據(jù)表格使用矩陣節(jié)點比較預測值和真值行 RISK,列 $C-RISK行百分比 2006 SPSS Inc.41理解結(jié)果理解結(jié)果使用評估

16、圖節(jié)點生成收益圖選擇包括最優(yōu)線改變評估圖的目標種類:選項條目用戶定義“命中” TARGET=“good risk”比較收益圖 2006 SPSS Inc.42練習:預測練習:預測Response to campaign打開前一章生成的數(shù)據(jù)流Network.str C5.0節(jié)點連接類型節(jié)點,使用默認設置生成并瀏覽C5.0規(guī)則節(jié)點完全展開所有規(guī)則,理解決策過程決策樹是否與前面生成的神經(jīng)網(wǎng)絡模型類似生成的C5.0模型連接類型節(jié)點,同時連接到矩陣節(jié)點建立一個預測Response和實際Response的矩陣與神經(jīng)網(wǎng)絡模型相比,哪個模型預測精度更高?保存更新的流 2006 SPSS Inc.43第十章第十

17、章模型的比較和合并模型的比較和合并 2006 SPSS Inc.44第十章第十章 模型的比較和合并模型的比較和合并內(nèi)容用評估圖和分析節(jié)點比較模型用驗證數(shù)據(jù)比較模型合并使用神經(jīng)網(wǎng)絡和規(guī)則歸納目標介紹模型評估的方法,以及如何比較和合并神經(jīng)網(wǎng)絡和規(guī)則歸納 2006 SPSS Inc.45聯(lián)合模型聯(lián)合模型使用分析節(jié)點來比較兩個模型的預測結(jié)果我們可以聯(lián)合模型并允許它們“投票決定”一個模型的預測我們可以使用一個模型的預測作為其它模型的輸入我們可以使用一個模型來幫助我們理解其它模型 2006 SPSS Inc.46為什么使用多重模型?為什么使用多重模型?決定哪些是輸入字段特別為神經(jīng)網(wǎng)絡使用理解模型預測的邏輯

18、性使用在神經(jīng)網(wǎng)絡之后用來更好的理解神經(jīng)網(wǎng)絡提高模型表現(xiàn)使用多重模型并 “投票決定”模型使用多重模型: 一個模型的預測結(jié)果用來預測別的模型理解模型在哪里犯錯通過預測在哪里犯錯來改正模型表現(xiàn) 2006 SPSS Inc.47比較模型比較模型使用分析節(jié)點使用評估圖使用驗證數(shù)據(jù):RiskValidate.txt 2006 SPSS Inc.48在神經(jīng)網(wǎng)絡前使用規(guī)則歸納在神經(jīng)網(wǎng)絡前使用規(guī)則歸納減少神經(jīng)網(wǎng)絡的輸入使用生成的 C5.0 規(guī)則接點自動生成過濾節(jié)點可以發(fā)現(xiàn)字段ID,AGE 和MORTGAGE 被排除生成的過濾節(jié)點后使用神經(jīng)網(wǎng)絡 2006 SPSS Inc.49在神經(jīng)網(wǎng)絡后使用規(guī)則歸納在神經(jīng)網(wǎng)絡后

19、使用規(guī)則歸納幫助理解神經(jīng)網(wǎng)絡類型節(jié)點中設置: RISK 和 $NC-RISK 為無方向,$N-RISK 方向為輸出使用 C5.0 在神經(jīng)網(wǎng)絡預測基礎上生成規(guī)則集理解神經(jīng)網(wǎng)絡的預測原因 2006 SPSS Inc.50提高模型表現(xiàn)提高模型表現(xiàn)測試和訓練平衡數(shù)據(jù)標準化數(shù)據(jù)聯(lián)合模型 2006 SPSS Inc.51練習:比較兩個模型練習:比較兩個模型打開數(shù)據(jù)流:Network.str重組數(shù)據(jù)流使生成的神經(jīng)網(wǎng)絡模型和 C5.0 模型在同一流中并與同一類型節(jié)點相連接添加分析節(jié)點到流中,并運行流哪個模型的預測精度更高?兩個模型的預測結(jié)果中有多少是一致的?通過評估圖來比較兩個模型附加題:瀏覽生成的C5.0模

20、型,并通過它生成過濾節(jié)點,并與類型節(jié)點相連規(guī)則的形成是基于全部的輸入字段嗎? 2006 SPSS Inc.52第十一章第十一章Kohonen網(wǎng)絡網(wǎng)絡 2006 SPSS Inc.53第十一章第十一章 Kohonen 網(wǎng)絡網(wǎng)絡內(nèi)容介紹 Kohonen 節(jié)點創(chuàng)建一個 Kohonen 網(wǎng)絡解釋結(jié)果目的介紹如何用 Kohonen 節(jié)點分割和聚類數(shù)據(jù),并解釋結(jié)果 2006 SPSS Inc.54Kohonen 網(wǎng)絡網(wǎng)絡細分或聚類數(shù)據(jù)的技術解釋 Kohonen 網(wǎng)絡的結(jié)果用圖表描述細分或聚類聚類不是預測,而是尋找事物的自然分組 2006 SPSS Inc.55使用使用 Kohonen 網(wǎng)絡網(wǎng)絡尋找相似購買

21、者的分組Kohonen 節(jié)點設置:用戶定義字段:Ready made 到 Tinned Goods或者在類型節(jié)點中設置所有非食物字段無方向指定隨機種子數(shù) 1000專家選項:長度 3,寬度 3輸出反饋圖 2006 SPSS Inc.56理解理解 Kohonen 網(wǎng)絡網(wǎng)絡 2006 SPSS Inc.57理解理解 Kohonen 網(wǎng)絡網(wǎng)絡關注主要類別:在瀏覽器中選擇聚類 X、Y分別為 2、0的類別自動生成選擇節(jié)點為每個聚類創(chuàng)建索引值導出字段 cluster導出規(guī)則 $KX-Kohonen 前提2 前提N = 結(jié)果完全形式:前提 結(jié)果 實例 支持 置信度 規(guī)則支持關聯(lián)規(guī)則實例僅僅是相配前提的記錄序列

22、規(guī)則實例相配整個規(guī)則的記錄 2006 SPSS Inc.72序列節(jié)點序列節(jié)點序列節(jié)點設置:ID 字段 ID選擇ID號相鄰時間字段 Index1內(nèi)容字段 Stage 2006 SPSS Inc.73探索序列和模型預測探索序列和模型預測瀏覽生成的序列規(guī)則集增加實例和規(guī)則支持度到規(guī)則統(tǒng)計表通過支持度排序生成的序列規(guī)則集節(jié)點連接類型節(jié)點使用制表節(jié)點生成表格前三個序列預測 2006 SPSS Inc.74練習:電信業(yè)維修問題練習:電信業(yè)維修問題變量文件節(jié)點(FailTelRepair.txt )制表節(jié)點查看數(shù)據(jù)序列節(jié)點連接變量文件節(jié)點在ID field項選擇ID,time field項選擇Index1,

23、 content field項下選擇Stage運行流,再簡單模式下進行序列檢測分析瀏覽生成的規(guī)則集哪些序列事置信度最高?哪些序列事件支持度最高?使用其他的排序方式增加對規(guī)則集的了解比較本章輸出的結(jié)果是否可以找到與代碼299(代表維修失?。╆P聯(lián)較多而與代碼210(代表維修成功)關聯(lián)較少的階段代碼可以幫助理解那個階段會導致維修失敗 2006 SPSS Inc.75第十四章第十四章 其它模塊其它模塊其它模塊其它模塊 2006 SPSS Inc.76第十四章第十四章 其它模塊其它模塊內(nèi)容介紹Clementine Server 介紹Clementine Solution Publisher 介紹CEMI

24、介紹Clementine Scripts 介紹Cleo介紹Text Mining for Clementine Predictive Marketing和Predictive Web Analytics提高模型性能的建議 2006 SPSS Inc.77Clementine Server 1. Perform many operations in the database.2. Perform the rest on a powerfulserver.3. Use the client processor for viewing results.4. Data isnt passedacross the networkunnecessarily.Data PreparationClementine FeaturesFull-process in-database mining with SQL optimizationScalable performanceData PreparationClementine Features 2006 SPSS Inc.78Clementine Solution Publisher 2006 SPSS Inc.79CEMI CEMIClementine FeaturesNeed something el

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論