




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、SPSS Modeler培訓培訓(2)(2)培訓內(nèi)容培訓內(nèi)容 第一章第一章 高級數(shù)據(jù)準備技術高級數(shù)據(jù)準備技術第二章第二章 PASW Modeler預測分類技術預測分類技術決策樹技術決策樹技術Logistics回歸回歸神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡第三章第三章 PASW Modeler聚類技術聚類技術2第一章第一章 高級數(shù)據(jù)準備技術高級數(shù)據(jù)準備技術RFM匯總及匯總及RFM分析分析建模數(shù)據(jù)準備及優(yōu)化建模數(shù)據(jù)準備及優(yōu)化其他建模前數(shù)據(jù)處理其他建模前數(shù)據(jù)處理34RFM評分評分交易型數(shù)據(jù)交易型數(shù)據(jù)格式化數(shù)據(jù)格式化數(shù)據(jù)RFM匯總節(jié)點匯總節(jié)點計算相對于以下內(nèi)容的近因計算相對于以下內(nèi)容的近因:指定計算交易近因的日期。ID 為
2、連續(xù):為連續(xù):如果數(shù)據(jù)按ID預排序,則可以加快處理速度。丟棄具有以下值的記錄:丟棄具有以下值的記錄:如果指定一個最小值,凡低于該值的交易詳細信息都不再被使用。只包含最近交易:只包含最近交易:如果分析的是大型數(shù)據(jù)庫,則可以指定只使用最近的記錄。保存第二個最近交易的日期保存第二個最近交易的日期5RFM分析節(jié)點分析節(jié)點RFM 得分的計算方法如下:得分的計算方法如下:(近因分值 x 近因權重)+(頻數(shù)分值 x 頻數(shù)權重)+(貨幣分值 x 貨幣權重)。分級閾:分級閾:指定在執(zhí)行節(jié)點時是始終重新計算 RFM 分值和分級分配,還是僅在需要時進行計算(如在添加了新數(shù)據(jù)時)。67建模數(shù)據(jù)準備及優(yōu)化建模數(shù)據(jù)準備及
3、優(yōu)化內(nèi)容介紹分析節(jié)點介紹使用RFM匯總生成最近交易天數(shù)、頻度、金額介紹使用RFM分析生成RFM評分8建模數(shù)據(jù)準備及優(yōu)化建模數(shù)據(jù)準備及優(yōu)化內(nèi)容介紹分箱節(jié)點介紹自動數(shù)據(jù)準備節(jié)點分箱節(jié)點分箱節(jié)點最優(yōu)最優(yōu)預分級字段以增強大型數(shù)據(jù)集的性能:預分級字段以增強大型數(shù)據(jù)集的性能:采用簡單的非監(jiān)督式分級方法將尺度值分組為大量分級,以均值表示每個分級中的值,并在繼續(xù)監(jiān)督式分級之前對觀測值權重進行相應調(diào)整。將觀測值計數(shù)相對較小的分級與較大的相鄰分級將觀測值計數(shù)相對較小的分級與較大的相鄰分級進行合并:進行合并:當該分級大小與相鄰分級大小的比值小于指定的閾值時,將合并分級。9分箱節(jié)點分箱節(jié)點其他其他固定寬度固定寬度分位
4、數(shù)分位數(shù)等級等級根據(jù)取值進行排序,記錄每條記錄的順序,所占順序的百分比平均值平均值/標準差標準差101111自動數(shù)據(jù)準備自動數(shù)據(jù)準備快速有效地數(shù)據(jù)準備快速有效地數(shù)據(jù)準備提高新用戶的工作效提高新用戶的工作效率率12l一般數(shù)據(jù)清理一般數(shù)據(jù)清理在可行的情況下修正錯誤,或者將其篩選出來,以避免錯誤,增在可行的情況下修正錯誤,或者將其篩選出來,以避免錯誤,增加生成有效模型的幾率,包括:加生成有效模型的幾率,包括: 處理缺失值、離散值和極值。 篩選出在建模中可能無用的字段。例如,類別太多或太少,缺失值太多等。 解決編碼和收集錯誤。 規(guī)范或重新編碼數(shù)據(jù)以便保持一致。 衍生變量或屬性,例如輸入組合或復合變量。
5、l增強增強通過多種方式執(zhí)行或建議對數(shù)據(jù)的增強:通過多種方式執(zhí)行或建議對數(shù)據(jù)的增強: 數(shù)值字段的最優(yōu)離散化以便更好提升(針對目標); 變量組合(如比率)用于所有數(shù)值組合;l性能性能 重要的修正/增強屬性的特征選擇。自動數(shù)據(jù)準備自動數(shù)據(jù)準備數(shù)據(jù)處理優(yōu)化簡介數(shù)據(jù)處理優(yōu)化簡介連續(xù)變量處理連續(xù)變量處理標準化連續(xù)自變量Z-SCORE規(guī)范法:基于平均值和標準差標準化處理最小/最大轉換:將原始值通過該變量的最小最大值距離標準化在新定義的數(shù)值區(qū)間中的值。標準化連續(xù)因變量:BOX-COX轉換修正因變量的非正態(tài)性根據(jù)顯著性閥值,對連續(xù)自變量進行離散化分類變量處理分類變量處理根據(jù)顯著性閥值,合并稀疏類別1314其他建
6、模前數(shù)據(jù)處理內(nèi)容其他建模前數(shù)據(jù)處理內(nèi)容n 簡要討論建模前的數(shù)據(jù)準備和清洗n 使用條形圖和平衡節(jié)點平衡數(shù)據(jù)n 使用分割節(jié)點分割數(shù)據(jù)為訓練和測試樣本n 通過分布圖節(jié)點轉換數(shù)據(jù)n 運行神經(jīng)網(wǎng)絡前使用轉換到連續(xù)變量15清洗數(shù)據(jù)清洗數(shù)據(jù) 簡評估數(shù)據(jù)質(zhì)量:使用源節(jié)點的類型條目或類型節(jié)點實例化數(shù)據(jù)使用源節(jié)點或類型節(jié)點指定空白值使用質(zhì)量節(jié)點檢查和計數(shù)無效數(shù)據(jù)使用數(shù)據(jù)審核節(jié)點檢查數(shù)據(jù)的分布和統(tǒng)計性質(zhì) 提高數(shù)據(jù)質(zhì)量:使用質(zhì)量報告生成選擇節(jié)點移除帶有缺失字段的記錄使用質(zhì)量節(jié)點生成過濾節(jié)點移除帶有大量缺失的字段使用填充節(jié)點替換空白值使用使用源節(jié)點的類型條目或類型節(jié)點自動檢查過程16平衡數(shù)據(jù)平衡數(shù)據(jù) 簡檢查建模中所要使
7、用的關鍵字段的分布:數(shù)據(jù)審核節(jié)點條形圖節(jié)點(字符字段)直方圖節(jié)點(數(shù)值字段)使用平衡節(jié)點來修正數(shù)據(jù)集中的不均勻性:由分布圖和直方圖自動生成增加或減少記錄建議使用減少記錄:增加記錄擴大了數(shù)據(jù)中的問題和不規(guī)則性小數(shù)據(jù)集使用減少記錄是不可行的17舉例說明平衡數(shù)據(jù)舉例說明平衡數(shù)據(jù)使用使用分布圖節(jié)點生成字段分布圖節(jié)點生成字段 CHURNED 的分布圖的分布圖 使用分布圖自動生成均衡使用分布圖自動生成均衡 節(jié)點(減少記錄)節(jié)點(減少記錄) 平衡數(shù)據(jù)后字段平衡數(shù)據(jù)后字段 CHURNED 的分布圖的分布圖均衡數(shù)據(jù)均衡數(shù)據(jù).str18數(shù)據(jù)分割數(shù)據(jù)分割 使用導出節(jié)點和選擇節(jié)點分割數(shù)據(jù)使用導出節(jié)點和選擇節(jié)點分割數(shù)據(jù)
8、 分割節(jié)點可以直接分割數(shù)據(jù)為訓練、測試(和分割節(jié)點可以直接分割數(shù)據(jù)為訓練、測試(和驗證)數(shù)據(jù)驗證)數(shù)據(jù) 使用抽樣節(jié)點分割數(shù)據(jù)(緩存)使用抽樣節(jié)點分割數(shù)據(jù)(緩存) SPSS Modeler 所有建模節(jié)點都有一個選項可所有建模節(jié)點都有一個選項可以啟用分割,自動認可一個字段方向為分割以啟用分割,自動認可一個字段方向為分割19數(shù)值數(shù)據(jù)轉換數(shù)值數(shù)據(jù)轉換 對于數(shù)值數(shù)據(jù),不適合使用均衡數(shù)據(jù)的方法,一般通過對于數(shù)值數(shù)據(jù),不適合使用均衡數(shù)據(jù)的方法,一般通過數(shù)據(jù)轉換把有偏數(shù)據(jù)的分布轉換為平坦的分布數(shù)據(jù)轉換把有偏數(shù)據(jù)的分布轉換為平坦的分布 可以使用導出節(jié)點完成對數(shù)據(jù)的轉換,通常轉換為正態(tài)可以使用導出節(jié)點完成對數(shù)據(jù)的
9、轉換,通常轉換為正態(tài)分布或均勻分布常用數(shù)字轉換公式:分布或均勻分布常用數(shù)字轉換公式: Exp(x) 、Log(x+a) 、Log(x-a)/(b-x) 、Log10(x+a)、Sqrt(x) 、1 / Exp(GLOBAL_AVE (x)-x)20標記變量轉換成連續(xù)變量標記變量轉換成連續(xù)變量 使用神經(jīng)網(wǎng)絡預測一個簡單的使用神經(jīng)網(wǎng)絡預測一個簡單的“是是/否否”標記字段時變標記字段時變換標記字段為連續(xù)字段換標記字段為連續(xù)字段 使用使用“是是/否否”標記字段作為輸出時,神經(jīng)網(wǎng)絡內(nèi)部轉標記字段作為輸出時,神經(jīng)網(wǎng)絡內(nèi)部轉化這兩個值為化這兩個值為“0/1”,輸出仍為,輸出仍為“是是/否否” 使用變換后的連
10、續(xù)字段作為輸出時,結果是使用變換后的連續(xù)字段作為輸出時,結果是0到到1 之間之間的數(shù)值在接近邊界時看成比較強的結果,在接近中間時的數(shù)值在接近邊界時看成比較強的結果,在接近中間時看成邊界結果看成邊界結果第二章第二章 SPSS Modeler預測分類技術預測分類技術內(nèi)容內(nèi)容決策樹技術決策樹技術Logistics回歸回歸神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡2122決策樹技術決策樹技術 介紹介紹C5.0、CHAID、C&RT 和和QUEST 節(jié)點節(jié)點的高級特性的高級特性 介紹交互樹的特點介紹交互樹的特點 了解了解CHAID 和和C&RT 在建模中處理數(shù)值輸出在建模中處理數(shù)值輸出 使用拆分數(shù)據(jù)測試模型使用拆
11、分數(shù)據(jù)測試模型23決策樹模型比較決策樹模型比較模型準則模型準則C5.0CHAIDQUESTC&RT字符預測器拆分類型多重多重二元二元連續(xù)目標否是否是連續(xù)預測器是否是是預測器選擇準則信息度量卡方檢驗和F 檢驗統(tǒng)計雜質(zhì)(離差)度量能否使用缺失預測器值是,缺失分成幾部分是,缺失成為一個分類是,使用代理是,使用代理先驗否否是是修剪準則交互式建立樹否是是是支持推進是否否否24C5.0 建模(字符輸出)建模(字符輸出)25增益率選擇標準增益率選擇標準 C5.0 中的增益率選擇標準以信息論為基礎,用來決中的增益率選擇標準以信息論為基礎,用來決定如何分割數(shù)據(jù)定如何分割數(shù)據(jù) GAIN(X) = INFO
12、(DATA) INFOX(DATA) GAIN RATIO(X) = GAIN(X) / SPLIT INFOX(DATA) C5.0 算法:使用最大化信息增益率的字段分割數(shù)據(jù)算法:使用最大化信息增益率的字段分割數(shù)據(jù)26高級選項高級選項 修剪純度:修剪純度:決定生成決策樹或規(guī)則集被修剪的程度。提高純度值將獲得更小、更簡潔的決策樹;降低純度值將獲得更加精確的決策樹 子分支最少記錄數(shù):子分支最少記錄數(shù):子群大小可以用于限制決策樹任一分支的拆分數(shù),只有當兩個或以上的后序子分支包括來自訓練集的記錄不少于最小記錄數(shù)時,決策樹才會繼續(xù)拆分,提高該值將有助于避免噪聲數(shù)據(jù)的過度訓練 辨別屬性:辨別屬性:如果選
13、擇了該選項,C5.0 會在建立模型前檢驗預測字段的有用性,與分析無關的預測字段將不參與建模過程。這一選項對有許多預測字段的模型非常有用,并且有助于避免過度擬合27如何使用修剪和子分支最少記錄數(shù)如何使用修剪和子分支最少記錄數(shù)C5.0 簡單模式:如果算法選擇偏向精確性,修剪純度設定為 75 ,子分支最少記錄數(shù)設定為 2 如果算法選擇偏向一般性,修剪純度設定為 85 ,子分支最少記錄數(shù)設定為 5 如果選擇期望噪聲百分數(shù),子分支最少記錄數(shù)設定為這個值的二分之一可以使用專家模式精煉簡單模式生成的樹如果樹很大,有很多分支,提高修剪純度如果有期望噪聲百分數(shù)的估計,設定子分支最少記錄數(shù)為這個值的二分之一28其
14、它選項其它選項使用推進:使用推進:這種方法按序列建立多重模型第一個模型以通常的方式建立隨后,建立第二個模型,聚焦于被第一個模型錯誤分類的記錄然后第三個模型聚焦于第二個模型的錯誤,等等最后,應用整個模型集對樣本進行分類,使用加權投票過程把分散的預測合并成綜合預測使用推進可以顯著提高C5.0 模型的精確度,但是同時也需要更長的訓練時間誤分類成本:誤分類成本:設定誤分類的成本在某些情況下,特定類型的錯誤比其他類錯誤所引起的損失更大,誤分類成本允許指定不同類型預測錯誤之間的相對重要性29CHAID 建模(字符輸出)建模(字符輸出)30選項設置選項設置兩種模式:兩種模式:CHAID 和 Exhausti
15、ve CHAIDExhaustive CHAID 檢查更多的預測器拆分,從而提高找到最佳預測器的機會,需要更多的時間最大樹狀圖深度(樹生長的層數(shù))最大樹狀圖深度(樹生長的層數(shù))由于 CHAID 并不修剪過于茂密的樹,用戶可以通過 “根以下的層”設定樹的深度CHAID 可以通過標準模式創(chuàng)建一個完整的樹或者建立一個交互樹31高級選項高級選項CHAID 使用卡方檢驗選擇用來分割的預測器如果預測器有超過兩個分類,CHAID 將會合并那些在結果中相差很小的分類當剩余分類在指定檢驗水平下(合并顯著性值)一致時停止合并過程對于連續(xù)預測器,數(shù)值將會被分為最大十個分組CHAID 中允許分割合并的分類由于執(zhí)行許多
16、卡方檢驗,當檢驗預測器時CHAID 通過 “Bonferroni 調(diào)整” 選項自動調(diào)整顯著性閥值32停止標準停止標準33C&RT 建模(字符輸出)建模(字符輸出)34高級選項高級選項修剪樹:簡單模式下會自動調(diào)用修剪修剪樹:簡單模式下會自動調(diào)用修剪標準差原則允許 C&RT 選擇最簡單的樹,其風險估計接近于風險最小的子樹的風險估計值乘數(shù)表明修剪樹與具有最小估計風險的子樹之間的允許估計風險差異程度雜質(zhì)指樹所定義子群的輸出字段的變化范圍雜質(zhì)指樹所定義子群的輸出字段的變化范圍最小雜質(zhì)改變指定在樹中進行新的拆分所需的最小雜質(zhì)改變量分類目標字段的雜質(zhì)度量選擇度量樹的雜質(zhì)的方法Gini 是基于
17、分支類別概率的一般雜質(zhì)度量方法兩分是加重二元拆分的雜質(zhì)度量方法,更易在拆分中生成大致等規(guī)模的分支有序添加了額外的限制,即只有連續(xù)的目標類才可以組成一組,此選項僅適用于順序目標。數(shù)值目標字段總是使用最小平方偏差雜質(zhì)度量方法35高級選項高級選項代理:處理缺失值代理:處理缺失值對于樹中的每一次拆分,分類回歸樹識別與拆分字段最相似的輸入字段,這些字段是該拆分字段的代理如果必須對某一記錄分類,而該記錄拆分字段有缺失值,則該記錄拆分字段的代理字段值可用于拆分先驗概率先驗概率基于訓練數(shù)據(jù)集對于所有類都相等定制使用誤分類成本調(diào)整先驗概率誤分類成本誤分類成本36QUEST 建模(符號輸出)建模(符號輸出)37高
18、級選項高級選項QUEST 采取統(tǒng)計檢驗的方法選擇預測器對于連續(xù)和順序預測器變量,使用 F 檢驗對于名義預測器變量(標記和集合),使用卡方檢驗自動使用 Bonferroni 調(diào)整(不受用戶控制)選擇預測器后,QUEST 通過二次方程判別式分析,拆分選定的預測器為兩組拆分顯著性值默認為 0.05對于大數(shù)據(jù)集,可以減少為 0.01修剪、停止和代理38交互式樹創(chuàng)建工具交互式樹創(chuàng)建工具39預測數(shù)值字段預測數(shù)值字段C&RT 和 CHAID 可以預測數(shù)值字段C&RT 高級模式中的先驗選項和錯誤分類損失選項與連續(xù)性的輸出無關CHAID 的誤分類成本選項與連續(xù)性的輸出無關40使用分區(qū)數(shù)據(jù)檢驗模型
19、使用分區(qū)數(shù)據(jù)檢驗模型打開數(shù)據(jù)流:Chapter1-Partition.str類型節(jié)點中設置字段CHURNE 方向為輸出C5.0 節(jié)點連接分割節(jié)點生成的 C5.0 節(jié)點連接分割節(jié)點分析節(jié)點連接生成的 C5.0 節(jié)點41分析輸出結果分析輸出結果42Logistic 回歸回歸回顧回顧 Logistic 回歸的概念回歸的概念 對于字符輸出字段的統(tǒng)計預測模型對于字符輸出字段的統(tǒng)計預測模型使用使用 Logistic 節(jié)點進行信用風險建模節(jié)點進行信用風險建模43Logisitic 模型簡介模型簡介Logistic 不同于線性回歸,預測字符字段包含不同于線性回歸,預測字符字段包含兩個或多個分類兩個或多個分類在
20、輸出概率的基礎上做出預測在輸出概率的基礎上做出預測二元回歸時輸出概率二元回歸時輸出概率其他表達方式:其他表達方式:kkkkXBXBXBXBXBXBee.221122111 = )Prob(eventkkXBXBXBe.2211event) (no Prob(event) Probor (event) Prob 1(event) Prob(event) Odds44多重多重 Logistic 回歸回歸45模型類型模型類型二項:二項:當目標字段是具有兩個離散(二分)值(如是/否、啟動/關閉 或 男/女)時使用。 多項式:多項式:當目標字段是具有兩個以上值的集合字段時,使用此選項。默認為主效應:默認
21、為主效應: 模型只包含因子(字符輸入)和協(xié)變量 (數(shù)值輸入)的主效應,不檢驗輸入字段之間的交互作用全析因:全析因: 模型除了包括各輸入字段的主要效應外,還包括所有的交互作用能夠更好的捕捉復雜關系,但是也更難解釋,更容易出現(xiàn)過度擬和問題用戶自定義用戶自定義二項式模型類型二項式模型類型分類輸入分類輸入:列出標識為分類字段的字段。對比:對比:分類字段的回歸系數(shù)的解釋取決于所用的對比。指示。對比指示類別成員是否存在。這是默認方法。 簡單。將預測字段的每個類別(參考類別除外)與參考類別進行比較。 差分。將預測字段的每個類別(第一個類別除外)與前面類別的平均效果進行比較。也稱為逆 Helmert 對比。
22、Helmert。將預測字段的每個類別(最后一個類別除外)與后續(xù)類別的平均效果進行比較。 重復。將預測字段的每個類別(第一個類別除外)與前一個類別進行比較。 多項式。正交多項式對比。假定類別間距相等。多項式對比僅適用于數(shù)值字段。 偏差。將預測字段的每個類別(參考類別除外)與總體效果進行比較。目標的基準類別:目標的基準類別:指定如何確定參考類別。 4647高級選項高級選項尺度:一個離散度量值,用于修正參數(shù)協(xié)方差矩陣的估計值Pearson 卡方統(tǒng)計量偏差函數(shù)似然率卡方自定義,必須為正值追加所有概率收斂度:最大迭代次數(shù)最大逐步二分法對數(shù)似然收斂參數(shù)收斂Delta48高級輸出選項高級輸出選項摘要統(tǒng)計量似
23、然率檢驗漸近相關系數(shù)概率單元格擬和優(yōu)度卡方統(tǒng)計量迭代歷史紀錄參數(shù)估計:置信區(qū)間漸近協(xié)方差分類表49模型結果模型結果50解釋系數(shù)解釋系數(shù)51預測預測52神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡 SPSS Modeler中不同類型神經(jīng)網(wǎng)絡的訓練模式中不同類型神經(jīng)網(wǎng)絡的訓練模式 舉例說明神經(jīng)網(wǎng)絡節(jié)點中的專家選項舉例說明神經(jīng)網(wǎng)絡節(jié)點中的專家選項 討論敏感性分析和避免過度訓練討論敏感性分析和避免過度訓練 回顧神經(jīng)網(wǎng)絡節(jié)點中如何處理缺失值回顧神經(jīng)網(wǎng)絡節(jié)點中如何處理缺失值53訓練、測試和驗證樣本訓練、測試和驗證樣本 一般來說:一般來說:訓練樣本用來訓練模型,測試樣本用來驗證模型訓練樣本用來訓練模型,測試樣本用來驗證模型兩部分數(shù)據(jù)互
24、斥兩部分數(shù)據(jù)互斥 BP 神經(jīng)網(wǎng)絡模型中:神經(jīng)網(wǎng)絡模型中:訓練樣本用來估計模型系數(shù),測試樣本用來決定何時終訓練樣本用來估計模型系數(shù),測試樣本用來決定何時終止訓練,驗證樣本用來評估模型止訓練,驗證樣本用來評估模型“測試測試”樣本兩種不同的含義:樣本兩種不同的含義:在這一章的神經(jīng)網(wǎng)絡模型中,在這一章的神經(jīng)網(wǎng)絡模型中,“測試測試”樣本決定訓練何樣本決定訓練何時終止,時終止, “驗證驗證”樣本在訓練中沒有用到的數(shù)據(jù)的基礎樣本在訓練中沒有用到的數(shù)據(jù)的基礎上評估模型上評估模型54訓練模式訓練模式 基本單位:神經(jīng)元基本單位:神經(jīng)元 輸入層、隱藏層、輸出層輸入層、隱藏層、輸出層 全局最優(yōu)解和局部最優(yōu)解全局最優(yōu)解
25、和局部最優(yōu)解 訓練方法訓練方法監(jiān)督型(輸入、輸出)監(jiān)督型(輸入、輸出)四個多層感知器方法(四個多層感知器方法(MLP)一個徑向基函數(shù)方法(一個徑向基函數(shù)方法(RBF)55多層感知器(多層感知器(MLPMLP) 優(yōu)點:優(yōu)點: 很多類型的問題中都有效很多類型的問題中都有效 能夠得到很好的推廣能夠得到很好的推廣 如果數(shù)據(jù)在輸入字段上沒有很好的聚如果數(shù)據(jù)在輸入字段上沒有很好的聚類,會在極端的區(qū)域下分群樣本類,會在極端的區(qū)域下分群樣本 目前最常用的一種神經(jīng)網(wǎng)絡并且在學目前最常用的一種神經(jīng)網(wǎng)絡并且在學術界對之研究較多術界對之研究較多 缺點:缺點: 時間訓練過長時間訓練過長 不能保證找到全局最優(yōu)解不能保證找
26、到全局最優(yōu)解 四種四種MLP 算法:算法: 快速、動態(tài)、多重、修剪(徹底修剪)快速、動態(tài)、多重、修剪(徹底修剪) 選擇何種方法選擇何種方法 計算時間計算時間 精度精度兩個輸入字段預測兩個輸入字段預測兩分類變量兩分類變量56徑向基函數(shù)(徑向基函數(shù)(RBFRBF)優(yōu)點:優(yōu)點: 訓練速度快于訓練速度快于MLP 可以對在輸入空間上進行了聚類的可以對在輸入空間上進行了聚類的數(shù)據(jù)進行建模數(shù)據(jù)進行建模缺點:缺點: 難點在于決定函數(shù)中心的最優(yōu)位置難點在于決定函數(shù)中心的最優(yōu)位置 產(chǎn)生的神經(jīng)網(wǎng)絡通常很難代表數(shù)據(jù)產(chǎn)生的神經(jīng)網(wǎng)絡通常很難代表數(shù)據(jù)的全局特征的全局特征RBFN 算法:算法:使用使用K-means 聚類算法
27、來決定輸聚類算法來決定輸入空間中心的數(shù)量和位置入空間中心的數(shù)量和位置兩個輸入字段預測兩個輸入字段預測兩分類變量兩分類變量57專家選項專家選項 Alpha :更新訓練權值的參數(shù),:更新訓練權值的參數(shù),確保權值沿著一致的方向變動,確保權值沿著一致的方向變動,它在它在0 到到1之間變動,默認值為之間變動,默認值為0.9,較高的,較高的alpha 值有助于避值有助于避免網(wǎng)絡的局部極小值。免網(wǎng)絡的局部極小值。兩個輸入字段預測兩個輸入字段預測兩分類變量兩分類變量58專家選項專家選項 Eta :學習比率,控制每次網(wǎng)絡更新時權值的調(diào)整幅度專家選項中,初:學習比率,控制每次網(wǎng)絡更新時權值的調(diào)整幅度專家選項中,初
28、始始Eta 值是值是Eta 的起始值,然后以指數(shù)衰減到的起始值,然后以指數(shù)衰減到Eta 低值,接著重置為低值,接著重置為Eta 高值,反復循環(huán);高值,反復循環(huán); Eta 衰減:指定衰減:指定eta 開始降低時的比率,表示為從開始降低時的比率,表示為從Eta 高值到高值到Eta 低值的低值的循環(huán)數(shù);循環(huán)數(shù); 持續(xù)次數(shù):指定未進行改進時網(wǎng)絡訓練的次數(shù),較高的持續(xù)次數(shù)可以避持續(xù)次數(shù):指定未進行改進時網(wǎng)絡訓練的次數(shù),較高的持續(xù)次數(shù)可以避免神經(jīng)網(wǎng)絡的局部最小值,但是會增加訓練時間。免神經(jīng)網(wǎng)絡的局部最小值,但是會增加訓練時間。59不同的反饋圖和可能的解決方法不同的反饋圖和可能的解決方法60神經(jīng)網(wǎng)絡算法神經(jīng)
29、網(wǎng)絡算法 快速快速 動態(tài)動態(tài) 多重多重 修剪修剪 徹底修剪徹底修剪 RBFN61快速快速 默認只包含一個隱藏層默認只包含一個隱藏層62動態(tài)動態(tài) 動態(tài)增長網(wǎng)絡動態(tài)增長網(wǎng)絡 初始包含兩個隱藏層,每層有兩個神經(jīng)元初始包含兩個隱藏層,每層有兩個神經(jīng)元 每次每層增加一個神經(jīng)元每次每層增加一個神經(jīng)元 訓練速度較慢,模型比較好訓練速度較慢,模型比較好 沒有專家選項沒有專家選項63多重多重生成不同拓撲結構的網(wǎng)絡生成不同拓撲結構的網(wǎng)絡(不同隱藏層或神經(jīng)元)(不同隱藏層或神經(jīng)元) 網(wǎng)絡網(wǎng)絡1;網(wǎng)絡;網(wǎng)絡2;網(wǎng)絡;網(wǎng)絡3 層層1,層,層2,層,層3 n m inc訓練速度慢,結果較好訓練速度慢,結果較好64修剪修剪
30、敏感度分析敏感度分析 修剪順序修剪順序 隱藏神經(jīng)元、輸入神經(jīng)元隱藏神經(jīng)元、輸入神經(jīng)元 隱藏層、輸入層隱藏層、輸入層 隱藏率隱藏率 輸入率輸入率65RBFN K-means方法確定隱藏方法確定隱藏層的中心層的中心 輸出層被作為一個單層輸出層被作為一個單層的感知器訓練,使用的感知器訓練,使用LMS法法66何時選擇何種算法何時選擇何種算法如果時間有限如果時間有限 使用默認的快速算法使用默認的快速算法如果主要關心的是準確性而時間沒有限制如果主要關心的是準確性而時間沒有限制 使用修剪算法,或者徹底修剪算法使用修剪算法,或者徹底修剪算法如果認為一些輸入字段有可能是不必要的如果認為一些輸入字段有可能是不必要
31、的 修剪或徹底修剪網(wǎng)絡將會刪除比較弱的神經(jīng)元修剪或徹底修剪網(wǎng)絡將會刪除比較弱的神經(jīng)元如果對找到一個全局最優(yōu)點表示懷疑如果對找到一個全局最優(yōu)點表示懷疑 使用使用RBFN 算法算法很少使用多重方法很少使用多重方法67敏感性分析和避免過度訓練敏感性分析和避免過度訓練 敏感性分析:判斷哪些輸入字段對于預測輸出字段是敏感性分析:判斷哪些輸入字段對于預測輸出字段是很重要的很重要的 可以選擇重要的輸入字段訓練新的神經(jīng)網(wǎng)絡可以選擇重要的輸入字段訓練新的神經(jīng)網(wǎng)絡 可以檢查輸入字段的重要順序是否和決策樹的拆分字段一致可以檢查輸入字段的重要順序是否和決策樹的拆分字段一致 更好的理解神經(jīng)網(wǎng)絡的預測方式更好的理解神經(jīng)網(wǎng)
32、絡的預測方式 避免過度訓練:分割數(shù)據(jù)為訓練集和測試集避免過度訓練:分割數(shù)據(jù)為訓練集和測試集 防止模型過度依賴某個數(shù)據(jù)集防止模型過度依賴某個數(shù)據(jù)集 如果過度訓練一個模型,模型將會最終如果過度訓練一個模型,模型將會最終“學習學習”到訓練數(shù)據(jù)到訓練數(shù)據(jù)中所有的模式,模型的誤差將會接近于中所有的模式,模型的誤差將會接近于0 數(shù)據(jù)中通常包含噪聲(誤差),模型將會學習到噪聲的特性,數(shù)據(jù)中通常包含噪聲(誤差),模型將會學習到噪聲的特性,而降低模型在其它數(shù)據(jù)上的表現(xiàn)而降低模型在其它數(shù)據(jù)上的表現(xiàn) 用測實集監(jiān)督模型的訓練過程用測實集監(jiān)督模型的訓練過程68神經(jīng)網(wǎng)絡算法如何轉換缺失和異常值神經(jīng)網(wǎng)絡算法如何轉換缺失和異
33、常值字段類型字段類型缺失值缺失值轉換為轉換為標記對錯之外的值0.5(神經(jīng)網(wǎng)絡中標記字段以0 和1表示)集合任何未知值0(神經(jīng)網(wǎng)絡中集合字段轉化為0,1 字段輸入)連續(xù)大于上界上界連續(xù)小于下界下界連續(xù)非數(shù)值中點69第四章第四章 SPSS Modeler聚類技術聚類技術回顧 SPSS Modeler 中的三種聚類算法討論 K-Means 節(jié)點的操作和選項討論 Kohonen 節(jié)點的高級選項介紹兩步聚類節(jié)點70聚類時的原則聚類時的原則聚類的記錄數(shù)較小時(聚類的記錄數(shù)較小時(5-10% 為合理為合理 )合并距離上相鄰的聚類丟棄很小的聚類兩步聚類中選項排除異常值聚類數(shù)(最大聚類數(shù)(最大 12)嘗試不同的
34、聚類數(shù),從中選擇最優(yōu)的兩步聚類從用戶指定的范圍內(nèi)自動選擇最優(yōu)聚類數(shù)驗證方法:驗證方法:首先應該研究每個類之間的區(qū)別,使用類中包括的字段和其它重要的字段建模中使用訓練數(shù)據(jù)和測試數(shù)據(jù)同一組數(shù)據(jù)使用不同的聚類算法71聚類聚類模型展現(xiàn)模型展現(xiàn)量化評估聚類模型結果量化評估聚類模型結果用用模型視圖,輕易模型視圖,輕易查看各聚類的變量差異查看各聚類的變量差異聚類模型評估方法簡述聚類模型評估方法簡述Silhouette測量測量基于距離矩陣的評估方法?;诰嚯x矩陣的評估方法。對于每一個樣本i,定義指數(shù) s(i)(值在-1,1之間)來衡量b(i),a(i)之間的標準差,a(i)是樣本到同組樣本的平均距離;b(i)
35、是樣本到最近的組中所有樣本的平均距離。如果s(i)接近1,那么樣本i離自己的組比離其他鄰近的組近,所以是分類良好的,反之如果接近-1,則是被錯分的,但如果在0附近則難以判斷是否分類正確。將s(i)用水平條表示,并按照各個樣本在組內(nèi)的s(i)從高到低排列。這樣有助于找出那些分類不佳的樣本。對于不同的分組,可以作不同的Silhouette plot,并比較它們的平均 silhouette Wideth值,越趨向1則分類越好。Kaufman 和和Rousseeuw認為,超過認為,超過0.5的的silhouette值就是好的分類結值就是好的分類結果,果,0.2以下是缺少實質(zhì)聚類結構的。以下是缺少實質(zhì)聚
36、類結構的。7273K-Means 聚類聚類使用“最大化”方法選擇一組初始聚類中心根據(jù)記錄和聚類中心的歐氏距離把每個記錄分到與其最相近的類群重新計算每個類群的中迭代直到達到最大迭代次數(shù)或者前后兩次迭代之間差異不超過指定閥值注意:注意:生成模型在一定程生成模型在一定程上取決于訓練數(shù)據(jù)的順序上取決于訓練數(shù)據(jù)的順序74選擇聚類選擇聚類字段字段 本例中選擇的字段都有相同的度量不是必須的選擇字段應該是明顯的聚類結果盡可能簡單人口統(tǒng)計學字段一般并不用來聚類,而是用來驗證和探索聚類的特征高度相關的字段不要全部用在聚類中使用統(tǒng)計量節(jié)點,相關系數(shù)大于0.875選項設置選項設置聚類數(shù):指定生成的聚類個數(shù),默認值為 5生成距離字段:生成模型將包括一個具有每個記錄與其所屬類群中心距離的字段顯示類鄰近距離:在生成模型的輸出結果中包含類中心距離終止標準:默認是迭代 20 次或者差異0.000001,達到任一標準就終止最大迭代次數(shù):允許在迭代指定次數(shù)后終止訓練差異容忍度允許在一次迭代中,聚類中心之間的最大差異小于指定水平時終止訓練76K-Means 計算距離計算距
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 訂單養(yǎng)殖牛羊合同協(xié)議
- 貨抵貨協(xié)議合同模板
- 貨車散伙協(xié)議書范本
- 解除售樓合同協(xié)議書范本
- 2025委托貸款合同協(xié)議書
- 貨車大箱租賃合同協(xié)議
- 2025《物業(yè)管理合同》范本
- 購買學生公寓合同協(xié)議
- 購舊房合同協(xié)議
- 購買混凝土別墅合同協(xié)議
- 四年級下冊數(shù)學口算練習題
- 《超重康復之道》課件
- 建筑圖紙識圖培訓
- 飛行員勞動合同模板及條款
- 第中西藝術時空對話 課件 2024-2025學年嶺南美版(2024) 初中美術七年級下冊
- 高氧潛水考試題及答案
- 2025年二級建造師之二建礦業(yè)工程實務通關考試題庫帶答案解析
- (四調(diào))武漢市2025屆高中畢業(yè)生四月調(diào)研考試 物理試卷(含答案)
- 盲醫(yī)考試題及答案
- 上海市寶山區(qū)2022-2023學年五年級下學期期中調(diào)研語文試題(有答案)
- 教科版科學三年級下冊期中測試卷
評論
0/150
提交評論