版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、IBM SPSS Modeler 說明數(shù)據(jù)挖掘和建模數(shù)據(jù)挖掘是一個深入您的業(yè)務數(shù)據(jù),以發(fā)現(xiàn)隱藏的模式和關(guān)系的過程。數(shù)據(jù)挖掘解決了一個常見的問 題:您擁有的數(shù)據(jù)越多,就越難有效地分析并得出數(shù)據(jù)的意義,并且耗時也越長。金礦無法開采,通 常是由于缺乏人力、時間或?qū)I(yè)技術(shù)。數(shù)據(jù)挖掘使用清晰的業(yè)務流程和強大的分析技術(shù),快速、徹底地探索大量的數(shù)據(jù),抽取并為您提供有用且有價值的信息,這正是您所需要的“商務智能”。盡管您數(shù)據(jù)中的這些以前未知的模式和關(guān)系本身很有趣,但一切并不止于此。如果您可以使用這些過去行為的模式來預測未來可能發(fā)生的事情,那又會怎樣?這就是建模的目標- 模型,它包含一組從源數(shù)據(jù)中抽取的規(guī)則、公
2、式或方程式,并允許您通過它們生成預測結(jié)果。這正是預測分析的核心。關(guān)于預測分析預測分析是一個業(yè)務流程,其中包含一組相關(guān)技術(shù),通過從您的數(shù)據(jù)中總結(jié)出有關(guān)當前狀況與未來事件的可靠結(jié)論,幫助制定有效的行動措施。它是以下方面的組合:?高級分析?決策優(yōu)化高級分析使用多種工具和技術(shù),分析過去與現(xiàn)在的事件,并預測未來的結(jié)果。決策優(yōu)化確定您的哪些措施可以產(chǎn)生最好的可能結(jié)果,并確保這些建議措施能夠最有效地融入到您的業(yè)務流程中。有關(guān)預測分析如何工作的深入信息,請訪問公司網(wǎng)站。建模技術(shù)建模技術(shù)基于對算法的使用,算法是解決特定問題的指令序列。您可以使用特定算法創(chuàng)建相應類型的 模型。有三種主要的建模技術(shù)類別,舊M? SP
3、SS? Modeler為每種類別提供了一些示例:? Classification?關(guān)聯(lián)?細分(有時稱為“聚類”)分類模型使用一個或多個輸入字段的值來預測一個或多個輸出(或 目標)字段的值。這些技術(shù)的部分 示例為:決策樹(C&R樹、QUEST CHAID和C5.0算法)、回歸(線性、logistic 、廣義線性和 Cox回歸算法)、神經(jīng)網(wǎng)絡、 Support Vector Machine (SVM)和貝葉斯網(wǎng)絡。關(guān)聯(lián)模型查找您數(shù)據(jù)中的模式,其中一個或多個實體(如事件、購買或?qū)傩裕┡c一個或多個其他實體相關(guān)聯(lián)。這些模型構(gòu)建定義這些關(guān)系的規(guī)則集。數(shù)據(jù)中的字段可以作為輸入和目標。您可以手動查找這
4、些關(guān)聯(lián),但關(guān)聯(lián)規(guī)則算法可以更快速地完成,并能探索更多復雜的模式。Apriori和Carma模型是使用此類算法的示例。另一種類型的關(guān)聯(lián)模型是序列檢測模型,后者可以在按時間建立結(jié)構(gòu)的數(shù)據(jù) 中查找順序模式。細分模型將數(shù)據(jù)劃分為具有類似輸入字段模式的記錄段或聚類。細分模型只對輸入字段感興趣,沒有 輸出或目標字段的概念。細分模型的示例為Kohonen網(wǎng)絡、K-Means聚類、兩步聚類和異常檢測等。我如何知道使用哪種技術(shù)?有這樣種類繁多的技術(shù)擺在面前,很難知道從哪里開始解決您的特定問題。幸運的是,舊M? SPSS?Modeler可以通過自動化建模形式替您做出其中的部分決定。這是一種功能強大的技術(shù),它能評估
5、和 比較多種不同建模方法,并按有效性順序?qū)λ鼈冞M行排序。這樣,您可以在單次建模運行中嘗試多種 方法。自動建模良功分奘箸自目救值自司裱使用說明要啟動該應用程序,請從 Windows “開始”菜單的SPSS Inc程序組中選擇舊M? SPSS?Modeler 14.1。幾秒鐘后,屏幕上將顯示主窗口。在數(shù)據(jù)挖掘過程中的每一個階段,均可通過舊M? SPSS? Modeler易于使用的界面來邀請?zhí)囟I(yè)務的專家。建模算法(如預測、分類、細分和關(guān)聯(lián)檢測)可確保得到強大而準確的模型。模型結(jié)果可以方便地 部署和讀入到數(shù)據(jù)庫、舊M? SPSS? Statistics 和各種其他應用程序中。使用SPSS Model
6、er即處理數(shù)據(jù)的三個步驟。?首先,將數(shù)據(jù)讀入SPSS Modeler ,?然后,然后通過一系列操縱運行數(shù)據(jù),?最后,將數(shù)據(jù)發(fā)送到目標位置。這一操作序列稱為 數(shù)據(jù)流,因為數(shù)據(jù)以一條條記錄的形式,從數(shù)據(jù)源開始,依次經(jīng)過各種操縱,最終到 達目標(模型或某種數(shù)據(jù)輸出)O,工一 %H勵流工作區(qū)是 舊M? SPSS? Modeler窗口的最大區(qū)域,也是您構(gòu)建和操縱數(shù)據(jù)流的位置。通過在界面的主工作區(qū)中繪制與業(yè)務相關(guān)的數(shù)據(jù)操作圖表來創(chuàng)建流。每個操作都用一個圖標或節(jié)點表示,這些節(jié)點通過 流鏈接在一起,流表示數(shù)據(jù)在各個操作之間的流動。在SPSS Modeler中,可以在同一流工作區(qū)或通過打開新的流工作區(qū)來一次處理
7、多個流。會話期間,流 存儲在SPSS Modeler窗口右上角的“流”管理器中。IBM? SPSS? Modeler中的大部分數(shù)據(jù)和建模工具位于 節(jié)點選項板 中,該選項板位于流工作區(qū)下方窗口 的底部。例如,可以使用“記錄選項”選項板選項卡中包含的節(jié)點對數(shù)據(jù)記錄執(zhí)行操作,如選擇、合并和追加等。要將節(jié)點添加到工作區(qū),請在節(jié)點選項板中雙擊圖標或?qū)⑵渫戏诺焦ぷ鲄^(qū)。隨后可將各個圖標連接以創(chuàng)建一個表示數(shù)據(jù)流動的流。每個選項板選項卡均包含一組不同的流操作階段中使用的相關(guān)節(jié)點,如:?源。此類節(jié)點可將數(shù)據(jù)引入SPSS Modeler。?記錄選項。此類節(jié)點可對數(shù)據(jù)記錄執(zhí)行操作,如選擇、合并和追加等。?字段選項。此
8、類節(jié)點可對數(shù)據(jù)字段執(zhí)行操作,如過濾、導出新字段和確定給定字段的測量級別等。?圖形。此類節(jié)點可在建模前后以圖表形式顯示數(shù)據(jù)。圖形包括散點圖、直方圖、網(wǎng)絡節(jié)點和評估圖 表。?建模。此類節(jié)點可使用SPSS Modeler中提供的建模算法,如神經(jīng)網(wǎng)絡、決策樹、聚類算法和數(shù)據(jù) 排序等。? 數(shù)據(jù)庫建模。節(jié)點使用Microsoft SQL Server 、舊M DB2和Oracle 數(shù)據(jù)庫中可用的建模算法。?輸出節(jié)點生成可在SPSS Modeler中查看的數(shù)據(jù)、圖表和模型等多種輸出結(jié)果。? 導出。節(jié)點生成可在外部應用程序(如 舊M? SPSS? Data Collection 或Excel )中查看的多種輸
9、 出。? SPSS Statistics 。節(jié)點將數(shù)據(jù)導入 舊M? SPSS? Statistics或從中導出數(shù)據(jù),以及運行SPSSStatistics 過程。隨著對SPSS Modeler的熟悉,您也可以自定義供自己使用的選項板內(nèi)容??梢允褂谩傲鳌边x項卡打開、重命名、保存和刪除在會話中創(chuàng)建的流?!拜敵觥边x項卡中包含由 舊M? SPSS? Modeler中的流操作生成的各類文件,如圖形和表格。您可以顯 示、保存、重命名和關(guān)閉此選項上列出的表格、圖形和報告。nnaHlEahla_to_K的直方圖Patierrt RecordsNd v.H的散點圖Drug的妗布 name的分布Table (21個
10、字質(zhì),1口條祀事) region x maincropi; claimtype : di if的直方圖tab原HCi個字班' 300條記錄) name的分布“模型”選項卡是管理器選項卡中功能最強大的選項卡。該選項卡中包含所有模型塊,這些模型塊包含針對當前會話在SPSS Modeler中生成的模型。這些模型可以直接從“模型”選項卡上瀏覽或?qū)⑵涮砑?到工作區(qū)的流中。流翱出曜DrugL'ugi窗口右側(cè)底部是 工程工具,用于創(chuàng)建和管理數(shù)據(jù)挖掘工程(與數(shù)據(jù)挖掘任務相關(guān)的文件組)。有兩種方式可查看您在 舊M? SPSS? Modeler中創(chuàng)建的工程-類視圖或CRISP-DM視圖。|依據(jù)“跨
11、行業(yè)數(shù)據(jù)挖掘過程標準”,這一業(yè)內(nèi)認可且無所屬的方法理論,“CRISP-DM選項卡提供了一種組織工程的方式。不論是有經(jīng)驗的數(shù)據(jù)挖掘人員還是新手,使用CRISP-DM工具都會使您事半功倍。y'i -U滯并的工用匚 尋事理喝巧髀1羽田信平字%-200景工示'力邦髀好比 的士吊,蜥國sH于雁 :阿“類”選項卡提供了一種在 SPSS Modeler中按類別(即,按照所創(chuàng)建對象的類別)組織您工作的方 式。此視圖在獲取數(shù)據(jù)、流、模型的詳盡目錄時十分有用。CRISP-DM 繞日【不保存的工程)第司富i雌工昌節(jié)點! 1_|已生成的模型牛莪'囹形和赧告疝顓 行個字段,2口口景記素):,0能
12、物分鴕:|_ |其他IBM? SPSS? Modeler中最常見的鼠標用法如下所示:? 單擊。使用鼠標左鍵或右鍵選擇菜單選項,打開上下文相關(guān)菜單以及訪問其他各種標準控件和選 項。單擊并按住按鍵可移動和拖動節(jié)點。? 雙擊。雙擊鼠標左鍵可將節(jié)點置于流工作區(qū)并編輯現(xiàn)有節(jié)點。?中鍵單擊。單擊鼠標中鍵并拖動光標可在流工作區(qū)中連接節(jié)點。雙擊鼠標中鍵可斷開某個節(jié)點的連接。如果沒有三鍵鼠標,可在單擊并拖動鼠標時通過按Alt鍵來模擬此功能。建模簡介模型是一組規(guī)則、公式或方程式,可以用它們根據(jù)一組輸入或變量來預測輸出。例如,一家財務機構(gòu)可 根據(jù)對過往申請人的已知信息,使用模型預測貸款申請人可能存在優(yōu)良還是不良風險
13、。能夠預測結(jié)果是預測性分析的中心目標,并且了解建模過程是使用舊M? SPSS? Modeler的關(guān)鍵。本示例使用決策樹模型,該模型使用一系列決策規(guī)則對記錄進行分類(并預測響應),例如:如果收入=中等并且卡<5則- > “優(yōu)良”本示例使用CHAID (卡方自動交互效應檢測)模型時,旨在進行常規(guī)的介紹,大部分概念會廣泛應用于SPSS Modeler中的其他建模類型。無論要了解哪種模型,均需要首先了解進入該模型的數(shù)據(jù)。此示例中的數(shù)據(jù)包含有關(guān)銀行客戶的信息 其中使用了下列字段:描述字段名字段名描述Credit_rating信用評價:0=不良,1=優(yōu)良,9=丟失值年齡Age in years
14、收入收入水平:1=低,2=中,3=高Credit_cards持有的信用卡數(shù)量:1=少于五張,2= 五張或更多教育教育程度:1=高中,2=大學Car_loans貸款的汽車數(shù)量:1=沒有或一輛,2題過兩輛銀行可維護一個包含銀行貸款客戶歷史信息,包括這些客戶是正在還貸(信用評價 =優(yōu)良)還是在拖 欠貸款(信用評價=不良)的數(shù)據(jù)庫。銀行希望使用現(xiàn)有的數(shù)據(jù)建立一個模型,允許他們預測未來貸 款申請人拖欠貸款的可能性。使用決策樹模型,您可分析兩組客戶的特征,并預測拖欠貸款的可能性。C re drt ratingAd.P f£-O.QODF TO-B62.457. #2本示例使用了名為modelin
15、gintro.str 的流,該流位于streams子文件夾下的Demos文件夾中。數(shù)據(jù)文件是tree_credit.sav 。請參閱 主題詳細信息。我們來看一下流。?從主菜單中選擇下列選項:文件 > 打開流Demos文件夾?單擊“打開”對話框的工具欄上的金色模型塊圖標,然后選擇雙擊 streams 文件夾。雙擊名為modelingintro.str 的文件構(gòu)建流要構(gòu)建流以創(chuàng)建模型,至少需要三個元素:? 一個從某些外部源讀取數(shù)據(jù)的源節(jié)點,在本示例中為舊M? SPSS? Statistics數(shù)據(jù)文件。? 一個指定字段屬性的源節(jié)點或“類型”節(jié)點,字段屬性包括測量級別(字段包含的數(shù)據(jù)類型)以及
16、每個字段在建模過程中的角色是目標還是輸入等。? 一個在運行流時生成模型塊的建模節(jié)點。 蕓一盛)ire9_credi L£av弊力Creditor stingHScR在本例中,我們使用 CHAID建模節(jié)點。CHAIR或卡方自動交互效應檢測,是一種通過使用稱作卡方統(tǒng) 計量的特定統(tǒng)計類型識別決策樹中的最優(yōu)分割來構(gòu)建決策樹的分類方法。如果在源節(jié)點中指定了測量級別,則可以去掉單獨的“類型”節(jié)點。從功能上來說,結(jié)果是一樣的。該流中還包含“表”節(jié)點和“分析”節(jié)點,創(chuàng)建模型塊并將其添加到流中后,將使用這兩個節(jié)點查看評 分結(jié)果。Statistics 文件源節(jié)點從tree_credit.sav數(shù)據(jù)文件讀
17、取SPSS Statistics 格式數(shù)據(jù),該文件安裝在 Demos文件夾中。(名為 $CLEO_DEMOS勺特殊變量用于弓|用位于當前 IBM? SPSS? Modeler安 裝下的該文件。這樣,無論當前的安裝文件夾或版本是什么,均可以確保路徑有效。)類型節(jié)點指定每個字段的 測量級別。測量級別是一種指示字段中數(shù)據(jù)類型的類別。我們的源數(shù)據(jù)文件使 用三種不同的測量級別。連續(xù)字段(例如年齡字段)包含連續(xù)的數(shù)字值,而 名義字段(例如信用評價字段)有兩個或多個不同 值,例如不良、優(yōu)良或無信用歷史。有序字段(例如收入水平字段)用于描述具有順序固定的不同值的 數(shù)據(jù),在本例中為低、中和高。AJWAI四閡Al
18、# A A A A A 目常輜輜輜珀 e、sCredt rating/ 名乂日二,Gow Age,連蜒20 00269 .tiEme level有序dgi.Low,.Humber nF _J± 茗乂Educator! "i 名火"llih set.UaIc田ns鼠j巖乂Tic i ns川云香三麗字校 *主言千使主的寧桂子這取,宵對于每個字段,類型節(jié)點還指定 角色,以指示每個字段在建模中扮演的部分。將字段信用評價的角色設置為目標,此字段指示指定的客戶是否拖欠貸款。這是 目標,或者是要預測其值的字段。對于其他字段,將角色設置為 輸入。輸入字段有時也稱為 預測變量,或建
19、模算法用其值來預測目標字段 ,直的字段。CHAID建模節(jié)點生成模型。在建模節(jié)點的“字段”選項卡中,已選中 使用預定義角色,這意味著將按在類型節(jié)點中的指定使用目標 和輸入。我們可以在此處更改字段角色,但本例中我們不做任何更改使用這些角色。?單擊“構(gòu)建選項”選項卡此處包含的選項可以用于指定要構(gòu)建的模型類型。由于我們想要一個全新的模型,因此使用默認選項構(gòu)建新模型。我們還要求它為單個標準決策樹模型,并且不包含任何增強,因此保留默認目標選項構(gòu)建單個樹生成模型來生成模型我們可以選擇啟動允許對模型進行微調(diào)的交互建模會話,本示例只使用默認設置對于此示例,我們希望保持樹的結(jié)構(gòu)簡單,因此通過增加用于父節(jié)點和子節(jié)點
20、的最小個案數(shù)限制樹 的增長。?在“構(gòu)建選項”選項卡上,從左側(cè)的導航器窗格選擇停止規(guī)則。?選擇使用絕對值 選項。?將父分支中的最小記錄數(shù) 設置為400。?將子分支中的最小記錄數(shù) 設置為200。在本例中,我們可以使用所有其他默認選項,因此單擊運行以創(chuàng)建模型。(另外,也可以右鍵單擊該節(jié)點,然后從上下文菜單中選擇運行,或選擇節(jié)點,并從“工具”菜單中選擇 運行。)瀏覽模型執(zhí)行完成后,模型塊將添加到應用程序窗口右上角的“模型”選項板中,它還會置于流工作區(qū)中,并帶有指向創(chuàng)建它的建模節(jié)點的鏈接。要查看模型的詳細信息,右鍵單擊模型塊并選擇瀏覽(在模I ijrlin-g厘及型選項板上)或編輯(在工作區(qū)上)。添加到
21、灌娥堂第名并江悻0生威注相節(jié).史 保祥便型將俱里另年獰殍幅偶型導現(xiàn)腳皿.律加理工程Delete對于CHAID模型塊,“模型”選項卡以規(guī)則集的形式顯示詳細信息,規(guī)則集實際上是可根據(jù)不同輸入字段的值將各個記錄分配給子節(jié)點的一組規(guī)則。對于每個決策樹終端節(jié)點 -意味著那些樹節(jié)點沒有進一步拆分-返回優(yōu)良或不良的預測值。對于落在該節(jié)點內(nèi)的記錄,所有個案中的預測均由模式或最常見的響應決定。2 "文件。生威/程圖 上更JU _WIS匯思通意注解fdzuLX向-田 Income J aval InMA Oood J 用士心由電l白蠟fI |模五 白之住I f dadB- imam I mi in &q
22、uot;tttdiunr 1 事毫:Ooe明Number of credit c3rds in "Less than?) yi:Good方 Go«d匕 Numberotcredittrd$m|"5orinore'1 模式 Bad|一 Ajge <:= 2079 |度式:Bk => Bad 微式 Qgdl e G»Dd在規(guī)則集的右側(cè),“模型”選項卡顯示預測變量重要性圖表,該圖表顯示評估模型時每個預測變量的相對重要性。通過這一點,我們看到收入水平在此個案中最顯著,而其他唯一顯著的因子是信用卡數(shù)量。州如¥星加要作目梅 Grdh i
23、Mdug5I 1亞模型塊中的“查看器”選項卡以樹的形式顯示相同的模型,每個決策點上都有一個節(jié)點??墒褂霉?具欄上的縮放控件放大特定節(jié)點,或縮小節(jié)點以查看更完整的樹。查看樹的上部分,第一個節(jié)點(節(jié)點 0)為我們提供數(shù)據(jù)集中所有記錄的摘要。數(shù)據(jù)集中超過40%的個案分類為不良風險。這是相當高的比例,因此讓我們看看樹是否能為我們 提供哪些因子負責的任何線索。我們可以看到第一個分割是根據(jù)收入水平。收入水平位于低類別的記錄被指定到節(jié) 點2 ,并且看到此類別包含貸款拖欠人的最高百分比不足為奇。我們可以很明顯地 了解,此類別中的客戶具有高風險。但是,此類別中的16%客戶實際上沒有拖欠,因此預測并非始終準確。沒
24、有模型 能夠預測每一個響應,但好的模型能夠根據(jù)可用數(shù)據(jù)預測對每一個記錄作出的最常見的響應。同樣,如果我們查看高收入客戶(節(jié)點 1 ),我們看到絕大部分(89%)是優(yōu)良風 險。但是在這些客戶中10位中有超過1位也會拖欠。我們能精煉自己的貸款標 準以便將此處的風險最小化嗎?注意模型如何根據(jù)持有的信用卡數(shù)量,將這些客戶分成兩個子類別(節(jié)點 4和節(jié) 點5) o對于高收入客戶,如果我們只向那些信用卡少于 5張的客戶貸款,則可 以將我們的成功率從89%提高到97%-甚至更滿意的結(jié)果。high節(jié)點1 現(xiàn)名巾L Bad 11.583 SO GMd 阻 417 阻, 總計 31.53 777T工Number e
25、tc red il crds喇戶霞二Q 口帥卡方二普5就華1但中等收入類別(節(jié)點 3)中的那些客戶是什么情況?他們更加均勻地劃分為優(yōu)良和不良評價。子類別(此情況中是節(jié)點 6和7 )仍然能幫助我們。這次,只向那些信用卡少于5張的中等收入客戶貸款,可將優(yōu)良評價的百分比從58%提高到85%,這是顯著的改進。MediumKu mber m c recfil cam sArij P *1000,中方113. df=1Less than 55 or more因此,我們了解到輸入此模型的每項記錄都將被分配到一個特定節(jié)點,并且根據(jù)該節(jié)點最常見的響 應分配優(yōu)良或不良的預測值。為各個記錄分配預測值的這一過程稱為評
26、分。通過對用于評估該模型的相同記錄進行評分,可以評估該模型執(zhí)行訓練數(shù)據(jù)(我們知道結(jié)果的數(shù)據(jù))的準確度。讓我們看看如何做到這一點。評估模型我們?yōu)g覽了模型以了解評分方式。但是,如果要評估模型的準確度,則需要對一些記錄進行評分,并將模型預測的響應與實際結(jié)果進行比較。接下來對用于評估該模型的相同記錄進行評分,以將觀 察到的響應與預測響應進行比較。 ;一事)一趟*K費Credit ratiriQ要查看分數(shù)或預測值,請將表節(jié)點添加到模型塊,然后雙擊“表”節(jié)點,并單擊運行表在名為 $R-Credit rating的字段中顯示預測分數(shù),該字段由模型創(chuàng)建。我們可以將這些值與包含實際響應的原始 信用評價字段進行比
27、較。按照慣例,在評分過程中生成的字段的名稱基于目標字段,但是要加上標準前綴,例如$R-表示預測值,$RC-表示置信度值。不同的模型類型使用不同的前綴集。置信度值 是模型自己的評估,尺度從0.0到1.0 ,表示每個預測值的精確程度。與預期的一樣,預測值與大多數(shù)(并非全部)記錄的實際響應相匹配。原因是每個 CHAID終端節(jié)點均 有混合響應。預期值與 最常見的響應相匹配,但對于該節(jié)點中的其他響應,該預期值是錯誤的。(記 住,16%的少部分低收入客戶沒有拖欠。)若要避免出現(xiàn)此情況,應繼續(xù)將樹分割為更小的分支,直到每個節(jié)點都是不含混合響應的100%純節(jié)點為止一即全部為 優(yōu)良或不良。但是,這樣的模型可能會
28、非常復雜,并且不易推廣到其他數(shù)據(jù)集。|Hun-lg0|! 3 隸 wrffiErtjCTicnCer tsn? SR uwft ratin i,pFaCroitMbnq5 QFCDlecfB Mor hsi 2。0MQ£635 ar mereCaleqeMore 2 BadlO.w口 65 or mereHqh sdiQoll More ±on 2 Bad。儂S or mereColeueXkre cr 1 Badl0G2O5 w tw曲ColeuE More 為白,2 OocdomS or niceColetje Moic:Jhcn 2 Oocd0 5G35 orCole
29、us Moic :hcn 2 OoR0 5635 ur fllCF'ohigh sdiaoi More Uisn 2 Dad0 6205 ar irnrpflHigl- srhofil Mhi f "Iiht 2 Hndl0e205 nr hieCm杷方Morp rihsn 2 杜州d00065 or iEDmcC”杷.Mnrrh曰c ? B吊d0 6205 or EEQHgb sctionlMnrr "hm 20 6205 w n(re慟 5O1Q0IMore :麗 2 Gog0635 at memeColegtiane or 1 Badnfjg5 ar mere
30、Hyh sieMdoIMore 111 ah 2 Bud gM5 ar meretLi加異Mufh th+i 2 BadoaaiD5 up對icr也曲電爐Murk! thuri 2 Bydl0A3D5 flfW弊More 北白 r> a Gnad0 6635 orMor« uhm 2 0gu25。門 mr 81?湃Mors 密才i a dorQ犯手要查看具體有多少預測值正確,我們可通讀表格,并計算預測字段$R-Credit rating的值匹配信用評價的值的記錄數(shù)量。幸運的是,這里有更簡單的方式-我們可使用分析節(jié)點,它自動進行此項操作。?將模型塊連接到分析節(jié)點。?雙擊“分析”節(jié)
31、點,然后單擊 運行。Zrediirat.ngACredit ratingTEiH燈新分析表明,2464個記錄中有1899個記錄(超過77%)的模型預測值與實際響應相匹配。此結(jié)果受到評分的記錄和用于評估模型的記錄相同的事實的限制。在真實情況中,可使用分區(qū)節(jié)點將數(shù) 據(jù)分割為培訓和評估的單獨示例。通過使用一個樣本分區(qū)生成模型并使用另一個樣本對模型進行檢驗,您會得到該模型推廣到其他數(shù)據(jù)集 的情況。通常分析節(jié)點,可以針對已知道其實際結(jié)果的記錄來檢驗模型。下一階段介紹如何使用模型對我們不知 道結(jié)果的記錄進行評分。例如,這可能包括當前不是銀行客戶的人員,但他們是促銷郵寄的潛在目標。對記錄評分之前,我們對用于
32、評估模型的相同記錄進行了評分,以評價模型準確程度。現(xiàn)在,我們要查看如何對和 用于創(chuàng)建模型不同的記錄集進行評分。這是使用目標字段進行建模的目標:研究已知道其結(jié)果的記錄, 以標識您可以從中預測未知結(jié)果的模式??梢愿耂tatistics文件源節(jié)點,使它指向其他數(shù)據(jù)文件,也可以添加一個新的源節(jié)點,從它讀取要評分的數(shù)據(jù)。無論采用哪種方式,新數(shù)據(jù)集包含的輸入字段必須與模型( 年齡、收入水平、教育等)所 使用的相同,但不包含目標字段 信用評價。另外,也可以將模型塊添加到包含預期的輸入字段的任何流中。無論是讀取文件還是數(shù)據(jù)庫,只要字段 名和類型與模型使用的相匹配,源類型都無關(guān)緊要。也可以將模型塊保存為單獨的
33、文件、將模型導出為 PMML格式以用于其他支持此格式的應用程序,或?qū)?模型存儲到 舊M? SPSS? Collaboration and Deployment Services存儲庫中,這樣可以在企業(yè)范圍對模型進行部署、評分和管理。無論使用何種基礎結(jié)構(gòu),模型自身都按相同的方式工作。分析摘要本示例演示創(chuàng)建、評估模型以及對模型評分的基本步驟。?建模節(jié)點通過研究已知道其結(jié)果的記錄來評估模型,并創(chuàng)建模型塊。這有時稱為訓練模型。?可將模型塊添加到包含預期字段的任何流中,以對記錄進行評分。通過對已知道其結(jié)果的記錄(如 現(xiàn)有客戶)進行評分,可以評估模型的運行情況。?如果您對模型的運行情況感到滿意,則可以對新
34、數(shù)據(jù)(如準客戶)進行評分,以預測他們的響應。?用于訓練或評估模型的數(shù)據(jù)可以稱為分析數(shù)據(jù)或歷史數(shù)據(jù);評分數(shù)據(jù)也可以稱為操作數(shù)據(jù)。對客戶響應建模(自動分類器)通過“自動分類器”節(jié)點,您可以為標志(例如某個客戶是否很可能拖欠貸款或者是否會對特定的報價 做出響應)或名義(集合)目標自動創(chuàng)建和比較大量的不同模型。在本例中,我們將查找標志(是或 否)結(jié)果。在一個相對簡單的流中,節(jié)點生成一組候選模型并對它們進行排序,選擇最有效的模型,然后將它們合并為一個匯總(整體)模型。此方法將自動化操作的方便性與組合多個模型的優(yōu)勢融為一 體,從而產(chǎn)生任何單一模型所不能帶來的更為準確的預測。本示例以某虛構(gòu)的公司為例,該公司
35、希望通過為每個客戶提供最適用的報價以獲取更豐厚的收益。本示例使用安裝在streams目錄下Demo文件夾中的流pm_binaryclassifier.str。所使用的數(shù)據(jù)文件為 pm_customer_train1.sav 。response分析文件pm_customer_train1.sav的歷史數(shù)據(jù)可跟蹤過去的營銷活動中為特定客戶提供的報價,由campaign 字段的值表示。Premium account 活動中的記錄數(shù)最大。campaign字段的值在數(shù)據(jù)中實際編碼為整數(shù)(例如 2 = Premium account )。稍后,您可為這些值 定義標簽以用于給出更有意義的輸出。此文件還包含一
36、個 響應字段,該字段表明所提供的報價是否被接受(0 = 否,1 = 是)。這將是您希 望預測的目標字段或值。此外,其中還包括若干包含每位客戶的相關(guān)人口統(tǒng)計和財務信息的字段。這些字段可用于構(gòu)建或“訓練” 一個可基于類似收入、年齡或每月交易次數(shù)等特征預測單個用戶或用戶群響應率的模型。構(gòu)建流? 添加指向pm_customer_train1.sav 的Statistics文件源節(jié)點,該文件位于 舊M? SPSS? Modeler安裝程序的 Demos文件類中。(您可以在文件路徑中指定 $CLEO_DEMOS/作為引用此文件夾的快捷方式。請注意,路徑中必須使用正斜線而非反斜線,如上文所示。)添加類型節(jié)點
37、,然后選擇 響應作為目標字段(“角色”為 目標)。將此字段的“測量”設置為 標志 Wp。B SS1回五13類理格式注解、 E1T >讀取值洞腳底清除所有值)測量11 缺失 檢查 備色O customer _id 6 campa)qd7J169931 Z44response g 標志1jTiresponse .於 連演POOB-CM.purcfi3se 夕連喊 purchase.由連減 producijd 的返媒WPO06-D4. 1 B3.421 無無無標 目竟無Q Rcwid口 E 口1.19599rin ori取消皆看當前字段 0疊雨未使用的年期!諛疊反用對于以下字段,應將角色設置為
38、 無:customer_id 、 campaign、 response_date、 purchase > purchase_date、product_id、Rowid和 X_randon%當您構(gòu)建模型時,將忽略這些字段。?單擊類型節(jié)點的 讀取值按鈕以確保值獲得實例化。從前文看出,我們的源數(shù)據(jù)包含有關(guān)四項不同活動的信息,每個活動針對不同類型的客戶帳戶。這些活 動在數(shù)據(jù)中編碼為整數(shù),以方便記住每個整數(shù)所代表的帳戶類型,讓我們?yōu)槊恳粋€都定義標簽。?在活動字段的行上,單擊 值列中的條目。?從下拉列表選擇指定。 Wp。類理恪式注解k讀取值 消除值 涌除所有他IAA3O resiaonse封 res
39、 pons e_.O purcfi3sepurchase.RcwidprotiucijdO customer _id 0 連茨 : campaigD 名義11斤“589國 當前波“ v讀取V讀取+>傳速>*直前區(qū)指定.域美 檢查無無無無無無無Li Jyosaj迤仄標 7 備無輸目竟無無無天福 0、©0006)0、皆看當前字段 0疊雨未使用的年期!諛疊取消應用在標簽列中,鍵入 活動字段四個值中每個值所顯示的標簽?單擊確定?,F(xiàn)在您可在輸出窗口中顯示標簽而非整數(shù)了。?將表節(jié)點附加到類型節(jié)點。?打開“表”節(jié)點,然后單擊 運行。?在輸出窗口上,單擊 顯示字段和值標簽 工具欄按鈕以顯示標簽?單擊確定關(guān)閉輸出窗口。盡管數(shù)據(jù)包含有關(guān)四項不同活動的信息,但每一次的分析應集中關(guān)注其中一項活動。由于 Premium account活動(在數(shù)據(jù)中編碼為 campaign=2)中的記錄數(shù)最大,因此可以使用選擇節(jié)點實現(xiàn)僅在流 中包含這些記錄。生成和比較模型附加一個自動分類器節(jié)點,然后選擇 總體精確性作為對模型進行排序的度量。?將要使用的模型數(shù)設置為3 o這意味著在執(zhí)行節(jié)點時將構(gòu)建三個最佳模型。在“專家”選項卡上,可從最多 11種不同模型算法中進行選擇。?取消選擇判別式和SVM模型類型。(這些模型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度企業(yè)知識產(chǎn)權(quán)保護顧問協(xié)議
- 二零二五年度危險品儲存與財產(chǎn)保管專項協(xié)議
- 二零二五年度酒店與旅游OTA平臺深度合作協(xié)議書
- 二零二五年度2025年知識產(chǎn)權(quán)侵權(quán)監(jiān)控代理服務協(xié)議
- 二零二五年度西安市勞動合同制社區(qū)服務人員服務協(xié)議
- 2025年度汽車銷售區(qū)域代理合同糾紛起訴狀
- 二零二五年度環(huán)保設備制造股權(quán)投資與回購合同
- 2025年度股權(quán)變更及合資公司設立協(xié)議
- 2025年度餐飲業(yè)智能廚房設備售后服務合同
- 2025年度海砂資源開采與銷售合作協(xié)議范本
- 分居聲明告知書范本
- 新概念英語第一冊25-50課測試卷
- DL T774-2015規(guī)程試題庫(含答案)
- 采購合同采購合同采購合同
- 云南省律師服務收費管理辦法及標準
- 華為C語言通用編程規(guī)范
- 搞笑詩朗誦《生活》4人
- 團建活動滿意度調(diào)查問卷
- 數(shù)獨題目難度系數(shù)3級共100題后附參考答案
- 齊魯醫(yī)學數(shù)字疼痛評分表
- GB∕T 7588.1-2020 電梯制造與安裝安全規(guī)范 第1部分:乘客電梯和載貨電梯
評論
0/150
提交評論