數(shù)據(jù)挖掘-分類(lèi)綜合案例hmeq_第1頁(yè)
數(shù)據(jù)挖掘-分類(lèi)綜合案例hmeq_第2頁(yè)
數(shù)據(jù)挖掘-分類(lèi)綜合案例hmeq_第3頁(yè)
數(shù)據(jù)挖掘-分類(lèi)綜合案例hmeq_第4頁(yè)
數(shù)據(jù)挖掘-分類(lèi)綜合案例hmeq_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

分類(lèi)綜合案該模型將基于近期申請(qǐng)人的數(shù)據(jù),這些申請(qǐng)通過(guò)當(dāng)前承保的處理給予申請(qǐng)人信用。模型HMEQ數(shù)據(jù)集包含了5960筆近期住房的基本信息和表現(xiàn)情況目標(biāo)變(BAD)是一個(gè)二元變量取值為1表示申請(qǐng)人最終違約或嚴(yán)重拖欠這些不利的結(jié)果發(fā)生在1189(20%(一) 打開(kāi)SASEnterpriseMiner(以下簡(jiǎn)稱EM),創(chuàng)建一個(gè)新的項(xiàng)目homeloan,并將該項(xiàng)目存放 SAS編輯器中執(zhí)行以下命令新建數(shù)據(jù)集HMEQ:Datadata.hmeq;SetSASEMinputdatasourceinputdatasource或點(diǎn)擊右鍵選擇openSelect選擇上述新建數(shù)據(jù)集data..HMEQ。13個(gè)變量(列2000個(gè)。EM使用元數(shù)據(jù)是為了對(duì)如何使用每一個(gè)變量做初步估計(jì)。在默認(rèn)的情況下,EM2000個(gè)隨機(jī)樣本并用樣本信modelrolemeasurementlevel.EM同時(shí)也根據(jù)這一樣本打開(kāi)顯示窗口中的Variable,我們看到了13個(gè)變量的情況。觀察Name和Type(numBADBAD變量是一個(gè)數(shù)值型變量,但由于在元數(shù)據(jù)樣BADEM將其視為一個(gè)二元變量(binary)。(interval這三個(gè)數(shù)值型變量在元數(shù)據(jù)樣本中均擁有超過(guò)10個(gè)不同的數(shù)值。所有區(qū)間變量的Modelroleinput。變量REASON和JOB都是字符型變量而度量方式(measurement)卻不同。變量REASONJOB(nominalModelroleinput。(ordinal(argetvariable操作過(guò):BAD的modelrole,在彈出的菜單中選擇SetModelRole,再在彈出target.:BAD的Name列,在彈出的菜單中選擇Viewdistribution。變量BAD的狀圖如下圖所示。之后可以用鼠標(biāo)左鍵單擊ViewInfo圖標(biāo)(,再用左鍵單擊每個(gè)柱(BAD=1source查看描述性統(tǒng)計(jì)數(shù)據(jù)描述性統(tǒng)計(jì)數(shù)據(jù)源于元數(shù)據(jù)樣本首先選擇IntervalVariables。查看每個(gè)變量的分類(lèi)數(shù)量,缺失數(shù)據(jù)百分比和排列次序。變量BAD(descending(ascendingDatapartition窗口左上方顯示了三種不同的分割方法。默認(rèn)情況下的方法為簡(jiǎn)單隨機(jī)抽簡(jiǎn)單隨機(jī)抽樣法(SimpleRandomSampling)為默認(rèn)設(shè)置,數(shù)據(jù)集中每一個(gè)觀察值被抽SamplingDefined,選擇你可以在aron的下角指定一個(gè)隨開(kāi)始抽樣過(guò)程。電腦序的隨機(jī)化常始于某類(lèi)型的果在不的流程使用同數(shù)據(jù)集相同的ee=0除,此的右側(cè)顯示了將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集檢驗(yàn)數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的比例但是無(wú)建立一個(gè)默認(rèn)設(shè)置的回歸模型。在datapartition節(jié)點(diǎn)之后添加并連接一個(gè)Regression節(jié)點(diǎn)。Estimates以條形圖方式展示了各變量的effectT-scoresEstimates(參數(shù)估計(jì)和所有的建模節(jié)點(diǎn)均包含一個(gè)ModelManagerassessmentchartsreports,功能和assessment節(jié)點(diǎn)一樣。但是在modelmanager中我們只能查看本模型,而assessment節(jié)點(diǎn)卻可以用來(lái)比較各個(gè)建模節(jié)點(diǎn)所產(chǎn)生的模型。右鍵單擊回歸節(jié)點(diǎn)并選擇ModelManager選項(xiàng)。在彈出的窗口中選擇Tools,再選擇LiftChart,或者通過(guò)點(diǎn)擊圖標(biāo)來(lái)實(shí)現(xiàn)。彈出liftchart為一個(gè)cumulativeResponse如果這個(gè)回歸模型是可用的,那么拖欠的那一部分客戶將會(huì)在靠前的十分位組上有在DataPartition節(jié)點(diǎn)后連接一個(gè)Replacement節(jié)點(diǎn),再添加一個(gè)Regression節(jié)點(diǎn)和一個(gè)出的窗口中選擇Tools,再選擇LiftChart,或者通過(guò)點(diǎn)擊圖標(biāo)來(lái)實(shí)現(xiàn)。用鼠標(biāo)左鍵單首先,對(duì)于這個(gè)案例而言,theResponseofinterest為拖欠,因此,respondents就(BAD=1(Descending如果這個(gè)模型是可用的,那么相對(duì)靠前的有序組(拖欠的客戶的預(yù)測(cè)概率相對(duì)高)Non-Cumulative來(lái)查看每一我們也可以通過(guò)選擇LiftValue選項(xiàng)查看各個(gè)有序組的lift值。實(shí)際上,CumulativeResponseCumulativeLiftValue的圖表形狀完全一致,只是刻度不一Non-cumulativeResponseNon-cumulativeLiftValue的圖表也是一致的。Responserate21%responserate21%即可得到lift值。%CapturedResponse代表了某一有序組中包含的拖欠的客戶數(shù)量占全部客戶的百分比。如果我們隨機(jī)抽取10%的客戶,那么將有10%的拖欠的客戶在這一抽樣中被抽線在Cumulative%CapturedResponse圖表中為45°Non-cumulative%CapturedResponse圖表中為一條水平直線。下面計(jì)算lift值。20%的客戶中,拖欠的客戶數(shù)量占拖欠的全部客戶數(shù)量的50%,用50%除以20%即得到相對(duì)lift2.5LiftValue圖表顯示的數(shù)值一致。隨著選取的客戶數(shù)量逐漸增多,lift值lift值的那個(gè)模型相對(duì)較好。但是要注意的是,一個(gè)模型在一個(gè)十分位距上的表現(xiàn)比另一個(gè)LiftassessmentView,ModelResults來(lái)查看此Replacement節(jié)點(diǎn)之后,變量DELINQ,DEROG,NINQ和CLAGE成為四個(gè)最重要的預(yù)測(cè)變量(predictorvariablesDataPartitionInsightInsightrunYes查看結(jié)果。結(jié)果的一部Insight節(jié)點(diǎn)并返回到工作流設(shè)計(jì)區(qū)。右鍵單擊Insight節(jié)點(diǎn)選擇open選項(xiàng)。Data被打開(kāi)。Description表明被選用的數(shù)據(jù)集為訓(xùn)練數(shù)據(jù)集,此訓(xùn)練數(shù)據(jù)集的名稱為EMDATA.TRN8YJKH(TRN8YJKHTRN,節(jié)點(diǎn)產(chǎn)生的是一個(gè)樣本大小為2000隨機(jī)為12345的源于訓(xùn)練數(shù)據(jù)集的隨機(jī)抽樣樣本。右側(cè)的Properties2384個(gè)觀察值和13個(gè)變量。2384HMEQ596040%(在DataPartition節(jié)點(diǎn)中已InsightSettingSelectDataPartition前面的+SAS_DATA_SETS前面的+號(hào),得到如下圖示:(TRNYJH(AL6W7UWOK確認(rèn)修改。本例中不做修改。我們也可以使用整個(gè)訓(xùn)練數(shù)據(jù)集來(lái)運(yùn)行InsightInsight節(jié)點(diǎn)使用適當(dāng)大小的樣本時(shí)它就足能很好的數(shù)據(jù)而及其大的樣本是沒(méi)有必要的在InsightSettings窗口中選擇右下角的EntiredatasetYes保存修改。InsightYesEMDATA.TRN8YJKH彈出窗口。接下來(lái)查看各變量的分布情況選擇最上方菜單的yze選項(xiàng)在彈出菜單中選擇Distribution(Y)。選出窗口中左側(cè)的所有變量,再點(diǎn)擊Y,最后選擇OK。以上操作使我們得到了各個(gè)變YOJ變量DEROG為0的觀察值Transform節(jié)點(diǎn),并從DataPartitionTransformVariableopen,或直接雙擊此節(jié)點(diǎn)。彈出的窗口(如下圖)10個(gè)區(qū)間變量的描述性統(tǒng)計(jì)數(shù)據(jù),這些數(shù)據(jù)是從元樣本中計(jì)算TransformVariable節(jié)點(diǎn)可以通過(guò)標(biāo)準(zhǔn)轉(zhuǎn)換立即對(duì)各區(qū)間變量進(jìn)行變換,也可以創(chuàng)建新Keep一列允許被修改。transformationYOJTransformationlog。No00取對(duì)數(shù)沒(méi)有定義。接下來(lái)查看新變量的分布情況:DELINQDEROG 在彈出框中選擇右側(cè)的Define框的下方輸入公式DEROG>0對(duì)于一個(gè)觀察值而言,如果DEROG>0,則INDEROG=1;如果DEROG<0,則INDEROG=0。如果DEROG是缺失值,則INDEROG=0。點(diǎn)擊OK關(guān)閉此框。對(duì)變量DELINQ做類(lèi)似的操作,結(jié)果如下圖。DEROGDELINQINDEROGINDELINQ,原變(Keep=esNINQNINQ首先,創(chuàng)建一個(gè)包含三組的分組變量,鼠標(biāo)NINQ一行,選擇Transform,再Bin1Value=0.5(注意此變量為計(jì)數(shù)變量,輸入任何01之間的數(shù)值與0.5的結(jié)果一樣)Bin2Value=1.5。即得到如下圖示。關(guān)閉此框,保存修改,返回到TransformVariable框。如下圖所示,新變量查看新變量NINQ_RUA10%的缺失值比率。關(guān)閉所有框并返回到數(shù)據(jù)流設(shè)計(jì)區(qū)。DataReplacementtraining,選中Entiredata打開(kāi)Replacement節(jié)點(diǎn)選擇Data確認(rèn)在inputs子subtraining,選中Entiredata然后選擇Defaults,選中第三行的Createimputedindicatorvariables,這一選項(xiàng)將會(huì)imputation前來(lái)識(shí)別那些擁有缺失值的變量。在這一框中選擇ImputationMethods子。默認(rèn)情況下,區(qū)間變量的(mean(classvariable)imputation方法為取最高頻率法(mostfrequentvalue(count),即缺失值EMtreeimputation方法,即用決策樹(shù)方法估計(jì)替換值。在兩個(gè)Methodtreeimputation。(StatusYOJ也不在此表內(nèi)。Numericvariables0,在CharactervariablesUnknowndefaultconstant作為再更改變量DELINQimputationImputationMethod列,選擇SelectMethod,再選擇setvalue,在彈出的框中輸入替換值0。DEROGimputationImputationMethodDEROGDELINQimputation方法,但是它們子中設(shè)定的值變量DEROG的defaultconstant將被改變而變量DELINQ不受影響。打開(kāi)ClassVariables,發(fā)現(xiàn)變量BAD的狀態(tài)為don’tuse,說(shuō)明此變量的缺失值將REASONImputationMethodSelectMethoddefaultconstantUnknown。OK更改變量JOBImputationMethodSelectMethod,再選擇setvalue。在彈出的框中選擇DataValue一欄,并在下拉菜單中選擇OK查看OutputReplacement(四)型建立與評(píng)ReplacementAssessmentRegressionTools,再選擇InteractionBuilder默認(rèn)情況下,回歸節(jié)點(diǎn)使用所有的effects來(lái)建模。這里我們保留默認(rèn)設(shè)置,關(guān)閉框。量默認(rèn)情況下節(jié)點(diǎn)不執(zhí)行變量選擇即所有的effects都被包含在最終的模型中。MethodStepwise。打開(kāi)此框右下角的Criteria子,撤銷(xiāo)選擇左上角的Defaults,將左下角的Stepwisestopcriteria一欄修改為14(即在逐步回歸停止之前,最多進(jìn)行14步),將右側(cè)的StaySignificantLevel0.025。 AssessmentAssessmentRegression節(jié)點(diǎn),因此顯示的結(jié)果中有兩行,NameUntitledUntitled將DefReg。同時(shí)選中這兩行,選擇ToolsLiftChart。想要查看每一條線屬于哪一個(gè)模型,選擇FormatModelName。我們看到與右下角對(duì)應(yīng)的兩條曲線基本一致。我們知道,在創(chuàng)建默認(rèn)設(shè)置的回歸模型時(shí),effectselectionmethodnone。也就是說(shuō),effectseffectsStepReg中呢?關(guān)LiftChart窗口,返回到AssessmentToolStepReg這一行,之后在主菜單中選擇View再選擇ModelResults。彈出窗口的Output顯示了逐步logistic回歸過(guò)程的每一13WaldChi-Squaretestcriterion刪除了最后一個(gè)effect(變量VALUEVALUEMORTDUE的所有變量。關(guān)閉所有Tree節(jié)點(diǎn)與DatapartitionReplacementTree節(jié)點(diǎn)能夠直接對(duì)缺失值進(jìn)行處理而不需要對(duì)缺失值進(jìn)行替換。我們也沒(méi)有將Tree節(jié)點(diǎn)與Transformation節(jié)點(diǎn)相連,是因?yàn)門(mén)ransformation節(jié)點(diǎn)對(duì)區(qū)間變量的單調(diào)變換(monotonicbins,相接下來(lái)要查看LiftChart。默認(rèn)情況下,將要生成的LiftChart是建立在檢驗(yàn)數(shù)據(jù)oolalidation如果你看不到ModelName中所有的模型名稱,你可以將窗口最大化,或者通過(guò)使用圖標(biāo)和圖標(biāo)修改圖表的位置和大小。additionaltermsinteractionseffectspolynomialeffects。第二,決策樹(shù)模型能夠?qū)θ盇ll自動(dòng)彈出,這一事實(shí)上是Summary,TreeRing,TableAll下方的Assessmenttable和assessmentplot顯示了所有子樹(shù)對(duì)訓(xùn)練數(shù)據(jù)集和檢驗(yàn)數(shù)據(jù)集的評(píng)價(jià)效果,這些評(píng)價(jià)揭示了一棵樹(shù)究竟要多大才能夠足夠擬合,overfitting的問(wèn)overfitting的問(wèn)題在訓(xùn)練數(shù)據(jù)集中就不存在。默認(rèn)地,對(duì)檢驗(yàn)數(shù)據(jù)集擁有最高評(píng)價(jià)值和最少613個(gè)葉子的子樹(shù),它們的檢驗(yàn)數(shù)據(jù)集misclassificationrate(0.1214)6片葉子的子樹(shù)成為最佳的選擇。All左上方的Summary圖表總結(jié)了分類(lèi)目表變量每一級(jí)的預(yù)測(cè)情況對(duì)于已經(jīng)選定的分類(lèi);在檢驗(yàn)數(shù)據(jù)集中,大約14%的拖欠者和74%的非違約客戶被正確的分類(lèi)。點(diǎn)擊主菜單的Tools,再選則DefineColors。在Selectatargetvalue表中選擇0。選擇0作為目 這個(gè)默認(rèn)設(shè)置下的數(shù)為二叉樹(shù),我們也可以通過(guò)修改節(jié)點(diǎn)最大分支數(shù)(Basicumnumberofbranchesfromanode)在修改的Replacement節(jié)點(diǎn)后添加并連接一個(gè)NeuralNetwork節(jié)點(diǎn)并與MLP默認(rèn)地,彈出窗口的Tables顯示了擬合模型的各種統(tǒng)計(jì)數(shù)據(jù)errorAssessmentDefNN。選中這四個(gè)模LiftChart進(jìn)行比較。indicators能夠使回歸模型和神經(jīng)網(wǎng)絡(luò)模型區(qū)分那些本來(lái)就存在缺失值的觀察值我們已經(jīng)在之前的操作中在修改的Replacement節(jié)點(diǎn)內(nèi)選擇了添加這些indicators?,F(xiàn)在我們來(lái)打開(kāi)修改的回歸模型(StepReg)來(lái)查看這些indicators。在Variables顯indicators。Assessment(StepReg)LiftChartindicator對(duì)所產(chǎn)生的影響。(五)使用模型對(duì)新數(shù)據(jù)進(jìn)行分ScoringCodeScore節(jié)點(diǎn)能夠被用來(lái)評(píng)價(jià)保存以及從不同的模型中將scoringcode在本例中,score。打開(kāi)Score節(jié)點(diǎn),Settings中共有四個(gè)選項(xiàng)②Applytrainingdatascorecodetoscoredataset——③Accumulatedatasetsbytype——和輸出先前節(jié)點(diǎn)產(chǎn)生的數(shù)據(jù)集。若果在含有Groupprocessing節(jié)點(diǎn)的路徑中使用這一選項(xiàng),則輸出的數(shù)據(jù)集都是相連的。④Mergedatasetsbytype——合并先前節(jié)點(diǎn)產(chǎn)生的數(shù)據(jù)集。例如,我們可以使用這一選項(xiàng)將ScoreCode顯示了每接到Score節(jié)點(diǎn)的模型節(jié)點(diǎn)的評(píng)分編碼。因?yàn)檫@里的codescoringcode被修改,可以將其保存。右鍵單擊左側(cè)列出的回歸模型,在彈出框中選擇Save。在新彈出的框中將這codeMyregressioncodeOK保存。Export,輸入保存名稱和地址進(jìn)行保存。ScoringusingBASESASbaseSASscoringcodebaseSASSASEM對(duì)SAS SAMPSIO內(nèi)的DMAHMEQ數(shù)據(jù)集進(jìn)行評(píng)分。這一數(shù)據(jù)集包含所有對(duì)模型的WindowEditorFileOpenProgramcode.sasSAS的程序編輯器中,如下所示:數(shù)據(jù)集_PREDICT_SCORE代表了將要被評(píng)分的數(shù)據(jù)⑷對(duì)SAS館中SAMPSIO內(nèi)的DMAHMEQ數(shù)據(jù)集進(jìn)行

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論