




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2025/3/4數(shù)據(jù)挖掘原理與SPSSClementine應(yīng)用寶典元昌安主編鄧松李文敬劉海濤編著電子工業(yè)出版社2025/3/42
2025/3/43本章包括:數(shù)據(jù)挖掘項目實施步驟123數(shù)據(jù)挖掘項目周期單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容建立項目和報告處理缺失值導(dǎo)入和導(dǎo)出PMML模型3452025/3/4
23.1數(shù)據(jù)挖掘項目實施步驟
23.1.1一般實施步驟
一般而言,數(shù)據(jù)挖掘項目要經(jīng)歷的過程包括:問題理解和提出、
數(shù)據(jù)準備、數(shù)據(jù)整理
、建立模型、評價和解釋等一系列任務(wù),其流程如圖23-1所示。2025/3/423.1.2企業(yè)解決方案23.1.2.1SEMMA模式2025/3/4
23.1.2.2SPSS-5A模型
2025/3/4723.1.3標準過程模型
商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準備建立模型模型評估模型發(fā)布2025/3/423.2數(shù)據(jù)挖掘項目周期2025/3/423.3建立項目和報告23.3.1項目概述表面上,Clementine項目只是一種組織輸出的簡單方式,但實際上它能做更多的工作,主要包括以下工作:(1)注釋項目文件中的每個對象。(2)使用CRISP-DM方法指導(dǎo)數(shù)據(jù)挖掘工作。項目還包含CRISP-DM幫助系統(tǒng),該系統(tǒng)針對使用CRISP-DM進行的數(shù)據(jù)挖掘提供詳細信息以及現(xiàn)實示例。(3)將非Clementine項目添加到Clementine項目,如用于展現(xiàn)數(shù)據(jù)挖掘目標的PowerPoint幻燈片或與計劃使用的算法相關(guān)的文檔等。(4)根據(jù)注解生成全面更新報告和簡單更新報告。為了便于在局域網(wǎng)上發(fā)布,可以用HTML的形式生成這些報告。2025/3/423.3.1.1CRISP-DM視圖2025/3/423.3.1.2類視圖2025/3/4
23.3.2建立項目
23.3.2.1新建項目在Clementine窗口中新建項目非常簡單??梢詮臉?gòu)建新項目開始(如果沒有項目打開),也可以關(guān)閉現(xiàn)有項目并重新開始。從流工作區(qū)菜單中,選擇“文件”→“工程”→“新建工程...”命令。2025/3/4
23.3.2.2添加到項目
創(chuàng)建或打開項目后,便可以使用多種方法來添加對象,如數(shù)據(jù)流、節(jié)點和報告等。(1)用管理器添加對象使用Clementine窗口右上角的管理器,可以添加流或輸出。從其中一個管理器選項卡中選擇一個對象(如表或流)。右鍵單擊,然后選擇“添加到工程”命令。如果以前保存過該對象,則會自動將它添加到適當?shù)膶ο笪募A(在類視圖中)或默認的階段文件夾(在CRISP-DM視圖中)?;蛘?,可以將對象從管理器拖放到項目工作區(qū)中。將項目添加到項目工程中,如圖23-7從項目管理器中加入項目項到工程中所示。2025/3/4(2)從工作區(qū)添加節(jié)點可以使用“保存”對話框從流工作區(qū)添加單個節(jié)點。在工作區(qū)中選擇一個節(jié)點。單擊右鍵,然后選擇“保存節(jié)點”命令;或者,從菜單中選擇“編輯”→“節(jié)點”→“保存節(jié)點...”命令。在“保存”對話框中,選中“將文件添加到工程”命令。為節(jié)點創(chuàng)建名稱,然后單擊“保存”命令。從流工作區(qū)中加入節(jié)點的主要操作對話框如圖23-8從流工作區(qū)中加入節(jié)點所示,這樣會保存文件并將其添加到項目中,同時節(jié)點會被添加到類視圖中的Nodes文件夾以及CRISP-DM視圖中的默認階段文件夾。2025/3/4(3)添加外部文件將外部文件添加到項目的一般步驟如下:Step1.將文件從桌面上直接拖到項目中;或右鍵單擊CRISP-DM視圖或類視圖中的目標文件夾。Step2.從菜單中,選擇“添加到文件夾”命令。Step3.在對話框中選擇一個文件,然后單擊“打開”命令。這將會在Clementine項目內(nèi)添加對所選對象的引用。2025/3/4
23.3.2.3設(shè)置項目屬性
可以使用項目屬性對話框來自定義項目的內(nèi)容和文檔。要訪問項目屬性,一般執(zhí)行以下操作:
Step1.右鍵單擊項目工具中的根文件夾,然后選擇“工程屬性”命令;或者右鍵單擊項目工具中的非根文件夾,然后選擇“工程”→“工程屬性”命令。工程選項卡對話框如圖23-9工程選項卡對話框所示。
Step2.單擊“工程”選項卡以指定項目的相關(guān)信息。
2025/3/4
在工程選項卡中包含下列信息,如圖23-9工程選項卡對話框所示。創(chuàng)建時間:顯示項目的創(chuàng)建時間(此項內(nèi)容不可編輯)。摘要:可以輸入將在項目報告中顯示的數(shù)據(jù)挖掘項目的摘要。內(nèi)容:列出項目文件引用的組成文件的類型和數(shù)量(此項內(nèi)容不可編輯)。將未保存的對象保另存為單選項:指定是應(yīng)將未保存的對象保存到本地文件系統(tǒng)還是存儲在PredictiveEnterpriseRepository中。載入項目時更新對象引用復(fù)選框:選中此選項可更新項目對其組成文件的引用。2025/3/4
23.3.2.4注解項目
項目工具提供了多種方式來注解數(shù)據(jù)挖掘工作。項目級注解常用于跟蹤宏觀目標和決策,而文件夾或節(jié)點注解提供其他詳細信息?!白⒔狻边x項卡提供了足夠空間記錄項目級詳細信息,比如具有不可恢復(fù)丟失數(shù)據(jù)的數(shù)據(jù)排除、數(shù)據(jù)探索過程中形成的可能假設(shè)等。2025/3/423.3.2.5對象屬性可以查看對象屬性并選擇是否在項目報告中納入單個對象。要訪問對象屬性,需要執(zhí)行以下操作:Step1.右鍵單擊項目窗口中的對象。Step2.從菜單中,選擇“對象屬性”命令。對象屬性的設(shè)置,如圖23-12對象屬性對話框所示。
2025/3/420
23.3.2.6關(guān)閉項目
關(guān)閉項目文件的操作步驟一般如下:Step1.從“文件”菜單中,選擇關(guān)閉項目。Step2.如果系統(tǒng)詢問是關(guān)閉所有與項目關(guān)聯(lián)的文件還是讓其保持打開,請單擊“保持打開”命令,將關(guān)閉工程文件(.cpj)本身而讓所有關(guān)聯(lián)文件(如流、節(jié)點或圖形等)保持打開。
2025/3/4
23.3.3建立報告
項目最有用的一項功能是能夠根據(jù)項目項和注解生成報告??梢灾苯由扇舾煞N文件類型的報告,也可以直接輸出到屏幕窗口以便立即查看。從輸出窗口中,可以打印、保存或查看Web瀏覽器中的報告。還可以將保存的報告分發(fā)給組織中的其他人。2025/3/4
23.3.3.1設(shè)置報告選項
2025/3/4
23.3.3.2生成報告
2025/3/423.3.3.2保存和輸出報告在屏幕上生成的報告顯示在新輸出窗口中,此報告中包括的所有圖形都會顯示為內(nèi)嵌圖像。保存報告的一般步驟如下:Step1.從“文件”菜單中,選擇“保存”命令。Step2.指定文件名。導(dǎo)出報告的一般步驟如下:Step1.從“文件”菜單中,選擇導(dǎo)出以及要導(dǎo)出為的文件類型。Step2.指定文件名??梢詫蟾鎸?dǎo)出為如下類型的文件:HTML文本MicrosoftWordMicrosoftExcelMicrosoftPowerPoint2025/3/4
23.4處理缺失值
23.4.1指定缺失值用戶可以用類型節(jié)點或者來源節(jié)點的類型選項卡來指定某個特定的值為缺失值,也可以決定是否把系統(tǒng)的缺失值或空白看作空格。在“缺失”欄上,從下拉菜單中選擇“指定…”來打開一個對話框,然后確定缺失值選項。如圖23-16確定連續(xù)變量的缺失值所示。2025/3/4圖23-16確定連續(xù)變量的缺失值2025/3/4
23.4.2處理缺失值
用戶應(yīng)根據(jù)所從事的專業(yè)領(lǐng)域知識來確定如何處理缺失值。為了減少訓(xùn)練時間以及提高精度,可能需要除去數(shù)據(jù)集中的空值。此外,空值的出現(xiàn)還可能會帶來新的業(yè)務(wù)機會或其他靈感。在Clementine中有許多技巧來處理缺失值,可以根據(jù)數(shù)據(jù)的以下特征來選擇最佳方法:數(shù)據(jù)集的大小包含空值的字段數(shù)缺失信息量一旦分析了上述因素,就可以選擇下述兩種方法來處理:忽略帶有缺失值的字段或記錄可以使用各種方法歸因、替換或強制賦值缺失值2025/3/4
23.4.2.1處理帶缺失值的記錄
如果大部分缺失值都集中在少量記錄中,只需排除這些記錄即可。例如,銀行通常會保存詳細而完整的貸款客戶的記錄。但是,如果銀行在審批內(nèi)部職員的貸款時管制不嚴,則所收集的員工貸款數(shù)據(jù)可能會存在空白字段。此種情況下,有兩種方法可以處理缺失值:可以使用選擇節(jié)點刪除員工記錄。如果數(shù)據(jù)集很大,使用者可以在一個選擇節(jié)點上,使用@BLANK和@NULL函數(shù)來剔除帶有空格的所有記錄。
2025/3/423.4.2.2處理帶缺失值的字段如大部分缺失值都集中在少量字段中,可通過字段而不是記錄查找這些缺失值。確定要采用的方法時,還應(yīng)考慮帶有缺失值的字段類型。數(shù)值字段對于數(shù)值字段類型(如范圍),應(yīng)在構(gòu)建模型前清除所有非數(shù)字值,因為如果數(shù)值字段中包含空值,很多模型將無效。分類字段對于分類字段(如集合和標志),雖然不必更改缺失值,但更改后可以提高模型的精度。2025/3/4要篩選或刪除帶有大量缺失值的字段,可以采用以下幾種方法:使用數(shù)據(jù)審核節(jié)點根據(jù)質(zhì)量過濾字段。可以使用特征選擇節(jié)點來篩選缺失值超過指定百分比的字段,并根據(jù)相對于特定目標的重要性來對字段進行排序。除刪除字段以外,還可以使用類型節(jié)點將字段方向設(shè)置為無。此操作可將字段保留在數(shù)據(jù)集中,但不會對其進行建模操作。2025/3/4
23.4.2.3歸因或填充缺失值
在僅有少量缺失值的情況下,可以用插入值來替換空值。下列方法可用于輸入缺失值:替換為固定值(可以選用字段平均值、范圍中間值或者指定的常數(shù))。替換為基于正態(tài)分布或均勻分布產(chǎn)生的隨機值。用于指定定制表達式。例如,可以使用設(shè)置全局量節(jié)點創(chuàng)建的全局變量進行替換?;贑&RT算法替換為模型預(yù)測的值。對于使用此方法輸入的每個字段,都會有一個單獨的C&RT模型,還有一個填充節(jié)點會使用該模型預(yù)測的值替換空白值和Null值。然后使用過濾節(jié)點刪除該模型生成的預(yù)測字段。如果還要為特定字段強制賦值,則可以使用類型節(jié)點來確保字段類型僅包含合法值,然后將需要替換空值字段的檢查列設(shè)置為強制。2025/3/4
23.4.3用CLEM函數(shù)處理缺失值
表達式操作語言CLEM全名為ClementineLanguageforExpressionManipulation,是在Clementine中執(zhí)行函數(shù)運算時的專用語法,用于分析和操縱在Clementine流中流動的數(shù)據(jù),是一個功能強大的語言。2025/3/4有多個CLEM函數(shù)可用于處理缺失值。選擇節(jié)點和填充節(jié)點中經(jīng)常會用以下函數(shù)來刪除或填充缺失值:count_nulls(LIST)@BLANK(FIELD)@NULL(FIELD)undef@函數(shù)可以與@FIELD函數(shù)一起使用,來識別一個或多個字段中是否存在空值或非Null值。當出現(xiàn)空值或非Null值時,一般會對此類字段進行標記,也可以用替換值填充或者在各種其他操作中使用此類字段。如下所示,可以計算字段列表中的非Null值的數(shù)量:count_nulls([‘cardtenure’‘card2tenure’‘card3tenure'])如果要使用接受輸入類型的字段列表的函數(shù),則可以使用特定的@FIELDS_BETWEEN和@FIELDS_MATCHING函數(shù),如下所示:count_nulls(@FIELDS_MATCHING(‘card*'))在選擇字段中用填充節(jié)點把缺失值替換成0,如圖23-18用填充節(jié)點將選定字段中的非Null值替換為0所示。
2025/3/4
23.5導(dǎo)入和導(dǎo)出PMML模型
PMML(predictivemodelmarkuplanguage,稱為預(yù)測模型標記語言)是一個XML基礎(chǔ)的標準,以XML文件類型定義DTD形式,用于描述數(shù)據(jù)挖掘和統(tǒng)計模型,包括模型的輸入、用于為數(shù)據(jù)挖掘準備數(shù)據(jù)的變換、以及定義模型自身的參數(shù)。Clementine可導(dǎo)入和導(dǎo)出PMML模型,使其能夠與其他支持此格式的應(yīng)用程序(例如,SPSS、SPSSCategorize)共享模型。2025/3/423.5.1支持PMML的模型類型23.5.1.1PMML3.1導(dǎo)入Clementine可以導(dǎo)入并評分由SPSS所有產(chǎn)品生成的PMML3.1模型,包括從Clementine導(dǎo)出的模型和由SPSS15.0生成的模型或變換PMML模型。實質(zhì)上,這包括了SPSSSmartscore組件可以評分的所有PMML模型,但以下幾種情況例外:(1)無法導(dǎo)入Apriori、CARMA及異常檢測模型。(2)將PMML模型導(dǎo)入到Clementine后,雖然可以對其進行評分,但不能進行瀏覽。(3)不能導(dǎo)入無法評分的模型。(4)以PMML格式導(dǎo)出的IBMIntelligentMiner模型,無法重新導(dǎo)入到Clementine中。2025/3/4
23.5.1.2導(dǎo)入PMML的較早版本
對于從Clementine較早版本(11.0之前版本)中導(dǎo)出的遺存模型,只有某些模型類型(而不是所有類型)支持PMML導(dǎo)入,模型支持PMML導(dǎo)入關(guān)系如表23-1所示:模型類型PMML導(dǎo)入(2.1或3.0)神經(jīng)網(wǎng)絡(luò)不可用C&R樹是CHAID樹是QUEST樹是C5.0樹不可用規(guī)則集不可用Kohonen網(wǎng)絡(luò)不可用K-Means不可用兩步是線性回歸是Logistic回歸是因子/主成分分析不可用序列不可用CARMA不可用Apriori不可用文本提取不可用特征選擇不可用異常檢測不可用非精練(GRI,CEMI)不可用2025/3/423.5.1.3Clementine模型PMML導(dǎo)出Clementine中的所有模型,除了CHAID、Anomaly、GRI、Factor/PCA、特征選擇等少數(shù)幾個模型以外,都可以用PMML編碼的XML文件的方式輸出。對于PMML模型輸出,應(yīng)該選擇一個XML文件名。Clementine中的模型是否支持PMML輸出類型,模型支持PMML輸出關(guān)系如表23-2所示.模型類型支持PMML輸出類型神經(jīng)網(wǎng)絡(luò)是建立C5.0是Kohonen是線性回歸是GRI否Apriori是K-Means是邏輯回歸是兩步是分類和回歸(C&R)樹是序列探測是QUEST是CHAID否Anomaly否Carma是特征選擇否因子分析/主成分分析否文本提取否2025/3/4
23.5.1.4數(shù)據(jù)庫本地模型PMML導(dǎo)出
對于使用數(shù)據(jù)庫本地算法生成的模型,僅在IBMIntelligentMiner模型中可使用PMML導(dǎo)出,無法導(dǎo)出使用Microsoft的AnalysisServices或OracleDataMiner創(chuàng)建的模型。此外,以PMML格式導(dǎo)出的IBM模型無法重新導(dǎo)入到Clementine中2025/3/4
23.5.2導(dǎo)入PMML模型
2025/3/4
23.5.3導(dǎo)出PMML模型
在Clementine中生成模型后,可按以下的步驟用PMML代碼輸出:Step1.在管理窗口中的“模型”選項卡,用右鍵點單擊一個模型。Step2.從內(nèi)容菜單中,選擇“導(dǎo)出PMML…”命令。Step3.給模型命名,然后點擊“保存”命令即可。2025/3/423.6小結(jié)根據(jù)本章講述的數(shù)據(jù)挖掘項目實施的方法論和生命周期、SPSSClementine的項目管理、數(shù)據(jù)挖掘項目的建立和報告的生成、缺失值的處理和PMML模型的導(dǎo)入導(dǎo)出等內(nèi)容,將數(shù)據(jù)挖掘項目實施的理論與SPSSClementine數(shù)據(jù)挖掘軟件結(jié)合,能夠完成數(shù)據(jù)挖掘項目的一般實施過程。而更為詳細的數(shù)據(jù)挖掘項目實施的內(nèi)容,可以參考下一章的SPSSClementine典型案例分析,通過更多具體的數(shù)據(jù)挖掘的實踐才能更好地把握數(shù)據(jù)挖掘項目的實施。9、春去春又回,新桃換舊符。在那桃花盛開的地方,在這醉人芬芳的季節(jié),愿你生活像春天一樣陽光,心情像桃花一樣美麗,日子像桃子一樣甜蜜。3月-253月-25Tuesday,Marc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 技術(shù)服務(wù)合同協(xié)議
- 基于農(nóng)業(yè)資源整合的現(xiàn)代農(nóng)業(yè)發(fā)展協(xié)議
- 項目進度統(tǒng)計表-互聯(lián)網(wǎng)項目進度監(jiān)控
- 公司前臺接待與咨詢工作表格
- 以科技創(chuàng)新推動農(nóng)業(yè)現(xiàn)代化智能化發(fā)展的路徑探索
- 歷史文物保護修復(fù)技術(shù)考試試題集
- 山中訪友:六年級自然美文欣賞教案
- 員工培訓(xùn)與技能評估記錄表
- 醫(yī)院場地租賃合同
- 中國古詩詞故事的欣賞感受
- XX省血液調(diào)配管理辦法
- 科創(chuàng)板問題測試題庫300題試題及答案
- 微信開放平臺網(wǎng)站信息登記表
- 商業(yè)銀行員工輕微違規(guī)行為積分管理辦法
- JJG 700 -2016氣相色譜儀檢定規(guī)程-(高清現(xiàn)行)
- 壓力容器安全檢查表
- 供應(yīng)商反向評估表
- 曲線帶式輸送機的設(shè)計
- 《國際關(guān)系學(xué)入門》課件第三章 國際關(guān)系理論
- 五金公司績效考核(共22頁)
- 體育課(軍體拳)教案(共43頁)
評論
0/150
提交評論