第24章 SPSS_Clementine典型案例分析_第1頁
第24章 SPSS_Clementine典型案例分析_第2頁
第24章 SPSS_Clementine典型案例分析_第3頁
第24章 SPSS_Clementine典型案例分析_第4頁
第24章 SPSS_Clementine典型案例分析_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘原理與數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用寶典應(yīng)用寶典 元昌安元昌安 主編主編 鄧松李文敬劉海濤編著鄧松李文敬劉海濤編著 電子工業(yè)出版社電子工業(yè)出版社第第24章章 SPSS Clementine典型案例分析典型案例分析 本章包括:本章包括: 市場(chǎng)購物籃分析市場(chǎng)購物籃分析 利用決策樹模型挖掘商業(yè)信息利用決策樹模型挖掘商業(yè)信息 利用神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行欺詐探測(cè)利用神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行欺詐探測(cè)24.1市場(chǎng)購物籃分析 本節(jié)的例子采用Clementine系統(tǒng)自帶的數(shù)據(jù) 集BASKETS1n。該數(shù)據(jù)集是超市的“購物籃”(一次購物內(nèi)容的集合)數(shù)據(jù)和購買者個(gè)人的背景數(shù)據(jù),目標(biāo)是發(fā)現(xiàn)購買物品之間

2、的關(guān)聯(lián)分析。 24.1.1 定義數(shù)據(jù)源定義數(shù)據(jù)源24.1.2 理解數(shù)據(jù)理解數(shù)據(jù) 在建模之前,我們需要了解數(shù)據(jù)集中都有哪些字段,這些字段如何分布,它們之間是否隱含著某種相關(guān)性等信息。只有了解這些信息后才能決定使用哪些字段,應(yīng)用何種挖掘算法和算法參數(shù)。這個(gè)過程就是一個(gè)理解數(shù)據(jù)的過程。 24.1.3 準(zhǔn)備數(shù)據(jù)準(zhǔn)備數(shù)據(jù) 在這在這18個(gè)字段中,有一些對(duì)于挖掘知識(shí)來說個(gè)字段中,有一些對(duì)于挖掘知識(shí)來說是沒有用的,如是沒有用的,如cardid等,這時(shí)我們就可以等,這時(shí)我們就可以把這些暫時(shí)沒有用到的字段剔除出挖掘過程。把這些暫時(shí)沒有用到的字段剔除出挖掘過程。這樣可以節(jié)約挖掘時(shí)間和效率。這樣可以節(jié)約挖掘時(shí)間和效率

3、。24.1.4 建模建模對(duì)字段設(shè)置完畢之后,下一步就是選擇挖掘所需要的模型,在這里我們會(huì)選擇使用三種不同的模型來挖掘該數(shù)據(jù)集。 1. “Apriori”模型節(jié)點(diǎn)2.GRI模型 3.“網(wǎng)絡(luò)”節(jié)點(diǎn)24.2 利用決策樹模型挖掘商業(yè)信息利用決策樹模型挖掘商業(yè)信息過程如下 :Step1:添加一個(gè)“變項(xiàng)文件”節(jié)點(diǎn)。Step2:加入一個(gè)“導(dǎo)出”節(jié)點(diǎn)。 Step3:對(duì)“導(dǎo)出”節(jié)點(diǎn)進(jìn)行設(shè)置。 Step4:加入“Healthfood”字段之后,在“導(dǎo)出”節(jié)點(diǎn)后再加入一個(gè)“類型”節(jié)點(diǎn),用來選擇哪些字段用來進(jìn)行數(shù)據(jù)挖掘。根據(jù)挖掘的目標(biāo),可以設(shè)置個(gè)人信息為“輸入”,“Healthfood”設(shè)置為“輸出” Step5:加

4、入 “C5.0”節(jié)點(diǎn)。Step6:點(diǎn)選“執(zhí)行(E)” Step7:從“查看器”中查看該結(jié)果輸出類型除了選用“決策樹”之外,還可以選擇“規(guī)則集”來顯示結(jié)果。用“規(guī)則集”表示的結(jié)果很多時(shí)候比“決策樹”更加直觀、易懂。 一般生成的決策樹都是經(jīng)過剪枝的。下面看看剪枝程度的高低對(duì)挖掘結(jié)果的影響。選中“模式”中的“專家”,把“修剪嚴(yán)重性”的值改為“0”,這意味著在挖掘過程中,進(jìn)行的剪枝程度將很小。模型名稱改為“nocut”。選擇“執(zhí)行(E)”。在右面管理器窗口中選中“模型(S)”,在“nocut”上右擊,選擇“瀏覽(B)”,查看生成模型結(jié)果 。利用剪枝程度較高的決策樹、剪枝程度低的決策樹、規(guī)則集生成的結(jié)果

5、,可以通過Clementine系統(tǒng)提供的很多模型來進(jìn)行精度測(cè)試。在這兒選用“分析”節(jié)點(diǎn)。生成的結(jié)果顯示剪枝程度高的模型正確率為93.8 。同樣的原理,測(cè)試“nocut” 。剪枝程度低的精度為94.7。24.3 利用神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行欺詐探測(cè)利用神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行欺詐探測(cè) 背景是關(guān)于農(nóng)業(yè)發(fā)展貸款的申請(qǐng)。使用虛構(gòu)的數(shù)據(jù)來說明如何使用神經(jīng)網(wǎng)絡(luò)來檢測(cè)偏離常態(tài)的行為,重點(diǎn)為標(biāo)識(shí)那些異常和需要更深一步調(diào)查的記錄。要解決的問題是找出那些就農(nóng)場(chǎng)類型和大小來說申請(qǐng)貸款過多的農(nóng)場(chǎng)主 。24.3.1 定義數(shù)據(jù)源定義數(shù)據(jù)源使用一個(gè)“變項(xiàng)文件”節(jié)點(diǎn)連接到數(shù)據(jù)集grantfraudN.db。在“變項(xiàng)文件”節(jié)點(diǎn)之后增加一個(gè)

6、“類型”節(jié)點(diǎn)到數(shù)據(jù)流中。 24.3.2 理解數(shù)據(jù)理解數(shù)據(jù) 在建模之前,需要了解數(shù)據(jù)集中都有哪些字段,這些字段如何分布,它們之間是否隱含著某種相關(guān)性等信息。只有了解這些信息后才能決定使用哪些字段,應(yīng)用何種挖掘算法和算法參數(shù)。這個(gè)過程就是一個(gè)理解數(shù)據(jù)的過程。 24.3.3 準(zhǔn)備數(shù)據(jù)準(zhǔn)備數(shù)據(jù) 首先考慮數(shù)據(jù)集中可能存在的欺詐類型。 在該數(shù)據(jù)流中連接一個(gè)“條形圖”節(jié)點(diǎn)并選定字段名為“name”的字段 。 選中“name”字段之后,點(diǎn)擊“執(zhí)行” 。 在數(shù)據(jù)流區(qū)域中添加一個(gè)“選擇”節(jié)點(diǎn),對(duì)該節(jié)點(diǎn)進(jìn)行設(shè)置。 以農(nóng)場(chǎng)大小、主要作物類型、土壤質(zhì)量等為自變量建立一個(gè)回歸模型來估計(jì)一個(gè)農(nóng)場(chǎng)的收入是多少。為了發(fā)現(xiàn)那些偏

7、離估計(jì)值的農(nóng)場(chǎng),先生成一個(gè)字段diff,代表估計(jì)值與實(shí)際值偏離的百分?jǐn)?shù)。在數(shù)據(jù)流中再增加一個(gè)“導(dǎo)出”節(jié)點(diǎn) 進(jìn)行設(shè)置。在數(shù)據(jù)流中增加一個(gè)“直方圖”節(jié)點(diǎn)。對(duì)“直方圖”節(jié)點(diǎn)進(jìn)行設(shè)置。24.3.4 建模建模將一個(gè)“類型”節(jié)點(diǎn)添加到當(dāng)前數(shù)據(jù)流中。對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行設(shè)置。 在數(shù)據(jù)流上添加一個(gè)“神經(jīng)網(wǎng)絡(luò)”節(jié)點(diǎn)。執(zhí)行此數(shù)據(jù)流。神經(jīng)網(wǎng)絡(luò)經(jīng)過訓(xùn)練后,會(huì)產(chǎn)生一個(gè)模型。將產(chǎn)生的模型加入到數(shù)據(jù)流流中。然后在數(shù)據(jù)流中再增加一個(gè)“散點(diǎn)圖”節(jié)點(diǎn),對(duì)“散點(diǎn)圖”節(jié)點(diǎn)進(jìn)行設(shè)置。設(shè)置完成之后,執(zhí)行。 進(jìn)行深一步的分析。在該數(shù)據(jù)流中增加一個(gè)“導(dǎo)出”節(jié)點(diǎn),對(duì)該節(jié)點(diǎn)進(jìn)行設(shè)置。 為了說明真實(shí)值和估計(jì)值之間的差距,可以參考claimdiff的直方圖。主要對(duì)那些由神經(jīng)網(wǎng)絡(luò)得出的申請(qǐng)超出預(yù)期的人感興趣。 在數(shù)據(jù)流中再添加一個(gè)“直方圖”節(jié)點(diǎn)。雙擊打開該節(jié)點(diǎn),在“字段”下拉列表中選擇“claimdiff”,單擊“執(zhí)行(E)” 。 增加一個(gè)分割帶到直方圖中,右擊帶區(qū)生成一個(gè)選擇節(jié)點(diǎn),進(jìn)一步查看那些claimdiff值較大的數(shù)據(jù)。 最后,在數(shù)據(jù)流中增加一個(gè)“條形圖”節(jié)點(diǎn)。雙擊該節(jié)點(diǎn),在“字段”下拉列表中選擇“name”字段,點(diǎn)擊“執(zhí)行(E)”,得出結(jié)果如圖所示。在圖中所顯示的就是我們要重點(diǎn)關(guān)注的數(shù)據(jù)。24.4小結(jié)小結(jié) 本章通過使用Apriori模型、GRI模型、可視化網(wǎng)絡(luò)圖、決策樹、神經(jīng)網(wǎng)絡(luò)等來說明如何使用Clementine在數(shù)據(jù)庫中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論