數(shù)據(jù)挖掘?qū)嶒瀳蟾?docx_第1頁
數(shù)據(jù)挖掘?qū)嶒瀳蟾?docx_第2頁
數(shù)據(jù)挖掘?qū)嶒瀳蟾?docx_第3頁
數(shù)據(jù)挖掘?qū)嶒瀳蟾?docx_第4頁
數(shù)據(jù)挖掘?qū)嶒瀳蟾?docx_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

市場購物籃分析經(jīng)濟管理學(xué)院 企業(yè)管理專業(yè) 1306122427 楊歡歡一、 實驗背景隨著社會進入信息化時代,現(xiàn)代化的企業(yè)搜集了大量數(shù)據(jù)或高維數(shù)據(jù),包括市場、客戶、供貨商、競爭對手以及未來趨勢等重要信息,但是信息超載與無結(jié)構(gòu)化,使得企業(yè)決策部門無法有效利用現(xiàn)存的信息,甚至使決策行為產(chǎn)生混亂與誤用。通過數(shù)據(jù)挖掘技術(shù),可以從大量的數(shù)據(jù)中,挖掘出不同的信息與知識來支持決策,必能產(chǎn)生企業(yè)的競爭優(yōu)勢。數(shù)據(jù)挖掘和知識發(fā)現(xiàn)是一個涉及多學(xué)科的研究領(lǐng)域。數(shù)據(jù)庫技術(shù)、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)、粗糙集、模糊集、神經(jīng)網(wǎng)絡(luò)、模式識別、知識庫系統(tǒng)、高性能計算、數(shù)據(jù)可視化等均與數(shù)據(jù)挖掘相關(guān)。近年來,與數(shù)據(jù)庫的知識發(fā)現(xiàn)研究領(lǐng)域已經(jīng)成為熱點,其中關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法是數(shù)據(jù)挖掘中的一個很重要的課題,它是從背后發(fā)現(xiàn)數(shù)據(jù)中的關(guān)聯(lián)或聯(lián)系。本實驗主要處理描述超級市場購物籃內(nèi)容(所購買的全部商品的集合)的虛構(gòu)數(shù)據(jù),以及購買者的相關(guān)個人數(shù)據(jù)。目的是尋找購買相似產(chǎn)品并且購買相似產(chǎn)品的客戶群特征。二、 實驗?zāi)康?、 掌握數(shù)據(jù)挖掘的基礎(chǔ)知識,能夠深刻理解并熟練運用GRI和C5.0規(guī)則,能夠熟練運用SPSS Clementine11.1軟件進行數(shù)據(jù)分析。2、 利用GRI和C5.0規(guī)則對商場客戶交易數(shù)據(jù)進行分析,從中發(fā)現(xiàn)客戶購買的商品之間的關(guān)聯(lián)關(guān)系,并進一步歸納出購買相似商品的顧客群的特征 。3、 理解并操作實驗中數(shù)據(jù)挖掘的兩個部分,一是關(guān)聯(lián)規(guī)則建模和一個顯示所購買商品關(guān)聯(lián)關(guān)系的網(wǎng)絡(luò)圖;二是C5.0 規(guī)則歸納,顯示購買建立的產(chǎn)品組合的顧客群具有的特征。三、 操作環(huán)境1、系統(tǒng)環(huán)境:Windows XP2、軟件環(huán)境:SPSS Clementine11.13、軟件簡介:作為一個數(shù)據(jù)挖掘平臺, Clementine結(jié)合商業(yè)技術(shù)可以快速建立預(yù)測性模型,進而應(yīng)用到商業(yè)活動中,幫助人們改進決策過程。強大的數(shù)據(jù)挖掘功能和顯著的投資回報率使得Clementine在業(yè)界久負(fù)盛譽。同那些僅僅著重于模型的外在表現(xiàn)而忽略了數(shù)據(jù)挖掘在整個業(yè)務(wù)流程中的應(yīng)用價值的其它數(shù)據(jù)挖掘工具相比, Clementine其功能強大的數(shù)據(jù)挖掘算法,使數(shù)據(jù)挖掘貫穿業(yè)務(wù)流程的始終,在縮短投資回報周期的同時極大提高了投資回報率。四、實驗數(shù)據(jù)本實驗所使用的數(shù)據(jù)是SPSS Clementine11.1自帶的數(shù)據(jù),名為BSAKETS1n,該數(shù)據(jù)包含18個字段,1000條記錄。1、購物籃摘要:cardid(購買此籃商品的客戶的忠誠卡標(biāo)識符)、Value(購物籃的總購買價格)、pmethod(購物籃的支付方法);2、卡持有者的個人詳細(xì)信息: Sex、homeown(卡持有者是否擁有住房)、收入、age ;3、購物籃內(nèi)容產(chǎn)品類別的出現(xiàn)標(biāo)志:fruitveg, freshmeat, dairy, cannedveg, cannedmeat, frozenmeal, beer, wine, softdrink, fish, confectionery。五、實驗步驟1、新建工作流,附加數(shù)據(jù)1.1、該模型的數(shù)據(jù)存儲為BSAKETS1n,首先在選擇面板選擇可變文件節(jié)點作為數(shù)據(jù)讀入節(jié)點,雙擊該結(jié)點進行編輯,加入數(shù)據(jù)存儲文件。結(jié)果如圖1。 圖12、使用一般規(guī)則歸納 (GRI) 大致了解購物籃內(nèi)容的關(guān)系(關(guān)聯(lián))以生成關(guān)聯(lián)規(guī)則2.1、選擇要在此建模過程中使用的字段,方法是:編輯“類型”節(jié)點,將所有產(chǎn)品類別的方向設(shè)置為雙向,其他方向設(shè)置為無,如圖2。其中,雙向表示該字段可以是結(jié)果模型的輸入或輸出。然后,連接一個“表”節(jié)點,執(zhí)行查看需要字段的數(shù)據(jù),如圖3。圖2圖32.2、在選擇面板中的建模目錄中選擇GRI節(jié)點連接到到數(shù)據(jù)流中,然后對該節(jié)點進行編輯,選擇選項只顯示值為真的標(biāo)志變量,然后執(zhí)行 GRI 節(jié)點。在管理器的模型欄中顯示產(chǎn)生未精煉模型 ,這些規(guī)則顯示凍肉、罐裝蔬菜和啤酒之間存在多種關(guān)聯(lián);酒和糖果也具有關(guān)聯(lián)。如圖4與圖5。這些規(guī)則顯示凍肉、罐裝蔬菜和啤酒之間存在多種關(guān)聯(lián);酒和糖果也具有關(guān)聯(lián)。圖4圖5結(jié)果分析:圖四結(jié)果顯示了購買各種商品之間的關(guān)聯(lián)關(guān)系。這個表的每一行表明了購買某種商品的時候還有可能購買哪些商品,它是用關(guān)聯(lián)分析中的支持度和置信度來分析的。支持度越大,說明同時被購買的可能性越大。我們以第一行結(jié)果為例分析,支持度為3.0%,置信度為96.67,顧客在購買cannedveg時有可能會同時購freshmeat,frozenmeal,beer這三種商品,對于其它行同樣用此方法分析。2.3、在“圖形”中選擇“網(wǎng)絡(luò)”節(jié)點拖入到工作框,然后與 “類型”節(jié)點連接。編輯“網(wǎng)絡(luò)”節(jié)點,選擇購物籃所有產(chǎn)品字段,選擇僅顯示 真值,如圖6。圖62.4執(zhí)行網(wǎng)絡(luò)節(jié)點,得到如圖7所示的網(wǎng)絡(luò)圖。然后指定弱連接和強連接,單擊工具欄上的黃色雙箭頭按鈕。這會展開顯示 Web 輸出摘要和控件的對話框。選擇大小表示強/正常/弱。將弱鏈接設(shè)置為低于90,將強接連設(shè)置為101。結(jié)果如圖8示。圖7圖8在圖中有三個客戶群突出顯示:購買魚和果蔬,我們將該組合定義為“健康”,購買酒和糧果,該組合定義為“小資”,購買啤酒、凍肉和罐裝蔬菜,該組合定義為“火鍋”。3、C5.0規(guī)則歸納3.1、選中網(wǎng)絡(luò)圖中連接魚和果蔬的連線,導(dǎo)出“與”節(jié)點,字段命名“健康”。如圖9和圖10。在真值和假值欄分別填寫新字段的兩種數(shù)據(jù)值,其中真值表示當(dāng)條件滿足時該字段的值,假值表示當(dāng)條件不滿足時該字段的值。圖9圖103.2、設(shè)置字段的輸入與輸出。在健康節(jié)點后連接一個類型結(jié)點,通過該類型節(jié)點來制定字段的輸入或輸出方向。這里我們要分析購買健康食物的顧客特征,所以我們將健康字段的方向選項設(shè)置為輸出,將顧客的個人特征設(shè)置為輸入,將其他商品設(shè)置為無。如圖10圖113.4附加 C5.0 節(jié)點。在選擇面板中選擇C5.0拖到工作框中。將輸出類型設(shè)置為規(guī)則集,然后執(zhí)行。如圖12。 圖12結(jié)果分析:圖中的結(jié)果顯示了14.5%的人會選擇購買健康食物,85.5%的人不會購買健康食物。下一個分支中,按照年齡特征來劃分,小于等于24歲的人中購買健康食品占40.4%,其余的59.6%的人則不會購買。年齡大于24歲的人中,4.6%的人選擇購買健康食物,95.4%的人不會購買健康食物。而在小于24歲且有房子的人中,1.4%的人會購買健康食品,98.6%的人不會購買。年齡小于24歲且沒有房子的人中80.3%的人會選擇購買健康食物,19.3%的人不會購買健康食物。3.5、對定義的其它組合重復(fù)上述操作,然后對于火鍋組合的規(guī)則集執(zhí)行,結(jié)果如圖12。圖13結(jié)果分析:圖中的結(jié)果顯示了16.7%的人會選擇購買火鍋組合,83.3%的人不會購買火鍋組合。下一個分支中,按照收入特征來劃分,收入小于等于16900元的人42.604%購買該組合,其余的57.396%的人則不會購買。收入大于16900元的人中,3.474%的人選擇購買火鍋組合,96.526%的人不會購買。而在收入小于等于16900的男性中,84.242%的人會購買火鍋組合, 15.758%的人不會購買。收入小于等于16900的女性中2.89%的人會購買火鍋組合,97.11%的人不會購買火鍋組合。3.6、最終工作框的流程如圖13示。圖13六、實驗總結(jié)本實驗一共分為三個部分,第一部分主要是附加數(shù)據(jù),第二部分是通過GRI關(guān)聯(lián)規(guī)則來建模,以此來揭示購買的商品之間的關(guān)聯(lián)關(guān)系,并用網(wǎng)絡(luò)圖顯示出來;我在第三部分探索了用C5.0模型來歸納其中的規(guī)則。通過本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論