




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、浙江大學(xué)遠(yuǎn)程教育學(xué)院本科生畢業(yè)論文(設(shè)計(jì))題 目 專 業(yè) 學(xué)習(xí)中心 姓 名 學(xué) 號(hào)指導(dǎo)教師 2010年10月28日論 文 摘 要數(shù)據(jù)挖掘技術(shù)逐漸成為研究熱點(diǎn),應(yīng)用越來越廣泛。隨著國民經(jīng)濟(jì)的快速發(fā)展,零售業(yè)快速發(fā)展,競(jìng)爭激烈,零售企業(yè)也積累了大量的原始數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則挖掘是購物籃分析的最重要的一種技術(shù),購物籃分析有很多人研究,但利用分析后的數(shù)據(jù)來指導(dǎo)企業(yè)的經(jīng)營不多,本文重著重研究購物籃分析后的一些有用的信息,是怎樣來指導(dǎo)企業(yè)經(jīng)營分析,構(gòu)成一個(gè)數(shù)據(jù)挖掘的閉環(huán)系統(tǒng)。關(guān)鍵詞:數(shù)據(jù)挖掘、零售業(yè)、購物籃分析、聚類分析目錄一、課題研究的背景及意義及介紹商業(yè)智能和數(shù)據(jù)挖掘技術(shù)的相關(guān)內(nèi)容4(一)課
2、題研究的背景及意義4(二)國內(nèi)外關(guān)于數(shù)據(jù)挖掘技術(shù)研究現(xiàn)狀41、國內(nèi)研究現(xiàn)狀42、國外研究現(xiàn)狀4(三)本文研究內(nèi)容概述5二、根據(jù)零售超市的行業(yè)數(shù)據(jù)特點(diǎn),分析數(shù)據(jù)挖掘的在零售的行業(yè)主要應(yīng)用5(一)關(guān)聯(lián)規(guī)則挖掘5(二)聚類分析5三、介紹關(guān)聯(lián)規(guī)則算法理論基礎(chǔ)5(一)闡述經(jīng)典算法Apriori算法6四、關(guān)聯(lián)規(guī)則挖掘模型建模8(一)數(shù)據(jù)預(yù)處理8(二)使用SPSS Clementine 軟件實(shí)現(xiàn)Apriori算法及性能111、定義數(shù)據(jù)源(數(shù)據(jù)裝載)112、關(guān)聯(lián)模型參數(shù)說明:11五、全文的總結(jié)及數(shù)據(jù)挖掘以后在零售行業(yè)的研究方向15(一)全文總結(jié)15(二)數(shù)據(jù)挖掘以后在零售行業(yè)的研究方向及前景展望15六、參考文
3、獻(xiàn):16一、 課題研究的背景及意義及介紹商業(yè)智能和數(shù)據(jù)挖掘技術(shù)的相關(guān)內(nèi)容(一) 課題研究的背景及意義零售企業(yè)在經(jīng)營過程中產(chǎn)生了海量的信息,這些信息蘊(yùn)藏了豐富的顧客消費(fèi)行為和市場(chǎng)規(guī)律。怎樣有效地利用這些寶貴的信息,讓它們更好地為企業(yè)經(jīng)營服務(wù),成為了零售企業(yè)的一個(gè)迫切愿望和現(xiàn)實(shí)難點(diǎn)。過去的十幾年里,信息化在零售業(yè)的的做大做強(qiáng)中,起到了不可或缺的作用,不可想象在一個(gè)大型超市不使用信息化來管理,如何來管理達(dá)到幾十萬數(shù)量的商品的價(jià)格、庫存、銷售等,但是現(xiàn)在國內(nèi)的零售企業(yè)的信息化只是使用傳統(tǒng)的MIS系統(tǒng)用來協(xié)肋工作人員處理日常業(yè)務(wù),減少重復(fù)勞動(dòng),好一點(diǎn)的MIS系統(tǒng)會(huì)有相關(guān)的報(bào)表系統(tǒng)為不同的管理層提供一些報(bào)
4、表支持。但現(xiàn)在的報(bào)表系統(tǒng)一般只能用來分析匯總的銷售、庫存、毛利等情況。零售企業(yè)為了在激烈的市場(chǎng)競(jìng)爭中謀得一席之地,積極投入到商業(yè)智能系統(tǒng)的開發(fā)與實(shí)施中,希望更精準(zhǔn)地掌握企業(yè)運(yùn)營狀況、商品銷售情況及顧客消費(fèi)習(xí)慣等信息。商業(yè)智能系統(tǒng)作為現(xiàn)代零售企業(yè)提高管理和決策水平的重要手段,在開發(fā)技術(shù)和思路上必須適應(yīng)新的需求,而實(shí)現(xiàn)商業(yè)智能系統(tǒng)的最關(guān)鍵的技術(shù)之一就是數(shù)據(jù)挖掘技術(shù)。(二) 國內(nèi)外關(guān)于數(shù)據(jù)挖掘技術(shù)研究現(xiàn)狀1、 國內(nèi)研究現(xiàn)狀數(shù)據(jù)挖掘技術(shù)研究應(yīng)用領(lǐng)域廣泛,不僅應(yīng)用到傳統(tǒng)行業(yè)比如零售行業(yè)、電信行業(yè)、銀行業(yè)等行業(yè),而且隨著科學(xué)技術(shù)的不斷進(jìn)步和信息化程度的不斷加快,中國零售企業(yè)的信息化已進(jìn)入挖掘價(jià)值的時(shí)代。專
5、家指出,如果說科學(xué)決策是企業(yè)的高級(jí)境界,那么數(shù)據(jù)挖掘則是目前企業(yè)信息化的高級(jí)境界。從數(shù)據(jù)中尋找知識(shí)和思想、挖掘財(cái)富、發(fā)現(xiàn)決策依據(jù),這些正是數(shù)據(jù)挖掘?qū)ζ髽I(yè)的直接貢獻(xiàn),也是企業(yè)信息化的重要體現(xiàn)。當(dāng)前國內(nèi)零售業(yè)的數(shù)據(jù)挖掘工作基本上還處于探索階段,據(jù)了解,許多零售企業(yè)使用收款結(jié)帳設(shè)備獲得的海量相關(guān)銷售數(shù)據(jù),都沒有得到充分的應(yīng)用,這些數(shù)據(jù)本來可以幫助零售商實(shí)施精準(zhǔn)營銷,控制庫存、降低庫存風(fēng)險(xiǎn)等以創(chuàng)造更大的商業(yè)價(jià)值,卻被零售企業(yè)忽略掉了。國內(nèi)的零售企業(yè)的應(yīng)用數(shù)量多,但高水平的應(yīng)用比較少,國內(nèi)的各種零售業(yè)態(tài)基本上都是從國克隆過來的,直觀上的如布局、裝潢、商品陣列、促銷方式,甚至包括員工的服務(wù)方式等都是容易學(xué)
6、習(xí)的,而對(duì)于諸如倉儲(chǔ)、物流、管理、客戶數(shù)據(jù)的收集、整理和挖掘這些方面,由于是在后臺(tái)進(jìn)行,所以很難快速學(xué)習(xí)并投入實(shí)用,更不用說成熟的數(shù)據(jù)挖掘方案了。對(duì)于零售行業(yè)的數(shù)據(jù)挖掘研究,主要集中在購物籃分析、CRM顧客分析等,購物籃分析的國內(nèi)理論研究方面主要聚集于關(guān)聯(lián)規(guī)則算法本身的研究和度量規(guī)則的優(yōu)化。復(fù)旦大學(xué)一直從事這方面的研究,朱揚(yáng)勇等把一個(gè)應(yīng)用于特征規(guī)則基于差異思想的興趣度定義運(yùn)用到關(guān)聯(lián)規(guī)則中,重新設(shè)置了興趣度;武漢科技大學(xué)的張新霞等提出基于統(tǒng)計(jì)相關(guān)性的興趣度關(guān)聯(lián)規(guī)則;2、國外研究現(xiàn)狀在國外,數(shù)據(jù)挖掘已經(jīng)投入應(yīng)用領(lǐng)域,SAS公司的Enterprise Mnier,Oracle OBIEE,IBM的B
7、O,NCR的Teradata WareHouse Miner等軟件已經(jīng)被廣泛在各個(gè)商業(yè)領(lǐng)域中。很多大型的零售商都采用了數(shù)據(jù)挖掘工具來進(jìn)行決策分析,關(guān)聯(lián)規(guī)則挖掘已經(jīng)投入應(yīng)用領(lǐng)域,交叉銷售、庫存控制和客戶分類設(shè)計(jì)等都是零售業(yè)數(shù)據(jù)挖掘的主要內(nèi)容。以沃爾瑪為例它采用了BO的方案,信息化已發(fā)展到以營銷和顧客為中心的階段并開發(fā)出了一些像優(yōu)惠卷和積分卡的應(yīng)用。通過數(shù)據(jù)倉庫記錄的消費(fèi)者的詳細(xì)信息,很容易做進(jìn)一步的深入挖掘和分析,以了解消費(fèi)者的消費(fèi)習(xí)慣從而實(shí)施交叉銷售等數(shù)據(jù)挖掘應(yīng)用。它們都沒有將數(shù)據(jù)數(shù)據(jù)挖掘技術(shù)和零售業(yè)的應(yīng)用結(jié)合起來,今后的一些研究方向主要針對(duì)以下幾個(gè)問題:一是在處理海量數(shù)據(jù)時(shí),如何提高算法效率
8、;二是如何進(jìn)一步研究迅速更新的數(shù)據(jù)的挖掘;三是在挖掘的過程中,提供一種與用戶進(jìn)行交互的方法,將用戶的領(lǐng)域知識(shí)結(jié)合在其中;四是生成結(jié)果的的可視化問題等。提高數(shù)據(jù)挖掘的易用性。目前市場(chǎng)上有多種適用解決所有商業(yè)模式的通用的數(shù)據(jù)挖掘系統(tǒng),但實(shí)際上這些系統(tǒng)并不好用,普通用戶很難應(yīng)用這些技術(shù)解決自己的商業(yè)問題。問題在于如何將數(shù)據(jù)挖掘技術(shù)與現(xiàn)有技術(shù)很好地結(jié)合起來,如果不能將特殊領(lǐng)域的商業(yè)邏輯與數(shù)據(jù)倉庫技術(shù)集成起來,數(shù)據(jù)挖掘的分析效果和效益不可能達(dá)到要求。系統(tǒng)的定制,軟件供應(yīng)商和企業(yè)互相交流,對(duì)系統(tǒng)功能的不斷完善和擴(kuò)充可以在一定程度上解決這個(gè)問題。(三) 本文研究內(nèi)容概述一家超市的購物籃分析,通過對(duì)這家超市的
9、現(xiàn)有POS系統(tǒng)的數(shù)據(jù),使用SPSS Clementine關(guān)聯(lián)規(guī)則建模從現(xiàn)有的超市系統(tǒng)的數(shù)據(jù)挖掘出有用的信息,本文重著重研究購物籃分析后的一些有用的信息,是怎樣來指導(dǎo)企業(yè)經(jīng)營分析,構(gòu)成一個(gè)數(shù)據(jù)挖掘的閉環(huán)系統(tǒng)。二、 根據(jù)零售超市的行業(yè)數(shù)據(jù)特點(diǎn),分析數(shù)據(jù)挖掘的在零售的行業(yè)主要應(yīng)用(一) 關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中最活躍的研究方法之一,最早是由Agrawal等人在1993年提出來的。關(guān)聯(lián)規(guī)則是尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,比如在一次購買活動(dòng)中所購買的不同商品之間的相關(guān)性。關(guān)聯(lián)分析,以稱購物籃分析,即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘,在零售企業(yè)中用來指導(dǎo)銷售配貨、商品陣列、超市購物動(dòng)線設(shè)計(jì)和
10、促銷等。關(guān)聯(lián)規(guī)則在商業(yè)領(lǐng)域的應(yīng)用中,最經(jīng)典的例子就是“啤酒和尿布”的故事。這個(gè)故事是說在美國的沃爾瑪超市,一些年輕的父親下班后經(jīng)常要到超市去購買嬰兒尿布 ,超市發(fā)現(xiàn),在這些購買了尿布的年輕父親中,有30%-40%的人同時(shí)要買一些啤酒。于是超市就把尿布和啤酒放在一起賣,明顯增加了銷售額。(二) 聚類分析聚類就是把整個(gè)數(shù)據(jù)分成不同的組,并使組與組之間的距離盡可能大,組內(nèi)數(shù)據(jù)的差異盡可能小。與分類不同,在開始聚集之前用戶并不知道要把數(shù)據(jù)分成幾組,也不知道分組的具體標(biāo)準(zhǔn),聚類分析時(shí)數(shù)據(jù)集合的特征是未知的。聚類要一定的聚類規(guī)則,將具有某種相同特征的數(shù)據(jù)聚在一起,也稱為無監(jiān)督學(xué)習(xí)。而分類,用戶則知道數(shù)據(jù)可
11、分為幾類,將要處理的數(shù)據(jù)按照分類分入不同的類別,也稱為有監(jiān)督學(xué)習(xí)。針對(duì)使用會(huì)員卡的超市,可以利用會(huì)員卡信息和銷售數(shù)據(jù)聯(lián)系在一起,利用數(shù)據(jù)挖掘的聚類分析方法,區(qū)分不同類型的會(huì)員,找到所謂的VIP會(huì)員和潛在的高端客戶和他們的特征,針對(duì)這些特征做針對(duì)性的營銷。三、 介紹關(guān)聯(lián)規(guī)則算法理論基礎(chǔ)(一) 闡述經(jīng)典算法Apriori算法 引自數(shù)據(jù)挖掘:概念與技術(shù),機(jī)械工業(yè)出版社,2007.3我們想像全域是商店中的商品的集合,則每一種商品有一個(gè)布爾變量,表示該商品是否出現(xiàn)。每個(gè)購物籃則可用一個(gè)為這些變量指定值的布爾向量表示??梢苑治霾紶栂蛄浚玫椒从成唐奉l繁關(guān)聯(lián)或同時(shí)購買模式。這些模式可以用關(guān)聯(lián)規(guī)則的形式表示。
12、例如,購買牛奶也趨向于同時(shí)購買面包的顧客信息可以用以下關(guān)聯(lián)規(guī)則(2-1)表示:牛奶面包support=2%,confidence=60%(2-1)規(guī)則的支持度(support)和置信度(confidence)是規(guī)則興趣度的兩種度量。它們分別所反映的規(guī)則的有用性和確定性。關(guān)聯(lián)規(guī)則(2-1)的支持度為2%竟味著所分析的所有事務(wù)的2%同時(shí)購買了牛奶和面包。置信度60%竟味著購買牛奶的顧客60%也購買了面包。典型情況下,如果關(guān)聯(lián)規(guī)則同時(shí)滿足最小支持度閾值和最小置信度閾值,則此關(guān)聯(lián)規(guī)則是有趣的。這些閾值可以由用戶或領(lǐng)域?qū)<以O(shè)定。也可以進(jìn)行其他分析,揭示關(guān)聯(lián)項(xiàng)之間的有趣的統(tǒng)計(jì)相關(guān)。Apriori算法是R.
13、Agrawal和R.Srikant于1994年提出的為布爾關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)集的原創(chuàng)性算法。Apriori使用一種稱作逐層搜索的迭代方法,k項(xiàng)集用于探索(k+1)項(xiàng)集。首先,通過掃描數(shù)據(jù)庫,累積每個(gè)項(xiàng)的計(jì)數(shù),并收集滿足最小支持度的項(xiàng),找出頻繁1項(xiàng)集的集合。該集合記作L1。然后,L1用于找頻繁2項(xiàng)集的集合L2,L2用于找L3,如此下去,真到不能再找到頻繁k項(xiàng)集。找每個(gè)Lk需要一次數(shù)據(jù)庫全掃描。讓我們看一個(gè)具體例子來說明Apriori算法:TID商品ID的列表T11,2,5T22,4T32,3T41,2,4T51,3T62,3T71,3T81,2,3,5T91,2,3圖表 1項(xiàng)集支持度計(jì)數(shù)(1)6
14、(2)7(3)6(4)2(5)2項(xiàng)集支持度計(jì)數(shù)(1)6(2)7(3)6(4)2(5)2掃描D,對(duì)每一個(gè)候選計(jì)數(shù)L1C1比較候選支持度計(jì)數(shù)與最小支持度計(jì)數(shù)C2L2C2項(xiàng)集(1,2)由L1產(chǎn)生候選C2(1,3)(1,4)(1,5)(2,3)(2,4)(2,5)(3,4)(3,5)(4,5)項(xiàng)集計(jì)數(shù)(1,2)4(1,3)比較候選支持度計(jì)數(shù)與最小支持度計(jì)數(shù)4(1,4)1(1,5)2(2,3)4(2,4)2(2,5)2(3,4)0(3,5)1(4,5)0項(xiàng)集支持度計(jì)數(shù)(1,2)4(1,3)4(1,5)2(2,3)4(2,4)2(2,5)2掃描D,對(duì)每個(gè)候選計(jì)數(shù)C3L3項(xiàng)集支持度計(jì)數(shù)(1,2,3)2(1,
15、2,5)2比較候選支持度計(jì)數(shù)與最小支持度計(jì)數(shù)C3掃描D,對(duì)每個(gè)候選計(jì)數(shù)由L2產(chǎn)生候選C3項(xiàng)集(1,2,3)(1,2,5)項(xiàng)集支持度計(jì)數(shù)(1,2,3)2(1,2,5)2圖表 2從上圖中可以看出(1,2,3),(1,2,5)是頻繁項(xiàng)集。一旦從數(shù)據(jù)庫D中的事務(wù)找出頻繁項(xiàng)集,可直接由它們產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則(強(qiáng)關(guān)聯(lián)規(guī)則滿足最小支持度和最小置信度)。對(duì)于置信度,可以用下式計(jì)算。Confidence(A=B)=P(B|A)=support_count(AUB)/support_count(A)假定數(shù)據(jù)庫含頻繁項(xiàng)集l=1,2,5。L的非空子集有1,2,1,5,2,5,1,2,5。結(jié)果關(guān)聯(lián)規(guī)則如下,每個(gè)都列出置信度
16、:i. Confidence(12=5)=2/4=50%ii. Confidence(15=2)=2/2=100%iii. Confidence(25=1)=2/2=100%iv. Confidence(1=25)=2/6=33%v. Confidence(2=15)=2/7=29%vi. Confidence(5=12)=2/2=100%假定最小置信度閾值為70%,則只有ii,iii和vi規(guī)則可以輸出。因?yàn)橹挥羞@些產(chǎn)生強(qiáng)規(guī)則。Apriori算法的效率較低,有很多研究提出了Apriori的變形,如基于散列的技術(shù),等等。在這里不再闡述。四、 關(guān)聯(lián)規(guī)則挖掘模型建模(一) 數(shù)據(jù)預(yù)處理本文的關(guān)聯(lián)模型構(gòu)
17、建是基于一家大型連鎖超市的2007上半年實(shí)際零售數(shù)據(jù)。取2007年4月到5月單筆購物品項(xiàng)數(shù)大于1個(gè),金額大于等于30元的數(shù)據(jù),有筆銷售,也就是有這么多購物籃數(shù)據(jù),數(shù)據(jù)量應(yīng)該說是相當(dāng)大。這家超市的商品單品數(shù)量達(dá)到個(gè),如果對(duì)單品挖掘關(guān)聯(lián)規(guī)則,支持度、置信度會(huì)很低,很難挖掘有意義的規(guī)則出來,因此本文不對(duì)具體產(chǎn)品建模,而是對(duì)商品的中類進(jìn)行模型構(gòu)建。所有商品分成81個(gè)中類,在這個(gè)級(jí)別的數(shù)據(jù)挖掘是可行的。實(shí)際的零售數(shù)據(jù)格式是這樣的,一張buy2表有多個(gè)字段,字段含義如下表所示:BUY2(銷售明細(xì)表)1FLOWNO 流水號(hào) 2POSNO 收銀機(jī)號(hào) 3ITEMNO 序號(hào) 4SETTLENO 結(jié)轉(zhuǎn)期號(hào) 5GID
18、 商品 6QTY 數(shù)量 7INPRC 核算進(jìn)價(jià) 8PRICE 標(biāo)準(zhǔn)零售價(jià) 9REALAMT 實(shí)際銷售額 10FAVAMT 優(yōu)惠總額 11TAG 標(biāo)記 12QPCGID 輸入GID 13PRMTAG 促銷標(biāo)記 14ASSISTANT 營業(yè)員 15WRH 倉位 16INVNO 發(fā)票號(hào) 17COST 成本 18DEALER 經(jīng)辦人 create table t_zhonglei_sale(t_id varchar(24),軟性飲料 int default 0, 啤酒 int default 0, 果酒 int default 0, 米酒 int default 0, 烈酒 int default 0
19、, 香煙 int default 0, 乳飲品 int default 0, 其它飲料 int default 0, 餅干及膨化食品 int default 0, 蜜餞糖果零食類 int default 0, 寵物食品 int default 0, 禮品1013 int default 0, 其它休閑食品 int default 0, 沖飲食品 int default 0, 速食米面 int default 0, 調(diào)味品 int default 0, 糧油雜糧 int default 0, 罐頭食品 int default 0, 營養(yǎng)品 int default 0, 禮品 int defaul
20、t 0, 其它干性食品 int default 0, 急救用品 int default 0, 維生素 int default 0, 西藥 int default 0, 中成藥 int default 0, 外用藥 int default 0, 性保健用品 int default 0, 其它醫(yī)藥用品 int default 0, 小型醫(yī)療用品 int default 0, 藥品禮品 int default 0, 冷食 int default 0, 熟食類 int default 0, 西式熟食 int default 0, 便利即食 int default 0, 其它熟食 int default
21、 0, 魚類 int default 0, 貝殼類 int default 0, 蝦類 int default 0, 蟹類 int default 0, 其它水產(chǎn) int default 0, 加工品干制品 int default 0, 家畜類 int default 0, 腌臘制品 int default 0, 其它肉制品 int default 0, 雞類 int default 0, 鴨類 int default 0, 其它禽類 int default 0, 蛋 int default 0, 其它禽蛋類 int default 0, 蔬菜 int default 0, 水果 int de
22、fault 0, 其它蔬果 int default 0, 乳制品 int default 0, 熟食類2051 int default 0, 盆菜 int default 0, 冷凍食品 int default 0, 冰品類 int default 0, 其它冷凍冷藏 int default 0, 自制品 int default 0, 成品 int default 0, 其它面復(fù)制品類 int default 0, 面包類 int default 0, 蛋糕類 int default 0, 匹薩 int default 0, 糕點(diǎn)類 int default 0, 其它西點(diǎn) int defaul
23、t 0, 成品面包 int default 0, 糕點(diǎn)蛋糕 int default 0, 其它面包糕點(diǎn) int default 0, 散裝干貨 int default 0, 散裝休閑食品 int default 0, 散裝營養(yǎng)品 int default 0, 散裝加工制品 int default 0, 散裝酒 int default 0, 散裝糧油 int default 0, 散裝餅干 int default 0, 其它散裝食品 int default 0, 花 int default 0,觀賞魚 int default 0,輔料 int default 0,原料 int default 0
24、) create table t_zhonglei_buy(flownoposno varchar(24),zlhaochar(5),zhonglei varchar(20),)-goinsert into t_zhonglei_buyselect b1.flowno+b1.posno,s.code,s.zhongleifrom buy2range b2,buy1range b1,goods g,t_zhonglei swhere b1.flowno=b2.flowno and b1.posno=b2.posno and b1.flowno =1 and b1.flowno 1 and b1.
25、realamt=30 and b2.gid=g.gid and substring(g.sort,1,4)=s.code group by b1.flowno+b1.posno,s.code,s.zhonglei( 行受影響)-建一個(gè)inst_t_zhonglei_sale存儲(chǔ)過程把t_zhonglei_buy里的中類轉(zhuǎn)成橫表CREATE PROCEDURE inst_t_zhonglei_sale asBEGINset nocount onDECLARE FullStatement NVARCHAR(4000)DECLAREcolumnname NVARCHAR(50)declare t_i
26、d varchar(24)-set t_id=T-print t_iddeclare fetch_id cursor for select flownoposno, zhonglei from t_zhonglei_buyopen fetch_idfetch next from fetch_id into t_id,columnnamewhile fetch_status=0 beginset fullstatement= insert t_zhonglei_sale0 (t_id, +columnname+)values (+t_id +, 1+)-print FullStatementEX
27、ECUTE (FullStatement)if error0 continuefetch next from fetch_id into t_id,columnnameendclose fetch_iddeallocate fetch_idEND(二) 使用SPSS Clementine 軟件實(shí)現(xiàn)Apriori算法及性能SPSS Clementine里有一個(gè)modeling是使用上面介紹的Apriori算法,下面介紹一下使用SPSS Clementine,關(guān)聯(lián)規(guī)則建模。1、定義數(shù)據(jù)源(數(shù)據(jù)裝載)啟動(dòng)Clementine系統(tǒng),添加一個(gè)數(shù)據(jù)庫源文件通過ODBC連接到前面生成的t_goods_sal
28、e表。2、 關(guān)聯(lián)模型參數(shù)說明:SPSS Clementine關(guān)聯(lián)規(guī)則模型創(chuàng)建主要有兩個(gè)參數(shù):一個(gè)是Minimum antecedent support(%)意為最小支持度,一個(gè)參數(shù)是Minimum rule confidence(%)意為最小置信度。Minimum antecedent support如果設(shè)置得太低,算法會(huì)花很長時(shí)間來進(jìn)行處理,對(duì)機(jī)器的內(nèi)存占用也很高。在購物籃數(shù)據(jù)中,數(shù)據(jù)比較稀疏,可以將Minimum Confidence設(shè)置為5%-10%,從而得到比較合理的規(guī)則。如果是稠密數(shù)據(jù)要將此值設(shè)置為40%-50%,否則會(huì)產(chǎn)生比較矛盾的結(jié)果。這兩個(gè)值的設(shè)置要綜合考慮機(jī)器性能和產(chǎn)生規(guī)則的
29、可讀性,是一個(gè)經(jīng)驗(yàn)值。和實(shí)際數(shù)據(jù)量有一定關(guān)系。在本文中為了查看規(guī)則的方便,設(shè)置支持度support=10%,置信度confidence=30%。在modeling界面下,選擇Apriori模型,用t_id做為一個(gè)購物籃,設(shè)置支持度support=10%,置信度confidence=30%。如下圖所示:點(diǎn)擊運(yùn)算鍵,共產(chǎn)生128條規(guī)則。從上圖挖掘出來的結(jié)果我們可以得出以下結(jié)論:大部分規(guī)則都是我們常人能夠理解的同時(shí)購買的商品,在超市里也會(huì)看到這些商品一般都會(huì)放在同一個(gè)地方。置信度比較高的幾個(gè)關(guān)聯(lián)規(guī)則都是購買了蜜餞糖果零食類,在購買蜜餞糖果零食類的同時(shí)有60%多以上的人同時(shí)購買了軟性飲料、餅干及膨化食
30、品。購買蔬菜、水果、家畜類、乳制品的關(guān)聯(lián)購買也較高,從前幾位的關(guān)聯(lián)規(guī)則可以看出,超市里的商品的陣列是引導(dǎo)商品銷售的最重要的因素。這給我們超市的經(jīng)營指出一個(gè)重要方向,超市的排面是最重要的資源,如果要提升超市的毛利率,應(yīng)該把毛利最高的東西放在最方便的地方。那什么商品毛利最高呢,從超市的實(shí)踐來看,自營品牌的商品的毛利最高,所以現(xiàn)在的超市都慢慢重視自有品牌,把自有品牌的東西放在最好的位置。關(guān)聯(lián)規(guī)則分析還可以被用作關(guān)聯(lián)商品價(jià)格促銷策略的基礎(chǔ)。商店的管理人員可以使用關(guān)聯(lián)規(guī)則分析來計(jì)劃打折促銷。一般來說對(duì)兩個(gè)關(guān)聯(lián)產(chǎn)品同時(shí)進(jìn)行打折可能并不是一個(gè)好主意,相反地,對(duì)一個(gè)進(jìn)行打折會(huì)拉動(dòng)另一個(gè)的銷售。從上面的數(shù)據(jù)挖掘
31、結(jié)果來看,我們可經(jīng)對(duì)糖果做促銷,可以帶動(dòng)其它關(guān)聯(lián)產(chǎn)品的銷售,而不降低企業(yè)的利潤。我們把數(shù)據(jù)挖掘結(jié)果按支持度排序可以看到以下界面:從以上這個(gè)結(jié)果可以看到,水果、蔬菜、乳制品、家畜類、熟食類的購買的頻次較高,這些都是生鮮商品。我們現(xiàn)在的大型超市一定要把生鮮這一塊重點(diǎn)加強(qiáng),生鮮做好了,可以帶來很多客流量。但是從挖掘結(jié)果來看,生鮮類自身的幾個(gè)中類的關(guān)聯(lián)度較高,說明買蔬菜的顧客同時(shí)購買食品的置信度高,而其它跨品類的百貨置信度不高。五、 全文的總結(jié)及數(shù)據(jù)挖掘以后在零售行業(yè)的研究方向(一) 全文總結(jié)本文采用杭州一家大型連鎖超市的POS系統(tǒng)數(shù)據(jù),在SQLSERVER2005中實(shí)現(xiàn)數(shù)據(jù)挖掘的數(shù)據(jù)準(zhǔn)備工作,利用簡
32、單的SQL語句,完成數(shù)據(jù)的整理、清洗、選擇與變換;使用成熟的商業(yè)軟件SPSS Clementine與SQLSERVER 2005通過ODBC連接,利用Clementine中的模型來做數(shù)據(jù)挖掘,建立了基于關(guān)聯(lián)規(guī)則的超市數(shù)據(jù)關(guān)聯(lián)分析模型,基本滿足購物籃分析的初步需求。利用這個(gè)模型可以有針對(duì)性的分析,如春節(jié)時(shí)期,購物籃有那些特點(diǎn),通過這個(gè)模型可以分析某個(gè)商品的促銷會(huì)帶來那些銷售。使促銷更有針對(duì)性。(二) 數(shù)據(jù)挖掘以后在零售行業(yè)的研究方向及前景展望1、由于水平有限和時(shí)間較短,本文所建立的關(guān)聯(lián)分析模型還有很功能需要完善和優(yōu)化:在SQLSERVER2005數(shù)據(jù)準(zhǔn)備過程中,利用存儲(chǔ)過程把POS數(shù)據(jù)的在數(shù)據(jù)庫
33、中的存儲(chǔ)是一行,要轉(zhuǎn)成Clementine能分析的數(shù)據(jù),要使用游標(biāo)一行行轉(zhuǎn)成列表,這個(gè)過程耗時(shí)較長。如何優(yōu)化這個(gè)過程和算法,縮短運(yùn)行時(shí)間成為下一步工作的重點(diǎn)。2、以后的研究方向:本文當(dāng)中只考慮了數(shù)據(jù)集中的商品信息,以了現(xiàn)購買商品之間的關(guān)聯(lián)規(guī)則,沒有考慮顧客的個(gè)人信息。假設(shè)把那些購買魚、水果蔬菜的顧客稱為“健康食品偏好者”。還可以利用數(shù)據(jù)挖掘決策樹算法來挖掘什么人偏好“健康食品”,或者VIP客戶偏好購買那些商品。3、利用數(shù)據(jù)挖掘工具聚類分析算法來發(fā)現(xiàn)潛在的VIP客戶。六、 參考文獻(xiàn):1、(加)Jiawei Han 、Micheline Kamber著:數(shù)據(jù)挖掘:概念與技術(shù),機(jī)械工業(yè)出版社,200
34、7.32、宋蓓:面向零售數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘算法的研究與應(yīng)用,學(xué)術(shù)論文,2009.063、元昌安著:數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用寶典,電子工業(yè)出版社,2009.84、肖亮著:分布式連鎖商業(yè)數(shù)據(jù)挖掘模型,航空工業(yè)出版社,2008.115、(美)派爾|譯者:楊冬青:業(yè)務(wù)建模與數(shù)據(jù)挖掘,機(jī)械工業(yè)出版社,2005.046、(美)唐/(美)麥克雷南|譯者:鄺祝芳/焦賢龍/高升數(shù)據(jù)挖掘原理與應(yīng)用-SQL Server2005數(shù)據(jù)庫,清華大學(xué)出版社,2007.077、林凡:數(shù)據(jù)挖掘在零售業(yè)交叉銷售中的應(yīng)用研究,學(xué)術(shù)論文,2009.058、李啟炎:企業(yè)商業(yè)智能教程,同濟(jì)大學(xué)出版社,2007.119、謝邦昌:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025分布式車載太陽能光伏電源系統(tǒng)
- 2025年微波和高頻波解凍設(shè)備項(xiàng)目建議書
- 廣西桂林賀州崇左三市高三第二次聯(lián)合調(diào)研考試?yán)砭C生物試卷
- 襯膠防腐施工方案
- 企業(yè)跨文化管理策略和建議
- 新疆嚙齒動(dòng)物病毒組研究及其溫州砂粒病毒的分離鑒定
- 出售工程材料合同范例
- 如何實(shí)現(xiàn)小學(xué)語文與信息技術(shù)的融合
- 帶著理念去上課
- 書法合作合同范本
- 《金融市場(chǎng)與金融工具》課程教學(xué)大綱
- 2024年新疆區(qū)公務(wù)員錄用考試《行測(cè)》真題及答案解析
- 導(dǎo)彈防御課件教學(xué)課件
- 上海鐵路局入職合同范例
- Profinet(S523-FANUC)發(fā)那科通訊設(shè)置
- 航空器自動(dòng)駕駛
- 《公路橋涵施工技術(shù)規(guī)范》JTG-T3650-2020培訓(xùn)
- 2024年大學(xué)試題(教育學(xué))-課程與教學(xué)論考試近5年真題集錦(頻考類試題)帶答案
- 四年級(jí)數(shù)學(xué)下冊(cè)簡便運(yùn)算100題及答案
- 緊密型醫(yī)療衛(wèi)生共同體慢性病雙向轉(zhuǎn)診流程圖
- DB34T 1591-2012 茶樹凍害氣象指標(biāo)
評(píng)論
0/150
提交評(píng)論