




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目錄
摘要...................................................................1
前言...................................................................2
第1章數(shù)據(jù)獲取及預(yù)處理...............................................4
1.1數(shù)據(jù)獲取.......................................................4
1.2數(shù)據(jù)預(yù)處理.....................................................5
1.3數(shù)據(jù)清理.......................................................5
1.4數(shù)據(jù)歸并.......................................................6
1.5數(shù)據(jù)標(biāo)準(zhǔn)化.....................................................7
1.6處理效果評(píng)價(jià)..................................................10
第2章訪問(wèn)目標(biāo)分析的實(shí)現(xiàn).............................................12
2.1聚類算法分析...................................................12
2.2K-均值算法實(shí)現(xiàn)................................................12
2.2.1算法原理.................................................12
2.2.2算法過(guò)程與實(shí)現(xiàn)...........................................13
2.3K-中心點(diǎn)算法實(shí)現(xiàn)..............................................14
2.3.1算法原理.................................................14
2.3.2算法過(guò)程與實(shí)現(xiàn)...........................................15
2.4結(jié)合凝聚方法的聚類算法實(shí)現(xiàn)....................................16
第3章訪問(wèn)習(xí)慣分析的實(shí)現(xiàn).............................................19
3.1關(guān)聯(lián)規(guī)則挖掘算法分析...........................................19
3.2APRIORI算法實(shí)現(xiàn)...............................................20
結(jié)語(yǔ)..................................................................24
參考文獻(xiàn)..............................................................25
大數(shù)據(jù)背景下的大型超市數(shù)據(jù)分析
摘要
本文首先對(duì)課題實(shí)驗(yàn)采用的原始數(shù)據(jù)的采集獲取工作進(jìn)行了介紹,然后詳細(xì)介紹
了數(shù)據(jù)清理、數(shù)據(jù)歸并、數(shù)據(jù)標(biāo)準(zhǔn)化等預(yù)處理流程,并成功縮小了原數(shù)據(jù)規(guī)模,獲得
了滿足要求和約束條件的實(shí)驗(yàn)數(shù)據(jù)集。在預(yù)處理后的數(shù)據(jù)集上結(jié)合系統(tǒng)的需求分析,
從訪問(wèn)目標(biāo)分析和訪問(wèn)習(xí)慣分析兩個(gè)角度進(jìn)行了設(shè)計(jì)與實(shí)現(xiàn),在此過(guò)程中引入了聚類
分析和關(guān)聯(lián)規(guī)則分析兩中數(shù)據(jù)挖掘方法。其中聚類分析采用了K-均值、K-中心點(diǎn)算
法和結(jié)合凝聚方法的改進(jìn)K-均值算法;關(guān)聯(lián)規(guī)則分析則采用Apriori算法挖掘頻繁
項(xiàng)集,并生成關(guān)聯(lián)規(guī)則。
關(guān)鍵詞:大數(shù)據(jù);超市產(chǎn)品;商品
刖百
市民各種商品的購(gòu)買需求,不論都市步行街,小鎮(zhèn)鎮(zhèn)中心或者是旅游景點(diǎn),隨處
可見(jiàn)規(guī)模各異的超市。超市遵循著業(yè)界千篇一律的商品擺放規(guī)律,比如促銷商品放門
口,小商品,小食品放收銀臺(tái)。規(guī)律簡(jiǎn)單有效,但是也有缺點(diǎn)。每一個(gè)超市由于地理
位置的不同,所面臨的顧客也大不相同,顧客的需求也不同。如何根據(jù)當(dāng)前超市的情
況,對(duì)物品做出擺放的調(diào)整。不同的季節(jié),客戶所需求的商品也會(huì)截然不同。根據(jù)以
往的經(jīng)驗(yàn)去擺放季節(jié)性商品既不及時(shí),效率也不高。另外,由于突發(fā)事件,例如天津
港事件中,礦泉水的銷售一空??梢岳眠@種突發(fā)事件的時(shí)機(jī),在礦泉水旁邊擺放更
多想要銷售的商品,這也非常重要"。
當(dāng)前,有些超市培訓(xùn)公司也在做大量相關(guān)的調(diào)查,盡量去做出一套方案以適應(yīng)大
多數(shù)超市,然而,這都是依照以往的數(shù)據(jù)進(jìn)行的分析,無(wú)法更好的適應(yīng)瞬息萬(wàn)變的顧
客需求。
計(jì)算機(jī)及條形碼的發(fā)展使得便捷的掃碼結(jié)賬成為超市主流收銀方式。結(jié)賬的信息
不僅通過(guò)小票的形式給了顧客,同時(shí)也存儲(chǔ)在商家的電腦中。這些流水信息包含詳細(xì)
的銷售情況,比如銷售的商品名,價(jià)格,數(shù)量,時(shí)間等。一般商家會(huì)對(duì)這些信息進(jìn)行
粗制的匯總用來(lái)統(tǒng)計(jì)超市的每日商品銷量,銷售額,銷售利潤(rùn)等,也能通過(guò)這些數(shù)據(jù)
得到商品的庫(kù)存。數(shù)據(jù)挖掘技術(shù)的出現(xiàn),超市可以更加充分的去利用這些數(shù)據(jù),從而
去理解顧客。比如合理的根據(jù)庫(kù)存調(diào)整商品的價(jià)格,合理的促銷,利用關(guān)聯(lián)規(guī)則對(duì)商
品進(jìn)行合理的擺放等。這些都能通過(guò)數(shù)據(jù)挖掘技術(shù)去充分挖掘小票數(shù)據(jù)從而進(jìn)行合理
的超市營(yíng)銷。已經(jīng)有一些文獻(xiàn)對(duì)超市營(yíng)銷和關(guān)聯(lián)規(guī)則算法進(jìn)行研究,但一般是單機(jī)算
法或者沒(méi)有考慮到商品利潤(rùn)的權(quán)重九
超市營(yíng)銷中最典型的手段就是促銷。通過(guò)促銷,能夠有效的引導(dǎo)消費(fèi)者關(guān)注所促
銷的商品,并提高該商品的銷量。促銷商品的來(lái)源一般是從超市經(jīng)營(yíng)者或者供應(yīng)商的
角度出發(fā)。日益激烈的超市競(jìng)爭(zhēng),也使得沒(méi)有考慮顧客需求的促銷行為效果大大打折。
盡管作為一個(gè)與顧客進(jìn)行交互的商業(yè)行為,超市一般也只是考慮單一商品的利潤(rùn),
實(shí)際上,通過(guò)分析顧客的購(gòu)買行為,我們也能通過(guò)關(guān)聯(lián)商品的銷售手段去提高超市整
體的利潤(rùn)。
經(jīng)營(yíng)者通常針對(duì)單個(gè)貨架上商品總利潤(rùn)來(lái)統(tǒng)計(jì)超市整體的利潤(rùn)水平,將貨架擺放
在人流大的地方提高單個(gè)貨架的銷量,也能實(shí)現(xiàn)貨架的利潤(rùn)的提高。因此,合理的放
置貨架和合理的擺放貨架上的商品,是一個(gè)超市需要考慮的問(wèn)題。能讓顧客在一個(gè)貨
架或者是相連的貨架買到自己需求的商品,不僅為顧客節(jié)約了寶貴的時(shí)間,也能提高
商品的銷量。經(jīng)營(yíng)者利用數(shù)據(jù)挖掘技術(shù)去分析小票數(shù)據(jù),能夠了解顧客的購(gòu)買習(xí)慣,
提高關(guān)聯(lián)商品的銷量,提高貨架使用率,建立更加合理的貨架擺放和商品擺放。因此,
想做好超市營(yíng)銷要關(guān)注超市商品的擺放策略、
很多數(shù)據(jù)挖掘的學(xué)者關(guān)注到這一問(wèn)題,并進(jìn)行了很多理論研究。主流的結(jié)論是根
據(jù)關(guān)聯(lián)規(guī)則算法去分析貨架商品的擺放,但僅僅根據(jù)算法關(guān)聯(lián)支持度去排序,而沒(méi)有
考慮商品的利潤(rùn),是不適合的。對(duì)于商家來(lái)說(shuō),增加利潤(rùn)才是最重要的。提高商品的
銷量還能提高超市整體的利潤(rùn),能夠提供更有實(shí)際價(jià)值的營(yíng)銷策略。
第1章數(shù)據(jù)獲取及預(yù)處理
1.1數(shù)據(jù)獲取
用戶行為分析系統(tǒng)的數(shù)據(jù)源是公網(wǎng)訪問(wèn)流量控制服務(wù)器(以下簡(jiǎn)稱流控服務(wù)器),
流控服務(wù)器在網(wǎng)絡(luò)中的位置如圖1-1所示。從圖上可以看到,流控服務(wù)器連接著分別
通向教育網(wǎng)絡(luò)、電信網(wǎng)絡(luò)和聯(lián)通網(wǎng)絡(luò)三條不同出口。校內(nèi)的公網(wǎng)訪問(wèn)請(qǐng)求首先將通過(guò)
流控服務(wù)器,到達(dá)公網(wǎng)出口路由后,會(huì)根據(jù)所請(qǐng)求的資源的地址,自動(dòng)選擇相應(yīng)的公
網(wǎng)出口。在流控服務(wù)器上記錄著每一條公網(wǎng)訪問(wèn)信息,每天都會(huì)有數(shù)十GB的訪問(wèn)日
志數(shù)據(jù)增加。
防火墻
圖1-1超市訪問(wèn)示意圖
流控服務(wù)器上的網(wǎng)絡(luò)訪問(wèn)日志有RPT_LUR、RPT_PUR、RPT_TR、RPTJ1ALUR,
RPT_MEDIA等文件,其中RPT_TR是主日志文件,記錄了所有的公網(wǎng)訪問(wèn)信息,因此
將該日志文件作為系統(tǒng)的原始數(shù)據(jù)源。
由于訪問(wèn)日志文件記錄的數(shù)據(jù)量十分巨大,為了便于進(jìn)行分析與實(shí)驗(yàn),也為了避
免對(duì)流控服務(wù)器的日常運(yùn)行造成影響,特從2016年3月1日至2016年3月31日的
原始數(shù)據(jù)中抽取一百萬(wàn)條記錄作為實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)操作在WindowsPC機(jī)上進(jìn)行,該
PC機(jī)支持PHP和MySQL數(shù)據(jù)庫(kù)。
1.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理目的是為數(shù)據(jù)挖掘工作準(zhǔn)備數(shù)據(jù)集,避免由于數(shù)據(jù)冗余、噪音等因素
影響數(shù)據(jù)挖掘的順利進(jìn)行,從而提高數(shù)據(jù)挖掘的質(zhì)量,使分析結(jié)果的意義更加明確、
更加符合實(shí)際需求'數(shù)據(jù)預(yù)處理在實(shí)際的數(shù)據(jù)挖掘項(xiàng)目中往往是耗費(fèi)時(shí)間最多、最
為繁瑣的步驟。數(shù)據(jù)預(yù)處理包括了數(shù)據(jù)理解、數(shù)據(jù)整理與合并、數(shù)據(jù)抽樣、數(shù)據(jù)描述、
數(shù)據(jù)清理、變量變換與合成、變量選擇等。
在確定了業(yè)務(wù)目標(biāo)后,要收集相關(guān)的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行描述以熟悉數(shù)據(jù),對(duì)數(shù)
據(jù)進(jìn)行檢查以確認(rèn)數(shù)據(jù)的質(zhì)量,如數(shù)據(jù)是否存在噪聲、缺失值、冗余屬性、不一致、
數(shù)據(jù)過(guò)多或過(guò)少等問(wèn)題九數(shù)據(jù)選擇包括字段屬性的選擇、合成,以及數(shù)據(jù)內(nèi)容的選
擇等;數(shù)據(jù)清理要對(duì)噪聲數(shù)據(jù)和“臟”數(shù)據(jù)進(jìn)行去除,并對(duì)存在缺失值的數(shù)據(jù)進(jìn)行處
理;數(shù)據(jù)合成是根據(jù)業(yè)務(wù)需要或問(wèn)題實(shí)質(zhì),將原始數(shù)據(jù)中的單個(gè)或多個(gè)屬性記錄進(jìn)行
相應(yīng)的轉(zhuǎn)換,生成新的屬性;數(shù)據(jù)合并是將一些共性的數(shù)據(jù)記錄根據(jù)某種規(guī)則進(jìn)行合
并處理;數(shù)據(jù)格式化,又稱標(biāo)準(zhǔn)化,是對(duì)數(shù)據(jù)中存在的單位或數(shù)量級(jí)不一致的情況進(jìn)
行處理外
1.3數(shù)據(jù)清理
在原始數(shù)據(jù)中不可避免地存在許多噪聲數(shù)據(jù)和“臟”數(shù)據(jù),同時(shí)還有不少與用戶
行為分析無(wú)關(guān)的冗余數(shù)據(jù)。數(shù)據(jù)清理要試圖去除噪聲數(shù)據(jù),糾正問(wèn)題數(shù)據(jù),填充不完
整數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)一致性。
對(duì)基于Web訪問(wèn)的分析模型,本文關(guān)注的重點(diǎn)是用戶在進(jìn)行正常Web訪問(wèn)時(shí)的活
動(dòng)記錄,并且只關(guān)注與Web訪問(wèn)相關(guān)的字段屬性。根據(jù)分析模型的需求,我們重點(diǎn)關(guān)
注“請(qǐng)求訪問(wèn)時(shí)間”、“客戶端IP”、“客戶端端口”、“目標(biāo)IP”、“目標(biāo)端口”、“網(wǎng)站
域名”、“請(qǐng)求路徑”等字段。使用SQL語(yǔ)句將MySQL數(shù)據(jù)庫(kù)中“請(qǐng)求路徑”字段為空
和IP地址為空的元組刪除,并將數(shù)據(jù)保存在新的數(shù)據(jù)表Webdata中,獲得的數(shù)據(jù)記
錄共142043條。
1.4數(shù)據(jù)歸并
通過(guò)觀察發(fā)現(xiàn),在當(dāng)前的數(shù)據(jù)集中,“ACCESS_String”中的網(wǎng)址既有頂級(jí)域名,
也有二級(jí)、三級(jí)甚至多級(jí)域名,無(wú)法區(qū)分各個(gè)網(wǎng)址真實(shí)的訪問(wèn)情況,因此需要對(duì)數(shù)據(jù)
進(jìn)行處理,將各個(gè)訪問(wèn)網(wǎng)址歸并到各自的頂級(jí)域名'
在基于Web訪問(wèn)的分析模型中,作為主要特征的屬性有兩個(gè),一個(gè)是訪問(wèn)次數(shù),
由于并不分別考慮上行流量與下行流量的情況,因此將上下行流量合并為一個(gè)新的屬
性,并命名為流量。
Webdata數(shù)據(jù)表中的每條記錄都是單獨(dú)的請(qǐng)求操作,要獲得每一個(gè)網(wǎng)站的訪問(wèn)次
數(shù)就需要對(duì)這些記錄進(jìn)行歸并,以獲得每個(gè)網(wǎng)站的總訪問(wèn)次數(shù),使用SQL語(yǔ)句進(jìn)行
歸并操作。
經(jīng)過(guò)對(duì)網(wǎng)站訪問(wèn)量和流量歸并后的數(shù)據(jù)表如圖2T所示,共3446條。
websitevisitnetstream
OOlunion.COM2504
OOcounter.con115687
OlOso.com1609
Olhr.com371761
022net.COB1100001.9
021.cn1879
0211392
036.com.cn28650
0371sports,con280670
051Iqy.COB134130
0533car.cn134995
0563dy.coa21478
05809.com12178
07073.com11479
0750wyt.COB24348
0898.net636785
lOOOOcc.COB422788
lOOim.cn12869
lOOte.com23092
lOlOJob.COB11131
105.com.cn16623
lOgao.com26038
lOjqka.COM.cn423974
lOpix.ru23134
圖2-1網(wǎng)址訪問(wèn)量及流量統(tǒng)計(jì)
1.5數(shù)據(jù)標(biāo)準(zhǔn)化
在使用聚類算法對(duì)大量數(shù)據(jù)進(jìn)行處理時(shí),選用的度量單位將直接影響聚類分析的
結(jié)果。如果相同大小的值轉(zhuǎn)化為不同的度量單位,很可能就會(huì)產(chǎn)生非常不同的聚類結(jié)
果。一般來(lái)說(shuō),變量所用的度量單位越小,變量可能的值域就越大,對(duì)聚類結(jié)果的影
響也就越大。特別是當(dāng)需要把不同屬性的不同變量一同進(jìn)行分析時(shí),不同的取值范圍
容易使得分析結(jié)果發(fā)生扭曲,更偏向取值范圍大的變量。為了避免或減少這種情況的
影響,需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化)通過(guò)標(biāo)準(zhǔn)化處理,將所有的變量劃歸到相同或相近
的取值范圍,并根據(jù)需要對(duì)每個(gè)字段給予相對(duì)應(yīng)的權(quán)重。
在基于Web訪問(wèn)的分析模型中,訪問(wèn)次數(shù)與網(wǎng)絡(luò)流量?jī)蓚€(gè)屬性字段是計(jì)算網(wǎng)站相
似度的主要參數(shù),但是兩個(gè)字段值的數(shù)量級(jí)相差很大%如果不進(jìn)行相應(yīng)的標(biāo)準(zhǔn)化處
理,將很可能無(wú)法獲得準(zhǔn)確的分析結(jié)果。在這里,本文采用極差歸一化方法解決這個(gè)
問(wèn)題。
極差歸一化是將變量的極差,即取值范圍,線性地變換到區(qū)間:
_?一加七
Vi-
,maxx-mfnx
其中,匕是變換后的值,匕是待變換的值,max八和min」分別是變量的最大值和
最小值。極差歸一化也稱最大一最小歸一化。由于極差歸一化是線性變換,不會(huì)改變
原變量的分布,因而在實(shí)際應(yīng)用中得到廣泛使用。變量在歸一化后數(shù)值會(huì)集中到區(qū)間
中,便于處理口。數(shù)據(jù)標(biāo)準(zhǔn)化處理程自動(dòng)識(shí)別每個(gè)字段的取值范圍,并根據(jù)極差歸一
化的方法進(jìn)行標(biāo)準(zhǔn)化處理。經(jīng)過(guò)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)如圖4所示。
但在本分析模型中,相同字段內(nèi)的取值范圍也是很大的,如果直接采用普通的極
差歸一化方法會(huì)產(chǎn)生一個(gè)問(wèn)題:與變量最大值數(shù)量級(jí)相差較大的變量將被轉(zhuǎn)化為接近
零的值,這些值在采用歐氏距離進(jìn)行相似度計(jì)算的時(shí),會(huì)放大其效果,使得其相似度
更加接近于零。特別是數(shù)據(jù)集中變量存在極大值的時(shí)候,這個(gè)問(wèn)題尤為明顯,這一點(diǎn)
可以從圖2-2看出。
websitevisitnetstrean
OOlunion.COB2.72E-053.30E-06
OOcounter.com00.00010275
OlOso.co?03.99E-06
Olhr.com5.44E-050.00047003
022net.com00.000655
021.cn05.76E-06
0209.12E-06
036.con.cn2.72E-055.67E-05
03712.72E-050.00052838
051Iqy.com00.00022355
0533car.cn00.00022921
0563dy.com2.72E-059.68E-06
05809.co*01.43E-05
07073.co>09.69E-06
0750wyt.com2.72E-052.85E-05
0898.net0.00013590.00024094
lOOOOcc.com8.15E-050.00014926
1001m.cn01.88E-05
lOOte.COB2.72E-052.03E-05
lOlOjob.com07.41E-06
105.con.cn04.34E-05
lOgao.co*2.72E-053.95E-05
lOjqka.com.cn8.15E-050.00015703
lOpix.ru2.72E-052.05E-05
圖2-2標(biāo)準(zhǔn)化處理后的數(shù)據(jù)
另一方面,在數(shù)據(jù)的存儲(chǔ)上,過(guò)多的小數(shù)點(diǎn)位數(shù)并不利于精確保存,同時(shí)在計(jì)算
時(shí)也容易產(chǎn)生浮點(diǎn)精度的問(wèn)題,綜合考慮上述情況后,本文采用變量數(shù)量級(jí)差級(jí)變
換的方法,通過(guò)調(diào)整標(biāo)準(zhǔn)化數(shù)據(jù)的數(shù)量級(jí)來(lái)避免變量數(shù)值過(guò)小的問(wèn)題。其具體過(guò)程是:
(1)設(shè)數(shù)據(jù)集中需要計(jì)算的字段數(shù)量為n,首先獲取每個(gè)字段的最大值,分別
記為Vmaxi;
(2)比較%”,?每個(gè)值的數(shù)量級(jí),選擇數(shù)量級(jí)最小的值分別記為%axs;
(3)對(duì)各個(gè)字段使用極差歸一化的方法對(duì)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化,但在計(jì)算每個(gè)值
與最小值疝心的差時(shí),都乘以%血所對(duì)應(yīng)的數(shù)量級(jí)0s,即
v,=(Vi-minA^Os(52)
ImaxA-minA
經(jīng)過(guò)數(shù)量級(jí)差級(jí)放大后,數(shù)據(jù)集中各字段的數(shù)值能處在同一個(gè)數(shù)量級(jí)上,在計(jì)算
上帶來(lái)了方便,也提高了計(jì)算的準(zhǔn)確性。在經(jīng)過(guò)標(biāo)準(zhǔn)化的數(shù)據(jù)表中,“Visit”字段有
多個(gè)元組的值為0,為保證挖掘結(jié)果的準(zhǔn)確性,將這些元組刪除。重新標(biāo)準(zhǔn)化后的數(shù)
據(jù)如圖2-3所示。
websitevisitnetstream
OOlunion.co*0.2717690.033012
Olhr.com0.5435374.700284
036.com.cn0.2717690.566568
03710.2717695.283816
Olhr.com0.5435374.700284
036.0.2717690.566568
03710.2717695.283816
0563dy.com0.2717690.096808
0750wyt.com0.2717690.28479
0898.net1.3588432.409386
lOOOOcc.com0.8153061.492594
lOOte.COB0.2717690.202523
lOgao.com0.2717690.395484
lOjqka.com.cn0.8153061.570276
lOpix.ru0.2717690.205274
圖2-3改進(jìn)方法標(biāo)準(zhǔn)化處理后的數(shù)據(jù)
1.6處理效果評(píng)價(jià)
數(shù)據(jù)挖掘中相當(dāng)大的一部分工作就是數(shù)據(jù)準(zhǔn)備,特別是數(shù)據(jù)的預(yù)處理。根據(jù)國(guó)外
的統(tǒng)計(jì)數(shù)據(jù),在數(shù)據(jù)挖掘中數(shù)據(jù)準(zhǔn)備工作需要占用大概60%的工作量⑼。在本文中,
數(shù)據(jù)準(zhǔn)備工作并沒(méi)有達(dá)到那么高的復(fù)雜性,但仍然是很重要的工作,在實(shí)際操作中也
占用了相當(dāng)?shù)墓ぷ髁俊?/p>
根據(jù)用戶行為分析的需要,1百萬(wàn)條記錄的原始數(shù)據(jù)經(jīng)過(guò)提取、清理、歸并、標(biāo)
準(zhǔn)化等處理,最后獲得的符合分析需求的數(shù)據(jù)為2091條。數(shù)據(jù)預(yù)處理明顯地減小了
數(shù)據(jù)挖掘算法所要處理的數(shù)據(jù)規(guī)模,為數(shù)據(jù)挖掘工作提供了滿足要求和約束條件的數(shù)
據(jù)集,達(dá)到了數(shù)據(jù)預(yù)處理的目的。
第2章訪問(wèn)目標(biāo)分析的實(shí)現(xiàn)
2.1聚類算法分析
聚類分析包括劃分法、層次法等多種類型,但基本其目都是要把大量的數(shù)據(jù)對(duì)象
形成多個(gè)不同的簇或者群組,使得簇與簇之間的數(shù)據(jù)盡量不同而簇內(nèi)的數(shù)據(jù)盡量相似
r""o形式上,可以給定n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集D和要生成的簇?cái)?shù)k,通過(guò)不同算法將
數(shù)據(jù)對(duì)象組織成k(kWn)個(gè)分區(qū),它歸根結(jié)底還是求最優(yōu)解的問(wèn)題,實(shí)現(xiàn)n維樣本
空間全體向量距其聚類中心的距離最小,對(duì)于該樣本空間中的向量x,,X」:
…X/X“Xj2….,X加},則向量X:,X,之間的距離為:
辦=jEk=i(^ut-Xjk)
經(jīng)過(guò)多年研究,聚類算法主要集中于基于距離的聚類分析。在機(jī)器學(xué)習(xí)領(lǐng)域中,
將分類稱之為監(jiān)督學(xué)習(xí),因?yàn)樵诜诸惙治鲋型ǔ?huì)確定每一個(gè)訓(xùn)練數(shù)據(jù)和具體劃分的
類間的隸屬關(guān)系;但是聚類是屬于無(wú)監(jiān)督學(xué)習(xí),聚類算法的實(shí)現(xiàn)過(guò)程是在沒(méi)有類標(biāo)號(hào)
信息的情況下通過(guò)觀察學(xué)習(xí)得到的,而不是像分類一樣通過(guò)樣例進(jìn)行學(xué)習(xí)
用戶行為分析需要對(duì)多種行為屬性的數(shù)據(jù)進(jìn)行分析,并且一般原始數(shù)據(jù)量巨大。
但預(yù)處理后的數(shù)據(jù)集可能比原始數(shù)據(jù)集小很多,根據(jù)數(shù)據(jù)預(yù)處理的結(jié)果,本文采用
K-均值和K-中心點(diǎn)算法進(jìn)行聚類,并通過(guò)一定的改進(jìn)提高聚類算法可靠性。
2.2K-均值算法實(shí)現(xiàn)
2.2.1算法原理
K-均值(K-means)算法以要生成的簇的數(shù)目k為輸入?yún)?shù),把n個(gè)對(duì)象劃分為
k組(kWn),每個(gè)組表示一個(gè)簇。首先,隨機(jī)選擇k個(gè)對(duì)象代表簇的平均值,稱為
簇的中心即。然后將剩余的對(duì)象劃分到最近似的簇中,再重新計(jì)算每個(gè)簇的平均值。
這個(gè)過(guò)程一直重復(fù),直到準(zhǔn)則函數(shù)收斂,或者達(dá)到指定的迭代次數(shù)上限為止。通常采
用平方誤差準(zhǔn)則函數(shù),即
Je—EiiExeCil'—W
其中,乙是數(shù)據(jù)集合中所有數(shù)據(jù)對(duì)象的平方誤差的總和;x是數(shù)據(jù)對(duì)象,”是
簇G的平均值。
兩個(gè)數(shù)據(jù)對(duì)象之間的相似度可以通過(guò)他們間的相異性來(lái)定義和描述。一般而言,
在計(jì)算兩個(gè)對(duì)象之間的相異性時(shí),會(huì)采用兩個(gè)對(duì)象之間的距離來(lái)計(jì)算。在計(jì)算個(gè)體對(duì)
象與簇中心距離時(shí),通常采用歐式距離,其計(jì)算公式為
d(x,y)=JwiQi—+卬2(必一小產(chǎn)+…+卬久力一小產(chǎn)
即
2
rf(x,y)=Wk(Xk-yk)(1wkWn)
其中,芯=(和々,工3…x“)和、=(如%,%…”)是兩個(gè)n維的數(shù)據(jù)對(duì)象,而
加=(見(jiàn),加2,%…加“)則是代表每個(gè)屬性在計(jì)算相異度時(shí)所代表的權(quán)重,不同的權(quán)重設(shè)
置會(huì)產(chǎn)生不同的相異度,從而影響到簇的劃分。
2.2.2算法過(guò)程與實(shí)現(xiàn)
前期從校園網(wǎng)流控服務(wù)器上采集的原始數(shù)據(jù)經(jīng)過(guò)了一系列的預(yù)處理之后,存儲(chǔ)在
MySQL數(shù)據(jù)庫(kù)之中,使用MySQL數(shù)據(jù)庫(kù)Webdata表中網(wǎng)站的點(diǎn)擊量和流量作為算法的
輸入。對(duì)于K-均值算法,還需要指定進(jìn)行聚類的簇的數(shù)目k。
K-均值算法見(jiàn)圖2-1,其具體過(guò)程如下:
輸入:簇的數(shù)目k,網(wǎng)站點(diǎn)擊量visit,網(wǎng)站流量netstream
輸出:以visit和netstream為特征的k個(gè)簇,即k類網(wǎng)站
開(kāi)始
輸入包含n個(gè)對(duì)
象的數(shù)據(jù)集
輸入簇的數(shù)目k
圖2TK-均值算法流程圖
得到的k個(gè)簇即為以訪問(wèn)量和流量加以區(qū)分的k種不同類型的網(wǎng)站。
2.3K-中心點(diǎn)算法實(shí)現(xiàn)
2.3.1算法原理
K-中心點(diǎn)(K-medoids)算法不采用對(duì)象的平均值作為簇中心,而選用簇中離平
均值最近的對(duì)象作為簇中心,這樣可以盡量減少孤立點(diǎn)對(duì)中心選擇的影響,%其余的
每個(gè)對(duì)象被分配到與其最為相似的代表性對(duì)象所在的簇中。使用了一個(gè)絕對(duì)誤差標(biāo)準(zhǔn)
進(jìn)行劃分,即
其中,E是數(shù)據(jù)集中所有對(duì)象p與Ci的代表對(duì)象oi的絕對(duì)誤差之和。這是K-
中心點(diǎn)方法的基礎(chǔ)。K-中心點(diǎn)聚類通過(guò)最小化該絕對(duì)誤差,把n個(gè)對(duì)象劃分到K個(gè)簇
中。
圍繞中心點(diǎn)劃分(PartitioningAroundMedoids)是K-中心點(diǎn)聚類的一種流行
實(shí)現(xiàn)。PAM算法的目的是對(duì)n個(gè)數(shù)據(jù)對(duì)象給出k個(gè)劃分,PAM算法的基本思想:先為
每個(gè)簇隨意選擇一個(gè)代表對(duì)象(中心點(diǎn)),剩余的對(duì)象根據(jù)其與代表對(duì)象的相異度或
距離分配給最近的一個(gè)簇。然后反復(fù)地用非代表對(duì)象來(lái)替換代表對(duì)象,以提高聚類的
質(zhì)量;聚類質(zhì)量由代價(jià)函數(shù)來(lái)評(píng)估,該函數(shù)用來(lái)判斷一個(gè)非代表對(duì)象是否是當(dāng)前一個(gè)
代表對(duì)象的好的代替,如果就是進(jìn)行替換,否則不替換。最后給出正確的劃分。
2.3.2算法過(guò)程與實(shí)現(xiàn)
PAM算法的過(guò)程如圖2-2所示,其具體過(guò)程如下:
輸入:結(jié)果簇的個(gè)數(shù)k,網(wǎng)站點(diǎn)擊量visit,網(wǎng)站流量netstream
輸出:
圖2-2K-中心點(diǎn)算法流程圖
得到的k個(gè)簇即為以訪問(wèn)量和流量加以區(qū)分的k種不同類型的網(wǎng)站。
2.4結(jié)合凝聚方法的聚類算法實(shí)現(xiàn)
在K-均值算法中,第一步就是隨機(jī)選擇k個(gè)對(duì)象,分別作為k個(gè)簇的中心點(diǎn)。
最理想的情況就是初始狀態(tài)下選擇的k個(gè)中心屬于不同簇,即任意兩個(gè)初始的中心點(diǎn)
都不屬于同一個(gè)最終劃分的簇;同時(shí),k個(gè)初始對(duì)象應(yīng)該盡可能地靠近每個(gè)簇的中心。
但通過(guò)實(shí)驗(yàn)可以發(fā)現(xiàn),K-均值算法的初始劃分很難通過(guò)隨機(jī)選擇方式來(lái)達(dá)到理想狀態(tài)
的約束條件的。為了對(duì)這種情況進(jìn)行改進(jìn),優(yōu)化初始簇劃分,在這里引入了基于層次
的凝聚聚類算法。
凝聚聚類算法采用的是自底向上的策略,它的基本思想是:首先將每個(gè)一個(gè)數(shù)據(jù)
對(duì)象看作是一個(gè)獨(dú)立的簇,然后比較每?jī)蓚€(gè)簇之間的相異度,依次合并最相似的原子
簇并形成新的簇,簇的數(shù)目越來(lái)越少,簇的大小越來(lái)越大,直到所有的對(duì)象都在一個(gè)
簇中,或者滿足某個(gè)終結(jié)條件為止。凝聚聚類算法的執(zhí)行結(jié)果是生成一顆聚類樹(shù),它
的優(yōu)點(diǎn)是方法簡(jiǎn)單,聚類的層次結(jié)構(gòu)清晰,基本可以發(fā)現(xiàn)任何形狀的簇,沒(méi)有K-均
值算法的初始值選擇問(wèn)題,可以根據(jù)不同的需求對(duì)簇的粒度進(jìn)行調(diào)整,從而滿足不同
的分析需求,生成較高質(zhì)量的聚類。但是凝聚聚類算法也存在明顯的缺點(diǎn)。首先,同
其他層次聚類算法一樣,在聚類過(guò)程中,每一次簇的合并都是不可逆的嘰這使得已
經(jīng)形成的簇不能進(jìn)一步得到優(yōu)化;其次,在進(jìn)行簇合并操作時(shí),需要進(jìn)行大量的計(jì)算
以獲得簇之間的相異度,并且隨著數(shù)據(jù)對(duì)象的增多,計(jì)算量急劇增加,因此并不具有
良好的伸縮性,不適合大數(shù)據(jù)集的處理。
在本課題中,我們結(jié)合K-均值聚類算法與凝聚聚類算法的特點(diǎn),并盡量避免其
缺點(diǎn),從而提出一種較為有效的算法改進(jìn)方案。該方案的基本思想是:采用抽樣方法
從數(shù)據(jù)集中獲得隨機(jī)樣本,采用凝聚聚類算法進(jìn)行分析,獲得初始的簇劃分;然后以
凝聚聚類算法獲得的初始簇的中心點(diǎn)作為K-均值算法初始簇中心點(diǎn),再進(jìn)行K-均值
聚類。這個(gè)方案結(jié)合了抽樣、凝聚聚類和K-均值聚類方法的特點(diǎn),既利用凝聚聚類
優(yōu)化了初始簇的劃分,又利用K-均值聚類在處理大數(shù)據(jù)集上的性能優(yōu)勢(shì),并且在一
定程度上較少了數(shù)據(jù)輸入的順序?qū)τ贙-均值算法聚類結(jié)果的影響。同時(shí),經(jīng)過(guò)優(yōu)化
的初始簇劃分也能夠減少K-均值聚類的過(guò)程的迭代次數(shù),進(jìn)一步提高分析效率。
當(dāng)數(shù)據(jù)集過(guò)大的時(shí)候,受數(shù)據(jù)挖掘算法的時(shí)間或空間復(fù)雜度的限制,需要對(duì)數(shù)據(jù)
集進(jìn)行抽樣才能進(jìn)行有效的分析同。常見(jiàn)的抽樣方法有隨機(jī)抽樣和分層抽樣。隨機(jī)抽
樣又稱簡(jiǎn)單抽樣,它從數(shù)據(jù)集中隨機(jī)抽取一定比例的樣本,在抽取時(shí)分為有放回和無(wú)
放回兩種情況;分層抽樣是首先利用某個(gè)條件將數(shù)據(jù)集分割成許多子集,在對(duì)每個(gè)子
集進(jìn)行隨機(jī)抽樣的過(guò)程。
在基于Web訪問(wèn)的分析模型中,數(shù)據(jù)集的分布呈現(xiàn)較為不均勻的形態(tài),因此我們
選擇采用分層抽樣,以提高數(shù)據(jù)分布較少的類的樣本比例,避免其被分析算法“忽略”。
考慮到在進(jìn)行數(shù)據(jù)抽樣時(shí)可能存在的隨機(jī)性和不確定性,將方案中的抽樣和凝聚
步驟改為進(jìn)行多次抽樣,分別通過(guò)凝聚聚類獲得初始簇的劃分,并將各次凝聚的結(jié)果
進(jìn)行綜合處理,最終確定初始簇的劃分。改進(jìn)后的方案流程如圖2-3所示。
算法的具體過(guò)程如下:
輸入:經(jīng)過(guò)預(yù)處理的數(shù)據(jù)集D和預(yù)期劃分簇的數(shù)目k
輸出:經(jīng)過(guò)優(yōu)化方案生成的k個(gè)簇
過(guò)程:
(1)按照分層抽樣方法從數(shù)據(jù)集D中抽取m個(gè)樣本號(hào)=。=1,2…
(2)對(duì)每個(gè)樣本S;采用凝聚聚類算法進(jìn)行聚類分析,并以簇?cái)?shù)k為聚類終止條
件,生成m組初始簇劃分,將每組簇的中心集記為Z,=(i=L2…
(3)將m組初始簇的劃分進(jìn)行綜合處理,以獲取用于K-均值聚類的初始簇的劃
分,處理方式為:
首先將每組初始簇的劃分按照中心點(diǎn)位置進(jìn)行排序,然后將每組初始簇中對(duì)應(yīng)簇
的中心點(diǎn)求均值,將均值作為相應(yīng)位置上的簇的初始中心,表達(dá)為:
Z=$},>小k
(4)將初始的簇劃分的中心集作為輸入,采用K-均值算法對(duì)完整數(shù)據(jù)集進(jìn)行聚
類分析,其過(guò)程與前文所述相同;
(5)返回各個(gè)聚類的中心和成員。
圖2-3混合聚類算法流程圖
第3章訪問(wèn)習(xí)慣分析的實(shí)現(xiàn)
3.1關(guān)聯(lián)規(guī)則挖掘算法分析
關(guān)聯(lián)規(guī)則(AssociationRule)挖掘算法是數(shù)據(jù)挖掘領(lǐng)域中十分重要的算法,該
方法主要基于概率論與數(shù)理統(tǒng)計(jì)方法進(jìn)行聚類分析。從1993年R.Agrawal提出關(guān)聯(lián)
規(guī)則開(kāi)始,到現(xiàn)在已經(jīng)有了20余年的發(fā)展,關(guān)聯(lián)規(guī)則算法一般來(lái)說(shuō)計(jì)算簡(jiǎn)便且易于
實(shí)踐,具有極強(qiáng)的適用性。
關(guān)聯(lián)規(guī)則是主要針對(duì)不同項(xiàng)在不同事務(wù)中的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì),算法主要通過(guò)在
眾多事務(wù)中發(fā)現(xiàn)出現(xiàn)頻繁的項(xiàng)的集合并根據(jù)這些頻繁項(xiàng)集推導(dǎo)最終結(jié)論。一般來(lái)說(shuō),
關(guān)聯(lián)規(guī)則應(yīng)該是項(xiàng)A=項(xiàng)B這類的形式,項(xiàng)A與項(xiàng)B無(wú)交集,相互獨(dú)立,并且項(xiàng)A與
項(xiàng)B都屬于待挖掘項(xiàng)。其中事務(wù)的概念是指一次事件發(fā)生過(guò)程,而項(xiàng)則是指在某一次
事務(wù)中包含的所關(guān)注的數(shù)據(jù),例如學(xué)生A在某一時(shí)間段訪問(wèn)了某個(gè)站點(diǎn)產(chǎn)生了一次訪
問(wèn)記錄,則這一行為動(dòng)作便可以被抽象成一次事務(wù),而時(shí)間、站點(diǎn)地址、流量等則是
算法所關(guān)心的項(xiàng)。對(duì)于關(guān)聯(lián)規(guī)則,便是要得出類似項(xiàng)A發(fā)生可以得出項(xiàng)B發(fā)生這樣的
結(jié)論。
以下簡(jiǎn)單介紹與關(guān)聯(lián)規(guī)則相關(guān)的重要定義及性質(zhì)。
1.相關(guān)定義
假設(shè)/=億是項(xiàng)的集合,對(duì)于每個(gè)事務(wù)數(shù)據(jù)庫(kù)D來(lái)說(shuō),都有唯一的標(biāo)志
TID對(duì)其進(jìn)行標(biāo)志。因此,每個(gè)事務(wù)=…都對(duì)應(yīng)I上的一個(gè)子集。
(1)數(shù)據(jù)項(xiàng)集的支持度。是指包含X的事務(wù)在D中所占的百分比,即為
Support^)=||{teD|XGt)||/||D||
(2)頻繁項(xiàng)集與非頻繁項(xiàng)集。對(duì)于支持度大于等于最小支持度的非空數(shù)據(jù)項(xiàng)集
稱作頻繁項(xiàng)集,否則稱為非頻繁項(xiàng)集。
(3)關(guān)聯(lián)規(guī)則。稱X=Y的蘊(yùn)含式是數(shù)據(jù)集D中的一個(gè)關(guān)聯(lián)規(guī)則,其中X,Yul,
并且XAY=。。在這個(gè)關(guān)聯(lián)規(guī)則中X稱作條件,Y稱作結(jié)果。
(4)關(guān)聯(lián)規(guī)則的支持度與置信度。規(guī)則X=Y的支持度指在數(shù)據(jù)集D中既包含X
又包含Y的事務(wù)占總事務(wù)數(shù)之比,即同時(shí)出現(xiàn)數(shù)據(jù)項(xiàng)集X和Y的概率,表達(dá)式為:
Support(XY)=Support(JAJY)=P(MJY)
規(guī)則X=Y的置信度指在數(shù)據(jù)集D中,包含X的事務(wù)中同時(shí)包含X和Y的事務(wù)的
占比,即數(shù)據(jù)項(xiàng)集X出現(xiàn)的前提下,數(shù)據(jù)項(xiàng)集Y出現(xiàn)的條件概率,表達(dá)式為:
Confidence(X=^Y)=SupportfAUF)/Support(X)=P(Y\X)
(5)關(guān)聯(lián)規(guī)則的強(qiáng)弱。支持度體現(xiàn)的是項(xiàng)目集在交易中出現(xiàn)的頻度,而置信度
體現(xiàn)的則是項(xiàng)目集之間的關(guān)聯(lián)程度。一般地,用戶可以定義兩個(gè)閾值,分別設(shè)為最小
支持度閾值和最小置信度閾值,要求數(shù)據(jù)挖掘系統(tǒng)所生成的關(guān)聯(lián)規(guī)則的支持度和置信
度都不小于這兩個(gè)給定的閾值,我們則把這個(gè)規(guī)則成為強(qiáng)關(guān)聯(lián)規(guī)則,否則就是弱關(guān)聯(lián)
規(guī)則。
3.2Apriori算法實(shí)現(xiàn)
Apriori算法是最為經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法,其核心方法是基于使用候選項(xiàng)集
尋找頻繁項(xiàng)集方法。作為一種挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,Apriori算法的核
心在于兩階段頻集思想的遞推算法。通過(guò)大量的實(shí)驗(yàn)驗(yàn)證和實(shí)際應(yīng)用場(chǎng)景的檢測(cè),該
算法在主要適用于單維、單層、布爾類型的關(guān)聯(lián)規(guī)則。
Apriori算法作為最為經(jīng)典的頻繁項(xiàng)集獲取算法,主要依賴于兩個(gè)推論,即對(duì)于
項(xiàng)集"=%44…,Dj={dyi,dy2,dy3,...,dyn)其中m與n分別為項(xiàng)集Di
與Dj所包含的項(xiàng)的數(shù)目,如果Di是Dj的子集的話,也即DiUD尸Dj,DiCDj=Di,
那么在事務(wù)集T中,父集出現(xiàn)Dj出現(xiàn)的數(shù)量必然小于或者等于子集Di出現(xiàn)的數(shù)量,
雙方同時(shí)除以事務(wù)集T的事務(wù)總數(shù),便可以得到,support(Dj)^support(Di),也
即support(Dj)>Pminsupport,根據(jù)之前所得到的support(Dj)仁support(Di),
可以得出support(Di)>Pminsupport,能推出結(jié)論,如果父集Dj是頻繁項(xiàng)集的話,
那么子集Di必然是頻繁項(xiàng)集。同時(shí)根據(jù)這個(gè)結(jié)論的逆否命題,便可以繼續(xù)得到
Apriori算法所需要的第二個(gè)推論,即如果子集Di不然是頻繁項(xiàng)集,那么父集Dj必
然不是頻繁項(xiàng)集。
Apriori算法的第一步便是獲得單個(gè)項(xiàng)di在事務(wù)集T中的支持度,此時(shí)滿足了
支持度support(di)大于最小支持度Pminsupport定義的項(xiàng)的集合便被稱作為第一
層候選頻繁項(xiàng)集H1,而此時(shí)所有的單個(gè)項(xiàng)的集合便被稱作是候選項(xiàng)集C1。在這之后
Apriori算法所作的便是根據(jù)上一個(gè)候選頻繁項(xiàng)集HnT,通過(guò)HnT中元素的規(guī)則性
組合,推導(dǎo)出包含n個(gè)項(xiàng)的第n層候選項(xiàng)集Cn,再根據(jù)Cn進(jìn)行條件篩選,得到包含
n個(gè)項(xiàng)的第n層候選頻繁項(xiàng)集Hn0Apriori算法可描述如下:
Stepl:Apriori使用逐層迭代根據(jù)候選找出頻繁項(xiàng)集,流程如圖3-1所示。
輸入:事務(wù)數(shù)據(jù)庫(kù)D和最小支持度閾值min_sup
輸出:D中的頻繁項(xiàng)集L
(1)L_l=find_frequent__l__itemset3(D);〃所有支持度不小于minsupporc的1-項(xiàng)目集
(2)£or(k=2;L_(k-T)M;k:++){
(3)C__k=aprLori-gen(L_(k-1));//C_k是k個(gè)元素的假選集
(4)foreachtransactionst£D(
(5)C__t=sut>3et(C_k,t);//C_t是所有七包含的候選集元素
(6)foreachcandidatescEC_t
(7)C.count++;
(3)}
(9)L_)c={cGC_k|c.count>=min_sup}
(10))
(11)returnL=UL__k;
圖3-1Apriori算法過(guò)程T
其中apriori-gen(Lk-1)做兩個(gè)動(dòng)作:連接(步驟1到4)和剪枝(步驟5到
7)。在前一部分通過(guò)LkT自鏈接產(chǎn)生可能的候選集,在后一部分使用先驗(yàn)性質(zhì)將具
有非頻繁子集的候選集刪除。
Step2:實(shí)現(xiàn)apriori-gen(Lk-1)過(guò)程,如圖3-2所示。
(1)foreachitemsetpd__(k-l)
(2)foreachitemsetqei_(k-l)
(3)if(p.icem_l=q.Ap.item_2=q.item_2n...Ap.item_(]c-2)=
q.np.)tnenf
(4)c=q~p;//連接步:產(chǎn)生候選
(5)ifhas_infrequent_subset(crL_(k-l))then
(6)deletec;〃剪枝步:刪除非頻蹩的候選
(7)elseaddctoC_k
(8)}
(9)returnC_k;
圖3-2Apriori算法過(guò)程-2
Step2對(duì)于每個(gè)事務(wù)找出其是候選的所有子集并將數(shù)量累計(jì),Step3描述了對(duì)所
有非頻繁子集測(cè)試并刪除的過(guò)程。
Step3:實(shí)現(xiàn)has_infrequent_subset(c,Lk-1)過(guò)程,判斷候選集的元素,如
圖3-3所示。
{1}foreach(k-1)subsetsofc
(2)if3notGL_(k-l)then
(3)roturntzrue;
(4)returnfalse;
圖3-3Apriori算法過(guò)程-3
2.由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則
當(dāng)我們從數(shù)據(jù)庫(kù)D中的事務(wù)找出頻繁項(xiàng)集后,可以直接產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。置信度
計(jì)算如公式3.15所示。
support_count{A\JB)
Confidence(A=B)=P(B\A)=(5.12)
support_count(A)
其中support_count(4D8),是包含項(xiàng)集AUB的事務(wù)數(shù),support_count(A)
是包含項(xiàng)集A的事務(wù)數(shù)。關(guān)聯(lián)規(guī)則可以產(chǎn)生如下:
(1)對(duì)于每個(gè)頻繁項(xiàng)集1,產(chǎn)生1的所有非空子集。
support_count(l)、?
---------=--------->mmconir
(2)于1的每個(gè)非空子集S,如果suPPort,。"皿s)一,則輸出規(guī)則“s=
(l-s)”,其中minconf是最小置信度。
結(jié)語(yǔ)
一般超市商品分類都是根據(jù)以往經(jīng)驗(yàn)或者是經(jīng)營(yíng)者根據(jù)大超市的經(jīng)驗(yàn)進(jìn)行分類,
分類并不同一,因此,實(shí)驗(yàn)結(jié)果有可能不一樣。一般而言,超市的商品時(shí)按商品品類
級(jí)依次擺放。當(dāng)我們分析出符合實(shí)際邏輯的規(guī)則時(shí),我們可以讓商品按照這個(gè)規(guī)則來(lái)
擺放。根據(jù)消費(fèi)者購(gòu)買行為分析心理學(xué),顧客買東西具有很大的沖動(dòng)性。我們也可以
利用這一點(diǎn)更加合理的使用商品關(guān)聯(lián)規(guī)則。比如,有一些規(guī)則支持度很高但是利潤(rùn)不
高,說(shuō)明顧客同時(shí)買這兩者的比例很高,即使他們不再一起,顧客也會(huì)穿過(guò)若干貨架
去尋找該關(guān)聯(lián)的商品。這個(gè)貨架我們可以擺放一些低關(guān)聯(lián)度但利潤(rùn)高的商品甚至是一
些沖動(dòng)消費(fèi)商品,比如日銷品,比如零食。本實(shí)驗(yàn)的數(shù)據(jù)支持度比較高的衛(wèi)清潔品和
紙類用品關(guān)聯(lián)度比較高,在這兩類商品之間可以放一些低支持度的沖動(dòng)型商品。事實(shí)
上,消費(fèi)者進(jìn)入超市,面對(duì)五花八門的商品,心中就算有需求的商品,也會(huì)被超市的
陳列引導(dǎo)去買本不打算購(gòu)買的商品,這樣,科學(xué)的規(guī)劃和合理的商品擺放對(duì)顧客的消
費(fèi)行為有很大的影響。商品擺放還要考慮商品的品牌,銷量,規(guī)則,大小等因素,比
如銷量大的放貨架兩旁一方面可以吸引顧客快速的找到需要的商品,一方面也可以引
起閑逛顧客的好奇吸引顧客去關(guān)注貨架中間的商品。比如銷量好、利潤(rùn)高的放在貨架
的中間層,利潤(rùn)低的商品放在貨架的高層,規(guī)格大的商品放在貨架的底層。我們一方
面要合理的利用超市商品規(guī)則算法,不限于商品的就近擺放,一方面也要考慮商品擺
放的其他因素,不能忽視這些,綜合考慮之后,經(jīng)營(yíng)者能制定合理的商品擺放方案,
利于銷量也利于超市整體利潤(rùn)的提高。
參考文獻(xiàn)
[1]李清蔓,楊杉.基于大數(shù)據(jù)技術(shù)的大型超市數(shù)據(jù)分析[J].科學(xué)技術(shù)創(chuàng)新,2021(07):
80-82.
[2]潘渝棱,雷青青,張磊.基于品類數(shù)據(jù)分析的超市營(yíng)運(yùn)策略[J].今日財(cái)富,2020
(07):71+73.
⑶趙雅欣,寧士勇.基于Python的超市020營(yíng)銷數(shù)據(jù)分析[J].哈爾濱商業(yè)大學(xué)學(xué)報(bào)
(自然科學(xué)版),2019,35(04):431-435.
[4]劉亞云.連鎖超市數(shù)據(jù)分析系統(tǒng)的開(kāi)發(fā)與實(shí)現(xiàn)[D].首都經(jīng)濟(jì)貿(mào)易大學(xué),2019.
[5]許崇,徐勇,龐諾言.實(shí)體超市交易數(shù)據(jù)分析利用情況及對(duì)策探析[J].經(jīng)濟(jì)研究導(dǎo)
刊,2019(18):62-63+161.
[6]劉菊君.數(shù)據(jù)驅(qū)動(dòng)的連鎖超市銷售數(shù)據(jù)分析與系統(tǒng)設(shè)計(jì)[D].湖南科技大學(xué),2019.
[7]王統(tǒng)昊,劉尚旺.基于大數(shù)據(jù)的超市進(jìn)銷存效益分析系統(tǒng)設(shè)計(jì)[J].河南科技學(xué)院學(xué)
報(bào)(自然科學(xué)版),2018,46(04):61-67.
[8]楊振峰.大型連鎖超市數(shù)據(jù)管理中云計(jì)算與虛擬化技術(shù)的應(yīng)用分析[J].信息系統(tǒng)
工程,2017(07):54.
[9]王麗科,趙菊敏,李燈熬.針對(duì)超市購(gòu)物數(shù)據(jù)的深度分析算法
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 第7課 隋唐時(shí)期的科技與文化 教案2024-2025學(xué)年七年級(jí)歷史下冊(cè)新課標(biāo)
- 關(guān)于創(chuàng)意種植產(chǎn)品的調(diào)查問(wèn)卷
- 穿孔鋁板吊頂施工方案
- 橋梁基礎(chǔ)加固施工方案
- 2025年磷礦石行業(yè)發(fā)展趨勢(shì)分析:我國(guó)磷礦石開(kāi)采產(chǎn)能持續(xù)增長(zhǎng)
- 2024年三季度報(bào)湖南地區(qū)A股每股經(jīng)營(yíng)性現(xiàn)金流排名前十大上市公司
- 污水處理池改造施工方案
- 山東省青島市2025屆高三上學(xué)期部分學(xué)生調(diào)研檢測(cè)(1月)數(shù)學(xué)試題(解析版)
- 烤房土建施工方案
- 水電施工方案英文縮寫(xiě)
- 預(yù)防性侵安全教育課件
- 《鋼鐵是怎樣煉成的》讀書(shū)分享課件
- 頸椎損傷的固定與搬運(yùn)操作流程課件
- 中國(guó)戲曲 昆曲學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 消毒隔離課件教學(xué)課件
- 中國(guó)旅游地理項(xiàng)目一二測(cè)試題
- 涉外法治視角下國(guó)際經(jīng)貿(mào)規(guī)則形成研究
- 低空經(jīng)濟(jì)公司的投融資方案
- 城市停車規(guī)劃規(guī)范
- 2022年集團(tuán)消防技能比賽項(xiàng)目、規(guī)則和評(píng)分標(biāo)準(zhǔn)
- 手機(jī)維修行業(yè)中的數(shù)字轉(zhuǎn)型
評(píng)論
0/150
提交評(píng)論