大數(shù)據(jù)背景下的大型超市數(shù)據(jù)分析

上傳人：燈*** IP屬地：河北上傳時(shí)間：2024-02-21 格式：PDF 頁(yè)數(shù)：28 大?。?.94MB 積分：12 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)背景下的大型超市數(shù)據(jù)分析_第2頁(yè)

大數(shù)據(jù)背景下的大型超市數(shù)據(jù)分析_第3頁(yè)

大數(shù)據(jù)背景下的大型超市數(shù)據(jù)分析_第4頁(yè)

大數(shù)據(jù)背景下的大型超市數(shù)據(jù)分析_第5頁(yè)

已閱讀5頁(yè)，還剩23頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要...................................................................1

前言...................................................................2

第1章數(shù)據(jù)獲取及預(yù)處理...............................................4

1.1數(shù)據(jù)獲取.......................................................4

1.2數(shù)據(jù)預(yù)處理.....................................................5

1.3數(shù)據(jù)清理.......................................................5

1.4數(shù)據(jù)歸并.......................................................6

1.5數(shù)據(jù)標(biāo)準(zhǔn)化.....................................................7

1.6處理效果評(píng)價(jià)..................................................10

第2章訪問(wèn)目標(biāo)分析的實(shí)現(xiàn).............................................12

2.1聚類算法分析...................................................12

2.2K-均值算法實(shí)現(xiàn)................................................12

2.2.1算法原理.................................................12

2.2.2算法過(guò)程與實(shí)現(xiàn)...........................................13

2.3K-中心點(diǎn)算法實(shí)現(xiàn)..............................................14

2.3.1算法原理.................................................14

2.3.2算法過(guò)程與實(shí)現(xiàn)...........................................15

2.4結(jié)合凝聚方法的聚類算法實(shí)現(xiàn)....................................16

第3章訪問(wèn)習(xí)慣分析的實(shí)現(xiàn).............................................19

3.1關(guān)聯(lián)規(guī)則挖掘算法分析...........................................19

3.2APRIORI算法實(shí)現(xiàn)...............................................20

結(jié)語(yǔ)..................................................................24

參考文獻(xiàn)..............................................................25

大數(shù)據(jù)背景下的大型超市數(shù)據(jù)分析

摘要

本文首先對(duì)課題實(shí)驗(yàn)采用的原始數(shù)據(jù)的采集獲取工作進(jìn)行了介紹，然后詳細(xì)介紹

了數(shù)據(jù)清理、數(shù)據(jù)歸并、數(shù)據(jù)標(biāo)準(zhǔn)化等預(yù)處理流程，并成功縮小了原數(shù)據(jù)規(guī)模，獲得

了滿足要求和約束條件的實(shí)驗(yàn)數(shù)據(jù)集。在預(yù)處理后的數(shù)據(jù)集上結(jié)合系統(tǒng)的需求分析,

從訪問(wèn)目標(biāo)分析和訪問(wèn)習(xí)慣分析兩個(gè)角度進(jìn)行了設(shè)計(jì)與實(shí)現(xiàn)，在此過(guò)程中引入了聚類

分析和關(guān)聯(lián)規(guī)則分析兩中數(shù)據(jù)挖掘方法。其中聚類分析采用了K-均值、K-中心點(diǎn)算

法和結(jié)合凝聚方法的改進(jìn)K-均值算法；關(guān)聯(lián)規(guī)則分析則采用Apriori算法挖掘頻繁

項(xiàng)集，并生成關(guān)聯(lián)規(guī)則。

關(guān)鍵詞：大數(shù)據(jù)；超市產(chǎn)品；商品

刖百

市民各種商品的購(gòu)買需求，不論都市步行街，小鎮(zhèn)鎮(zhèn)中心或者是旅游景點(diǎn)，隨處

可見(jiàn)規(guī)模各異的超市。超市遵循著業(yè)界千篇一律的商品擺放規(guī)律，比如促銷商品放門

口，小商品，小食品放收銀臺(tái)。規(guī)律簡(jiǎn)單有效，但是也有缺點(diǎn)。每一個(gè)超市由于地理

位置的不同，所面臨的顧客也大不相同，顧客的需求也不同。如何根據(jù)當(dāng)前超市的情

況，對(duì)物品做出擺放的調(diào)整。不同的季節(jié)，客戶所需求的商品也會(huì)截然不同。根據(jù)以

往的經(jīng)驗(yàn)去擺放季節(jié)性商品既不及時(shí)，效率也不高。另外，由于突發(fā)事件，例如天津

港事件中，礦泉水的銷售一空?？梢岳眠@種突發(fā)事件的時(shí)機(jī)，在礦泉水旁邊擺放更

多想要銷售的商品，這也非常重要"。

當(dāng)前，有些超市培訓(xùn)公司也在做大量相關(guān)的調(diào)查，盡量去做出一套方案以適應(yīng)大

多數(shù)超市，然而，這都是依照以往的數(shù)據(jù)進(jìn)行的分析，無(wú)法更好的適應(yīng)瞬息萬(wàn)變的顧

客需求。

計(jì)算機(jī)及條形碼的發(fā)展使得便捷的掃碼結(jié)賬成為超市主流收銀方式。結(jié)賬的信息

不僅通過(guò)小票的形式給了顧客，同時(shí)也存儲(chǔ)在商家的電腦中。這些流水信息包含詳細(xì)

的銷售情況，比如銷售的商品名，價(jià)格，數(shù)量，時(shí)間等。一般商家會(huì)對(duì)這些信息進(jìn)行

粗制的匯總用來(lái)統(tǒng)計(jì)超市的每日商品銷量，銷售額，銷售利潤(rùn)等，也能通過(guò)這些數(shù)據(jù)

得到商品的庫(kù)存。數(shù)據(jù)挖掘技術(shù)的出現(xiàn)，超市可以更加充分的去利用這些數(shù)據(jù)，從而

去理解顧客。比如合理的根據(jù)庫(kù)存調(diào)整商品的價(jià)格，合理的促銷，利用關(guān)聯(lián)規(guī)則對(duì)商

品進(jìn)行合理的擺放等。這些都能通過(guò)數(shù)據(jù)挖掘技術(shù)去充分挖掘小票數(shù)據(jù)從而進(jìn)行合理

的超市營(yíng)銷。已經(jīng)有一些文獻(xiàn)對(duì)超市營(yíng)銷和關(guān)聯(lián)規(guī)則算法進(jìn)行研究，但一般是單機(jī)算

法或者沒(méi)有考慮到商品利潤(rùn)的權(quán)重九

超市營(yíng)銷中最典型的手段就是促銷。通過(guò)促銷，能夠有效的引導(dǎo)消費(fèi)者關(guān)注所促

銷的商品，并提高該商品的銷量。促銷商品的來(lái)源一般是從超市經(jīng)營(yíng)者或者供應(yīng)商的

角度出發(fā)。日益激烈的超市競(jìng)爭(zhēng)，也使得沒(méi)有考慮顧客需求的促銷行為效果大大打折。

盡管作為一個(gè)與顧客進(jìn)行交互的商業(yè)行為，超市一般也只是考慮單一商品的利潤(rùn),

實(shí)際上，通過(guò)分析顧客的購(gòu)買行為，我們也能通過(guò)關(guān)聯(lián)商品的銷售手段去提高超市整

體的利潤(rùn)。

經(jīng)營(yíng)者通常針對(duì)單個(gè)貨架上商品總利潤(rùn)來(lái)統(tǒng)計(jì)超市整體的利潤(rùn)水平，將貨架擺放

在人流大的地方提高單個(gè)貨架的銷量，也能實(shí)現(xiàn)貨架的利潤(rùn)的提高。因此，合理的放

置貨架和合理的擺放貨架上的商品，是一個(gè)超市需要考慮的問(wèn)題。能讓顧客在一個(gè)貨

架或者是相連的貨架買到自己需求的商品，不僅為顧客節(jié)約了寶貴的時(shí)間，也能提高

商品的銷量。經(jīng)營(yíng)者利用數(shù)據(jù)挖掘技術(shù)去分析小票數(shù)據(jù)，能夠了解顧客的購(gòu)買習(xí)慣，

提高關(guān)聯(lián)商品的銷量,提高貨架使用率，建立更加合理的貨架擺放和商品擺放。因此，

想做好超市營(yíng)銷要關(guān)注超市商品的擺放策略、

很多數(shù)據(jù)挖掘的學(xué)者關(guān)注到這一問(wèn)題，并進(jìn)行了很多理論研究。主流的結(jié)論是根

據(jù)關(guān)聯(lián)規(guī)則算法去分析貨架商品的擺放，但僅僅根據(jù)算法關(guān)聯(lián)支持度去排序，而沒(méi)有

考慮商品的利潤(rùn)，是不適合的。對(duì)于商家來(lái)說(shuō)，增加利潤(rùn)才是最重要的。提高商品的

銷量還能提高超市整體的利潤(rùn)，能夠提供更有實(shí)際價(jià)值的營(yíng)銷策略。

第1章數(shù)據(jù)獲取及預(yù)處理

1.1數(shù)據(jù)獲取

用戶行為分析系統(tǒng)的數(shù)據(jù)源是公網(wǎng)訪問(wèn)流量控制服務(wù)器（以下簡(jiǎn)稱流控服務(wù)器）,

流控服務(wù)器在網(wǎng)絡(luò)中的位置如圖1-1所示。從圖上可以看到，流控服務(wù)器連接著分別

通向教育網(wǎng)絡(luò)、電信網(wǎng)絡(luò)和聯(lián)通網(wǎng)絡(luò)三條不同出口。校內(nèi)的公網(wǎng)訪問(wèn)請(qǐng)求首先將通過(guò)

流控服務(wù)器，到達(dá)公網(wǎng)出口路由后，會(huì)根據(jù)所請(qǐng)求的資源的地址，自動(dòng)選擇相應(yīng)的公

網(wǎng)出口。在流控服務(wù)器上記錄著每一條公網(wǎng)訪問(wèn)信息，每天都會(huì)有數(shù)十GB的訪問(wèn)日

志數(shù)據(jù)增加。

防火墻

圖1-1超市訪問(wèn)示意圖

流控服務(wù)器上的網(wǎng)絡(luò)訪問(wèn)日志有RPT_LUR、RPT_PUR、RPT_TR、RPTJ1ALUR,

RPT_MEDIA等文件，其中RPT_TR是主日志文件，記錄了所有的公網(wǎng)訪問(wèn)信息，因此

將該日志文件作為系統(tǒng)的原始數(shù)據(jù)源。

由于訪問(wèn)日志文件記錄的數(shù)據(jù)量十分巨大，為了便于進(jìn)行分析與實(shí)驗(yàn)，也為了避

免對(duì)流控服務(wù)器的日常運(yùn)行造成影響，特從2016年3月1日至2016年3月31日的

原始數(shù)據(jù)中抽取一百萬(wàn)條記錄作為實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)操作在WindowsPC機(jī)上進(jìn)行，該

PC機(jī)支持PHP和MySQL數(shù)據(jù)庫(kù)。

1.2數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理目的是為數(shù)據(jù)挖掘工作準(zhǔn)備數(shù)據(jù)集，避免由于數(shù)據(jù)冗余、噪音等因素

影響數(shù)據(jù)挖掘的順利進(jìn)行，從而提高數(shù)據(jù)挖掘的質(zhì)量，使分析結(jié)果的意義更加明確、

更加符合實(shí)際需求'數(shù)據(jù)預(yù)處理在實(shí)際的數(shù)據(jù)挖掘項(xiàng)目中往往是耗費(fèi)時(shí)間最多、最

為繁瑣的步驟。數(shù)據(jù)預(yù)處理包括了數(shù)據(jù)理解、數(shù)據(jù)整理與合并、數(shù)據(jù)抽樣、數(shù)據(jù)描述、

數(shù)據(jù)清理、變量變換與合成、變量選擇等。

在確定了業(yè)務(wù)目標(biāo)后，要收集相關(guān)的數(shù)據(jù)，并對(duì)數(shù)據(jù)進(jìn)行描述以熟悉數(shù)據(jù)，對(duì)數(shù)

據(jù)進(jìn)行檢查以確認(rèn)數(shù)據(jù)的質(zhì)量，如數(shù)據(jù)是否存在噪聲、缺失值、冗余屬性、不一致、

數(shù)據(jù)過(guò)多或過(guò)少等問(wèn)題九數(shù)據(jù)選擇包括字段屬性的選擇、合成，以及數(shù)據(jù)內(nèi)容的選

擇等；數(shù)據(jù)清理要對(duì)噪聲數(shù)據(jù)和“臟”數(shù)據(jù)進(jìn)行去除，并對(duì)存在缺失值的數(shù)據(jù)進(jìn)行處

理；數(shù)據(jù)合成是根據(jù)業(yè)務(wù)需要或問(wèn)題實(shí)質(zhì)，將原始數(shù)據(jù)中的單個(gè)或多個(gè)屬性記錄進(jìn)行

相應(yīng)的轉(zhuǎn)換，生成新的屬性；數(shù)據(jù)合并是將一些共性的數(shù)據(jù)記錄根據(jù)某種規(guī)則進(jìn)行合

并處理；數(shù)據(jù)格式化，又稱標(biāo)準(zhǔn)化，是對(duì)數(shù)據(jù)中存在的單位或數(shù)量級(jí)不一致的情況進(jìn)

行處理外

1.3數(shù)據(jù)清理

在原始數(shù)據(jù)中不可避免地存在許多噪聲數(shù)據(jù)和“臟”數(shù)據(jù)，同時(shí)還有不少與用戶

行為分析無(wú)關(guān)的冗余數(shù)據(jù)。數(shù)據(jù)清理要試圖去除噪聲數(shù)據(jù)，糾正問(wèn)題數(shù)據(jù)，填充不完

整數(shù)據(jù)，實(shí)現(xiàn)數(shù)據(jù)一致性。

對(duì)基于Web訪問(wèn)的分析模型，本文關(guān)注的重點(diǎn)是用戶在進(jìn)行正常Web訪問(wèn)時(shí)的活

動(dòng)記錄，并且只關(guān)注與Web訪問(wèn)相關(guān)的字段屬性。根據(jù)分析模型的需求，我們重點(diǎn)關(guān)

注“請(qǐng)求訪問(wèn)時(shí)間”、“客戶端IP”、“客戶端端口”、“目標(biāo)IP”、“目標(biāo)端口”、“網(wǎng)站

域名”、“請(qǐng)求路徑”等字段。使用SQL語(yǔ)句將MySQL數(shù)據(jù)庫(kù)中“請(qǐng)求路徑”字段為空

和IP地址為空的元組刪除，并將數(shù)據(jù)保存在新的數(shù)據(jù)表Webdata中，獲得的數(shù)據(jù)記

錄共142043條。

1.4數(shù)據(jù)歸并

通過(guò)觀察發(fā)現(xiàn)，在當(dāng)前的數(shù)據(jù)集中，“ACCESS_String”中的網(wǎng)址既有頂級(jí)域名，

也有二級(jí)、三級(jí)甚至多級(jí)域名，無(wú)法區(qū)分各個(gè)網(wǎng)址真實(shí)的訪問(wèn)情況，因此需要對(duì)數(shù)據(jù)

進(jìn)行處理，將各個(gè)訪問(wèn)網(wǎng)址歸并到各自的頂級(jí)域名'

在基于Web訪問(wèn)的分析模型中，作為主要特征的屬性有兩個(gè)，一個(gè)是訪問(wèn)次數(shù),

由于并不分別考慮上行流量與下行流量的情況，因此將上下行流量合并為一個(gè)新的屬

性，并命名為流量。

Webdata數(shù)據(jù)表中的每條記錄都是單獨(dú)的請(qǐng)求操作，要獲得每一個(gè)網(wǎng)站的訪問(wèn)次

數(shù)就需要對(duì)這些記錄進(jìn)行歸并，以獲得每個(gè)網(wǎng)站的總訪問(wèn)次數(shù)，使用SQL語(yǔ)句進(jìn)行

歸并操作。

經(jīng)過(guò)對(duì)網(wǎng)站訪問(wèn)量和流量歸并后的數(shù)據(jù)表如圖2T所示，共3446條。

websitevisitnetstream

OOlunion.COM2504

OOcounter.con115687

OlOso.com1609

Olhr.com371761

022net.COB1100001.9

021.cn1879

0211392

036.com.cn28650

0371sports,con280670

051Iqy.COB134130

0533car.cn134995

0563dy.coa21478

05809.com12178

07073.com11479

0750wyt.COB24348

0898.net636785

lOOOOcc.COB422788

lOOim.cn12869

lOOte.com23092

lOlOJob.COB11131

105.com.cn16623

lOgao.com26038

lOjqka.COM.cn423974

lOpix.ru23134

圖2-1網(wǎng)址訪問(wèn)量及流量統(tǒng)計(jì)

1.5數(shù)據(jù)標(biāo)準(zhǔn)化

在使用聚類算法對(duì)大量數(shù)據(jù)進(jìn)行處理時(shí)，選用的度量單位將直接影響聚類分析的

結(jié)果。如果相同大小的值轉(zhuǎn)化為不同的度量單位，很可能就會(huì)產(chǎn)生非常不同的聚類結(jié)

果。一般來(lái)說(shuō)，變量所用的度量單位越小，變量可能的值域就越大，對(duì)聚類結(jié)果的影

響也就越大。特別是當(dāng)需要把不同屬性的不同變量一同進(jìn)行分析時(shí)，不同的取值范圍

容易使得分析結(jié)果發(fā)生扭曲，更偏向取值范圍大的變量。為了避免或減少這種情況的

影響，需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化）通過(guò)標(biāo)準(zhǔn)化處理，將所有的變量劃歸到相同或相近

的取值范圍，并根據(jù)需要對(duì)每個(gè)字段給予相對(duì)應(yīng)的權(quán)重。

在基于Web訪問(wèn)的分析模型中，訪問(wèn)次數(shù)與網(wǎng)絡(luò)流量?jī)蓚€(gè)屬性字段是計(jì)算網(wǎng)站相

似度的主要參數(shù)，但是兩個(gè)字段值的數(shù)量級(jí)相差很大％如果不進(jìn)行相應(yīng)的標(biāo)準(zhǔn)化處

理，將很可能無(wú)法獲得準(zhǔn)確的分析結(jié)果。在這里，本文采用極差歸一化方法解決這個(gè)

問(wèn)題。

極差歸一化是將變量的極差，即取值范圍，線性地變換到區(qū)間：

_?一加七

Vi-

,maxx-mfnx

其中，匕是變換后的值，匕是待變換的值，max八和min」分別是變量的最大值和

最小值。極差歸一化也稱最大一最小歸一化。由于極差歸一化是線性變換，不會(huì)改變

原變量的分布，因而在實(shí)際應(yīng)用中得到廣泛使用。變量在歸一化后數(shù)值會(huì)集中到區(qū)間

中，便于處理口。數(shù)據(jù)標(biāo)準(zhǔn)化處理程自動(dòng)識(shí)別每個(gè)字段的取值范圍，并根據(jù)極差歸一

化的方法進(jìn)行標(biāo)準(zhǔn)化處理。經(jīng)過(guò)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)如圖4所示。

但在本分析模型中，相同字段內(nèi)的取值范圍也是很大的，如果直接采用普通的極

差歸一化方法會(huì)產(chǎn)生一個(gè)問(wèn)題：與變量最大值數(shù)量級(jí)相差較大的變量將被轉(zhuǎn)化為接近

零的值，這些值在采用歐氏距離進(jìn)行相似度計(jì)算的時(shí)，會(huì)放大其效果，使得其相似度

更加接近于零。特別是數(shù)據(jù)集中變量存在極大值的時(shí)候，這個(gè)問(wèn)題尤為明顯，這一點(diǎn)

可以從圖2-2看出。

websitevisitnetstrean

OOlunion.COB2.72E-053.30E-06

OOcounter.com00.00010275

OlOso.co?03.99E-06

Olhr.com5.44E-050.00047003

022net.com00.000655

021.cn05.76E-06

0209.12E-06

036.con.cn2.72E-055.67E-05

03712.72E-050.00052838

051Iqy.com00.00022355

0533car.cn00.00022921

0563dy.com2.72E-059.68E-06

05809.co*01.43E-05

07073.co>09.69E-06

0750wyt.com2.72E-052.85E-05

0898.net0.00013590.00024094

lOOOOcc.com8.15E-050.00014926

1001m.cn01.88E-05

lOOte.COB2.72E-052.03E-05

lOlOjob.com07.41E-06

105.con.cn04.34E-05

lOgao.co*2.72E-053.95E-05

lOjqka.com.cn8.15E-050.00015703

lOpix.ru2.72E-052.05E-05

圖2-2標(biāo)準(zhǔn)化處理后的數(shù)據(jù)

另一方面，在數(shù)據(jù)的存儲(chǔ)上，過(guò)多的小數(shù)點(diǎn)位數(shù)并不利于精確保存，同時(shí)在計(jì)算

時(shí)也容易產(chǎn)生浮點(diǎn)精度的問(wèn)題,綜合考慮上述情況后，本文采用變量數(shù)量級(jí)差級(jí)變

換的方法，通過(guò)調(diào)整標(biāo)準(zhǔn)化數(shù)據(jù)的數(shù)量級(jí)來(lái)避免變量數(shù)值過(guò)小的問(wèn)題。其具體過(guò)程是:

(1)設(shè)數(shù)據(jù)集中需要計(jì)算的字段數(shù)量為n,首先獲取每個(gè)字段的最大值，分別

記為Vmaxi；

(2)比較%”,?每個(gè)值的數(shù)量級(jí)，選擇數(shù)量級(jí)最小的值分別記為％axs；

(3)對(duì)各個(gè)字段使用極差歸一化的方法對(duì)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化，但在計(jì)算每個(gè)值

與最小值疝心的差時(shí)，都乘以％血所對(duì)應(yīng)的數(shù)量級(jí)0s,即

v，=(Vi-minA^Os(52)

ImaxA-minA

經(jīng)過(guò)數(shù)量級(jí)差級(jí)放大后，數(shù)據(jù)集中各字段的數(shù)值能處在同一個(gè)數(shù)量級(jí)上，在計(jì)算

上帶來(lái)了方便，也提高了計(jì)算的準(zhǔn)確性。在經(jīng)過(guò)標(biāo)準(zhǔn)化的數(shù)據(jù)表中，“Visit”字段有

多個(gè)元組的值為0,為保證挖掘結(jié)果的準(zhǔn)確性，將這些元組刪除。重新標(biāo)準(zhǔn)化后的數(shù)

據(jù)如圖2-3所示。

websitevisitnetstream

OOlunion.co*0.2717690.033012

Olhr.com0.5435374.700284

036.com.cn0.2717690.566568

03710.2717695.283816

Olhr.com0.5435374.700284

036.0.2717690.566568

03710.2717695.283816

0563dy.com0.2717690.096808

0750wyt.com0.2717690.28479

0898.net1.3588432.409386

lOOOOcc.com0.8153061.492594

lOOte.COB0.2717690.202523

lOgao.com0.2717690.395484

lOjqka.com.cn0.8153061.570276

lOpix.ru0.2717690.205274

圖2-3改進(jìn)方法標(biāo)準(zhǔn)化處理后的數(shù)據(jù)

1.6處理效果評(píng)價(jià)

數(shù)據(jù)挖掘中相當(dāng)大的一部分工作就是數(shù)據(jù)準(zhǔn)備，特別是數(shù)據(jù)的預(yù)處理。根據(jù)國(guó)外

的統(tǒng)計(jì)數(shù)據(jù)，在數(shù)據(jù)挖掘中數(shù)據(jù)準(zhǔn)備工作需要占用大概60%的工作量⑼。在本文中，

數(shù)據(jù)準(zhǔn)備工作并沒(méi)有達(dá)到那么高的復(fù)雜性，但仍然是很重要的工作，在實(shí)際操作中也

占用了相當(dāng)?shù)墓ぷ髁俊?/p>

根據(jù)用戶行為分析的需要，1百萬(wàn)條記錄的原始數(shù)據(jù)經(jīng)過(guò)提取、清理、歸并、標(biāo)

準(zhǔn)化等處理，最后獲得的符合分析需求的數(shù)據(jù)為2091條。數(shù)據(jù)預(yù)處理明顯地減小了

數(shù)據(jù)挖掘算法所要處理的數(shù)據(jù)規(guī)模，為數(shù)據(jù)挖掘工作提供了滿足要求和約束條件的數(shù)

據(jù)集，達(dá)到了數(shù)據(jù)預(yù)處理的目的。

第2章訪問(wèn)目標(biāo)分析的實(shí)現(xiàn)

2.1聚類算法分析

聚類分析包括劃分法、層次法等多種類型，但基本其目都是要把大量的數(shù)據(jù)對(duì)象

形成多個(gè)不同的簇或者群組，使得簇與簇之間的數(shù)據(jù)盡量不同而簇內(nèi)的數(shù)據(jù)盡量相似

r""o形式上，可以給定n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集D和要生成的簇?cái)?shù)k,通過(guò)不同算法將

數(shù)據(jù)對(duì)象組織成k(kWn)個(gè)分區(qū)，它歸根結(jié)底還是求最優(yōu)解的問(wèn)題，實(shí)現(xiàn)n維樣本

空間全體向量距其聚類中心的距離最小，對(duì)于該樣本空間中的向量x，，X」：

…X/X“Xj2….,X加｝,則向量X：,X,之間的距離為：

辦=jEk=i(^ut-Xjk)

經(jīng)過(guò)多年研究，聚類算法主要集中于基于距離的聚類分析。在機(jī)器學(xué)習(xí)領(lǐng)域中，

將分類稱之為監(jiān)督學(xué)習(xí)，因?yàn)樵诜诸惙治鲋型ǔ?huì)確定每一個(gè)訓(xùn)練數(shù)據(jù)和具體劃分的

類間的隸屬關(guān)系；但是聚類是屬于無(wú)監(jiān)督學(xué)習(xí)，聚類算法的實(shí)現(xiàn)過(guò)程是在沒(méi)有類標(biāo)號(hào)

信息的情況下通過(guò)觀察學(xué)習(xí)得到的，而不是像分類一樣通過(guò)樣例進(jìn)行學(xué)習(xí)

用戶行為分析需要對(duì)多種行為屬性的數(shù)據(jù)進(jìn)行分析，并且一般原始數(shù)據(jù)量巨大。

但預(yù)處理后的數(shù)據(jù)集可能比原始數(shù)據(jù)集小很多，根據(jù)數(shù)據(jù)預(yù)處理的結(jié)果，本文采用

K-均值和K-中心點(diǎn)算法進(jìn)行聚類，并通過(guò)一定的改進(jìn)提高聚類算法可靠性。

2.2K-均值算法實(shí)現(xiàn)

2.2.1算法原理

K-均值(K-means)算法以要生成的簇的數(shù)目k為輸入?yún)?shù)，把n個(gè)對(duì)象劃分為

k組(kWn),每個(gè)組表示一個(gè)簇。首先，隨機(jī)選擇k個(gè)對(duì)象代表簇的平均值，稱為

簇的中心即。然后將剩余的對(duì)象劃分到最近似的簇中，再重新計(jì)算每個(gè)簇的平均值。

這個(gè)過(guò)程一直重復(fù)，直到準(zhǔn)則函數(shù)收斂，或者達(dá)到指定的迭代次數(shù)上限為止。通常采

用平方誤差準(zhǔn)則函數(shù)，即

Je—EiiExeCil'—W

其中，乙是數(shù)據(jù)集合中所有數(shù)據(jù)對(duì)象的平方誤差的總和；x是數(shù)據(jù)對(duì)象，”是

簇G的平均值。

兩個(gè)數(shù)據(jù)對(duì)象之間的相似度可以通過(guò)他們間的相異性來(lái)定義和描述。一般而言,

在計(jì)算兩個(gè)對(duì)象之間的相異性時(shí)，會(huì)采用兩個(gè)對(duì)象之間的距離來(lái)計(jì)算。在計(jì)算個(gè)體對(duì)

象與簇中心距離時(shí)，通常采用歐式距離，其計(jì)算公式為

d(x,y)=JwiQi—+卬2(必一小產(chǎn)+…+卬久力一小產(chǎn)

即

rf(x,y)=Wk(Xk-yk)(1wkWn)

其中，芯=(和々，工3…x“)和、=(如%，％…”)是兩個(gè)n維的數(shù)據(jù)對(duì)象，而

加=(見(jiàn)，加2,%…加“)則是代表每個(gè)屬性在計(jì)算相異度時(shí)所代表的權(quán)重，不同的權(quán)重設(shè)

置會(huì)產(chǎn)生不同的相異度，從而影響到簇的劃分。

2.2.2算法過(guò)程與實(shí)現(xiàn)

前期從校園網(wǎng)流控服務(wù)器上采集的原始數(shù)據(jù)經(jīng)過(guò)了一系列的預(yù)處理之后，存儲(chǔ)在

MySQL數(shù)據(jù)庫(kù)之中，使用MySQL數(shù)據(jù)庫(kù)Webdata表中網(wǎng)站的點(diǎn)擊量和流量作為算法的

輸入。對(duì)于K-均值算法，還需要指定進(jìn)行聚類的簇的數(shù)目k。

K-均值算法見(jiàn)圖2-1,其具體過(guò)程如下：

輸入：簇的數(shù)目k,網(wǎng)站點(diǎn)擊量visit,網(wǎng)站流量netstream

輸出：以visit和netstream為特征的k個(gè)簇，即k類網(wǎng)站

開(kāi)始

輸入包含n個(gè)對(duì)

象的數(shù)據(jù)集

輸入簇的數(shù)目k

圖2TK-均值算法流程圖

得到的k個(gè)簇即為以訪問(wèn)量和流量加以區(qū)分的k種不同類型的網(wǎng)站。

2.3K-中心點(diǎn)算法實(shí)現(xiàn)

2.3.1算法原理

K-中心點(diǎn)(K-medoids)算法不采用對(duì)象的平均值作為簇中心，而選用簇中離平

均值最近的對(duì)象作為簇中心，這樣可以盡量減少孤立點(diǎn)對(duì)中心選擇的影響，％其余的

每個(gè)對(duì)象被分配到與其最為相似的代表性對(duì)象所在的簇中。使用了一個(gè)絕對(duì)誤差標(biāo)準(zhǔn)

進(jìn)行劃分，即

其中，E是數(shù)據(jù)集中所有對(duì)象p與Ci的代表對(duì)象oi的絕對(duì)誤差之和。這是K-

中心點(diǎn)方法的基礎(chǔ)。K-中心點(diǎn)聚類通過(guò)最小化該絕對(duì)誤差，把n個(gè)對(duì)象劃分到K個(gè)簇

中。

圍繞中心點(diǎn)劃分(PartitioningAroundMedoids)是K-中心點(diǎn)聚類的一種流行

實(shí)現(xiàn)。PAM算法的目的是對(duì)n個(gè)數(shù)據(jù)對(duì)象給出k個(gè)劃分，PAM算法的基本思想：先為

每個(gè)簇隨意選擇一個(gè)代表對(duì)象(中心點(diǎn))，剩余的對(duì)象根據(jù)其與代表對(duì)象的相異度或

距離分配給最近的一個(gè)簇。然后反復(fù)地用非代表對(duì)象來(lái)替換代表對(duì)象，以提高聚類的

質(zhì)量；聚類質(zhì)量由代價(jià)函數(shù)來(lái)評(píng)估，該函數(shù)用來(lái)判斷一個(gè)非代表對(duì)象是否是當(dāng)前一個(gè)

代表對(duì)象的好的代替，如果就是進(jìn)行替換，否則不替換。最后給出正確的劃分。

2.3.2算法過(guò)程與實(shí)現(xiàn)

PAM算法的過(guò)程如圖2-2所示，其具體過(guò)程如下:

輸入：結(jié)果簇的個(gè)數(shù)k,網(wǎng)站點(diǎn)擊量visit,網(wǎng)站流量netstream

輸出:

圖2-2K-中心點(diǎn)算法流程圖

得到的k個(gè)簇即為以訪問(wèn)量和流量加以區(qū)分的k種不同類型的網(wǎng)站。

2.4結(jié)合凝聚方法的聚類算法實(shí)現(xiàn)

在K-均值算法中，第一步就是隨機(jī)選擇k個(gè)對(duì)象，分別作為k個(gè)簇的中心點(diǎn)。

最理想的情況就是初始狀態(tài)下選擇的k個(gè)中心屬于不同簇，即任意兩個(gè)初始的中心點(diǎn)

都不屬于同一個(gè)最終劃分的簇；同時(shí)，k個(gè)初始對(duì)象應(yīng)該盡可能地靠近每個(gè)簇的中心。

但通過(guò)實(shí)驗(yàn)可以發(fā)現(xiàn)，K-均值算法的初始劃分很難通過(guò)隨機(jī)選擇方式來(lái)達(dá)到理想狀態(tài)

的約束條件的。為了對(duì)這種情況進(jìn)行改進(jìn)，優(yōu)化初始簇劃分，在這里引入了基于層次

的凝聚聚類算法。

凝聚聚類算法采用的是自底向上的策略，它的基本思想是：首先將每個(gè)一個(gè)數(shù)據(jù)

對(duì)象看作是一個(gè)獨(dú)立的簇，然后比較每?jī)蓚€(gè)簇之間的相異度，依次合并最相似的原子

簇并形成新的簇，簇的數(shù)目越來(lái)越少，簇的大小越來(lái)越大，直到所有的對(duì)象都在一個(gè)

簇中，或者滿足某個(gè)終結(jié)條件為止。凝聚聚類算法的執(zhí)行結(jié)果是生成一顆聚類樹(shù)，它

的優(yōu)點(diǎn)是方法簡(jiǎn)單，聚類的層次結(jié)構(gòu)清晰，基本可以發(fā)現(xiàn)任何形狀的簇，沒(méi)有K-均

值算法的初始值選擇問(wèn)題，可以根據(jù)不同的需求對(duì)簇的粒度進(jìn)行調(diào)整，從而滿足不同

的分析需求，生成較高質(zhì)量的聚類。但是凝聚聚類算法也存在明顯的缺點(diǎn)。首先，同

其他層次聚類算法一樣，在聚類過(guò)程中，每一次簇的合并都是不可逆的嘰這使得已

經(jīng)形成的簇不能進(jìn)一步得到優(yōu)化；其次，在進(jìn)行簇合并操作時(shí)，需要進(jìn)行大量的計(jì)算

以獲得簇之間的相異度，并且隨著數(shù)據(jù)對(duì)象的增多，計(jì)算量急劇增加，因此并不具有

良好的伸縮性，不適合大數(shù)據(jù)集的處理。

在本課題中，我們結(jié)合K-均值聚類算法與凝聚聚類算法的特點(diǎn)，并盡量避免其

缺點(diǎn)，從而提出一種較為有效的算法改進(jìn)方案。該方案的基本思想是：采用抽樣方法

從數(shù)據(jù)集中獲得隨機(jī)樣本，采用凝聚聚類算法進(jìn)行分析，獲得初始的簇劃分；然后以

凝聚聚類算法獲得的初始簇的中心點(diǎn)作為K-均值算法初始簇中心點(diǎn)，再進(jìn)行K-均值

聚類。這個(gè)方案結(jié)合了抽樣、凝聚聚類和K-均值聚類方法的特點(diǎn)，既利用凝聚聚類

優(yōu)化了初始簇的劃分，又利用K-均值聚類在處理大數(shù)據(jù)集上的性能優(yōu)勢(shì)，并且在一

定程度上較少了數(shù)據(jù)輸入的順序?qū)τ贙-均值算法聚類結(jié)果的影響。同時(shí)，經(jīng)過(guò)優(yōu)化

的初始簇劃分也能夠減少K-均值聚類的過(guò)程的迭代次數(shù)，進(jìn)一步提高分析效率。

當(dāng)數(shù)據(jù)集過(guò)大的時(shí)候，受數(shù)據(jù)挖掘算法的時(shí)間或空間復(fù)雜度的限制，需要對(duì)數(shù)據(jù)

集進(jìn)行抽樣才能進(jìn)行有效的分析同。常見(jiàn)的抽樣方法有隨機(jī)抽樣和分層抽樣。隨機(jī)抽

樣又稱簡(jiǎn)單抽樣，它從數(shù)據(jù)集中隨機(jī)抽取一定比例的樣本，在抽取時(shí)分為有放回和無(wú)

放回兩種情況；分層抽樣是首先利用某個(gè)條件將數(shù)據(jù)集分割成許多子集，在對(duì)每個(gè)子

集進(jìn)行隨機(jī)抽樣的過(guò)程。

在基于Web訪問(wèn)的分析模型中，數(shù)據(jù)集的分布呈現(xiàn)較為不均勻的形態(tài)，因此我們

選擇采用分層抽樣，以提高數(shù)據(jù)分布較少的類的樣本比例，避免其被分析算法“忽略”。

考慮到在進(jìn)行數(shù)據(jù)抽樣時(shí)可能存在的隨機(jī)性和不確定性，將方案中的抽樣和凝聚

步驟改為進(jìn)行多次抽樣，分別通過(guò)凝聚聚類獲得初始簇的劃分，并將各次凝聚的結(jié)果

進(jìn)行綜合處理，最終確定初始簇的劃分。改進(jìn)后的方案流程如圖2-3所示。

算法的具體過(guò)程如下：

輸入：經(jīng)過(guò)預(yù)處理的數(shù)據(jù)集D和預(yù)期劃分簇的數(shù)目k

輸出：經(jīng)過(guò)優(yōu)化方案生成的k個(gè)簇

過(guò)程：

(1)按照分層抽樣方法從數(shù)據(jù)集D中抽取m個(gè)樣本號(hào)=。=1，2…

(2)對(duì)每個(gè)樣本S；采用凝聚聚類算法進(jìn)行聚類分析，并以簇?cái)?shù)k為聚類終止條

件，生成m組初始簇劃分，將每組簇的中心集記為Z，=(i=L2…

(3)將m組初始簇的劃分進(jìn)行綜合處理，以獲取用于K-均值聚類的初始簇的劃

分，處理方式為：

首先將每組初始簇的劃分按照中心點(diǎn)位置進(jìn)行排序，然后將每組初始簇中對(duì)應(yīng)簇

的中心點(diǎn)求均值，將均值作為相應(yīng)位置上的簇的初始中心，表達(dá)為：

Z=$｝，＞小k

(4)將初始的簇劃分的中心集作為輸入，采用K-均值算法對(duì)完整數(shù)據(jù)集進(jìn)行聚

類分析，其過(guò)程與前文所述相同；

(5)返回各個(gè)聚類的中心和成員。

圖2-3混合聚類算法流程圖

第3章訪問(wèn)習(xí)慣分析的實(shí)現(xiàn)

3.1關(guān)聯(lián)規(guī)則挖掘算法分析

關(guān)聯(lián)規(guī)則(AssociationRule)挖掘算法是數(shù)據(jù)挖掘領(lǐng)域中十分重要的算法，該

方法主要基于概率論與數(shù)理統(tǒng)計(jì)方法進(jìn)行聚類分析。從1993年R.Agrawal提出關(guān)聯(lián)

規(guī)則開(kāi)始，到現(xiàn)在已經(jīng)有了20余年的發(fā)展，關(guān)聯(lián)規(guī)則算法一般來(lái)說(shuō)計(jì)算簡(jiǎn)便且易于

實(shí)踐，具有極強(qiáng)的適用性。

關(guān)聯(lián)規(guī)則是主要針對(duì)不同項(xiàng)在不同事務(wù)中的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì)，算法主要通過(guò)在

眾多事務(wù)中發(fā)現(xiàn)出現(xiàn)頻繁的項(xiàng)的集合并根據(jù)這些頻繁項(xiàng)集推導(dǎo)最終結(jié)論。一般來(lái)說(shuō),

關(guān)聯(lián)規(guī)則應(yīng)該是項(xiàng)A=項(xiàng)B這類的形式，項(xiàng)A與項(xiàng)B無(wú)交集，相互獨(dú)立，并且項(xiàng)A與

項(xiàng)B都屬于待挖掘項(xiàng)。其中事務(wù)的概念是指一次事件發(fā)生過(guò)程，而項(xiàng)則是指在某一次

事務(wù)中包含的所關(guān)注的數(shù)據(jù)，例如學(xué)生A在某一時(shí)間段訪問(wèn)了某個(gè)站點(diǎn)產(chǎn)生了一次訪

問(wèn)記錄，則這一行為動(dòng)作便可以被抽象成一次事務(wù)，而時(shí)間、站點(diǎn)地址、流量等則是

算法所關(guān)心的項(xiàng)。對(duì)于關(guān)聯(lián)規(guī)則，便是要得出類似項(xiàng)A發(fā)生可以得出項(xiàng)B發(fā)生這樣的

結(jié)論。

以下簡(jiǎn)單介紹與關(guān)聯(lián)規(guī)則相關(guān)的重要定義及性質(zhì)。

1.相關(guān)定義

假設(shè)/=億是項(xiàng)的集合，對(duì)于每個(gè)事務(wù)數(shù)據(jù)庫(kù)D來(lái)說(shuō)，都有唯一的標(biāo)志

TID對(duì)其進(jìn)行標(biāo)志。因此，每個(gè)事務(wù)=…都對(duì)應(yīng)I上的一個(gè)子集。

(1)數(shù)據(jù)項(xiàng)集的支持度。是指包含X的事務(wù)在D中所占的百分比，即為

Support^)=||{teD|XGt)||/||D||

(2)頻繁項(xiàng)集與非頻繁項(xiàng)集。對(duì)于支持度大于等于最小支持度的非空數(shù)據(jù)項(xiàng)集

稱作頻繁項(xiàng)集，否則稱為非頻繁項(xiàng)集。

(3)關(guān)聯(lián)規(guī)則。稱X=Y的蘊(yùn)含式是數(shù)據(jù)集D中的一個(gè)關(guān)聯(lián)規(guī)則，其中X,Yul,

并且XAY=。。在這個(gè)關(guān)聯(lián)規(guī)則中X稱作條件，Y稱作結(jié)果。

(4)關(guān)聯(lián)規(guī)則的支持度與置信度。規(guī)則X=Y的支持度指在數(shù)據(jù)集D中既包含X

又包含Y的事務(wù)占總事務(wù)數(shù)之比，即同時(shí)出現(xiàn)數(shù)據(jù)項(xiàng)集X和Y的概率，表達(dá)式為：

Support(XY)=Support(JAJY)=P(MJY)

規(guī)則X=Y的置信度指在數(shù)據(jù)集D中，包含X的事務(wù)中同時(shí)包含X和Y的事務(wù)的

占比，即數(shù)據(jù)項(xiàng)集X出現(xiàn)的前提下，數(shù)據(jù)項(xiàng)集Y出現(xiàn)的條件概率，表達(dá)式為：

Confidence(X=^Y)=SupportfAUF)/Support(X)=P(Y\X)

(5)關(guān)聯(lián)規(guī)則的強(qiáng)弱。支持度體現(xiàn)的是項(xiàng)目集在交易中出現(xiàn)的頻度，而置信度

體現(xiàn)的則是項(xiàng)目集之間的關(guān)聯(lián)程度。一般地，用戶可以定義兩個(gè)閾值，分別設(shè)為最小

支持度閾值和最小置信度閾值，要求數(shù)據(jù)挖掘系統(tǒng)所生成的關(guān)聯(lián)規(guī)則的支持度和置信

度都不小于這兩個(gè)給定的閾值，我們則把這個(gè)規(guī)則成為強(qiáng)關(guān)聯(lián)規(guī)則，否則就是弱關(guān)聯(lián)

規(guī)則。

3.2Apriori算法實(shí)現(xiàn)

Apriori算法是最為經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法，其核心方法是基于使用候選項(xiàng)集

尋找頻繁項(xiàng)集方法。作為一種挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法，Apriori算法的核

心在于兩階段頻集思想的遞推算法。通過(guò)大量的實(shí)驗(yàn)驗(yàn)證和實(shí)際應(yīng)用場(chǎng)景的檢測(cè)，該

算法在主要適用于單維、單層、布爾類型的關(guān)聯(lián)規(guī)則。

Apriori算法作為最為經(jīng)典的頻繁項(xiàng)集獲取算法，主要依賴于兩個(gè)推論，即對(duì)于

項(xiàng)集"=%44…,Dj={dyi,dy2,dy3,...,dyn)其中m與n分別為項(xiàng)集Di

與Dj所包含的項(xiàng)的數(shù)目，如果Di是Dj的子集的話，也即DiUD尸Dj,DiCDj=Di,

那么在事務(wù)集T中，父集出現(xiàn)Dj出現(xiàn)的數(shù)量必然小于或者等于子集Di出現(xiàn)的數(shù)量,

雙方同時(shí)除以事務(wù)集T的事務(wù)總數(shù)，便可以得到，support(Dj)^support(Di),也

即support(Dj)>Pminsupport,根據(jù)之前所得到的support(Dj)仁support(Di),

可以得出support(Di)>Pminsupport,能推出結(jié)論，如果父集Dj是頻繁項(xiàng)集的話，

那么子集Di必然是頻繁項(xiàng)集。同時(shí)根據(jù)這個(gè)結(jié)論的逆否命題，便可以繼續(xù)得到

Apriori算法所需要的第二個(gè)推論，即如果子集Di不然是頻繁項(xiàng)集，那么父集Dj必

然不是頻繁項(xiàng)集。

Apriori算法的第一步便是獲得單個(gè)項(xiàng)di在事務(wù)集T中的支持度，此時(shí)滿足了

支持度support(di)大于最小支持度Pminsupport定義的項(xiàng)的集合便被稱作為第一

層候選頻繁項(xiàng)集H1,而此時(shí)所有的單個(gè)項(xiàng)的集合便被稱作是候選項(xiàng)集C1。在這之后

Apriori算法所作的便是根據(jù)上一個(gè)候選頻繁項(xiàng)集HnT,通過(guò)HnT中元素的規(guī)則性

組合，推導(dǎo)出包含n個(gè)項(xiàng)的第n層候選項(xiàng)集Cn,再根據(jù)Cn進(jìn)行條件篩選，得到包含

n個(gè)項(xiàng)的第n層候選頻繁項(xiàng)集Hn0Apriori算法可描述如下：

Stepl：Apriori使用逐層迭代根據(jù)候選找出頻繁項(xiàng)集，流程如圖3-1所示。

輸入：事務(wù)數(shù)據(jù)庫(kù)D和最小支持度閾值min_sup

輸出：D中的頻繁項(xiàng)集L

(1)L_l=find_frequent__l__itemset3(D);〃所有支持度不小于minsupporc的1-項(xiàng)目集

(2)￡or(k=2;L_(k-T)M;k:++){

(3)C__k=aprLori-gen(L_(k-1));//C_k是k個(gè)元素的假選集

(4)foreachtransactionst￡D(

(5)C__t=sut>3et(C_k,t);//C_t是所有七包含的候選集元素

(6)foreachcandidatescEC_t

(7)C.count++;

(3)}

(9)L_)c={cGC_k|c.count>=min_sup}

(10))

(11)returnL=UL__k;

圖3-1Apriori算法過(guò)程T

其中apriori-gen(Lk-1)做兩個(gè)動(dòng)作：連接(步驟1到4)和剪枝(步驟5到

7)。在前一部分通過(guò)LkT自鏈接產(chǎn)生可能的候選集，在后一部分使用先驗(yàn)性質(zhì)將具

有非頻繁子集的候選集刪除。

Step2：實(shí)現(xiàn)apriori-gen(Lk-1)過(guò)程，如圖3-2所示。

(1)foreachitemsetpd__(k-l)

(2)foreachitemsetqei_(k-l)

(3)if(p.icem_l=q.Ap.item_2=q.item_2n...Ap.item_(]c-2)=

q.np.)tnenf

(4)c=q~p;//連接步：產(chǎn)生候選

(5)ifhas_infrequent_subset(crL_(k-l))then

(6)deletec;〃剪枝步：刪除非頻蹩的候選

(7)elseaddctoC_k

(8)}

(9)returnC_k;

圖3-2Apriori算法過(guò)程-2

Step2對(duì)于每個(gè)事務(wù)找出其是候選的所有子集并將數(shù)量累計(jì)，Step3描述了對(duì)所

有非頻繁子集測(cè)試并刪除的過(guò)程。

Step3：實(shí)現(xiàn)has_infrequent_subset(c,Lk-1)過(guò)程，判斷候選集的元素，如

圖3-3所示。

{1}foreach(k-1)subsetsofc

(2)if3notGL_(k-l)then

(3)roturntzrue;

(4)returnfalse;

圖3-3Apriori算法過(guò)程-3

2.由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則

當(dāng)我們從數(shù)據(jù)庫(kù)D中的事務(wù)找出頻繁項(xiàng)集后，可以直接產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。置信度

計(jì)算如公式3.15所示。

support_count{A\JB)

Confidence(A=B)=P(B\A)=(5.12)

support_count(A)

其中support_count(4D8),是包含項(xiàng)集AUB的事務(wù)數(shù)，support_count(A)

是包含項(xiàng)集A的事務(wù)數(shù)。關(guān)聯(lián)規(guī)則可以產(chǎn)生如下：

(1)對(duì)于每個(gè)頻繁項(xiàng)集1,產(chǎn)生1的所有非空子集。

support_count(l)、?

---------=--------->mmconir

(2)于1的每個(gè)非空子集S,如果suPPort，。"皿s)一，則輸出規(guī)則“s=

(l-s)”,其中minconf是最小置信度。

結(jié)語(yǔ)

一般超市商品分類都是根據(jù)以往經(jīng)驗(yàn)或者是經(jīng)營(yíng)者根據(jù)大超市的經(jīng)驗(yàn)進(jìn)行分類,

分類并不同一，因此，實(shí)驗(yàn)結(jié)果有可能不一樣。一般而言，超市的商品時(shí)按商品品類

級(jí)依次擺放。當(dāng)我們分析出符合實(shí)際邏輯的規(guī)則時(shí)，我們可以讓商品按照這個(gè)規(guī)則來(lái)

擺放。根據(jù)消費(fèi)者購(gòu)買行為分析心理學(xué)，顧客買東西具有很大的沖動(dòng)性。我們也可以

利用這一點(diǎn)更加合理的使用商品關(guān)聯(lián)規(guī)則。比如，有一些規(guī)則支持度很高但是利潤(rùn)不

高，說(shuō)明顧客同時(shí)買這兩者的比例很高，即使他們不再一起，顧客也會(huì)穿過(guò)若干貨架

去尋找該關(guān)聯(lián)的商品。這個(gè)貨架我們可以擺放一些低關(guān)聯(lián)度但利潤(rùn)高的商品甚至是一

些沖動(dòng)消費(fèi)商品，比如日銷品，比如零食。本實(shí)驗(yàn)的數(shù)據(jù)支持度比較高的衛(wèi)清潔品和

紙類用品關(guān)聯(lián)度比較高，在這兩類商品之間可以放一些低支持度的沖動(dòng)型商品。事實(shí)

上，消費(fèi)者進(jìn)入超市，面對(duì)五花八門的商品，心中就算有需求的商品，也會(huì)被超市的

陳列引導(dǎo)去買本不打算購(gòu)買的商品，這樣，科學(xué)的規(guī)劃和合理的商品擺放對(duì)顧客的消

費(fèi)行為有很大的影響。商品擺放還要考慮商品的品牌，銷量，規(guī)則，大小等因素，比

如銷量大的放貨架兩旁一方面可以吸引顧客快速的找到需要的商品，一方面也可以引

起閑逛顧客的好奇吸引顧客去關(guān)注貨架中間的商品。比如銷量好、利潤(rùn)高的放在貨架

的中間層，利潤(rùn)低的商品放在貨架的高層，規(guī)格大的商品放在貨架的底層。我們一方

面要合理的利用超市商品規(guī)則算法，不限于商品的就近擺放，一方面也要考慮商品擺

放的其他因素，不能忽視這些，綜合考慮之后，經(jīng)營(yíng)者能制定合理的商品擺放方案,

利于銷量也利于超市整體利潤(rùn)的提高。

參考文獻(xiàn)

[1]李清蔓，楊杉.基于大數(shù)據(jù)技術(shù)的大型超市數(shù)據(jù)分析[J].科學(xué)技術(shù)創(chuàng)新,2021(07)：

80-82.

[2]潘渝棱，雷青青，張磊.基于品類數(shù)據(jù)分析的超市營(yíng)運(yùn)策略[J].今日財(cái)富，2020

(07)：71+73.

⑶趙雅欣，寧士勇.基于Python的超市020營(yíng)銷數(shù)據(jù)分析[J].哈爾濱商業(yè)大學(xué)學(xué)報(bào)

(自然科學(xué)版)，2019,35(04)：431-435.

[4]劉亞云.連鎖超市數(shù)據(jù)分析系統(tǒng)的開(kāi)發(fā)與實(shí)現(xiàn)[D].首都經(jīng)濟(jì)貿(mào)易大學(xué)，2019.

[5]許崇，徐勇，龐諾言.實(shí)體超市交易數(shù)據(jù)分析利用情況及對(duì)策探析[J].經(jīng)濟(jì)研究導(dǎo)

刊，2019(18)：62-63+161.

[6]劉菊君.數(shù)據(jù)驅(qū)動(dòng)的連鎖超市銷售數(shù)據(jù)分析與系統(tǒng)設(shè)計(jì)[D].湖南科技大學(xué)，2019.

[7]王統(tǒng)昊，劉尚旺.基于大數(shù)據(jù)的超市進(jìn)銷存效益分析系統(tǒng)設(shè)計(jì)[J].河南科技學(xué)院學(xué)

報(bào)(自然科學(xué)版)，2018,46(04)：61-67.

[8]楊振峰.大型連鎖超市數(shù)據(jù)管理中云計(jì)算與虛擬化技術(shù)的應(yīng)用分析[J].信息系統(tǒng)

工程，2017(07)：54.

[9]王麗科，趙菊敏，李燈熬.針對(duì)超市購(gòu)物數(shù)據(jù)的深度分析算法

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)背景下的大型超市數(shù)據(jù)分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)背景下的大型超市數(shù)據(jù)分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔