大數(shù)據(jù)背景下的大型超市數(shù)據(jù)分析_第1頁(yè)
大數(shù)據(jù)背景下的大型超市數(shù)據(jù)分析_第2頁(yè)
大數(shù)據(jù)背景下的大型超市數(shù)據(jù)分析_第3頁(yè)
大數(shù)據(jù)背景下的大型超市數(shù)據(jù)分析_第4頁(yè)
大數(shù)據(jù)背景下的大型超市數(shù)據(jù)分析_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

目錄

摘要...................................................................1

前言...................................................................2

第1章數(shù)據(jù)獲取及預(yù)處理...............................................4

1.1數(shù)據(jù)獲取.......................................................4

1.2數(shù)據(jù)預(yù)處理.....................................................5

1.3數(shù)據(jù)清理.......................................................5

1.4數(shù)據(jù)歸并.......................................................6

1.5數(shù)據(jù)標(biāo)準(zhǔn)化.....................................................7

1.6處理效果評(píng)價(jià)..................................................10

第2章訪問(wèn)目標(biāo)分析的實(shí)現(xiàn).............................................12

2.1聚類算法分析...................................................12

2.2K-均值算法實(shí)現(xiàn)................................................12

2.2.1算法原理.................................................12

2.2.2算法過(guò)程與實(shí)現(xiàn)...........................................13

2.3K-中心點(diǎn)算法實(shí)現(xiàn)..............................................14

2.3.1算法原理.................................................14

2.3.2算法過(guò)程與實(shí)現(xiàn)...........................................15

2.4結(jié)合凝聚方法的聚類算法實(shí)現(xiàn)....................................16

第3章訪問(wèn)習(xí)慣分析的實(shí)現(xiàn).............................................19

3.1關(guān)聯(lián)規(guī)則挖掘算法分析...........................................19

3.2APRIORI算法實(shí)現(xiàn)...............................................20

結(jié)語(yǔ)..................................................................24

參考文獻(xiàn)..............................................................25

大數(shù)據(jù)背景下的大型超市數(shù)據(jù)分析

摘要

本文首先對(duì)課題實(shí)驗(yàn)采用的原始數(shù)據(jù)的采集獲取工作進(jìn)行了介紹,然后詳細(xì)介紹

了數(shù)據(jù)清理、數(shù)據(jù)歸并、數(shù)據(jù)標(biāo)準(zhǔn)化等預(yù)處理流程,并成功縮小了原數(shù)據(jù)規(guī)模,獲得

了滿足要求和約束條件的實(shí)驗(yàn)數(shù)據(jù)集。在預(yù)處理后的數(shù)據(jù)集上結(jié)合系統(tǒng)的需求分析,

從訪問(wèn)目標(biāo)分析和訪問(wèn)習(xí)慣分析兩個(gè)角度進(jìn)行了設(shè)計(jì)與實(shí)現(xiàn),在此過(guò)程中引入了聚類

分析和關(guān)聯(lián)規(guī)則分析兩中數(shù)據(jù)挖掘方法。其中聚類分析采用了K-均值、K-中心點(diǎn)算

法和結(jié)合凝聚方法的改進(jìn)K-均值算法;關(guān)聯(lián)規(guī)則分析則采用Apriori算法挖掘頻繁

項(xiàng)集,并生成關(guān)聯(lián)規(guī)則。

關(guān)鍵詞:大數(shù)據(jù);超市產(chǎn)品;商品

刖百

市民各種商品的購(gòu)買需求,不論都市步行街,小鎮(zhèn)鎮(zhèn)中心或者是旅游景點(diǎn),隨處

可見(jiàn)規(guī)模各異的超市。超市遵循著業(yè)界千篇一律的商品擺放規(guī)律,比如促銷商品放門

口,小商品,小食品放收銀臺(tái)。規(guī)律簡(jiǎn)單有效,但是也有缺點(diǎn)。每一個(gè)超市由于地理

位置的不同,所面臨的顧客也大不相同,顧客的需求也不同。如何根據(jù)當(dāng)前超市的情

況,對(duì)物品做出擺放的調(diào)整。不同的季節(jié),客戶所需求的商品也會(huì)截然不同。根據(jù)以

往的經(jīng)驗(yàn)去擺放季節(jié)性商品既不及時(shí),效率也不高。另外,由于突發(fā)事件,例如天津

港事件中,礦泉水的銷售一空??梢岳眠@種突發(fā)事件的時(shí)機(jī),在礦泉水旁邊擺放更

多想要銷售的商品,這也非常重要"。

當(dāng)前,有些超市培訓(xùn)公司也在做大量相關(guān)的調(diào)查,盡量去做出一套方案以適應(yīng)大

多數(shù)超市,然而,這都是依照以往的數(shù)據(jù)進(jìn)行的分析,無(wú)法更好的適應(yīng)瞬息萬(wàn)變的顧

客需求。

計(jì)算機(jī)及條形碼的發(fā)展使得便捷的掃碼結(jié)賬成為超市主流收銀方式。結(jié)賬的信息

不僅通過(guò)小票的形式給了顧客,同時(shí)也存儲(chǔ)在商家的電腦中。這些流水信息包含詳細(xì)

的銷售情況,比如銷售的商品名,價(jià)格,數(shù)量,時(shí)間等。一般商家會(huì)對(duì)這些信息進(jìn)行

粗制的匯總用來(lái)統(tǒng)計(jì)超市的每日商品銷量,銷售額,銷售利潤(rùn)等,也能通過(guò)這些數(shù)據(jù)

得到商品的庫(kù)存。數(shù)據(jù)挖掘技術(shù)的出現(xiàn),超市可以更加充分的去利用這些數(shù)據(jù),從而

去理解顧客。比如合理的根據(jù)庫(kù)存調(diào)整商品的價(jià)格,合理的促銷,利用關(guān)聯(lián)規(guī)則對(duì)商

品進(jìn)行合理的擺放等。這些都能通過(guò)數(shù)據(jù)挖掘技術(shù)去充分挖掘小票數(shù)據(jù)從而進(jìn)行合理

的超市營(yíng)銷。已經(jīng)有一些文獻(xiàn)對(duì)超市營(yíng)銷和關(guān)聯(lián)規(guī)則算法進(jìn)行研究,但一般是單機(jī)算

法或者沒(méi)有考慮到商品利潤(rùn)的權(quán)重九

超市營(yíng)銷中最典型的手段就是促銷。通過(guò)促銷,能夠有效的引導(dǎo)消費(fèi)者關(guān)注所促

銷的商品,并提高該商品的銷量。促銷商品的來(lái)源一般是從超市經(jīng)營(yíng)者或者供應(yīng)商的

角度出發(fā)。日益激烈的超市競(jìng)爭(zhēng),也使得沒(méi)有考慮顧客需求的促銷行為效果大大打折。

盡管作為一個(gè)與顧客進(jìn)行交互的商業(yè)行為,超市一般也只是考慮單一商品的利潤(rùn),

實(shí)際上,通過(guò)分析顧客的購(gòu)買行為,我們也能通過(guò)關(guān)聯(lián)商品的銷售手段去提高超市整

體的利潤(rùn)。

經(jīng)營(yíng)者通常針對(duì)單個(gè)貨架上商品總利潤(rùn)來(lái)統(tǒng)計(jì)超市整體的利潤(rùn)水平,將貨架擺放

在人流大的地方提高單個(gè)貨架的銷量,也能實(shí)現(xiàn)貨架的利潤(rùn)的提高。因此,合理的放

置貨架和合理的擺放貨架上的商品,是一個(gè)超市需要考慮的問(wèn)題。能讓顧客在一個(gè)貨

架或者是相連的貨架買到自己需求的商品,不僅為顧客節(jié)約了寶貴的時(shí)間,也能提高

商品的銷量。經(jīng)營(yíng)者利用數(shù)據(jù)挖掘技術(shù)去分析小票數(shù)據(jù),能夠了解顧客的購(gòu)買習(xí)慣,

提高關(guān)聯(lián)商品的銷量,提高貨架使用率,建立更加合理的貨架擺放和商品擺放。因此,

想做好超市營(yíng)銷要關(guān)注超市商品的擺放策略、

很多數(shù)據(jù)挖掘的學(xué)者關(guān)注到這一問(wèn)題,并進(jìn)行了很多理論研究。主流的結(jié)論是根

據(jù)關(guān)聯(lián)規(guī)則算法去分析貨架商品的擺放,但僅僅根據(jù)算法關(guān)聯(lián)支持度去排序,而沒(méi)有

考慮商品的利潤(rùn),是不適合的。對(duì)于商家來(lái)說(shuō),增加利潤(rùn)才是最重要的。提高商品的

銷量還能提高超市整體的利潤(rùn),能夠提供更有實(shí)際價(jià)值的營(yíng)銷策略。

第1章數(shù)據(jù)獲取及預(yù)處理

1.1數(shù)據(jù)獲取

用戶行為分析系統(tǒng)的數(shù)據(jù)源是公網(wǎng)訪問(wèn)流量控制服務(wù)器(以下簡(jiǎn)稱流控服務(wù)器),

流控服務(wù)器在網(wǎng)絡(luò)中的位置如圖1-1所示。從圖上可以看到,流控服務(wù)器連接著分別

通向教育網(wǎng)絡(luò)、電信網(wǎng)絡(luò)和聯(lián)通網(wǎng)絡(luò)三條不同出口。校內(nèi)的公網(wǎng)訪問(wèn)請(qǐng)求首先將通過(guò)

流控服務(wù)器,到達(dá)公網(wǎng)出口路由后,會(huì)根據(jù)所請(qǐng)求的資源的地址,自動(dòng)選擇相應(yīng)的公

網(wǎng)出口。在流控服務(wù)器上記錄著每一條公網(wǎng)訪問(wèn)信息,每天都會(huì)有數(shù)十GB的訪問(wèn)日

志數(shù)據(jù)增加。

防火墻

圖1-1超市訪問(wèn)示意圖

流控服務(wù)器上的網(wǎng)絡(luò)訪問(wèn)日志有RPT_LUR、RPT_PUR、RPT_TR、RPTJ1ALUR,

RPT_MEDIA等文件,其中RPT_TR是主日志文件,記錄了所有的公網(wǎng)訪問(wèn)信息,因此

將該日志文件作為系統(tǒng)的原始數(shù)據(jù)源。

由于訪問(wèn)日志文件記錄的數(shù)據(jù)量十分巨大,為了便于進(jìn)行分析與實(shí)驗(yàn),也為了避

免對(duì)流控服務(wù)器的日常運(yùn)行造成影響,特從2016年3月1日至2016年3月31日的

原始數(shù)據(jù)中抽取一百萬(wàn)條記錄作為實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)操作在WindowsPC機(jī)上進(jìn)行,該

PC機(jī)支持PHP和MySQL數(shù)據(jù)庫(kù)。

1.2數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理目的是為數(shù)據(jù)挖掘工作準(zhǔn)備數(shù)據(jù)集,避免由于數(shù)據(jù)冗余、噪音等因素

影響數(shù)據(jù)挖掘的順利進(jìn)行,從而提高數(shù)據(jù)挖掘的質(zhì)量,使分析結(jié)果的意義更加明確、

更加符合實(shí)際需求'數(shù)據(jù)預(yù)處理在實(shí)際的數(shù)據(jù)挖掘項(xiàng)目中往往是耗費(fèi)時(shí)間最多、最

為繁瑣的步驟。數(shù)據(jù)預(yù)處理包括了數(shù)據(jù)理解、數(shù)據(jù)整理與合并、數(shù)據(jù)抽樣、數(shù)據(jù)描述、

數(shù)據(jù)清理、變量變換與合成、變量選擇等。

在確定了業(yè)務(wù)目標(biāo)后,要收集相關(guān)的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行描述以熟悉數(shù)據(jù),對(duì)數(shù)

據(jù)進(jìn)行檢查以確認(rèn)數(shù)據(jù)的質(zhì)量,如數(shù)據(jù)是否存在噪聲、缺失值、冗余屬性、不一致、

數(shù)據(jù)過(guò)多或過(guò)少等問(wèn)題九數(shù)據(jù)選擇包括字段屬性的選擇、合成,以及數(shù)據(jù)內(nèi)容的選

擇等;數(shù)據(jù)清理要對(duì)噪聲數(shù)據(jù)和“臟”數(shù)據(jù)進(jìn)行去除,并對(duì)存在缺失值的數(shù)據(jù)進(jìn)行處

理;數(shù)據(jù)合成是根據(jù)業(yè)務(wù)需要或問(wèn)題實(shí)質(zhì),將原始數(shù)據(jù)中的單個(gè)或多個(gè)屬性記錄進(jìn)行

相應(yīng)的轉(zhuǎn)換,生成新的屬性;數(shù)據(jù)合并是將一些共性的數(shù)據(jù)記錄根據(jù)某種規(guī)則進(jìn)行合

并處理;數(shù)據(jù)格式化,又稱標(biāo)準(zhǔn)化,是對(duì)數(shù)據(jù)中存在的單位或數(shù)量級(jí)不一致的情況進(jìn)

行處理外

1.3數(shù)據(jù)清理

在原始數(shù)據(jù)中不可避免地存在許多噪聲數(shù)據(jù)和“臟”數(shù)據(jù),同時(shí)還有不少與用戶

行為分析無(wú)關(guān)的冗余數(shù)據(jù)。數(shù)據(jù)清理要試圖去除噪聲數(shù)據(jù),糾正問(wèn)題數(shù)據(jù),填充不完

整數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)一致性。

對(duì)基于Web訪問(wèn)的分析模型,本文關(guān)注的重點(diǎn)是用戶在進(jìn)行正常Web訪問(wèn)時(shí)的活

動(dòng)記錄,并且只關(guān)注與Web訪問(wèn)相關(guān)的字段屬性。根據(jù)分析模型的需求,我們重點(diǎn)關(guān)

注“請(qǐng)求訪問(wèn)時(shí)間”、“客戶端IP”、“客戶端端口”、“目標(biāo)IP”、“目標(biāo)端口”、“網(wǎng)站

域名”、“請(qǐng)求路徑”等字段。使用SQL語(yǔ)句將MySQL數(shù)據(jù)庫(kù)中“請(qǐng)求路徑”字段為空

和IP地址為空的元組刪除,并將數(shù)據(jù)保存在新的數(shù)據(jù)表Webdata中,獲得的數(shù)據(jù)記

錄共142043條。

1.4數(shù)據(jù)歸并

通過(guò)觀察發(fā)現(xiàn),在當(dāng)前的數(shù)據(jù)集中,“ACCESS_String”中的網(wǎng)址既有頂級(jí)域名,

也有二級(jí)、三級(jí)甚至多級(jí)域名,無(wú)法區(qū)分各個(gè)網(wǎng)址真實(shí)的訪問(wèn)情況,因此需要對(duì)數(shù)據(jù)

進(jìn)行處理,將各個(gè)訪問(wèn)網(wǎng)址歸并到各自的頂級(jí)域名'

在基于Web訪問(wèn)的分析模型中,作為主要特征的屬性有兩個(gè),一個(gè)是訪問(wèn)次數(shù),

由于并不分別考慮上行流量與下行流量的情況,因此將上下行流量合并為一個(gè)新的屬

性,并命名為流量。

Webdata數(shù)據(jù)表中的每條記錄都是單獨(dú)的請(qǐng)求操作,要獲得每一個(gè)網(wǎng)站的訪問(wèn)次

數(shù)就需要對(duì)這些記錄進(jìn)行歸并,以獲得每個(gè)網(wǎng)站的總訪問(wèn)次數(shù),使用SQL語(yǔ)句進(jìn)行

歸并操作。

經(jīng)過(guò)對(duì)網(wǎng)站訪問(wèn)量和流量歸并后的數(shù)據(jù)表如圖2T所示,共3446條。

websitevisitnetstream

OOlunion.COM2504

OOcounter.con115687

OlOso.com1609

Olhr.com371761

022net.COB1100001.9

021.cn1879

0211392

036.com.cn28650

0371sports,con280670

051Iqy.COB134130

0533car.cn134995

0563dy.coa21478

05809.com12178

07073.com11479

0750wyt.COB24348

0898.net636785

lOOOOcc.COB422788

lOOim.cn12869

lOOte.com23092

lOlOJob.COB11131

105.com.cn16623

lOgao.com26038

lOjqka.COM.cn423974

lOpix.ru23134

圖2-1網(wǎng)址訪問(wèn)量及流量統(tǒng)計(jì)

1.5數(shù)據(jù)標(biāo)準(zhǔn)化

在使用聚類算法對(duì)大量數(shù)據(jù)進(jìn)行處理時(shí),選用的度量單位將直接影響聚類分析的

結(jié)果。如果相同大小的值轉(zhuǎn)化為不同的度量單位,很可能就會(huì)產(chǎn)生非常不同的聚類結(jié)

果。一般來(lái)說(shuō),變量所用的度量單位越小,變量可能的值域就越大,對(duì)聚類結(jié)果的影

響也就越大。特別是當(dāng)需要把不同屬性的不同變量一同進(jìn)行分析時(shí),不同的取值范圍

容易使得分析結(jié)果發(fā)生扭曲,更偏向取值范圍大的變量。為了避免或減少這種情況的

影響,需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化)通過(guò)標(biāo)準(zhǔn)化處理,將所有的變量劃歸到相同或相近

的取值范圍,并根據(jù)需要對(duì)每個(gè)字段給予相對(duì)應(yīng)的權(quán)重。

在基于Web訪問(wèn)的分析模型中,訪問(wèn)次數(shù)與網(wǎng)絡(luò)流量?jī)蓚€(gè)屬性字段是計(jì)算網(wǎng)站相

似度的主要參數(shù),但是兩個(gè)字段值的數(shù)量級(jí)相差很大%如果不進(jìn)行相應(yīng)的標(biāo)準(zhǔn)化處

理,將很可能無(wú)法獲得準(zhǔn)確的分析結(jié)果。在這里,本文采用極差歸一化方法解決這個(gè)

問(wèn)題。

極差歸一化是將變量的極差,即取值范圍,線性地變換到區(qū)間:

_?一加七

Vi-

,maxx-mfnx

其中,匕是變換后的值,匕是待變換的值,max八和min」分別是變量的最大值和

最小值。極差歸一化也稱最大一最小歸一化。由于極差歸一化是線性變換,不會(huì)改變

原變量的分布,因而在實(shí)際應(yīng)用中得到廣泛使用。變量在歸一化后數(shù)值會(huì)集中到區(qū)間

中,便于處理口。數(shù)據(jù)標(biāo)準(zhǔn)化處理程自動(dòng)識(shí)別每個(gè)字段的取值范圍,并根據(jù)極差歸一

化的方法進(jìn)行標(biāo)準(zhǔn)化處理。經(jīng)過(guò)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)如圖4所示。

但在本分析模型中,相同字段內(nèi)的取值范圍也是很大的,如果直接采用普通的極

差歸一化方法會(huì)產(chǎn)生一個(gè)問(wèn)題:與變量最大值數(shù)量級(jí)相差較大的變量將被轉(zhuǎn)化為接近

零的值,這些值在采用歐氏距離進(jìn)行相似度計(jì)算的時(shí),會(huì)放大其效果,使得其相似度

更加接近于零。特別是數(shù)據(jù)集中變量存在極大值的時(shí)候,這個(gè)問(wèn)題尤為明顯,這一點(diǎn)

可以從圖2-2看出。

websitevisitnetstrean

OOlunion.COB2.72E-053.30E-06

OOcounter.com00.00010275

OlOso.co?03.99E-06

Olhr.com5.44E-050.00047003

022net.com00.000655

021.cn05.76E-06

0209.12E-06

036.con.cn2.72E-055.67E-05

03712.72E-050.00052838

051Iqy.com00.00022355

0533car.cn00.00022921

0563dy.com2.72E-059.68E-06

05809.co*01.43E-05

07073.co>09.69E-06

0750wyt.com2.72E-052.85E-05

0898.net0.00013590.00024094

lOOOOcc.com8.15E-050.00014926

1001m.cn01.88E-05

lOOte.COB2.72E-052.03E-05

lOlOjob.com07.41E-06

105.con.cn04.34E-05

lOgao.co*2.72E-053.95E-05

lOjqka.com.cn8.15E-050.00015703

lOpix.ru2.72E-052.05E-05

圖2-2標(biāo)準(zhǔn)化處理后的數(shù)據(jù)

另一方面,在數(shù)據(jù)的存儲(chǔ)上,過(guò)多的小數(shù)點(diǎn)位數(shù)并不利于精確保存,同時(shí)在計(jì)算

時(shí)也容易產(chǎn)生浮點(diǎn)精度的問(wèn)題,綜合考慮上述情況后,本文采用變量數(shù)量級(jí)差級(jí)變

換的方法,通過(guò)調(diào)整標(biāo)準(zhǔn)化數(shù)據(jù)的數(shù)量級(jí)來(lái)避免變量數(shù)值過(guò)小的問(wèn)題。其具體過(guò)程是:

(1)設(shè)數(shù)據(jù)集中需要計(jì)算的字段數(shù)量為n,首先獲取每個(gè)字段的最大值,分別

記為Vmaxi;

(2)比較%”,?每個(gè)值的數(shù)量級(jí),選擇數(shù)量級(jí)最小的值分別記為%axs;

(3)對(duì)各個(gè)字段使用極差歸一化的方法對(duì)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化,但在計(jì)算每個(gè)值

與最小值疝心的差時(shí),都乘以%血所對(duì)應(yīng)的數(shù)量級(jí)0s,即

v,=(Vi-minA^Os(52)

ImaxA-minA

經(jīng)過(guò)數(shù)量級(jí)差級(jí)放大后,數(shù)據(jù)集中各字段的數(shù)值能處在同一個(gè)數(shù)量級(jí)上,在計(jì)算

上帶來(lái)了方便,也提高了計(jì)算的準(zhǔn)確性。在經(jīng)過(guò)標(biāo)準(zhǔn)化的數(shù)據(jù)表中,“Visit”字段有

多個(gè)元組的值為0,為保證挖掘結(jié)果的準(zhǔn)確性,將這些元組刪除。重新標(biāo)準(zhǔn)化后的數(shù)

據(jù)如圖2-3所示。

websitevisitnetstream

OOlunion.co*0.2717690.033012

Olhr.com0.5435374.700284

036.com.cn0.2717690.566568

03710.2717695.283816

Olhr.com0.5435374.700284

036.0.2717690.566568

03710.2717695.283816

0563dy.com0.2717690.096808

0750wyt.com0.2717690.28479

0898.net1.3588432.409386

lOOOOcc.com0.8153061.492594

lOOte.COB0.2717690.202523

lOgao.com0.2717690.395484

lOjqka.com.cn0.8153061.570276

lOpix.ru0.2717690.205274

圖2-3改進(jìn)方法標(biāo)準(zhǔn)化處理后的數(shù)據(jù)

1.6處理效果評(píng)價(jià)

數(shù)據(jù)挖掘中相當(dāng)大的一部分工作就是數(shù)據(jù)準(zhǔn)備,特別是數(shù)據(jù)的預(yù)處理。根據(jù)國(guó)外

的統(tǒng)計(jì)數(shù)據(jù),在數(shù)據(jù)挖掘中數(shù)據(jù)準(zhǔn)備工作需要占用大概60%的工作量⑼。在本文中,

數(shù)據(jù)準(zhǔn)備工作并沒(méi)有達(dá)到那么高的復(fù)雜性,但仍然是很重要的工作,在實(shí)際操作中也

占用了相當(dāng)?shù)墓ぷ髁俊?/p>

根據(jù)用戶行為分析的需要,1百萬(wàn)條記錄的原始數(shù)據(jù)經(jīng)過(guò)提取、清理、歸并、標(biāo)

準(zhǔn)化等處理,最后獲得的符合分析需求的數(shù)據(jù)為2091條。數(shù)據(jù)預(yù)處理明顯地減小了

數(shù)據(jù)挖掘算法所要處理的數(shù)據(jù)規(guī)模,為數(shù)據(jù)挖掘工作提供了滿足要求和約束條件的數(shù)

據(jù)集,達(dá)到了數(shù)據(jù)預(yù)處理的目的。

第2章訪問(wèn)目標(biāo)分析的實(shí)現(xiàn)

2.1聚類算法分析

聚類分析包括劃分法、層次法等多種類型,但基本其目都是要把大量的數(shù)據(jù)對(duì)象

形成多個(gè)不同的簇或者群組,使得簇與簇之間的數(shù)據(jù)盡量不同而簇內(nèi)的數(shù)據(jù)盡量相似

r""o形式上,可以給定n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集D和要生成的簇?cái)?shù)k,通過(guò)不同算法將

數(shù)據(jù)對(duì)象組織成k(kWn)個(gè)分區(qū),它歸根結(jié)底還是求最優(yōu)解的問(wèn)題,實(shí)現(xiàn)n維樣本

空間全體向量距其聚類中心的距離最小,對(duì)于該樣本空間中的向量x,,X」:

…X/X“Xj2….,X加},則向量X:,X,之間的距離為:

辦=jEk=i(^ut-Xjk)

經(jīng)過(guò)多年研究,聚類算法主要集中于基于距離的聚類分析。在機(jī)器學(xué)習(xí)領(lǐng)域中,

將分類稱之為監(jiān)督學(xué)習(xí),因?yàn)樵诜诸惙治鲋型ǔ?huì)確定每一個(gè)訓(xùn)練數(shù)據(jù)和具體劃分的

類間的隸屬關(guān)系;但是聚類是屬于無(wú)監(jiān)督學(xué)習(xí),聚類算法的實(shí)現(xiàn)過(guò)程是在沒(méi)有類標(biāo)號(hào)

信息的情況下通過(guò)觀察學(xué)習(xí)得到的,而不是像分類一樣通過(guò)樣例進(jìn)行學(xué)習(xí)

用戶行為分析需要對(duì)多種行為屬性的數(shù)據(jù)進(jìn)行分析,并且一般原始數(shù)據(jù)量巨大。

但預(yù)處理后的數(shù)據(jù)集可能比原始數(shù)據(jù)集小很多,根據(jù)數(shù)據(jù)預(yù)處理的結(jié)果,本文采用

K-均值和K-中心點(diǎn)算法進(jìn)行聚類,并通過(guò)一定的改進(jìn)提高聚類算法可靠性。

2.2K-均值算法實(shí)現(xiàn)

2.2.1算法原理

K-均值(K-means)算法以要生成的簇的數(shù)目k為輸入?yún)?shù),把n個(gè)對(duì)象劃分為

k組(kWn),每個(gè)組表示一個(gè)簇。首先,隨機(jī)選擇k個(gè)對(duì)象代表簇的平均值,稱為

簇的中心即。然后將剩余的對(duì)象劃分到最近似的簇中,再重新計(jì)算每個(gè)簇的平均值。

這個(gè)過(guò)程一直重復(fù),直到準(zhǔn)則函數(shù)收斂,或者達(dá)到指定的迭代次數(shù)上限為止。通常采

用平方誤差準(zhǔn)則函數(shù),即

Je—EiiExeCil'—W

其中,乙是數(shù)據(jù)集合中所有數(shù)據(jù)對(duì)象的平方誤差的總和;x是數(shù)據(jù)對(duì)象,”是

簇G的平均值。

兩個(gè)數(shù)據(jù)對(duì)象之間的相似度可以通過(guò)他們間的相異性來(lái)定義和描述。一般而言,

在計(jì)算兩個(gè)對(duì)象之間的相異性時(shí),會(huì)采用兩個(gè)對(duì)象之間的距離來(lái)計(jì)算。在計(jì)算個(gè)體對(duì)

象與簇中心距離時(shí),通常采用歐式距離,其計(jì)算公式為

d(x,y)=JwiQi—+卬2(必一小產(chǎn)+…+卬久力一小產(chǎn)

2

rf(x,y)=Wk(Xk-yk)(1wkWn)

其中,芯=(和々,工3…x“)和、=(如%,%…”)是兩個(gè)n維的數(shù)據(jù)對(duì)象,而

加=(見(jiàn),加2,%…加“)則是代表每個(gè)屬性在計(jì)算相異度時(shí)所代表的權(quán)重,不同的權(quán)重設(shè)

置會(huì)產(chǎn)生不同的相異度,從而影響到簇的劃分。

2.2.2算法過(guò)程與實(shí)現(xiàn)

前期從校園網(wǎng)流控服務(wù)器上采集的原始數(shù)據(jù)經(jīng)過(guò)了一系列的預(yù)處理之后,存儲(chǔ)在

MySQL數(shù)據(jù)庫(kù)之中,使用MySQL數(shù)據(jù)庫(kù)Webdata表中網(wǎng)站的點(diǎn)擊量和流量作為算法的

輸入。對(duì)于K-均值算法,還需要指定進(jìn)行聚類的簇的數(shù)目k。

K-均值算法見(jiàn)圖2-1,其具體過(guò)程如下:

輸入:簇的數(shù)目k,網(wǎng)站點(diǎn)擊量visit,網(wǎng)站流量netstream

輸出:以visit和netstream為特征的k個(gè)簇,即k類網(wǎng)站

開(kāi)始

輸入包含n個(gè)對(duì)

象的數(shù)據(jù)集

輸入簇的數(shù)目k

圖2TK-均值算法流程圖

得到的k個(gè)簇即為以訪問(wèn)量和流量加以區(qū)分的k種不同類型的網(wǎng)站。

2.3K-中心點(diǎn)算法實(shí)現(xiàn)

2.3.1算法原理

K-中心點(diǎn)(K-medoids)算法不采用對(duì)象的平均值作為簇中心,而選用簇中離平

均值最近的對(duì)象作為簇中心,這樣可以盡量減少孤立點(diǎn)對(duì)中心選擇的影響,%其余的

每個(gè)對(duì)象被分配到與其最為相似的代表性對(duì)象所在的簇中。使用了一個(gè)絕對(duì)誤差標(biāo)準(zhǔn)

進(jìn)行劃分,即

其中,E是數(shù)據(jù)集中所有對(duì)象p與Ci的代表對(duì)象oi的絕對(duì)誤差之和。這是K-

中心點(diǎn)方法的基礎(chǔ)。K-中心點(diǎn)聚類通過(guò)最小化該絕對(duì)誤差,把n個(gè)對(duì)象劃分到K個(gè)簇

中。

圍繞中心點(diǎn)劃分(PartitioningAroundMedoids)是K-中心點(diǎn)聚類的一種流行

實(shí)現(xiàn)。PAM算法的目的是對(duì)n個(gè)數(shù)據(jù)對(duì)象給出k個(gè)劃分,PAM算法的基本思想:先為

每個(gè)簇隨意選擇一個(gè)代表對(duì)象(中心點(diǎn)),剩余的對(duì)象根據(jù)其與代表對(duì)象的相異度或

距離分配給最近的一個(gè)簇。然后反復(fù)地用非代表對(duì)象來(lái)替換代表對(duì)象,以提高聚類的

質(zhì)量;聚類質(zhì)量由代價(jià)函數(shù)來(lái)評(píng)估,該函數(shù)用來(lái)判斷一個(gè)非代表對(duì)象是否是當(dāng)前一個(gè)

代表對(duì)象的好的代替,如果就是進(jìn)行替換,否則不替換。最后給出正確的劃分。

2.3.2算法過(guò)程與實(shí)現(xiàn)

PAM算法的過(guò)程如圖2-2所示,其具體過(guò)程如下:

輸入:結(jié)果簇的個(gè)數(shù)k,網(wǎng)站點(diǎn)擊量visit,網(wǎng)站流量netstream

輸出:

圖2-2K-中心點(diǎn)算法流程圖

得到的k個(gè)簇即為以訪問(wèn)量和流量加以區(qū)分的k種不同類型的網(wǎng)站。

2.4結(jié)合凝聚方法的聚類算法實(shí)現(xiàn)

在K-均值算法中,第一步就是隨機(jī)選擇k個(gè)對(duì)象,分別作為k個(gè)簇的中心點(diǎn)。

最理想的情況就是初始狀態(tài)下選擇的k個(gè)中心屬于不同簇,即任意兩個(gè)初始的中心點(diǎn)

都不屬于同一個(gè)最終劃分的簇;同時(shí),k個(gè)初始對(duì)象應(yīng)該盡可能地靠近每個(gè)簇的中心。

但通過(guò)實(shí)驗(yàn)可以發(fā)現(xiàn),K-均值算法的初始劃分很難通過(guò)隨機(jī)選擇方式來(lái)達(dá)到理想狀態(tài)

的約束條件的。為了對(duì)這種情況進(jìn)行改進(jìn),優(yōu)化初始簇劃分,在這里引入了基于層次

的凝聚聚類算法。

凝聚聚類算法采用的是自底向上的策略,它的基本思想是:首先將每個(gè)一個(gè)數(shù)據(jù)

對(duì)象看作是一個(gè)獨(dú)立的簇,然后比較每?jī)蓚€(gè)簇之間的相異度,依次合并最相似的原子

簇并形成新的簇,簇的數(shù)目越來(lái)越少,簇的大小越來(lái)越大,直到所有的對(duì)象都在一個(gè)

簇中,或者滿足某個(gè)終結(jié)條件為止。凝聚聚類算法的執(zhí)行結(jié)果是生成一顆聚類樹(shù),它

的優(yōu)點(diǎn)是方法簡(jiǎn)單,聚類的層次結(jié)構(gòu)清晰,基本可以發(fā)現(xiàn)任何形狀的簇,沒(méi)有K-均

值算法的初始值選擇問(wèn)題,可以根據(jù)不同的需求對(duì)簇的粒度進(jìn)行調(diào)整,從而滿足不同

的分析需求,生成較高質(zhì)量的聚類。但是凝聚聚類算法也存在明顯的缺點(diǎn)。首先,同

其他層次聚類算法一樣,在聚類過(guò)程中,每一次簇的合并都是不可逆的嘰這使得已

經(jīng)形成的簇不能進(jìn)一步得到優(yōu)化;其次,在進(jìn)行簇合并操作時(shí),需要進(jìn)行大量的計(jì)算

以獲得簇之間的相異度,并且隨著數(shù)據(jù)對(duì)象的增多,計(jì)算量急劇增加,因此并不具有

良好的伸縮性,不適合大數(shù)據(jù)集的處理。

在本課題中,我們結(jié)合K-均值聚類算法與凝聚聚類算法的特點(diǎn),并盡量避免其

缺點(diǎn),從而提出一種較為有效的算法改進(jìn)方案。該方案的基本思想是:采用抽樣方法

從數(shù)據(jù)集中獲得隨機(jī)樣本,采用凝聚聚類算法進(jìn)行分析,獲得初始的簇劃分;然后以

凝聚聚類算法獲得的初始簇的中心點(diǎn)作為K-均值算法初始簇中心點(diǎn),再進(jìn)行K-均值

聚類。這個(gè)方案結(jié)合了抽樣、凝聚聚類和K-均值聚類方法的特點(diǎn),既利用凝聚聚類

優(yōu)化了初始簇的劃分,又利用K-均值聚類在處理大數(shù)據(jù)集上的性能優(yōu)勢(shì),并且在一

定程度上較少了數(shù)據(jù)輸入的順序?qū)τ贙-均值算法聚類結(jié)果的影響。同時(shí),經(jīng)過(guò)優(yōu)化

的初始簇劃分也能夠減少K-均值聚類的過(guò)程的迭代次數(shù),進(jìn)一步提高分析效率。

當(dāng)數(shù)據(jù)集過(guò)大的時(shí)候,受數(shù)據(jù)挖掘算法的時(shí)間或空間復(fù)雜度的限制,需要對(duì)數(shù)據(jù)

集進(jìn)行抽樣才能進(jìn)行有效的分析同。常見(jiàn)的抽樣方法有隨機(jī)抽樣和分層抽樣。隨機(jī)抽

樣又稱簡(jiǎn)單抽樣,它從數(shù)據(jù)集中隨機(jī)抽取一定比例的樣本,在抽取時(shí)分為有放回和無(wú)

放回兩種情況;分層抽樣是首先利用某個(gè)條件將數(shù)據(jù)集分割成許多子集,在對(duì)每個(gè)子

集進(jìn)行隨機(jī)抽樣的過(guò)程。

在基于Web訪問(wèn)的分析模型中,數(shù)據(jù)集的分布呈現(xiàn)較為不均勻的形態(tài),因此我們

選擇采用分層抽樣,以提高數(shù)據(jù)分布較少的類的樣本比例,避免其被分析算法“忽略”。

考慮到在進(jìn)行數(shù)據(jù)抽樣時(shí)可能存在的隨機(jī)性和不確定性,將方案中的抽樣和凝聚

步驟改為進(jìn)行多次抽樣,分別通過(guò)凝聚聚類獲得初始簇的劃分,并將各次凝聚的結(jié)果

進(jìn)行綜合處理,最終確定初始簇的劃分。改進(jìn)后的方案流程如圖2-3所示。

算法的具體過(guò)程如下:

輸入:經(jīng)過(guò)預(yù)處理的數(shù)據(jù)集D和預(yù)期劃分簇的數(shù)目k

輸出:經(jīng)過(guò)優(yōu)化方案生成的k個(gè)簇

過(guò)程:

(1)按照分層抽樣方法從數(shù)據(jù)集D中抽取m個(gè)樣本號(hào)=。=1,2…

(2)對(duì)每個(gè)樣本S;采用凝聚聚類算法進(jìn)行聚類分析,并以簇?cái)?shù)k為聚類終止條

件,生成m組初始簇劃分,將每組簇的中心集記為Z,=(i=L2…

(3)將m組初始簇的劃分進(jìn)行綜合處理,以獲取用于K-均值聚類的初始簇的劃

分,處理方式為:

首先將每組初始簇的劃分按照中心點(diǎn)位置進(jìn)行排序,然后將每組初始簇中對(duì)應(yīng)簇

的中心點(diǎn)求均值,將均值作為相應(yīng)位置上的簇的初始中心,表達(dá)為:

Z=$},>小k

(4)將初始的簇劃分的中心集作為輸入,采用K-均值算法對(duì)完整數(shù)據(jù)集進(jìn)行聚

類分析,其過(guò)程與前文所述相同;

(5)返回各個(gè)聚類的中心和成員。

圖2-3混合聚類算法流程圖

第3章訪問(wèn)習(xí)慣分析的實(shí)現(xiàn)

3.1關(guān)聯(lián)規(guī)則挖掘算法分析

關(guān)聯(lián)規(guī)則(AssociationRule)挖掘算法是數(shù)據(jù)挖掘領(lǐng)域中十分重要的算法,該

方法主要基于概率論與數(shù)理統(tǒng)計(jì)方法進(jìn)行聚類分析。從1993年R.Agrawal提出關(guān)聯(lián)

規(guī)則開(kāi)始,到現(xiàn)在已經(jīng)有了20余年的發(fā)展,關(guān)聯(lián)規(guī)則算法一般來(lái)說(shuō)計(jì)算簡(jiǎn)便且易于

實(shí)踐,具有極強(qiáng)的適用性。

關(guān)聯(lián)規(guī)則是主要針對(duì)不同項(xiàng)在不同事務(wù)中的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì),算法主要通過(guò)在

眾多事務(wù)中發(fā)現(xiàn)出現(xiàn)頻繁的項(xiàng)的集合并根據(jù)這些頻繁項(xiàng)集推導(dǎo)最終結(jié)論。一般來(lái)說(shuō),

關(guān)聯(lián)規(guī)則應(yīng)該是項(xiàng)A=項(xiàng)B這類的形式,項(xiàng)A與項(xiàng)B無(wú)交集,相互獨(dú)立,并且項(xiàng)A與

項(xiàng)B都屬于待挖掘項(xiàng)。其中事務(wù)的概念是指一次事件發(fā)生過(guò)程,而項(xiàng)則是指在某一次

事務(wù)中包含的所關(guān)注的數(shù)據(jù),例如學(xué)生A在某一時(shí)間段訪問(wèn)了某個(gè)站點(diǎn)產(chǎn)生了一次訪

問(wèn)記錄,則這一行為動(dòng)作便可以被抽象成一次事務(wù),而時(shí)間、站點(diǎn)地址、流量等則是

算法所關(guān)心的項(xiàng)。對(duì)于關(guān)聯(lián)規(guī)則,便是要得出類似項(xiàng)A發(fā)生可以得出項(xiàng)B發(fā)生這樣的

結(jié)論。

以下簡(jiǎn)單介紹與關(guān)聯(lián)規(guī)則相關(guān)的重要定義及性質(zhì)。

1.相關(guān)定義

假設(shè)/=億是項(xiàng)的集合,對(duì)于每個(gè)事務(wù)數(shù)據(jù)庫(kù)D來(lái)說(shuō),都有唯一的標(biāo)志

TID對(duì)其進(jìn)行標(biāo)志。因此,每個(gè)事務(wù)=…都對(duì)應(yīng)I上的一個(gè)子集。

(1)數(shù)據(jù)項(xiàng)集的支持度。是指包含X的事務(wù)在D中所占的百分比,即為

Support^)=||{teD|XGt)||/||D||

(2)頻繁項(xiàng)集與非頻繁項(xiàng)集。對(duì)于支持度大于等于最小支持度的非空數(shù)據(jù)項(xiàng)集

稱作頻繁項(xiàng)集,否則稱為非頻繁項(xiàng)集。

(3)關(guān)聯(lián)規(guī)則。稱X=Y的蘊(yùn)含式是數(shù)據(jù)集D中的一個(gè)關(guān)聯(lián)規(guī)則,其中X,Yul,

并且XAY=。。在這個(gè)關(guān)聯(lián)規(guī)則中X稱作條件,Y稱作結(jié)果。

(4)關(guān)聯(lián)規(guī)則的支持度與置信度。規(guī)則X=Y的支持度指在數(shù)據(jù)集D中既包含X

又包含Y的事務(wù)占總事務(wù)數(shù)之比,即同時(shí)出現(xiàn)數(shù)據(jù)項(xiàng)集X和Y的概率,表達(dá)式為:

Support(XY)=Support(JAJY)=P(MJY)

規(guī)則X=Y的置信度指在數(shù)據(jù)集D中,包含X的事務(wù)中同時(shí)包含X和Y的事務(wù)的

占比,即數(shù)據(jù)項(xiàng)集X出現(xiàn)的前提下,數(shù)據(jù)項(xiàng)集Y出現(xiàn)的條件概率,表達(dá)式為:

Confidence(X=^Y)=SupportfAUF)/Support(X)=P(Y\X)

(5)關(guān)聯(lián)規(guī)則的強(qiáng)弱。支持度體現(xiàn)的是項(xiàng)目集在交易中出現(xiàn)的頻度,而置信度

體現(xiàn)的則是項(xiàng)目集之間的關(guān)聯(lián)程度。一般地,用戶可以定義兩個(gè)閾值,分別設(shè)為最小

支持度閾值和最小置信度閾值,要求數(shù)據(jù)挖掘系統(tǒng)所生成的關(guān)聯(lián)規(guī)則的支持度和置信

度都不小于這兩個(gè)給定的閾值,我們則把這個(gè)規(guī)則成為強(qiáng)關(guān)聯(lián)規(guī)則,否則就是弱關(guān)聯(lián)

規(guī)則。

3.2Apriori算法實(shí)現(xiàn)

Apriori算法是最為經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法,其核心方法是基于使用候選項(xiàng)集

尋找頻繁項(xiàng)集方法。作為一種挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,Apriori算法的核

心在于兩階段頻集思想的遞推算法。通過(guò)大量的實(shí)驗(yàn)驗(yàn)證和實(shí)際應(yīng)用場(chǎng)景的檢測(cè),該

算法在主要適用于單維、單層、布爾類型的關(guān)聯(lián)規(guī)則。

Apriori算法作為最為經(jīng)典的頻繁項(xiàng)集獲取算法,主要依賴于兩個(gè)推論,即對(duì)于

項(xiàng)集"=%44…,Dj={dyi,dy2,dy3,...,dyn)其中m與n分別為項(xiàng)集Di

與Dj所包含的項(xiàng)的數(shù)目,如果Di是Dj的子集的話,也即DiUD尸Dj,DiCDj=Di,

那么在事務(wù)集T中,父集出現(xiàn)Dj出現(xiàn)的數(shù)量必然小于或者等于子集Di出現(xiàn)的數(shù)量,

雙方同時(shí)除以事務(wù)集T的事務(wù)總數(shù),便可以得到,support(Dj)^support(Di),也

即support(Dj)>Pminsupport,根據(jù)之前所得到的support(Dj)仁support(Di),

可以得出support(Di)>Pminsupport,能推出結(jié)論,如果父集Dj是頻繁項(xiàng)集的話,

那么子集Di必然是頻繁項(xiàng)集。同時(shí)根據(jù)這個(gè)結(jié)論的逆否命題,便可以繼續(xù)得到

Apriori算法所需要的第二個(gè)推論,即如果子集Di不然是頻繁項(xiàng)集,那么父集Dj必

然不是頻繁項(xiàng)集。

Apriori算法的第一步便是獲得單個(gè)項(xiàng)di在事務(wù)集T中的支持度,此時(shí)滿足了

支持度support(di)大于最小支持度Pminsupport定義的項(xiàng)的集合便被稱作為第一

層候選頻繁項(xiàng)集H1,而此時(shí)所有的單個(gè)項(xiàng)的集合便被稱作是候選項(xiàng)集C1。在這之后

Apriori算法所作的便是根據(jù)上一個(gè)候選頻繁項(xiàng)集HnT,通過(guò)HnT中元素的規(guī)則性

組合,推導(dǎo)出包含n個(gè)項(xiàng)的第n層候選項(xiàng)集Cn,再根據(jù)Cn進(jìn)行條件篩選,得到包含

n個(gè)項(xiàng)的第n層候選頻繁項(xiàng)集Hn0Apriori算法可描述如下:

Stepl:Apriori使用逐層迭代根據(jù)候選找出頻繁項(xiàng)集,流程如圖3-1所示。

輸入:事務(wù)數(shù)據(jù)庫(kù)D和最小支持度閾值min_sup

輸出:D中的頻繁項(xiàng)集L

(1)L_l=find_frequent__l__itemset3(D);〃所有支持度不小于minsupporc的1-項(xiàng)目集

(2)£or(k=2;L_(k-T)M;k:++){

(3)C__k=aprLori-gen(L_(k-1));//C_k是k個(gè)元素的假選集

(4)foreachtransactionst£D(

(5)C__t=sut>3et(C_k,t);//C_t是所有七包含的候選集元素

(6)foreachcandidatescEC_t

(7)C.count++;

(3)}

(9)L_)c={cGC_k|c.count>=min_sup}

(10))

(11)returnL=UL__k;

圖3-1Apriori算法過(guò)程T

其中apriori-gen(Lk-1)做兩個(gè)動(dòng)作:連接(步驟1到4)和剪枝(步驟5到

7)。在前一部分通過(guò)LkT自鏈接產(chǎn)生可能的候選集,在后一部分使用先驗(yàn)性質(zhì)將具

有非頻繁子集的候選集刪除。

Step2:實(shí)現(xiàn)apriori-gen(Lk-1)過(guò)程,如圖3-2所示。

(1)foreachitemsetpd__(k-l)

(2)foreachitemsetqei_(k-l)

(3)if(p.icem_l=q.Ap.item_2=q.item_2n...Ap.item_(]c-2)=

q.np.)tnenf

(4)c=q~p;//連接步:產(chǎn)生候選

(5)ifhas_infrequent_subset(crL_(k-l))then

(6)deletec;〃剪枝步:刪除非頻蹩的候選

(7)elseaddctoC_k

(8)}

(9)returnC_k;

圖3-2Apriori算法過(guò)程-2

Step2對(duì)于每個(gè)事務(wù)找出其是候選的所有子集并將數(shù)量累計(jì),Step3描述了對(duì)所

有非頻繁子集測(cè)試并刪除的過(guò)程。

Step3:實(shí)現(xiàn)has_infrequent_subset(c,Lk-1)過(guò)程,判斷候選集的元素,如

圖3-3所示。

{1}foreach(k-1)subsetsofc

(2)if3notGL_(k-l)then

(3)roturntzrue;

(4)returnfalse;

圖3-3Apriori算法過(guò)程-3

2.由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則

當(dāng)我們從數(shù)據(jù)庫(kù)D中的事務(wù)找出頻繁項(xiàng)集后,可以直接產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。置信度

計(jì)算如公式3.15所示。

support_count{A\JB)

Confidence(A=B)=P(B\A)=(5.12)

support_count(A)

其中support_count(4D8),是包含項(xiàng)集AUB的事務(wù)數(shù),support_count(A)

是包含項(xiàng)集A的事務(wù)數(shù)。關(guān)聯(lián)規(guī)則可以產(chǎn)生如下:

(1)對(duì)于每個(gè)頻繁項(xiàng)集1,產(chǎn)生1的所有非空子集。

support_count(l)、?

---------=--------->mmconir

(2)于1的每個(gè)非空子集S,如果suPPort,。"皿s)一,則輸出規(guī)則“s=

(l-s)”,其中minconf是最小置信度。

結(jié)語(yǔ)

一般超市商品分類都是根據(jù)以往經(jīng)驗(yàn)或者是經(jīng)營(yíng)者根據(jù)大超市的經(jīng)驗(yàn)進(jìn)行分類,

分類并不同一,因此,實(shí)驗(yàn)結(jié)果有可能不一樣。一般而言,超市的商品時(shí)按商品品類

級(jí)依次擺放。當(dāng)我們分析出符合實(shí)際邏輯的規(guī)則時(shí),我們可以讓商品按照這個(gè)規(guī)則來(lái)

擺放。根據(jù)消費(fèi)者購(gòu)買行為分析心理學(xué),顧客買東西具有很大的沖動(dòng)性。我們也可以

利用這一點(diǎn)更加合理的使用商品關(guān)聯(lián)規(guī)則。比如,有一些規(guī)則支持度很高但是利潤(rùn)不

高,說(shuō)明顧客同時(shí)買這兩者的比例很高,即使他們不再一起,顧客也會(huì)穿過(guò)若干貨架

去尋找該關(guān)聯(lián)的商品。這個(gè)貨架我們可以擺放一些低關(guān)聯(lián)度但利潤(rùn)高的商品甚至是一

些沖動(dòng)消費(fèi)商品,比如日銷品,比如零食。本實(shí)驗(yàn)的數(shù)據(jù)支持度比較高的衛(wèi)清潔品和

紙類用品關(guān)聯(lián)度比較高,在這兩類商品之間可以放一些低支持度的沖動(dòng)型商品。事實(shí)

上,消費(fèi)者進(jìn)入超市,面對(duì)五花八門的商品,心中就算有需求的商品,也會(huì)被超市的

陳列引導(dǎo)去買本不打算購(gòu)買的商品,這樣,科學(xué)的規(guī)劃和合理的商品擺放對(duì)顧客的消

費(fèi)行為有很大的影響。商品擺放還要考慮商品的品牌,銷量,規(guī)則,大小等因素,比

如銷量大的放貨架兩旁一方面可以吸引顧客快速的找到需要的商品,一方面也可以引

起閑逛顧客的好奇吸引顧客去關(guān)注貨架中間的商品。比如銷量好、利潤(rùn)高的放在貨架

的中間層,利潤(rùn)低的商品放在貨架的高層,規(guī)格大的商品放在貨架的底層。我們一方

面要合理的利用超市商品規(guī)則算法,不限于商品的就近擺放,一方面也要考慮商品擺

放的其他因素,不能忽視這些,綜合考慮之后,經(jīng)營(yíng)者能制定合理的商品擺放方案,

利于銷量也利于超市整體利潤(rùn)的提高。

參考文獻(xiàn)

[1]李清蔓,楊杉.基于大數(shù)據(jù)技術(shù)的大型超市數(shù)據(jù)分析[J].科學(xué)技術(shù)創(chuàng)新,2021(07):

80-82.

[2]潘渝棱,雷青青,張磊.基于品類數(shù)據(jù)分析的超市營(yíng)運(yùn)策略[J].今日財(cái)富,2020

(07):71+73.

⑶趙雅欣,寧士勇.基于Python的超市020營(yíng)銷數(shù)據(jù)分析[J].哈爾濱商業(yè)大學(xué)學(xué)報(bào)

(自然科學(xué)版),2019,35(04):431-435.

[4]劉亞云.連鎖超市數(shù)據(jù)分析系統(tǒng)的開(kāi)發(fā)與實(shí)現(xiàn)[D].首都經(jīng)濟(jì)貿(mào)易大學(xué),2019.

[5]許崇,徐勇,龐諾言.實(shí)體超市交易數(shù)據(jù)分析利用情況及對(duì)策探析[J].經(jīng)濟(jì)研究導(dǎo)

刊,2019(18):62-63+161.

[6]劉菊君.數(shù)據(jù)驅(qū)動(dòng)的連鎖超市銷售數(shù)據(jù)分析與系統(tǒng)設(shè)計(jì)[D].湖南科技大學(xué),2019.

[7]王統(tǒng)昊,劉尚旺.基于大數(shù)據(jù)的超市進(jìn)銷存效益分析系統(tǒng)設(shè)計(jì)[J].河南科技學(xué)院學(xué)

報(bào)(自然科學(xué)版),2018,46(04):61-67.

[8]楊振峰.大型連鎖超市數(shù)據(jù)管理中云計(jì)算與虛擬化技術(shù)的應(yīng)用分析[J].信息系統(tǒng)

工程,2017(07):54.

[9]王麗科,趙菊敏,李燈熬.針對(duì)超市購(gòu)物數(shù)據(jù)的深度分析算法

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論