大數(shù)據(jù)治理(高級(jí)) 課件 西財(cái) 實(shí)訓(xùn)項(xiàng)目10、11:美團(tuán)美食店鋪數(shù)據(jù)分析實(shí)訓(xùn)、交通大數(shù)據(jù)分析實(shí)訓(xùn)_第1頁(yè)
大數(shù)據(jù)治理(高級(jí)) 課件 西財(cái) 實(shí)訓(xùn)項(xiàng)目10、11:美團(tuán)美食店鋪數(shù)據(jù)分析實(shí)訓(xùn)、交通大數(shù)據(jù)分析實(shí)訓(xùn)_第2頁(yè)
大數(shù)據(jù)治理(高級(jí)) 課件 西財(cái) 實(shí)訓(xùn)項(xiàng)目10、11:美團(tuán)美食店鋪數(shù)據(jù)分析實(shí)訓(xùn)、交通大數(shù)據(jù)分析實(shí)訓(xùn)_第3頁(yè)
大數(shù)據(jù)治理(高級(jí)) 課件 西財(cái) 實(shí)訓(xùn)項(xiàng)目10、11:美團(tuán)美食店鋪數(shù)據(jù)分析實(shí)訓(xùn)、交通大數(shù)據(jù)分析實(shí)訓(xùn)_第4頁(yè)
大數(shù)據(jù)治理(高級(jí)) 課件 西財(cái) 實(shí)訓(xùn)項(xiàng)目10、11:美團(tuán)美食店鋪數(shù)據(jù)分析實(shí)訓(xùn)、交通大數(shù)據(jù)分析實(shí)訓(xùn)_第5頁(yè)
已閱讀5頁(yè),還剩74頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

實(shí)訓(xùn)10美團(tuán)美食店鋪數(shù)據(jù)分析實(shí)訓(xùn)項(xiàng)目背景美團(tuán)網(wǎng)是一個(gè)以“吃”為核心,為用戶提供美食、酒店、電影、購(gòu)物等類型的團(tuán)購(gòu)網(wǎng)站。用戶在網(wǎng)站瀏覽美食信息的同時(shí)希望找到一家服務(wù)質(zhì)量高且價(jià)格實(shí)惠的商家,并且能從其他消費(fèi)者的評(píng)價(jià)中找到參考價(jià)值。本項(xiàng)目以美團(tuán)網(wǎng)美食店鋪為例,首先對(duì)美食商家數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì),分析成都市各區(qū)域店鋪數(shù)量、評(píng)分、人均消費(fèi)等基本情況,然后運(yùn)用聚類算法對(duì)商家進(jìn)行分類研究,針對(duì)不同類別的商家給出相應(yīng)的經(jīng)營(yíng)決策建議;最后,針對(duì)某熱門店鋪的評(píng)論數(shù)據(jù)進(jìn)行中文情感分析,幫助商家了解用戶對(duì)商品的關(guān)注點(diǎn)、需求點(diǎn),以及商品本身的不足點(diǎn)和店鋪服務(wù)相關(guān)的問題。實(shí)訓(xùn)任務(wù)分析成都各區(qū)域店鋪數(shù)量、評(píng)分、人均消費(fèi)情況分析成都美食種類和受歡迎程度分析5分好評(píng)店鋪分布區(qū)域、評(píng)價(jià)次數(shù)、人均消費(fèi)情況利用K-Means算法對(duì)成都美食店鋪進(jìn)行分類,探索各類別店鋪特征分析某熱門店鋪的評(píng)論情感傾向,構(gòu)建中文情感分類模型數(shù)據(jù)準(zhǔn)備美食店鋪信息,采集字段包括店鋪名稱、地址、評(píng)分、評(píng)論數(shù)和人均消費(fèi);某店鋪用戶評(píng)論信息,包括用戶評(píng)論時(shí)間、評(píng)分和評(píng)論內(nèi)容;數(shù)據(jù)準(zhǔn)備美食店鋪信息,采集字段包括店鋪名稱、地址、評(píng)分、評(píng)論數(shù)和人均消費(fèi);數(shù)據(jù)準(zhǔn)備某店鋪用戶評(píng)論信息,包括用戶評(píng)論時(shí)間、評(píng)分和評(píng)論內(nèi)容;分析步驟知識(shí)儲(chǔ)備

聚類分析例如:有16張牌,如何將他們分為一組一組的牌?AKQJ知識(shí)儲(chǔ)備

聚類分析分成四組:每組里花色相同,組與組之間花色相異,花色相同的牌為一副。AKQJ知識(shí)儲(chǔ)備

聚類分析分成四組:符號(hào)相同的牌為一組AKQJ知識(shí)儲(chǔ)備

聚類分析聚類分析(clusteranalysis),簡(jiǎn)稱聚類(clustering),是指根據(jù)給定的樣本數(shù)據(jù)集的描述信息,發(fā)現(xiàn)由具有共同特性的對(duì)象構(gòu)成的子集的過程。每個(gè)子集是一個(gè)簇(cluster),聚類分析的過程遵循以下基本原則:屬于同一個(gè)簇的對(duì)象相似度很高,而屬于不同簇的對(duì)象相似度很低,即“高內(nèi)聚、低耦合”。簇內(nèi)相似度越高、簇間相似度越低,說明聚類效果越好。知識(shí)儲(chǔ)備

聚類方法1.層次化聚類算法(BIRCH、CURE)2.劃分式聚類算法(K-Means、K-Medoids)3.基于密度聚類算法(DBSCAN)4.基于模型聚類算法(EM、SOM)知識(shí)儲(chǔ)備K-Means聚類算法算法流程:1.隨機(jī)選取K個(gè)樣本作為類中心;2.計(jì)算各樣本與各類中心的距離;3.將各樣本歸于最近的類中心點(diǎn);4.求各類的樣本的均值,作為新的類中心;5.判定:若類中心不再發(fā)生變動(dòng)或達(dá)到迭代次數(shù),算法結(jié)束,否則回到第2步。知識(shí)儲(chǔ)備

文本挖掘文本挖掘是一個(gè)以半結(jié)構(gòu)(如WEB網(wǎng)頁(yè))或者無結(jié)構(gòu)(如純文本)的自然語(yǔ)言文本為對(duì)象的數(shù)據(jù)挖掘,是從大規(guī)模文本數(shù)據(jù)集中發(fā)現(xiàn)隱藏的、重要的、新穎的、潛在的有用的規(guī)律的過程。直觀的說,當(dāng)數(shù)據(jù)挖掘的對(duì)象完全由文本這種數(shù)據(jù)類型組成時(shí),這個(gè)過程就稱為文本挖掘。文本數(shù)據(jù)獲取文本預(yù)處理向量表示數(shù)據(jù)挖掘知識(shí)儲(chǔ)備

中文分詞1.機(jī)械分詞法(基于詞典):簡(jiǎn)單實(shí)用,但嚴(yán)重依賴于詞典,分詞效果得不到保障;2.基于語(yǔ)法和規(guī)則分詞法:尚無明確標(biāo)準(zhǔn)能很好分詞,還處在試驗(yàn)階段;3.基于統(tǒng)計(jì)的分詞法:機(jī)器學(xué)習(xí)算法。知識(shí)儲(chǔ)備

中文分詞結(jié)巴分詞(jieba):最好的Python中文分詞組件,可以對(duì)中文文本進(jìn)行分詞、詞性標(biāo)注、關(guān)鍵詞抽取等功能,并且支持自定義詞典。

支持三種分詞模式:精確模式:將句子最精確的分開,適合文本分析全模式:句子中所有可以成詞的詞語(yǔ)都掃描出來,速度快,不能解決歧義搜索引擎模式:在精確的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回

支持繁體分詞

支持自定義詞典知識(shí)儲(chǔ)備

中文分詞三者區(qū)別:list(jieba.cut("我來到北京清華大學(xué)"))#['我','來到','北京','清華大學(xué)']list(jieba.cut("我來到北京清華大學(xué)",cut_all=True))#['我','來到','北京','清華','清華大學(xué)','華大','大學(xué)']list(jieba.cut_for_search("我來到北京清華大學(xué)"))#['我','來到','北京','清華','華大','大學(xué)','清華大學(xué)']知識(shí)儲(chǔ)備

文本向量化——詞袋法第一步,分詞(在中文里,“詞”和“詞組”邊界模糊)句子A:我/喜歡/看/電視,不/喜歡/看/電影。句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。第二步,列出所有的詞

我,喜歡,看,電視,電影,不,也。第三步,計(jì)算詞頻。句子A:我1,喜歡2,看2,電視1,電影1,不1,也0。句子B:我1,喜歡2,看2,電視1,電影1,不2,也1。第四步,寫出詞頻向量。句子A:[1,2,2,1,1,1,0]句子B:[1,2,2,1,1,2,1]知識(shí)儲(chǔ)備

文本向量化——TF-IDF假定現(xiàn)在有一篇長(zhǎng)文《中國(guó)的蜜蜂養(yǎng)殖》,我們準(zhǔn)備用計(jì)算機(jī)提取它的關(guān)鍵詞。我們可能發(fā)現(xiàn)"中國(guó)"、"蜜蜂"、"養(yǎng)殖"這三個(gè)詞的出現(xiàn)次數(shù)一樣多。這是不是意味著,作為關(guān)鍵詞,它們的重要性是一樣的?詞頻(TF)表示詞條(關(guān)鍵字)在文本中出現(xiàn)的頻率。在詞頻的基礎(chǔ)上,要對(duì)每個(gè)詞分配一個(gè)"重要性"權(quán)重。最常見的詞("的"、"是"、"在")給予最小的權(quán)重,較常見的詞("中國(guó)")給予較小的權(quán)重,較少見的詞("蜜蜂"、"養(yǎng)殖")給予較大的權(quán)重。這個(gè)權(quán)重叫做"逆文檔頻率"(InverseDocumentFrequency,縮寫為IDF),它的大小與一個(gè)詞的常見程度成反比。知識(shí)儲(chǔ)備

文本向量化——TF-IDF知道了"詞頻"(TF)和"逆文檔頻率"(IDF)以后,將這兩個(gè)值相乘,就得到了一個(gè)詞的TF-IDF值。某個(gè)詞對(duì)文章的重要性越高,它的TF-IDF值就越大。第一步:計(jì)算詞頻不同的文章總的字?jǐn)?shù)不一樣,為了便于比較,通常進(jìn)行一個(gè)“標(biāo)準(zhǔn)化”。知識(shí)儲(chǔ)備

文本向量化——TF-IDF第二步,計(jì)算逆文檔頻率。需要一個(gè)語(yǔ)料庫(kù)(corpus),用來模擬語(yǔ)言的使用環(huán)境。指經(jīng)科學(xué)取樣和加工的大規(guī)模電子文本庫(kù)。如果一個(gè)詞越常見,那么分母就越大,逆文檔頻率就越小越接近0。分母之所以要加1,是為了避免分母為0(即所有文檔都不包含該詞)。log表示對(duì)得到的值取對(duì)數(shù)。知識(shí)儲(chǔ)備

文本向量化——TF-IDF第三步,計(jì)算TF-IDFTF-IDF與一個(gè)詞在文檔中的出現(xiàn)次數(shù)成正比,與該詞在整個(gè)語(yǔ)言中的出現(xiàn)次數(shù)成反比。計(jì)算出文檔的每個(gè)詞的TF-IDF值,然后按降序排列,取排在最前面的幾個(gè)詞。知識(shí)儲(chǔ)備

文本向量化——TF-IDF以《中國(guó)的蜜蜂養(yǎng)殖》為例。假定該文長(zhǎng)度為1000個(gè)詞,"中國(guó)"、"蜜蜂"、"養(yǎng)殖"各出現(xiàn)20次,則這三個(gè)詞的"詞頻"(TF)都為0.02。然后,搜索發(fā)現(xiàn),包含“的”字的文檔共有250億張,假定這就是中文網(wǎng)頁(yè)(文檔)總數(shù)。包含"中國(guó)"的網(wǎng)頁(yè)共有62.3億張,包含"蜜蜂"的網(wǎng)頁(yè)為0.484億張,包含"養(yǎng)殖"的網(wǎng)頁(yè)為0.973億張。則它們的逆文檔頻率(IDF)和TF-IDF如下:知識(shí)儲(chǔ)備

中文情感分析情感分析(SentimentAnalysis)是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要的研究方向。它的目的是挖掘文本要表達(dá)的情感觀點(diǎn),對(duì)文本按情感傾向進(jìn)行分類。情感分析在工業(yè)領(lǐng)域有著廣泛的應(yīng)用場(chǎng)景。例如,電商網(wǎng)站根據(jù)商品評(píng)論數(shù)據(jù)提取評(píng)論標(biāo)簽,調(diào)整評(píng)論顯示順序;影評(píng)網(wǎng)站根據(jù)電影評(píng)論來評(píng)估電影口碑,預(yù)測(cè)電影是否賣座;外賣網(wǎng)站根據(jù)菜品口味、送達(dá)時(shí)間、菜品豐富度等用戶情感指數(shù)來改進(jìn)外賣服務(wù)等。情感分析方法可以分為兩大類:一是基于情感詞典的方法,一是基于機(jī)器學(xué)習(xí)算法的方法。知識(shí)儲(chǔ)備

中文情感分析基于情感詞典的方法對(duì)輸入的句子進(jìn)行情感分析時(shí),首先對(duì)句子進(jìn)行分詞,然后獲取各個(gè)詞在情感詞典中的情感打分,最后將所有詞的情感打分加起來得到句子的情感分?,F(xiàn)有情感詞典大連理工大學(xué)中文情感詞典知網(wǎng)HowNet臺(tái)灣大學(xué)NTUSD簡(jiǎn)體中文情感詞典清華大學(xué)李軍中文褒貶義詞典BosonNLP微博情感詞典.....知識(shí)儲(chǔ)備

中文情感分析基于機(jī)器學(xué)習(xí)算法第三方工具庫(kù)項(xiàng)目中需要安裝的第三方工具庫(kù)如下:jieba:分詞庫(kù),pipinstalljiebacpca:中文地址處理庫(kù),pipinstallcpca項(xiàng)目分析報(bào)告成都各區(qū)域店鋪數(shù)量、評(píng)分、人均消費(fèi)情況項(xiàng)目分析報(bào)告成都各區(qū)域店鋪數(shù)量、評(píng)分、人均消費(fèi)情況項(xiàng)目分析報(bào)告成都各區(qū)域店鋪數(shù)量、評(píng)分、人均消費(fèi)情況通過上述分析,可以知道各區(qū)店鋪數(shù)量差距較大,武侯區(qū)和錦江區(qū)的店鋪數(shù)位居前列,邛崍市和青白江區(qū)的店鋪數(shù)量較少。成都各區(qū)域店鋪評(píng)分總體差距不大,且多數(shù)在4分以上,說明顧客對(duì)商家的態(tài)度是積極的。各區(qū)最高消費(fèi)差異明顯,但人均消費(fèi)基本保持在50-80區(qū)間,說明顧客更喜歡中檔層次消費(fèi)。建議高消費(fèi)店鋪,適當(dāng)推出優(yōu)惠活動(dòng),促進(jìn)消費(fèi)。而中層消費(fèi),只需繼續(xù)保持口碑,持續(xù)發(fā)展即可。對(duì)于發(fā)展較好的城區(qū),重在保持客戶的發(fā)展,不讓客戶流失。店鋪較少的城區(qū),將口味做好,適當(dāng)宣傳,以此發(fā)展,吸引顧客。項(xiàng)目分析報(bào)告5分好評(píng)店鋪基本情況分析5分好評(píng)的店鋪,共計(jì)167家。根據(jù)用戶評(píng)價(jià)次數(shù)對(duì)店鋪降序排序,得到評(píng)價(jià)次數(shù)靠前的10家熱門店鋪。從圖中可看出,成都市5分好評(píng)且消費(fèi)人數(shù)最多的10家美食店,人均消費(fèi)都沒有超過100元,且火鍋在熱門商鋪中呼聲較高。而且用戶對(duì)于店鋪評(píng)價(jià)受價(jià)格的因素影響小,更追求店鋪本身的品質(zhì)。項(xiàng)目分析報(bào)告成都美食種類詞云圖展示通過對(duì)所有店鋪名稱進(jìn)行分詞,繪制詞云圖,分析成都美食種類以及受歡迎程度。由詞云圖中可以看出火鍋類店鋪數(shù)量居首位,在成都地區(qū)的餐飲行業(yè)中占據(jù)一定的市場(chǎng)規(guī)模且是更加符合成都人民的飲食喜好的,從其他詞匯也可看出火鍋形式的多樣化:如海鮮,魚頭,串串等。從詞云圖也可看出成都地區(qū)美食類型的多樣化,側(cè)面也表現(xiàn)出用戶對(duì)于各類美食的接受度較高及成都餐飲行業(yè)逐步朝向多元化,特色本土化發(fā)展。項(xiàng)目分析報(bào)告基于K-Means算法的店鋪分類根據(jù)K-Means聚類模型的結(jié)果,類別為0(店鋪群1)的店鋪評(píng)分偏低,評(píng)價(jià)數(shù)中等,人均消費(fèi)中等;類別為1(店鋪群2)的店鋪評(píng)分較高,評(píng)價(jià)數(shù)中等,人均消費(fèi)中等;類別為2(店鋪群3)的店鋪評(píng)分中等,評(píng)價(jià)數(shù)較高,人均消費(fèi)較高。綜合分析,第三類店鋪消費(fèi)次數(shù)多,人均消費(fèi)較其他兩類高,但評(píng)分不佳,屬于“網(wǎng)紅型”店鋪。第二類店鋪消費(fèi)次數(shù)一般,人均消費(fèi)適中,但其評(píng)分較高,屬于“口碑型”店鋪。第一類三個(gè)特征表現(xiàn)都一般,屬于“大眾型”店鋪。項(xiàng)目分析報(bào)告A店鋪的用戶評(píng)論情感傾向分析從正面和負(fù)面評(píng)論詞云圖中可以看出,A店鋪的菜品和味道是用戶提到最多的,說明用戶最關(guān)注的就是菜品和味道。但是從圖2中可知,“服務(wù)”、“服務(wù)員”、“服務(wù)態(tài)度”負(fù)面反饋情感值比較高,說明A店鋪的服務(wù)是導(dǎo)致用戶差評(píng)的主要原因,所以該店鋪在改善菜品和味道的同時(shí),重點(diǎn)要提升店鋪的服務(wù)質(zhì)量。項(xiàng)目總結(jié)本項(xiàng)目以美團(tuán)網(wǎng)美食店鋪為例,首先對(duì)美食商家數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì),分析成都市各區(qū)域店鋪數(shù)量、評(píng)分、人均消費(fèi)等基本情況,然后運(yùn)用K-Means聚類算法對(duì)商家進(jìn)行分類研究,針對(duì)不同類別的商家給出相應(yīng)的經(jīng)營(yíng)決策建議;最后,針對(duì)某熱門店鋪的評(píng)論數(shù)據(jù)進(jìn)行中文情感分析,幫助商家了解用戶對(duì)商品的關(guān)注點(diǎn)、需求點(diǎn),以及商品本身的不足點(diǎn)和店鋪服務(wù)相關(guān)的問題。感謝聆聽實(shí)訓(xùn)11交通大數(shù)據(jù)分析實(shí)訓(xùn)項(xiàng)目背景隨著智能交通技術(shù)的不斷發(fā)展,憑借各種交通數(shù)據(jù)采集系統(tǒng),交通領(lǐng)域積累的數(shù)據(jù)規(guī)模膨大,飛機(jī)、列車、水陸路運(yùn)輸逐年累計(jì)的數(shù)據(jù)從過去TB級(jí)別達(dá)到目前PB級(jí)別,同時(shí)伴隨近幾年大數(shù)據(jù)分析、挖掘等技術(shù)迅速發(fā)展,對(duì)海量的交通數(shù)據(jù)進(jìn)行挖掘分析是交通領(lǐng)域發(fā)展的重要方向,得到了各地政府和企業(yè)的高度重視。交通大數(shù)據(jù)的有效利用與人們的生活息息相關(guān),不僅能夠給人們的生活創(chuàng)造巨大的便利,也能為政府的規(guī)劃、城市的發(fā)展提供堅(jiān)實(shí)的數(shù)據(jù)支撐。交通運(yùn)輸部數(shù)據(jù)顯示,目前全國(guó)有360余個(gè)城市投放了共享單車,在營(yíng)車輛約1950萬輛,注冊(cè)用戶數(shù)超過3億。共享單車用戶的騎行行為會(huì)留下大量的數(shù)據(jù),如何分析和挖掘相關(guān)數(shù)據(jù),為共享單車的治理和優(yōu)化提供數(shù)據(jù)支持,具有極其重要的意義。本項(xiàng)目將對(duì)共享單車的騎行數(shù)據(jù)進(jìn)行挖掘,探索用戶騎行的規(guī)律與模式。實(shí)訓(xùn)任務(wù)騎行數(shù)據(jù)缺失值、異常值的檢測(cè)與處理自定義特征,統(tǒng)計(jì)站點(diǎn)每半小時(shí)的進(jìn)出流量騎行數(shù)據(jù)描述性統(tǒng)計(jì)分析站點(diǎn)騎行流量探索性分析利用Apriori算法對(duì)站點(diǎn)流量進(jìn)行關(guān)聯(lián)規(guī)則挖掘利用FPGrowth算法對(duì)站點(diǎn)流量進(jìn)行關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)準(zhǔn)備本項(xiàng)目所分析的數(shù)據(jù)來自CitiBike,這是一家主要運(yùn)營(yíng)在美國(guó)紐約市的共享單車公司。CitiBike共享單車業(yè)務(wù)早在2013年5月就首次運(yùn)營(yíng),推出當(dāng)天就有1.6萬名會(huì)員注冊(cè),可見大家對(duì)該項(xiàng)目的喜愛。經(jīng)過多年的發(fā)展CitiBike先后推出了330個(gè)站點(diǎn)和5000輛自行車,主要分布在曼哈頓下城和布魯克林西北區(qū)。本次分析的數(shù)據(jù)為CitiBike在2017年7月的騎行數(shù)據(jù),該數(shù)據(jù)由公司自行公開,可從如下地址進(jìn)行下載:/tripdata/201707-citibike-tripdata.csv.zip。數(shù)據(jù)準(zhǔn)備此數(shù)據(jù)共有1735599條騎行記錄,包括15個(gè)字段,具體含義及類型如下表所示。分析步驟知識(shí)儲(chǔ)備關(guān)聯(lián)規(guī)則挖掘概述關(guān)聯(lián)規(guī)則挖掘:一種發(fā)現(xiàn)大量數(shù)據(jù)中事物(特征)之間有趣的關(guān)聯(lián)的技術(shù)。典型應(yīng)用是購(gòu)物籃分析:找出顧客購(gòu)買行為模式、發(fā)現(xiàn)交易數(shù)據(jù)庫(kù)中不同商品(項(xiàng))之間的聯(lián)系。例如,通過關(guān)聯(lián)規(guī)則挖掘可能會(huì)發(fā)現(xiàn),購(gòu)買牛奶的用戶往往會(huì)同時(shí)購(gòu)買面包,或是購(gòu)買的尿布的用戶往往會(huì)同時(shí)購(gòu)買啤酒等。在此基礎(chǔ)上,商家可以考慮進(jìn)行定制化的推薦或者營(yíng)銷,輔助進(jìn)行經(jīng)營(yíng)方針的制定,如商品捆綁銷售設(shè)計(jì)、商品促銷和商品貨架分布等,從而提高利潤(rùn)。知識(shí)儲(chǔ)備關(guān)聯(lián)規(guī)則的基本概念1.項(xiàng)集:I={牛奶,面包,尿布,啤酒,雞蛋,可樂}2.頻數(shù):一個(gè)項(xiàng)集X在數(shù)據(jù)庫(kù)D中出現(xiàn)的次數(shù)為頻數(shù)。

例如,X={牛奶,面包},則count(X)=3.3.支持度:在一個(gè)交易數(shù)據(jù)庫(kù)D中,用支持度衡量一個(gè)項(xiàng)集X出現(xiàn)頻率的大小,記為support(X)。support(X)=count(X)/|??|×100%。|??|為該數(shù)據(jù)庫(kù)所包含交易數(shù)據(jù)條數(shù)。例如,X={牛奶,面包},則support(X)=60%.4.置信度:項(xiàng)集X發(fā)生的情況下,則項(xiàng)集Y發(fā)生的概率為關(guān)聯(lián)規(guī)則的置信度,記為confidence(X→Y)。confidence(X→Y)=support(X→Y)/support(X)。例如,X={牛奶,面包},Y={啤酒},則confidence(X→Y)=1/3=33.3%。5.頻繁項(xiàng)集:項(xiàng)集X的支持度如果大于用戶給定的最小支持度閾值,則X被稱為頻繁項(xiàng)集。TIDItemsT1

牛奶,面包T2面包,尿布,啤酒,雞蛋T3牛奶,尿布,啤酒,可樂T4面包,牛奶,尿布,啤酒T5面包,牛奶,尿布,可樂知識(shí)儲(chǔ)備關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘的主要任務(wù):找出滿足最小支持度和最小置信度的頻繁項(xiàng)集。

例如,給定minsup=40%和minconf=60%,則{啤酒}→{尿布}為頻繁項(xiàng)集,sup({啤酒,尿布})=60%,conf({啤酒,尿布})=100%。目前常見的關(guān)聯(lián)規(guī)則算法AprioriFP-Growth知識(shí)儲(chǔ)備Apriori算法逐層發(fā)現(xiàn)算法(Apriori)的主要思想是找出存在于事務(wù)數(shù)據(jù)集中的最大的頻繁項(xiàng)集,再利用得到的最大頻繁項(xiàng)集與預(yù)先設(shè)定的最小置信度閾值生成強(qiáng)關(guān)聯(lián)規(guī)則。知識(shí)儲(chǔ)備使用Apriori算法實(shí)現(xiàn)餐飲菜品關(guān)聯(lián)分析結(jié)合餐飲行業(yè)的實(shí)例講解Apriori關(guān)聯(lián)規(guī)則算法挖掘的實(shí)現(xiàn)過程。數(shù)據(jù)庫(kù)中部分點(diǎn)餐數(shù)據(jù)如表所示。序列時(shí)間訂單號(hào)菜品id菜品名稱12014/8/2110118491健康麥香包22014/8/211018693香煎蔥油餅32014/8/211018705翡翠蒸香茜餃42014/8/211028842菜心粒咸骨粥52014/8/211027794養(yǎng)顏紅棗糕62014/8/211038842金絲燕麥包72014/8/211038693三絲炒河粉…………………………知識(shí)儲(chǔ)備使用Apriori算法實(shí)現(xiàn)餐飲菜品關(guān)聯(lián)分析首先將上表中的事務(wù)數(shù)據(jù)(一種特殊類型的記錄數(shù)據(jù))整理成關(guān)聯(lián)規(guī)則模型所需的數(shù)據(jù)結(jié)構(gòu),從中抽取10個(gè)點(diǎn)餐訂單作為事務(wù)數(shù)據(jù)集,設(shè)支持度為0.2(支持度計(jì)數(shù)為2),為方便起見將菜品{18491,8842,8693,7794,8705}分別簡(jiǎn)記為

,如表所示。訂單號(hào)原菜品id轉(zhuǎn)換后菜品id118491,8693,870528842,779438842,8693418491,8842,8693,7794518491,884268842,8693718491,8842818491,8842,8693,8705918491,8842,86931018491,8693,8705知識(shí)儲(chǔ)備使用Apriori算法實(shí)現(xiàn)餐飲菜品關(guān)聯(lián)分析算法過程如圖所示。知識(shí)儲(chǔ)備使用Apriori算法實(shí)現(xiàn)餐飲菜品關(guān)聯(lián)分析(1)過程一:找最大k項(xiàng)頻繁項(xiàng)集算法簡(jiǎn)單掃描所有的事務(wù),事務(wù)中的每一項(xiàng)都是候選1項(xiàng)集的集合

的成員,計(jì)算每一項(xiàng)的支持度。如

對(duì)

中各項(xiàng)集的支持度與預(yù)先設(shè)定的最小支持度閾值作比較,保留大于或等于該閾值的項(xiàng),得1項(xiàng)頻繁項(xiàng)集

知識(shí)儲(chǔ)備使用Apriori算法實(shí)現(xiàn)餐飲菜品關(guān)聯(lián)分析掃面所有事務(wù),

連接得候選2項(xiàng)集

,并計(jì)算每一項(xiàng)的支持度。如

接著是剪枝步,由于

的每個(gè)子集(即

)都是頻繁項(xiàng)集,所以沒有項(xiàng)集從

中剔除。對(duì)

中各項(xiàng)集的支持度與預(yù)先設(shè)定的最小支持度閾值作比較,保留大于或等于該閾值的項(xiàng),得2項(xiàng)頻繁項(xiàng)集

知識(shí)儲(chǔ)備使用Apriori算法實(shí)現(xiàn)餐飲菜品關(guān)聯(lián)分析掃描所有事務(wù),

連接得候選3項(xiàng)集

,并計(jì)算每一項(xiàng)的支持度,如

接著是剪枝步,

連接的所有項(xiàng)集為

根據(jù)Apriori算法,頻繁項(xiàng)集的所有非空子集也必須是頻繁項(xiàng)集,因?yàn)?/p>

不包含在2項(xiàng)頻繁項(xiàng)集

中,即不是頻繁項(xiàng)集,應(yīng)剔除,最后的

中的項(xiàng)集只有和知識(shí)儲(chǔ)備使用Apriori算法實(shí)現(xiàn)餐飲菜品關(guān)聯(lián)分析對(duì)

中各項(xiàng)集的支持度與預(yù)先設(shè)定的最小支持度閾值作比較,保留大于或等于該閾值的項(xiàng),得3項(xiàng)頻繁項(xiàng)集

連接得候選4項(xiàng)集

,剪枝后得到的項(xiàng)集為空集。因此最后得到最大3項(xiàng)頻繁項(xiàng)集

。由以上過程可知

都是頻繁項(xiàng)集,

是最大頻繁項(xiàng)集。知識(shí)儲(chǔ)備使用Apriori算法實(shí)現(xiàn)餐飲菜品關(guān)聯(lián)分析(2)過程二:由頻繁集產(chǎn)生關(guān)聯(lián)規(guī)則嘗試基于該例產(chǎn)生關(guān)聯(lián)規(guī)則,在Python中實(shí)現(xiàn)上述Apriori算法的代碼,

結(jié)果如右圖所示。針對(duì)右圖中第一條輸出結(jié)果進(jìn)行解釋:客戶同時(shí)點(diǎn)菜品e和a的概率是30%,點(diǎn)了菜品e,再點(diǎn)菜品a的概率是100%。知道了這些,就可以對(duì)顧客進(jìn)行智能推薦,增加銷量的同時(shí)滿足客戶需求。結(jié)果為:supportconfidencee---a0.31.000000e---c0.31.000000c---e---a0.31.000000a---e---c0.31.000000c---a0.50.714286a---c0.50.714286a---b0.50.714286c---b0.50.714286b---a0.50.625000b---c0.50.625000a---c---e0.30.600000b---c---a0.30.600000a---c---b0.30.600000a---b---c0.30.600000知識(shí)儲(chǔ)備FP-GrowthFP-Growth算法不同于Apriori算法生成候選項(xiàng)集再檢查是否頻繁的“產(chǎn)生-測(cè)試”方法,而是使用一種稱為頻繁模式樹(FP-Tree,F(xiàn)P代表頻繁模式,F(xiàn)requentPattern)的菜單緊湊數(shù)據(jù)結(jié)構(gòu)組織數(shù)據(jù),并直接從該結(jié)構(gòu)中提取頻繁項(xiàng)集。相比于Apriori對(duì)每個(gè)潛在的頻繁項(xiàng)集都需要掃描數(shù)據(jù)集判定是否滿足支持度,F(xiàn)P-Growth算法只需要遍歷兩次數(shù)據(jù)集,因此它在大數(shù)據(jù)集上的速度顯著優(yōu)于Apriori。知識(shí)儲(chǔ)備FP-GrowthFP-Growth算法的基本步驟掃描數(shù)據(jù),得到所有1項(xiàng)頻繁一項(xiàng)集的計(jì)數(shù)。然后刪除支持度低于閾值的項(xiàng),將1項(xiàng)頻繁項(xiàng)集放入項(xiàng)頭表,并按照支持度降序排列。讀入排序后的數(shù)據(jù)集,插入FP樹,插入時(shí)將項(xiàng)集按照排序后的順序,插入FP樹中,排序靠前的節(jié)點(diǎn)是祖先節(jié)點(diǎn),而靠后的是子孫節(jié)點(diǎn)。如果有共用的祖先,則對(duì)應(yīng)的公用祖先節(jié)點(diǎn)計(jì)數(shù)加1。插入后,如果有新節(jié)點(diǎn)出現(xiàn),則項(xiàng)頭表對(duì)應(yīng)的節(jié)點(diǎn)會(huì)通過節(jié)點(diǎn)鏈表連接新節(jié)點(diǎn)。直到所有的數(shù)據(jù)都插入到FP樹后,F(xiàn)P樹的建立完成。知識(shí)儲(chǔ)備FP-GrowthFP-Growth算法的基本步驟從項(xiàng)頭表的底部項(xiàng)依次向上找到項(xiàng)頭表項(xiàng)對(duì)應(yīng)的條件模式基。從條件模式基遞歸挖掘得到項(xiàng)頭表項(xiàng)的頻繁項(xiàng)集。如果不限制頻繁項(xiàng)集的項(xiàng)數(shù),則返回步驟3所有的頻繁項(xiàng)集,否則只返回滿足項(xiàng)數(shù)要求的頻繁項(xiàng)集。知識(shí)儲(chǔ)備FP-Growth2.FP-Growth算法原理FP-Growth算法主要包含3個(gè)部分:掃描數(shù)據(jù)集建立項(xiàng)頭表、基于項(xiàng)頭表建立FP-tree和基于FP-tree挖掘頻繁項(xiàng)集。(1)建立項(xiàng)頭表要建立FP-tree首先需要建立項(xiàng)頭表,建立項(xiàng)頭表需要先對(duì)數(shù)據(jù)集進(jìn)行一次掃描,得到所有1項(xiàng)頻繁一項(xiàng)集的計(jì)數(shù),將低于設(shè)定的支持度閾值的項(xiàng)過濾掉后,將1項(xiàng)頻繁集放入項(xiàng)頭表并按照項(xiàng)集的支持度進(jìn)行降序排序。之后對(duì)數(shù)據(jù)集進(jìn)行第二次掃描,從原始數(shù)據(jù)中剔除1項(xiàng)非頻繁項(xiàng)集,并按照項(xiàng)集的支持度降序排序。知識(shí)儲(chǔ)備FP-Growth以一個(gè)含有10條數(shù)據(jù)的數(shù)據(jù)集為例,數(shù)據(jù)集中的數(shù)據(jù)如表所示。序號(hào)數(shù)據(jù)1A,B,C,E,F(xiàn),H2A,C,G3E,I4A,C,D,E,G5A,D,E,L6E,J7A,B,C,E,F(xiàn),P8A,C,D9A,C,E,G,M10A,C,E,G,K知識(shí)儲(chǔ)備FP-Growth對(duì)數(shù)據(jù)集進(jìn)行掃描,支持度閾值設(shè)為20%,由于H,I,L,J,K,P,M都僅出現(xiàn)一次,小于設(shè)定的20%的支持度閾值,因此將不進(jìn)入項(xiàng)頭表。將1項(xiàng)頻繁項(xiàng)集按降序排序后構(gòu)建的項(xiàng)頭表如表所示。頻繁項(xiàng)計(jì)數(shù)A8E8C7G4D3B2F2知識(shí)儲(chǔ)備FP-Growth第二次掃描數(shù)據(jù),將每條數(shù)據(jù)中的1項(xiàng)非頻繁項(xiàng)集刪去,并按照項(xiàng)集的支持度降序排列。如數(shù)據(jù)項(xiàng)“A,B,C,E,F(xiàn),H”,其中“H“為1項(xiàng)非頻繁項(xiàng)集,剔除后按項(xiàng)集的支持度降序排列后的數(shù)據(jù)項(xiàng)為“A,E,C,B,F(xiàn)”,得到排序后的數(shù)據(jù)集如表所示。序號(hào)數(shù)據(jù)1A,E,C,B,F(xiàn)2A,C,G3E4A,E,C,G,D5A,E,D6E7A,E,C,B,F(xiàn)8A,C,D9A,E,C,G10A,E,C,G知識(shí)儲(chǔ)備FP-Growth(2)建立FP-tree構(gòu)建項(xiàng)頭表并對(duì)數(shù)據(jù)集排序后,就可以開始建立FP-tree。建立FP-tree時(shí)按順序讀入排序后的數(shù)據(jù)集,插入FP-tree中時(shí)按照排序的順序插入,排序最為靠前的是父節(jié)點(diǎn),之后的是子孫節(jié)點(diǎn)。如果出現(xiàn)共同的父節(jié)點(diǎn),則對(duì)應(yīng)父節(jié)點(diǎn)的計(jì)數(shù)增加1次。插入時(shí)如果有新節(jié)點(diǎn)加入樹中,則將項(xiàng)頭表中對(duì)應(yīng)的節(jié)點(diǎn)通過節(jié)點(diǎn)鏈表鏈接接上新節(jié)點(diǎn)。直至所有的數(shù)據(jù)項(xiàng)都插入FP-tree后,F(xiàn)P-tree完成建立過程。知識(shí)儲(chǔ)備FP-Growth以建立項(xiàng)頭表的數(shù)據(jù)集為例,構(gòu)建FP-tree的過程如圖所示。知識(shí)儲(chǔ)備FP-Growth最終得到的FP-tree如圖所示。知識(shí)儲(chǔ)備FP-Growth(3)挖掘頻繁項(xiàng)集在構(gòu)建FP-tree、項(xiàng)頭表和節(jié)點(diǎn)鏈表后,需要從項(xiàng)頭表的底部項(xiàng)依次向上挖掘頻繁項(xiàng)集。這需要找到項(xiàng)頭表中對(duì)應(yīng)于FP-tree的每一項(xiàng)的條件模式基。條件模式基是以要挖掘的節(jié)點(diǎn)作為葉子節(jié)點(diǎn)所對(duì)應(yīng)的FP子樹。得到該FP子樹后,將子樹中每個(gè)節(jié)點(diǎn)的計(jì)數(shù)設(shè)置為葉子節(jié)點(diǎn)的計(jì)數(shù),并刪除計(jì)數(shù)低于最小支持度的節(jié)點(diǎn)。基于這個(gè)條件模式基就可以遞歸挖掘得到頻繁項(xiàng)集了。知識(shí)儲(chǔ)備FP-Growth以構(gòu)建F節(jié)點(diǎn)的條件模式基為例,F(xiàn)節(jié)點(diǎn)在FP-tree中只有一個(gè)子節(jié)點(diǎn),因此只有一條路徑{A:8,E:6,C:5,B:2,F:2},得到F節(jié)點(diǎn)的FP子樹如圖所示。知識(shí)儲(chǔ)備FP-Growth接著將所有的父節(jié)點(diǎn)的計(jì)數(shù)設(shè)置為子節(jié)點(diǎn)的計(jì)數(shù),即FP子樹變成{A:2,E:2,C:2,B:2,F:2}。通常條件模式基可以不寫子節(jié)點(diǎn),如圖所示。通過F節(jié)點(diǎn)的條件模式基可以得到F的頻繁2項(xiàng)集為{A:2,F:2}、{E:2,F:2}、{C:2,F:2}、{B:2,F:2}。將2項(xiàng)集遞歸合并得到頻繁3項(xiàng)集為{A:2,C:2,F:2}、{A:2,E:2,F:2}等等。最終遞歸得到最大的頻繁項(xiàng)集為頻繁5項(xiàng)集{A:2,E:2,C:2,B:2,F:2}。第三方工具庫(kù)項(xiàng)目中需要安裝的第三方工具庫(kù)如下:basemap:數(shù)據(jù)地圖的可視化工具庫(kù)geopy:地址編碼工具庫(kù)apyori:Apriori算法庫(kù)pyfpgrowth:FP-Growth算法庫(kù)第三方工具庫(kù)安裝basemap的步驟如下:在命令提示行輸入condainstallbasemap,如果安裝失敗,可采用如下1-4步完成。1、下載.whl文件:(1)pyproj-3.0.1-cp36-cp36m-win_amd64.whl(2)basemap-1.2.2-cp36-cp36m-win_amd64.whl注,這兩個(gè)文件均可在/~gohlke/pythonlibs/找到,需要特別注意的是版本號(hào)一定要對(duì)應(yīng)(比如多少位機(jī)器,什么版本的python)2、將下載好的.whl文件放在某個(gè)目錄下,如python的安裝目錄Scripts;第三方工具庫(kù)3、打開AnacondaPrompt,進(jìn)入.whl文件所在的目錄下,輸入pipinstallXXX安裝:4、測(cè)試是否安裝成功:frommpl_toolkits.basemapimportBasemapimportmatplotlib.pyplotasplt第三方工具庫(kù)安裝geopy

、apyori和pyfpgrowth的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論